코드를 쓰는 AI는 빠르게 진화하고 있지만, 코드를 ‘고치는’ 능력에서는 인간을 넘지 못했다. 마이크로소프트(MS)의 최신 연구에 따르면, 대표적인 인공지능(AI) 모델 9종이 디버깅 전용 테스트에서 절반 이하의 성공률에 그치며 디버깅이 여전히 인간 중심의 영역임을 입증했다.
![]() [코리안투데이] 디버깅 벤치마크 결과 (사진=MS) ©변아롱 기자 |
이번 연구는 소프트웨어 개발 실무에서 가장 까다로운 영역 중 하나로 꼽히는 디버깅에 대한 AI의 능력을 검증하기 위해 진행됐다. 연구팀은 ‘프롬프트 기반 디버깅 에이전트’를 설계한 뒤, 여기에 GPT 계열, 클로드, 제미나이 등 대표적인 AI 모델들을 장착해 총 300개의 오류 해결 과제를 부여했다. 테스트는 ‘SWE-bench Lite’라는 공개 벤치마크 환경에서 이뤄졌다.
결과는 냉정했다. 성공률이 가장 높았던 모델은 앤트로픽의 ‘클로드 3.7 소네트’로 48.4%, 오픈AI의 GPT 계열 중 가장 높은 성능을 보인 ‘o1’은 30.2%, ‘o3-미니’는 22.1%였다. 대다수 모델이 절반 이상의 오류를 해결하지 못한 셈이다. 이러한 결과는 단순한 성능 문제를 넘어, AI가 아직 인간의 추론 방식—특히 ‘디버깅적 사고’—를 학습하지 못하고 있음을 보여준다. 디버깅은 단순한 코드 수정이 아니라, 문제 상황을 역추적하고, 가능성을 좁혀나가며, 가설을 검증해가는 고도의 논리적 추론 과정이기 때문이다.
연구진은 실패 원인을 ‘학습 데이터의 질적 한계’로 지목했다. 대형언어모델은 주로 정적 코드 스니펫, 문서, 블로그, 깃허브 코드 등에서 학습되는데, 실제 디버깅 과정—즉, 개발자들이 어떻게 문제를 인식하고, 툴을 조작하며, 해결에 이르는지를 담은 ‘행동 시퀀스’ 데이터는 거의 없다.
이를 보완하기 위해 MS 리서치팀은 앞으로의 AI 훈련은 ‘행동 궤적(trajectory)’ 기반의 시뮬레이션 학습이 필요하다고 강조했다. 단순히 ‘정답 코드’를 학습하는 것이 아니라, 개발자가 IDE, 디버거, 로그 분석 도구를 통해 어떤 순서로 판단하고 조치를 취하는지를 학습해야 한다는 것이다. 이 결과는 AI 코드 도우미가 활발히 확산되고 있는 현 시점에서, AI가 인간 개발자를 완전히 대체하기는 어렵다는 기술적 경고이기도 하다.
앞서 순다 피차이 구글 CEO는 2023년 10월 “신규 코드의 25%는 이미 AI가 작성한다”고 밝혔고, 마크 저커버그 메타 CEO도 “AI 기반 코딩 도입을 전사적으로 확대한다”고 선언했다. 하지만 이번 실험은 AI가 ‘코드 생성’은 잘해도, ‘문제 해결’에는 여전히 서툴다는 점을 뚜렷하게 보여줬다.
업계는 이 결과를 두고, AI가 넘지 못한 마지막 벽 중 하나가 ‘디버깅 직관’이라는 점에 주목하고 있다. 어떤 문제는 로그 한 줄로 감을 잡고, 어떤 에러는 주변 코드의 숨은 의도를 읽어야만 해결된다. 이러한 ‘맥락적 사고’와 ‘우회 추론’은 아직까지 인간 개발자의 고유 영역으로 남아있다.
<저작권자 ⓒ 코리안투데이(The Korean Today) 무단전재 및 재배포 금지>