(사진=AFP)
이러한 격차는 미국 정부가 지난 12일 미토스5를 수출관리 대상으로 지정하고, 앤스로픽이 같은 날 서비스 제공을 중단하는 데 영향을 미쳤다는 분석이다. 안전 대책을 강화해 일반 이용자들에게 공개했던 ‘클로드 페이블 5’도 함께 제공이 중단됐다.
SWE-벤치 프로는 미국 스케일AI가 공개한 시험으로, AI가 엔지니어처럼 장시간 연속해서 일할 수 있는 능력을 측정한다. 일반적으로 정답률이 5%포인트가량 벌어지면 성능 차이가 드러난다고 보는데, 미토스5와 경쟁 모델 간 20%포인트를 웃도는 격차는 한 세대로는 좁히기 어려운 큰 차이라는 게 닛케이의 설명이다.
컴퓨터에서 브라우저나 앱을 조작해 작업하는 능력, 단말기에서 시스템 환경을 구축하는 능력을 측정하는 시험에서도 미토스5는 GPT-5.5와 제미나이를 앞섰다.
특히 주목되는 것은 사이버 공격 능력이다. 영국 정부 산하 AI안전연구소(AISI)가 지난달 중순 실시한 시험에서는 한 세대 전 모델인 ‘미토스 프리뷰’가 GPT-5.5를 근소하게 웃도는 정도였다. 그러나 이번에 격차가 크게 벌어진 것은 미토스가 복잡한 작업에 강하기 때문이라고 닛케이는 분석했다.
AISI 시험 과제는 사람이 6~20시간 걸리는 작업인 반면, 버그 수정 능력을 재는 시험은 사람 손으로 며칠이 걸리는 작업이 중심이다. 미토스5와 GPT-5.5는 사람이 몇 시간 만에 끝낼 작업에서는 차이가 거의 없지만, 작업이 복잡하고 길어질수록 미토스의 우위가 두드러진다.
버그 수정처럼 오랜 시간 끈질기게 복잡한 작업을 이어가는 능력은 실제 사이버 공격의 정밀도를 끌어올릴 수 있다. 미국 정부가 수출관리 카드를 꺼낸 데에는 미토스5의 사이버 대응 능력이 오픈AI·구글을 크게 웃도는 수준에 이른 점이 한몫한 것으로 보인다. 적대국이 악용하면 안보를 위협할 수 있다고 판단한 것이다.
다만 앤스로픽은 지난 4월 공개한 ‘미토스 프리뷰’에 대해서는 제공 상황을 밝히지 않고 있다. 이 모델은 일본 3대 대형은행과 히타치제작소, 트렌드마이크로 등이 접근 권한을 확보한 상태로, 일부 일본 기업 사이에서는 “프리뷰는 계속 쓸 수 있다”는 목소리도 나온다.
AI의 진화 속도는 매우 빠르다. 다리오 아모데이 앤스로픽 최고경영자(CEO)는 중국 AI도 6~12개월 뒤면 미토스를 따라잡을 것이라고 지적한 바 있다. 오픈AI는 지난 22일 사이버 보안 능력에 특화한 ‘GPT-5.5 사이버’를 갱신해, 사이버 공격 능력을 재는 시험 가운데 하나인 ‘사이버짐’에서 미토스5를 근소하게 앞섰다고 발표했다.
닛케이는 오픈AI나 구글 등 다른 미국 AI도 미토스5급 능력에 도달하면 미국 정부의 수출 금지 대상이 될 수 있다고 내다봤다.









