뉴스펍

[이데일리 방성훈 기자] 미국 앤스로픽의 최신 인공지능(AI) 모델 ‘미토스’(Mythos)가 시스템의 버그(오류)를 고치는 테스트에서 정답률 80%를 넘기며 압도적 성능을 입증했다. 오픈AI·구글의 AI 모델과 무려 20%포인트 이상 격차를 냈다. 미국 정부가 해당 모델에 대해 ‘수출 금지’ 카드를 꺼내 들 만큼 위험한 성능이 확인된 셈이다. 앤스로픽은 현재 미토스 서비스 제공을 중단한 상태다.

(사진=AFP)

23일 니혼게이자이(닛케이)신문에 따르면 앤스로픽이 미국시간으로 지난 9일 공개한 최신 모델 ‘클로드 미토스 5’는 대규모 코드를 읽어 들여 버그를 수정하는 시험 ‘SWE-벤치 프로’에서 정답률 80.3%를 기록했다. 같은 시험에서 오픈AI의 최신 모델 ‘GPT-5.5’는 58.6%, 구글의 ‘제미나이3.5 플래시’는 55.1%에 그쳤다. 미토스5보다 각각 21.7%포인트, 25.2%포인트 낮은 점수다.

이러한 격차는 미국 정부가 지난 12일 미토스5를 수출관리 대상으로 지정하고, 앤스로픽이 같은 날 서비스 제공을 중단하는 데 영향을 미쳤다는 분석이다. 안전 대책을 강화해 일반 이용자들에게 공개했던 ‘클로드 페이블 5’도 함께 제공이 중단됐다.

SWE-벤치 프로는 미국 스케일AI가 공개한 시험으로, AI가 엔지니어처럼 장시간 연속해서 일할 수 있는 능력을 측정한다. 일반적으로 정답률이 5%포인트가량 벌어지면 성능 차이가 드러난다고 보는데, 미토스5와 경쟁 모델 간 20%포인트를 웃도는 격차는 한 세대로는 좁히기 어려운 큰 차이라는 게 닛케이의 설명이다.

컴퓨터에서 브라우저나 앱을 조작해 작업하는 능력, 단말기에서 시스템 환경을 구축하는 능력을 측정하는 시험에서도 미토스5는 GPT-5.5와 제미나이를 앞섰다.

특히 주목되는 것은 사이버 공격 능력이다. 영국 정부 산하 AI안전연구소(AISI)가 지난달 중순 실시한 시험에서는 한 세대 전 모델인 ‘미토스 프리뷰’가 GPT-5.5를 근소하게 웃도는 정도였다. 그러나 이번에 격차가 크게 벌어진 것은 미토스가 복잡한 작업에 강하기 때문이라고 닛케이는 분석했다.

AISI 시험 과제는 사람이 6~20시간 걸리는 작업인 반면, 버그 수정 능력을 재는 시험은 사람 손으로 며칠이 걸리는 작업이 중심이다. 미토스5와 GPT-5.5는 사람이 몇 시간 만에 끝낼 작업에서는 차이가 거의 없지만, 작업이 복잡하고 길어질수록 미토스의 우위가 두드러진다.

버그 수정처럼 오랜 시간 끈질기게 복잡한 작업을 이어가는 능력은 실제 사이버 공격의 정밀도를 끌어올릴 수 있다. 미국 정부가 수출관리 카드를 꺼낸 데에는 미토스5의 사이버 대응 능력이 오픈AI·구글을 크게 웃도는 수준에 이른 점이 한몫한 것으로 보인다. 적대국이 악용하면 안보를 위협할 수 있다고 판단한 것이다.

다만 앤스로픽은 지난 4월 공개한 ‘미토스 프리뷰’에 대해서는 제공 상황을 밝히지 않고 있다. 이 모델은 일본 3대 대형은행과 히타치제작소, 트렌드마이크로 등이 접근 권한을 확보한 상태로, 일부 일본 기업 사이에서는 “프리뷰는 계속 쓸 수 있다”는 목소리도 나온다.

AI의 진화 속도는 매우 빠르다. 다리오 아모데이 앤스로픽 최고경영자(CEO)는 중국 AI도 6~12개월 뒤면 미토스를 따라잡을 것이라고 지적한 바 있다. 오픈AI는 지난 22일 사이버 보안 능력에 특화한 ‘GPT-5.5 사이버’를 갱신해, 사이버 공격 능력을 재는 시험 가운데 하나인 ‘사이버짐’에서 미토스5를 근소하게 앞섰다고 발표했다.

닛케이는 오픈AI나 구글 등 다른 미국 AI도 미토스5급 능력에 도달하면 미국 정부의 수출 금지 대상이 될 수 있다고 내다봤다.

"너무 뛰어나 막혔다"…'미토스' 버그수정서 GPT·제미나이 '압도'

해외

추천 뉴스