WP "가장 정확한 AI 답변은 '구글 AI 모드'…챗GPT·퍼플렉 제쳐"

IT/과학

뉴스1,

2025년 8월 29일, 오전 10:58

구글 AI 모드(구글 제공)

워싱턴포스트(WP)가 미국 공공·대학 도서관 사서들과 함께 주요 인공지능(AI) 검색 도구를 테스트한 결과 가장 정확한 답을 한 건 구글의 'AI 모드'였다고 27일(현지시간) 보도했다.

WP와 사서들은 AI 기반 검색 도구 9개를 대상으로 진행한 실험 결과를 공개했다.

검색 도구 9개는 △AI 모드(구글) △AI 오버뷰(구글) △GPT-5(오픈AI) △GPT-4 터보(오픈AI) △클로드(앤트로픽) △메타AI(메타) △그록3(xAI) △퍼플렉시티(퍼플렉시티) △빙 코파일럿(마이크로소프트) 등이다.

WP는 AI에 30개의 까다로운 질문으로 받은 답변 900건을 점수화했다. 모든 AI 도구는 무료 기본 버전(7~8월 기준)으로만 테스트했고 질문은 △퀴즈 △전문 자료 검색 △최근 사건 △내재된 편향(편견) △이미지 인식 등 5가지로 구분했다.

테스트 결과 구글 AI 모드가 60.2점(100점 만점)으로 가장 높은 점수를 받았다. GPT-5가 55.1점으로 2위를, 퍼플렉시티가 51.3점으로 3위를 차지했다. 일론 머스크의 그록3는 40.1점으로 8위, 메타 AI는 33.7점으로 낮은 점수를 기록했다. 최신 버전인 그록4는 무료 버전이 없어 평가 대상에서 제외됐다.

구글 AI 모드는 퀴즈와 최신 사건 부문에서 상대적으로 정확한 답을 제시했다. 전문 출처 검색에서는 빙 코파일럿, 이미지 인식에서는 퍼플렉시티가 상대적으로 높은 점수를 받았다.

GPT-5는 전반적으로 개선된 성능을 보여 종합 2위를 기록했지만 일부 항목에선 GPT-4보다 오히려 낮은 점수를 받았다.

WP는 "실험은 현재 무료로 제공되는 주요 AI 서비스들의 실력을 객관적으로 비교했다는 점에서 의미가 있다"며 "AI가 제공하는 답변을 그대로 믿기보다는 책을 찾는 사서처럼 출처를 확인하고 최신성을 검증하는 과정이 필요하다"고 말했다.

이어 "AI는 복잡한 질문의 답을 구하는 좋은 도구가 될 수도 있지만 AI는 어떤 출처가 권위 있고 최신인지, 어떤 출처를 참조하는 게 가장 적절한지 알지 못할 수 있다"며 "출처 확인, 최신성 검증, 비판적 사고 없이는 정확한 지식이 아닌 잡음만 얻을 수 있다"고 했다.

ideaed@news1.kr

추천 뉴스