
(MHN 이주환 기자) AI 검색 도구를 놓고 ‘누가 가장 정확하냐’를 따진 비교 평가 결과가 공개됐다.
지난 27일(현지시간) 워싱턴포스트(WP)는 미국 공공·대학 도서관 사서들과 함께 9개 AI 검색 도구를 상대로 자체적인 성능 테스트를 진행한 결과, 구글의 ‘AI 모드’가 가장 높은 정확도를 기록했다고 보도했다.
검증에는 구글 AI 모드·AI 오버뷰, 오픈AI 챗GPT(GPT-5·GPT-4 터보), 앤스로픽 클로드, 메타 AI, xAI 그록, 퍼플렉시티, 마이크로소프트 빙 코파일럿이 참여했으며, 7~8월 기준 무료 버전만 사용됐다.

WP는 AI에게 퀴즈, 전문 자료 검색, 최근 사건, 내재된 편향(편견), 이미지 인식 등 5개 영역에서 30개의 까다로운 질문을 던지고, 도출된 900건의 답변을 점수화했다.
결과적으로 구글 AI 모드는 100점 만점에 60.2점으로 1위를 차지했고, GPT-5 기반 챗GPT가 55.1점으로 2위, 퍼플렉시티가 51.3점으로 3위에 올랐다.
일론 머스크의 그록3는 40.1점으로 8위, 메타 AI는 33.7점으로 최하위를 기록했다. 그록 최신 모델인 그록4는 무료 버전 부재로 평가 대상에서 제외됐다.

세부 항목별 강점도 갈렸다. 구글 AI 모드는 퀴즈와 최신 사건에서 두각을 드러냈고, 권위 있는 전문 출처 탐색은 빙 코파일럿이, 이미지 인식은 퍼플렉시티가 우세했다. GPT-4 터보는 가장 치우침이 적은 균형 잡힌 응답을 내놨다.
GPT-5는 전반적으로 성능 향상이 확인돼 2위에 올랐지만, 일부 영역에서는 오히려 GPT-4 대비 낮은 점수를 받았다.
WP는 이번 평가가 AI의 취약점을 겨냥해 설계됐음에도 일상적 질문 상당수에서 여전히 제대로 답하지 못한 점을 지적했다. 특히 최신성 판단과 출처 신뢰도 평가에 약해, 때로는 틀린 정보를 자신 있게 제시하는 문제가 확인됐다.
WP는 "출처 확인, 최신성 검증, 비판적 사고 없이는 정확한 지식 대신 잡음만 얻을 수 있다"고 강조했다.
결국 사용자 입장에선 AI 답변을 곧이곧대로 받아들이기보다, 링크·출처 비교와 시점 확인, 교차 검증을 거쳐 ‘검색 사고력’을 더하는 것이 안전하다는 조언이 나온다.
AI가 검색의 전부가 되기는 아직 이르지만, 각 도구의 특화 영역을 이해하고 상황에 맞게 조합하면 ‘더 나은 답’에 접근할 수 있다는 평가다.
사진=AP News, 로이터 통신