AI 검색 정확도 평가 2위 챗GPT...1위는 누구?

  • 등록 2025.09.01 12:48:12
크게보기

미국 WP 등 9개 AI 도구 대상으로 테스트
구글 AI 모드 100점 만점에 60.2점 1위

투데이e코노믹 = 우혜정 기자 | 인공지능(AI) 검색 도구 평가에서 구글의 ‘AI 모드’가 가장 정확한 답변을 제공하는 것으로 나타났다. 미국 워싱턴포스트(WP)가 공공·대학 도서관 사서들과 함께 9개 AI 도구를 대상으로 진행한 테스트 결과다.

 

이번 테스트에는 구글 AI 모드와 AI 오버뷰, 오픈AI의 챗GPT(GPT-5·GPT-4 터보), 앤스로픽의 클로드, 메타 AI, 일론 머스크의 그록(xAI), 퍼플렉시티, 마이크로소프트의 빙 코파일럿 등 주요 AI가 참여했다. 평가단은 30개 질문을 던져 총 900건의 답변을 채점했으며, 퀴즈·전문 자료 검색·최근 사건·편향성·이미지 인식 등 다섯 영역에 집중했다.


그 결과 구글 AI 모드가 100점 만점에 60.2점으로 1위를 차지했다. GPT-5 기반 챗GPT는 55.1점으로 2위, 퍼플렉시티는 51.3점으로 3위에 올랐다. 반면 메타 AI는 33.7점으로 최하위, 그록3는 40.1점에 머물렀다.

 

"자신있게 잘못된 정보 내놓는 AI 할루시네이션 여전"



세부 영역별로는 구글 AI 모드가 최신 사건과 퀴즈에서 두각을 나타냈으며, 빙 코파일럿은 전문 자료 검색, 퍼플렉시티는 이미지 인식에서 강점을 보였다. GPT-4 터보는 가장 편향이 적은 답변을 내놓은 것으로 평가됐다. GPT-5는 전반적으로 성능 향상을 보여 2위에 올랐지만 일부 영역에서는 전작인 GPT-4보다 낮은 점수를 기록했다.


다만 WP는 “AI가 여전히 최신 정보 반영과 신뢰할 만한 출처 판단에 취약하며, 자신 있게 잘못된 답을 내놓는 ‘할루시네이션’ 문제가 반복된다”고 지적했다. 이어 “이번 평가는 의도적으로 AI의 약점을 공략했지만, 일상적인 질문에서도 AI의 한계가 드러났다”며 “결국 사용자는 AI 답변을 무비판적으로 받아들이지 말고 출처와 최신성을 직접 확인하는 습관이 필요하다”고 강조했다.

우혜정 기자 wclefnote@todayeconomic.com
Copyright @2020 투데이e코노믹 Corp. All rights reserved.




제호 : 투데이e코노믹 | 서울특별시 강서구 강서로 385, 8층 804-27호(마곡동, 우성에스비타워) 등록번호 : 서울,아52937 | 등록일/발행일 : 2020년 3월 9일 | 발행인/편집인 : 박재형 | 전화번호 : 010-2491-8008 | 운영사 : JH미디어 | 전화번호 : 070-4045-5491 Copyright ©2020 투데이e코노믹. All rights reserved. 「열린보도원칙」 본 매체는 독자와 취재원 등 뉴스이용자의 권리 보장을 위해 반론이나 정정보도, 추후보도를 요청할 수 있는 창구를 열어두고 있음을 알려드립니다. 고충처리인 l 우혜진 070-4045-5491 l wh5222@todayeconomic.com