• 흐림동두천 15.1℃
  • 흐림강릉 15.7℃
  • 흐림서울 16.5℃
  • 흐림대전 19.4℃
  • 흐림대구 19.1℃
  • 흐림울산 19.5℃
  • 흐림광주 22.1℃
  • 흐림부산 21.7℃
  • 구름많음고창 23.2℃
  • 맑음제주 26.3℃
  • 흐림강화 15.4℃
  • 흐림보은 18.0℃
  • 구름많음금산 19.7℃
  • 흐림강진군 23.0℃
  • 흐림경주시 18.6℃
  • 흐림거제 21.8℃
기상청 제공

AI platform

AI 검색 정확도 평가 2위 챗GPT...1위는 누구?

미국 WP 등 9개 AI 도구 대상으로 테스트
구글 AI 모드 100점 만점에 60.2점 1위

URL복사

투데이e코노믹 = 우혜정 기자 | 인공지능(AI) 검색 도구 평가에서 구글의 ‘AI 모드’가 가장 정확한 답변을 제공하는 것으로 나타났다. 미국 워싱턴포스트(WP)가 공공·대학 도서관 사서들과 함께 9개 AI 도구를 대상으로 진행한 테스트 결과다.

 

이번 테스트에는 구글 AI 모드와 AI 오버뷰, 오픈AI의 챗GPT(GPT-5·GPT-4 터보), 앤스로픽의 클로드, 메타 AI, 일론 머스크의 그록(xAI), 퍼플렉시티, 마이크로소프트의 빙 코파일럿 등 주요 AI가 참여했다. 평가단은 30개 질문을 던져 총 900건의 답변을 채점했으며, 퀴즈·전문 자료 검색·최근 사건·편향성·이미지 인식 등 다섯 영역에 집중했다.


그 결과 구글 AI 모드가 100점 만점에 60.2점으로 1위를 차지했다. GPT-5 기반 챗GPT는 55.1점으로 2위, 퍼플렉시티는 51.3점으로 3위에 올랐다. 반면 메타 AI는 33.7점으로 최하위, 그록3는 40.1점에 머물렀다.

 

"자신있게 잘못된 정보 내놓는 AI 할루시네이션 여전"



세부 영역별로는 구글 AI 모드가 최신 사건과 퀴즈에서 두각을 나타냈으며, 빙 코파일럿은 전문 자료 검색, 퍼플렉시티는 이미지 인식에서 강점을 보였다. GPT-4 터보는 가장 편향이 적은 답변을 내놓은 것으로 평가됐다. GPT-5는 전반적으로 성능 향상을 보여 2위에 올랐지만 일부 영역에서는 전작인 GPT-4보다 낮은 점수를 기록했다.


다만 WP는 “AI가 여전히 최신 정보 반영과 신뢰할 만한 출처 판단에 취약하며, 자신 있게 잘못된 답을 내놓는 ‘할루시네이션’ 문제가 반복된다”고 지적했다. 이어 “이번 평가는 의도적으로 AI의 약점을 공략했지만, 일상적인 질문에서도 AI의 한계가 드러났다”며 “결국 사용자는 AI 답변을 무비판적으로 받아들이지 말고 출처와 최신성을 직접 확인하는 습관이 필요하다”고 강조했다.