투데이e코노믹 = 우혜정 기자 | GPT 개발사 오픈AI와 마이크로소프트(MS)가 중국 인공지능(AI) 스타트업 딥시크가 자사의 데이터를 무단으로 수집해 AI 훈련에 활용했을 가능성에 대해 조사에 나섰다. 딥시크의 AI 모델은 저렴한 비용에 챗GPT에 맞먹는 성능으로 전 세계적인 화제를 일으켰는데 이런 기술이 오픈AI의 데이터를 도용해 가능했을 것이라는 의혹이 저기돼 왔다.
지난 29일(현지시간) 블룸버그 통신과 월스트리트저널(WSJ) 등에 따르면 오픈AI와 MS는 딥시크와 관련된 그룹이 허가 없이 오픈AI의 데이터를 무단으로 사용했는지에 대해 조사하고 있다.
오픈AI는 중국에 기반을 둔 기관들이 자사의 AI 도구에서 대량의 데이터를 빼내려고 하는 여러 시도를 목격했다고 설명했다. 그리고 이는 '증류'(distillation)라고 불리는 기술적 과정을 통해 자체 모델을 훈련하기 위한 것으로 판단된다고 덧붙였다. 증류는 AI 모델이 다른 모델의 출력 결과를 훈련을 위해 이용, 유사한 기능을 개발하는 것을 뜻한다.
MS 보안 연구원들도 지난해 가을 딥시크 관계자로 추정되는 사람들이 오픈AI 애플리케이션 프로그래밍 인터페이스(API)를 사용해 대량의 데이터를 빼돌리는 것을 확인했다고 말했다. API는 소프트웨어 개발자들이 AI 기능을 자신들의 프로그램이나 앱에 넣을 수 있게 해주는 도구인데 오픈AI는 중국에서 자사 API를 사용하는 것을 금지하고 있다. 특히 오픈AI는 경쟁사가 자사 데이터를 이용해 유사한 기술을 구축하는 것을 허용하지 않고 있다.
딥시크 'R1' 저렴한 비용에 챗GPT 맞먹는 기능 화제
앞서 딥시크는 지난 20일 추론 특화 모델 ‘딥시크-R1’을 출시했다. 지난해 12월 공개한 모델 V3를 파인튜닝(미세조정)해 만들어진 모델로, 회사에 따르면 오픈AI의 추론 모델 ‘o1’과 동등한 성능을 가졌으며, 미국 수학경시대회인 AIME 2024 벤치마크 테스트에서 R1이 79.8%의 정확도를 기록해 o1(79.2%)을 앞섰다.
사전연구와 실험을 제외하고 R1 모델 훈련에 투입한 비용은 557만6000달러(약 78억8000만원)로 메타가 최신 AI 모델인 라마(Llama)3 훈련을 위해 들인 비용의 10분의 1 수준인 것으로 알려졌다.
오픈AI는 "딥시크가 자사의 "데이터를 무단으로 수집했을 가능성이 있다"며, "서비스 약관을 위반했다는 증거를 검토하고 있다"고 밝혔다.
또 "적과 경쟁자가 가장 강력한 미국 기술을 탈취하려는 노력을 막기 위해 미국 정부와 긴밀히 협력하는 것이 매우 중요하다"며 "중국 기반 기업들이 주요 미국 AI 기업의 모델을 지속적으로 증류하려고 노력하고 있다"고 강조했다.
앞서 지난 28일 도널드 트럼프 행정부의 AI·가상화폐 차르인 데이비드 색스도 폭스뉴스와 인터뷰에서 "딥시크가 오픈AI의 독점 모델을 이용해 기술을 개발했다는 상당한 증거가 있다"며 미국에서 지식 재산을 훔쳤는지 묻는 질문에 "가능하다"고 말했다.