• 흐림동두천 1.0℃
  • 흐림강릉 1.3℃
  • 서울 3.2℃
  • 대전 3.3℃
  • 대구 6.8℃
  • 울산 6.6℃
  • 광주 8.3℃
  • 부산 7.7℃
  • 흐림고창 6.7℃
  • 흐림제주 10.7℃
  • 흐림강화 2.2℃
  • 흐림보은 3.2℃
  • 흐림금산 4.4℃
  • 흐림강진군 8.7℃
  • 흐림경주시 6.7℃
  • 흐림거제 8.0℃
기상청 제공

AI platform

“라디오에 신해철이?”…세상에 없는 목소리도 만들어내는 ‘AI 음성 합성’ 기술

사람 말소리 기계가 합성하는 '음성합성' 기술 이용
유명인 목소리 합성해 네이게이션, 오디오북 등에도 활용 가능
로봇에 목소리 부여...인공지능이 고객 응대하는 'AI상담봇'에 활용 활발

URL복사

 

[투데이e코노믹 = 이지혜 기자] 고인의 목소리를 복원하는 것은 물론, 로봇이 고객에게 자연스러운 전화 응대를 하는 일도 가능해졌다. 인공지능(AI)으로 음성을 합성해내는 기술 덕분이다.

 

음성합성(TTS·Text-to-Speech) 기술은 사람의 말소리를 기계가 합성해주는 것을 말한다.

 

이 기술을 사용하면 그리운 고인의 목소리를 복원해 다시 듣거나, 유명인의 목소리를 합성해 네비게이션‧오디오북 등 홍보에 활용할 수 있다.

 

KT는 지난 12일 자체 개발한 개인화 음성합성 기술(P-TTS)를 활용, 고(故) 신해철 씨의 음성을 복원했다고 밝혔다. 이 목소리는 ‘AI DJ, 신해철과의 만남’ 라디오 방송 제작에 활용됐으며, 기가지니와 KT유튜브 채널에서 확인할 수 있다.

 

P-TTS 기술을 딥러닝을 이용해 짧은 시간의 음성 데이터로 특정 인물의 목소리를 합성할 수 있다. KT는 신 씨가 2001년부터 2012년까지 11년간 진행했던 ‘고스트 스테이션’ 라디오 방송 데이터를 AI에게 학습시키는 방식을 사용했다고 설명했다. 단순히 문장을 발음하는 수준을 넘어 발화 패턴이나 억양까지 학습해 신 씨가 자연스럽게 말하는 것 같은 목소리를 구현했다.

 

스타트업 자이냅스는 돌아가신 부모님 등 고인의 음성을 AI로 합성, 영상 편지를 받을 수 있는 서비스 ‘AI 메모리얼(추모) 서비스’를 시작할 예정이다. 자이냅스는 고인이 생전 녹음한 영상이나 음성파일 등에서 최소 65문장만 확보할 수 있다면, AI가 30분 학습하는 것만으로 가상 음성을 생성할 수 있는 기술을 가지고 있다.

 

자이냅스는 이 같은 기술을 활용해 유명인이 네비게이션 안내를 해주는 서비스를 선보이기도 했다. T맵이 제공하고 있는 개그우먼 안영미, 가수 이무진 등의 길안내 목소리에 활용됐다.

 

주동원 자이냅스 대표는 23일 본지와의 통화에서 “음성합성 기술과 더불어 사진을 이용한 영상합성기술과 결합, 돌아가신 분을 되살리는 것 같은 경험을 제공할 수 있다”면서 “정서적인 면이 많이 고려되어야 하는 서비스기 때문에, 기존 장례 서비스 등과 연계해 시작하려고 계획 중”이라고 설명했다.

 

KT도 자회사 지니뮤직이 인수한 ‘밀리의 서재’에 P-TTS 기술을 연내 적용할 계획이다. 지금까지는 성우나 연기자가 책을 읽으면서 녹음을 해야만 오디오북 음성 제공이 가능했지만, 해당 기술을 사용하면 별도의 녹음과정 없이도 고객이 다양한 목소리를 선택할 수 있을 것으로 기대된다.

 

유명인뿐만 아니라 부모의 목소리로 아이에게 들려줄 동화책 녹음도 가능해진다. 앞서 KT가 지난 2019년 내놓은 ‘내 목소리 동화’ 서비스는 총 300문장을 녹음하면 P-TTS 기술을 통해 오디오 동화책을 만들 수 있는 경험을 선보인 바 있다. 추가 녹음 필요 없이 동화책을 추가할 때마다 새 동화를 부모의 목소리로 자녀에게 들려줄 수 있다.

 

 

음성인식+음성합성 기술...로봇이 고객 전화 응대

 

음성합성 기술은 로봇이 사람과 자연스러운 대화를 할 수 있도록 해주어 고객 상담‧민원 응대 서비스 등에 활용되기도 한다.

 

카카오엔터프라이즈는 음성 AI 엔진을 활용해 고객 상담을 지원하고 상담원 업무를 효율화해주는 서비스 ‘AI 전화 음성봇’을 운영 중이다. 고도화된 음성인식, 음성합성 및 자연어 이해 기술이 적용돼 실제 사람과 대화하는 것처럼 자연스러운 대화 경험을 제공해준다.

 

해당 서비스는 지난 8일 현대백화점에 제공됐다. 추석 시즌 상담원이 고객에게 전화를 걸어 주소지와 배송 일자를 일일이 확인해야 하는 작업에 투입, 일손을 덜어주는 효과가 있었다.

 

네이버도 클로바 엔진을 통해 고객의 음성을 인식하고, 음성합성 기술을 통해 자연스러운 음성으로 고객 응대를 할 수 있는 기술을 보유하고 있다. ‘클로바 AiCall’은 병원, 식당, 리테일 등에 적용 가능하며 고객에게 걸려오는 전화를 응대한다.

 

신한은행은 네이버 클로바 엔진을 활용해 AI 상담사 ‘쏠리’를 운영 중이다. 은행에서 고객에게 전화를 거는 ‘아웃바운드’ 업무 95%를 AI 상담으로 대체했으며, 고객이 은행에 전화를 걸어 문의하는 ‘인바운드’ 업무까지 확장되어 일평균 4~8만콜 중 약 50%를 AI가 상담할 수 있게 됐다.

 

주동원 자이냅스 대표는 “음성합성기술은 화자의 의도를 파악해 적절한 답변을 찾아낼 수 있는 자연어 처리 기술, 음성인식 기술, 음성합성 기술 등 여러 요소가 합쳐졌을 때 파워를 가질 수 있다”면서 “사람 대신 인공지능이 소통할 수 있는 커뮤니케이션 기술을 위해 연구활동을 하고 있다”고 말했다.

 

더불어 “보이스피싱이나 유명인의 목소리를 악의적으로 사용하는 부정적 활용 가능성도 분명히 있기 때문에, 음성합성 자체 기술만 놓고 본다면 시장 성장에 제한이 있을 수 있다. 애니메이션 등 다른 기술과 융합됐을 때 성장성이 있을 것”이라고 전망했다.