티스토리 뷰

개발 지식 정리

음성 합성 기술

CIA_secu 2022. 3. 14. 14:56
728x90
SMALL

기계가 사람을 모방하는 시대를 넘어설까요?

가까운 미래에는 아예 봇이 사람을 대신하는 시대가 올 것입니다.

그 미래를 보여주기라도 하듯 2018년 구글은 듀플렉스(Duplex) 서비스를 통해 봇이 사람 대신 헤어숍이나 레스토랑에 전화를 걸어 복잡한 대화를 이해하고 예약을 마무리하는 것을 시연했습니다. 이건 단편적인 기술만으로 상대방이 사람인지 기계인지를 판별하는 것 자체가 불가능해질 것을 의미합니다.

네이버 클로바는 NES라는 음성 합성 기술을 최근 발표했는데요. 이는 40분 정도의 실제 사람 음성을 녹음하면, 그 사람의 음성에 가까운 합성음을 손쉽게 제작할 수 있는 기술입니다. 유명 연예인들의 음성으로 보이스 챗봇을 만드는 것도 손쉽게 가능하겠죠?

최근에는 고객서비스센터의 전화상담 서비스도 봇이 대체하기 시작했습니다. 기존의 고객상담 채팅 봇은 단순한 질문에 간단한 답만 해줄 수 있었던 반면, 요즘은 복잡한 고객 클레임에 관련 부서로 전화연결하고, 필요한 해결 방안을 제안할 수 있는 수준까지 가능하다고 하네요.

이런 기술이 발전하면 우리 사람들은 상대편이 기계인지 인간인지도 모르는 상태에서 같이 일하게 되고, 영화 <그녀(Her)>에서처럼 OS를 사랑하게 되는 날이 올지도 모르겠습니다. 기계와 인간을 구분하는 이런 기술들이 더 이상 효과가 없어진다면 어떤 일이 벌어지게 될까요?


https://m.blog.naver.com/clova_ai/221697920511

 

[CLOVA AI] 클로바 보이스의 NES 기술

클로바 보이스 - NES 편 네이버 클로바 앱이나 스마트 스피커 밖에서도 클로바의 인공지능 기술을 만날 ...

blog.naver.com

네이버 클로바의 음성 합성 기술, Clova Voice

Clova Voice는 짧은 분량의 녹음 시간으로도 자연스럽게 완성된 목소리를 구현하는 기술을 갖추고 있습니다.

네이버 클로바의 음성 합성 기술 중 하나인 NES 기술에 대해 알아볼게요.

NES 기술?

어떤 점이 좋을까요?

NES는, Natural End-to-end Speech synthesis system의 약자로서, 약 40분 수준의 녹음 만으로도 특정 전문 분야에 대한 제약 없이 사용할 수 있는 기술로 사람의 음성에 가까운 자연스러운 목소리가 특징입니다.

짧은 녹음 시간

☞ 네이버 클로바만의 Speaker adaptation 기법을 사용하여, 약 40분의 음성 녹음 만으로 음성 합성 제작

고품질의 합성음

☞ 실시간 음성 생성이 가능한 Neural Vocoder를 사용하여, 실제 사람의 음성에 가까운 고품질의 합성음 제공

다양한 목소리 스타일

☞ 진지한 뉴스, 부드럽고 다정한 친구, 담백한 일상 대화 등 서비스에 어울리는 다양한 스타일의 합성음 제공

쉽고 빠른 목소리 개발

☞ 기존의 복잡한 *전사 작업 없이 텍스트와 음성만으로 새로운 음성 서비스 개발/제공

*전사: 녹음 음성을 텍스트로 옮기는 일

728x90
LIST

'개발 지식 정리' 카테고리의 다른 글

편리한 인공지능 GPT-3  (0) 2022.03.15
gpt3  (0) 2022.03.14
엣지 케이스(edge case)와 코너 케이스(corner case)  (0) 2022.03.14
  (0) 2022.03.14
하이퍼 클로버  (0) 2022.03.14