아마존의 AI는 자동으로 영상을 다른 언어로 더빙한다
아마존의 AI는 자동으로 영상을 다른 언어로 더빙한다
  • 서정만 기자
  • 승인 2020.02.12 14:51
  • 댓글 0
이 기사를 공유합니다

[퓨처타임즈=서정만 기자] 아마존의 AI는 자동으로 영상을 다른 언어로 더빙한다. 새로운 "스피치-투-스피치" 방식으로 번역본을 원본 음성 및 미세 조정된 음성 지속 시간에 맞춰, 더빙을 자연스럽게 개선한다.

외국 영화 속 대화를 다른 언어로 자동 더빙할 수 있기를 바란 적이 있는가? 아마존이 그 일례다. 이번 주 프리프린트 서버 Arxiv.org에 실린 논문에서 이 거대 기술의 연구자들은 배경 소리와 반향을 더하기 전 AI로 번역된 말을 원래의 음성 및 미세 조정된 음성 지속 시간에 맞추는, 새로운 "스피치-투-스피치" 파이프라인을 자세히 설명했다. 이것이 더빙을 보다 자연스럽게 개선하고 제안된 각 단계의 상대적 중요성을 강조한다고 한다.

이 논문의 공동저자들이 지적하듯이, 자동 더빙은 번역된 텍스트에서 언어를 생성하기 전에 음성을 텍스트로 변환하고 텍스트를 다른 언어로 번역하는 일을 포함한다. 문제는 단순히 원본 오디오의 동일한 내용을 전달하는 것이 아니라 원래의 음색, 감정, 지속 시간, 운율(즉, 리듬과 소리의 패턴), 배경 소리 및 반향과 일치시키는 것이다.

아마존의 접근 방식은 언어 전반에 걸쳐 구문을 동기화하며 내용 기반 기준이 아닌 "유창성 기반"을 따른다.​ 이는 1억 5천만 개 이상의 영어-이탈리아어가 훈련된 트랜스포머 기반 기계 번역 비트와, 일시 중지 및 중단의 언어적 타당성을 측정하면서 음성 세그먼트 사이의 시간동안 상대적 일치도를 계산하는 운율 정렬 모듈을 포함한 여러부분으로 구성된다. 47시간의 음성녹음으로 훈련된 문자 대 음성 단계의 모델은 사전 훈련된 보코더로 전달된 텍스트에서 컨텍스트 시퀀스를 생성하여 시퀀스를 음성파형으로 변환한다.

더빙된 음성을 더 "실제"적이고 원본과 유사하게 만들기 위해, 배경 소리를 추출해 음성에 추가하는 전경-배경 분리 단계를 추가했다.​ 별도의 단계(재반복 단계)는 원래 오디오의 환경 반향을 추정하여 더빙된 오디오에 적용한다.

연구진은 시스템을 평가하기 위해 이탈리아인 5명, 비이탈리아인 9명 등 총 14명의 자원봉사자로 하여금 세 가지 방법으로 이탈리아어 더빙된 TED Talks의 24개 발췌문의 자연스러움을 평가해 등급을 매겼다: a) 음성 대 음성 변환 기준, b) 기계 번역과 운율 정렬이 향상된 기준선, c) 오디오 렌더링이 향상된 b의 시스템.​

연구진은 구문 수준의 동기화를 달성하는데 성공했지만, 선구적인 운율 정렬 단계는 생성된 더빙의 유창성과 운율에 부정적인 영향을 미쳤다고 보고한다.​ 논문의 공동 저자는 "이 불유창성이 원어민 청취자에게 미치는 영향은 배경 잡음과 반향으로 오디오 렌더링의 영향을 부분적으로 가려주는 것 같습니다. 그 대신 이탈리아인이 아닌 청취자들에게는 자연스러움이 크게 증가합니다,"라고 밝혔다. "향후 작업은 더 나은 분할을 계산하고 보다 유연한 입술 동기화를 도입함으로써 운율 정렬 구성 요소를 개선하는 데 전념할 것입니다."


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.

  • 서울특별시 영등포구 국회대로 800 (여의도동, 여의도파라곤) 1236호
  • 대표전화 : 02-783-7789
  • 팩스 : 02-783-7790
  • 청소년보호책임자 : 최성립
  • 법인명 : 퓨처타임즈
  • 제호 : 퓨처타임즈
  • 등록번호 : 서울 아 51999
  • 등록일 : 2017-11-20
  • 발행일 : 2017-05-01
  • 발행인 : 송승호
  • 편집인 : 송승호
  • 퓨처타임즈 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재와 복사, 배포 등을 금합니다.
  • Copyright © 2020 퓨처타임즈. All rights reserved. mail to
ND소프트