AI 뉴스

실시간 번역의 시대가 왔다! Meta, Seamless 발표

아이곰 2023. 12. 2. 23:54

서론

한국어로 자연스럽게(?) 대화하는 기안84

언젠가 완벽한 번역기가 나와서 외국인과 자유롭게 대화하는 상상을 해보신적 있나요?
이런게 실제로  나온다면 해외 어디를 가도 조금은 덜 두려운 마음으로 다닐수 있을거 같습니다.
 
오늘은 그런 상상이 조금은 더 가까워진 날입니다.
바로 Meta AI가 언어 장벽을 극복하기 위한 인공지능 기술 'Seamless' 시리즈를 발표한 것입니다.

생각보다 어려운 실시간 번역

 
실시간 번역은 생각보다 어려운 과제입니다. 
어떻게든 의미만 전달하는 것이 아니라 같은 언어의 화자랑 대화하듯이 자연스러운 대화가 되려면 몇가지 장벽들을 돌파해야 합니다.

  • 기본적으로 번역 성능이 좋아야한다.
  • 번역에 소요되는 지연시간이 매우 짧아야 한다.
  • 말이 끝나면 번역을 하는게 아니라 실시간 통역사처럼 말을 하는 중에 번역이 나와야한다.
  • 번역된 내용을 텍스트가 아닌 자연스러운 음성으로 표현할수 있어야한다.
  • 화자의 음성에 포함된 어조나 감정표현도 전달할수 있어야한다.

 
이 모든 것을 해결한 모델이 바로 Meta가 새로 발표한 Seamless 시리즈입니다.
 

Seamless

이번에 발표한 Seamless 시리즈는 네가지 요소가 들어있습니다

Seamless Expressive

Seamless Expressive 모델은 음성-음성 번역에서 감정과 스타일을 보존하는 데 초점을 맞추었습니다.
예를 들어, 말하는 속도와 휴식 같은 음성의 리듬적 요소, 감정, 스타일을 유지합니다.
이 모델은 현재 영어, 스페인어, 독일어, 프랑스어, 이탈리아어, 중국어 간의 번역을 지원한다고 합니다.
 

Seamless Streaming

Seamless Streaming 모델은 사용자가 말을 하는 동안 실시간으로 번역을 생성하여,
약 2초의 지연 시간으로 거의 실시간에 가까운 대화를 가능하게 합니다.
이 모델은 거의 100개의 입력 및 출력 언어를 지원하며, 36개의 출력 언어로 음성-음성 번역을 제공한다고 합니다.
 

SeamlessM4T v2

SeamlessM4T v2는 지난 8월에 발표된 번역 모델인 SeamlessM4T의 업그레이드된 버전입니다.
이 모델의 역할은 기본적인 번역을 잘 하는것입니다.
위 그래프를 보면 SeamlessM4T v2가 Speech to Text 번역, Speech to Speech 번역 모두에서 가장 앞선 결과를 확인할수 있습니다.
OpenAI의 Whisper과도 차이가 많이 나는 모습을 확인할 수 있습니다.
 

Seamless

마지막으로 소개드릴 Seamless는 위에서 언급한 Seamless Expressive, Seamless Streaming, SeamlessM4T v2를 하나로 합친 것입니다. 이를 통해 진정한 실시간 통역을 구현할 수 있을듯 합니다.
 

오픈소스 만세

Seamless 웹 데모

이번 연구의 가장 놀라운 점중 하나는 코드, 모델, 데이터가 모두 오픈소스로 공개 되었다는 것입니다.
또한 Seamless Expressive의 경우 웹 데모를 만들어 놓아서 누구나 체험해 볼 수 있습니다.
제가 잠깐 써본 결과 제 목소리와 톤이 유지되면서도 아주 빠르게 번역결과가 나오는게 만족스러웠습니다.
아래 링크에서 코드와 논문, 데모를 확인하실 수 있습니다.
코드
논문
데모
 

마치며

데모를 써보니 실시간 번역이 정말 가까워진 느낌입니다.
이제 조금 더 기술이 발전해서 스마트폰에서 오프라인으로 실시간 번역기술을 사용할 날이 오기를 바랍니다.