세계는 점점 더 연결되고 있으며, 사람들에게는 이전보다 더 많은 다국어 콘텐츠에 접근할 수 있는 기회가 생겼습니다. 이로 인해 어떤 언어로든 정보를 소통하고 이해하는 능력이 점점 더 중요해지고 있습니다. 오늘, 우리는 SeamlessM4T라는 첫 번째 올인원 멀티모달과 다국어 AI 번역 모델을 소개합니다. SeamlessM4T를 통해 사람들은 다른 언어로 텍스트와 음성을 통해 손쉽게 소통할 수 있습니다. SeamlessM4T는 다음을 지원합니다:
- 거의 100개 언어에 대한 음성 인식
- 거의 100개 입력 및 출력 언어에 대한 음성에서 텍스트로의 번역
- 거의 100개 입력 언어 및 36개(영어 포함) 출력 언어를 지원하는 음성에서 음성으로의 번역
- 거의 100개 언어에 대한 텍스트에서 텍스트로의 번역
- 거의 100개 입력 언어 및 35개(영어 포함) 출력 언어를 지원하는 텍스트에서 음성으로의 번역
우리는 공개적인 과학 방식을 추구함에 따라, SeamlessM4T를 연구자와 개발자들이 이 작업을 기반으로 더 발전시킬 수 있도록 연구 라이선스 하에 공개적으로 공개합니다. 우리는 또한 SeamlessAlign의 메타데이터를 공개하는데, 이는 지금까지 가장 큰 오픈 멀티모달 번역 데이터셋으로, 총 270,000시간의 음성과 텍스트 정렬 자료를 포함하고 있습니다. 우주선 타기자 안내서(The Hitchhiker’s Guide to the Galaxy) 속 가상의 바벨 피쉬(Babel Fish)와 같은 범용 언어 번역기를 만드는 것은 어려운 일입니다. 왜냐하면 현재의 음성에서 음성이나 음성에서 텍스트 시스템은 세계 언어의 일부만을 다루기 때문입니다. 그러나 우리가 오늘 발표하는 작업은 이 여정에서 큰 발전을 이룬 것으로 믿습니다. 분리된 모델을 사용하는 방법에 비해 SeamlessM4T의 단일 시스템 접근법은 오류와 지연을 감소시키며 번역 과정의 효율성과 품질을 높입니다. 이를 통해 서로 다른 언어를 사용하는 사람들이 보다 효과적으로 소통할 수 있게 됩니다.
SeamlessM4T는 우리와 다른 사람들이 범용 번역기를 만들기 위해 지난 몇 년 동안 해왔던 성과들을 기반으로 구축되었습니다. 작년에 우리는 No Language Left Behind (NLLB)라는 200개 언어를 지원하는 텍스트에서 텍스트로의 기계 번역 모델을 공개했으며, 이후로 위키피디아에 번역 공급자로 통합되었습니다. 또한, 우리는 호크킨어(Hokkien)라는 쓰기 시스템이 없는 언어를 위한 최초의 직접 음성에서 음성으로의 번역 시스템인 Universal Speech Translator의 데모를 공유했습니다. 그리고 올해 초에는 Massively Multilingual Speech를 공개하여 1,100개 이상의 언어에 걸쳐 음성 인식, 언어 식별 및 음성 합성 기술을 제공했습니다. SeamlessM4T는 이러한 프로젝트들의 연구 결과를 활용하여 최신 결과물과 함께 다양한 음성 데이터 원본을 기반으로 다국어 및 멀티모달 번역 경험을 가능하게 합니다. 이것은 언어 간 소통을 돕는 AI 기반 기술을 구축하기 위한 지속적인 노력의 최신 단계에 불과합니다. 앞으로 우리는 이 기반 모델이 새로운 커뮤니케이션 기능을 가능하게 하는 방법을 탐색하고자 합니다. 궁극적으로 모두가 서로를 이해할 수 있는 세상에 한 걸음 더 가까워지길 바랍니다. SeamlessM4T에 대해 더 알아보려면 AI 블로그에서 확인하세요.