Tecnología

¿Adiós a estudiar idiomas? Meta presenta SeamlessM4T, un traductor simultáneo que te permite hablar 101 idiomas

  • Es el primer modelo de inteligencia artificial multimodal y multilingüe capaz de realizar traducciones y transcripciones en un solo sistema
  • Permite traducir voz a voz, lo que puede usarse para mantener conversaciones entre idiomas distintos

Vivimos una época en la que parece que prácticamente cada semana la tecnología va desbloqueando hitos que parece sacado de de una película de ciencia-ficción. La última parte de Meta, la empresa propietaria de Instagram, Facebook o WhatsApp y permitirá comunicarnos con cualquier persona independientemente del idioma que hable.

Se llama SeamlessM4T, y es un modelo de inteligencia artificial que Meta presentó como el primer sistema multimodal y multilingüe capaz de traducir y transcribir texto y voz en más de 100 idiomas. ¿Estamos realmente cerca de construir el traductor universal similar al que imaginó Douglas Adams con su Pez Babel en La Guía del Autoestopista Galáctico?

Un modelo todo en uno: el corazón de SeamlessM4T

Las soluciones existentes han avanzado, pero tienden a fragmentarse: modelos separados para texto, voz y combinaciones específicas. Meta, sin embargo, propone un cambio radical con SeamlessM4T: un modelo único que promete reducir errores, eliminar retrasos y permitir traducciones de mayor calidad y fluidez. Pero, ¿cómo podría funcionar este sistema y qué implica para el futuro de la comunicación global?

A diferencia de los enfoques tradicionales, SeamlessM4T integra en un solo sistema múltiples capacidades:

  • Reconocimiento de voz: identifica y procesa el habla en casi 100 idiomas.
  • Traducción de voz a texto y voz a voz: permite transformar el habla en texto o traducir directamente entre lenguas habladas (compatible con 36 idiomas para salida).
  • Texto a texto y texto a voz: cubre casi 100 idiomas en texto y 35 en salida de voz.

La española Marta R. Costa-Jussà, investigadora de Meta y parte del proyecto, ha declarado en la antigua Twitter que se siente "orgullosa de haber sido parte de la creación de un sistema de traducción automática conjunta de voz y texto para hasta 100 idiomas".

El modelo, presentado en la revista Nature pero todavía no disponible al público, no solo hace el proceso más eficiente, sino que también minimiza las fallas que suelen aparecer cuando los modelos trabajan de manera separada. Por ejemplo, SeamlessM4T puede traducir de forma directa entre dos lenguas habladas sin necesidad de convertirlas a texto como paso intermedio, algo que marca un hito frente a sistemas previos.

El modelo utiliza una base de datos masiva, SeamlessAlign, que combina 270.000 horas de alineaciones de texto y voz. Esto lo convierte en el mayor conjunto de datos abierto de este tipo, optimizado para entrenar y perfeccionar tecnologías de traducción multimodal.

El legado de los proyectos previos: de NLLB al traductor universal

SeamlessM4T no surge de la nada. Es el resultado de años de investigación en proyectos de Meta orientados hacia un traductor universal.

En 2022, la compañía lanzó No Language Left Behind (NLLB), un modelo de traducción de texto a texto que soporta 200 idiomas y que hoy se utiliza en Wikipedia. Más tarde, desarrolló el primer sistema de traducción directa de voz a voz para el idioma hokkien, un dialecto chino sin sistema de escritura estándar. Finalmente, su iniciativa Massively Multilingual Speech permitió avances en reconocimiento de voz y síntesis para más de 1.100 lenguas.

Estos proyectos sentaron las bases técnicas para SeamlessM4T. Al integrar lo mejor de cada uno, Meta ha logrado un modelo que no solo traduce con precisión, sino que también es adaptable a una amplia variedad de contextos y lenguas, incluidas aquellas menos representadas digitalmente.

Un futuro sin barreras lingüísticas: ¿Utopía o realidad?

Meta imagina un futuro donde SeamlessM4T sea más que una herramienta de traducción. Este modelo abre la puerta a nuevas capacidades de comunicación que podrían transformar sectores enteros: desde la educación y la salud hasta el comercio internacional. Imagínate una consulta médica virtual donde el paciente y el doctor puedan comunicarse en tiempo real, aunque hablen idiomas completamente distintos, o un aula donde estudiantes de distintas nacionalidades colaboren sin problemas gracias a una traducción instantánea y natural.

Por ahora, SeamlessM4T representa una promesa: la posibilidad de que todos, sin importar de dónde vengamos o qué idioma hablemos, podamos entendernos. Pero como cualquier herramienta poderosa, su verdadero impacto dependerá de cómo decidamos usarla y verla en la práctica.

WhatsAppFacebookTwitterLinkedinBeloudBluesky