Tecnología

Google Meet tendrá traducción simultánea en sus videollamadas gracias a Beam: se acabaron las barreras del idioma

La traducción empezará en inglés y español y comenzará a desplegarse ya mismo
Además de traducción al momento, Google Meet se actualizará con llamadas que casi parecerán holográficas

21/05/2025 - 12:29

¿Te imaginas poder hablar con alguien que no comparte tu idioma sin necesidad de intérpretes ni subtítulos? ¿Y que además esa conversación suene como si estuvierais charlando en el mismo idioma, con las inflexiones, pausas y tonos originales respetados? Google ha anunciado en el evento Google I/O 2025 una nueva funcionalidad para Google Meet: traducción de voz en tiempo real.

Utilizando un modelo avanzado de lenguaje de audio desarrollado por Google DeepMind, esta herramienta, enmarcada dentro de su proyecto Beam, permite conversaciones naturales y fluidas entre personas que hablan diferentes idiomas, preservando además el tono, la expresión y la cadencia original del hablante. Inicialmente estará disponible en inglés y español, y llegará pronto a más idiomas como italiano, alemán y portugués.

La traducción empezará en inglés y español y comenzará a desplegarse ya mismo

Google destaca tanto casos de uso personales, como facilitar la comunicación entre familiares multilingües, como empresariales, permitiendo conversaciones entre equipos internacionales. El servicio empezará su despliegue en beta esta semana para suscriptores de Google AI y será probado también en cuentas empresariales de Workspace a lo largo del año.

Esa idea, hasta ahora digna de la ciencia ficción o de las fantasías de la era Star Trek, comienza a hacerse realidad. Pero más allá del simple reconocimiento de voz o la transcripción automática, este sistema introduce un nivel de sofisticación que permite, según Google, mantener intacta la naturalidad del discurso.

El futuro de las conversaciones: más allá del idioma

Desde hace décadas, la tecnología ha intentado derribar las barreras idiomáticas. Los traductores automáticos, las apps de transcripción y los subtítulos generados por IA han sido pasos intermedios. Pero hasta ahora, ninguno había logrado ofrecer una experiencia tan cercana a una conversación real como la propuesta de Google Meet.

Este avance es posible gracias a un modelo de lenguaje de audio desarrollado por Google DeepMind, capaz de interpretar no solo las palabras, sino también el contexto, las emociones y la intención detrás de cada frase. Esta distinción es esencial. Traducir no es simplemente convertir "hello" en "hola", sino entender cuándo un "hello" significa sorpresa, bienvenida o ironía.

La clave, según Google, está en que el sistema no solo traduce sino que sintetiza una nueva voz en el idioma objetivo, con una cadencia y tono que imitan fielmente al hablante original. Esto permite que, mientras la persona habla, se oiga en segundo plano su voz original, con la traducción superpuesta. Algo que recuerda a la dinámica de los doblajes en conferencias internacionales o en documentales traducidos, pero con un nivel de fluidez sin precedentes.

Una herramienta con múltiples escenarios

Los casos de uso que plantea Google van desde lo doméstico hasta lo corporativo. Imagina un nieto que vive en Londres y habla solo inglés, conversando con su abuela que vive en Lima y solo habla español. Hasta ahora, esa conversación habría dependido de un tercero o de subtítulos incómodos. Con esta nueva función, ambos pueden hablar con fluidez y entenderse al momento, manteniendo el componente emocional del habla.

En el terreno empresarial, el impacto es aún más evidente. Equipos distribuidos globalmente podrán tener reuniones en las que cada participante hable en su lengua materna sin comprometer la comprensión o la naturalidad de la conversación. Esto no solo agiliza procesos, sino que también reduce la fatiga cognitiva de quienes tienen que comunicarse en un segundo idioma.

Además, la baja latencia del sistema –según Google, imperceptible– permite que varias personas hablen a la vez sin que la conversación se vuelva caótica. Un detalle técnico que resuelve una de las principales limitaciones de los sistemas anteriores de traducción en tiempo real.

El trabajo detrás de esta función no se limita a una simple aplicación de redes neuronales. Lo que ha hecho Google DeepMind es entrenar modelos capaces de comprender y generar lenguaje hablado con un enfoque contextual y adaptativo. Es decir, el sistema no traduce de forma literal, sino que adapta expresiones idiomáticas, giros culturales y matices emocionales, preservando lo que hace única a cada lengua.

Este tipo de procesamiento tiene implicaciones importantes. Permitir que la voz traducida refleje emociones similares a la del hablante original, como entusiasmo, tristeza o ironía, puede marcar la diferencia en negociaciones, clases virtuales o consultas médicas.

Además, Google asegura que está desarrollando esta tecnología con controles éticos y de privacidad, aunque no ha dado detalles específicos sobre cómo protege las conversaciones o si los datos se almacenan para entrenar futuros modelos. Será interesante observar cómo equilibra la promesa de fluidez comunicativa con las crecientes preocupaciones por la privacidad.