Tecnología

Google Gemini Live vs. ChatGPT con GPT-4o: el futuro de la inteligencia artificial pasa porque hablemos y 'veamos' a través de ella

Parece mentira que hace poco más de dos años ChatGPT apenas existiera. Esta semana dos gigantes de la inteligencia artificial, Google y OpenAI han presentado su visión de futuro sobre la aplicación de esta tecnología, y ambas miran hacia la integración por medio de audio y vídeo.

Google, en su evento Google I/O, presentó entre otras muchas cosas Gemini Live, y apenas un día antes, OpenAI reveló al mundo ChatGPT Voice con GPT-4o, un nuevo modelo más rápido y más orientado a las respuestas por voz.

La analogía más evidente que se ha hecho es con la película Her, donde una persona se enamora de su asistente de voz, una inteligencia artificial.

Pero, ¿qué significan estas innovaciones para nosotros y cómo podrían transformar nuestra interacción diaria con la tecnología?

Google contra OpenAI: Una carrera por la supremacía en IA

En el epicentro de la tecnología de inteligencia artificial, Google y OpenAI están marcando el ritmo desde el inicio, en una especie de guerra fría que no cesa. De hecho, OpenAI programó su presentación a propósito para adelantarse a la de Google.

Sin embargo, ambos comparten un objetivo común: integrar sus nuevas tecnologías de IA en el día a día de todos.

ChatGPT Voice vs. Gemini Live

Ambos productos prometen revolucionar la forma en que interactuamos con nuestros dispositivos mediante interfaces de voz natural y análisis de video en tiempo real.

Las dos empresas han mostrado imágenes en las que se ve a sus empleando interactuando con el entorno a través del vídeo y el audio que sus respectivas IA interpretan a través de su smartphone.

ChatGPT Voice, en particular, ha sido elogiado por su capacidad para sonar extremadamente natural y adaptarse en tiempo real a los tonos emocionales de la conversación.

Por otro lado, Google ha presentado Project Astra, todavía un prototipo, pero que llegará a todos los usuarios a través de la denominación Gemini Live. Y también promete innovaciones, parece depender aún de otros modelos para la generación de contenido visual y de audio, como Imagen 3 para imágenes y Veo para video.

El nuevo futuro de los asistentes de voz y vídeo

Mirando hacia el futuro, es evidente que la interacción por voz se está convirtiendo en una parte crucial de la experiencia digital.

El lanzamiento de estas tecnologías no solo refuerza la idea de un cambio significativo en la interfaz humano-computadora, sino que también plantea preguntas sobre la dirección futura de estos desarrollos.

¿Veremos a OpenAI aventurarse en el hardware con sus propias gafas inteligentes? ¿O Google intentará revivir y dominar este mercado con una nueva versión de Google Glass?

Parece que nunca alcanzamos la cúspide de una revolución en la interacción con la tecnología de inteligencia artificial. Así como el ratón y la pantalla táctil cambiaron el paradigma en su momento, estos nuevos asistentes de voz prometen abrir nuevas fronteras en accesibilidad y funcionalidad. Como siempre, el verdadero impacto de estas tecnologías dependerá de cómo se adopten y adapten en nuestro día a día.

WhatsAppTwitterTwitterLinkedinBeloudBeloud