Tecnología

Las nuevas versiones de ChatGPT ya saben interpretar fotos, gráficos y hasta garabatos

Open Ai lanza o3 y o4-mini, más analíticas, eficientes y hábiles en sus conversaciones
La nueva IA prefiere tomarse más tiempo en sus respuestas con tal de ganar en calidad y precisión
El prodigio "combina razonamiento visual y textual", con fortalezas en ciencias y humanidades

Madrid

17/04/2025 - 10:23

Las nuevas versiones de la inteligencia artificial de ChatGPT han aprendido que una imagen vale tanto o más que mil palabras, con una capacidad de interpretación que hasta ahora no estaba al alcance de la compañía estadounidense. En ese asunto lleva trabajando OpenAI desde hace meses para ahora anunciar sus versiones o3 y o4-mini, diseñados para captar información de fotografías, gráficos, esquemas y hasta garabatos. Esta nueva percepción visual representa un salto colosal para una tecnología que, por primera vez, puede integrar imágenes directamente en su cadena de pensamiento. No solo ven una imagen; piensan con ella. Esta habilidad "desbloquea una nueva clase de resolución de problemas que combina razonamiento visual y textual", según explica la compañía de Sam Altman, pese a que no ofrece detalles sobre su impacto ambiental.

Gracias a sus nuevas prestaciones, cualquier usuario "puede cargar una foto de una pizarra, un diagrama de texto o un boceto dibujado a mano, y el modelo puede interpretarlo, incluso si la imagen es borrosa, está invertida o es de baja calidad". Además, "con el uso de herramientas, los modelos pueden manipular imágenes en tiempo real, rotándolas, acercándolas o transformándolas al gusto de cada cual", añaden las mismas fuentes.

Las nuevas criaturas pensantes de ChatGPT son mucho más analíticas (y por tanto muchísimo más inteligentes que sus antecesores) y también han madurado sustancialmente en su comportamiento, no sólo con un 20% menos de errores que sus hermanos, sino con más pausa en sus reflexiones. Parece que se han convencido de que ya no hace falta ofrecer respuestas inmediatas para sorprender a nadie, sino que lo realmente valioso es proporcionar resultados más completos y certeros.

Las instrucciones de Altman han caído en terreno fértil: "Prefiero que la máquina piense durante más tiempo antes de responder con tal de que la información perdure, con preguntas multifacéticas". Esto último significa que, en menos de un minuto, los modelos de ChapGPT "pueden usar y combinar de manera independiente todas las herramientas a su alcance, como buscar en la web, analizar archivos y otros datos cargados con Python, razonar profundamente sobre entradas visuales e incluso generar imágenes". De hecho, la nueva IA está entrenada para "razonar sobre cuándo y cómo usar herramientas para producir respuestas detalladas y reflexivas en los formatos de salida adecuados, para resolver problemas más complejos".

Open AI presenta su blog corporativo a sus dos nuevas creaciones con todo lujo de detalles técnicos, para alegría de los que gustan de las comparativas. Así, OpenAI o3 irrumpe en el campo de batalla de la IA como "el modelo de razonamiento más poderoso" de la compañía. Su fuerte son las consultas complejas, es decir, aquellas que exigen un análisis concienzudo y cuyas respuestas pueden no ser inmediatamente evidentes. Además, Chat GPT o3 es capaz de abrir nuevos horizontes "en programación, matemáticas, ciencias, percepción visual y más".

La nueva IA también marca un nuevo récord en bancos de pruebas como Codeforces, SWE-bench y MMMU. Según han valorado los probadores del ingenio, o3 sobresale "por su rigor analítico como socio de pensamiento y enfatizaron su capacidad para generar y evaluar críticamente nuevas hipótesis, particularmente en contextos de biología, matemáticas e ingeniería".

OpenAI 04-mini gana en tareas de humanidades y donde se beneficia la capacidad de razonamiento

Por su parte, OpenAI o4-mini es un modelo más pequeño que o3, para así estar "optimizado para razonamientos rápidos y rentables". De esa forma, la nueva IA de OpenAI alcanza "un rendimiento notable por su tamaño y costo, particularmente en matemáticas, programación y tareas visuales". Se trata del modelo mejor evaluado en AIME 2024 y 2025, superior a Chat GPT o3-mini, en tareas de humanidades y en aquellas donde se beneficia del razonamiento. "Los evaluadores externos valoraron la mejora en el seguimiento de instrucciones y respuestas más útiles y verificables que sus predecesores, gracias a una mejor inteligencia y la inclusión de fuentes web".

Ambos modelos de razonamiento igualmente ganan en su naturalidad en las diálogos, "especialmente a medida que hacen referencia a la memoria y conversaciones pasadas para hacer que las respuestas sean más personalizadas y relevantes", añaden desde la empresa.

Pese a que la inmediatez en la respuesta ha dejado de ser una premisa, los nuevos modelos ofrecen un rendimiento superior que las versiones anteriores con la misma latencia y costo energético, con la ventaja acreditada de que su rendimiento aumenta si se le permitimos pensar durante más tiempo. "También entrenamos ambos modelos para utilizar herramientas a través del aprendizaje por refuerzo, enseñándoles no solo cómo usarlas, sino a razonar sobre cuándo utilizarlas. Su capacidad para desplegar herramientas en función de los resultados deseados los hace más capaces en situaciones abiertas, particularmente aquellas que implican razonamiento visual y flujos de trabajo de múltiples pasos", inciden desde OpenAI.

Las nuevas versiones de ChatGPT ya saben interpretar fotos, gráficos y hasta garabatos

Relacionados