
Imagina que preguntas a tu asistente de IA sobre una información reciente que viste en un medio de tu confianza, como elEconomista. Te responde con seguridad pero citando otro medio, otro titular y una URL inexistente. No se trata de una excepción, sino de un error habitual.
Según un estudio del Tow Center for Digital Journalism, las herramientas de búsqueda generativa como ChatGPT, Perplexity, Grok o Gemini, candidatas a desbancas a la búsqueda clásica en Google y otras alternativas por su mayor comodidad, no solo se equivocan al citar noticias, sino que lo hacen con una convicción que puede inducir al error incluso al usuario más atento.
El auge de estas IAs como sustitutos de los buscadores tradicionales ha sido meteórico. Pero su crecimiento plantea una pregunta incómoda: ¿qué ocurre cuando estas herramientas no solo fallan al citar correctamente, sino que además ignoran las reglas del juego impuestas por los propios medios? ¿Estamos ante una nueva forma de extractivismo digital que vacía de tráfico a las fuentes originales?
6 de cada 10 respuestas con IA están equivocadas
El estudio, publicado el 6 de marzo de 2025, analiza el rendimiento de ocho motores de búsqueda generativa de IA en su capacidad para citar adecuadamente contenido periodístico. La investigación se centró en evaluar si estos modelos eran capaces de identificar correctamente el titular, el medio, la fecha de publicación y la URL original de artículos informativos, a partir de fragmentos extraídos directamente de las piezas.
Los hallazgos muestran un panorama preocupante: más del 60 % de las respuestas fueron incorrectas, y en muchos casos, las herramientas generativas respondían con una confianza injustificada. Además, varios modelos ignoraban las directrices de exclusión de rastreadores (robots.txt), accediendo a contenido restringido o incluso tras muro de pago. Incluso entre aquellos con acuerdos de licencia con medios, como Perplexity y OpenAI, no se observó una mejora significativa en la precisión de las citas.
El estudio también evidencia la tendencia a fabricar URL erróneas, atribuir contenido a medios erróneos y reemplazar fuentes originales por versiones sindicadas, todo ello sin reconocimiento del error ni declinación explícita de respuesta.
El ranking de los motores de búsqueda generativa según su fiabilidad
El estudio comparó como decimos ocho plataformas. A cada una se le realizaron 200 consultas, midiendo la capacidad para citar correctamente el titular, el medio y la URL del artículo de origen.
Este es el ranking y su rendimiento global en términos de respuestas completamente incorrectas:
- Perplexity (gratuita) – 37 % de respuestas incorrectas
- ChatGPT – 67 % de respuestas incorrectas
- Copilot – aproximadamente 70 % de respuestas incorrectas (alta tasa de no respuestas)
- Perplexity Pro – aproximadamente 72 % de respuestas incorrectas
- Gemini – 77 % de respuestas incorrectas
- DeepSeek – 80 % de respuestas incorrectas
- Grok 2 – 90 % de respuestas incorrectas
- Grok 3 – 94 % de respuestas incorrectas
Aunque Perplexity es gratuita fue la que menos se equivocó, también incurrió en malas prácticas como acceder a contenido restringido y citar versiones sindicadas en lugar de las originales. Por su parte, Grok 3 demostró una incapacidad casi total para ofrecer respuestas precisas y además lideró en la generación de URLs falsas o rotas.
La ilusión de la certeza: respuestas erróneas pero confiadas
Uno de los hallazgos más inquietantes del estudio fue la actitud con la que los chatbots se equivocaban. En lugar de reconocer sus límites, daban respuestas categóricas, sin dejar espacio a la duda. El uso de expresiones como "podría ser" o "no tengo información suficiente" fue raro.
ChatGPT, por ejemplo, solo expresó inseguridad en 15 de las 200 respuestas incorrectas. En ningún caso se negó a contestar. Este patrón se repitió en casi todas las herramientas salvo Copilot, que fue el único que declinó más respuestas que las que respondió, probablemente debido a su integración con BingBot, que le permite respetar más fácilmente el contenido de los medios.
Esta confianza infundada es peligrosa. Como apuntan los autores del estudio, el tono autoritario de las respuestas puede hacer que los usuarios den por válida una información completamente falsa o mal atribuida. Y no se trata solo de un error técnico: es una cuestión de ética de la información.
El problema de la atribución: cuando los medios desaparecen
Otro error común fue la incorrecta atribución de los contenidos. Muchos modelos, al identificar mal el medio o no proporcionar el enlace original, terminaban redirigiendo a versiones sindicadas (por ejemplo, en Yahoo News o AOL), lo que priva a los medios de tráfico y visibilidad.
Este fenómeno no es accidental. Incluso cuando existían acuerdos comerciales entre medios e IA, como el de Texas Tribune con Perplexity, las herramientas optaban por citar copias no oficiales. Así, se rompe el principio básico de la web: quien publica, recibe el tráfico.
Peor aún: incluso medios que bloqueaban activamente el acceso de ciertos crawlers o rastreadores (como National Geographic o The New York Times) vieron su contenido aparecer en los resultados, citando fuentes no autorizadas. Esto indica que algunas IAs, como Perplexity, podrían estar eludiendo o ignorando el protocolo de exclusión de robots, lo que pone en jaque el modelo de control editorial.
Aunque OpenAI y Perplexity lideran en la firma de acuerdos con medios (incluyendo nombres como Time, The Guardian o Schibsted), el estudio revela que estas alianzas no se traducen en una mayor fiabilidad. En muchos casos, los contenidos de los socios eran citados con la misma frecuencia errónea que los de medios sin relación contractual.
Por ejemplo, Time, socio tanto de OpenAI como de Perplexity, fue correctamente citado en más ocasiones que otros, pero nunca de forma consistente. En cambio, el San Francisco Chronicle, parte del grupo Hearst y con acceso concedido al crawler de OpenAI, fue correctamente citado solo una vez de diez posibles. Ni siquiera en ese único caso se incluyó un enlace válido.
Estos fallos alimentan una sospecha legítima: ¿sirven estos acuerdos para algo más que para mejorar la imagen pública de las plataformas?