Tecnología

Los editores reclaman su parte en el reparto billonario de la Inteligencia Artificial Generativa

Ocho diarios estadounidenses denuncian a OpenAI y Microsoft por el uso indebido de contenidos
El 22% de las respuestas que ofrece la IA procede de datos extraídos de la prensa online
Ocho cabeceras de EEUU llevan a los tribunales a OpenAI y Microsoft

Madrid

20:15 - 14/05/2024

MICROSOFT

507,970+0,53%

Los editores de periódicos, revistas y diarios digitales comienzan a movilizarse para participar del gran negocio de la Inteligencia Artificial Generativa (IAG). Los contenidos protegidos de sus publicaciones forman parte nuclear del conocimiento que alegremente hacen suyos los algoritmos, generalmente sin pasar por caja. Salvo el puñado de cabeceras que han firmado un acuerdo de licencia con OpenAI (padres del ChatGPT), la inmensa mayoría de los medios de comunicación asisten perplejos al desigual reparto de los beneficios de una industria que el próximo año prevé facturar 300.000 millones de dólares (280.000 millones de euros).

La versión básica de ChatGPT basada en GPT-3.5 es gratuita, mientras que el GPT-4 cuesta por ahora 20 dólares al mes por usuario. A lo anterior se añade la parte mollar de las empresas (ChatGPT Enterprise y ChatGPT API), que permiten a las empresas incorporar ChatGPT en aplicaciones a la medida de cada corporación... Y todo ese filón solo acaba de empezar.

La lluvia de millones será generosa, pero ni mucho menos riega a todos por igual. Por lo tanto, el reto inmediato de las empresas editoriales se resume en una pregunta: ¿qué hay de lo mío? Una vez asumido que la IA Generativa es un generador de riqueza y de prosperidad, que trasciende las fronteras y los idiomas, se impone una acción coordinada con alianzas de alcance global, para compensar la fuerza de las grandes tecnológicas, siempre en la cumbre de las compañías más valiosas y poderosas del mundo.

El ecosistema de la IA no puede reducirse a fabricantes de ordenadores, microprocesadores, desarrolladores de software, ingenieros, informáticos, técnicos, centros de datos con sus respectivos proveedores de energía. Todos ellos se frotan las manos ante las perspectivas de la IA. Y en tan generoso listado de beneficiarios no hay rastro de periodistas, generadores de contenido y propietarios de la materia gris que maneja el prodigio y sirve de entrenamiento para los LLM, grandes modelos de lenguaje de la IA.

El propio Sam Altman, fundador de Open AI, ha defendido en la Cámara de los Lores británica que su compañía no podría comercializar los productos de IA generativa sin el uso de material sometido al copyright, necesariamente de alta calidad. En concreto las obras de los editores es la más importante y valiosa para la formación del GPT frente a los contenidos capturados de otras fuentes de dudosa fiabilidad. Por lo tanto, tarde o temprano, los editores irrumpirán en tan joven ecosistema. Sólo de esa forma, la criatura de la IA podría crecer de forma sostenible y saludable.

El modelo GPT3 gestiona casi 500.000 millones de tokens (unidades básicas de texto), es decir, fragmentos de palabras que utilizan los sistemas cognitivos para sus entrenamientos. En idioma español, por ejemplo, las consultas en dicho modelo de IA no excederán respuestas superiores a las 3.000 palabras o 4.000 tokens. De todas ellas 410.000 millones de tokens se corresponden con aportaciones de simples copias online (Common Crawl), mientras que 19.000 millones proceden de conjunto de datos de "alta calidad" (Web Text2), suministrados de forma mayoritaria por los medios de comunicación, el 22% del total. A su vez, los libros (16%) y la Wikipedia (3%) aportan el 19% restante.

Por lo pronto, se atisban tres posibles vías para reconocer el valor que proporcionan a la IA los millones de noticias, reportajes, estudios y análisis, todos ellos propiedad de los medios de comunicación. El primero -y más deseable-, consiste en lograr un acuerdo amistoso entre las partes para tasar la materia prima de la IA, con su correspondiente justiprecio.

El segundo camino atañe a los legisladores, con la UE en la avanzadilla global gracias a su primera Ley de Inteligencia Artificial, aprobada por el Parlamento Europeo para su entrada en vigor en 2026. En dicho articulado se contempla el etiquetado de los contenidos originales con los denominados 'option in' y 'optout'. El primero permite a los dueños de los algoritmos a acceder libremente al repositorio histórico de las publicaciones para el entrenamiento de sus máquinas o, por el contrario, sólo hacerlo a cambio de una retribución.

Y la tercera ruta pasa por los tribunales, como hizo The New York Times o como acaba de suceder con ocho medios estadounidenses en una querella en una corte neoyorquina contra OpenAI (ChatGPT) y Microsoft (Copilot) ante el "robo" de millones de artículos protegidos por parte de las dos tecnológicas.

Los editores reclaman su parte en el reparto billonario de la Inteligencia Artificial Generativa

Relacionados