
Desde hace mucho los datos se han convertido en uno de los elementos más valiosos que hay en Internet, como dato entendemos cualquier tipo de información, que va desde cuánto tiempo pasas conectado a la red, qué cosas ves, que apps abres, cuales desinstalas o lo que se te pueda ocurrir que ofrezca información sobre el usuario.
Pero con la llegada de la Inteligencia Artificial, el análisis de datos ha adquirido una dimensión muchísimo mayor, donde la cantidad de información que se analiza, contrasta y utiliza se ha multiplicado por millones. Y es que todos estos datos luego sirven para las empresas y marcas para lanzar productos y servicios que encajan perfectamente en las necesidades y gustos de cada uno de los usuarios.
Por ello la extracción de datos se ha convertido en un tema muy polémico y una fuente de pleitos y controversias debido a que desde la IA se encarga de estas tareas usuarios y organizaciones alegan que en este proceso se están infringiendo sus derechos de autor.
A pesar de su éxito en los últimos años, la red social TikTok no ha hecho de saltar de una polémica a otra, y en la actualidad se enfrenta a varias amenazas de bloqueos nacionales por su funcionamiento. Y ahor se le suma otra carga más, y es que su compañía matriz, ByteDance, ha estado desarrollando un 'bot' llamado Bytespider, que lleva meses extrayendo datos de Internet.
Los grandes modelos de lenguaje necesitan enormes cantidades de datos para su entrenamiento y estas solo se encuentran en internet, donde ya operan varios 'bots' para 'raspar' o extraer información de sitios web de empresas como Google, Meta, Amazon, OpenAI y Anthropic.
Pero a esta ahora se les suma ByteDance, que como recogen desde Fortune, en poco tiempo se ha vuelto muy agresivo en la recopilación de datos. Esto es porque extrae datos a una velocidad 25 superior a la de GPTbot (OpenAI) y 300 veces superior a la de ClaudeBot (Anthropic).
Además de no respetar la línea de código robots.txt, que los editores de medios de comunicación pueden incorporar a su sitio web para indicar a los 'bots' que no extraigan datos. Aunque GPTbot y ClaudeBot tampoco lo hacen.
Se cree que detrás de esta extracción masiva de datos la intención es la de desarrollar al máximo de sus posibilidades la función de búsqueda de TikTok, según otra fuente.