El 25% de los datos de mayor calidad se ha vuelto inaccesible para los sistemas de IA, pero también para los investigadores académicos. La sobreexplotación de la web pública es la causa.
Por: Wired
Las empresas se están quedando sin datos de calidad para entrenar a sus algoritmos de inteligencia artificial (IA), de acuerdo con un estudio de la Data Provenance Initiative. El colectivo liderado por el Instituto de Tecnología de Massachusetts (MIT) afirma que la escasez de información se ha agravado en los últimos años. El fenómeno representa un obstáculo para los académicos y científicos que dependen de bases públicas de data para realizar sus investigaciones.
El trabajo analizó 14,000 dominios de internet. La información forma parte del Colossal Clean Crawled Corpus (C4), RefinedWeb y Dolma, tres conjuntos de datos que usualmente se utilizan para entrenar sistemas de IA. Las conclusiones indican que existe “una crisis emergente en el consentimiento” de uso. Los editores y plataformas en línea están tomando medidas más estrictas para evitar que sus publicaciones sean utilizadas para capacitar a modelos como Gemini o o GPT. En consecuencia, han restringido el 5% de todos los contenidos antes públicos. El 25% de los datos de mayor calidad en las tres colecciones examinadas se ha vuelto inaccesible.
Los bloqueos se establecen en su mayoría mediante el protocolo de exclusión de robots (REP, por sus siglas en inglés). A través de este método, los propietarios de los portales online añaden al código fuente del sitio un archivo llamado robots.txt. Este elemento impide que los sistemas de rastreo accedan y recopilen el contenido de la página.
“Estamos viendo una rápida disminución en el consentimiento para usar datos de la web que tendrá consecuencias no solo para las empresas de IA, sino también para investigadores, académicos y entidades no comerciales”, advirtió Shayne Longpre, investigador de IA en el MIT y autor principal del estudio, en una declaración retomada por The New York Times.
El informe señala que el auge de la IA generativa ha provocado nuevas tensiones entre los propietarios del contenido y las compañías que desarrollan algoritmos basados en esta tecnología. En las discusiones se han abordado temas complejos como presuntas violaciones a los derechos de autor, y la carencia de acuerdos que garanticen un pago justo a los autores por el uso de su trabajo.
Diversos medios de comunicación han establecido muros de pago para proteger su propiedad intelectual. Otros servicios en línea han modificado sus términos de uso para evitar que sus datos sean utilizados en el entrenamiento de sistemas de IA. Algunas organizaciones mediáticas han cerrado acuerdos comerciales para proporcionar sus datos en exclusiva a firmas como OpenAI.
La IA se queda sin datos, los investigadores también
Yacine Jernite, investigador de aprendizaje automático en Hugging Face, sostiene que la crisis de consentimiento es una respuesta natural a las agresivas prácticas de recopilación y uso de datos impuestas por la industria de la IA. “No es sorprendente que estemos viendo reacciones negativas por parte de los creadores de contenido. Los textos, las imágenes y los vídeos que han compartido en línea se utilizan para desarrollar sistemas comerciales que a veces amenazan directamente sus medios de vida”, dijo para The New York Times.
Las grandes empresas tecnológicas argumentan que el “contrato social” vigente desde los años noventa indica que la información que está disponible en la web abierta es de uso legítimo (Fair use). Las restricciones impuestas mediante los archivos robots.txt no son legalmente vinculantes; su cumplimiento por parte de terceros es voluntario.
Los analistas auguran que el sector está a punto de agotar toda la información de entrenamiento disponible de forma pública en internet. La mayoría de los materiales serán accesibles a través de muros de pago o estarán condicionados a acuerdos de uso exclusivos. Un informe publicado en The Wall Street Journal advierte que hay más de un 50% de probabilidades de que la demanda de data fiable para entrenar algoritmos de IA supere la oferta disponible en 2028. Jernite señala que este escenario excluiría a “los investigadores y la sociedad civil de participar en la gobernanza de la tecnología”.
El trabajo sin fines de lucro de cientos de investigadores depende de conjuntos de datos públicos. La colección de información Common Crawl, que comprende millones de páginas de contenido, ha sido citada en más de 10,000 estudios académicos, según Longpre. La escasez de datos y la tendencia de la web a cerrarse compromete la accesibilidad a recursos de esta naturaleza.
Organizaciones como Google han intentado responder a la falta de información pública de calidad con datos sintéticos. Se tratan de contenidos creados por sistemas de IA con información preexistente para entrenar a otros algoritmos. La eficacia y fiabilidad del procedimiento no se ha demostrado. Los expertos dudan que este método pueda reemplazar a los datos creados por el intelecto humano.
Longpre sugiere que el gran problema es que no existen mecanismo para distinguir la finalidad con la que se utilizan los datos de calidad disponibles en internet. Asegura que es preciso implementar herramientas que les permitan a los creadores de contenido tener más control sobre el aprovechamiento de sus obras. Alerta que la web se ha sobreexplotado. Esto resultará en una disminución en el acceso a la información que afectará tanto a las grandes compañías de IA como a la sociedad en general.