Los sistemas de inteligencia artificial se nutren de datos disponibles en internet. Muchos de ellos son utilizados sin aviso previo y sin una remuneración justa. Esta polémica trascendió particularmente el año pasado cuando muchos sitios, diarios y creadores de contenidos empezaron a poner límites con demandas judiciales y otras restricciones.
Parecería que cada vez es menos la información que tienen las grandes tecnológicas para sofisticar sus sistemas. Un estudio de Data Provenance Initiative realizado por un grupo de investigadores del Massachusetts Institute of Technology (MIT) lo confirma: hay un problema creciente sobre el uso de datos web en la formación de modelos de inteligencia artificial generativa. En detalle, los investigadores encontraron que hay una acelerada imposición de normativas sobre los datos disponibles públicamente utilizados para alimentar a las IA.
Los investigadores analizaron 14.000 sitios web cuya información fue usada para crear tres grandes conjuntos de datos conocidos como C4, RefinedWeb y Dolma. Estos últimos son el ingrediente principal del entrenamiento de las nuevas tecnologías. Sin embargo, las empresas se enfrentan a un problema: en este último año el 5 % de todos los datos y el 25 % de los datos procedentes de las fuentes de mayor calidad fueron restringidos.
“Estamos asistiendo a un rápido declive del consentimiento para utilizar datos en la web que tendrá ramificaciones no sólo para las empresas de inteligencia artificial, sino también para investigadores, académicos y entidades no comerciales”, afirmó Shayne Longpre, autor principal del estudio, en una entrevista con The New York Times.
Respecto a qué medidas tomarán las empresas, se contemplan diferentes escenarios. El primero es efectivamente pagar por la información. En este sentido, hay grandes tecnológicas que han cerrado tratos con los medios. Por ejemplo, se firmó un acuerdo con el grupo Axel Springer, dueño de publicaciones como Business Insider, para que puedan usar de manera remunerada sus artículos para alimentar a ChatGPT.
Estas alianzas comenzaron a desarrollarse en un contexto donde The New York Times le realizó una demanda a OpenAI y Microsoft por usar sus contenidos de manera no autorizada. Esta acción legal sentó las bases para muchos medios de comunicación y demostró que el camino en esta era de inteligencia artificial es a través de un reconocimiento justo.
Otra opción que se evalúa es la desgrabación y transcripción de videos que se encuentran en la web. Una nueva investigación liderada por The New York Times esclarece esta cuestión, al menos parcialmente. Para alimentar a su inteligencia artificial, OpenAI transcribió más de un millón de horas de video de YouTube. No obstante, la práctica va en contra de las normas legales de la plataforma (y el equipo informático liderado por Greg Brockhamm, presidente de la tecnológica, lo sabía).
Un escenario posible es el uso de data sintética. Según informa Observer, estos datos son generados por modelos de inteligencia artificial en vez de humanos. Sam Altman, CEO de OpenAI, mencionó a principios de año que mientras los sistemas sean lo suficientemente inteligentes como para generar buenos datos sintéticos, "todo irá bien”.
Sin embargo, una reciente investigación publicada en Nature sugiere que el uso de este tipo de datos podría provocar una rápida degradación de los modelos de IA, ya que tienden a acumular y amplificar errores con cada generación de entrenamiento. Esto resulta en modelos que pierden precisión y relevancia, produciendo resultados incoherentes o incorrectos.
“Los datos sintéticos son asombrosos si conseguimos que funcione”, afirmó Ilia Shumailov, autora principal de la investigación. “Pero lo que estamos diciendo es que nuestros datos sintéticos actuales son probablemente erróneos en algunos aspectos. Lo más sorprendente es lo rápido que ocurren estas cosas”, explicó en diálogo con Financial Times.