Detrás del fenómeno de ChatGPT u otros modelos de IA, hay un sistema que estuvo programado con millones de datos e información. Detrás de ese sistema, se encuentran personas que hacen la tarea de data labeling (en español etiquetado de datos) a través de la cual entrenan y construyen lo esencial del modelo de IA.
Una cadena que, a simple vista parece funcionar. Sin embargo, hay un problema: el trabajo de etiquetar datos es uno muy tedioso y repetitivo. La identificación de propiedades (etiquetas) de documentos, texto e imágenes (registros), así como su anotación (etiquetado) con dichas propiedades es un trabajo casi “mecánico”.
Entonces, aquellos que se dedican al data labeling están enfocados en entrenar a las máquinas para que sepan la diferencia entre, por ejemplo, peatones y árboles o qué combinación de palabras describe un abuso laboral. 'Un proceso que es especialmente útil en determinados tipos de aprendizaje automático. Es decir, la IA.
“La idea de que avanzamos hacia una sociedad totalmente automatizada, más cómoda y eficiente, tiende a ocultar el hecho de que muchos de estos sistemas están alimentados por personas", afirma Amos Toh, investigador principal de inteligencia artificial en Human Rights Watch, según Wired.
Pero el trabajo no consiste solamente en hacer clics y etiquetar, sino que hay alguien que tiene que ver y entender esos contenidos. Muchas veces estas personas se ven expuestas a imágenes, videos y otros materiales llenos de violencia sobre seres humanos y animales como pornografía y abusos que pueden ser fuertes y traumáticos para determinadas personas. ¿Quién quiere clasificar un asesinato a puñaladas o una violación?
El medio Techopedia afirma que muchas compañías están tratando de explotar trabajadores que aceptan recibir un salario insuficiente para que realicen esta tarea. Estas personas varían desde trabajadores que están en situación de indigencia procedentes de países subdesarrollados a estudiantes en prácticas e incluso presos de cárceles.
En esta línea, una nota de Wired confirma este fenómeno ya que explica que generalmente las personas que hacen este trabajo se encuentran en el sur, donde las expectativas de salarios son más bajas. OpenAI, por ejemplo, contrata personas ubicadas en Kenya, Uganda e India que reciben pagos que van desde 1,30 USD hasta 2 USD por hora. Una persona ubicada en Estados Unidos exigiría un salario de, por ejemplo, 16 por hora.
Una de las principales causas de esto viene de la mano de la globalización de la tecnología y la moda de los trabajos remotos. “Cuanto más sencillas y poco especializadas sean las tareas necesarias para un puesto de trabajo, y cuanto más puedan realizarse completamente a distancia, más fácil será para las grandes organizaciones aprovechar las ventajas de la deslocalización”, declaró Claudio Buttice, analista de datos, en su nota para Techopedia.
Pero esta técnica solo funciona para países como Estados Unidos ya que la lengua inglesa hoy ha tomado un carácter global. Sin embargo, ¿qué pasa con los países que no tienen esta ventaja como, por ejemplo, Dinamarca o Finlandia?
Wired, quién en su nota se enfocó en estudiar este fenómeno en Finlandia, profundiza en esta cuestión con Metroc, una start-up de IA que contrata a presos y les pagan salarios bajos (menos de lo que sale un café de Starbucks allá la hora). Sin embargo, en la región nórdica esta iniciativa fue apoyada por gran parte de la sociedad debido a que presenta una “oportunidad” para la reinserción de estas personas en el mundo.
Pero, ¿por qué son tan necesarios los humanos para estas tareas? Si bien parece ser que la tecnología, en especial la IA, pueden resolver todo, aún hay ciertos dejos de dependencia que solo los puede descifrar el cerebro humano.
En primer lugar, las máquinas son sistemas muy rígidos que no pueden reaccionar con la misma flexibilidad que tenemos nosotros cuando se encuentran con algo inesperado para lo que no fueron entrenadas. “Los humanos tienen que resolver todos estos casos límite en los que es necesaria una decisión informada y salvar a la IA de la fragilidad inherente que puede hacer que se desmorone tan rápidamente ante lo desconocido”, explicó Buttice.
En segundo lugar, según un estudio de las universidades de Rice y Standford, cuando las empresas dependen de datos estructurados por las máquinas, la calidad de los resultados empieza a degradarse. Esto, a grandes rasgos, es algo así como un trastorno neurodegenerativo que afecta a los cerebros de las máquinas y sus resultados. Por ejemplo, las fotos y los videos se ven borrosas.
Los humanos somos impredecibles pero, ¿a qué costo?