Un equipo de científicos cognitivos y computacionales entrenaron con éxito a un modelo básico de IA para asociar imágenes con palabras. Y para eso utilizaron 61 horas de video capturado desde la perspectiva de un niño llamado Sam entre sus seis meses y los dos años de edad. ¿Por qué esto es relevante? El estudio publicado en la revista Science revela que la adquisición del lenguaje podría ser más simple de lo pensado.
Jessica Sullivan estudia el desarrollo del lenguaje y es profesora de Skidmore College (Estados Unidos), y si bien no participó en la nueva investigación, ayudó a producir el conjunto de datos de video que se utilizó en el trabajo. "Quizás los niños no necesiten un mecanismo específico del lenguaje hecho a la medida para captar eficientemente el significado de las palabras. Este es un estudio realmente hermoso, porque ofrece evidencia de que la información simple proveniente de la cosmovisión de un niño es lo suficientemente rica como para impulsar el reconocimiento de patrones y la comprensión de palabras", afirmó la especialista a Scientific American.
Para poder capta la perspectiva de Sam, quien vive cerca de Adelaide, en Australia, se le colocó un casco con una cámara en su cabeza durante una hora dos veces por semana, lo que implica menos de un 1 % de su tiempo diurno, según lo publicado en Nature. El modelo de IA utilizado consta de dos codificadores, que traducen las imágenes y los sonidos captados por la cámara en números que puede leer la IA. A pesar de la naturaleza aparentemente caótica de los datos, tanto Sam como el modelo de IA lograron entender el significado de ciertos sustantivos y asociar el sonido con el objeto.
Los investigadores no tienen datos comparables sobre cómo se desempeñaría un niño de 2 años en las tareas que enfrentaba la IA, pero dijeron que las habilidades de la IA no alcanzan a las de un niño pequeño, según lo informado en The Washington Post. Por ejemplo, pudieron rastrear dónde se enfocaba la IA cuando se le pedía varias palabras y descubrieron que, si bien acertaba en algunas palabras como "auto" o "pelota", miraba en el área equivocada cuando se le pedía "gato".
En pruebas posteriores, el modelo emparejó correctamente en un 62 % de los casos las palabras con imágenes correspondientes y se acercó a la precisión de otros modelos de IA entrenados con datos lingüísticos mucho más extensos. La capacidad para identificar correctamente nuevas imágenes que no pertenecían al conjunto de datos original sorprendió a los investigadores, destacando su capacidad para generalizar lo aprendido.
Los hallazgos también sugieren que las máquinas pueden aprender de manera similar a los humanos. Si bien los modelos de lenguaje enormes como el GPT-4 se entrenan con cantidades masivas de datos, Wai Keen Vong, autor principal del estudio, afirmó a Scientific American: "La brecha entre el aprendizaje de la máquina y el humano podría estrecharse con conjuntos de datos específicos".
Brenden Lake, profesor en el Centro de Ciencia de Datos y Departamento de Psicología de la Universidad de Nueva York y autor principal del artículo, dijo en Daily Mail: "Al utilizar modelos de IA para estudiar el problema real del aprendizaje de idiomas que enfrentan los niños, podemos abordar los debates clásicos sobre qué ingredientes necesitan para aprender palabras: si necesitan sesgos específicos del idioma, conocimiento innato o simplemente aprendizaje asociativo para comenzar".