Un estudio afirma que gran parte del contenido en internet está traducido de manera deficiente - RED/ACCIÓN

Un estudio afirma que gran parte del contenido en internet está traducido de manera deficiente

 Una iniciativa de Dircoms + INFOMEDIA

Las herramientas de traducción automática han revolucionado la forma en que accedemos a la información. Sin embargo, este crecimiento no está exento de desafíos, especialmente en lo que respecta a la equidad lingüística y la calidad de los textos, observaron investigadores.

Traducir un texto largo de un idioma a otro hace unos pocos años era una tarea que llevaba horas. Hoy, con la llegada de la traducción automática y los sistemas potenciados con inteligencia artificial sin intervención humana, se realiza en cuestión de minutos (quizás segundos). Sin embargo, a medida que estas herramientas son cada vez más comunes, también surgen dudas sobre su uso.

De hecho, en un nuevo estudio publicado por la Universidad de Cornell, investigadores del Laboratorio de Inteligencia Artificial de Amazon Web Services descubrieron que más de la mitad de las frases de internet se han traducido a dos o más idiomas, a menudo con una calidad cada vez peor debido a una traducción automática deficiente. 

Mehak Dhaliwal, coautor de la investigación, explicó en diálogo con Vice que el interés por este tema nació a partir de algunos colegas que trabajan en traducción automática y eran hablantes nativos de idiomas con poca presencia en la web. Observaron que como el contenido digital era escaso, las traducciones potenciadas por inteligencia artificial eran erróneas y escasas.

El problema de las lenguas con "bajos recursos digitales"

De acuerdo con un artículo de Vistatec, en la actualidad sólo unas 20 de las 7.000 lenguas del mundo son ricas en recursos digitales. Idiomas como el inglés, el francés y el chino dominan el espacio de la traducción automática y producen traducciones con un alto grado de precisión. Mientras que las personas que hablan lenguas de menor difusión suelen tener un acceso limitado a las traducciones.

Para comprender mejor esta cuestión es clave aclarar que una “lengua de bajos recursos” no implica una lengua necesariamente poco hablada. De hecho, el hindi es nativo en más de 500 millones personas y considerado de “bajos recursos” mientras que el francés en 100 millones de personas y es valorado de “altos recursos”. 

La explicación, según Medium, es que casi todos los datos con los que se entrenan a los sistemas de inteligencia artificial se extraen de redes sociales como Facebook o Twitter. El problema es que la mayoría de las personas escriben más en inglés en estas plataformas en comparación con idiomas como el hindi, por ejemplo.

“Estamos llegando al punto en que, si una máquina no entiende tu idioma, será como si nunca hubiera existido”, advirtió a El Castellano Vukosi Marivate, jefe de Ciencia de Datos de la Universidad de Pretoria en Sudáfrica.