Una PC descifra en horas un lenguaje antiguo: Ayudara en la traduccion en linea
Un nuevo sistema desarrollado en el MIT que solo ocupó un par de horas para descifrar gran parte de la antigua lengua ugarítica podría ayudar a mejorar el software de traducción en línea.
En su libro del 2002 Idiomas Perdidos, Andrew Robinson, el editor literario de”Veces” Suplemento de educación superior de Londres, declaró que ” el desciframiento arqueológico ha resultado exitoso para exigir una síntesis de la lógica y la intuición … que las computadoras no (y probablemente no) poseen. ”
Regina Barzilay, profesora asociada de la Computación del MIT Ciencia y del Laboratorio de Inteligencia Artificial, Ben Snyder un estudiante de posgrado en su laboratorio, y Kevin Knight’s de la Universidad de Sur de California tuvieron que reclamar personalmente. En la Reunión Anual de la Asociación de Lingüística Computacional en Suecia del próximo mes , se presentará un documento que describe un nuevo sistema informático que, en cuestión de horas, ha descifrado gran parte de la antigua lengua semítica ugarítica. Además de ayudar a los arqueólogos a descifrar ocho lenguas tan antiguas que han resistido hasta ahora a sus esfuerzos, el trabajo también podría ayudar a ampliar el número de lenguas que los sistemas de traducción automática como Google Translate pueden manejar.
Para duplicar la “intuición” que según Robinson cree que eluden las computadoras, el software de los investigadores hace varios supuestos. La primera es que la lengua que es descifrada está estrechamente relacionada con algún otro idioma: En el caso del ugarítico, los investigadores eligieron hebreo. La siguiente es que hay una manera sistemática para asignar el alfabeto de un idioma en el alfabeto de la otra, y que los símbolos de correlación se producen con frecuencias similares en los dos idiomas.
El sistema parte de un supuesto similar en el plano de la palabra: Los idiomas deben tener al menos algunos cognados o palabras con raíces comunes, como principal y Mano en francés y español , o homme y hombre. Y, por último , el sistema supone una asignación similar para partes de palabras. Una palabra como “sobrecarga “, por ejemplo, tiene tanto un prefijo – ” sobre ” – y un sufijo – “carga”. “El sistema podría anticipar que otras palabras en la lengua contará con el prefijo “sobre ” o el sufijo “carga” o ambos, y que cognado de la “sobrecarga” existe en otro idioma – por ejemplo, ” surchargeant “en francés – que tienen una estructura similar de tres partes.
Crosstalk
El sistema reproduce los distintos niveles de la correspondencia fuera de sí. Se podría empezar, por ejemplo, con algunas hipótesis que compiten por las asignaciones alfabéticas, basado enteramente en la frecuencia de símbolos – símbolos de mapas que se producen con frecuencia en un solo idioma que a su vez se producen con frecuencia en la otra. El uso de un tipo de modelos probabilísticos común en la investigación de inteligencia artificial , entonces sería determinar cuál de las asignaciones parece haber identificado un conjunto coherente de sufijos y prefijos. Sobre esa base, podría buscar las correspondencias en el plano de la palabra, y los que, a su vez, podría ayudar a refinar su mapeo alfabético. “Tenemos que recorrer los cientos de datos, miles de veces “, dice Snyder, ” y cada vez, nuestras conjeturas tienen mayor probabilidad, porque en realidad estamos acercandonos a una solución con la que conseguimos más coherencia. ” Finalmente, el sistema llega a un punto en el que alterar sus asignaciones ya no mejora la consistencia.
El Ugarítico ya ha sido descifrado: De lo contrario, los investigadores no habrían tenido forma de medir el rendimiento de su sistema. El alfabeto ugarítico consta de 30 letras, y el sistema ha asignado correctamente 29 de ellas a sus homólogo hebreo. Aproximadamente un tercio de las palabras en hebreo tienen cognados ugaríticos, y de ellos, el sistema correctamente identificó el 60 por ciento. ” De los que son incorrectos, a menudo son correctos sólo por una sola letra, por lo que son a menudo muy buenas conjeturas “, dice Snyder.
Por otra parte, señala, el sistema no utiliza actualmente toda la información de contexto para resolver ambigüedades. Por ejemplo, las palabras ugarítica de “casa” e “hija” se escriben de la misma manera, pero sus contrapartes hebreas no lo hacen. Aunque el sistema de vez en cuando puede mezclarlos, un descifrador humano podría fácilmente decir que contexto se pretendía.
Babel
Sin embargo, Andrew Robinson sigue siendo escéptico. “Si los autores consideran que su enfoque conducirá finalmente a un informatizado “automático” del desciframiento de escrituras sin descifrar en la actualidad “, escribe en un e- mail “, entonces me temo que no estoy del todo convencido por su periódico “. Los investigadores, dice, suponen que el idioma que se ha descifrado su alfabeto se puede incorporar a el alfabeto de un idioma conocido – “que es casi seguro que no ocurre con ninguna de las lenguas importantes que aún siguen sin descifrar las secuencias de comandos “, escribe Robinson . También se supone , argumenta, que está claro de dónde termina un carácter o palabra y empieza otra , que no es el caso de muchos descifrados y sin descifrar secuencias de comandos.
“Cada idioma tiene sus propios desafíos “, Barzilay está de acuerdo. “Lo más probable , es que un desciframiento éxitoso requiere adaptar el método a las peculiaridades de una lengua.” Pero, el desciframiento del Ugaritico llevó años y se basó en algunas coincidencias felices – tales como el descubrimiento de un hacha que tenía la palabra ” hacha ” escrita en ella en el ugarítico . ” La salida de nuestro sistema habría hecho el proceso de órdenes de magnitud más corta “, dice.
De hecho, Snyder y Barzilay no creen que un sistema como el que diseñaron con Knight nunca sustituirá a descifradores humanos. “Pero es una poderosa herramienta que puede ayudar al proceso de desciframiento humano”, dice Barzilay . Por otra parte, una variación del sistema también podría ayudar a ampliar la versatilidad de un software de traducción. Muchos traductores en línea se basan en el análisis de textos paralelos para determinar las correspondencias de las palabras: Podrían, por ejemplo, pasar por las obras completas de Voltaire , Balzac , Proust y un anfitrión de otros escritores, tanto en Inglés y Francés , en busca de coherencia entre las asignaciones de las palabras. “Esa es la manera en que los sistemas estadísticos de traducción han trabajado durante los últimos 25 años “, dice Caballero.
Pero no todas las lenguas tienen tales literaturas exhaustiva traducidas : En la actualidad , señala Snyder, Google Translate tiene obras de sólo 57 idiomas . Las técnicas utilizadas en el sistema de desciframiento podrían adaptarse para ayudar a construir léxicos para miles de otros idiomas. “La tecnología es muy similar “, dice Caballero , quien trabaja en la traducción automática . “Ellos se alimentan mutuamente . ”