Actas / Atas
1988-2002
Presentación / Apresentação
I Simposio (1988)

II Simpósio (1990)

    Índice
III Simposio (1992)
IV Simposio (1994)
V Simposio (1996)
VI Simposio (1998)
VII Simpósio (2000)
VIII Simpósio (2002)
Índice por autores

 

 

¿Lingüística computacional o ingeniería del lenguaje?

Gladys Dávalos Arze
IGRAL
Bolivia

 

Resumo

Dentro del procesamiento del lenguaje natural por medio del ordenador electrónico, la comunicación ordenador-ser humano no es fácil. No existe ningún lenguaje normado y probado que sirva para ello. ¿Cómo explicarle a un ordenador lo que es una preposición? ¿Cómo hacerle notar la diferencia semántica de los "play" en I play piano" o "I play tennis"? Aqui se procura esclarecer el concepto de Ingeniería del Lenguaje en contraposición al de Lingüística Computacional.

La Ingeniería del Lenguaje se acerca a la comprensión del lenguaje natural, intentando construirlo, sin formular descripciones explicativas de este fenómeno. Lo que cuenta para un modelo general del lenguaje humano es la efectividad con la que los algoritmos lo reproducen para generar oraciones correctas. Un sistema de traducción automática asi concebido evalúa objetivamente el grado de aproximación de la representación del lenguaje mismo.

 

Con la aparición de la informática, se abre un abanico amplio de posibilidades para una gran parte del conocimiento humano. Es así que hoy en día muy pocas ramas del saber pueden dispensar de tan útil herramienta. Las matemáticas fueron una de las primeras en beneficiarse y el nombre de "computación" quedo acunado. Ahora se usa el término sin mucho pensar y, aparentemente, informática y computación son lo mismo. Sin embargo, existen sutiles diferencias. Si hablamos por ejemplo de informática legislativa, no estamos hablando de computación. Se trata de informática y cuando mucho, de una parte de ella, que se ocupa, con más precisión, del manejo de bases de textos.

Algo parecido ocurre con la lingüística, que se encuentra en una fase de grandes cambios, ya que la tradicional lingüística clásico-académica no tiene ya mucho que ver con la así llamada lingüística computacional, que ahora responde a la realidad de los computadores electrónicos.

Como uno de sus objetivos principales es el de la traducción, se observa asimismo el uso de otros nombres: "traducción automática" (a máquina, es decír, por ordenador); también se habla de "lingüística electrónica", de "ciencia de la traducción" y como se sabe más sobre el contenido de los datos, hay un control de la memorización y un tratamiento de los datos más benefícioso, se agrega un nuevo capítulo a las investigaciones con características interdisciplinarias, que puede defínirse como "linguística matemática", que sirve para lograr el perfeccionamiento y control de las comunicaciones. La idea es llegar a implantar computadores "traductores inteligentes".

 

Linguística computacional

"Un idioma es un sistema de signos que sirve para la comunicación humana" (cf. Saussure 916:32). El lenguaje ha preservado ese carácter primario a pesar de la revolución en el mundo de las telecomunicaciones y a la aparición de nuevas posibilidades de ponerse en contacto con diversas fuentes de información. Los fenómenos físicos y electrónicos de la comunicación oral están ahora supeditados a la técnica.

La conferencia "Coling" (Computational Linguistics), que se realiza bienalmente, considera como "linguistas computacionales" a aquellos investigadores que se dedican al campo del procesamiento del lenguaje natural (Natural Language Processing o NLP). Sería muy atiborrado tener que llamarlos "Natural Language Processing experts" o algo así. En la "Coling" 88 se habló mayormente de "MT" o Machine Translation, por haberse convertido "en la sección más grande" de los investigadores en este campo.

Algunos autores entienden el término en un sentido más restringido y se refieren a la lingüística computacional como al estudio de cálculos aplicados a la lingüística que regulan en cada idioma la succesión de variables y su frecuencia (Lingüística Estadística o Computacional), el modo de presentarse y formarse las palabras (distribución estadística de los fonemas, raíces fundamentales y su evolución), la forma de relacionarse y conectarse de los vocablos, de modo que con la ayuda de las matemáticas modernas se llega a analizar más a fondo la estructura de la oración.

En cuanto hace a la constatación de la frecuencia la lingüística computacional, a su vez, analiza lo que sucede lingüísticamente en la mayor cantidad posible y variedad de textos. Se calcula la cantidad de información por símbolo en bit y se hacen tablas de las varias probabilidades de presentarse de cada caracter. La observación se limita a los caracteres y a su presentación ordenada en un mensaje que configura el enunciado de una conexión entre los símbolos. De acuerdo al idioma en cuestión se puede tipificar casos donde la sucesión de determinadas letras es siempre la misma, e.g. en español -gar, en jugar, abrogar, delegar, etc. Es decir, que las diferentes conexiones se pueden calcular con alguna probabilidad.

 

Ingeniería del Lenguaje

"Un idioma es un sistema de signos que sirve para la comunicación humana" (cf. Saussure 916:32), reiteramos, empero la comunicación máquina-ser humano no es precisamente la más fácil. Sobretodo porque no existe ningún lenguaje normado y probado que pueda servir para este efecto. (No estamos hablando de lenguajes de programación, que son diversos y tienen un objetivo diferente), ¿Cómo explicarle o hacerle entender a un ordenador lo que es una preposición? ¿Cómo decirle, además, que en algunos idiomas "para", "für", "for", "pour", etc. es una preposición, pero no así en aymara, que para este efecto usa el sufíjo "-tala" y en húngaro, "-nak", asimismo un sufijo? Esto equivale a decir que las categorías de las gramáticas tradicionales no son universales y por lo tanto se dificulta aún más la comunicación con la computadora, que en este caso ya no está solamente sirviendo de medidor de estadísticas y frecuencias, sino de mediador en sí para la obtención de mejores e inteligentes resultados en la traducción automática.

Es aquí donde interviene la ingeniería del lenguaje, donde el investigador tiene que "ingeniárselas" verdaderamente para romper esa barrera y corsett que puede ser a veces el lenguaje natural. Tendrá que crear nuevas categorías, construir modelos gramaticales, investigar y jugar con ellos, tratar de comprender por qué la estructura sintáctica tan diferente de un idioma a otro no tiene equivalencia "uno a uno", lo cual puede ser desesperante en el árduo intento de lograr una "traducción inteligente". Algunas estructuras son más "primitivas", si se quiere, y no presentan mayores problemas.

Por ejemplo la traducción de:

La casa es grande

al inglés, presenta una cómoda equivalencia "uno a uno", que no es problema para la traducción automática (ni humana):

The house is big

En este muy sencillo caso, la equivalencia de artículo, sustantivo, verbo y adjetivo, concuerda inclusive en el ordenamiento sucesivo de las mismas categorías sintácticas. No sucede lo mismo cuando la sintaxis de los idiomas obliga a obedecer reglas diferentes. Este es el caso de:

La casa blanca es grande

que en inglés sería:

The white house is big

donde la correspondencia uno a uno ya empieza a trastocarse. Lo que en uno era:

art sus adj vbo adj

es en el otro

art adj sus vbo adj

Peor aún, en la estructura de lenguaje más complicada, esta correspondencia de significado total es, desde luego, muy difícil de alcanzar. ¡Y ni qué decir de un sistema multilingüe ! De ahí que la ingeniería del lenguaje debe darse modos para realizar un análisis de significado convincente. No basta con que dos palabras coincidan en significado, debe haber una forma de describir las diferencias como también aquellos componentes de significado que pueden determinar el significado de otras palabras en su contexto. De esta manera, si los significados no son sólo comparados, sino que también deben ser analizados y descritos, se requiere alguna forma de meta-representación.

El problema se torna más complejo aún cuando se trata de una misma forma, pero con distinto significado. ¿Como vá a diferenciar una computadora los dos significados de "play" en

"Il play tennis". (Yo juego ténis.)

de:

"I play piano"? (Yo toco piano.)

Y este es un caso "sencillo" de las múltiples posibilidades de polisemias y homofonías. Nuevamente entra en juego la ingeniería del lenguaje para atreverse a crear nuevas categorías y designarlas de acuerdo a las necesidades de comunicación máquina-ser humano. Aún así, a pesar de los esfuerzos, la máquina no obedece a veces al nuevo código. Este es el caso de las palabras "rest" o "can", que en inglés pueden tener varios significados (resto, descanso; puedo, puede, lata de conserva). Hasta no encontrar una convención y un entendimiento, la máquina traducirá "he can take a rest" como "él lata de conserva tomar un resto".

Lo cual, a su vez le da algo de humor al investigador durante la árida tarea de tratar de comunicar con un ordenador, pero puede ser muy desagradable e "incomprensible" para el usuario que quiere traducir un documento y no le "encuentra ningún chiste" al hecho de que una máquina no pueda traducir algo "tan sencillo". Es entonces que son areadas o "ingeniadas" categorías ya no tan comprensibles como sustantivo, verbo, etc., sino "enlace copulativo", "frase predicativa", 'Verbonio copulativo", "frase hilativa", "nomio", etc. que dan lugar a la ingeniería del lenguaje y a la solución del problema.

Por supuesto, el lector podrá imaginarse la "ingeniería" que se necesita para hacer que un ordenador electrónico traduzca, en lo posible con correspondencia "uno a uno", una oración de la vida real como la siguiente, al inglés o a otro idioma con una estructura sintáctica distinta a la del español o a la del lenguaje-fuente:

"Ejercer, a través de las comisiones de ambas cámaras, la facultad de físcalización sobre las entidades autónomas, autárquicas, semiautárquicas y sociedades de economía mixta". (Constitución Política del Estado 1967)

o bien

"El Ministério Público podrá también interponer de oficio este recurso cuando no lo hiciere o no pudiere hacerlo la persona afectada." (CP.E. 1967)

Debido al énfasis que se le otorga a la correspondencia "uno a uno" en la ingeniería del lenguaje, se debe hacer notar que un ordenador electrónico que hace de "traductor", es verdaderamente implacable en sus funciones. El traductor humano generalmente tiende a interpretar más que a traducir, y a escabullirse de la manera más "elegante" posible de alguna dificultad que se presente en esta difícil tarea. La computadora no tiene piedad alguna, y, si en el texto-fuente hay deficiencias, ya sean de ortografía o de estilo, esta no las mejora. Las muestra tal cual son, al desnudo.

De ahí que Schubert tiene razón al afirmar que "para un sistema automático de traducción no hay razón para imitar la forma de trabajo de un ser humano. Un sistema computadorizado vá a benefíciarse mucho más de lo que un humano hace en lo que se refiere a reglas formales, antes que a reglas de contenido. Este parece ser un principio del procesamiento del lenguaje" (cf. Schubert).

Sin embargo, según el Prof. Dr. Wilss "la ciencia de la traducción se encuentra dentro del marco de asociaciones socioculturales y lingüísticas dinámicas. Abarca expresiones lingüísticas dentro del contexto, es decir, de manera dinámica. No posee la ultra estabilidad de un sistema (cerrado) de cibernética con sus exigencias de método absolutistas. De ahí que, en contraposición a las ciencias naturales, no existe una capacidad de "concenso" y los resultados de la ciencia de la traducción son limitados". Sin embargo, el Dr. Wilss considera que en "ambos campos, es decir, entre la "traducción humana" y la "traducción automática", ha habido un "notorio acercamiento".

El término "Ingeniería del Lenguaje" fue acuñado por Ivan Guzmán de Rojas en una serie de artículos publicados por UNESCO sobre la problemática del procesamiento del lenguaje natural por medio del ordenador electrónico. Este autor piensa que una buena estrategia para acercarse a la comprensión del lenguaje natural es intentar construirlo, en vez de formular descripciones explicativas del fenómeno del lenguaje. La prueba de fuego para un modelo general del lenguaje humano es justamente la efectivídad con que los algoritmos logran reproducirlo correctamente para generar oraciones bien formadas. Siguiendo este concepto, un sistema de traducción automática así concebido permite la evaluación objetiva del grado de aproximación de la representación del lenguaje al lenguaje mismo.

 

El idioma de la meta-representación

"La mejor meta-representación debe considerar un punto importante que no debe faltarle a ningún lenguaje-intermediario: debe ser "aprendible". Los sistemas de traducción automática están hechos por seres humanos. La gente que trabaja con la meta-representación, - analistas de sintaxis, semanticistas, lexicógrafos, terminógrafos, etc. - deberían tener un domínio de él." Esta es la opinión del Dr. Schubert, de la cual diferimos totalmente. En el proyecto holandés se usa el esperanto como interlingua y, en el boliviano, como muchos lectores deben saber, el aymara. No obstante, para la tarea, la más árdua, minuciosa y meticulosa, de los terminógrafos y lexicógrafos, no es necesario saber el idioma, con la única excepción del analista de sintaxis. El modelo matricial de ATAMIRI, que usa una meta-representación a nivel formal del aymara arcaico y su sintaxis, ofrece ventajas amplias en el uso de algoritmos.

No obstante queda aún por responder si las reglas de sintaxis tienen más peso sobre la semántica, o ésta sobre los asuntos pragmáticos. Empero, para los objetivos de la traducción automática, la consecuencia de esto debería ser una ingeniería ordenada y una programación sobre bases prácticas, como en el caso del modelo boliviano, que presenta características especiales que revelan indudablemente un camino poco usual, y hasta controversial, de llegar a la traducción automática, pero que son plenamente efectivos, satisfactorios y útiles como herramienta para el traductor profesional.

 

Referencias Bibliográficas

1. DÁVALOS ARZE, Gladys (1987). "ATAMIRI - Revolución en traducción automatizada" - Union Latina, Terminometro, n° 1.

2. GUZMÁN DE ROJAS, Iván (1984). Hacia una Ingeniería del Lenguaje, Publicaciones auspiciadas por UNESCO.

3. HORECKY, Jan (editor) (1984). Coling 82 - North-Holland Linguistic Series.

4. ROSSI, Agapito (1985). AGORA, n· 12,1985/3 IBI, Roma, Italia.

5. SCHUBERT, Klaus (1986). Linguistic and extra-linguistic knowledge, Utrecht, Holanda

6. WILSS, Wolgram (1987). Uebersetzungswissenschaft, Frankfurter Allgemeine Zeitung Saarbrücken, Alemania.

 

Editado con el apoyo de
Editado com o apoio da: