Actas / Atas
1988-2002
Presentación / Apresentação
I Simposio (1988)
II Simpósio (1990)
III Simposio (1992)
IV Simposio (1994)
    Índice
V Simposio (1996)
VI Simposio (1998)
VII Simpósio (2000)
VIII Simpósio (2002)
Índice por autores

 

 

Herramientas lingüísticas para la terminología

José VEGA
GSI-Erli
Francia

 

Resumen

La comunicación que deseamos presentar es una reflexión sobre las herramientas de la ingeniería lingüística que pueden contribuir a la colecta de términos a través del análisis de grandes volúmenes de textos en diferentes lenguas.

Esta ponencia esta motivada por la necesidad creciente de constituir:

acervos terminológicos en diferentes lenguas que permitan colmar las enormes carencias que existen a la fecha particularmente en las áreas científicas y técnicas,

así como acervos terminológicos multilingües que permitan solucionar los problemas de comunicación generados por la actual mundialización de los intercambios de información y abordar efectivamente las nuevas realidades económicas, tecnológicas y lingüísticas que plantean acuerdos tan importantes como el Tratado de Libre Comercio entre México, Estados Unidos y Canadá o el del Mercosur.

Además, dichos acervos, constituidos gracias a las herramientas mencionadas, podrían ser utilizados a su vez por otras herramientas lingüísticas indispensables hoy en día dentro de diferentes áreas en pleno desarrollo en los países latinoamericanos. Por ejemplo:

dentro de los "observatorios de tecnologías avanzadas" que son polos de actividad que se difunden cada vez más dentro de las grandes empresas. Disponer de grandes fondos terminológicos multilingües y herramientas de indización automática y de interrogación de bases documentales permitiría a dichas empresas analizar rápidamente el contenido de documentos técnicos,

dentro de la actividad de traducción, dando la posibilidad a las empresas de ser más competitivas dentro del marco del comercio internacional. No hay que olvidar que un producto que es comercializado en el extranjero varios meses después de haberlo lanzado en el mercado nacional, es un producto que ha perdido prácticamente 60% del mercado extranjero en el cual desea implantarse a causa de la competencia. Tales retrasos pueden tener como origen muchas veces la falta de definición o de existencia de la terminología a utilizar en la traducción.

En nuestra comunicación se describirá, por una parte, la metodología y las herramientas para realizar la extracción automatizada de términos a partir de textos y, por otra parte, se exponen ciertos modelos lingüísticos para dichos términos con la finalidad de poder utilizarlos dentro del tipo de aplicaciones anteriormente mencionados.

El procedimiento que deseamos presentar ya ha sido utilizado en diversos proyectos.

 

Preámbulo

La mayor parte de las bases terminológicas que se realizan dentro de las instituciones y sobre todo en las empresas están definidas por los conceptores y usuarios en función de objetivos bien precisos.

Esto quiere decir que una base terminológica puede contener una información que va de la definición del término a una información mucho mas extensa que se concretiza a través de varias decenas de atributos.

Dentro de dichos atributos, encontramos las informaciones que podemos catalogar de lingüísticas (o gramaticales). En la mayor parte de las bases terminológicas, tales campos se limitan a dar la categoría gramatical y, algunas veces, el género.

Esto se comprende fácilmente puesto que en general estas bases son explotadas por usuarios humanos.

En el marco de la utilización de dichos recursos por las máquinas, nuestro objetivo será de extender la información lingüística que aparece en las bases terminológicas (categoría gramatical, género) a una representación lingüística mucho mas rica basada en los modelos lexicográficos.

 

Modelo lingüístico para la terminología

El análisis automático de la lengua en aplicaciones industriales necesita grandes cantidades de información léxica con la finalidad de obtener una cobertura lingüística importante.

Con esta finalidad, desde hace varios años, organismos o empresas privadas como GSI-Erli realizan modelos lexicográficos de diccionarios electrónicos para ser utilizados por máquinas (cf. proyecto GENELEX anexado a la presente comunicación con la autorización de los autores: Modelo léxico genérico. Consortium: GSI-Erli, SEMA-GROUP, IBM).

Dichos modelos cubren todos los niveles de representación lingüística: la morfología, la sintaxis y la semántica.

Actualmente, diccionarios del francés, portugués e inglés son alimentados por lexicógrafos utilizando el formalismo GENELEX en cada uno de los niveles lingüísticos mencionados antes. Dicho trabajo es realizado a partir de grandes masas de documentos. El objetivo es recuperar un léxico genérico, o sea el nivel de información que se encuentra en diccionarios "clásicos".

La terminología, pues, no forma parte de dicha información, y esto por razones evidentes (el ciclo de vida de una entrada lexicográfica no es equivalente al ciclo de vida de una entrada terminológica).

Esto último ocasiona algunos problemas cuando se trata de analizar automáticamente textos técnicos en los cuales la terminología es la esencia misma de dichos documentos.

La pregunta es ¿cómo poder utilizar datos de bases terminológicas tal como se encuentran hoy en día (EURODICAUTOM, por ejemplo) para el análisis automático de textos de la misma manera que los datos de diccionarios electrónicos?

De un punto de vista lingüístico, los términos no son diferentes a las palabras (simples o compuestas) de la lengua general (tienen una categoría léxica, una representación morfológica, etc.). Sin embargo, dichos términos están en relación con otros objetos conceptuales que no están descritos en los modelos lexicográficos, como por ejemplo: los dominios, las definiciones, los contextos…

En consecuencia, la idea es extender los atributos de los términos a una representación lingüística más fina. En tal caso, la terminología podrá ser utilizada por las herramientas lingüísticas al mismo nivel que las palabras de un diccionario.

Esto quiere decir que en cada uno de dichos términos encontraremos una información de tipo morfológica, sintáctica y/o "semántica" que permitirá efectuar a los analizadores un cierto número de predicciones sobre los términos mismos (categoría, género…), sobre sus contextos (estructura jerárquica, dependencias lógicas), sobre sus niveles nocionales.

Sin embargo, en nuestra reflexión no hemos buscado realizar un modelo mixto en el cual habría una amalgama de uno (o varios) modelo(s) terminológico(s) (que toman en cuenta las particularidades de los términos) y de un modelo lexicográfico que es GENELEX, sino definir una interfaz conceptual a través de la cual comunicarán las instancias de un modelo terminológico con las instancias de un modelo lexicográfico.

Los lazos entre estos dos modelos pueden realizarse, según las necesidades, a todos los niveles de representación lingüística de GENELEX (morfología, sintaxis y, en ciertos casos, semántica).

En el esquema siguiente (bastante simplificado) vemos cómo una unidad terminológica (un término) está en relación, por un lado, con otro objeto llamado aquí representación lingüística y, por otro lado, con un objeto llamado noción. El primero describe lingüísticamente los términos. La representación lingüística esta basada en el modelo léxico de GENELEX (cf. objeto modelo lingüístico). La noción es una representación abstracta de la unidad terminológica.

Lo que hay por encima del objeto noción serán otros objetos conceptuales propios a la definición de un modelo de base terminológica (dominio, definición, autor, fuente…).

Ejemplo, un término como: "tratamiento de datos"

podrá ser reconocido como tal por un analizador automático si éste aparece en la estructura: "tratamiento sistemático de datos"

puesto que en la representación lingüística podremos describir dicho término como un elemento desestructurable en el cual se puede introducir un adjetivo después de la palabra "tratamiento".

Representación lingüística:


Nota: GN = Grupo Nominal; NO = Nombre; AJ = Adjetivo; PP = preposición

En una aplicación de traducción automática, el modelo podría prever una representación en la cual (simplificando) la noción sería el pivote entre dos o n unidades terminológicas:

Como hemos podido ver, la modelización lingüística de la terminología a través de una interfaz conectada a un modelo lexicográfico procura flexibilidad puesto que el modelo en el cual deben instanciarse los datos terminológicos es teóricamente suficiente para aceptar representaciones diferentes de bases terminológicas.

 

Herramientas para la extracción de datos

En el marco de nuestras aplicaciones, una de las tareas principales es la extracción de datos a partir de corpus con la finalidad de preparar bases de trabajo especializadas para el tratamiento automático de textos (indización, generación, traducción…).

En general, los datos que se tratan de recuperar son generalmente términos de documentos especializados.

Para este fin, hemos realizado herramientas que extraen automáticamente el vocabulario de los textos. Sin embargo, esta etapa no preconiza sistemáticamente que tal o tal palabra es un término en el texto analizado.

La particularidad de nuestras herramientas es que utilizan muchos más conocimientos lingüísticos que otros sistemas similares del mercado (SATO, por ejemplo).

En efecto, dichas herramientas utilizan un diccionario de la lengua en entrada así como otros diccionarios especializados (cf. discusión sobre el modelo más arriba). Por ejemplo, en la palabra francesa "pomme de terre" (patata) el sistema identificará, gracias a sus diccionarios, que se trata de una palabra compuesta (expresión) y no de tres palabras.

El resultado de un análisis de textos es un conjunto de ficheros en los cuales encontramos:

informaciones lingüísticas: morfológicas, grupos sintácticos, roles temáticos, predicciones de categorías léxicas sobre palabras desconocidas de los diccionarios…,

informaciones estadísticas: frecuencias de palabras (simples o compuestas) en los textos, otras características gramaticales…

Esta herramienta dispone también de una interfaz que le permite recuperar textos estructurados en SGML. La ventaja de dicho aspecto es poder recuperar, en los resultados de análisis de los textos, otras informaciones factuales como, por ejemplo, saber que tal cadena de palabras es un título, que tal otra forma parte de una lista de enumeración.

Esta fase puede esquematizarse de la manera siguiente (Aleth es el nombre de nuestro motor de análisis):

Una vez que la extracción ha sido realizada, las fases siguientes permiten realizar un trabajo en profundidad sobre los resultados. El objetivo es:

dar una categoría sintáctica o validar las proposiciones hechas por el sistema sobre las palabras desconocidas de los diccionarios

instanciar un modelo terminológico a partir de los resultados obtenidos. Esto presupone que a los términos que no se encuentran aún en la base terminológica habrá que darles una representación lingüística (cf. más arriba)

crear relaciones entre los términos (o descriptores, si se trata de un tesauro)

Para realizar estas operaciones, el sistema dispone de una interfaz de selección en la cual se puede escribir una serie de reglas de extracción bastante precisas. El tipo de restricción que puede mencionarse en dichas reglas es de nivel morfológico, sintáctico, contextual, relacional.

Una vez las bases validadas, estas pueden ser descargadas en otro modelo aplicativo utilizado por un proyecto X, fusionadas con otras bases aplicativas y/o fusionadas con las bases utilizadas para la extracción de vocabulario.

El esquema siguiente muestra los flujos de datos.

Hay que notar que la revisión-validación se hace con la ayuda del diccionario genérico que responde al modelo GENELEX. La interfaz entre el modelo lexicográfico y el modelo terminológico permite establecer los lazos entre las unidades terminológicas y sus representaciones lingüísticas.

Los datos contenidos en las bases enviadas a los diferentes tipos de aplicaciones dispondrán de las informaciones lingüísticas y aplicativas que habrán sido definidas en función de las funcionalidades definidas en los diferentes proyectos.

 

Conclusión

Como lo hemos mencionado en el resumen, hoy en día hay una carencia terminológica en muchas lenguas dentro de las cuales se encuentran el español y el portugués. Pensamos, como muchos de nuestros colegas, que un trabajo importante debe ser realizado y que este no puede ser hecho de manera independiente. Para esto, Unión Latina, así como otros organismos, contribuyen a promover acciones comunes para aprovechar la sinergía interinstitucional.

Sin embargo, pensamos que este trabajo de colecta de terminología no debe ser desligado de los trabajos que son realizados en el marco de la ingeniería lingüística. Como lo hemos mostrado, los recursos terminológicos están en la base de las herramientas de análisis del lenguaje necesarias a su vez para explorar documentos dentro del ámbito de la "veille technologique", traducir documentos técnicos, etc. Tareas indispensables para ser competitivos en un mundo en el cual hay evoluciones tecnológicas constantes y que crean más de 10.000 términos por año.

 

Editado con el apoyo de
Editado com o apoio da: