Actas / Atas
1988-2002
Presentación / Apresentação
I Simposio (1988)
II Simpósio (1990)
III Simposio (1992)
IV Simposio (1994)
    Índice
V Simposio (1996)
VI Simposio (1998)
VII Simpósio (2000)
VIII Simpósio (2002)
Índice por autores

 

 

Un método para contribuir a la actualización
de la terminología técnica

Clementina Anzaldi
IAC - CNR
Italia

 

Introducción

La terminología es de fundamental importancia en los intercambios culturales y comerciales; su desarrollo debe tener en cuenta dos problemas, uno "nacional" es decir relacionado a la lengua y al desarrollo del país y uno "internacional" relacionado a la facilidad de comprensión recíproca entre países de diferente lengua madre. Por consiguiente, un método de formación de listas de términos aplicado a priori por expertos del sector a menudo resulta inadecuado.

Por otra parte científicos y tecnólogos incorporan en la literatura toda una terminología relacionada al uso y al desarrollo de la investigación, sirviéndose a menudo de la terminología de los países técnicamente más avanzados: de esta manera algunas "frases" en la lengua nacional y en otras lenguas, se han vuelto de uso común, prácticamente "términos" y a éstas se ha hecho posteriormente referencia para intercambios de información.

Exigencias de objetividad, internacionalización, esfuerzos por ser unívocos y simplificación hacen que sea importante que el desarrollo de la terminología esté relacionada a la literatura del sector.

El objeto de este trabajo es aquél de proponer una metodología basada sobre el análisis sintáctico, sobre el análisis semántico y sobre el uso de las raíces lexicales, para extraer de textos de un archivo bibliográfico de argumento específico, listas de "frases" (KEYPHRASES) que en forma concisa describen los argumentos tratados en los textos mismos.

La metodología prescinde de la lengua en la cual están escritos los textos, por lo menos para las lenguas de directa experiencia del autor, puesto que los algoritmos de análisis sintáctico son independientes y se apoyan a los léxicos específicos de cada lengua.

Con estas premisas, ha sido proyectado un modelo, implementado en una estructura informática desk-top, que permite la extracción interactiva de frases significativas y además, si se desea, permiten dotar las frases con una estructuración jerárquica.

Es importante aclarar para los fines de este convenio, que el modelo descripto tiene como objeto ofrecer una ayuda para una rápida y fácil individualización de términos: sobre las listas producidas, los expertos en terminología podrán individualizar los efectivos "términos" de actualización.

 

Los léxicos

Los algoritmos de análisis se apoyan, como se ha dicho, a "léxicos" propios de la lengua en la cual se ha decidido operar.

Los léxicos están constituidos por aquellos elementos característicos que tienen función de identificación y de separación de elementos sintácticos autónomos. Son cuatro y están diferenciados por el objetivo al cual sirven:

1. Separación de las frases: está constituido por los signos de puntuación y por todas las palabras que miden un texto en frases con sentido completo como las conjunciones y las preposiciones. Se exceptúa la preposición de especificación que presenta problemas semánticos y es tratada aparte.

2. Identificación del complemento de especificación: preposiciones de especificación.

3. Eliminación de elementos semánticamente vacíos: las palabras de esta lista son palabras comunes como artículos, adjetivos, pronombres (posesivos, demostrativos ..), a las cuales se le agregan todas las palabras con un significado de poco relieve para el sector tratado.

Esta última lista es particularmente delicada puesto que, si es cierto que su ampliación ayuda a obtener listas finales ágiles y fáciles de consultar, también dicha ampliación no puede ser hecha totalmente a priori. Lo demuestra el ejemplo de los adjetivos: incluirlos a todos no sólo no sería económico porqué el vocabulario de un campo es siempre restringido respecto de toda la lengua, sino que también podría causar pérdidas di información en el caso de adjetivos sustantivados como por ej. "relativo" en el campo de la física.

Asimismo, es útil actualizar esta lista en el transcurso de posteriores elaboraciones.

4. Elección de la lengua: está constituido por palabras características de una lengua como ser "GLI" para el italiano o "EL" para el castellano. Sirve sólo cuando se trabaja sobre un archivo multilingüe para extraer textos en la lengua deseada.

 

Descripción del método

Análisis sintáctico y semántico

La metodología prevé operar sobre textos de una reseña bibliográfica del sector de interés.

A estos textos se aplican los algoritmos de análisis hasta generar frases que constituyen elementos (KEYPHRASES) significativos, más o menos complejos.

Los algoritmos de análisis propuestos aplican reglas gramaticales que definen las relaciones entre las partes que componen un párrafo; los siguientes algoritmos se utilizan para formar las KEYPHRASES:

1. Subdivisión del texto mediante el análisis gramatical y sintáctico apoyado al léxico de los separadores para obtener frases de significado autónomo;

2. normalización de las KEYPHRASES obtenidas de la siguiente manera:

a) eliminando:

las componentes semánticamente vacías con la ayuda del léxico correspondiente;

las keyphrases repetidas;

b) llevando a los estándar ya elegidos esas frases, de igual significado, que se separan del mismo.

Se entiende por separación de un estándar, las diferencias no semánticas pero puramente formales como el uso de singulares o plurales, ante- o post-poción de adjetivos, etc. Para la individualización de los estándar puede ser útil el uso de la raíz completa de las palabras, o sea de la palabra privada de sus derivaciones gramaticales.

Se ha aplicado hasta aquí un análisis sintáctico pero el examen del contenido de las KPH evidencia que las mismas son ambiguas y/o excesivamente complejas.

El fracaso de métodos exclusivamente sintácticos sugiere que la génesis de las frases identificadoras simples y significativas puede sacar ventaja de la disponibilidad de informaciones suplementarias sobre cada frase y sobre las relaciones entre sí.

En el campo más general del rescate de la información, este problema ha sido destacado por distintos autores (SALTON y otros. 1992, ...,) que aún usando distintas técnicas, han demostrado que el análisis sintáctico es insuficiente para el examen de un texto y que es necesario aportar un análisis semántico.

El método utilizado ha mostrado que el análisis sintáctico y el análisis semántico no son dos momentos totalmente separados entre ellos, sino que en algunas de las fases de elaboración los dos tipos de análisis interactúan.

Los siguientes problemas son de carácter sintáctico pero están influenciados por la semántica y los procedimientos de solución adoptados son ampliamente interactivos.

3. Se examinan interactivamente basándose sobre sublistas producidas por el sistema:

a) el rol de la conjunción y de la coma:

separan a veces muchas unidades (normalmente adjetivos pero también sustantivos) referidas a un sólo componente identificador que las precede o las sigue; a dicho componente serán asignados por lo tanto las distintas unidades y de esta manera se generan más KPH a partir de aquel componente identificador;

b) el rol de la preposición de especificación:

en la primera fase no se ha considerado un separador atendibile, puesto que une dos componentes del párrafo que, en la mayoría de los casos, son indivisibles entre sí; en esta fase se subdividen con la ayuda del correspondiente léxico las KPH que contienen dichas preposiciones y se analizan en forma separada las partes obtenidas; no se acepta la subdivisión cuando en efecto la KPH completa presenta valencia semántica;

c) KPH constituidas por componentes nominales:

si una componente identifica una clase muy amplia y la otra, aplicada a la anterior, limita su connotación y la vuelve más específica, se mantiene la forma compuesta por ser científicamente más significativa;

d) KPH constituidas por sintagmas adjetivales:

es necesario tener en cuenta que, como regla general, los adjetivos no constituyen KPH autónomas. Se pueden aplicar diferentes criterios:

las KPH de uso común en el lenguaje científico corriente se dejan en su forma;

las KPH en las cuales el componente identificador es adjetival, mientras el componente nominal tiene un significado muy amplio, se pueden transformar en un sustantivo que pertenezca al mismo campo semántico del adjetivo;

las KPH en las cuales tanto el componente adjetival como aquella nominal tienen un propio significado se sustituyen con dichos componentes; el adjetivo se transforma en el sustantivo correspondiente y ambos elementos se incorporan a las KPHs.

Asimismo, los problemas que se detallan a continuación están relacionados con el carácter de específico del conjunto que se quiere representar, o con consideraciones científicas verificables para confrontar textos de reconocida validez; éstos por ende tienen valencia exclusivamente semántica y la solución en gran medida está determinada por el experto, por lo cual aquellas que siguen son únicamente sugerencias relacionadas a experiencias anteriores.

4. Se efectúa un examen semántico interactivo, sobre las frases hasta ahora obtenidas, basado en sublistas propuestas por el sistema:

a) KPH de significado ambiguo: se cotejan con el contexto de procedencia.

b) KPH relacionadas exclusivamente a la contingencia: (como por ej. fechas, nombres propios de persona, sustantivos de significado muy genérico, etc.) son eliminadas;

c) KPH complejas: se efectúa opera una rectificación o "afinamiento" tanto eliminando aquellas partes que la hacen demasiado específica y/o que no influyen sobre el significado de la KPH como subdividiendo, donde sea necesario y posible, la KPH en sus componentes; en algunos casos se puede dejar tanto la KPH en su forma compuesta o subdividirla en sus componentes.

Como regla general las KPHs deben representar conceptos individuales o unitarios y las KPHs compuestas deben ser subdivididas en elementos más simples excepto cuando ello comprometa el significado de las KPHs mismas.

Al finalizar esta fase, se obtiene una lista constituida por frases de significado científico, relativas al campo en examen y afinadas al grado de especificación considerado aceptable.

Se puede considerar que a esta altura de la elaboración, los términos corrientes de la literatura en el campo examinado forman parte de la lista obtenida, pero que no está formada sólo por ellos. Forman parte un número considerable de frases que no pueden ser considerados "términos", por lo menos actualmente, pero que pueden estar de muchas maneras vinculadas a los términos con relaciones de jerarquía semántica que comprenden dependencia, ascendencia y sinonimia.

 

Agregación bajo una raíz lexical

Con el fin de facilitar procesos de uniformación a estándar, de reconocimiento de sinonimias y de estructuración, se recurre al uso de la raíz lexical.

Su importancia semántica permite obtener algunas informaciones útiles. Pueden surgir las siguientes consideraciones: definiciones científicas tienen a menudo una raíz común que derivan del griego o del latín y esto permite relacionar también un cierto porcentaje de textos en muchas lenguas; las raíces pueden ser individualizadas también en las palabras mismas, ya que prefijos y sufijos aunque modifiquen el significado originario de la raíz semántica en el ámbito de un campo específico, no lo cambian; la individualización de una raíz común evidencia sinonimias y dependencias semánticas (jerarquía semántica).

5. Determinación de la raíz de las palabras que componen la lista de KPHs anteriormente obtenida

a) se "corta" cada palabra a un número de caracteres que varía, a través de una experimentación interactiva, hasta que la mayor parte de las "stream" (sucesiones de caracteres) obtenidas sean raíces etimológicas de las palabras de las cuales provienen. En otras palabras, se eliminan en modo automático las derivaciones gramaticales.

b) se producen listas de asociación entre cada palabra y su supuesta raíz.

c) se efectúa un análisis interactivo para verificar que cada "stream" sea una verdadera raíz y que sea efectivamente raíz de todas las palabras a la cual está asociada; cabe notar que la raíz puede estar dentro de la palabra; sobre las asociaciones que no responden a las condiciones mencionadas se efectúan las correcciones necesarias.

Algunos ejemplos sirven para aclarar el concepto antes citado:

una raíz, aunque sea correcta, puede agregar KPHs en las cuales la palabra original tiene, en el contexto, distintos significados; clásico ejemplo la palabra análisis cuyo significado está estrechamente ligado al contexto;

la raíz lexical puede resultar demasiado amplia, ya que de ella nacen otras raíces, dichas raíces alargadas, o sea raíces de subcampos importantes del campo semántico individualizado por la raíz originaria. (turism/ecoturism)

puede haber raíces aparentes o sea "stream" que son raíces lexicales de ciertos campos semánticos pero no raíces de todas las palabras que han agregado; en algunas de ellas estas raíces están incluidas sólo formalmente (curs/re-curs).

6. Agrupación de las KPHs bajo las raíces de cada una de sus palabras componentes: cada KPH podrá así formar parte de varios conjuntos.

Se efectúa un examen interactivo basado en sublistas propuestas por el sistema. En esta fase, pueden ser individualizadas raíces sin influencia para la determinación del resultado.

La agrupación de KPHs bajo una raíz es una operación que se demuestra de gran utilidad; la misma de hecho permite:

reunir en una sola lista KPHs que podrían tener significados similares o correlativos;

evidenciar KPHs que podrán ser eliminadas;

destacar eventuales sinonimias entre dos o más KPHs

7. Examen interactivo de cada subconjunto determinado por las raíces lexicales.

a) se establece cual de las KPHs presentes en las listas individuales puede ser considerada de gran importancia para el campo tratado;

b) se ponen en correlación las KPHs antes seleccionadas con las restantes KPHs con relaciones de ascendencia y sinonimia.

Es necesario observar que, puesto que se ha comenzado con un lenguaje natural, las correlaciones pueden teóricamente existir entre KPHs procedentes de cualquier sublista; de la experiencia hasta aquí recabada, surge que prácticamente el trabajo de estandarización y el uso de la raíz lexical reducen las correlaciones casi exclusivamente a elementos de una misma sublista.

En la fase interactiva se realiza un análisis semántico de cada KPH; en esta fase se necesita un cotejo con diccionarios científicos especializados y con textos especializados, por ende sólo un conocimiento específico de la temática permite efectuar algunas elecciones.

Una especial atención merecen los sinónimos que en la acepción corriente son palabras cuyos significados pueden ser considerados idénticos y por ello intercambiables.

Para el presente trabajo es más útil tomar en consideración las frases con sinonimia

Pueden ser consideradas como frases con sinonimia:

las variantes formales de las KPHs;

los acrónimos presentes en los textos (RITerm sinónimo de Red Iberoamericana de Terminología) tanto solos como incluidos en frases complejas;

las traducciones de las KPHs en todas las lenguas.

Se observa que también para definir los sinónimos resulta útil usar la raíz completa de las palabras que componen las frases.

El resultado del trabajo descripto en los puntos 1, 2, 3, 4, 5, 6, 7 es una lista estructural sobre dos niveles: KPHs extraídas de los textos y sus sinónimos y "candidatos a término" a los cuales las KPH están en correlación.

Sobre dichas listas, los expertos en terminología podrán individualizar los efectivos "términos" de actualización de la terminología del campo.

 

Thesaurus de términos

El método descripto puede ser utilizado para obtener un Thesaurus estructurado orientando el análisis interactivo hacia la producción de "un conjunto controlado de términos elegidos por el lenguaje natural que represente en forma sintética y exhaustiva los conceptos del sector en examen".

Una lista de términos tanto para su actualización como para su consulta, puede sacar ventajas de la estructuración.

Por analogía con la definición, podemos considerar Thesaurus de términos la lista estructurada que hemos obtenido.

Este thesaurus está estructurado en un árbol jerárquico que agrega términos específicos de cada nivel tanto a términos de nivel superior, o sea de carácter más general, como a términos de igual nivel; naturalmente cuando se decide dotar a un thesaurus con una estructura jerárquica, es necesario controlar que haya una complejidad científica uniforme en cada nivel.

Sobre la lista obtenida, el sistema permite actualmente generar un tercer nivel reuniendo los términos por categorías de orden superior: los argumentos.

Esta última agregación se efectúa en forma interactiva trabajando sobre sublistas producidas por el sistema y basándose casi exclusivamente en el significado de los términos.

La metodología presentada ofrece la ventaja indiscutible de construir el thesaurus "desde abajo", generalizando luego conceptos que provienen del lenguaje natural.

 

El sistema SBIC

La metodología descripta forma parte de un Sistema Bibliográfico Completo (SBIC) que puede ser aplicado a cualquier tipo de recopilación bibliográfica y se ocupa también de la confección del índice y la búsqueda de los artículos de la recopilación. El lenguaje de coloquio es fácil y natural para el usuario no informático.

SBIC está compuesto principalmente por dos partes: una, para la construcción de las listas y la construcción de un thesaurus estructurado, y la otra para la confección del índice del archivo, la búsqueda bibliográfica y la actualización del archivo mismo.

Las dos partes del sistema son independientes, en el sentido de que cada una tiene su propio input y su propio output bien definidos y pueden ser usados independientemente.

La primera parte trabaja sobre la metodología aquí descripta.

Estudios similares para el análisis de textos con fines de "Information Retrieval" y traducciones automáticas se llevan a cabo con la ayuda de diccionarios y estructuras sintácticas memorizadas (SALTON y al. 1992) que convierten en automáticas algunas funciones como reconocimiento de estándares, identificación de raíces y cotejos con diccionarios especializados pero que necesitan ambientes de cálculo potentes y tiempos de ejecución elevados.

En este trabajo, aún respetando conceptos y metodologías ya experimentados, puesto que se ha querido obtener un sistema que pueda trabajar en ambiente PC, se ha recurrido al aporte directo del experto.

El experto utiliza sus propios conocimientos sobre el argumento en cuestión para evaluar la validez científica de los elementos extraídos y aportar normalizaciones y selección.

Tanto el archivo como el thesaurus son bases de datos relacionales.

La proyección se ha basado sobre el sistema CLIPPER ya sea para la estructura de los archivos como para la aglomeración de las funciones.

Esta elección permite obtener los siguientes objetivos:

facilidad de transporte

facilidad de uso

De hecho, el entero paquete tiene dimensiones reducidas y puede ser registrado sobre un disket de 3"½. El mismo trabaja sobre un normal PC en ambiente DOS.

 

Aplicaciones

Las realizaciones llevadas a cabo con este sistema comprenden un Thesaurus de la biología de la Laguna de Venecia en un archivo trilingüe (inglés, francés, italiano) y algunos thesaurus basados en bibliografías personales en italiano y en alemán.

El autor colabora además en un proyecto italo-ruso (Universidad de Palermo - Universidad de Moscú - CNR) para la construcción de una terminología italo-rusa en el sector de la ecología y en un proyecto CNR-ENEA (Ente Nacional de Energías Alternativas) para la construcción de un thesaurus en el sector de la energía.

 

Ejemplo

Texto

Tanto en el ámbito del turismo rural, como en el del ecoturismo, multitud de conceptos y de definiciones han sido utilizadas de manera confusas. Algunos de los más utilizados en este contexto han sido: agroturismo, turismo rural, turismo verde, turismo de aventura. Comprender el concepto del ecoturismo implica ubicarlo en su contexto turístico.

Entendemos que todos los segmentos del turismo rural se caracterizan por enmarcarse dentro del concepto "desarrollo sostenible", implicando esto, la persecución del aprovechamiento óptimo, que no máximo, de los recursos del entorno.

El ecoturismo es un turismo: sostenible, integrado en el entorno, de bajo impacto ambiental y social por integración de la población local, desarrollado en el medio natural, con unos objectivos claros y prioritarios de conservacion del entorno.

 

FRASI (1) (2,3)
AMBITO DEL TURISMO RURAL AMBITO DEL TURISMO RURAL
DEL ECOTURISMO AMBITO DEL ECOTURISMO
MULTITUD DE CONCEPTOS DE DEFINICIONES UTILIZADAS DE MANERA CONFUSAS  
DE UTILIZADOS  
CONTEXTO  
AGROTURISMO AGROTURISMO
TURISMO RURAL TURISMO RURAL
TURISMO VERDE TURISMO VERDE
TURISMO DE AVENTURA TURISMO DE AVENTURA
COMPRENDER CONCEPTO DEL ECOTURISMO IMPLICA UBICARLO CONCEPTO DEL ECOTURISMO
CONTEXTO TURISTICO CONTEXTO TURISTICO
ENTENDEMOS  
SEGMENTOS DEL TURISMO RURAL SE CARACTERIZAN TURISMO RURAL
ENMARCARSE  
DEL CONCEPTO "DESARROLLO SOSTENIBLE" DESARROLLO SOSTENIBLE
IMPLICANDO  
PERSECUCION DEL APROVECHAMIENTO OPTIMO APROVECHAMIENTO OPTIMO
NO MAXIMO APROVECHAMIENTO MAXIMO
DE RECURSOS DEL ENTORNO RECURSOS DEL ENTORNO
ECOTURISMO ECOTURISMO
TURISMO TURISMO
SOSTENIBLE TURISMO SOSTENIBLE
INTEGRADO TURISMO INTEGRADO EN EL ENTORNO
ENTORNO  
DE BAJO IMPACTO AMBIENTAL TURISMO DE BAJO IMPACTO AMBIENTAL
SOCIAL TURISMO DE BAJO IMPACTO SOCIAL
INTEGRACION DE POBLACION LOCAL INTEGRACION DE POBLACION LOCAL
DESARROLLADO TURISMO DESARROLLADO EN EL MEDIO NATURAL
MEDIO NATURAL MEDIO NATURAL
OBJETIVOS CLAROS  
PRIORITARIOS DE CONSERVACION DEL ENTORNO CONSERVACION DEL ENTORNO

 

KEYPHRASES (2,3,4)

AGROTURISMO
APROVECHAMIENTO
CONSERVACION DEL ENTORNO
DESARROLLO SOSTENIBLE
ECOTURISMO
IMPACTO AMBIENTAL
IMPACTO SOCIAL
MEDIO NATURAL
POBLACION LOCAL
RECURSOS
TURISMO
TURISMO DE AVENTURA
TURISMO DESARROLLADO EN EL MEDIO NATURAL
TURISMO INTEGRADO EN EL ENTORNO
TURISMO RURAL
TURISMO SOSTENIBLE
TURISMO VERDE

 

RADICI (5,6)

AGROTU AGROTURISMO  
AMBIEN AMBIENT IMPACTO AMBIENTAL
APROVE APROVECH APROVECHAMIENTO
AVENTU   TURISMO DE AVENTURA
CONSER CONSER CONSERVACION DEL ENTORNO
DESARR DESARR DESARROLLO SOSTENIBLE
DESARR DESARR TURISMO DESARROLLADO EN EL MEDIO NATURAL
ECOTUR ECOTUR ECOTURISMO
ENTORN   CONSERVACION DEL ENTORNO
ENTORN   TURISMO INTEGRADO EN EL ENTORNO
IMPACT   IMPACTO AMBIENTAL
IMPACT   IMPACTO SOCIAL
INTEGR   TURISMO INTEGRADO EN EL ENTORNO
LOCAL   INTEGRACION DE POBLACION LOCAL
LOCAL   POBLACION LOCAL
MEDIO   MEDIO NATURAL
MEDIO   TURISMO DESARROLLADO EN EL MEDIO NATURAL
NATURA NATURA MEDIO NATURAL
NATURA NATURA TURISMO DESARROLLADO EN EL MEDIO NATURAL
POBLAC POBLAC POBLACION LOCAL
RECURS RECURS RECURSOS
RURAL   TURISMO RURAL
SOCIAL SOCIAL IMPACTO SOCIAL
SOSTEN   DESARROLLO SOSTENIBLE
SOSTEN   TURISMO SOSTENIBLE
TURISM TURISM AGROTURISMO
TURISM TURISM ECOTURISMO
TURISM TURISM TURISMO
TURISM TURISM TURISMO DE AVENTURA
TURISM TURISM TURISMO DESARROLLADO EN EL MEDIO NATURAL
TURISM TURISM TURISMO INTEGRADO EN EL ENTORNO
TURISM TURISM TURISMO RURAL
TURISM TURISM TURISMO SOSTENIBLE
TURISM TURISM TURISMO VERDE
VERDE   TURISMO VERDE

 

THESAURUS (7)

AMBIENTE IMPACTO AMBIENTAL
APROVECHAMIENTO APROVECHAMIENTO
CONSERVACION DEL ENTORNO CONSERVACION DEL ENTORNO
DESARROLLO SOSTENIBLE DESARROLLO SOSTENIBLE
ECOTURISMO ECOTURISMO
  (sin) TURISMO VERDE
NATURA MEDIO NATURAL
  TURISMO DESARROLLADO EN EL MEDIO NATURAL
POBLACION LOCAL POBLACION LOCAL
RECURSOS RECURSOS
SOCIEDAD IMPACTO SOCIAL
TURISMO AGROTURISMO
  (sin) TURISMO RURAL
  ECOTURISMO
  TURISMO
  TURISMO DE AVENTURA
  TURISMO DESARROLLADO EN EL MEDIO NATURAL
  (sin) TURISMO INTEGRADO EN EL ENTORNO
  TURISMO SOSTENIBLE

 

Editado con el apoyo de
Editado com o apoio da: