Actas / Atas
1988-2002
Presentación / Apresentação
I Simposio (1988)
II Simpósio (1990)
III Simposio (1992)
IV Simposio (1994)
V Simposio (1996)
VI Simposio (1998)
VII Simpósio (2000)
VIII Simposio (2002)
        Índice
Índice por autores

 

 

La variación denominativa en los textos de especialidad: indicios lingüísticos para su recuperación automática

M. Mercedes Suárez
M. Teresa Cabré
Grupo IULATERM
Institut Universitari de Lingüística Aplicada
Universitat Pompeu Fabra

 

Introducción

Es sabido que la diversidad de la lenguas se manifiesta mediante diferentes fenómenos, entre los que destaca el fenómeno de la variación de las unidades lingüísticas de todos los niveles de la gramática. En este artículo atenderemos a un solo tipo de variación, la variación léxica y, dentro de ella, la variación denominativa. Entenderemos por variación denominativa la presencia de formas distintas para referirse a un mismo concepto. Este fenómeno constituye un tema polémico en el ámbito de la terminología.

Los planteamientos más tradicionales de la terminología (Wüster 1985 y Arntz y Picht 1991) pasan por alto la existencia de diversas denominaciones para referirse a un mismo concepto y defienden la idea de la biunivocidad, según la cual cada concepto está adscrito a una única denominación y viceversa. Esta perspectiva es coherente con una aproximación prescriptiva y normalizadora de las unidades terminológicas.

Por el contrario, la Teoría Comunicativa de la Terminología (Cabré 1999) en que se enmarca este trabajo, parte de la base que la variación denominativa constituye un hecho real de la comunicación especializada y, por tanto, es omnipresente en el discurso de los especialistas.

Algunos de los estudios llevados a cabo sobre el tema en cuestión (Gerzymisch-Arbogast 1994, Auger et al. 1995, Suárez 2000, y Freixa et al. 2002) han permitido constatar la existencia de este fenómeno y han mostrado la forma como ésta se manifiesta en el interior de un texto especializado. En estos estudios se señala que la variación denominativa se presenta entre unidades monolexemáticas o sintagmáticas que, en principio, son semánticamente equivalentes, aunque pueden presentar algunas diferencias. Otros trabajos realizados sobre este tema (Myers 1991) muestran que los textos especializados recurren de manera natural al uso de variantes, a saber: una vez introducido un concepto, es común referirse a él por medio de expresiones alternativas con el fin de evitar la repetición de la misma forma en el discurso. En algunos casos, estas variantes corresponden a paráfrasis del contenido de un término, otras son realmente variantes léxicas de denominación.

Tales expresiones alternativas o variantes denominativas pueden detectarse porque existen en los textos marcadores que las señalan. A estos últimos los denominaremos marcadores de variación denominativa explícita (MVDE). Algunos trabajos sobre los marcadores discursivos han puesto de manifiesto que el mismo texto informa acerca de la relación que mantienen entre sí las distintas variantes denominativas en que se presenta un concepto (Rodríguez 1999, Bach 2001, Freixa 2001). Por ejemplo, en inglés los marcadores reformulativos that is, in other words y en castellano esto es, es decir, entre otros, indican un proceso de reinterpretación textual mediante el cual un locutor determinado retoma algún elemento discursivo anterior y lo denomina de un modo distinto.

Si bien es cierto que se han hecho algunos trabajos en torno al uso de los marcadores reformulativos en distintas lenguas (Rossari 1994, Fernández Polo 1999), no se han hecho estudios que aborden la variación denominativa explícita, la que se marca y vehicula a través de los marcadores que indican equivalencia . [1]

 

Objetivo

En esta comunicación nos proponemos demostrar que la variación denominativa puede detectarse automáticamente en contexto a través de los marcadores de variación denominativa explícita (de ahora en adelante nos referiremos a estos marcadores con el término MVDE).

Para llevar a cabo el análisis de la variación denominativa detectada mediante los MVDE hemos formado un corpus de textos especializados pertenecientes al dominio del genoma humano, tomados de las revistas Scientific American y de su versión española Investigación y Ciencia, todos ellos pertenecientes al corpus especializado sobre el genoma humano [2].

Todos los textos seleccionados para el análisis cumplen los siguientes requisitos:

Son textos paralelos, es decir formados por textos de partida u originales (TO) en inglés y su correspondiente traducción en español, textos meta (TM) (Baker 1995).

Son textos de nivel de especialización alto, escritos por especialistas en el tema y dirigidos a un público con una determinada formación científica.

Pertenecen todos ellos a un mismo dominio de especialidad, el Genoma Humano.

 

Detección y selección de las Unidades Léxicas Especializadas (ULEs)

Para la selección de las unidades léxicas con valor especializado (de ahora en adelante ULEs) propias del dominio hemos tenido en cuenta la definición de ULE que se ha planteado desde la Teoría Comunicativa de la Terminología:

“Las UL no son fuera de contexto comunicativo ni palabras ni términos, sino sólo unidades dotadas de referencia, a las que podemos denominar de manera neutra unidades léxicas cada una asociada estructuradamente a una gran diversidad de información de tipo gramatical, pragmático y enciclopédico” (Cabré 1999:102).

La terminología clásica considera las unidades de carácter nominal como las únicas unidades léxicas que pueden tener estatus de término y la teoría comunicativa de la terminología (TCT) las considera habitualmente las más prototípicas. En nuestro análisis nos centraremos en este tipo de unidades para observar y en lo posible describir la forma como varían estas unidades en el interior de los textos.

Para la detección de las unidades, nos servimos de la herramienta Mercedes [3], un sistema de reconocimiento de ULEs compuesto por dos módulos: un programa de reconocimiento y un módulo de diccionarios, que comprende un diccionario de referencia para cada lengua y diversos glosarios electrónicos propios del dominio del genoma humano.

Tal y como se observa en la figura 1, la herramienta recibe información de los textos especializados que constituyen el corpus, busca en dichos textos las unidades léxicas que están incluidas en el diccionario y finalmente genera una lista de ULEs nominales existentes en el diccionario y en los textos con sus respectivos contextos de aparición [4].


figura 1. Funcionamiento de la herramienta Mercedes

El diccionario de referencia se estructura en tres columnas: en la primera columna se registra la base léxica del lema (unidad monoléxica); en la segunda, las bases con sus respectivas expansiones (unidad poliléxica) y en la tercera, se anotan las fuentes de donde procede la ULE, como se muestra en la figura 2.

figura 2. Estructuración del diccionario de referencia

Las fuentes de referencia están codificadas con un número que indica el número de fuentes en que aparece cada ULE. Si aparece en el diccionario de referencia, el código es 0. A manera de ejemplo, en la figura 2 observamos que hay ULEs como apert syndrome que aparecen en una sola fuente (código 12 que corresponde al Glossary of Genetic Terms ), mientras que ULEs como apoenzyme y apoptosis aparecen en más de una fuente (en el diccionario de referencia y otros glosarios (códigos 10, 11, 13) [5].

Para que Mercedes reconozca ULEs sólo de carácter nominal precisa de un análisis lingüístico previo mediante el cual la herramienta recupera la información de los textos cuando éstos ya han sido analizados morfológicamente y han pasado por una fase de desambigüación lingüística y estadística que se lleva a cabo en la cadena de procesamiento del corpus técnico del Instituto Universitario de Lingüística Aplicada (IULA).

En la figura 3 se muestran los resultados obtenidos:

figura 3. Resultado de la interacción: textos - diccionario y glosarios

En este cuadro se muestran como en los resultados obtenidos a partir de la interacción entre el diccionario de referencia y los textos especializados aparece la lista de ULEs que están tanto en el diccionario como en el corpus textual seleccionado (columna de la izquierda) y los contextos de aparición de cada término (columna de la derecha). La lista de ULEs aparece ordenada alfabéticamente. Cabe anotar que en los resultados no se visualiza el texto completo sino sólo los contextos de aparición (frase) en los que la ULE aparece marcada o resaltada en otro color. Así, observamos que la ULE apoptosis que está tanto en los diccionarios como en los textos aparece en 3 contextos distintos en el interior del corpus de TO.

 

Detección y selección de las variantes denominativas explícitas (VDE)

En el proceso de selección de las variantes denominativas explícitas (VDE), los marcadores discursivos que vehiculan equivalencia han servido como indicios lingüísticos para su recuperación automática. En este sentido, Gülich et al. (1995) afirman que la mera utilización de ciertos marcadores discursivos ocasiona la presencia simultánea de dos expresiones que establecen una relación de equivalencia. El marcador, por tanto, como señal discursiva, permite al lector relacionar dichas expresiones entre sí.

Con el fin de detectar la variación denominativa explícita en los textos en inglés (TO) tenemos en cuenta la siguiente lista de marcadores discursivos:

Estos marcadores presentan a su vez variantes, según su grado de gramaticalización. Así, hay formas más fijadas que otras. Tal es el caso de las formas en inglés known as o known (also) as, called, (now) called o (also) called, frente a or y parenthesis.

En este trabajo utilizamos la herramienta de interrogación del corpus del IULABwana [6] para detectar los marcadores y mostrar el contexto en que aparecen, como puede verse en la siguiente figura:

Figura 4. Resultados de la detección de concordancias

En la figura 4 podemos observar las ocurrencias del marcador called y su contexto anterior y posterior. En este contexto aparecen denominaciones léxicas especializadas o ULEs.

Par restringir los resultados y seleccionar los casos pertinentes hemos impuesto la condición de que al menos una de las variantes denominativas detectadas a partir de los marcadores discursivos debía formar parte de los resultados obtenidos mediante la herramienta Mercedes , es decir, formar parte de al menos uno de los diccionarios especializados del módulo de diccionarios del programa. Por ejemplo, en la búsqueda de concordancias con el marcador called uno de los resultados obtenidos fue el siguiente:

«The normal function of p53 is to sense genetic damage and then to lead a cell to its own death-the progression of cellular events called apoptosis ».

En primer lugar, en este fragmento podemos identificar las variantes denominativas que, unidas mediante el marcador called, mantienen una relación de equivalencia. Dichas variantes son: progression of cellular events y apoptosis.

En segundo lugar, verificamos si una de las variantes ha sido reconocida previamente por la herramienta Mercedes. Dado que la variante apoptosis aparece en tres fuentes diferentes (véase fig. 3), las VDE progression of cellular events y apoptosis entran a formar parte del corpus de análisis

 

Resultados del análisis

Con el análisis de los datos que acabamos de exponer podemos obtener información abundante sobre las VDE . En primer lugar podemos conocer el rendimiento de cada uno de los MDVE en aras de detectar las variantes en el discurso real.

La búsqueda de las ocurrencias con la herramienta Bwana de cada marcador en el texto original arroja los siguientes resultados:

Tal y como observamos en la tabla, el marcador con mayor número de ocurrencias en el corpus es el parenthesis (797); en segundo y tercer lugar aparecen los marcadores or (645) y called (228). En un número menor de ocurrencias aparecen en orden descendente los marcadores: known as (90), named (65), termed for (55), referred to as (22) y viewed as (5).

En segundo lugar, si se cruzan los resultados sobre los marcadores con los datos extraídos con la herramienta Mercedes se pueden detectar las variantes denominativas explícitas que constituyen el corpus de análisis y su correlación con cada variante y establecer, en consecuencia, el grado de pertinencia del marcador para la detección de las VDE.

Los resultados nos permiten conocer el número de ocurrencias de VDE, así como el rendimiento de cada marcador para la detección de la variación. El número de ocurrencias de VDE con respecto a cada marcador se presenta en orden descendente de la siguiente forma: Parenthesis (92), called (83), or (73), known as (38), Referred to as (7), termed for (5), Named (4), Viewed as (2).

En cuanto al rendimiento de cada MVDE para la detección de las VDE observamos que entre el 40 y el 50% ubicamos los marcadores known as (42%) y viewed as (40%), entre el 30 y el 40% aparecen los marcadores called (36%) y referred to as (32%); en porcentajes menores encontramos los marcadores or y parenthesis (11%), termed for (9%) y named (6%).

 

Conclusión

En primer lugar, en relación al objetivo planteado, en esta comunicación podemos demostrar que la variación denominativa que aparece en los textos puede detectarse automáticamente a través de los marcadores de la variación denominativa explícita.

En segundo lugar, hemos tratado de mostrar que antes de llevar a cabo la detección de las variantes denominativas es necesario que al menos una de las variantes unidas por un MVDE sea reconocida como unidad propia del dominio de especialidad. Tradicionalmente, esta labor se ha confiado a los expertos en el área; sin embargo, y sin pretender descartar el gran papel que cumple el especialista en este trabajo, hemos planteado el uso de una herramienta que hasta el momento ha sido de gran utilidad para el reconocimiento de las Unidades Léxicas Especializadas (ULEs) en el dominio del Genoma Humano.

 

Bibliografía

Arntz, R.; Picht, H. 1991 Einführung in die terminologiearbeit. Hildesheim: Georg Olms Verlag. [Introducción a la Terminología, 1995, traducción del alemán: Amelia de Irazazábal et al. Madrid: Fundación Germán Sánchez Ruipérez].

Auger, P.; Boulanger, J. C. 1995 “Types de variation”, en: Terminologie et terminographie-TRD-14436, recueil de notes de cours.

Bach, C. 2001 "La equivalencia parafrástica en los textos especializados en vista a la detección de información paralela", en La terminología científico-técnica , M. T. Cabré; J. Feliu (eds), 217-226. Barcelona: Institut Universitari de Lingüística Aplicada.

Cabré, M. T. 1999 La terminología: representación y comunicación. Barcelona: IULA-UPF.

Fernández Polo, F. J. 1999 Traducción y retórica contrastiva. A propósito de la traducción de textos de divulgación científica del inglés al español, Revista Lucense de Lingüística y Literatura, Universidade de Santiago de Compostela.

Freixa, J. 2001 "Reconocimiento de unidades denominativas: incidencia de la variación en el reconocimiento de las unidades terminológicas", ", en La terminología científico-técnica , M. T. Cabré; J. Feliu (eds), 57-65. Barcelona: IULA-UPF.

Freixa, J.; Cabré, M. T. 2002 "Reflexiones acerca de la noción de equivalencia conceptual en terminología", Actas del VI Simposio Iberoamericano de Terminología, 16-19 de noviembre de 1998. La Habana.

Gerzymisch-Arbogast, H. 1994 "Identifying term variants in context: the SYSTEXT approach", en Translation studies: an interdiscipline (2), Snell-Hornby et al. (eds) Amsterdam-Filadelfia: John Benjamins.

Myers, G. 1991 "Lexical cohesion and specialized knowledge in science and popular texts", Discourse Processes , 14, 1-26.

Rodríguez, C. 1999 Operaciones metalingüísticas explícitas en textos especializados. Treball de recerca. Barcelona: IULA-UPF.

Rodríguez, C. 1999 Operaciones metalingüísticas explícitas en textos especializados. Treball de recerca. Barcelona: IULA-UPF.

Rossari, C. 1994 Les operations de reformulation: analyse du processus et des marques dans une perspective contrastive français-italien. Berna: Peter Lang.

Suárez, M. M. 2000 Variación denominativa en el ámbito de la Vulcanología: estado de la cuestión y análisis exploratorio . Trabajo de investigación. Barcelona: Universidad Autónoma de Barcelona.

Wüster, E. 1985 Einführung in die allgemeine Terminologielehre und terminologische Lexikographie. Bonn: Romanistischer Verlag. [Introducción a la teoría general de la terminología y a la lexicografía terminólogica, 1998, traducción del alemán: Anne-Cécile Nokerman. Barcelona: IULA-UPF].

 

[1] Tema de estudio de la tesis doctoral de Suárez (en curso), dirigida por M. Teresa Cabré.

[2] Estos textos pertenecen al corpus sobre el Genoma Humano constituido por el grupo IULATERM (proyectos TEXTERM Nº BFF2000-0841 y RICOTERM Nº TIC2000-1191). A su vez, este corpus se depositará en el corpus de textos especializados del Instituto Universitario de Lingüística Aplicada de la Universitat Pompeu Fabra.

[3] Esta herramienta ha sido diseñada por J. Vivaldi, miembro del grupo IULATERM para el corpus sobre el Genoma Humano en el marco de los proyectos TEXTERM Nº BFF2000-0841 y RICOTERM Nº TIC2000-1191.

[4] Actualmente, el diccionario sobre el genoma humano consta de 6000 entradas para el español, 6.600 para el inglés y 850 para el catalán.

[5] Los ejemplos mencionados corresponden al diccionario de referencia y glosarios recopilados en inglés. Es importante anotar que l a lista de glosarios electrónicos está registrada en una base de datos para cada lengua (inglés, español y catalán), en las que aparece el código del glosario, el nombre y la dirección electrónica.

[6] Bwana es un extractor inteligente de concordancias que aprovecha la información morfosintáctica que se incluye en el marcaje de los textos del Corpus Técnico del IULA.

 

Editado con el apoyo de
Editado com o apoio da: