Actas / Atas
1988-2002
Presentación / Apresentação
I Simposio (1988)
II Simpósio (1990)
III Simposio (1992)
IV Simposio (1994)
V Simposio (1996)
VI Simposio (1998)
VII Simpósio (2000)
VIII Simposio (2002)
        Índice
Índice por autores

 

 

Identificación automática de pluritérminos en un campo específico

López Agudelo Catalina*
Ortega Lobo Oscar**
*Grupo de Investigación en Terminología y
Traducción - GITT, U. de A.
clopez@idiomas.udea.edu.co
**Grupo Simulación de Comportamientos de Sistemas
SICOSIS, U. de A.
oortega@udea.edu.co

 

Resumén

El conocimiento especializado de un campo específico del saber se fundamenta en los conceptos y sus relaciones[1]. La labor terminológica en la búsqueda de determinación, precisión, armonización y normalización de dicho conocimiento acude a la construcción de sistemas conceptuales, lo cual se inicia con la identificación de términos, seguida de la clasificación y asociación de términos, en la búsqueda de especificar un sistema de conceptos que los asocie.

En la actualidad, se emplean herramientas de descubrimiento automático como soporte a la labor terminológica para la identificación de términos a partir de textos electrónicos. Algunas de las técnicas para desarrollar estas herramientas emplean la frecuencia de ocurrencia de términos en los textos[2], la cual se calcula a partir de conteos de ocurrencia de palabras aisladas; esto conlleva a la separación de los pluritérminos, usados frecuentemente en los textos, los cuales deberían ser considerados como una unidad conceptual representada en una sola denominación. En esta ponencia, se pretende formular y evaluar un mecanismo para la identificación y extracción de unidades conceptuales compuestas, con el fin de mejorar el desempeño en las siguientes fases del proceso de construcción de sistemas de conceptos.

 

 

1. Introducción

La identificación automática de pluritérminos comprende técnicas lingüísticas, técnicas puramente estadísticas, o técnicas híbridas [3]. La técnica propuesta en este trabajo parte de la asociación de cada palabra con un evento y de secuencias de palabras con secuencias de eventos; a partir de esta asociación se emplea el algoritmo de descubrimiento de patrones de secuencias de eventos, WAP-mine[4], para identificar en forma automática los pluritérminos relevantes de un texto. Se concluye con la propuesta de una herramienta, para cuya evaluación se utilizarán documentos de un campo del saber en el área de Ciencias Sociales y Humanas. Los resultados serán evaluados por especialistas del campo seleccionado.

 

2. Problema

Dado que en la actualidad se tiene mayor conciencia de la necesidad de estructurar el conocimiento en un área determinada según la precisión específica de si misma, la cantidad de trabajo en el campo de la terminología aumenta considerablemente, mientras que el tiempo de entrega se reduce. Por esta razón, los terminólogos se ven en la necesidad de utilizar diferentes herramientas computacionales, tales como programas de análisis lexicográfico [e.j. Cratilo [5], que mediante un proceso de reconocimiento identifica en un texto las palabras que aparecen, su frecuencia y su ubicación en el texto]. Además, también recurre a programas más específicos para su labor [e.j. la construcción automática de Sistemas de Conceptos, que son elaborados a partir de corpus especializados, fruto de la producción de los expertos en el campo a trabajar. Un Sistema de Conceptos apoya la búsqueda manual de definiciones y equivalentes de un concepto y permite armonizar y sistematizar el conocimiento especializado]. Ambas herramientas permiten agilizar y mejorar el proceso de estructuración del conocimiento, que hace parte del trabajo terminológico. Sin embargo, estas herramientas presentan algunas limitaciones para este trabajo terminológico.

Una de las limitaciones que estas herramientas presentan para la labor terminológica, es el no reconocimiento de pluritérminos [1]. Para observar dónde y cómo aparece el problema, tomemos como ejemplo la construcción automática de un Sistema de Conceptos. El primer paso para la construcción de un Sistema de Conceptos es la identificación de los conceptos que fundamentan el campo específico. En el trabajo con textos, el concepto es representado con términos. Es decir se continúa con la identificación automática de estos términos. Sin embargo, la identificación automática de términos no se limita a buscar palabras especializadas; debe tenerse en cuenta que existen términos de varias clases y diferentes funciones. Elejalde [6] afirma que "... un término tiene un aspecto morfosintáctico que lo vincula con la oración a la que pertenece, tiene también propiedades fonológicas en el lenguaje verbal y gráficas en la escritura". Atendiendo a estos últimos, es decir al término desde su estructura lingüística formal, Marín, M. [7], afirma que los términos se clasifican en: "1.Monomorfémicos e.j. gas; 2. Dimorfémicos y monoléxemicos e.j. ferrita; 3. Plurimorfémicos y monolexémicos: e.j. bicarbonato y 4. Plurimorfémicos y plurilexémicos: e.j. llave de contacto".

Para identificar y jerarquizar los términos, algunas técnicas para desarrollar herramientas que elaboran automáticamente Sistemas de Conceptos, recurren al uso de las frecuencias de ocurrencia de los términos en varios contextos. Es decir, se calcula a partir de conteos de ocurrencia de palabras aisladas, extrayendo así sólo la clase de términos monomorfémicos, y no reconociendo los términos formados de varias palabras “ pluritérminos”. Este aspecto debe tenerse en solucionarse, pues al ignorar los términos plurimorfémicos [2] hay perdida de información que es indispensable en la estructuración y sustentación del conocimiento de un campo específico, mediante el Sistema de Conceptos elaborado de manera automática.

 

3.Método

3.1 Introducción

Fig. 1 Esquema del proceso de extracción de pluritérminos.

La fig. 1 ilustra el proceso de extracción de pluritérminos que se inicia con una primera fase: la recolección de documentos electrónicos, estos documentos deben pertenecer a un mismo campo del saber por ser este un trabajo de índole terminológico. Con el corpus que resulta de esta recolección, se pasa a una siguiente fase: la codificación, es decir, la información es convertida a un lenguaje con el cual la máquina puede realizar sus operaciones. De esta codificación se obtienen al mismo tiempo dos resultados: los códigos de palabra y las oraciones codificadas. Teniendo las oraciones codificadas se continua con la tercera fase: descubrir los patrones de frecuencia en que ocurre un evento, después de analizar estos patrones se obtienen los patrones de secuencia de ocurrencia de los eventos. Estos últimos van a indicar cuales patrones podrían ser candidatos a pluritérminos. Estos resultados deben ser anteriormente decodificados, es decir, convertir nuevamente la información de códigos a palabras, para que sean el especialista y el terminólogo quienes determinen la validez

El método que se propone seguir en el presente estudio para el descubrimiento de pluritérminos, es un método derivado del área de la computación. El método, llamado WAP-mine, acrónimo del término en Inglés "Web Access Pattern" fue propuesto por Pei et al [4]. El objetivo del método es encontrar patrones de secuencias de acceso a páginas residentes en el espacio cubierto por la red internet, llamado WEB. Los computadores encargados de almacenar y ofrecer las páginas son llamados servidores WEB. Cada vez que un usuario conectado a un servidor WEB solicita una página, su solicitud es registrada en una base de datos, en la cual se toma nota acerca de la fecha y hora de la solicitud, la estación de computador desde donde se hizo la solicitud y la página solicitada (URL, universal resource locator). Pei et al., asocian cada solicitud de una página con un evento. Así, la base de datos donde se registran las solicitudes puede ser vista como una larga secuencia de eventos. La tarea del método es entonces encontrar subsecuencias de eventos que ocurren con frecuencia en la base de datos.

Antes de entrar en detalles técnicos acerca del método WAP-mine, veamos como este método puede ser transferido al área problemática que nos interesa: la identificación de pluritérminos en un conjunto de textos electrónicos. Si en el corpus se tiene, por ejemplo, la frase: "Pintaron de blanco las casas del barrio" , esta frase puede ser vista como una secuencia de las palabras "pintaron", "de", "blanco", "las", "casas" "del", "barrio". En forma similar, un pluritérmino puede ser visto como una secuencia de palabras. Una colección de textos puede ser vista, asi mismo, como una larga secuencia de palabras; en varías partes de esta larga secuencia pueden ocurrir los pluritérminos, los cuales son en este contexto, subsecuencias de palabras. Si la ocurrencia de cada palabra es asociada con un evento, una colección de textos se convierte en una larga secuencia de eventos. Si disponemos de un método que es capaz de encontrar subsecuencias de eventos a partir de una larga secuencia de eventos, dispondremos entonces de un método para encontrar pluritérminos potenciales a partir de una colección de textos.

 

3.2 Definiciones preliminares

Sea E un conjunto de eventos. Una secuencia de eventos está dada por S= e1e2 ....... en' ( ei Î E , para 1 £ i £ n). Una secuencia de eventos compuesta de n eventos es llamada una n-secuencia. Nótese que un evento puede aparecer varias veces en una secuencia. Por ejemplo, si a y b son eventos, las secuencias ab y aab son secuencias válidas y son secuencias diferentes.

La secuencia de eventos S'= e1'e2'...... e1' es llamada una subsecuencia de la secuencia S=e1e2 ....... en' si y solo si existen 1 £ i1 < i2 < ... < il £ n tales que ei' = eij , para 1 £ j £ l.

La relación subsecuencia se denota S' Í S , y se lee: S' es una subsecuencia de S ; la anterior expresión también se puede leer de forma inversa: S es una super-secuencia de S '. S' es una subsecuencia propia de S si y solo si S' es una subsecuencia de S y S' es diferente de S.

Dada una secuencia S = e1 e2 ... .ek ek+1 ... en' si la subsecuencia Ssufijo = ek+1 ... en' es una súper-secuencia de una secuencia patrón P=e1'e2'......el' , y ek+1 = e1', la subsecuencia de S, Sprefijo=e1e2 ....ek' es llamada el prefijo de S con respecto al patrón P.

Sea WAS un conjunto de secuencias de eventos WAS = {S1,S2, ......, Sm}, llamado la base de datos de secuencias, en el cual cada Si (1 £ i £ m) es una secuencia de eventos. El soporte de una secuencia de eventos S en WAS es definido como:

SupWAS (S) = | {Si | S Í Si } | / m

Se dice que una secuencia S es un x -patrón de WAS si SupWAS (S ) ³ x .. En el conteo del soporte, aunque algunas subsecuencias de eventos pueden estar repetidas en una secuencia, cualquier patrón debe contarse solamente una vez por secuencia.

A partir de las anteriores definiciones, la tarea del método WAP-mine puede ser ahora establecida como:

“Dada una base de datos de secuencias de eventos WAS, y un soporte límite x, encuentre el conjunto completo de x-patrones de WAS”.

 

3.3 Ejemplo:

Supóngase el conjunto de oraciones ilustrado en la tabla 1.

Tabla 1: conjunto de oraciones a analizar.

Número

Oración

1

El interés efectivo es igual a veinte

2

La meta es reducir el interés efectivo

3

Un interés efectivo alto aumenta los costos del proyecto

4

Es preferible un interés nominal mensual menor que diez

En el conjunto de oraciones de la tabla 1 ocurren diversas palabras; cada una de ellas puede ser asociada a un evento. Así, la lista de eventos en el ejemplo que nos atañe es:

(el, interés, efectivo, es, igual, a, veinte, la, meta, reducir, un, alto, aumenta, los, costos, del, proyecto, preferible, nominal, mensual, menor, que, diez).

En el ejemplo, el evento “ el” tiene un soporte del 50%. Esto es, la palabra “ el ” ocurre en dos de cuatro oraciones del conjunto de oraciones (2/4 * 100). El evento “costos”, en cambio, tiene un soporte del 25%. Esto es, la palabra “costos” ocurre en una de cuatro oraciones del conjunto de oraciones (1/4 * 100). Calculando el soporte de todos los eventos presentes en el ejemplo obtenemos la tabla 2.

Tabla 2: soporte de los eventos

Evento

Soporte

Interés

75%

Efectivo

75%

Es

75%

El

50%

Un

50%

Igual

25%

A

25%

Veinte

25%

La

25%

Meta

25%

Reducir

25%

Alto

25%

Aumenta

25%

Los

25%

Costos

25%

Del

25%

Proyecto

25%

Preferible

25%

Nominal

25%

Menor

25%

Que

25%

Diez

25%

Ahora tratemos de describir lo que hace el algoritmo WAP-mine, el “cómo lo hace” será presentado en detalle mas adelante, para el lector interesado. El método tiene como un parámetro, a ser definido por el usuario, el soporte mínimo para las secuencias de eventos que se declararan frecuentes y, por ende, candidatas a ser pluritérminos. Supongamos que el usuario define un soporte del 50%. Lo primero que hace el método es derivar un nuevo conjunto de oraciones en el cual, de cada oración, los eventos que no cumplen con el soporte mínimo son eliminados.

Tabla 3: Oraciones candidatas (50% de soporte mínimo)

Número

Oración con solo eventos frecuentes

1

El interés efectivo es

2

Es el interés efectivo

3

Un interés efectivo

4

Es un interés

El siguiente paso del método WAP-mine es descubrir todas las subsecuencias de eventos que tienen un soporte mayor o igual al 50%, en el conjunto de oraciones candidatas de la tabla 3. Veamos algunos casos. La subsecuencia “el interés” aparece en dos de cuatro secuencias de la tabla 3, su soporte es pues 50% (2/4*100). La secuencia “el interés efectivo” aparece también en dos de cuatro secuencias de la tabla 3, por lo que su soporte es también del 50%. La secuencia “interés efectivo”, en cambio, aparece en tres de las cuatro secuencias de la tabla 3; su soporte es entonces 75% (3/4*100).

Si tabulamos todas las posibles subsecuencias de las secuencias de la tabla 3, con su respectivo valor de soporte, obtenemos la tabla 4.

Tabla 4: soporte de las subsecuencias de longitud mayor que 1.

Subsecuencia

Soporte

El interés

50%

El interés efectivo

50%

El interés efectivo es

25%

Interés efectivo

75%

Interés efectivo es

25%

Efectivo es

25%

Es el

25%

Es el interés

25%

Es el interés efectivo

25%

Un interés

50%

Un interés efectivo

25%

Es un

25%

Es un Interés

25%

Un interés

25%

Del análisis de la tabla 4, se concluye que los 50%-patrones presentes en el conjunto original de oraciones son:

Tabla 5: 50%-patrones

Patrón

Soporte

El interés

50%

El interés efectivo

50%

Interés efectivo

75%

Un interés

50%

El conjunto ilustrado en la tabla 5 es el producido por el algoritmo WAP-mine cuando el conjunto de oraciones de entrada es el mostrado en la tabla 1. El usuario puede tomar entonces este resultado como un conjunto de candidatos a ser pluritérminos frecuentes en el corpus de entrada.

 

3.4 Algorimo WAP-mine[4]

Algoritmo 1 (descubre patrones de secuencias con un soporte mínimo)
Input: base de datos de secuencias WAS y el soporte mínimo x
Output: el conjunto completo de x-patrones en WAS.

1. Recorra WAS una vez, encuentre el conjunto FE de todos los eventos frecuentes.
2. Recorra WAS de nuevo, construya un árbol WAP-tree a partir del conjunto de eventos frecuentes, usando el algoritmo 2.
3. De forma recursiva, extraiga los x-patrones del árbol WAP-tree, usando el algoritmo 2.

Algoritmo 2 (Construye el árbol WAP-tree)
Input: base de datos de secuencias WAS y el conjunto de todos los eventos frecuentes FE
Output: Un árbol WAP-tree T

1. Cree un nodo raiz para T.
2. Para cada secuencia S Î WAS, haga lo siguiente

    a. Extraiga la subsecuencia frecuente S' de S, removiendo todo evento en S que no esté en FE. Sea S' =e1e2 .......en, (ei Î FE, para 1 £ i £ n). Sea el nodo_corriente el nodo raiz de T

    b. Para cada i=1 hasta n, haga lo siguiente

    i. Si el nodo_corriente tiene un hijo etiquetado ei ,

    1. incremente en 1 el contador de ei ,

    2. sea el nodo_corriente ei ,

    ii. sino,

    1. cree un nuevo nodo hijo ( ei : 1)

2. sea el nodo corriente el nuevo nodo

3. inserte el nuevo nodo en la cola para el evento ei ,

3. retorne T

 

Algoritmo 3 (descubriendo todos los patrones de secuencias presentes en el árbol WAP-tree)
Input: un árbol WAP-tree T y un soporte mínimo x
Output : el conjunto completo de x-patrones.

1. Si el árbol T tiene solo una rama, retorne todas las combinaciones de nodos en la rama.

2. Inicialice el conjunto de patrones de secuencias WAP = F ; todo evento presente en el árbol T es en si mismo una secuencia patrón, agréguelos al conjunto WAP. (nota: esto último no aplica para el caso del descubrimiento de pluritérminos, los cuales tienen longitud mayor que 1).

3. Para cada evento ei en T, haga lo siguiente:

a. Construya una base de datos de secuencias condicionales de ei , es decir PS | ei , siguiendo la ei-cola; mientras hace lo anterior, cuente los eventos condicionalmente frecuentes.

b. Si el conjunto de eventos condicionalmente frecuentes no es vacío,

i. Construya un WAP-tree condicional para ei sobre PS | ei usando el algoritmo 2.

ii. En forma recursiva descubra x-patrones en el árbol condicional encontrado en el anterior paso.

c. Para cada patrón de secuencia derivado del árbol condicional, anexe el evento ei a el patrón e insértelo en WAP

3. retorne WAP

 

4. Evaluación preliminar

El esquema del proceso ilustrado en la figura 1, se pretende implementar en un computador. La primera , segunda y cuarta fase de la figura 1 ya están operacionales. La tercera fase, la cual involucra el algoritmo WAP-mine, aún está en proceso de implementación.

Para validar el mecanismo de extracción de términos se va a trabajar con documentos pertenecientes al área de Ciencias Sociales y Humanas, más exactamente al campo de las Ciencias Políticas. El corpus comprende 20 volúmenes de la revista “Estudios Políticos” del Instituto de Estudios Políticos de la Universidad de Antioquia, producto de las investigaciones en Ciencias Políticas que se llevan a cabo en el ámbito local, nacional e Internacional.

La validación se llevará a cabo de la siguiente manera. Se identificarán, con la ayuda de un especialista en el campo del saber del corpus, los pluritérminos presentes en el corpus. Se determinará el número de pluritérminos obtenidos automáticamente que aparecen en la lista de pluritérminos identificados por el experto. Se determinará también el número de secuencias de palabras incorrectamente seleccionadas como pluritérminos.

 

5. Conclusiones

En el presente artículo se ha trabajado en la tarea de extraer pluritérminos de un campo del saber a partir de un conjunto de documentos electrónicos de dicho campo. El método propuesto hace una adaptación de un algoritmo propuesto por Pei et al. para identificación de secuencias de acceso a la WEB. La adaptación asume las palabras como eventos y las oraciones, asi como los pluritérminos, como secuencias de eventos. En el presente artículo se bosqueja un esquema general del proceso de extracción de pluritérminos usando el algoritmo de Pei et al. El artículo describe también un esquema de validación preliminar de la solución propuesta.

 

6. Bibliografía

[1] Franco,J; Giraldo, J; (1999) Experiencia Terminológica en el Trabajo Ttraductivo. Actas I Jornadas Iberoamericanas de Terminología. Santafe de Bogotá.

[2] Smrz Pavel, Rychl Pavel (2001) Finding Semantically Related Words in Large Corpora. Proceedings of TSD 2001, Pilsen, Czech Republic. Springer-Verlag. [En línea] URL: http://citeseer.nj.nec.com/smrz01finding.html

[3] Mayard, D.; Ananiadou, S; (1999) Identifyng Contextual information For Multiword Term Extraction, Proceedings of TKE'99. Francia.

[4] Pei, J; Han, J; Mortazavi-Asl, B.; Zhu, H. ( 2000) ''Mining Access Pattern efficiently from Web logs'', Proceedings. Pacific-Asia Conf. on Knowledge Discovery and Data Mining (PAKDD'00), Kyoto, Japón, Abril.

[5] Mejia, Jorge A. (1998) Cratilo. A software package for the lexicographical analysis of texts. In: Koenraad de Smedt and Daniel Apollo (Editors). The future of the humanities in the digital age. Problems and Perspectives for Humanities Education and Research. Berger. Universidad de Bergen.

[6] Elejalde; Alfredo, F. (1997): Reflexiones sobre la Terminología. Lima, Mayo. [En línea]. URL: http:// macareo.pucp.edu.pe/~elejalde/ensayo/terminologia.html

[7] Marín, M. (1987) La terminología en la traducción por ordenador Instituto de Traducción e Interpretación. Heidelberg, Alemania. [En línea]. URL: http://www.quadernsdigitals.net/articles%5CTELOS%5 Ctelos16%
5Ct16terminologia.htm

 

[1] Pluritérmino es un término formado por varias palabras o lexemas que forman una sola unidad conceptual.

[2] A lo que llamamos pluritérminos, pues aunque existe el término Multitérmino en español, refiriéndose a lo que se trabaja en inglés como “ Multiword Term ”. Pluritérmino se acomoda más a este trabajo, ya que Pluri significa: varios y Multi significa: mucho. Es decir, trabajamos con términos formados de varios lexemas.

 

Editado con el apoyo de
Editado com o apoio da: