Actas / Atas
1988-2002
Presentación / Apresentação
I Simposio (1988)
II Simpósio (1990)
III Simposio (1992)
IV Simposio (1994)
V Simposio (1996)
    Índice
VI Simposio (1998)
VII Simpósio (2000)
VIII Simpósio (2002)
Índice por autores

 

 

Avances en el desarrollo del Diccionario Electrónico
de Búsqueda Onomasiológica

Gerardo Sierra Martínez
Department of Language Engineering
UMIST
Manchester

 

Resumen

El Diccionario Electrónico para la Búsqueda Onomasiológica (DEBO) es una herramienta orientada a asistir en la búsqueda de términos a usuarios que conocen su significado, pero que no recuerdan o no conocen el nombre que lo designa. Su principal ventaja sobre diccionarios convencionales es que permite un proceso natural de búsqueda, en donde el usuario plasma, en un solo paso, la idea o concepto que le venga en mente, ya sea con palabras relacionadas con el significado del término que busca o con la definición del mismo; como respuesta, el usuario obtiene una ordenación jerarquizada de los términos probables.

En su versión prototipo, desarrollada en el Instituto de Ingeniería de la Universidad Nacional Autónoma de México, el DEBO es una interfaz que, de manera general: lee la información introducida por el usuario; identifica las "palabras clave" en una primer base de datos; determina, en otra base de datos, una lista de términos relacionados con cada palabra clave; y obtiene, con un análisis de frecuencias, el o los términos más probables.

Esta ponencia describe los avances en el desarrollo del DEBO, cuya última versión incluye tecnología de punta derivada de lingüística computacional e inteligencia artificial, tanto en cuestión de la obtención de datos y la representación del conocimiento, como en la mejora de la eficiencia y eficacia del programa de cómputo.

 

I. Introducción

Durante el proceso de producción de textos o mensajes, no en pocas ocasiones sucede que se escapa de la memoria del redactor el término específico para representar un concepto determinado. Como herramientas tradicionales para encontrar el término "olvidado", se han utilizado los tesoros de la lengua con una ordenación sistemática del léxico, tales como el Diccionario ideológico de Casares, los diccionarios pictóricos o los diccionarios de sinónimos. En estos, se parte de un concepto, una imagen o una palabra relacionada para encontrar el término que se busca. Sin embargo, una limitación de estas obras es la subjetividad con que está ordenado el léxico, razón por la que una de las primeras dificultades en que se encuentra un usuario es la elección de la palabra o frase adecuada para iniciar la búsqueda.

Aún más, debido a que hoy en día la producción de textos se lleva a cabo en gran parte a través de la computadora, resulta conveniente contar con una herramienta fácilmente accesible que permita introducir una o varias palabras relacionadas y obtener como resultado el término apropiado. Una herramienta de tal magnitud constituye, sin duda alguna, un aporte significativo a la terminología, ya que facilita la comunicación entre distintos hablantes que, contando con los mismos conceptos, difieren en los términos.

Como respuesta a esta necesidad, se implementó, en el Instituto de Ingeniería de la Universidad Nacional Autónoma de México (UNAM), una versión prototipo del Diccionario Electrónico para la Búsqueda Onomasiológica (DEBO I) para obtener la búsqueda de 33 términos en el área de desastres. Entre las ventajas sobre otros diccionarios, se encuentra la posibilidad de introducir la búsqueda a través de lenguaje natural, con el concepto expresado tanto por su comprensión como por su extensión. Para ello, la base de datos debe contener los posibles sintagmas referidos a un concepto y, por cada palabra clave del sintagma, un paradigma de palabras clave.

Se entiende como sintagma a una cadena de palabras que en su conjunto representan un concepto. El paradigma lo constituye el conjunto de palabras clave que presentan rasgos comunes y que pueden ser utilizadas con el mismo sentido en el contexto del término final al que corresponden, esto es, puede ser sustituido cualquier miembro del paradigma en los elementos correspondientes del sintagma sin cambiar el significado del mismo.

Entre las características del DEBO I, cabe mencionar:

a. Archivo inverso, esto es, una base de datos que relaciona el índice de posibles palabras clave de la búsqueda introducida por el usuario con un índice de paradigmas predeterminado que agrupa las palabras clave en conjuntos semánticos. A su vez, el índice de paradigmas se asocia a la base de datos de términos.

b. La determinación de los paradigmas se llevó a cabo por un experto mediante un modelo semántico que permite efectuar un análisis de la estructura interna y externa de cada uno de los conceptos [Sierra 1996].

Un desarrollo paralelo de reciente creación, en el Laboratorio Nacional de Los Alamos, es el "Casey's Snow Day Reverse Dictionary", un diccionario onomasiológico accesible en la red internacional de cómputo para buscar términos en inglés [Faber 1996]. Similar al DEBO I, el usuario introduce la búsqueda en lenguaje natural, ya sea una definición, una pregunta o un conjunto de palabras, y como resultado obtiene un listado de posibles términos. La principal ventaja de este sistema sobre el DEBO I es que se encuentra totalmente implementado para obtener términos en cualquier área temática. Sin embargo, adolece en la falta de paradigmas, de tal forma que el cambio de una palabra en el sintagma de búsqueda puede alterar totalmente el resultado.

Con el fin de poder utilizar tecnología de punta en ingeniería del lenguaje, tecnología de la información y lingüística computacional, se inició un programa doctoral, en la Universidad de Manchester Instituto de Ciencia y Tecnología (UMIST), orientado a rediseñar el DEBO I para poder aplicarlo eficaz y eficientemente a diversas terminologías.

La presente exposición se centra en los tres principales componentes del DEBO II: el sistema de búsqueda, que incluye una nueva versión de los algoritmos relevantes; el sistema de base de datos del conocimiento léxico, incluyendo los algoritmos para elaborar los paradigmas semánticos; y el sistema de salida, que incluye la organización de la terminología. Asimismo, se presenta el diseño de una interfaz que podría utilizarse.

 

II. El sistema de búsqueda

Con el fin de mejorar el diseño del sistema de búsqueda, se decidió revisar la literatura correspondiente en el área de tecnología de la información. Si bien la literatura es muy extensa, se puede encontrar una buena síntesis en [Spark Jones 1992] y un compendio de los algoritmos más utilizados en [Frakes y Baeza-Yates 1992]. Entre los aspectos más relevantes se encuentran la posibilidad de permitir al usuario representar el concepto en forma diversa. Asimismo, se observó importante analizar otras estructuras de base de datos, y mejorar el algoritmo de búsqueda a realizar por el sistema.

 

1. Tipos de formulación

Se han examinado las distintas formas en que el usuario puede introducir los datos e interactuar con la computadora. Se ha definido tres formas principales:

a. Operadores Booleanos: el usuario introduce el concepto con palabras clave conectadas por los operadores Y, O y NO.

b. Formulación en lenguaje natural: el usuario puede introducir, sin restricciones de sintaxis, oraciones, frases, conjuntos de palabras clave o cualquier combinación de éstas.

c. Diálogo con la computadora: a diferencia de los dos anteriores, el usuario no expresa su búsqueda en un solo paso, sino que entra en un proceso iterativo con el sistema. El usuario va introduciendo nuevos datos conforme a las respuesta que le va proporcionado el sistema. Como por ejemplo, en los sistemas de "retroalimentación relevante", de "pregunta-respuesta" y "sistemas expertos".

De las tres, se ha escogido la segunda, debido a que permite al usuario realizar su formulación de búsqueda sin las restricciones de los operadores booleanos o las impuestas por los sistemas iterativos.

 

2. Estructura de la base de datos

Existen dos formas para la estructura de la bases de datos: archivos directos y archivos inversos.

Los archivos directos contienen una base de datos de textos, tal como documentos, diccionarios o terminologías, en donde no se requiere un índice de palabras clave. El diccionario onomasiológico de los Alamos, arriba mencionado, utiliza esta estructura con un diccionario de lengua como base de datos, que es procesada durante la búsqueda, una vez introducidas las palabras clave por el usuario.

Los archivos inversos, los que se utilizan en el DEBO I, son una base estructurada de datos con un índice de palabras clave, tal que cada una está ligada al conjunto de términos a buscar. Esta estructura requiere un análisis previo para asignar a cada término la lista de palabras clave pertinentes. Una de las ventajas de los archivos inversos es que la búsqueda es más rápida que en el otro caso, pues las palabras claves ya están previamente asignadas a los términos; sin embargo, la pre-asignación de las palabras clave requiere una adecuada selección de las palabras, basada sobre un análisis detallado del concepto (de tal manera que se asegura que el usuario podrá obtener el término que busca).

Los archivos directos no requieren pre-asignación, pero el proceso de búsqueda es más lento, pues el sistema tiene que buscar cada una de las palabras clave en los diferentes textos. Cuando una base de datos de textos es constituida por un diccionario o una terminología, también es probable que, debido al criterio de economía del lenguaje utilizada en ellos, las definiciones no coincidan con la expresión de búsqueda del usuario.

Las ventajas relativas de los dos métodos son que, en los archivos inversos, el sistema es más costoso y más rígido en la producción, pero más seguro y rápido en el uso; mientras que los archivos directos son fáciles y rápidos a producir, pero menos seguros en el uso y con la posibilidad de mucho "ruido" (información inútil y hasta errónea).

En el DEBO II existe la posibilidad de trabajar con cualquiera de estos dos tipos de archivo. La elección dependerá del área a aplicarse y de la facilidad con que pueda contarse con una terminología propia.

 

3. Algoritmo de búsqueda

El algoritmo para procesar la formulación del usuario y presentarle el o los términos correspondientes se define tomando en cuenta los siguientes factores conocidos en otros sistemas de búsqueda de información.

a. Peso asignado a los elementos de búsqueda. En algunos sistemas de búsqueda se ha observado la ventaja de asignar un valor o peso a cada uno de los elementos de búsqueda (normalmente a las palabras clave o descriptores); dicho valor puede ser asignado por el usuario, al introducir su formulación, o por el sistema, al realizar la búsqueda. De igual forma, el DEBO II permite asignar diferentes valores a las palabras clave según el número de paradigmas en donde aparece, o incluso según el número de palabras que contenga la formulación inicial del usuario. Sin embargo, en la práctica se ha comprobado suficiente asignar el mismo valor a cada una de las palabras clave introducidas por el usuario, además que simplifica la indización.

b. Combinación de los conectores lógicos aplicados a las palabras clave y a los paradigmas. Si bien la formulación por parte del usuario es en lenguaje natural, las palabras clave identificadas por el sistema son asociadas con los paradigmas y el procesamiento de búsqueda se realiza con los operadores booleanos. Después de varios experimentos, se ha demostrado que los miembros del mismo paradigma deben ser combinados por el operador lógico O, mientras que las palabras pertenecientes a paradigmas diferentes deben ser combinadas por el operador Y.

c. Asignación de prioridad de los posibles resultados. Según el número de palabras clave formuladas por el usuario y la combinación de los operadores lógicos por el sistema, puede haber muchos resultados posibles o simplemente ninguno. Por ello, se asigna un punto por cada paradigma asociado a los términos y un valor total a la suma de los puntos. Como términos más probables a la formulación de búsqueda se encontrarán aquellos que tengan el más alto valor y, por tanto, serán presentados al usuario en primera instancia.

 

4. Experimentos

Con el fin de demostrar las ventajas del algoritmo, se realizaron búsquedas hipotéticas de 3 a 8 palabras clave en las definiciones de dos diccionarios de lengua. Se observaron los siguientes resultados:

a. El algoritmo es aplicable tanto a archivos directos a archivos inversos.

b. Un archivo directo puede ser un diccionario de lengua.

c. La formulación del concepto por parte del usuario es en lenguaje natural, ya sea mediante una definición (por extensión o comprensión) o palabras sueltas. Evidentemente, a mayor precisión se tendrán mejores resultados.

d. En caso de que la base de datos abarque muchos temas, es conveniente contar con un filtro para seleccionar el área de conocimiento en la que se desea realizar la búsqueda.

 

III. La base de datos de conocimiento

Uno de los principales objetivos del proyecto doctoral es automatizar la captura de datos léxicos que constituyen la base de conocimiento, esto es, la delimitación de los paradigmas que se refieren a cada uno de los términos. Una descripción general de diferentes métodos automatizados para formar paradigmas semánticos se encuentra en [Oakes 1998]. A continuación se esbozan los principios que rigen la mayoría de los trabajos para la agrupación de conjuntos semánticos, que pueden ser divididos por métodos basados en relaciones, métodos estadísticos y métodos basados en analogía.

 

1. Métodos basados en relaciones ontológicas

El agrupamiento en paradigmas mediante la comparación de las relaciones ontológicas mide la similitud de los conceptos representados en una red semántica o taxonómica. La agrupación puede basarse en la profundidad vertical al nivel inmediato superior común, de tal forma que el líder del paradigma sea el concepto que tenga la extensión más amplia que los demás. Por ejemplo, siguiendo el esquema del cono léxico utilizado por María Moliner [1977], el paradigma "asiento" incluiría los términos "silla", "sillón" y "sofá". Consecutivamente, dos líderes pueden agruparse en un mismo paradigma si ambos se encuentran en el mismo nivel vertical con respecto a otro concepto común, como es el caso de "mueble" para "asiento" y "armario".

 

2. Métodos estadísticos

Estos métodos parten del supuesto que dos términos se pueden agrupar en el mismo paradigma si el contexto de las palabras en donde usualmente aparecen es el mismo. Para construir los paradigmas se requieren, en general, los siguientes pasos:

    a. Definir las propiedades que se utilizarán para comparar las palabras entre sí y establecer un valor numérico por cada una de las propiedades.

    b. Crear un vector para cada una de las palabras a ser agrupadas con los valores numéricos asignados para su propiedades.

    c. Agrupar en paradigmas a las palabras que tienen valores aproximados en sus vectores con base en alguna medida de similitud.

     

3. Métodos basados en analogía

En lingüística computacional, se define generalización por analogía como el proceso por el cual objetos lingüísticos desconocidos se infieren por su similitud con objetos más familiares [Federici y Pirrelli 1997]. Para ello, se hace uso de ejemplos, que deben ser seleccionados aleatoriamente, debido a que una selección predeterminada puede llevar a resultados erróneos.

A la fecha no se ha encontrado literatura sobre estudios basados en analogía para elaboración de paradigmas semánticos. Sin embargo, los experimentos realizados para el diseño del DEBO II han mostrado que es posible determinar los paradigmas mediante la comparación de las definiciones en dos fuentes distintas. Mientras la definición dada por una fuente utiliza ciertas palabras, la definición del mismo concepto en la otra fuente puede utilizar palabras diferentes. Es fácilmente observable, a partir de cierto número de ejemplos, que dos palabras son utilizadas de la misma manera indistintamente. Por ejemplo, dado un concepto X definido por A y B:

a. aparato para medir Z

b. instrumento para medir Z

Se puede inferir que "aparato" es equivalente a "instrumento" y, por tanto, pueden ser agrupados en el mismo paradigma.

 

4. Métodos híbridos

Ninguno de los tres métodos expuestos es del todo confiable si se usa aisladamente. Por ejemplo, en las definiciones siguientes:

a. instrumento usado para medir W

b. tubo graduado usado para medir W

Se puede inferir erróneamente que "tubo graduado" es sustituible por "instrumento" y ambos deben ser agrupados en el mismo paradigma.

Por ello, se ha observado la ventaja de crear algoritmos que combinan dos o más métodos. A la fecha, se está diseñando un algoritmo basado en la analogía de definiciones de dos fuentes distintas, pero que, de preferencia, contengan la mayor cantidad de términos comunes. Posteriormente, para asociar dos palabras que pueden ser usadas indistintamente con el mismo sentido, se utiliza un método estadístico. Finalmente, para asegurar que el método estadístico no falle, el diseño prevé utilizar una ontología suficientemente extensa.

 

IV. El sistema de salida

En el DEBO I se obtiene, como resultado de una búsqueda, a lo máximo 33 términos, correspondientes a los fenómenos destructivos reconocidos por el Sistema Nacional de Protección Civil en México. Por ejemplo, "viento" y "huracán" son dos de los fenómenos de origen hidrometeorológico. Para buscar cualquiera de estos dos, es posible diferenciarlos entre "movimiento ligero de aire" o "movimiento fuerte de aire". Sin embargo, para el caso de una corpus más amplio, cualquiera de estas dos formulaciones traería un mayor número de términos, tales como "brisa" y "ventisca", para el primer caso, o "tornado" y "sifón", para el segundo.

En general, se ha observado que la formulación dada por el usuario puede traer varios términos relacionados a la vez. Por ello y con el fin de evitar caer en la trampa de presentar una lista muy grande de términos probables en donde el usuario puede perder la motivación de elegir el término específico que necesita, conviene presentar los términos con base en una clasificación jerarquizada.

Por otro lado, si se quiere extender la aplicación del DEBO a otras áreas de conocimiento, puede resultar que una formulación tal vez suficiente para un usuario, como "viento fuerte", conlleve a la recuperación de múltiples términos en diversas áreas. Por ejemplo, además del área de desastres, al área de la música o de la medicina. Por ello, puede resultar necesario incluir un tipo de sistema iterativo en donde el sistema tenga que preguntar al usuario el área de conocimiento en que desea realizar la búsqueda.

Asimismo, si bien el tipo de búsqueda es onomasiológico, resulta conveniente incluir en el sistema de salida a la definición del término seleccionado, con el fin de asegurar al usuario que el término encontrado será utilizado en el sentido correcto.

 

V. Interfaz del DEBO

El diseño inicial sobre la interfaz del DEBO II es sujeto a modificarse al momento de establecer los criterios de aplicación. Este diseño incluye aspectos más amplios de los considerados en este artículo. Sin embargo, se decidió dejarlos incluidos para ilustrar la gama de posibilidades que puede ofrecer como diccionario de búsqueda de términos.

Por economía de espacio, la descripción de la interfaz se concentra aquí en dos figuras, con la explicación relevante.

En la figura 1, similarmente a como sería en Microsoft Windows, se aprecian dos ventanas sobrepuestas, la básica, abajo, y la ventana activa, encima. La ventana básica aparece en primera instancia al usuario una vez que invoca el programa. El nombre del programa, "buscador de palabras" (word searcher), se encuentra en la barra superior. Se escogió un nombre mnemotécnico para poder invocarse desde un procesador de palabras, por ejemplo, en donde el nombre DEBO o cualquier otra sigla no tendría mucho significado para un usuario. Esta ventana tiene las siguientes opciones:

a. Una caja de opciones permite seleccionar el idioma en que se realiza la búsqueda, dando por un hecho que se manejará el mismo idioma tanto para la formulación del concepto por el usuario, como para el listado de los términos probables y para la definición. Esta opción prevé el caso de que la base de datos se elabore para terminologías multilingües.

b. Otra caja de opciones se refiere al área de conocimiento o "tema" (subject) en que se realiza la búsqueda. Esta opción se puede usar antes de llevar a cabo la búsqueda si el usuario quisiera ser más preciso en su formulación. En caso de que seleccione "cualquiera" (any) como opción inicial, si el concepto conlleva a varios temas, entonces aparecería la ventana de tema, que en la figura se ve como la ventana activa.

c. Al invocar el programa, el cuadro para formular el concepto aparece en blanco; en este ejemplo el usuario introdujo "fuerte movimiento de viento" (strong wind movement).

Una vez que el usuario escribe el concepto en el idioma correspondiente y según ha seleccionado o no un tema, procede a teclear el comando "buscar" (search).

Figura 1. Ventana básica y ventana sobre el tema.

Puede suceder que se abra otra ventana -la activa, que aparece arriba de la ventana inicial en la figura 1-, para indicar que el concepto comprende varios temas que pueden ser recuperados. El usuario puede seleccionar uno o más de ellos, e incluso todos. Conforme vaya realizando búsquedas, el usuario podrá darse cuenta que es conveniente seleccionar el tema, a fin de que los resultados posibles sean más precisos. En los ejemplos, en la figura 1, se asume que el usuario selecciona el tema "clima" (weather).

Como resultado, el programa presenta la ventana que se muestra en la figura 2. En ésta, el tema seleccionado aparece explícito en el cuadro correspondiente. Al mismo tiempo, el programa realiza la búsqueda y presenta los siguientes tres cuadros de resultado:

a. Los "términos cabezas de familia" (header term) en el cuadro al lado izquierdo abajo del cuadro para el concepto. Obsérvese que el término "viento" (wind) aparece resaltado. Este cuadro no necesariamente presenta el término esperado, sino que es usado como guía para el siguiente cuadro.

b. Los "términos relativos" (related terms) a cada una de las cabezas de familia, en el cuadro derecho abajo de los comandos. Evidentemente, según la cabeza de familia seleccionada, los términos relativos serán distintos, aunque algunos puedan repetirse. Obsérvese que el término "viento" encabeza este grupo y que en el extremo derecho aparece una flecha. Esta permite, en caso de activarse, abrir una lista de términos que contienen a la palabra viento, tales como (se omite traducción): 'backing wind', 'offshore wind', 'inshore wind', 'whirlwind', 'windstorm' y 'Beaufort wind scale'. Cuando un término tiene un asterisco, como en 'squall', quiere indicar que existen sinónimos.

c. La definición del término relativo seleccionado, en el cuadro inferior de la ventana.

Figura 2. Resultados de una búsqueda

En el caso de que bajo los cuatro grupos de familia no se encuentre el término esperado, el usuario puede teclear el comando "más" (more) para ver el siguiente nivel de términos probables. Ya en la versión del DEBO I se vio la ventaja de presentar los resultados secuencialmente según su probabilidad de ocurrencia. Alternativamente, el usuario puede editar el concepto o realizar una nueva búsqueda.

 

VI. Conclusiones

El DEBO II todavía se encuentra en su etapa experimental, pero se ha mostrado su factibilidad de aplicación a diferentes áreas de conocimiento, incluso de hacerlo extensivo a un diccionario de lengua. Al finalizar el proyecto actual no se espera tener un producto terminado, sino haber sentado las bases para poder aplicar el DEBO a cualquier terminología y poder adaptarlo a las circunstancias particulares de uso requerido. Puede ser utilizado como un producto independiente, pero también puede ser integrado a cualquier otro sistema, como por ejemplo procesadores de palabra o bases de datos terminológicos.

 

VII. Agradecimientos

Quiero agradecer al Prof. J.C. Sager por la revisión final de este documento, así como al Instituto de Ingeniería por el apoyo para continuar el proyecto.

 

VIII. BIBLIOGRAFÍA

Faber, V. 1996. "Casey's Snow Day Reverse Dictionary (and Guru)". Laboratorio Nacional de Los Álamos.

Federici, S. y Pirrelli, V. 1997. "Analogy, computation and linguistic theory". En New Methods in Language Processing. Editado por D.B. Jones y H.L. Somers. Londres: UCL Press.

Frakes, W.B. y Baeza-Yates, R. (eds.). 1992. Information Retrieval: Data Structures and Algorithms. London: Prentice-Hall.

Moliner, M. 1977. Diccionario del uso del Español. Madrid: Gredos.

Oakes, M.P. 1998. Statistics for corpus linguistics. Cambridge: Edinburgh University Press.

Sierra, G. 1994. "Bases del diccionario onomasiológico computarizado en el área de desastres". Memoria del IV Simposio Iberoamericano de Terminología. Buenos Aires. Octubre 17-20, 1994.

Sierra, G. 1996. Bases para la búsqueda onomasiológica de términos. Tesis de Maestría. Facultad de Filosofía y Letras, UNAM, México.

Spark Jones, K. 1992. "Information Retrieval". Encyclopedia of Artificial Intelligence (Ed. Shapiro), New York: Wiley.

 

Editado con el apoyo de
Editado com o apoio da: