Actas / Atas
1988-2002
Presentación / Apresentação
I Simposio (1988)
II Simpósio (1990)
III Simposio (1992)
IV Simposio (1994)
V Simposio (1996)
VI Simposio (1998)
VII Simpósio (2000)
        Índice
VIII Simpósio (2002)
Índice por autores

 

 

Extracción de descriptores mediante la aplicación
de un tratamiento automatizado

sobre el texto completo de los documentos

Antonio Valle Bracero
Alfredo Del Rey Guerrero
Jorge Páez Mañá
Elena Fernández Sánchez
Reyes Valle Bracero
Centro de Información y Documentación Científica
(CINDOC)
Consejo Superior de Investigaciones Científicas
(CSIC)
Madrid
España

 

Resumen

Continuando con las líneas de investigación del Departamento de Innovación Tecnológica en Información Científica del CINDOC, se vienen estudiando metodologías que permitan la localización automática de descriptores obtenidos de textos de naturaleza electrónica. Para ello se utilizan glosarios especializados en la materia del texto del estudio, que pueden incluir sinónimos de los descriptores del glosario. Sobre los documentos de referencia se lleva a cabo una confrontación entre los descriptores del glosario seleccionado y las frases contenidas en el texto objeto del estudio. El resultado de esta confrontación se da en forma de una lista de descriptores clasificada por frecuencia de aparición en el texto tratado. La aplicación diseñada para este estudio se compone de dos etapas: la primera, de tratamiento del glosario para prepararlo en forma de base de datos que permita en la segunda etapa la rápida localización del término preciso; y la segunda, de tratamiento del texto del que extraer los descriptores que comprende: a) la división en frases, b) la confrontación con la base de datos, c) la sustitución de las sinonimias y d) la ordenación por frecuencia de aparición de los términos encontrados.

 

Introducción

Los trabajos, realizados en el CINDOC en los albores de la década de los 80, relacionados con la indización y traducción automática, basados en estudios semánticos y sintácticos y para los que fueron desarrolladas diferentes aplicaciones informáticas, han sido el punto de arranque para el que se presenta.

Otra faceta coadyuvante ha sido la creciente elaboración de tesauros y glosarios sectoriales orientados a su utilización como elementos de indización y búsqueda por vocabulario controlado en las bases de datos bibliográficas producidas.

Son obvias las razones que justifican estudios encaminados a conseguir metodologías informatizadas de indización de documentos, fundamentalmente de aquéllos en que por su índole de antigüedad no disponen de descriptores de recuperación expresados por el propio autor. La localización del contenido de estos documentos una vez informatizados ha de hacerse por lenguaje natural con la consiguiente complejidad de homonimias, sinonimias y distancia entre unitérminos.

Partiendo de las aplicaciones informáticas desarrolladas en el CINDOC en esta línea de tratamientos de archivo y recuperación de información, así como en los desarrollos de córpora terminológicos, nos surgió la idea de utilizar las metodologías de difusión selectiva de información como método para la extracción de descriptores, válidos para indización, del texto completo del documento, utilizando los archivos de términos como relación de perfiles de búsqueda.

En el presente escrito se describe la aplicación informática desarrollada para conseguir el objetivo de relacionar mediante un barrido del texto y un fichero vocabulario de términos, a cuales de éstos responde el documento, recogiendo además la frecuencia de aparición y la familia o faceta si ésta se indica en el vocabulario. Una opción incorporada es la posibilidad de tratar bases de datos bibliográficas seleccionando de las mismas los campos de información que se deseen tratar para la extracción.

Se detalla en primer lugar la selección-coordinación de vocabulario y texto, así como los formatos de los ficheros de entrada a la aplicación. Seguidamente se expone el algoritmo de tratamiento tanto en la preparación interna del vocabulario como en el barrido del texto del documento o campos de la base de datos que van a utilizarse para la localización y selección de los términos. Finalmente se indican las conclusiones y posibilidades de uso de esta aplicación con fines de indización automatizada basándonos en diferentes pruebas piloto en campos de jurisprudencia, urbanismo y psicología.

 

Metodología de trabajo

En su concepción inicial, el diseño y organización del estudio se sustenta sobre la base de un córpora terminológico y documentos clasificados dentro de un campo sectorial. Ello estuvo motivado por la complejidad que conlleva el uso del lenguaje natural en la redacción de los documentos frente al lenguaje documental del vocabulario de términos. Este proceso selectivo evitaría los excesivos ruidos que se producen en el resultado de la recuperación al utilizar información multidisciplinar, es decir, con ésto quedarían reducidos los casos de homonimia o interpretación de vocablos en acepción diferente a la utilizada en el documento.

Los primeros esfuerzos se encaminaron a la preparación de la interfase aplicación-usuario y al diseño de las distintas fases que habrían de conformar la misma. Tras los estudios y discusión de diferentes opciones se concluyó con la aceptación de una estructura con dos fases:

1. Definición de formato, tratamiento y conversión a forma de base de datos del vocabulario de términos extraíbles.

2. Definición de formato, tratamiento y presentación del resultado de los documentos o base de datos objeto de la extracción de los términos.

En la presentación de la aplicación pueden verse ambas entradas:

 

Fase 1. Vocabulario.

La función de esta fase dentro de la aplicación es la preparación de los términos, en forma de base de datos, para la búsqueda en los documentos o selección para indización. Para la consecución de esta fase se solicita del usuario

1. Tabla de caracteres DOS o Windows en que está almacenada la información.

2. Archivo glosario de términos.

3. Tabla de palabras a considerar como vacías en la expresión de los términos.

La aplicación lleva incorporada una tabla de conversión cuya función es unificar los diferentes códigos de mayúsculas y minúsculas, uso de diéresis y acentos, letras especiales, signos de puntuación, etc., a un alfabeto reducido de tratamiento.

La base de datos resultado se compone de:

1. Archivo de términos en acceso directo.

2. Archivo con la palabra inicial de cada término.

3. Archivo de palabras válidas.

4. Archivo de reenvíos.

5. Archivo de términos codificado.

Describamos, en forma rápida, cada uno de los archivos:

Archivo glosario de términos. Este archivo lo componen los términos que han de servir como vocabulario controlado a buscar en el texto del documento objeto de la posible indización. Ha de estar ordenado alfabéticamente y en formato delimitado. Cada registro puede contener hasta tres campos separados por coma que respectivamente se interpretan:

Campo 1. Término tratado.

Campo 2. Término reenviado. Irá vacío si no procede.

Campo 3. Familia o faceta. Campo opcional.

Ejemplos de registros de este fichero, extraídos de un glosario de psicología, serían:

1. Con especificación de familia:
"Aborto inducido","","Prevención y tratamiento"
"Aborto provocado","Aborto inducido"
2. Sin especificación de familia:
"Aborto inducido"
"Aborto provocado","Aborto inducido"

Archivo de palabras vacías. Contiene las palabras que aunque existentes en el glosario de términos se consideran sin interés en la expresión del concepto. El tamaño máximo previsto para las palabras es de 20 caracteres. Este fichero es opcional y debe utilizarse con sumo cuidado pues puede introducir errores en el barrido del texto. Estos errores podrían ser:

1. Eliminar palabras con alto significado en la disciplina en tratamiento.

Por ejemplo: El término "yo" tiene valor en psicología.

El término "te" tiene valor en alimentación

El término "la" tiene valor en literatura

2. Si existen términos en que todas sus palabras estén en la tabla, éstos quedan en el tratamiento como términos vacíos.

Por ejemplo: Si las palabras "sí" y "mismo" se han añadido a esta tabla quedaría vacío el término "sí mismo".

3. Considerar dos términos idénticos cuando son diferentes.

Por ejemplo: Los términos "Rendimiento" y "Bajo rendimiento" serían iguales si "bajo" se encuentra como palabra vacía.

Archivo de términos en acceso directo. Es un archivo de tamaño fijo de registro con dos campos que respectivamente contienen:

Campo 1: Texto del término (48 caracteres)

Campo 2: Número de la familia (dos caracteres). '00' si se omite.

Se puede acceder de forma directa a cada término por su número de orden.

Archivo con la palabra inicial de cada término. Es un archivo creado tomando la primera palabra de cada término del glosario, el número de palabras del término y el número de orden del mismo, es decir, se conforma:

Campo 1: Primera palabra del término (20 caracteres).

Campo 2: Número de palabras del término (1 carácter). Máximo 9.

Campo 3: Número de orden del término en el glosario (5 caracteres).

Archivo de palabras válidas. Contiene las palabras diferentes, eliminadas las vacías y ordenadas alfabéticamente, de los términos del glosario. Será utilizado como elemento selector de palabras del texto del documento. Las que no se encuentren en este fichero serán consideradas vacías. Tiene tamaño fijo de registro. Cada registro almacena una palabra de hasta 20 caracteres. Las de menor tamaño son totalizadas con blancos.

Archivo de reenvíos. Especifica los términos del glosario no utilizados como indizantes, es decir, aquéllos que si son encontrados deben ser sustituidos por el sinónimo o alternativo respectivo. Es fichero de tamaño fijo que se compone de dos campos:

Campo 1: Número de orden del término sinónimo o alternativo.

Campo 2: Texto del término por el que se ha de sustituir (48 caracteres).

Archivo de términos codificado. Archivo de trabajo construído con la secuencia numérica de las palabras no vacías de cada término, es decir, cada palabra del término es sustituida por su número de orden en el archivo de palabras válidas. Tiene por objeto permitir una mayor rapidez en las comparaciones con el texto y por ende conseguir un tiempo mínimo en la selección.

Secuencia de tratamiento. La preparación de los archivos a que nos hemos referido anteriormente y que conformarán la base de datos obtenida a partir del glosario de términos se efectúa en los siguientes pasos:

a) Indicación por parte del usuario en respuesta a la pertinente consulta del juego de caracteres, MsDos o Windows, utilizada en la grabación del glosario de términos

En defecto se interpreta tabla de caracteres MsDos.

b) Conocido este dato seleccionar desde el archivo .CHR, adjunto a la aplicación, la correspondiente tabla de conversión.

c) Solicitar el camino-nombre del archivo glosario de términos. Se utiliza una ventana de diálogo a este respecto.

d) Petición al usuario del camino-nombre del archivo a utilizar como tabla de palabras vacías. Su ausencia u omisión se considera como aceptación de válidas de todas las palabras contenidas en los términos del glosario.

e) Mientras no se produzca fin de fichero en el archivo glosario de términos se ejecuta la siguiente secuencia:

1. Leer registro del archivo.

2. Independizar los campos término, reenvío y familia

3. Con campo término hacer:

Independizar palabras

Codificar

Eliminar vacías

Para cada palabra: Componer registro palabra válida y grabar

Para la palabra inicial: Componer registro y grabar

Componer y grabar registro término de acceso directo

4. Con campo reenvío hacer:

Componer y grabar registro de archivo reenvíos.

5. Si existe campo familia hacer

Sustituir texto por número de orden

Añadir este número al registro término de acceso directo.

f) Cerrar todos los archivos.

g) Ordenar alfabéticamente el archivo de palabras válidas y eliminar redundancias.

h) Generar el archivo de términos codificado a partir de los archivos de términos de acceso directo y palabras válidas, sustituyendo el texto de cada palabra del primero por su número de orden en el de palabras válidas.

i) Visualizar en pantalla una ventana con las longitudes del glosario de entrada (número de términos) y cada uno de los archivos generados. Además se indica el número de palabras del término mas largo encontrado.

 

Fase 2. Texto

Esta fase efectúa la búsqueda en el texto del documento y posterior selección de aquellos términos del glosario que en el documento pudieran encontrarse incorporando un análisis de la frecuencia de aparición y desglose por familias.

Se han previsto dos modalidades de formato para los textos a analizar. La primera de ellas se refiere a documentos independientes, uno por archivo, con un máximo de siete archivos por sesión. La segunda admite la entrada de un solo archivo en formato de base de datos bibliográfica (título y resumen); cada registro de este archivo se corresponde con un elemento de la base. Esta segunda modalidad de un solo archivo no permite el desglose por familias y en nuestras versiones iniciales de la aplicación el número de registros no debe exceder de 999.

Al igual que en la fase 1 en el arranque se consulta el juego de caracteres con el que han sido grabados los documentos que van a ser objeto del análisis.

Seguidamente se solicita la tabla, archivo de palabras válidas generado en la fase "vocabulario", que desea utilizarse

A continuación se procede a pedir la modalidad y camino-nombre de los archivos independientes o bases de datos de los que se pretende encontrar los descriptores.

La aplicación pasa a efectuar el ciclo de análisis con cada uno de los archivos en la forma que sigue:

a) Con cada archivo hacer:

Si es archivo Base de datos independiza el primer registro y continua como si fuese archivo texto guardando en el campo familia el número de orden del registro.

Para archivo texto:

1. Independiza el texto en frases interpretando un conjunto de caracteres definidos de corte como fin de la misma.

2. Con cada frase:

Independiza palabras

Selecciona las válidas en comparación con la tabla

Localiza y extrae las secuencias coincidentes con términos

Sustituye reenvíos

Añade identificadores de términos encontrados a resultado

3. Ordena resultado

4. Acumula frecuencias

5. Graba resultado en archivo de salida.

Si es base de datos pasa a registro siguiente.

b) Terminado el análisis de cada archivo se visualiza en pantalla una ventana de consulta sobre los posibles dispositivos de salida para los resultados, donde puede especificarse además el orden de presentación de los términos si la entrada es en texto independiente.

Si la entrada del archivo es en formato de base de datos en esta ventana se omite la consulta del orden de presentación, pues éste es fijo por número de registro, frecuencia y orden alfabético.

c) Al especificar visualización por pantalla el paso siguiente de la aplicación prepara una ventana tipo edición en la que coloca los descriptores extraídos en el orden de presentación indicado para los archivos texto y en el fijo, ya dicho, de por número de registro, frecuencia y orden alfabético en la modalidad de base de datos.

En las imágenes que siguen puede verse la ventana de resultados para ejemplos tanto de archivos de texto como base de datos:

Archivo de Texto

Base de Datos

d) Si se especifica guardar el resultado en fichero se solicita con una ventana de diálogo el camino-nombre del archivo de salida, para el que se propone el nombre del archivo de entrada con extensión ".dsc".

e) Si se especifica salida por impresora la aplicación envía a la impresora definida los registros del resultado.

f) Finalmente se visualiza una ventana global con una estadística de los totales resultantes en número de frases analizadas, descriptores extraídos y número de descriptores direntes para cada uno de los archivos analizados. En la cabecera se indica el nombre del archivo al que pertenece el resultado.

Al término de esta fase de la aplicación se visualiza la ventana de arranque por si el usuario desea aplicar el tratamiento a otros ficheros o utilizar otro vocabulario para contrastar resultados.

 

Tratamientos piloto de evaluacion

Con el fin de disponer de un conjunto de datos que permitiesen conocer la bondad de la metodología en cuanto a tiempo de respuesta, posibilidad de uso en tratamientos de indización automatizada, relevancia de los resultados obtenidos respecto a la recuperación del documento analizado en posterior consulta por vocabulario controlado, nivel de ruidos y silencios en la extracción según la terminología preestablecida y en suma el posible interés de uso por servicios de indización, se planificaron diferentes líneas de actuación y estudio comparativo de resultados.

Se distinguió entre la modalidad de analizar textos independientes y la de utilizar archivos conteniendo un conjunto de elementos de base de datos. Los temas específicos para la selección habrían de ser afines a las temáticas de los vocabularios disponibles, así como poder contar con información o adecuada especialización en el tema por parte del equipo investigador para contrastar los resultados.

Se eligieron para la modalidad de textos independientes diversos documentos relativos a sentencias y autos, dada la disponibilidad del vocabulario de derecho como archivo glosario de términos, así como otros vocabularios afines, mas reducidos y específicos, como los de propiedad intelectual, derechos de autor y propiedad industrial. Se eligieron también varias leyes con las que recientemente habíanse hecho estudios terminológicos. Esta selección entendíamos sería lo suficientemente significativa para extraer apropiadas conclusiones sobre la utilización de la aplicación.

Para los estudios en la modalidad de base de datos, se seleccionaron referencias de las bases de datos del CINDOC que contuvieran título y resumen. Las temáticas de las que se hizo esta selección fueron las de geología, botánica, electrónica, urbanismo y psicología. Se descargaron alrededor de 75 elementos en cada selección y se utilizó el vocabulario controlado o tesauro del que se extraían los descriptores por los respectivos indizadores. El campo de descriptores existente en las bases de datos ha sido el elemento de referencia para contrastar los resultados alcanzados en forma automática.

Como conclusión de estos estudios se ha llegado a las siguientes consideraciones:

En el número y frecuencia de los términos extraídos interviene, como era de esperar, el número de términos del vocabulario de una parte y la extensión del texto por otra, es decir, a mayor número de términos mayor posibilidad de coincidencia en el texto, y a mayor extensión del texto mayor número de posibles repeticiones. Interviene además el algoritmo de división en frases del texto y el parámetro establecido de distancia entre palabras encontradas de un término, (a mayor distancia mayor probabilidad de encuentro, así como incremento en el número de ruídos). En contrapartida se reduce el número de posibles silencios.

La relevancia en los términos extraídos es coincidente en líneas generales con la frecuencia de repetición aunque se producen excepciones motivadas generalmente por la no consideración de

a) Singulares y plurales, contracciones, masculino-femenino

b) Sinonimia no prevista con reenvíos en el vocabulario

c) Corte inadecuado de la frase quedando las palabras del término en frases distintas.

d) Diferentes términos con comienzo común y parte final separada con signo de puntuación. Si dicho signo se considera corte de frase solo es seleccionado el primero indicado.

e) Diferentes modos de expresión de acrónimos.

f) Utilizar término mas general estando redactado el texto con términos mas específicos (ausencia en vocabulario de relación alternativa).

Para la utilización totalmente automatizada de esta aplicación en servicios de indización habría que introducir en la metodología cambios que tuviesen en cuenta las apreciaciones tipificadas en el estudio y establecer criterios de selección entre los términos encontrados, es decir, rechazar los que de alguna forma pudiesen ser interpretados como ruídos. Las incorporaciones mas inmediatas podrían, según que el componente de la aplicación sea el vocabulario, el texto o el programa, tipificarse en los siguientes apartados:

a) En el componente vocabulario:

Elegir el vocabulario mas afín al objetivo que se pretende

Ajustar a la mayor aproximación los posibles reenvíos tanto por sinonimia como por relación alternativa, refiriéndose ésta última a la sustitución de un término específico por uno mas general.

No utilizar como palabras vacías aquellas que lleven a la anulación de términos o hacer coincidentes dos diferentes.

Ajustar la tabla de codificación de caracteres en forma que no altere el uso por la aplicación de clasificaciones alfabéticas, equivalencias entre mayúsculas y minúsculas, y letras con signos diacríticos.

b) En el componente texto:

Estudiar posibilidad de un tratamiento previo de selección de párrafos.

Crear una tabla de palabras vacías mediante la que eliminar palabras que puedan conducir a ambigüedades y ruídos por homonimia.

Expandir abreviaturas.

Analizar palabras compuestas.

Normalizar la expresión de acrónimos.

c) En el componente programa:

Incorporar métodos de agilización de tiempos en la localización del término.

Mejorar la metodología de división en frases.

Tener en cuenta el posible uso de caracteres de corte en interpretación diferente. Por ejemplo el carácter punto puede aparecer en un texto como: fin de párrafo, identificador de subdivisión, separador de elementos en un acrónimo, incorporado a la expresión de códigos numéricos (teléfonos, terminales de ordenador, clasificaciones) o simbolizando los millares en expresiones numéricas, etc.

Incorporar tratamientos automáticos de detección de palabras compuestas, acepción correcta de homónimos mediante otras palabras del contexto, análisis sintáctico de frases.

Establecer pesos de relevancia según el campo de aparición del término en el documento coordinados con el cálculo de la frecuencia.

Incorporar módulos de enlace para en forma automática añadir al texto del documento un campo con los descriptores extraídos y seleccionados que permita posteriormente utilizarlo como vocabulario controlado de búsqueda y recuperación.

 

Conclusiones

1. Los resultados obtenidos con las pruebas piloto realizadas utilizando esta aplicación han sido satisfactorios tanto en el tiempo de respuesta como en la relación de términos resultado de la extracción.

2. El campo de uso, dado que en su desarrollo se han utilizado las metodologías DSI, difusión selectiva de información, está indicado para usuarios familiarizados con las técnicas de preparación de los archivos de perfiles y agrupación de los documentos según la respuesta dada a cada consulta. Con esa idea puede adecuar el contenido del archivo glosario de términos o vocabulario en la forma mas afín al objetivo de extracción de los términos contenidos en el documento.

3. La utilización de esta aplicación como sistema de indización automatizada, requiere, en su estado actual, una intervención del indizador para efectuar una selección final de los descriptores idóneos a incluir en el documento, así como una elaboración refinada del vocabulario de términos.

4. Consideramos de interés el estudio de las mejoras propuestas, conducentes a su incorporación en servicios de indización en forma de ir incrementando el nivel de automatización con reducción de ruídos y eliminación de silencios.

 

Bibliografía

AITCHISON, J. & A. GILCHRIST (1987). Thesaurus construction. A practical manual. London. Aslib.

CABRÉ, M. T. (1993). La terminología. Teoría, metodología, aplicaciones.

CURRAS, E. (1998). Tesauros. Manual de construcción y uso. Madrid: Kaher II, S.A.

GIL LEIVA, I. & J. V. RODRÍGUEZ MUÑOZ (1997). “Análisis de los descriptores de diferentes áreas del conocimiento en bases de datos del CSIC. Aplicación a la indización automática”. In: Rev. Esp. Doc. Cient., 20(2): 150-160.

JONES, S., M. GATFORD, S. ROBERTSON, M. HANCKOCK-BEAULIEU & J. SECKER (1995). “Interactive thesaurus navigation: intelligence rules ok?”. In: Journal of the American Society for Information Science, 46 (1): 52-59

LAGUNA SERRANO, E., A. IRAZAZABAL NERPEL & A. VALLE BRACERO (1989). Confección automática de tesauros. In: Rev. Esp. Doc. Cient., 12(2): 129-140.

Norma UNE 50-121-91 de Métodos para el análisis de documentos, determinación de su contenido y selección de términos de indización. Aenor. 1991.

ROWLEY, J. (1994). “The controlled versus natural indexing languages debate revisited: a perspective on information retrieval practice and research”. In: Journal of Information Science, 20(2): 108-119.

SALTON, G. (1989). Automatic text processing: the transformation, analysis, and retrieval of information by computer. Addison-Wesley.

VALLE BRACERO, A. & J. A. FERNÁNDEZ GARCÍA (1983). “Automatización de la indización y coordinación de descriptores”. In: Rev. Esp. Doc. Cient. 6(1): 9-16.

VALLE BRACERO, A., J. A. FERNÁNDEZ & R. MORALES FERNÁNDEZ (1984). “Separación automática de lexemas, sufijos y morfemas y su aplicación a la traducción automática”. In: Rev. Esp. Doc. Cient. 7(3): 185-192.

VAN SLYPE, G, (1991). Les languages d'indexation: Conception, construction et utilisation dans les systèmes documentaires. Paris : Les editions d'organisation.

VELASCO, M., I. DÍAZ, J. LLORÉNS, A. de AMESCUA & V. MARTÍNEZ (1999). “Algoritmo de filtrado multi-término para la obtención de relaciones jerárquicas en la construcción automática de un tesauro de descriptores”. In: Rev. Esp. Doc. Cient. 22(1): 34-49.

 

Editado con el apoyo de
Editado com o apoio da: