Cadena informatizada para la confección automática
de tesauros versión microordenador
Emilio Laguna Serrano
Amelia de Irazazábal Nerpell
Antonio Valle Bracero
Adolfo Valle Bracero
Instituto de Información y Documentación
en Ciencia e Tecnología
España
Resumo
Como continuación de los trabajos de elaboración de una metodología informática para la construcción de un tesauro partiendo bien de un microtesauro confeccionado en el propio idioma o bien de la relación de términos cabecera de un tesauro en lenguaje extranjero al que se han incorporado las equivalencias linguísticas del idioma propio, se ha desarrollado una versión para uso en microordenador.
En la implantación de esta versión se ha utilizado las prestaciones que ofrece el sistema de menús, deseñándose el árbol de opciones conjuntando la bibliografía del tema y la experiencia adquirida de nuestros propios objetivos en los que se ha usado la versión anteriormente realizada.
Se describe la estructura del paquete, programado en turbopascal, así como las posibilidades que ofrece para el uso de la microinformática en este tipo de aplicaciones.
Introducción
La incorporación de la microinformática, con su constante incremento de prestaciones, a las líneas de trabajo en curso en el Instituto de Información y Documentación en Ciencia y Tecnología del C.S.I.C., ha permitido cubrir el objetivo de transportabilidad de la metodología de elaboración automática de tesauros [1] a un microordenador. Los lenguajes empleados han sido turbo-pascal y el del gestor de bases de datos dBASE IIII plus o dBASE IV, así como las prestaciones del sistema operativo MS-DOS. Esta comunicación presenta el paquete confeccionado, estructurado en un sistema de Menús que se compone de los siguientes apartados:
Toma de datos microtesauro
Listados de trabajo
Confección del tesauro
Actualización
Visualización
Edición
que se expondrán en detalle en el transcurso de la misma. La exposición se inicia con una panorámica del paquete y un estudio de cada una de las cadenas en él incorporadas. Tras la descripción de los formatos diseñados para la información del microtesauro que se informatiza "ad hoc" bien mediante grabación directa, bien, si está previamente informatizada en aplicación independiente, mediante un programa de conversión de formato preparado a este respecto, se describen las cadenas de "confección del tesauro", "actualización", "visualización" y "edición".
Diseño del paquete
Como resultado de los estudios que veníamos realizando, se establecieron para esta aplicación los diferentes bloques que habrían de componerla. El diagrama de la figura 1 resume el árbol de prestaciones. Una carátula inicial divide el tratamiento en las dos cadenas fundamentales:
Microtesauros. Tesauros
Bajo el primer epígrafe "microtesauros" se engloban los procesos de preparación del fichero terminológico (microtesauro), punto inicial en los tratamientos objetivo del presente paquete. Estos tratamientos se estructuran en tres apartados:
Toma de datos. Validación. Listados
El apartado de "toma de datos" está organizado para que el usuario transcriba la información utilizando un tratamiento de textos, siguiendo unas normas establecidas que permiten la identificación de cada uno de los campos. Estas normas distinguen la información monolingüe de la información bilingue.
Figura 1
Confección automática de tesauros
Diagrama general

Información monolingüe
1. Término cabecera. Arranca en columna 1 con un máximo de 40 caracteres. Su norma de expresión son las generales establecidas para los tesauros (2) (3).
2. Nota explicativa. Arranca en columna 3. Su texto se expresa entre paréntesis. Si se necesita más de una linea, las de continuación arrancan igualmente en columna 3, teniendo en cuenta las siguientes reglas:
No cortar palabra a final de linea
En las lineas de continuación llevar como primer carácter el signo de subrayado (_)
3.Términos con operador de "jerarquia", "relacionado" y "usado en lugar de". Se graban conforme a la siguiente estructura:
Col. 1-2 en blanco
Col. 3-5 operador "NT1", "NT2", "NT3", "RT, "UF'
Col. 6 en blanco
Col. 7-46 Término
Información bilingue
Contiene los mismos campos e idéntica estructura que la información monolingüe. Se diferencia en que el término en español se coloca entrecomillado a continuación del correspondiente en el otro idioma. Se mantiene asimismo la norma de que cuando son necesarias fichas de continuación éstas se distinguen por el carácter subrayado en columna 3.
La figura 2 muestra unos ejemplos de estos ficheros microtesauro.
Figura 2.A
Fichero monolingüe
| GRASAS VEGETALES |
| NT1 |
MANTECA DE ILLIPE |
| NT1 |
MANTECA DE CACAO |
| RT |
MANTECA DE CACAHUETE |
| RT |
GRASAS ANIMALES |
| RT |
PRODUCTOS GRASOS |
| BEBIDAS |
| NT1 |
BEBIDAS ALCOHOLICAS |
| NT2 |
APERITIVOS |
| NT2 |
CERVEZA |
| NT2 |
SIDRA |
| NT2 |
COCKTAIL |
| NT2 |
AGUARDIENTES |
| NT3 |
AGUARDIENTE DE ARROZ |
| NT3 |
CALVADOS |
| NT3 |
COÑAC |
| NT3 |
AGUARDIENTE DE CAÑA DE AZUCAR |
| NT3 |
AGUARDIENTE DE CEREALES |
| NT3 |
AGUARDIENTE DE FRUTAS |
| RT |
CAFE |
| RT |
AGUA |
Figura 2.B
Fichero bilingue
| ALIMENT PREPARE "ALIMENTOS PREPARADOS" |
| |
(ALIMENT PRET A LA CONSOMMATION APRES CUISSON OU NON OU APRES
_ADDITION D'INGREDIENTS) "ALIMENTOS DISPUESTOS PARA EL CONSUMO
_ QUE PUEDEN PRECISAR, O NO, UN CALENTAMIENTO O UNA ADICION DE
_LÍQUIDOS" |
| NT1 |
CREME GLACE "HELADOS" |
| NT1 |
ENTREMETS "POSTRES" |
| NT1 |
FARINE AUTOLEVANTE "HARINAS LEUDANTES" |
| NT1 |
GLACAGE "GLASEADOS" |
| NT1 |
MELANGE POUR CREME GLACE "MEZCLA EN POLVO PARA HELADOS" |
| NT1 |
PLAT SURGELE "PLATOS CONGELADOS" |
| NT1 |
POTAGE "SOPAS" |
| NT1 |
POTAGE EN POUDRE "SOPAS EN POLVO" |
| NT1 |
PRODUIT DIETETIQUE "PRODUCTOS DIETETICOS" |
| NT2 |
ALIMENT POUR NOURRISSON "ALIMENTOS PARA NIÑOS" |
| NT1 |
PRODUIT INSTANTANE "PROOUCTOS INSTANTANEOS" |
| NT2 |
CACAO INSTANTANE "CACAO INSTANTANEO" |
| NT2 |
CAFE INSTANTANE "CAFE INSTANTANEO" |
| NT2 |
THE INSTANTANE "TE INSTANTANEO" |
| NT1 |
REPAS PREPARE "PLATOS PREPARADOS" |
| NT1 |
SAUCE EN POUDRE "SALSAS EN POLVO" |
| NT1 |
SNACKS "APERITIVOS" |
| NT2 |
BRETZEL "GALLETAS SALADAS" |
| NT2 |
CHIPS "PATATAS FRITAS DE APERITIVO" |
| NT2 |
POPCORN "MAIZ REVENTON" |
| NT2 |
RIZ SOUFFLE "ARROZ INFLADO" |
| RT |
ALIMENT TRANSFORME "ALIMENTOS TRANSFORMADOS" |
| RT |
PRODUIT A BASE DE FRUIT "PROOUCTOS DE FRUTAS" |
| RT |
PRODUIT A BASE DE LEGUME "PRODUCTOS DE HORTALIZAS" |
| RT |
PRODUIT A BASE DE POISSON"PRODUCTOS DE PESCADO" |
| RT |
PRODUIT CARNE "PRODUCTOS CARNICOS" |
| VIANDE "CARNE" |
| NT1 |
ABATS "DESPOJOS" |
| NT2 |
CERVELLE "SESOS" |
| NT2 |
COEUR "CORAZON" |
| NT2 |
FOIE "HIGADO" |
| NT2 |
LANGUE "LENGUA" |
| NT2 |
POUMON "PULMONES" |
| NT2 |
RATE "BAZO" |
| NT2 |
RIS DE VEAU "MOLLEJAS DE TERNERA" |
| NT2 |
ROGNON "RIÑONES" |
| NT2 |
ROGNON BLANC "CRIADILLAS" |
| NT2 |
TRIPES "CALLOS" |
El apartado de Validación" verifica, bien para la información monolingüe, bien para la información bilingüe, que su expresión está realizada conforme a las normas que han sido previstas y se han descrito anteriormente en la toma de datos. Estas son:
Ningún término excede de 40 caracteres
Los operadores son uno de los indicados: NT1, NT2, NT3, RT, UF
No existen operadores jerárquicos 2 ni 3 sin que les preceda el de nivel jerárquico anterior u otro del mismo nivel
En la información bilingüe debe encontrarse el entrecomillado de abrir y cerrar el texto español
El apartado de "listados" contempla dos posibilidades de imprimir el fichero microtesauro previamente almacenado:
a) Ordenando alfabéticamente los términos cabecera
b) En el mismo orden en que han sido grabados
Estos listados serán de utilidad en la fase de verificación visual de la transcripción - tratamiento de detección de erros.
Las opciones de esta rama permiten, pues, la preparación del fichero microtesauro con el nivel de bondad necesario para su tratamiento en la confección del tesauro.
El segundo epígrafe "Tesauros" arranca la secuencia de cadenas que han sido previstas para la elaboración automática del tesauro partiendo del fichero microtesauro obtenido bajo las opciones del primer epígrafe. Como se expresa en el diagrama general (figura 1) se han estructurado cuatro apartados que se corresponden:
Confección del tesauro
Actualización
Visualización
Edición
El apartado primero "Confección del tesauro" responde a las distintas etapas necesarias, tanto en el tesauro monolingüe como en el bilingüe, para interpretar, expandir, ordenar y almacenar el resultado de los procedimientos de la confección automática. En esta comunicación no expondremos el detalle de estos procedimientos por estar explicados en el artículo publicado en la Revista Española de Documentación Científica "Confección Automática de Tesauros" [1]. El siguiente apartado de esta rama: "Actualización" se ha estructurado conforme a las modificaciones que proceda realizar sobre el tesauro ya confeccionado. Estas modificaciones se han separado en tres líneas:
1. Incorporación de equivalencias idiomáticas. Auna las posibilidades de creación del diccionario español-idioma elegido y su posterior incorporación al fichero tesauro. La etapa de creación se compone de una llamada a la secuencia que permite la grabación de los términos equivalentes del idioma que se pretende incorporar. Para facilitar la grabación y con el objetivo de disminuir el número de posibles errores de transcripción por asignación incorrecta de la equivalencia idiomática así como evitar la doble transcripción del español que conllevaría también un cierto número de errores, se ha diseñado un fichero que va visualizando los términos del tesauro siendo transcrito unicamente el texto equivalente del nuevo idioma. El modelo diseñado engarza con la parte de la cadena del tesauro bilingüe que contempla la inserción de los elementos de dato de equivalencia idiomática referentes al segundo idioma.
2. Incorporación de sinónimos. El objetivo de esta cadena es la incorporación de la relación de sinonimia no transcrita en la toma del microtesauro por corresponder a términos no cabecera. El diseño de la toma de datos sigue el mismo criterio que el de la equivalencia idiomática, si bien aqui no se visualiza previamente el término en español, dado que la incorporación de sinónimos no es general para todos los términos del fichero. Su incorporación al fichero tesauro entra dentro de la planificación de las altas en el proceso de correcciones. Previamente ha de obtenerse mediante la pertinente rotación el inverso correspondente a la relación "usado en lugar de", es decir, la relación "úsese".
3. Correcciones. La cadena que se ha previsto para resolver esta parte de la aplicación comprende un primer eslabón para la grabación o toma de datos de las correcciones que han de realizarse. Estas correcciones, como en todos los procesos similares, distingue entre "altas", "bajas" y "modificaciones". El proceso de toma de datos confecciona el fichero con la información de las correcciones que se desea efectuar en el fichero tesauro. Este fichero de correcciones por un lado y el fichero tesauro por otro son los de entrada al tratamiento que tendrá como salida el tesauro corregido.
El apartado de "Visualización" representa el objetivo de ver en pantalla los tramos del tesauro deseados. Tiene las prestaciones de un editor de textos, exceptuando aquellas que conlleven la posibilidad de modificación del fichero en Visualización.
Finalmente se ha planificado un apartado "Edición" que trata los procedimientos de edición impresa del tesauro confeccionado.
Esta edición se compone de:
Un cuerpo principal con los términos y sus relaciones ordenados alfabéticamente
Un primer índice de términos indizantes ordenados alfabéticamente dentro de cada campo o temática disciplinar
Un segundo índice KWIC de los términos
Unos índices finales en el caso de tesauros multilingües, con entrada, ordenada alfabéticamente, por cada uno de los idiomas que incorpora el tesauro.
Conclusiones
1. Este paquete es un utensilio importante en el campo de la indización y posterior recuperación de información, por la facilidad, incrementada con el uso de la microinformática, que ofrece a la elaboración y desarrollo de tesauros.
2. La preparación de versiones españolas multilingües de tesauros en otros idiomas, se agiliza en forma notable.
3. Es un útil más en los estudios terminológicos de equivalencias idiomáticas tanto en la detección de equivalencia idéntica para conceptos diferentes como de equivalencia diferente para el mismo concepto.
4. Representa el paquete un avance importante para los objetivos de traducción automática dentro del campo terminológico.
Bibliografia
[1] Laguna Serrano, E.; Irazazábal Nerpell, A. de; Valle Bracero, A. "Confección automática de tesauros". Rev. Esp. Doc. Cient. 12,2,129-40 (1989).
[2] Directrices para el establecimiento y desarrollo de tesauros monolingües. ISO 2788/1986 - UNE 50106.
[3] Principes directeurs pour l'établissement et le développement de thesaurus multilingues. ISO 5964 (1983).