Actas / Atas
1988-2002
Presentación / Apresentação
I Simposio (1988)

II Simpósio (1990)

    Índice
III Simposio (1992)
IV Simposio (1994)
V Simposio (1996)
VI Simposio (1998)
VII Simpósio (2000)
VIII Simpósio (2002)
Índice por autores

 

 

Cadena informatizada para la confección automática
de tesauros versión microordenador

Emilio Laguna Serrano
Amelia de Irazazábal Nerpell
Antonio Valle Bracero
Adolfo Valle Bracero
Instituto de Información y Documentación
en Ciencia e Tecnología
España

 

Resumo

Como continuación de los trabajos de elaboración de una metodología informática para la construcción de un tesauro partiendo bien de un microtesauro confeccionado en el propio idioma o bien de la relación de términos cabecera de un tesauro en lenguaje extranjero al que se han incorporado las equivalencias linguísticas del idioma propio, se ha desarrollado una versión para uso en microordenador.

En la implantación de esta versión se ha utilizado las prestaciones que ofrece el sistema de menús, deseñándose el árbol de opciones conjuntando la bibliografía del tema y la experiencia adquirida de nuestros propios objetivos en los que se ha usado la versión anteriormente realizada.

Se describe la estructura del paquete, programado en turbopascal, así como las posibilidades que ofrece para el uso de la microinformática en este tipo de aplicaciones.

 

Introducción

La incorporación de la microinformática, con su constante incremento de prestaciones, a las líneas de trabajo en curso en el Instituto de Información y Documentación en Ciencia y Tecnología del C.S.I.C., ha permitido cubrir el objetivo de transportabilidad de la metodología de elaboración automática de tesauros [1] a un microordenador. Los lenguajes empleados han sido turbo-pascal y el del gestor de bases de datos dBASE IIII plus o dBASE IV, así como las prestaciones del sistema operativo MS-DOS. Esta comunicación presenta el paquete confeccionado, estructurado en un sistema de Menús que se compone de los siguientes apartados:

Toma de datos microtesauro

Listados de trabajo

Confección del tesauro

Actualización

Visualización

Edición

que se expondrán en detalle en el transcurso de la misma. La exposición se inicia con una panorámica del paquete y un estudio de cada una de las cadenas en él incorporadas. Tras la descripción de los formatos diseñados para la información del microtesauro que se informatiza "ad hoc" bien mediante grabación directa, bien, si está previamente informatizada en aplicación independiente, mediante un programa de conversión de formato preparado a este respecto, se describen las cadenas de "confección del tesauro", "actualización", "visualización" y "edición".

 

Diseño del paquete

Como resultado de los estudios que veníamos realizando, se establecieron para esta aplicación los diferentes bloques que habrían de componerla. El diagrama de la figura 1 resume el árbol de prestaciones. Una carátula inicial divide el tratamiento en las dos cadenas fundamentales:

Microtesauros. Tesauros

Bajo el primer epígrafe "microtesauros" se engloban los procesos de preparación del fichero terminológico (microtesauro), punto inicial en los tratamientos objetivo del presente paquete. Estos tratamientos se estructuran en tres apartados:

Toma de datos. Validación. Listados

El apartado de "toma de datos" está organizado para que el usuario transcriba la información utilizando un tratamiento de textos, siguiendo unas normas establecidas que permiten la identificación de cada uno de los campos. Estas normas distinguen la información monolingüe de la información bilingue.

 

Figura 1

Confección automática de tesauros
Diagrama general

 

Información monolingüe

1. Término cabecera. Arranca en columna 1 con un máximo de 40 caracteres. Su norma de expresión son las generales establecidas para los tesauros (2) (3).

2. Nota explicativa. Arranca en columna 3. Su texto se expresa entre paréntesis. Si se necesita más de una linea, las de continuación arrancan igualmente en columna 3, teniendo en cuenta las siguientes reglas:

No cortar palabra a final de linea

En las lineas de continuación llevar como primer carácter el signo de subrayado (_)

3.Términos con operador de "jerarquia", "relacionado" y "usado en lugar de". Se graban conforme a la siguiente estructura:

Col. 1-2 en blanco
Col. 3-5 operador "NT1", "NT2", "NT3", "RT, "UF'
Col. 6 en blanco
Col. 7-46 Término

Información bilingue

Contiene los mismos campos e idéntica estructura que la información monolingüe. Se diferencia en que el término en español se coloca entrecomillado a continuación del correspondiente en el otro idioma. Se mantiene asimismo la norma de que cuando son necesarias fichas de continuación éstas se distinguen por el carácter subrayado en columna 3.

La figura 2 muestra unos ejemplos de estos ficheros microtesauro.

Figura 2.A

Fichero monolingüe

GRASAS VEGETALES
NT1 MANTECA DE ILLIPE
NT1 MANTECA DE CACAO
RT MANTECA DE CACAHUETE
RT GRASAS ANIMALES
RT PRODUCTOS GRASOS
BEBIDAS
NT1 BEBIDAS ALCOHOLICAS
NT2 APERITIVOS
NT2 CERVEZA
NT2 SIDRA
NT2 COCKTAIL
NT2 AGUARDIENTES
NT3 AGUARDIENTE DE ARROZ
NT3 CALVADOS
NT3 COÑAC
NT3 AGUARDIENTE DE CAÑA DE AZUCAR
NT3 AGUARDIENTE DE CEREALES
NT3 AGUARDIENTE DE FRUTAS
RT CAFE
RT AGUA

 

Figura 2.B

Fichero bilingue

ALIMENT PREPARE "ALIMENTOS PREPARADOS"   
  (ALIMENT PRET A LA CONSOMMATION APRES CUISSON OU NON OU APRES
  _ADDITION D'INGREDIENTS) "ALIMENTOS DISPUESTOS PARA EL CONSUMO
  _ QUE PUEDEN PRECISAR, O NO, UN CALENTAMIENTO O UNA ADICION DE
  _LÍQUIDOS"
NT1 CREME GLACE "HELADOS"
NT1 ENTREMETS "POSTRES"
NT1 FARINE AUTOLEVANTE "HARINAS LEUDANTES"
NT1 GLACAGE "GLASEADOS"
NT1 MELANGE POUR CREME GLACE "MEZCLA EN POLVO PARA HELADOS"
NT1 PLAT SURGELE "PLATOS CONGELADOS"
NT1 POTAGE "SOPAS"
NT1 POTAGE EN POUDRE "SOPAS EN POLVO"
NT1 PRODUIT DIETETIQUE "PRODUCTOS DIETETICOS"
NT2 ALIMENT POUR NOURRISSON "ALIMENTOS PARA NIÑOS"
NT1 PRODUIT INSTANTANE "PROOUCTOS INSTANTANEOS"
NT2 CACAO INSTANTANE "CACAO INSTANTANEO"
NT2 CAFE INSTANTANE "CAFE INSTANTANEO"
NT2 THE INSTANTANE "TE INSTANTANEO"
NT1 REPAS PREPARE "PLATOS PREPARADOS"
NT1 SAUCE EN POUDRE "SALSAS EN POLVO"
NT1 SNACKS "APERITIVOS"
NT2 BRETZEL "GALLETAS SALADAS"
NT2 CHIPS "PATATAS FRITAS DE APERITIVO"
NT2 POPCORN "MAIZ REVENTON"
NT2 RIZ SOUFFLE "ARROZ INFLADO"
RT ALIMENT TRANSFORME "ALIMENTOS TRANSFORMADOS"
RT PRODUIT A BASE DE FRUIT "PROOUCTOS DE FRUTAS"
RT PRODUIT A BASE DE LEGUME "PRODUCTOS DE HORTALIZAS"
RT PRODUIT A BASE DE POISSON"PRODUCTOS DE PESCADO"
RT PRODUIT CARNE "PRODUCTOS CARNICOS"
VIANDE "CARNE"
NT1 ABATS "DESPOJOS"
NT2 CERVELLE "SESOS"
NT2 COEUR "CORAZON"
NT2 FOIE "HIGADO"
NT2 LANGUE "LENGUA"
NT2 POUMON "PULMONES"
NT2 RATE "BAZO"
NT2 RIS DE VEAU "MOLLEJAS DE TERNERA"
NT2 ROGNON "RIÑONES"
NT2 ROGNON BLANC "CRIADILLAS"
NT2 TRIPES "CALLOS"

 

El apartado de Validación" verifica, bien para la información monolingüe, bien para la información bilingüe, que su expresión está realizada conforme a las normas que han sido previstas y se han descrito anteriormente en la toma de datos. Estas son:

Ningún término excede de 40 caracteres

Los operadores son uno de los indicados: NT1, NT2, NT3, RT, UF

No existen operadores jerárquicos 2 ni 3 sin que les preceda el de nivel jerárquico anterior u otro del mismo nivel

En la información bilingüe debe encontrarse el entrecomillado de abrir y cerrar el texto español

El apartado de "listados" contempla dos posibilidades de imprimir el fichero microtesauro previamente almacenado:

a) Ordenando alfabéticamente los términos cabecera

b) En el mismo orden en que han sido grabados

Estos listados serán de utilidad en la fase de verificación visual de la transcripción - tratamiento de detección de erros.

Las opciones de esta rama permiten, pues, la preparación del fichero microtesauro con el nivel de bondad necesario para su tratamiento en la confección del tesauro.

El segundo epígrafe "Tesauros" arranca la secuencia de cadenas que han sido previstas para la elaboración automática del tesauro partiendo del fichero microtesauro obtenido bajo las opciones del primer epígrafe. Como se expresa en el diagrama general (figura 1) se han estructurado cuatro apartados que se corresponden:

Confección del tesauro

Actualización

Visualización

Edición

El apartado primero "Confección del tesauro" responde a las distintas etapas necesarias, tanto en el tesauro monolingüe como en el bilingüe, para interpretar, expandir, ordenar y almacenar el resultado de los procedimientos de la confección automática. En esta comunicación no expondremos el detalle de estos procedimientos por estar explicados en el artículo publicado en la Revista Española de Documentación Científica "Confección Automática de Tesauros" [1]. El siguiente apartado de esta rama: "Actualización" se ha estructurado conforme a las modificaciones que proceda realizar sobre el tesauro ya confeccionado. Estas modificaciones se han separado en tres líneas:

1. Incorporación de equivalencias idiomáticas. Auna las posibilidades de creación del diccionario español-idioma elegido y su posterior incorporación al fichero tesauro. La etapa de creación se compone de una llamada a la secuencia que permite la grabación de los términos equivalentes del idioma que se pretende incorporar. Para facilitar la grabación y con el objetivo de disminuir el número de posibles errores de transcripción por asignación incorrecta de la equivalencia idiomática así como evitar la doble transcripción del español que conllevaría también un cierto número de errores, se ha diseñado un fichero que va visualizando los términos del tesauro siendo transcrito unicamente el texto equivalente del nuevo idioma. El modelo diseñado engarza con la parte de la cadena del tesauro bilingüe que contempla la inserción de los elementos de dato de equivalencia idiomática referentes al segundo idioma.

2. Incorporación de sinónimos. El objetivo de esta cadena es la incorporación de la relación de sinonimia no transcrita en la toma del microtesauro por corresponder a términos no cabecera. El diseño de la toma de datos sigue el mismo criterio que el de la equivalencia idiomática, si bien aqui no se visualiza previamente el término en español, dado que la incorporación de sinónimos no es general para todos los términos del fichero. Su incorporación al fichero tesauro entra dentro de la planificación de las altas en el proceso de correcciones. Previamente ha de obtenerse mediante la pertinente rotación el inverso correspondente a la relación "usado en lugar de", es decir, la relación "úsese".

3. Correcciones. La cadena que se ha previsto para resolver esta parte de la aplicación comprende un primer eslabón para la grabación o toma de datos de las correcciones que han de realizarse. Estas correcciones, como en todos los procesos similares, distingue entre "altas", "bajas" y "modificaciones". El proceso de toma de datos confecciona el fichero con la información de las correcciones que se desea efectuar en el fichero tesauro. Este fichero de correcciones por un lado y el fichero tesauro por otro son los de entrada al tratamiento que tendrá como salida el tesauro corregido.

El apartado de "Visualización" representa el objetivo de ver en pantalla los tramos del tesauro deseados. Tiene las prestaciones de un editor de textos, exceptuando aquellas que conlleven la posibilidad de modificación del fichero en Visualización.

Finalmente se ha planificado un apartado "Edición" que trata los procedimientos de edición impresa del tesauro confeccionado.

Esta edición se compone de:

Un cuerpo principal con los términos y sus relaciones ordenados alfabéticamente

Un primer índice de términos indizantes ordenados alfabéticamente dentro de cada campo o temática disciplinar

Un segundo índice KWIC de los términos

Unos índices finales en el caso de tesauros multilingües, con entrada, ordenada alfabéticamente, por cada uno de los idiomas que incorpora el tesauro.

 

Conclusiones

1. Este paquete es un utensilio importante en el campo de la indización y posterior recuperación de información, por la facilidad, incrementada con el uso de la microinformática, que ofrece a la elaboración y desarrollo de tesauros.

2. La preparación de versiones españolas multilingües de tesauros en otros idiomas, se agiliza en forma notable.

3. Es un útil más en los estudios terminológicos de equivalencias idiomáticas tanto en la detección de equivalencia idéntica para conceptos diferentes como de equivalencia diferente para el mismo concepto.

4. Representa el paquete un avance importante para los objetivos de traducción automática dentro del campo terminológico.

 

Bibliografia

[1] Laguna Serrano, E.; Irazazábal Nerpell, A. de; Valle Bracero, A. "Confección automática de tesauros". Rev. Esp. Doc. Cient. 12,2,129-40 (1989).

[2] Directrices para el establecimiento y desarrollo de tesauros monolingües. ISO 2788/1986 - UNE 50106.

[3] Principes directeurs pour l'établissement et le développement de thesaurus multilingues. ISO 5964 (1983).

 

Editado con el apoyo de
Editado com o apoio da: