Propuesta de un Banco de datos terminológico
de la lengua científica española.
II Estudio de las soluciones informáticas
Valle Bracero, Antonio
Irazazábal, Amelia de
Instituto de Información y Documentación
en Ciencia y Tecnología (C. S. I. C.)
Madrid-España
Introducción
Hemos de comenzar indicando que la presente ponencia versará sobre los tratamientos informáticos conducentes al desarrollo e implantación de la base de datos terminológica propuesta por Amelia de Irazazábal.
Basados en la experiencia informática propia así como en la bibliografía especializada, intentaremos dar una visión de las metodologías que podrían seguirse para, abordando objetivos en una forma distribuida y teniendo en cuenta los posibles problemas puntuales, confluir en un vértice común, es decir, conseguir la adecuada convergencia de los diferentes esfuerzos.
Sin detenernos en un excesivo detalle vamos a exponer los puntos que hemos considerado fundamentales para el logro del objetivo propuesto.
Estos podrían resumirse en:
Fuentes de partida.
Definición de campos y normas para su expresión.
Metodologías y tratamientos en los nodos independientes.
Concreción de la extensión o dominio de cada una de las áreas temáticas.
Estudios de homologación, vocabularios generales y vocabularios específicos.
Metodologías para utilización de la red.
Núcleo, foco central de la red.
Difusión. Perfiles de interés en la recepción de los nuevos términos que se incorporen.
Visión general
Consideramos los objetivos que se engloban en cada uno de los puntos indicados anteriormente:
Fuentes de partida
Pensamos que las distintas posibilidades: glosarios, diccionarios, tesauros u otras relaciones terminológicas existentes en español podrían englobarse en dos grandes apartados:
Informatizadas
En documentos de trabajo o editadas, pero no informatizadas
De aquellas no disponibles en español, pero sí en otros idiomas el primer paso a realizar seria la correspondiente traducción o mejor dicho el cambio -a la versión en español. Aquí hemos de considerar si podría disponerse en soporte legible por ordenador o solamente en relación impresa. Las metodologías a seguir para la obtención de la versión en español serían diferentes, si bien la equivalencia idiomática habría de hacerse en ambos casos según las normas establecidas, es decir, las directrices para las relaciones multilingües.
Con las fuentes informatizadas entendemos habría de hacerse un estudio terminológico comparativo tendente a una homologación de los términos que comprendan y en línea a establecer unas conclusiones de conjunción de las mismas dentro de la red.
Con las no informatizadas un primer paso seria efectuar dicha informatización, bien siguiendo métodos ya establecidos en otros Centros terminológicos, o bien utilizando aquellos disponibles en el Centro en que se desarrollen, completando con el diseño del engarce el resto de la red.
Definición de campos y normas para su expresión
Es en nuestra opinión de suma importancia concretar desde el principio los campos que van a componer la información de cada término en la base terminológica, pero mucho más aún las normas de expresión para cada uno de ellos. Con esto nos referimos a, por ejemplo, en la redacción de un término, considerar:
Número máximo de caracteres
Género y número en las palabras - Uso de partículas
Utilización de abreviaturas
Elección entre sinónimos. Cuál debe utilizarse
Tipografía:
Sólo mayúsculas
Mayúsculas y minúsculas con signos diacríticos
Formas verbales
Expresión de los números:
Arábicos
En texto - Etc., etc.
Formato de comunicaciones
Para el intercambio de información entre los distintos nodos de la red debe establecerse un sistema normalizado. Puede escogerse el establecido como norma de intercambio de información en cinta magnética específicamente para datos terminológicos. Norma ISO-6156, 1987.
Añadido a esta norma, que establece los criterios de almacenamiento, conviene fijar además el código interno de los caracteres (EBCDIC, ASCII, ...) así como la extensión de la tabla (84, 128, 256), teniendo en cuenta, como se indica antes, si sólo van a utilizarse letras mayúsculas, o van a introducirse además minúsculas y signos diacríticos.
En nuestro idioma hemos de tener en cuenta también el código interno de la letra "ñ" tan diversificado en las metodologías actuales.
Para que puedan coexistir los diferentes códigos y extensiones habría de difundirse las correspondientes tablas de equivalencias tanto entre códigos como entre las distintas formas de la misma letra en el mismo código. Por ej. A, a, á.
Con la decisión de uso de sólo mayúsculas, además de quedar empobrecido el vocabulario se incrementan los problemas de homografía. Un ejemplo muy conocido de esto es la homografía
publico - público - publicó
En otros casos como la letra "u" precedida de "g" pasa de ser letra muda a poseer sonido cuando se le coloca la diéresis. Ej.: cigüeña, cigüeñal, lingüística, desagüe, etc.
Finalmente consideramos oportuno señalar que dado el gran incremento de disponibilidad de microordenadores habría de preverse la posibilidad del intercambio de información no sólo en cinta magnética, sino en microdisco.
Metodologías y tratamientos en los nodos independientes
Pasando por alto los trabajos generales de incorporación de nuevos elementos y actualización o modificaciones en los ya existentes, así como las posibles ampliaciones de otros campos inicialmente no considerados, habrían de tenerse en cuenta en este apartado aquellas aplicaciones de la base terminológica que sean de interés tanto para el Centro en que se haya desarrollado como para usuarios externos al mismo.
Entre éstas podríamos citar:
Indización de documentos
Estudios terminológicos
Creación de nuevos términos
Consulta en línea
Estadísticas sobre frecuencias de utilización
Estudios de sinonimia
Ediciones impresas
Difusión selectiva
Concreción de la extensión o dominio de cada una de las áreas temáticas
Con este apartado queremos indicar que es de suma importancia definir el alcance de cada una de las temáticas que se consideren a fin de evitar solapamientos o zonas de áreas sin cubrir. Ello podría hacerse mediante el intercambio de opiniones entre personal especializado en las áreas de que se trate junto a la elaboración informática de documentos de trabajo que contemplen la extensión de los términos existentes bien en español, bien en otros idiomas para dicha área temática. Estos estudios conducirían a resolver de forma eficiente la fusión de diferentes bancos y establecimiento de la red compartida por la base de datos terminológica que se propone.
Estudio de homologación. Vocabularios generales y vocabularios específicos
Si tenemos en cuenta que no se parte de cero sino que ya están en funcionamiento bases de datos terminológicas consecuentes con los objetivos a que se aspira, pensamos que habrían de efectuarse unos primeros trabajos de interrelación con los ficheros ya existentes. Estos trabajos encaminados a determinar criterios de homologación, tenderían a confeccionar tablas de sinónimos iniciales; éstas se irían ampliando posteriormente según fuese creciendo el número de ficheros terminológicos incorporados al estudio.
En estos estudios cabría preparar asimismo índices que llevasen al conocimiento de la extensión de los vocabularios específicos de cada área temática así como su vocabulario común con otras áreas.
Metodologías para utilización de la red
En el establecimiento de los métodos de utilización habrá que comen zar por definir los campos en que seria de aplicación e interés la red terminológica y entonces establecer los métodos más idóneos o eficientes para ello.
Nuestro pensamiento a este respecto es llegar vía una fórmula lo más operativa posible a un sistema de red para. consulta generalizada que contemple en la mayor amplitud las necesidades actuales y futuras en este campo.
Consideramos que el mejor camino seria la descentralización coordinada, es decir, que los núcleos ya existentes y los que se fuesen creando en el futuro se planificaran de modo complementario. Se iría desarrollando la prestación de los servicios locales y conformándose la red distribuida que en su día cumpliría el objetivo propuesto.
Queremos pues decir que pensamos como más operativo el irse formando núcleos en un primer nivel de tamaño y reducidos, a una sola área temática. Con ello se irían solventando los problemas de captación y transcripción a soporte legible por ordenador dentro de una homogeneidad terminológica quedando en forma independiente los respectivos a la fusión que se resolvería con los estudios antes propuestos.
El sistema final de organización de la red iría resultando según fuese desarrollándose la línea de trabajo.
Núcleo o Foco central de la red
Como hemos dicho antes, pensamos que el método más operativo es la organización de núcleos independientes en los que cada uno utilice los medios de que más fácil disponga. Actualmente se simplifica por la facilidad de disponer de microordenadores. También hemos dicho que es muy conveniente ir efectuando estudios terminológicos conjuntos con los ficheros que se vayan obteniendo y comenzar con los que ya se pueda disponer en el momento actual. Por ello, consideramos se debe ir conformando un Núcleo o Foco central encargado de coordinar las soluciones a los problemas y que sirva como punto de enlace en las consultas y planificación final de la Base de datos.
Difusión. Perfiles de interés en la recepción de los nuevos términos que se incorporen.
En paralelo con los estudios terminológicos y confección de la base de datos inicial estimamos de gran interés un proceso de difusión selectivo de la información terminológica y logros de los trabajos, dirigiendo cada información al sector interesado. Si un término, que tras un exhaustivo estudio se considera como más adecuado no va acompañado de la pertinente difusión, se perdería el esfuerzo realizado. Son de gran importancia pues los medios de comunicación (TV, radio, publicaciones, etc.), así como los medios de enseñanza. Otro medio importante es la publicidad (carteles, vallas, etc.)
Experiencias propias. Línea de trabajo en desarrollo
La actividad terminológica en nuestro Instituto se encuadra dentro del grupo TermEsp, creado en 1985, si bien su experiencia data de una fecha bastante anterior, surgiendo en 1985 como grupo de aglutinación de los esfuerzos dispersos en este campo.
Informáticamente se ha desarrollado una metodología de tratamiento de tesauros multilingües abarcando los procesos de elaboración de la versión en español partiendo del correspondiente en otros idiomas y el de confección automática partiendo de un microtesauro. Estos desarrollos se han efectuado con el tesauro SPINES y el de normas UNE. La parte de confección automática de tesauros se ha efectuado tomando como punto de partida un microtesauro de alimentación.
Actualmente se viene realizando en plena colaboración con el aspecto lingüístico y documental, la planificación, desarrollo y tratamiento de:
Versión española Base de datos internacional DIRR.
Versión española por áreas temáticas de la Base de datos EURODICAUTOM.
Tesauro de Ciencias Farmacológicas.
Versión española de la USP/DI.
Versión española del diccionario plurilingüe de la FID.
Versión española de la primera edición del Tesauro de términos metalúrgicos. ASM.
Versión española del Tesauro de la Biblioteca de la CEE.
Diccionario cuadrilingüe de Ciencias de la alimentación y Alimentos. También se dispone y en permanente actualización de los glosarios utilizados en la indización de citas para el Índice Español de Ciencia y Tecnología e Información y Documentación.
Conclusiones
Se propone el establecimiento de una red de transferencia de datos terminológicos entre España y América.
El funcionamiento de la red conducirá a la implantación en cada uno de los países que voluntariamente se adhieran a ella, de un Banco de datos de terminología científico-técnica en lengua española.
Se efectuarán estudios de factibilidad del Banco de datos, Inventario de los recursos terminológicos, Censo de estudios terminológicos y de Banco de datos, en cada uno de los países.
Se adoptará una ficha uniforme para la transferencia de datos entre todos los modos de la red, que cada país utilizará después, completa o en la parte que les interese, para la Implantación de su propio Banco de datos.
El intercambio de información se hará según la Norma ISO-6156, 1987.
Se propone la realización de vocabularios científicos especializados y el estudio de la terminología común a distintos campos científicos.
Bibliografía
Documentación - Formato para intercambio de información en cinta magnética. ISO-2709 (1973).
Formato de intercambio en cinta magnética de datos terminológicos y/o lexicográficos. ISO-6156 (1987).
Documentación - Principios directrices para el establecimiento y desarrollo de tesauros monolingües. ISO-2788 (1974).
Documentación - Principios directrices para el establecimiento y desarrollo de tesauros monolingües. ISO-5964 (1983).
SPINES - Thesaurus. UNESCO, (1976).
HENNING, J. M.; PERRAUD, J. C.; PEUCHOT, B.; SCHNEIDER, M. - Logiciel de gestion de banques de données terminologiques. Convention MIDIST; No 83 3 94 0187 (1984).
EURODICAUTOM. Manual de l'alimentateur. Doc. No 5959/82 (1984).
ILJON, A.; DOGGEN, J. - ASTUTE. Automated System. for thesaurus updating, testing and editing. Manuel d'utilisation. (1976).
PEREZ ALVAREZ-OSSORIO, J. R.; RIUDAVETS MONTES, A.; VALLE BRACERO, A. - Cambio automático de lenguaje pivote en un tesauro multilingüe informatizado. Primeras Jornadas Españolas de Documentación Automatizada. (1984).
IRAZAZABAL, A.; ÁLVAREZ, S.; ZARCO, J. - TermEsp. El grupo de Terminología del C.S.I.C. Rev. Esp. Doc. Cient. 10, 4 (1987).