Sistemas de información terminológica (SITS):
cuatro niveles de solución y aplicación
Raventos de Castro, Dolores
Universidad Simón Bolívar
Banco de Datos Terminológicos (BTUSB)
Caracas-Venezuela
1. Algunas definiciones
Para desembocar en una definición para Sistema de Información Terminológica (SIT), definiremos primero, según diversas fuentes, lo que son: Sistema, Sistema de Información, Sistema de Comunicación, Sistema de Información para la Gestión, Sistema de Información Técnica y Subsistema. De estas definiciones derivaremos una que consideramos adecuada para nuestro contexto.
Si tomamos a Sistema (dentro del área temática de Ciencia y Tecnología) como el "método de organizar entidades o términos; en particular, la organización de tales entidades en grandes agregados" [1]; o como "un conjunto de elementos con relaciones entre sí de manera que el conjunto deberá tomarse como un todo" [2].
Si definimos Sistema de Información (de manera general) como "un sistema que facilita la comunicación y el procesamiento de información", [3] o más específicamente como "un sistema de comunicación con miras a aumentar el conocimiento", [4] avanzamos hacia Sistema de Información para la Gestión (Management Information System), considerándolo como un sistema de información con miras a ayudar el desenvolvimiento de toda función administrativa; [5] consideramos al Sistema de Información Técnica como "el sistema de comunicación que procesa la información en un área temática (field of knowledge), consistiendo en servicios de información que suministran servicios mediante los cuales se procesan y transmiten información y datos del originario al usuario", [6] y redondeamos al contemplar al Subsistema como "una serie o grupos de elementos de un "sistema" que desempeñan funciones operativas dentro del sistema y que pueden ser consideradas como un sistema en Sí"; [7] de todo esto podemos concluir que un Sistema de Información Terminológica (SIT) puede ser definido como:
un sistema conformado por una serie de elementos o subsistemas, cuyas funciones están destinadas a convergir o difundir procesos de información relativos al área en general y a aspectos especificas en particular.
De ahí que dentro del campo terminológico de aplicación, el sistema estaría configurado por tres elementos:
1) El sistema y los subsistemas de información;
2) 2) El equipo computacional; y
3) El procesamiento de datos de los mismos para metas especificas.
2. Banco de Datos Terminológicos (BDT)
2.1 Definición
Para llegar a la definición que respalda la noción o concepto de "Banco de Datos Terminológicos", conviene primero considerar ciertos aspectos que nos ayudarán a desembocar en ella. Dichos aspectos involucran tres etapas que nos llevan a ella y convendría aclarar que éstas son tomadas en el sentido moderno que trasciende a veces condiciones limitantes de países tercermundistas. Dichas etapas implican: 1) una ficha o registro, monolingüe o multilingüe, que forma parte de un 2) archivo organizado alfabética o sistemáticamente el cual a su vez puede ser 3) automatizado. Esto es cuando nos referimos al registro terminológico propiamente dicho. Sin embargo, cabe señalar que existen "datos" además de términos que también tienen que interactuar con los mismos para darle el respaldo y confiabilidad para sobrevivir cualquier improvisación. De ahí podemos tomar la definición de un BDIT del Prof. Felber, en su Manual de Terminología como:
"... un conjunto de datos terminográficos computarizados cuya intención es la de darle al usuario acceso directo o indirecto a los datos almacenados y de permitir que estos datos sean procesados de acuerdo a características específicas ". [8]
Los "datos terminográficos" están constituidos, por consiguiente, por datos terminológicos y datos asociados, los cuales configuran un registro terminológico.
2.2 Diferenciación entre Banco de Datos y Bases de Datos Terminológicos
Para arrancar la comparación-diferenciación entre un Banco de Datos y una Base de Datos quisiera utilizar la analogía:
|
Un Banco de Datos
__________________ |
|
Base de Datos
__________________ |
| Banco Comercial |
|
Cuenta Corriente |
Un Banco de Datos es a un Banco Comercial como una Base de Datos es a una Cuenta Corriente.
Graficando pudiera verse:
| Banco de Datos |
|
Banco Comercial |
 |
|
 |
| Bases de Datos |
|
Cuentas Corrientes |
Para nosotros, en este trabajo, utilizaremos los términos Banco de Datos, Bases de Datos, Registro y Campo bajo las siguientes acepciones: Tomaremos "Banco de Datos" para referirnos a una colección de Bases de Datos, incluyendo el equipo y los programas que lo activan. Las "Bases de Datos" como representantes de las áreas y asignaturas que se dictan-investigan en la USB, las cuales están constituídas por bases relacionadas de registros y términos, que a su vez están constituídos por campos.
2.3 Algunas características de los BDTs
Para especificar el término de Banco de Datos en su variante de BDT, destacaremos que se trata de algo más que colecciones de diccionarios, tesauros y términos automatizados. Aunque un BDT puede ser utilizado para producir trabajos lexicográficos o terminográficos convencionales, confiables y actualizados, su alcance es mucho más vasto. Si tomamos al Proyecto BTUSB, a través de sus objetivos, veremos que se pretenden automatizar bibliografías, normas técnicas, terminologías y directorios, los cuales se combinarán dentro y fuera de los registros para cumplir funciones "puntuales" de peticiones de los usuarios con un mínimo de "ruido" o información superflua para el usuario en cuestión. [9]
2.4 Usuarios previstos
Aunque el estudio de Sager y McNaught en 1980 [10] determinó seis grupos de usuarios regulares de BDTs:
1- Escritores técnicos, escritores de resúmenes técnicos, periodistas, traductores e, intérpretes;
2- Especialistas de Información y Documentación;
3- Expertos en normalización;
4- Lexicógrafos y terminólogos especialistas;
5- Lingüistas aplicados, planificadores del lenguaje, investigadores en traducción automatizada, profesores de idiomas técnicos para fines específicos y educadores;
6- Editores de Diccionarios
Sin entrar en detalle de por qué cada tino de estos grupos recurre o necesitaría recurrir a un BDT, cabe señalar que cada Lino de ellos por la actividad involucrada requieren instrumentos o listados diferentes.
2.5 El TERUSB.2 como SIT del BTUSB
Dentro de nuestro contexto institucional, el TERUSB.2 viene siendo el SIT que activa el funcionamiento del BTUSB.
Dicho sistema consta de seis subsistemas:
1) Subsistema 1 = SITER10 0 20.
punto de partida hacia los otros subsistemas, pude constar de 10 6 20 campos por lengua.
2) Subsistema 2 = SIAT.
se desprende del campo 1 de cada lengua. Refleja cuatro niveles de anidación. la razón por la cual determinamos esta opción es que al considerar varios sistemas de clasificación para adaptarlos al TERUSB.2, tales como el Lenoch (del Mercado Común), el Termium (Universidad de Montreal, Secretaría de Estado), UNESCO, etc., ninguno lograba cubrir completamente las necesidades planteadas por las áreas temáticas de nuestra institución. De ahí se optó encaminar este sistema abierto de cuatro niveles, el cual, aunque no necesariamente tiene que estar abierto al usuario general, podrá encaminarnos hacia un tesauro institucional. Este esquema se justifica como mecanismo convergente de los diferentes sistemas de clasificación, adelantando el camino hacia una clasificación más completa, sirviendo de catalizador para aspectos interdisciplinarios en la búsqueda y toma de decisiones relativas a clasificaciones. En esta etapa se podrá contemplar el dinamismo de ciertas ciencias nuevas (i. e. Ingeniería Biomédica) e ir asentando su evolución.
3) Subsistema 3: SIDOC. Se desprende del campo 5 de cada lengua. En contexto-infraestructura de automatización avanzada se pudiera empalmar con un Micro Marc o Micro Isis, pero contemplando que en algunas situaciones tercermundistas no necesariamente se tiene acceso a cualquiera de esas opciones, se podría utilizar ésta para resolver el proceso más esencial.
4) Subsistema 4: SIUGE. Se desprende del campo 6 del registro básico para ampliar el código alfa2 de las Normas ISO 639 y 3166, reflejando cada variante lingüística dentro de cada lengua.
5) Subsistema 5: SIET. Se desprende de los campos 1 y 8 del registro básico para dar acceso a los especialistas en cuestión para nivel de consulta y publicación.
6) Subsistema 6: SIBEM. Se desprende del campo 9 (SITER10) 6 19 (SITER20) para cada lengua. Accede el código y ampliación de datos del Bco. Emisor. El último campo siendo la estructura del mismo a tener en cuenta para fines de intercambio de datos mediante un formato adecuado.
2.6 Registros terminológicos dentro del TERUSB.2
Como registros terminológicos dentro del TERUSB.2 podemos considerar tres versiones: 1) un campo por lengua; 2) diez campos por lengua; y 3) veinte campos por lengua.
La primera versión es la más rústica y sencilla para uso personal. En ella se asienta escasamente los términos con sus equivalentes en los otros idiomas. A veces se puede indicar la fuente pero no necesariamente. Esto vendría a constituir 1 6 2 campos por idioma.
La segunda versión, SITER10, vendría a ser:
(Nota: la extensión - X representa el código del idioma en cuestión)
1. AT-X = área temática. Apuntador al subsistema SIAT.
2. EFECHA-X = fecha elaboración.
3. AFECHA-X = fecha actualización.
4. TERM-X = término en cuestión.
5. DOCTER-X = código de fuente. Apuntador al subsistema SIDOC.
6. UGE-X = indica las variantes de uso en un mismo idioma, en cada país que lo habla. Se usan códigos ISO. Apunta al subsistema SIUGE.
7. LOC/GRAM-X = indica la ubicación del término en un documento o su anotación gramatical.
8. ET-X = especialista temático y/o terminológico.
Código apuntador al subsistema SIET, representa en forma codificada los expertos que participan en la elaboración de la ficha y verificación del término. Su función de directorio sirve para acceder a los expertos en caso de necesitar consultar un problema y para referencia de participantes al publicar los resultados .
9. BDE-X = código apuntador al subsistema SIBEM. Ahí se encontrarán todos los datos pertinentes al banco emisor. Tendrán los datos de la estructura del Banco Emisor para el retorno de los datos completados con el Español.
10. CC-X = código de confiabilidad que representa la ponderación evaluativa de un término de acuerdo a una escala determinada.
0 = sin verificación;
1 = nivel de trabajo;
2= verificado rechazado;
3 = verificado y aprobado.
En la versión de 20 campos por idioma (SITER20), los campos 9 y 10 se convertirían en 19 y 20 respectivamente, mientras que el:
9. Seria para asentar la definición, contexto o nota de alcance pertinente de manera de retener los descriptores más significativos. (Dubuc, 46)
10. Descriptor genérico superior CM.
11. Equivalencia de relación obligante (USE);
12. Equivalencia de relación obligante (UF);
13. Relación-alternativa exclusiva (SEE)-,
14. Relación-alternativa exclusiva (SF);
15. Relación-jerárquica-genérica (BT);
16. Relación-jerárquica-especifica (NT);
17. Relación-asociativa: sinónimo-antónimo;
18. Relación asociativa: término obsoleto.
Siguiendo una pauta mostrada por la versión hispana del Tesauro Spines en 1985, optamos por utilizar los símbolos como indicadores de relaciones en vez de los BT, NT, RT, con sus contrapartidas en español y francés y que consideramos que causan cierta distracción visual cuando se pasa de un idioma a otro. Nos permitimos incorporar tres opciones más que nos interesan en nuestra aplicación, siendo éstas: la ? para indicar el genérico superior (top term); la :s o la :a para indicar un término relacionado a nivel de sinónimo o antónimo; y la Ø para indicar un término obsoleto o en desuso para nuestro medio.
El registro básico en su versión de 1, 2 ó 10 campos se puede manejar a nivel manual hasta cierto punto. A medida que crece verticalmente, aumentan sus necesidades horizontales, de respaldo a los datos. De ahí la necesidad de automatizar.
3. La implantación de los SITs a diferentes niveles
Los SITs arriba descritos pueden ser implantados adecuadamente a cuatro niveles de aplicación según el número de usuarios, las áreas temáticas cubiertas y los equipos de procesamiento disponible.
| Primer Nivel: |
1 usuario, 1 área temática, 1 estación de trabajo. Configuración mínima de la estación de trabajo: 64Ok, 20 MgB en disco duro.
Se pueden automatizar adecuadamente los SITs sin programación.
Se pueden interactuar manualmente los resultados con procesadores de palabras. |
| Segundo Nivel: |
Uno o más usuarios, varias áreas temática, 1 estación.
Configuración mínima: 640k, procesador 286, 40 MgB en DD.
Requiere cierto nivel de Programación. |
| Tercer Nivel: |
Varios usuarios, varias áreas temáticas, varias estaciones.
Configuración mínima: 1.2MgB, procesador 386, opción multiusuario o Red Local (LAN). |
| Cuarto Nivel: |
Igual que el tercero pero a nivel de configuración centralizada (mainframe). |
El acceso y control por parte del usuario disminuye proporcionalmente a medida que algunos sistemas crezcan. Los protocolos de acceso son impuestos por los administradores de los sistemas (2o y 3er nivel) y a veces éstos tienen que someterse a otros controles superiores al tratarse de configuraciones centralizadas.
Pensamos en este aspecto que el mejor nivel seria el tercero, ya que ofrecería lo mejor de ambos extremos.
4. El "estado del arte" actual
Aunque se ha avanzado mucho en los últimos 5 años en procesamiento computarizado de datos multilingües, no todos los programas de base que se consiguen en el mercado están capacitados para procesar adecuadamente te con diacríticos. Desde 85-86 se está resolviendo básicamente mediante códigos ASCII. Sorprende a veces encontrar programas como Multimate, en sus versiones 3.31 y 3.60, donde la opción-teclado alterno separa el teclado Romance del Germánico, incluyendo en el Romance la Å que no pertenece a dicho teclado y omite la ü (^u en el Germánico). Para llegar a la ü tendría que salirse del teclado Romance, ingresar en el Germánico (altK) para sacarlo en directo (dos teclas simultáneas). La á no figura ni en el romance ni en el Germánico con lo cual hay que recurrir al ascii (alt160).
Existe la posibilidad de un procesamiento más dinámico (menos teclas para los diacríticos) con programas como XywriterIll+, NotaBene y Samna Word IV. NotaBene está basado en Xywrite pero hay que comprarlo aparte y cuesta casi 200 dólares más. Samna Word IV está ofreciendo mayores posibilidades de procesamiento multilingüe pero a un costo de más de 300 dólares por encima de los otros paquetes.
5. Conclusión
El esquema del SIT arriba descrito fue desarrollado con dBaseIll+. Tomamos dicho paquete en forma genérica sin excluir la posibilidad de desarrollar lo mismo con otros paquetes como Revelation, Paradox, FoxBase+ o RBase 5000. Cuando empezamos nuestro estudio, Revelation costaba el doble y ni Paradox ni FoxBase existían, y nuestro acceso a RBase se hacia más dificil en nuestro medio. Nuestra preocupación ha sido siempre desarrollar un mecanismo que requiera un mínimo de programación en algunos niveles y esto es factible dentro de dBaselll+ con el Assist y el Applications Generator. Sabemos que hay otras soluciones y enfoques como la de los profesores Clas y Baudot en Montreal y Leland Wright en Ohio [11]. Otra conclusión im portante es que las posibilidades de intercambio se están facilitando cada vez más con lo cual no tenemos que sacrificar ninguna necesidad local para poder intercambiar o retornar datos.
Bibliografía
[1] AAA; (1981). Diccionario de Términos Científicos y Técnicos. McGrawHill. Barcelona.
[2] WERSIG, G.; NEVELING. U. (1976). Terminology of Documentation. The UNESCO Press.
[3] WERSIG (1976) (41-19).
[4] WERSIG (1976) (41-20).
[5] WERSIG (1976) (41-23).
[6] WERSIG (1976) (41-42).
[7] WERSIG (1976) (41-39).
[8] FELBER, H. (1984). Terminology Manual. UNESCO. Paris.
[9] DUBUC, R. (1978). Manuel Pratique de Terminologie. Montreal.
[10] SAGER, J. C. et al. (1980). English Special Languages. Wiesbaden,
[11] WRIGHT, L. (1986). TermNet News 15. Infoterm. Vienna.