Actas / Atas
1988-2002
Presentación / Apresentação
I Simposio (1988)
II Simpósio (1990)
III Simposio (1992)
IV Simposio (1994)
    Índice
V Simposio (1996)
VI Simposio (1998)
VII Simpósio (2000)
VIII Simpósio (2002)
Índice por autores

 

 

La terminología y la digitalización creciente de soportes

Mela Bosch
EURIS
Argentina

 

Premisas y cuadro de situación

El uso del lenguaje escrito en la década de los '90 presenta un perfil que muchos consideran de sofisticación tecnológica. A los fines del presente trabajo proponemos pensar sencillamente en un cambio de envase. Así, los problemas que presentamos los analizamos como propios del paso de un envase a otro, con las consecuentes adaptaciones de continente y contenido; esta premisa nos evita profundizar en este momento en las características complejas de los soportes digitales y en las ampliamente estudiadas de los diferentes tipos de textos.

Con esta óptica observamos que este nuevo "envasado" tiene dos formas: el disco láser compacto y las redes. En el presente aporte nos limitaremos al disco compacto y nos remitiremos a las redes en forma tangencial.

Los discos compactos como soportes de lenguaje tienen la particularidad de acumular como nunca antes grandes cantidades de texto. Cien mil páginas de libros corrientes pueden incluirse en un solo disco. Por añadidura, este envase tiene la característica de presentar en forma simultánea, según criterios de organización lógica, el contenido de esas cien mil páginas.

De manera que surgen nuevos problemas: las capacidades de asimilación de información de las personas y colateralmente la velocidad que esa asimilación requiere; en relación con todo esto surgen cuestiones conocidas con expresiones como atosigamiento o saturación por parte del usuario.

Las respuesta es el desarrollo de formas de representación que difieren de la tradicional forma lineal que se utiliza en los textos impresos, el último envase generalizado, hasta la aparición de los que nos ocupan.

Los libros poseen para su representación conceptual índices, tablas de contenidos, referencias internas, además de los ordenamientos físicos en tomos, volúmenes, secciones, capítulos, parágrafos. Podemos decir que los libros ofrecen un "plano" virtual y material de contenidos. Se trata de un despliegue en presencia, secuencial, aunque el lector puede ir y volver de una parte a otra, y hasta hacer "rayuelas" de lectura, parafraseando a Cortázar, precursor de esta problemática.

En los nuevos envases, para la representación conceptual se utilizan estructuras jerárquicas, taxonomías y clasificaciones pero presentadas en forma independiente del texto propiamente dicho. Y se amplían con representaciones poliárquicas por medio de redes de conceptos, con tecnología hipertextual.

Para la organización física la situación también varía. El texto electrónico no tiene un "volumen", aunque podamos tener un CD-ROM en la mano. Los productos digitalizados, revistas electrónicas y/ o bases de datos adoptan "metáforas de presentación" que van de presentar "páginas" a proponer "navegaciones hipertextuales" (cf. Las Heras, A. Navegar la Información. FUNDESCO, 1991).

El problema no es solamente un criterio de versatilidad, se trata de algo más complejo que es una tendencia en el manejo de la información en nuestra época.

 

La tendencia del momento: el crecimiento de los sistemas interactivos

Cuando se realizan desarrollos sobre los textos digitalizados modificando su estructura conceptual y física, al ser ellos a su vez soportes de conocimiento, nos encontramos en el área de la sistematización cognoscitiva. Sin entrar en este complejo ámbito, nos permitiremos hacer aquí un pequeño repaso.

Un sistema puede ser considerado como informante, informado o de información. El primer caso es el que tiene sólo salida de información, el segundo el que tiene sólo entrada de información y finalmente, los sistemas de información son los que tienen tanto entrada como salida (cf. Greniewski, H. Cibernética sin matemáticas, México, FCE, 1977, pp. 28 y ss.).

Los sistemas netamente informantes como la radio y la televisión están encontrando formas de interacción por medio de la complementación tecnológica con las líneas telefónicas o fax, herederos y potenciadores de los "correos de lectores".

Así es también como hay sistemas informados, es decir que únicamente se ocupan de recabar datos, tales como sondas intra o extraterrestres pero sólo lo son en una fase determinada, ya que deben en otra pasar a transferir lo acopiado, operando como sistemas informantes; finalmente en la actualidad tienden a ser sistemas que simultáneamente reciben y emiten señales.

De manera que la tendencia es el desarrollo de sistemas de información, esto es, sistemas que a la vez reciben y emiten información. En este sentido, el libro, sistema informante por excelencia, va dando lugar a través de la digitalización creciente de los soportes a formas interactivas.

En estos sistemas interactivos se inscriben también la redes, en forma de pizarrones electrónicos, correos electrónicos y sistemas administradores de bases de datos remotas de poder y capacidades superlativas como DIALOG.

 

Unidades terminológicas como claves de acceso a un sistema cognoscitivo

El uso de unidades terminológicas para acceso a sistemas de información que almacenan conocimiento en forma de texto requiere una especial vinculación entre cada una de ellas. Se trata de claves de acceso que agrupan una sección con determinadas condiciones de un corpus de texto.

Aquí entendemos por texto a un conjunto de datos presentados por medio de un código alfabético, que puede referenciar a una o varias lenguas. No creemos que este sea el momento de hacer las distinciones entre conceptos tan vastos como lengua y discurso. Lo que interesa hacer notar es que nos estamos ocupando de sistemas que almacenan, mediatizados por códigos, el objeto mismo al que se accede.

En este sentido volvemos sobre la diferenciación que he hecho notar en otras oportunidades entre las características del análisis terminológico para uso referencial en medio magnético y el análisis requerido para la exploración de texto completo en estos soportes. (Cf. Bosch, M. y otros. Tratamiento lingüístico documental y nuevas tecnologías. Ponencia para el encuentro nacional de bibliotecarios, ABGRA, 1993.)

Allí se realizó un panorama de los problemas involucrados, pero en este momento mi interés es abordar cada corpus en soporte digital como un objeto, un sistema que almacena un conjunto de conocimientos.

Los sistemas cognoscitivos deben reunir ciertos rasgos: totalidad, integridad, autosuficiencia, cohesión entre los componentes. Y eficacia, consonancia, unidad, regularidad y simplicidad funcionales en cuanto al objetivo común. (Cf. Rescher, N. La sistematización cognoscitiva. México, S. XXI, 1979, pp. 12 y ss.)

A medida que observábamos productos en nuestra lengua nos encontrábamos con una anarquía singular que hizo muy dificultoso utilizar estos parámetros de sistematización. De manera que creemos que cada producto digitalizado no puede ser visto por el momento como un sistema cognoscitivo. No nos cabe duda de que en muchos textos que quizá ya están en estos soportes sí se da esta condición. Tal es el caso de Thomae Aquinatis Opera Omnia cum hypertextibus in CD-ROM. Pero esta obra es fruto de 20 años de trabajo de teólogos y del pionero en lingüística computacional, el padre R. Busa, que há realizado la más asombrosa integración de trabajo terminológico, lingüístico e informático... en latín.

Nos dimos cuenta de que los desarrollos en español están en un estadio anterior donde nos tenemos que detener en lo que resulta adecuado para el cometido básico de un sistema de información, esto es la entrada y salida de conocimientos.

 

El qué y el cómo

Al reducir nuestra mirada al problema de la adecuación entre continente y contenido, nos encontramos en medio de otro complejo campo que es el de la interacción entre máquinas y personas.

En este caso -al tratarse de un sistema con entradas y salidas de conocimiento- es necesario observar el corpus objeto en relación con el agente que hace uso de él.

Se deben contemplar las cuestiones de uso adecuado de términos en relación con los contenidos (el "qué") y en relación a los usuarios (el "cómo"). Para lo primero existe una amplia experiencia, aunque no aplicada a estos productos, de análisis de contenidos. (Cf. Krippendorf, K. Metodología de análisis de contenido, Barcelona, Paidós Comunicación, 1990). Asimismo los desarrollos en aprovechamiento de masas de texto en bases de datos han abundado en glosarios, tesauros, métodos de búsqueda en texto libre, índices KWIC, KWOC, desarrollo de operadores booleanos ampliados, etc.

En cuanto a lo segundo se están haciendo estudios muy serios para desarrollos de interfaces. (Cf. Blattner, M. y Dannenberg, R. Multimedia interface design. ACM, 1992 y la publicación periódica Interacting with computers)

Lo que hacemos notar es la distancia entre unos y otros avances y la ausencia de complementación.

Los denominados entornos gráficos simplifican en exceso las formas de acceso, en tanto que los sistemas de texto completo con operadores booleanos complejos suelen dejar al usuario en la soledad de escribir largas y complejas estrategias de búsqueda .

 

Algunos ejemplos

Tomamos algunas bases de datos en CD-ROM en lengua española. Seleccionamos entre las que teníamos a nuestro alcance una de texto únicamente, y totalmente argentina; otra también de texto pero en la que sólo el tratamiento del lenguaje es local, otras hechas totalmente en España y finalmente vimos un desarrollo íntegramente local en entorno gráfico.

El primer caso es el sistema Justina. el primer producto íntegramente argentino y que data de 1989 y mantiene continuidad, comercializado por Albremática.

El corpus es el más grande de los que vimos, en cuanto a cantidad y variedad de texto.

Este sistema complementa un acceso en lenguaje natural que utiliza un diccionario lemático y una gramática sencilla con una organización de títulos y subtítulos.

Lamentablemente, los desarrollos lingüísticos no continuaron avanzando con las diferentes actualizaciones y no se realizó una integración entre las dos formas de acceso.

Esto es aún más penoso, porque este excelente producto incluye además un diccionario jurídico, al cual es posible invocar desde los registros, pero que también se encuentra separado de los otros dos accesos. Es decir que el trabajo terminológico está íntegramente por realizarse y el usuario habitual debe generar su propia forma de uso, explorando términos. Afortunadamente el costo es sólo de tiempo de búsqueda por tratarse de un producto CD-ROM, pero esta característica hace que este lenguaje resulte oneroso en red.

Los otros productos que hemos visto también se aplican al campo del derecho, sus programas no son argentinos, sino españoles. Uno es el CDBASE de Logitec de España y otro es un producto argentino pero también sobre un programa español, el KNOSIS de Micronet.

Los productos desarrollados en España sobre legislación Fiscal y Laboral presentan muy poco trabajo terminológico, es más, en algunos casos no se realiza la normalización mínima. Pero la simplicidad del uso hace que el usuario pueda utilizarlo asiduamente, porque se trata de corpus restringidos.

El producto argentino, que almacena la revista jurídica La Ley, con un programa de potencia quizá menor, completa su capacidad con un buen trabajo terminológico local. Se desarrolló en este producto un esquema de sinonimias entre las palabras requeridas y las voces de la colección. Este tampoco es un corpus amplio.

El último es un CD-ROM de consumo masivo. Se trata de Argentina Natural. En este caso tenemos un entorno gráfico, el texto no resulta importante y las claves de acceso son rótulos de menú. Hay inexistencia de trabajo terminológico, sólo una correlación ya que es accesible tanto en inglés como en español.

 

Pasando en limpio

El repaso anterior es una presentación muy rápida de algunos ejemplos pero no hay que olvidar nuestras premisas: estamos ante un envase de tipo interactivo. Se trata de un sistema de información, requerimos datos y recibimos respuestas.

Nuestra forma de solicitar datos se realiza por medio de términos del lenguaje corriente o por medio de opciones en diferentes listados.

La búsqueda por lenguaje corriente es la más deficitaria de todas. Salvo Justina que posee un diccionario lemático, pero no temático.

De manera que la estrategia dominante es la selección de opciones. Las opciones son típicamente contextuales. Es decir que la lista de opciones se crea en función de la presencia de elementos en el corpus.

Las opciones pueden estar normalizadas, utilizando, como en los ejemplos españoles, las partes del texto, pueden estar tratadas, cuando se generan sinonimias, como en el producto de La Ley, o pueden ser agrupaciones siguiendo la estructura de los textos gráficos, título o subtítulos, como en Justina.

En síntesis, el acceso se realiza mayoritariamente por procedimiento de listas de opciones. Estas opciones se originan "bottom up", es decir que nacen de las ocurrencias reales en los textos o por medio de asignaciones "indizaciones" de segmentos de contenido cuando se trata de "voces".

 

Algo viejo, algo usado, algo nuevo

Los encomillados y los términos en inglés nos indican un vacío terminológico sustancial. No tenemos pautas, ni vocablos, ni metodologías para el tratamiento de masas textuales en soporte digital.

Los conceptos nos los aportan por un lado la informática, con sus contribuciones en lo concerniente a los sistemas de información y los avances en la interacción de máquinas y personas. Por otro, la documentación, que típicamente há trabajado sobre conjuntos de información referencial, pero que há realizado importantes desarrollos en el campo de los lenguajes controlados. La lingüística computacional, por su parte, también tiene mucho que ofrecer, proponiendo formas de acceso al lenguaje natural de los textos a través de gramáticas de reconocimiento e indizaciones automáticas de textos completos (cf. Talamoni, S. Indización Semántica Asistida de Texto Completo. Tesis de grado en curso, Universidad de Belgrano, 1994.). Y la terminología es la disciplina que puede dar coherencia y consistencia a los contenidos.

Nuestra conclusión es que nos encontramos en un excelente momento para proponer y realizar técnicas y metodologías de tratamiento de textos completos en soportes digitales.

Desde el punto de vista del mercado, existe demanda ya que se da la confluencia de productos para hacer aplicaciones, esto es, programas para desarrollos de bases de datos en CD-ROM, por ejemplo, y masas de información viva cuyos poseedores, editoriales, empresas, instituciones, verían con interés la posibilidad de digitalizar.

Lo que no existe es bibliografía acumulada y sistematizada, ni grupos interdisciplinarios de estudio sobre estos temas, por lo que estas iniciativas quedan en manos individuales, sin referentes para consultas o intercambios. Tampoco hay un aprovechamiento de las experiencias en otras lenguas, por lo que se impone un estudio de las realizaciones, algunas de gran valor como el CD-ROM con la obra y exégesis de Santo Tomás que mencionamos, y otros, abundantísimos, de consumo masivo que llegan en forma de enciclopedias o diccionarios electrónicos a nuestras casas.

Esta falta de foros o canales de evaluación e intercambio deja a los desarrollos en lengua española en soporte digital en situación de riesgo en cuanto a calidad, especialmente en el aspecto terminológico.

Estamos en una época de globalización de tecnologías en conjunción con iniciativas individuales.

Pero el desarrollo del conocimiento es y será siempre una tarea socializada. De lo contrario descubriríamos cien veces la pólvora o, en este caso, recorreríamos iguales caminos con diferentes nombres.

 

Editado con el apoyo de
Editado com o apoio da: