YATIRI: Herramienta para la Informática Legislativa
Ivan Guzmán de Rojas
IGRAL
Bolivia
Resumo
Los sistemas de manejo de una base de textos que se ofrecen en el mercado prescinden del procesamiento del lenguaje natural, lo cual da lugar a tediosas tareas de indexación de descriptores en el texto. A menudo se enfrenta la consulta con ambigüedades del lenguaje. Otra restricción radica en el manejo monolingüe de la base de textos. Aquí se describe el sistem YATIRI que ofrece un indexador automático; opera en un ambiente multílingüe y permite consultas a la base de textos en lenguaje natural. Para precisar la respuesta a una consulta, cuenta con un algoritmo "zoom". Ofrece un innovador tesauro con la estructura de digrafo unilateralmente conectado que permite tanto un acceso partiendo de las ramas como directamente a los nodos del árbol, para una base de datos de terminología especializada multilingüe.
1. Peculiaridades de la información legislativa:
La información legislativa, desde su origen, se encuentra en forma de textos. La extracción de la información contenida en estos textos requiere técnicas de procesamiento de datos muy diferentes a las que usualmente se aplica en el manejo de bases de datos relacionales.
Todos los aspectos que aqui se discuten desde la perspectiva de un sistema de informática legislativa, también son válidos para cualquier otro sistema de informática en que se requiere extraer la información contenida en textos; por ejemplo, en ministerios, cortes de justicia, bancos, o bufetes de abogados donde es necesario consultar a una vasta colección de documentos (contratos, informes técnicos, procesos judiciales) en ambiente multilingüe.
Existe una diferencia esencial entre una Base de Datos (BDAT) y una Base de Textos (BTEX) debido a su estructura. En una BDAT la estructura se encuentra definida por los campos utilizados para captar los datos y por las relaciones prescritas entre ellos. Mientras que en una BTEX no existe una estructura definida, los datos se encuentran inmersos en la estructura subyacente del lenguaje natural en que está escrito el texto.
2. Los métodos de consulta:
Una consulta a una BDAT, por ejemplo, para extraer información sobre deudores morosos, se efectua accesando directamente los campos de datos pertinentes (saldo de la cuenta, plazo de pagos, nombre del cliente). En cambio, para extraer información de una BTEX no se dispone de campos para llegar al dato buscado; los datos se encuentran esparcidos en la estructura sintáctica de cada una de las oraciones del texto, además, sujetos a relaciones semánticas.
La única manera de extraer información de una BTEX consiste en leer los textos entendiéndolos, crear sus índices de consulta y disponer de un método de acceso directo a las referencias del índice analítico. Es decir, se trata de la técnica clásica de manejo bibliográfico. El desafío a la informática consiste en automatizar este procedimiento a tal grado, que las tareas de consulta se faciliten para el legislador o el investigador, bajo costos de mantenimiento del sistema que sean razonables comparados con los del método bibliográfico usual.
Para alguien familiarizado con el uso de programas de procesamiento de palabras, podrá parecerle que una solución para extraer información de una BTEX es servirse de la función de búsqueda por cadena de letras; por ejemplo, buscar en un texto las ocurrencias de una cierta palabra o grupo de palabras. Si bien este procedimento, para fines de revisión, puede ser útil en la búsqueda de palabras o frases, en un documento corto resulta totalmente ineficaz para fines de consulta en una BTEX, por varias razones.
La principal objeción se debe los limites en la velocidad de acceso al texto almacenado en disco magnético, ya que esa técnica de búsqueda implica un rastreo, letra por letra, de todos los textos en la BTEX hasta encontrar la cadena de letras buscada, resultando en tiempos de espera nada aceptables para el investigador. Una segunda objeción se debe a que una cadena de letras puede representar palabras con diferentes significados (polisemias), de los cuales solo uno interesa en la consulta.
Por ejemplo, si un legislador quiere ver todas las leyes y decretos que tienen que ver con "vino" (la bebida), se encontraría con todas las ocurrencias de la forma verbal "vino" (de venir) en un tedioso y lento rastreo por los miles de documentos de la BTEX. Los métodos de rastreo no permiten formular consultas con requerimientos lógicos; por ejemplo: encontrar los documentos en que aparecen los términos "vino", "alcoholismo" y ("regimen impositivo" o "multas").
3. Ayudas para el indexador:
En la creación y mantenimiento de una BTEX, la tarea más importante, y también la más costosa en tiempo y recursos, es la indexación de todos los documentos consultables que conforman la BTEX. Es importante distinguir estos documentos de aquellos otros en la colección de documentos que pueden encontrarse almacenados en disco magnético sin ser consultables (mientras no disponen de un índice analítico).
Existen algunos paquetes de programas que ofrecen ayudas para facilitar el trabajo del indexador, partiendo del material previamente almacenado en disco magnético. La introducción del texto al ordenador electrónico puede efectuarse, ya sea utilizando un procesador de texto o por médio de un lector óptico que ahorra el dactilografiado del texto.
Estas ayudas consisten en la elaboración del llamado "archivo inverso", es decir, una lista de todas las palabras que aparecen en el documento, ordenadas alfabéticamente indicando la página en que se apresentan. Algunos programas más avanzados permiten prescribir criterios para la eliminación automática de la lista de ciertas palabras que obviamente no pueden servir en un índice, por ejemplo, en español "la", "el", "y", "para", etc.
Queda en manos del indexador depurar esa lista hasta reducirla a un verdadero índice analítico para la consulta del documento. Se estima que solo un 18% de las palabras en el archivo inverso sirven como elementos del índice. El trabajo de reducción de la lista toma tiempo por la inevitable verificación del contexto en que aparece cada palabra para decidir si debe o no incluirse en el índice. Muchas veces no es una palabra suelta, sino una agrupación de palabras la que interesa como entrada al índice. Por ejemplo, el archivo inverso podría listar la palabra "Santa" varias veces, pero es el indexador quien debe decidir cuándo la referencia es "Santa Cruz", o cuándo es "Santa Bárbara", o cuando corresponde simplemente "Santa".
Algunos sistemas de BTEX avanzados, ofrecen el apoyo de un tesauro, es decir, un diccionario de palabras y agrupaciones de palabras, que no solamente permite la consulta por orden alfabético sino también por clase semántica. Estos tesauros deben ser adaptados en cada caso a los requerimientos del usuario. Por ejemplo, para la informática legislativa en Bolivia, de nada sirve el tesauro utilizado en el Congreso de los Estados Unidos, no sólo por el idioma, sino también por las designaciones de territorialidad y organización administrativa totalmente diferentes. La creación y mantenimiento de un tesauro propio es de vital importancia para toda implantación de una BTEX.
4. Sistemas de Bases de Textos (BTEX):
Además de las ayudas para el indexador, todo sistema de BTEX debe contar con programas que permiten insertar marcadores o descriptores en los textos para ubicar las entradas del índice analítico en el texto en que se presentan. Solo así es posible establecer el sistema de consulta.
Para este fin, los sistemas de BTEX ofrecen editores especiales que facilitan la tarea de inserción de los descriptores, que al igual que la indexación consumen tiempo y recursos.
Finalmente, la componente más vistosa de un sistema de BTEX, sólo operable después de efectuadas las tareas de creación y mantenimiento de tesauro, descriptores e índices, es la que permite formular consultas lógicas. Por ejemplo, un legislador desea disponer como antecedente para su trabajo, todos los párrafos pertinentes a "educación de adultos en relación a la música folklórica que aparece en las diferentes legislaciones de los países signatarios del Acuerdo de Cartagena".
Si previamente la BTEX cuenta con los documentos de la legislación indicada, debidamente indexados y con el tesauro que contiene las designaciones territoriales de los países andinos, esa consulta puede ser resuelta en cuestión de cuando más tres minutos. Así el legislador obtendrá la lista de documentos pertinentes a su consulta, indicando cuáles tratan más frecuentemente el tema. Con estos resultados el legislador podrá leer directamente los párrafos relevantes, con la opción de hacerlos imprimir de modo total o parcial.
Lo descrito anteriormente es impresionante si se compara con las formas traditionales de consulta bibliográfica en las modestas facilidades que ofrece un congreso sin un sistema de informática legislativa que cuente con una BTEX instalada. Sin embargo puede resultar muy defraudador suponer factibles modos de operación que en realidad todavía son ciencia ficción, por más que se disponga de cuantiosos recursos de máquinas y dinero. Y lo más peligroso al considerar un proyecto de BTEX, es relegar a segundo plano la importancia del factor humano partiendo de expectativas erróneas sobre las exigencias que implican estos sistemas informáticos.
5. Limitaciones de los sistemas de BTEX disponibles:
El autor desea compartir con el lector interesado en la informática legislativa algunas experiencias que resultan tanto de la observación de sistemas de BTEX operando en los Estados Unidos, así como del propio trabajo de investigación y desarrollo en este campo.
A pesar del gran despliegue de poderosos equipos de computación y redes de comunicación, la utilización de los sistemas de BTEX se encuentra limitada por una falta de software con la capacidad de manejar adecuadamente el lenguaje natural. Esta deficiencia tiene las siguientes consecuencias prácticas:
a) El trabajo de indexación y marcado de textos es costoso y requiere de una planta de personal especializado.
b) La formulación de las consultas debe efectuarse en un lenguaje de consulta lógica, no siempre manejable por cualquier usuario, exigiendo de intermediarios especializados para conseguir la información que se desea extraer de una BTEX.
c) Las polisemias en el lenguaje natural ocasionan deficiencias en los resultados de la consulta obligando a la revisión de mucha información irrelevante.
d) La necesidad de manejar documentos en ambiente multilingüe, que cada vez es mayor, obliga a una previa traducción al idioma oficial adoptado en la BTEX, lo cual puede resultar sumamente costoso.
e) No existen tesauros en español adecuados para una BTEX en el campo legislativo. Los tesauros existentes son monolingües, generalmente en inglés.
f) La terminología legislativa en español requiere de una BDAT lexical especial, incluyendo los términos de la división territorial y de la organización administrativa propias de los países hispano hablantes, que no se ofrece en los tesauros electrónicos disponibles en el mercado de software de bases de textos.
g) El software que se ofrece para una BTEX legislativa está programado para máquinas de alto costo, obligando a una fuerte inversión inicial en equipos. También los costos del software y los trabajos de adaptación a las aplicaciones legislativas en español son fuertes. Las instalaciones de BTEX legislativas conocidas actualmente tienen costos del orden de los dos millones de dólares.
6. YATIRI es un sistema de BTEX inteligente:
El sistema YATIRI, desarrollado en La Paz por el grupo de investigación en ingeniería del lenguaje conducido por el autor, es un sistema de BTEX con la capacidad de manejo del lenguaje natural, de modo que los algoritmos de indexación operan "entendiendo" el texto.
Comparando con otros sistemas, las ventajas que ofrece YATIRI son:
1) Creación automática del índice analítico en código interlingüe, permitiendo consulta multilingüe.
2) La inserción de los descriptores y marcadores de texto se hace innecesaria en este sistema. Los índices ocupan poco espacio adicional en disco.
3) Interfaz con documentos de procesador de texto, permitiendo que después de la indexación los archivos de documentos de procesamiento de texto originales puedan permanecer fuera de línea.
4) BDAT lexical multilingüe con funciones de tesauro; incluye terminología legislativa, designaciones de la división territorial y administrativa de uso en Bolivia.
5) Formulación de la consulta en lenguaje natural, en el idioma del usuario, accesando todos los documentos de la BTEX, cualquiera que sea el idioma en que están escritos.
6) Traducción interactiva del texto y de su índice al idioma del usuario, en el momento de leer los resultados de la consulta.
7) Bajos costos de operación en mini computadora evitando el sobredimensionamiento de equipos al inicio del proyecto de implantación de una BTEX.
7. Modo de operación del sistema YATIRI
La operación de este sistema requiere que previamente se haya instalado el sistema ATAMIRI (traductor multilingüe), no solamente para atender las funciones de traducción (que son optativas), sino en especial para el manejo de la base de datos lexical (el tesauro) y para servirse de las subrutinas de interfaz con el procesador de textos.
La versión actual de YATIRI opera en una computadora Wang VS, con el sistema operativo OS Release 7.14 o mayor; está escrita en lenguaje PL/I (subset G). Ya está en prueba una versión en lenguaje C portable a cualquier máquina trabajando en ambiente UNIX.
YATIRI comienza su trabajo una vez que se dispone de una colección de documentos como archivos de procesamiento de textos. La introducción de los documentos puede haberse efectuado manualmente o por medio de un lector óptico.
Las subrutinas de interfaz con el procesador de textos soportan tanto el WP Standard de Wang como el WP Plus. Si los documentos se encuentran en un procesador de texto de PC, se requiere de una PC conectada a una VS para efectuar las conversiones.
7a. Análisis Lexical:
La primera tarea consiste en operar el analizador lexical del sistema para obtener las listas de "términos faltantes", es decir, aquellas palabras o grupos de palabras que aparecen en el texto analizado y que no se encuentran en la BDAT lexical. Inicialmente la BDAT lexical cuenta con unas 15.000 a 20.000 entradas en los idiomas implantados; gracias a esta base, que contiene las palabras y expresiones más frecuentes, las listas de términos faltantes no exceden el 6% del total de palabras en el texto; este porcentaje se reduce paulatinamente a medida que se enriquece la BDAT lexical.
Como resultado de estas listas, la segunda tarea consiste justamente en introducir a la BDAT lexical esos términos faltantes, que pueden ser palabras o agrupaciones de palabras. Este trabajo debe ser efectuado por personal idóneo, que recibe un adiestramiento especial para el manejo de la BDAT lexical. Cada entrada debe ser correctamente clasificada conforme las normas estructurales del tesauro; indudablemente se trata de la tarea clave para garantizar la calidad de los índices de la BTEX.
A diferencia de los tesauros conocidos construídos en forma de un simple árbol, la estructura del tesauro en este sistema es la de un digrafo semicíclico conectado unilateralmente, de modo que permite la clasificación de un mismo término como perteneciente a diversas clases, a ser definidas por el usuario. Posteriormente, así se puede consultar al tesauro partiendo del término para encontrar las clases a que pertenece o viceversa, partiendo de la designación de la clase para encontrar los términos que son miembros de ella, e.g. "Cochabamba" puede ser miembro de la clase territorial "departamento" y también de la clase urbana "ciudad".
Como es de esperar, cada nueva entrada a la BDAT lexical efectuada para reducir la lista de términos faltantes de un determinado texto, sirve también para resolver cualquier nueva ocurrencia del término en otros textos. De esta manera el proceso de enriquecimiento de la BDAT lexical es acumulativo; las listas producidas por el analizador lexical serán cada vez más reducidas en la clase de léxico utilizado en los documentos que conforman la BTEX.
Si bien es posible utilizar la BDAT lexical del sistema YATIRI de modo monolingüe, es muy conveniente aprovechar de su potencial multilingüe. Para ello es recomendable que en el almacenamiento de términos trabaje también un traductor profesional en un segundo y tercer idioma a ser utilizado tanto en la colección de documentos como en las consultas. El sistema no tiene limite en cuanto al número de idiomas, salvo la capacidad en disco instalada.
7b. Indexación Automática:
Una vez completado el trabajo de almacenar términos para un determinado documento, se procede a correr la subrutina de interfaz con el procesador de textos para crear el archivo de ese texto en la BTEX; con esto queda liberado el archivo del documento de procesamiento de textos y puede ser puesto fuera de línea.
Ahora se ejecuta el programa indexador que produce el borrador del índice analítico para ese texto. Utilizando las facilidades que ofrece el sistema para revisar y pulir el borrador de índice, desplegando los trozos de texto pertinentes a las entradas del índice generado, se procede al "post-editing" del índice que da como resultado el índice analítico definitivo. Obviamente, esta tarea se efectua en el idioma del texto; si se trabaja con una colección de documentos multilingües, aquí también es necesario el concurso del traductor profesional.
YATIRI al generar el índice analítico de un documento lo hace relacionando cada palabra clave del índice con aquellas partes del texto en que es referida, de modo que ya no es necesario insertar marcadores o descriptores en medio del texto. Esta es también otra ventaja importante frente a los sistemas convencionales de BTEX.
Después se ejecuta la subrutina que transfiere el índice revisado del documento al índice general de la BTEX; al hacerlo se convierten automáticamente las entradas del índice al código interlingua de ATAMIRI, borrando en índice en el idioma del texto. Esto trae consigo dos ventajas: en primer lugar, así el índice es mucho más compacto ahorrando espacio en disco; en segundo lugar, las consultas pueden efectuarse en cualquiera de los idiomas implantados en la BDAT lexical, independientemente del idioma en que está escrito el texto. Definitivamente estas son ventajas significativas ofrecidas unicamente por el sistema YATIRI, gracias a su capacidad de manejo del lenguaje natural en conjunción con el sistema traductor ATAMIRI.
El lector familiarizado con los métodos de indexación convencionales, puede apreciar el enorme ahorro de tiempo y recursos que significa trabajar con YATIRI. Esto es decisivo en la implantación de una BTEX legislativa, donde el volumen de documentos a ser indexados, antes de poder ofrecer los servidos de consulta, es realmente grande.
7c. Consulta Interactiva:
Una vez concluídas las tareas de indexación de por lo menos una colección mínima de documentos que amerite iniciar con el servido de consulta, el sistema YATIRI puede operar con todos sus módulos, de modo simultáneo. Las consultas se efectúan interactivamente desde la terminal del usuario, pudiendo ser formuladas en el idioma del usuario, de una manera fácil, con muy pocas restricciones al lenguaje natural. La consulta puede contener enunciados de cualquier nivel razonable de complejidad lógica. Así se elimina la necesidad de los intermediarios entre el usuario y el sistema de BTEX durante el proceso de consulta.
YATIRI resuelve las consultas de un modo "zoom"; es decir, primeramente enfoca todo el índice general de la BTEX; una vez detectados los documentos (en varios idiomas) que cumplen con la prescripción lógica de la consulta, si el usuario así lo requiere, YATIRI le ofrece una estadística de las veces que se cumple el enunciado de la consulta a nivel de página, párrafo y oración dentro cada uno de los documentos detectados como pertinentes.
Finalmente el usuario selecciona el documento pertinente que desea consultar, a lo que YATIRI responde generando para este documento su índice analítico transitorio (que sólo ocupa espacio durante la consulta), bilingüe, en el idioma del texto y en el de la consulta (si es diferente). Ahora se despliegan en pantalla los trozos del contexto en que se cumple el enunciado de la consulta, con las palabras claves iluminadas. Además el usuario siempre tiene la opción de revisar cualquier parte del texto, en cualquier secuencia, inclusive utilizando las entradas del índice, ya sea en orden alfabético del idioma de consulta o por grupo de relación semántica para el término escogido.
Si el usuario lo solicita, YATIRI acude al traductor ATAMIRI para traducir interactivamente, los trozos de texto que se deseen leer en el idioma de consulta, cuando el idioma del texto es diferente.
Esta forma innovadora de operar, el indexador y extractor de información YATIRI, apoyado por el traductor multilingüe ATAMIRI, ofrece un servido de consulta único comparado con cualquier otro sistema de BTEX.
La información que requiere consultar un legislador, no es solamente la legislación del país (escrita en el idioma oficial), sino también todo documento proveniente de expertos internacionales, contratos o legislaciones de otros países (para fines de comparación). Esto implica la necesidad de coleccionar documentos en diversos idiomas. Su traducción puede ser morosa y costosísima.
En cambio con el sistema de BTEX manejado por YATIRI, las traducciones no requieren estar previamente almacenadas, se efectúan interactivamente sólo en la medida en que son necesarias; en muchos casos la traducción en borrador generada por ATAMIRI es suficiente para absolver una consulta, la obtención de una traducción en fina se la solicita optativamente únicamente si es requerida.
En muchas oficinas de la administración pública donde se utilizan paquetes de procesamiento de textos, se encuentran almacenados en medio magnético grandes volúmenes de documentación que prácticamente ya no sirve para extraer información que responda a una determinada consulta, justamente por la falta de los respectivos índices analíticos y por no contar con un sistema de consulta. YATIRI convierte esa colección de documentos, de modo automático, en una BTEX consultable; es decir, salva esa información costosamente almacenada, tornándola accesible de modo inmediato y a un costo mucho más bajo que el exigido por otros sistemas de BTEX parecidos, pero que no ofrecen todas las facilidades operacionales propias de YATIRI.