|
Terminología y masas textuales digitalizadas
en comunicación social
Mela Bosch
Miguel Mendoza Padilla
Luis Sorgentini
Héctor Thompson
Facultad de Periodismo y Comunicación Social
Universidad Nacional de La Plata
Argentina
Resumen
Se describe el proyecto SIBILA Semantizador de textos digitales, el cual se ocupa de investigar y desarrollar algoritmos de recuperación semántica de información textual en Comunicación Social. En el marco de este proyecto se describen las necesidades e importancia del trabajo terminológico en la elicitación de conocimientos sobre las técnicas y prácticas del proceso de semantización en comunicación social, necesarias para la especificación de requerimientos y diseño del sistema para la recuperación de contenido semántico de textos de este área; consecuentemente se detalla la metodología y desarrollo del Léxico para apoyo y modelización del sistema.
Palabras clave: Acceso al Conocimiento / Comunicacion Social / Ingenieria de Conocimiento / Ingenieria Lingüística / Ingenieria de Software / Programacion Orientada a Objetos / Recuperación de Información / Textos Digitales / Terminologia
1. El dominio del sistema
El Proyecto SIBILA, Semantizador de textos digitales trata facilitar el acceso —desde el punto de vista de su contenido— a textos digitales extensos. El concepto de textos digitales extensos aparece en los últimos años con la expansión de las capacidades de soporte en discos magnéticos y ópticos, y con la red mundial telemática, Internet.
La necesidad de acceder a masas de documentos digitales tiene por tanto características totalmente nuevas. La forma intensiva de registro estuvo hasta ahora basada en la ficha referencial, de tipo bibliográfico, que describe el título del texto y los datos de autoría y complementariamente se agregan palabras claves que intentan dar cuenta del contenido temático. De esta manera no se ingresa en el interior del texto, salvo por el uso de buscadores que realizan detección física de apariciones de términos en el cuerpo del mismo.
Pero ahora tenemos en medio digital no sólo la referencia del texto, sino el texto mismo. El paso de la forma de registro de referencia a la exploración del contenido sustantivo de los textos digitales en forma masiva obliga a ingresar en un campo interdisciplinario donde se reciben aportes de la lógica, la lingüística, el análisis del sistemas y la informática.
Es en este ámbito de recuperación temática de contenidos textuales que se sitúa el presente proyecto.
2. Introducción sintética al proyecto
En el sentido que indicamos arriba, el Proyecto SIBILA, Semantizador de textos digitales desarrolla un sistema en el área de la Comunicación Social para brindar asistencia para la organización conceptual de textos digitales provenientes de archivos individuales, de fuentes y agencias periodísticas o de documentos editados en sitios de Internet.
Lo lleva adelante un equipo interdisciplinario en la Facultad de Periodismo y Comunciación Social de la Universidad Nacional de La Plata, Argentina. El mismo está dirigido por Gustavo Rossi del LIFIA (Laboratorio de Investigación y Formación en Informática Avanzada de la Facultad de Ciencias Exactas de la misma universidad; lo integran Mela Bosch, con experiencia en desarrollos de lingüística informática, Héctor Thompson titular de la Cátedra de Tecnología en Comunicación Social; Luis Sorgentini, integrante de la misma cátedra con experiencia en desarrollo de interfaces, Miguel Mendoza Padilla, periodista y además colaboradores que son comunicadores sociales y programadores.
El desarrollo partió de la elicitación de conocimientos, técnicas y prácticas del proceso de semantización que realizan profesionales del área de Comunicación Social. Para lo cual se utiliza como plataforma de pruebas y experiencias un producto anterior desarrollado en el marco del mismo proyecto y por el mismo equipo de investigación e implementado en entorno Delphi. (veáse infra 3. El proyecto SIBILALFA)
En base a lo anterior se investigan y desarrollan algoritmos de recuperación semántica de información, con aplicación de lógicas booleanas y difusas.
El diseño se basa en el paradigma de orientación a objetos y la implementación en curso utiliza el lenguaje Smalltalk
3. El proyecto SIBILALFA
El Sistema para la obtención de información básica y acotada en bases textuales extensas (Sistema SIBILALFA), fue desarrollado entre 1995 y 96. En este período se desarrolló un sistema piloto el cual realiza operaciones del filtrado de texto y su ordenamiento en listas etiquetadas.
Para poder aparear las apariciones textuales con el filtro se contruyeron varios diccionarios. Lo cuales consisten en listas de palabras ordenadas con un criterio dado.
Para la determianción de estos criterios se realizó una simulación sobre un caso que se consideró como Corpus informativo: cables periodísticos sobre la Ley de Educación Superior en Argentina, en un total de 23 megabytes de texto.
Se presentó este Corpus en un lista única y que se reordenó según las siguientes etiquetas:
Sujetos: personas que pueden protagonizar hechos de comunicación social, se trata mayoritariamente de sustantivos: estudiantes, decano, policía,
Acciones: actividades tales como: realizar, comenzar, finalizar, implicar. Se trata mayoritariamente de verbos. Se cortan las desinencias ya que no se realiza indicación de flexión verbal.
Identificadores: nombres propios de personas, instituciones o lugares. Este diccionario se recolectó por medio del desarrollo de un algoritmo de reconocimiento que identifica los términos iniciados por mayúscula y que no están precedidos de punto. Además el algoritmo realiza la detección de sintagmas, esto es de conjuntos de términos que configuran nombres de personas lugares o instituciones: Ej. Banco de la Provincia. Ministerio de Educación. Universidad Nacional de La Plata.
Palabras Vacías: son palabras consideradas sin valor para la búsqueda: preposiciones, adverbios, artículos, etc.
Enunciativos: se trata de un algoritmo de detección de discurso indirecto por medio de ubicación de comillas de apertura y cierra de cita “ ” asociado a una lista de acciones propias: dijo, comunicó, afirmó , informó, aseveró, etc.
4. Esquema conceptual
Luego de la implementación del primer prototipo se hizo evidente en SIBILA la existencia de dos vertientes de desarrollo: ingeniería de conocimiento e ingeniería de software. Ambas son complementarias y se retroalimentan
El resultado del trabajo en ambas vertientes es un desarrollo de Ingeniería Lingüística, entendida como la aplicación de los conocimientos sobre la lengua para desarrollo de sistemas informáticos que puedan reconocer, comprender, interpretar y generar lenguaje humano, en este sentido, se trata de un sistema de asistencia para la comprensión de masas de texto del dominio de la Comunicación Social.
Para el equipo de investigación la asistencia informática tiene diferentes modalidades:
a. Utilización exclusiva de informática: lo cual supone la prescindencia de la ingerencia humana, esta línea, presente en los primeros desarrollos de la inteligencia artificial sigue teniendo grandes posibilidades, pero a nuestro juicio se está alejando cada vez interesesa de las personas que interactúan con las máquinas y desean participar en los procesos.
b. Utilización de la informática por las personas como herramienta: la informatica aparece aquí como una forma más poderosa de la máquina de escribir, el fichero, o la planilla de cálculo. En este punto la persona es un “usuario”.
c. Utilización de la informática por las personas como instrumento: en este caso no es una herramienta para realizar algo, sino una forma de expresión propia y capaz de modelizar con sus rasgos particulares lo que se realice. Aqui la persona es un “interactuante”.
Nuestra postura es esta última porque este proyecto tiene como base la propuesta de democratización de la información por medio de la transparencia de estructuras conceptuales subyacentes en los textos.
Consideramos que los textos disponibles en Internet y medios digitalizados producen una dispersión o un aturdimiento, que obstaculiza el acceso al conocimiento. Todo está disponible aparentemente para todos, pero el caudal supera a la posibilidad de comprensión. Además, a la masividad y heterogeneidad se suma la opacidad de las interfaces semánticas debida a la alta especificidad del lenguaje utilizado en las diferentes áreas temáticas.
El proyecto SIBILA se basa en la características semánticas de los textos digitales pero se centra en las capacidades y procesos de comprensión que realizan las personas que los leen.
En este marco consideramos que la globalización con su amplia disponibilidad informativa, cuantitativamente hablando, genera una exclusión cualitativa aún entre los hablantes de una misma lengua que no pueden comprender los contenidos de la misma debido a la opacidad de las interfaces semánticas generado por la masividad textual y la especificidad terminológica.
5. Ingeniería de conocimiento del Sistema SIBILA
La definición de Ingeniería de Conocimiento nos dice que su finalidad es “incorporar conocimientos integrados a los sistemas informáticos con vistas a la resolución de problemas complejos” (Cfr. Rincón, A.; Plágaro, J. 1998). su primer paso es la elicitación.
5.a. Elicitación El proceso de elicitación es el que permite ingresar al software de manera sistemática el conocimiento del dominio por un lado y por otro los requerimientos del usuario. Con esas dos componentes que interactúan se obtiene un determinado conocimiento que es la salida del proceso de elicitación. Estos incorporan en el proceso de especificación. Para todo esto se trabaja con modelos y con herramientas formales. (Cfr. Riekert, W. 1991)
La complejidad del proyecto SIBILA reside en que reune cuestiones de tratamiento textual con formas de adquisición de conocimiento en Comunicación Social. Esta característica de la temática exigió una especial atención a los procesos cognitivos involucrados.
En tal sentido el equipo trabajó en la elicitación de conocimientos, entendida como actividad que estudia la generación de conocimiento no en su aspecto teórico, lo cual pertenece a la Teoría del Conocimiento, sino en su aspecto pragmático, en este caso, para la utilización en la construcción de un sistema informático. Opera detectando patrones de prácticas generalizados a partir de las experiencias individuales de un conjunto de personas.
5.b. Formulación de teorías La teoría de contrucción de conocimientos con asistencia del Sistema SIBILA elaborada es la siguente:
El sistema toma un Corpus informativo constituido por un conjunto de textos seleccionados y realiza con él un proceso llamado semantización que consiste en un ordenamiento de los elementos de ese texto según factores de ordenamiento de dos órdenes: sentido del Corpus Informativo y significación Corpus Informativo.
El sentido del Corpus Informativo es la manipulación de los aspectos tangibles del texto. Consiste en un ordenamiento en cuanto a la relación entre los elementos visibles del texto: términos, conjuntos de términos; con los cuales se realizan operaciones de etiquetamiento, cálculos de distancias absolutas y relativas, suma lógica y producto lógico, cálculos de cantidad y frecuencia de apariciones.
Dotar de de sentido para nosotros es establecer una relación entre elementos explícitos. De manera que queda restringido el concepto a la capacidad de establecer diferencias. Por ello consideramos sentido a la habilidad de establecer un orden ya que lógicamente ordenar significa establecer una relación entre elementos. (Cfr. De Lio de Brizzo, R. 1968)
En cuanto al aspecto lingüístico se parte de la consideración de términos como cadenas de caracteres con valores funcionales de presencia y ausencia. Se considera que la definición de una gramática que como tal establece una categorización de los signos-tipo, esta categorización se representa como un etiquetado de términos que responde a una estructura considerada común a todos los textos, y que el usuario puede expandir y adaptar. (Cf. Winograd, R. Language as a cognitive process. 1983.)
La significación Corpus Informativo consiste en un ordenamiento de los elementos visibles y operaciones del texto y además parámetros de significación seleccionados por el interactuante tales como pertenencia, evento, etc. La significación está relacionada con los aspectos de la estructura del lenguaje y la interpretación que de ella se realiza.
En este caso intervienen los códigos culturales exógenos de manera que la significación está reservada a la acción de la persona que asigna los valores.
5.c. Formulación de modelos de interacción entre individuos y redes telemáticas En el sistema SIBILA el punto de partida de la elicitación es conocer más sobre el acceso de individuos —y en particular los comunicadores sociales— al conocimiento con la utilización de redes telemáticas. A partir de la observación en el uso se desarrollaron tres modelos de interacción entre individuos y redes telemáticas:
Ind1 --> Red
Ind2 -->Red
......................
Indn -->Red
Donde cada individuo puede ser una instancia diferente de sujetos
Ind1(Periodista) -->Red
Ind1(Deportista) -->Red
Este es un modelo de 1 : n
En este caso el sujeto opera con un bagaje personal e incorpora un conocimiento del nuevo oficio. Se trata por ejemplo, de un especialista de que adquiere otra especialización. Supone la incorporación de miradas parciales.
Otro modelo es :
(Ind1, ind2....indn) -->Red
En este caso se da una forma corporativa de generación de conocimientos donde un grupo de sujetos realiza su construcción utilizando una forma reticular de acceso y representación de conocimiento.
Este es un modelo de n: n
Puede ser un equipo de investigación, con múltiples miradas disciplinarias. O un equipo de comunicación social o una persona : el Comunicador Social que contiene en sí un bagaje colectivo y a la vez individualizado. Se trata de una mirada contenedora.
La contrapartida de esta concurrencia de roles en una persona o equipo en el modelo n : n que consideramos es el del Comunicador Social, tiene la ventaja de una amplitud de mirada y la desventaja de un uso semántico laxo.
Además el modelo 1 : n y el modelo n : n fluctúa en el uso. Muchas veces un individuo abstrae sus intereses particulares y logra una distancia y equidad propias de un modelo n : n y vicerversa cuando un Comunicador Social opera con parcialidad.
El sistema SIBILA asiste haciendo transparente la variedad de usos y el proceso de asignación de sentido que está operando. Posteriormente se estudió qué caso de uso corresponde a cada modelo y como se producen las fluctuaciones.
Para poder aislar un elemento perceptible del proceso de conocimiento tomamos como indicador, la unidad término entendido con la unidad semántica contituida por una palabra o conjunto de ellas.
5.d. Extensión de las teorías y modelos La modelización que realizamos tiene variantes de vinculación que analizaremos por medio de experiencias con grupos de personas intereactuando con masas de texto en lengua española
En este sentido con la cátedra de Tecnología en Comunicación Social se están realizando nuevas pruebas. Se estudiarán las variantes de vinculación en la interacción, se realizará un diseño de experiencias y la detección relaciones:
1 : n
n : n
y que implica cada una.
Se experimentarán operaciones (entre términos) :
analogía
agrupamiento
exclusión
generalización
especificación
junción
unión
y otras operaciones o patrones combinatorios.
6. Necesidad de control terminológico
Los avances del proyecto hicieron que se impusiera un control terminológico. Se optó por el desarrollo de un léxico entendido genéricamente como una serie ordenada de palabras (Cfr. Moliner, Maria,1996).
El establecimiento del léxico de un sistema informático, suele ser un punto de llegada cuando el sistema está listo para ser usado, pero cuando es considerado como punto de partida en el momento de formular y establecer los requerimientos de un sistema permite establecer una base teminológica común entre diseñadores, programadores y usuarios finales para comprender necesidades, detectar errores y omisiones.
Asimismo es necesario para garantizar el seguimiento de los requerimientos de software conociendo sus orígenes, permitiendo generar casos de prueba y mantener actualizados los propios requerimientos.
El presente Léxico es un punto de llegada en muchos aspectos teóricos y metodológicos del Proyecto de Investigación que lo sustenta. Pero desde el punto de vista del desarrollo del sistema este Léxico se ubica el proceso de producción de requerimientos, el que a su vez sirve de base para la modelización, diseño, uso e implementación. (Cfr. Bosch, M. 1998)
El proceso de producción de los requerimientos involucra por su parte, a la elicitación, la modelización y el análisis de los requerimientos. (Cfr. Davis, Alan, 1993).
Dentro del primer proceso, la elicitación, y justamente tendiente a la comunicación y en especial para comprender la complejidad del dominio del problema la metodología de desarrollo de un Léxico Extendido del Lenguaje del Sistema es de gran utilidad. (Cfr. Hadad, G.; Kaplan, G.; Oliveros, A. 1996.)
6.a. Léxico Extendido del Lenguaje del Sistema En base a todo esto representamos el dominio del problema y actual estado del Proyecto por medio de un Léxico, que como indicamos es una serie ordenada de palabras las cuales, de acuerdo con el marco que se detalló precedentemente, se presentan como la colección de símbolos acotados con su noción e impacto en el sistema. En este sentido es extendido ya que trata de cubrir el rango de sentido vinculado a la aplicación informática y no intensivo en cuanto al valor en profundidad de cada concepto.
En síntesis, este Léxico tiene como objetivo dar un marco a todo el ciclo de vida del sistema: requerimientos, modelización, diseño, testeo, uso; dará asimismo apoyo a todo lo relativo al seguimiento del sistema: Manuales de Usuario, Documentación y será fundamental en el momento de la reingeniería.
6.b. Elementos de datos de las entradas del Léxico Se entiende como elemento de dato a la mínima unidad identificable de contenido de un registro.
Indicaremos a continuación los elementos de datos considerados en el Léxico de acuerdo con la metodología de la bibliografía citada y la Norma ISO 12.620. Computational aids in Terminology, Data Element Dictionary:
Lista de elementos de datos:
Elemento de dato: TERMINO DE ENTRADA
Definición del elemento de dato: Entrada de un término al Léxico
Forma de notación: Mayúscula minúscula
Elemento de dato: NOCION
Definición del elemento de dato: Definición del término en el contexto del Universo del Discurso
Forma de notación: Explicación en lenguaje natural.
Elemento de dato: IMPACTO
Definición del elemento de dato: Refiere a la repercusión en el sistema, por lo general expresa qué hace aquello que está señalado por la NOCION
Forma de notación: Explicación en lenguaje natural, predominantemente se utilizan verbos.
Elemento de dato: CUASISINONIMO:
Definición del elemento de dato: Término que representa el mismo concepto con otro término del mismo lenguaje pero cuya intercambiabilidad está limitada a algunos contextos y es inaplicable en otros.
Fuente: item 7.1.2.1.1.1 Norma ISO 12.620. Computational aids in Terminology, Data Element Dictionary (ISO/TC 37/SC 3 N 136 en - 1993). (Traducción propia)
Forma de Notación: Se lo escribe en itálica
Elemento de dato: SINONIMO
Definición del elemento de dato: Término que representa el mismo concepto que el de la TERMINO DE ENTRADA.
Fuente: item 7.1.2.1.1 Norma ISO 12.620. Computational aids in Terminology, Data Element Dictionary (ISO/TC 37/SC 3 N 136 en - 1993). (Traducción propia)
Forma de Notación: Se lo escribe en itálica
Elemento de dato: FORMA ACORTADA
Definición del elemento de dato:Abreviación de un término largo o complejo usando menos palabras pero que no implica abreviación, inicialización
Fuente: item 7.1.2.1.1.6.2 Norma ISO 12.620. Computational aids in Terminology, Data Element Dictionary (ISO/TC 37/SC 3 N 136 en - 1993). (Traducción propia)
Forma de Notación: Se lo escribe en itálica
6.c. Lista de Entradas
TERMINO DE ENTRADA: Archivo
CUASISINONIMO: ver Texto
TERMINO DE ENTRADA: Corpus Informativo
NOCION: Conjunto de Texto considerado como una unidad para la Semantización
IMPACTO:
* Es seleccionado por el Intereactuante
* Es procesado por el Filtro
TERMINO DE ENTRADA: Documento
CUASISINONIMO ver Texto
TERMINO DE ENTRADA: Diccionario
NOCION: Conjunto de Términos o Sintagmas reunidos con un criterio determinado.
IMPACTO:
* Es utilizado por el Filtro
* Tiene una Etiqueta de identificación
TERMINO DE ENTRADA: Filtro
NOCION: Proceso por el cual los Términos o Sintagmas que se forman parte de un Corpus Informativo son comparados con los de un Diccionario y en caso de detectarse igualdades, las mismas, son presentadas en una Lista Ordenada de Términos (LOT) con la Etiqueta correspondiente al Diccionario y el número de apariciones registradas
IMPACTO:
* Es seleccionado por el Intereactuante
TERMINO DE ENTRADA: Etiqueta
NOCION: Nombre genérico bajo el cual se acumulan Términos o Sintagmas para agruparlos según un criterio determinado en un Diccionario
IMPACTO:
* Identifica cada Diccionario
* Identifica un conjunto de Términos o Sintagmas
TERMINO DE ENTRADA: Interactuante
NOCION: Persona o personas que utilizan el Sistema SIBILA
IMPACTO:
* Selecciona el Corpus Informativo
* Propone o selecciona Etiquetas para la Semantización
CUASISINONIMO: Usuario
TERMINO DE ENTRADA: Lista Ordenada de Términos (LOT)
NOCION: Conjunto de Términos resultante del proceso de Semantización
IMPACTO:
* Es impresa como reporte
* Puede se utilizada como Diccionario
TERMINO DE ENTRADA: Recolector de Léxico con búsqueda exacta
NOCION: El Recolector de Léxico es la parte básica del Sistema SIBILA. Realiza la transformación del texto digitalizado en listas de términos organizados bajo etiquetas que son asignadas ya sea por el sistema ya sea por el usuario.Tiene una primera implementación realizada en Delphi, llamado SibilaDelphi que permitió establecer la bases teóricas y realizar la prácticas necesarias para el avance de la investigación..
IMPACTO:
* Es utilizado por el Interactuante
CLASIFICACION DE LA ENTRADA
FORMA ACORTADA: SIBILALFA
TERMINO DE ENTRADA: Semantización
NOCION: ordenamiento de los Términos del Texto según factores de dos órdenes Sentido del Texto y Significación del Texto
IMPACTO:
* Es realizado por el Sistema SIBILA
* es solicitado por el Interactuante
TERMINO DE ENTRADA: Sentido del Texto
NOCION: Ordenamiento de los Términos del texto de acuerdo con Etiquetas propuestas por el Sistema SIBILA
IMPACTO:
* Es realizado por el Sistema SIBILA
* Es solicitado por el Interactuante
TERMINO DE ENTRADA: Significación del Texto
NOCION: Ordenamiento de los Términos del texto de acuerdo con Etiquetas propuestas por el Intereactuante
IMPACTO:
* Es realizado por el Sistema SIBILA
* Es solicitado por el Interactuante
TERMINO DE ENTRADA: Texto
NOCION: Cada uno de las unidades que componen el Corpus Informativo
IMPACTO:
* Es seleccionado por el Interactuante
* Es acumulado en un Corpus informativo
CLASIFICACION DE LA ENTRADA: Objeto
CUASISINONIMO: Documento
Archivo
TERMINO DE ENTRADA: SibilAlfa
NOCION: FORMA ACORTADA ver Recolector de Léxico con búsqueda exacta
TERMINO DE ENTRADA: Término
NOCION: Cada una de las cadenas de caracteres consideradas con valor para la operación del Sistema Sibila
IMPACTO:
* Se acumulan en el Diccionario bajo la Etiqueta correspondiente
* Son identificados por el Filtro
* Son acumulados y contabilizados numéricamente
TERMINO DE ENTRADA: Sintagma
NOCION: Grupos de dos o más Términos considerados con valor para el Sistema SIBILA
* Se acumulan en el Diccionario bajo la Etiqueta correspondiente
* Son identificados por el Filtro
* Son acumulados y contabilizados numéricamente
TERMINO DE ENTRADA: Usuario
NOCION: CUASISINONIMO ver Interactuante
Bibliografía
Bosch, M. (1998). “Las necesidades terminológicas en la elicitación y representación de conocimiento en Sistemas Informáticos”. Simposio Iberoamericano de Terminología, 6.
Davis, Alan (1993). Software requeriments. Objects, functions, and states. NJ: Prentice Hall
De Lio de Brizzo, R. & R. Podestá (1968). Prolegómenos a la Lógica Simbólica. Buenos Aires: Macchi, pp. 296 y ss.
Hadad, G., G. Kaplan & A. Oliveros (1996). Integración de Escenarios con el Léxico Extendido del Lenguaje en la elicitación de requerimientos: Aplicación a un caso real. Departamento de Investigación. Universidad de Belgrano, Mayo.
Jacobson, Ivar (1992). Object-Oriented Software Engineering. A use case driven approach. New York: Adisson Wesley.
Moliner, Maria (1996). Diccionario de uso del Español. Madrid: Gredos. Soporte CD—ROM, Primera Edición.
Norma ISO 12.620. Computational aids in Terminology, Data Element Dictionary (ISO/TC 37/SC 3 N 136 en 1993.
Riekert, W. (1991). “Knowledge acquisition as an object-oriented modeling process”. In M. J. Tauber and D. Ackermann (Eds.). Mental models and human computer interactions. Amsterdam: Elsevier Sciences Publishers, pp. 373-381.
Rincón, A. & J. Plágaro (1998). Diccionario de Informática y Comunicación. Madrid: Paraninfo, p. 187.
Winograd, R. (1983). Language as a cognitive process. Massachusetts: Addison-Wesley.
|