|
Modelado conceptual para una terminología
basada en el conocimiento
Chantal Pérez Hernández
Antonio Moreno Ortiz
Universidad de Málaga
España
1. Introducción
Tradicionalmente se considera que el trabajo terminológico parte de los conceptos o, mejor dicho, de una estructura conceptual que representa el conocimiento que una comunidad científica posee sobre su área de especialidad. Esta premisa determina el modus operandi del terminólogo, quien, en su análisis, estudia los conceptos relevantes en un dominio determinado, así como las relaciones que entre ellos se establecen para, finalmente, determinar las unidades terminológicas que se usan para designar dichos conceptos.
Sin embargo, esa valiosa información conceptual sobre el área de especialidad asimilada por el terminólogo, que supone normalmente una gran inversión en tiempo, recursos humanos y dinero, no puede ser almacenada en las herramientas informáticas de gestión terminológica existentes. Es decir, esa información se queda en el conocimiento del terminólogo o se pierde en las notas previas a la compilación de la terminología. Esto hace imposible que diferentes tipos de usuarios potenciales tengan acceso a ella (traductores, redactores técnicos, profesionales y estudiantes del área de especialidad, etc.) y, por supuesto, dificulta la reutilización de los productos terminológicos para otras tareas de procesamiento de lenguaje natural.
La herramienta que utilizamos en el proyecto OncoTerm [1] presenta como principal característica la posibilidad de representar formalmente este conocimiento, haciendo uso de esquemas de representación típicos de la Inteligencia Artificial y presentando, al mismo tiempo, una gran facilidad de uso para el terminólogo. Esta herramienta, denominada OntoTermÔ, no sólo permite, sino que impone la creación de una ontología de conceptos, como recurso independiente de la lengua, en la que los conceptos se organizan jerárquicamente y se definen, además, mediante sus atributos y relaciones con los demás conceptos.
En este trabajo mostramos las posibilidades que el uso de una ontología de conceptos como sistema de representación de la información conceptual ofrece a los terminólogos para crear terminologías realmente basadas en un nivel conceptual, así como las dificultades que esto entraña para un trabajo terminológico sistemático.
2. Terminología basada en Ontologías
En la actualidad, coexisten dos usos diferenciados del término ontología, que corresponden a dos ramas del saber diferentes y, por tanto, le atribuyen características y propiedades distintas. El término ontología se origina en el campo de la filosofía y la epistemología. Como ciencia, la Ontología es una rama de la metafísica que se ocupa del estudio de la naturaleza de la existencia, de los seres y de sus propiedades transcendentales; en filosofía, por tanto, una ontología se considera como una explicación sistemática de la Existencia. Derivado de su significado original, aunque con un entendimiento mucho más pragmático y aplicado, el término ontología se usa en el ámbito de la ingeniería del conocimiento para referirse a un conjunto de conceptos organizados jerárquicamente, representados en algún sistema informático cuya utilidad es la de servir de soporte a diversas aplicaciones que requieren conocimiento específico sobre la materia que la ontología representa. En éste segundo significado de ontología, entendida como un cuerpo estructurado de conocimiento, es en el que centramos nuestra propuesta de terminología basada en ontologías.
El sinónimo más usual de ontología es conceptualización. Según la definición de Gruber (1993: 199), una ontología constituye “a formal, explicit specification of a shared conceptualization”. En esta definición, convertida ya en estándar, conceptualización se refiere a un modelo abstracto de algún fenómeno del mundo del que se identifican los conceptos que son relevantes; explícito hace referencia a la necesidad de especificar de forma consciente los distintos conceptos que conforman una ontología; formal indica que la especificación debe representarse por medio de un lenguaje de representación formalizado y compartida refleja que una ontología debe, en el mejor de los casos, dar cuenta de conocimiento aceptado y compartido (como mínimo, por el grupo de personas que deben usarla).
Una definición de ontología más concreta la ofrece Weigand (1997):
An ontology is a database describing the concepts in the world or some domain, some of their properties and how the concepts relate to each other.
Por tanto, dentro del marco del proyecto OntoTerm, nos propusimos crear una ontología para representar la estructura conceptual del subdominio médico del cáncer, de forma que los conceptos integrados en dicha ontología, junto con sus propiedades y relaciones, estuvieran enlazados con las entradas de la base de datos terminológica.
La primera decisión a tomar atañía al tipo de ontología que queríamos crear. Según nuestros planteamientos, para que esta ontología fuera de utilidad en la terminografía, debía permitirnos representar de modo explícito y formalizado, no sólo las características definitorias de los conceptos incluidos, sino también priorizar algunas de estas características para dar cuenta de las diferentes perspectivas desde las que puede verse un mismo concepto y, por tanto, debía permitirnos insertarlos en lugares diferentes de la ontología [2]. Además, dada la transdisciplinaridad del ámbito de investigación en el que nos movemos, el cáncer y su tratamiento, la ontología debía reflejar una estructuración conceptual muy rica, en la que estuvieran incluidos conceptos bastante genéricos y de ramas del saber diferentes (como por ejemplo, las partes del cuerpo humano o las relaciones causa-efecto), puesto que, si nos ceñíamos sólo a los conceptos específicos del cáncer, muchas de las propiedades y relaciones de estos conceptos no iban a poder representarse, al hacer referencia a conceptos de otros ámbitos de especialidad o más genéricos.
La tarea de construir una ontología de estas características, partiendo desde cero, es enorme, por lo que decidimos adaptar a nuestras necesidades una ontología no especializada ya existente, a la que durante un período de tiempo se ofreció libre acceso para fines académicos: la ontología del proyecto Mikrokosmos (µK). Este proyecto, del que la ontología es el componente central, desarrolla un sistema de Traducción Automática Basada en el Conocimiento interlingüe desarrollado por el Computing Research Laboratory (CRL) de la New Mexico State University (NMSU), EE.UU., financiado por el Ministerio de Defensa de este país (Mahesh & Nirenburg 1995ab, Viegas et al. 1999).
La ontología original de µK, en su versión de 1997, cuenta con unos 4.700 conceptos, los cuales están conectados con una media de otros 14 conceptos, a través de la asignación de atributos y relaciones. Para dar una idea de su estructura, la Figura 1 muestra gráficamente la estructuración algunas de las ramas de los niveles superiores de la jerarquía:
Figura 1: Niveles superiores de la ontología de Mikrokosmos.
Como se puede observar, se parte de tres entidades superiores, OBJECT, EVENT y PROPERTY, a partir de las cuales se desarrollan todas las demás. La jerarquía es una red semántica de marcos; cada uno de estos marcos posee una rica estructura interna que le permite una gran expresividad. La ontología puede ser considerada como una entidad autónoma, en el sentido de que se define a sí misma: todas las propiedades adscritas a los objetos o eventos están a su vez definidas en algún punto de la rama PROPERTY (a su vez, las propiedades están dividas en ATTRIBUTEs y RELATIONs).
Por otra parte, las propiedades de los objetos y eventos se heredan a lo largo de los sucesivos niveles de la jerarquía. Por ejemplo, todos los EVENTs heredan por omisión la propiedad de tomar la propiedad de requerir un AGENT. Si especificamos esta característica al nivel EVENT, todos los conceptos hijos de éste heredarán esta propiedad. Además, la herencia puede ser no monotónica, también llamada herencia negativa, es decir, es posible especificar que algún elemento no hereda alguna propiedad especificada en alguno de sus conceptos superordinados. Por ejemplo, los PASSIVE-COGNITIVE-EVENTs y los INVOLUNTARY-PERCEPTUAL-EVENTs no requieren un agente.
Sin embargo, para poder aprovechar las características de la estructura y composición de la ontología de µK, así como de su contenido, debíamos contar con un programa específicamente diseñado para tal fin, puesto que la ontología de µK se ofrecía al público en código pseudo-LISP, de forma que resulta muy complejo realizar incluso la más simple de las consultas en la ontología. Esta herramienta, el gestor de ontologías de OntoTerm, nos ha permitido manipular la ontología y modelar el conocimiento referido a nuestro ámbito de especialidad, la oncología, e integrarlo en los lugares pertinentes de la ontología junto con los conceptos ya existentes. Además, dicho gestor de ontologías, ha sido integrado en un sistema gestor de base de datos terminológica basado en el conocimiento. De este modo es posible relacionar de forma directa conceptos de la ontología con términos contenidos en una o varias bases de datos terminológicas.
3. Modelado conceptual del subdominio de la oncología
En la tarea de modelar la estructura conceptual de nuestro subdominio de especialidad hemos debido llevar a cabo dos misiones fundamentales, de las que centraremos nuestra atención en la segunda:
(i) recopilar los conceptos específicos a nuestra área de especialidad, [3]
(ii) buscar los nodos ya existentes en la ontología de Mikrokosmos en los que podíamos insertar dichos conceptos.
Partiendo de los nodos básicos de la ontología de Mikrokosmos (OBJECT, EVENT y PROPERTY), hemos ido descendiendo en la jerarquía ya existente hasta encontrar el lugar apropiado para insertar los conceptos específicos de nuestro subdominio [4]. En nuestra estructuración conceptual, lo primero que debimos hacer fue colocar el concepto de la enfermedad y sus subtipos en el lugar correspondiente de la ontología. Esto lo hicimos tomando como punto de partida un concepto ya existente en la ontología, DISEASE-EVENT, y creamos a continuación un concepto subordinado que denominamos HAVE-NEOPLASM. Como conceptos subordinados de HAVE-NEOPLASM [5] colocamos la clasificación de neoplasias de la novena edición de la International Classification of Diseases (ICD-9 CM), en la que se clasifican los tipos de cáncer según la localización anatómica en la que se originan. Decidimos usar esta clasificación porque, a pesar de ser una jerarquía plana, es de uso muy extendido en la comunidad científica y puede usarse en combinación con otra clasificación (conocida como el ICD-0) en la que las neoplasias se clasifican según su tipo histológico y morfología (es decir, la estructura del tejido orgánico).
Sin embargo, la jerarquía del ICD-9 CM debía ser completada, puesto que no nos ofrecía más información que una simple jerarquía de tipos y subtipos de cáncer. Para ello, usamos las posibilidades que la ontología nos ofrece de especificar, por medio de relaciones con otros conceptos y atributos, las características propias de cada uno de los tipos de cáncer. Así, por ejemplo el concepto MYELOID-LEUKEMIA, un subtipo de leucemia, se clasifica en la ontología como un tipo MALIGNANT-NEOPLASM-OF-LYMPHATIC-AND-HEMATOPOIETIC-TISSUE. Nuestro gestor de ontologías nos permite añadir una definición del concepto, que en este caso tomamos del Metathesaurus del Unified Medical Language System (UMLS).
Además de la descripción básica del concepto, el gestor de ontologías nos nos permite especificar las propiedades del concepto, el tipo de información que, sin lugar a dudas, más enriquece la ontología. En el caso del concepto MYELOID-LEUKEMIA las RELACIONES y ATRIBUTOS con las que se completa su descripción aparecen resumidas en la captura de pantalla siguiente:
Figura 2: Relaciones y Atributos en el Ontology Editor.
En las relaciones contenidas en la ontología especifican, por ejemplo, los sistemas fisiológicos afectados por la enfermedad y sus síntomas, los métodos diagnósticos más comunes y las principales opciones de tratamiento. Los atributos asignados al concepto MYELOID-LEUKEMIA nos ofrecen información sobre la edad o el sexo del segmento de población más comúnmente afectado por la enfermedad y las formas en las que puede desarrollarse.
En el proceso de modelado de información que acabamos de mostrar, hay un hecho que no debemos dejar que pase desapercibido, ya que muestra la complejidad de la estructura de la ontología y la inherente consistencia que impone en el proceso de trabajo. Ya mencionamos anteriormente que en la estructura de la ontología original de Mikrokosmos, tanto relaciones como atributos se consideran conceptos de la ontología, con respectivas ramas en la jerarquía, sus restricciones en cuanto a los conceptos a los que pueden asignarse y sus definiciones. Este hecho implica que, para poder asignar una relación o un atributo a un concepto de terminado, dicha relación o atributo se haya tenido que insertar previamente en su lugar correspondiente de la ontología. El gestor de ontologías, además, obliga al terminógrafo a crear a la vez una relación y su relación inversa, actualizando después de forma automática la información de la ontología. Si volvemos a la captura de pantalla de la Figura 2, vemos que, en nuestro ejemplo, hemos usado en la descripción de nuestro concepto las relaciones AFFECTS-PHYSIOLOGICAL-SYSTEM, DIAGNOSED-WITH, HAS-SYMPTOM y TREATED-WITH y los atributos AFFECTED-POPULATION-AGE y DISEASE-PROGRESS-RATE. Para poder usarlas, debimos incluirlas previamente en sus lugares correspondientes de la ontología:

Figura 3: Relaciones en el Ontology Editor.
Como se puede observar en las capturas de pantalla, la relación AFFECTS-PHYSIOLOGICAL-SYSTEM es un concepto subordinado de la relación AFFECTS-BODY-PART. Además, hemos añadido la relación inversa PHYSIOLOGICAL-SYSTEM-AFFECTED-BY en su lugar correspondiente de la jerarquía (INVERSE-DISEASE-EVENT-OBJECT-RELATION). Hasta el momento, las relaciones usadas para conectar los conceptos específicos de nuestro subdominio de especialidad se resumen en las siguientes:
| DISEASE-EVENT-RELATION |
INVERSE-DISEASE-EVENT-RELATION |
| DIAGNOSED-WITH |
DIAGNOSTIC-TEST-FOR |
| HAS-RISK-FACTOR |
RISK-FACTOR-FOR |
| HAS-SYMPTOM |
SYMPTOM-OF |
| TREATED-WITH |
TREATMENT-FOR |
| HAS-SIDE-EFFECT |
SIDE-EFFECT-OF |
| DISEASE-EVENT-OBJECT-RELATION |
INVERSE-DISEASE-EVENT-OBJECT-RELATION |
| AFFECTS-BODY-PART |
BODY-PART-AFFECTED-BY |
| AFFECTS-PHYSIOLOGICAL-SYSTEM |
PHYSIOLOGICAL-SYSTEM-AFFECTED-BY |
| AFFECTS-TISSUE |
TISSUE-AFFECTED-BY |
| DIAGNOSED-WITH-THE-USE-OF |
USED-IN-THE-DIAGNOSTIC-TEST-FOR |
| TREATED-WITH-THE-USE-OF |
USED-IN-THE-TREATMENT-OF |
Las primeras (DISEASE-EVENT-RELATION e INVERSE-DISEASE-EVENT-RELATION) son relaciones que sirven para conectar unos eventos con otros, mientras que las segundas (DISEASE-EVENT-OBJECT-RELATION e INVERSE-DISEASE-EVENT-OBJECT-RELATION) conectan eventos con conceptos conceptualizados como objetos en la ontología. Además de estas relaciones, hemos incluido los siguientes atributos, cuyos valores pueden ser literales (LITERAL-DISEASE-EVENT-ATTRIBUTE) o escalares (SCALAR-DISEASE-EVENT-ATTRIBUTE):
| LITERAL-DISEASE-EVENT-ATTRIBUTE |
SCALAR-DISEASE-EVENT-ATTRIBUTE |
| CANCER-STAGING |
FREQUENCY-RATE |
| DISEASE-PROGRESS-RATE |
RECOVERY-RATE |
| PROGNOSIS |
|
| RISK POPULATION |
|
| AFFECTED-POPULATION-AGE |
|
| AFFECTED-POPULATION-SEX |
|
| TUMOR-CLASSIFICATION |
|
Con estas propiedades completamos la descripción de los conceptos de nuestro subdominio. Sin embargo, otro aspecto importante de la estructuración de la ontología que se hace patente en la Figura 2, en la que mostrábamos la pantalla principal de las relaciones y los atributos, es el hecho de que los conceptos relacionados con MYELOID-LEUKEMIA también son conceptos de la ontología. Esto, lógicamente, hace que fuera necesario insertarlos previamente en su lugar correspondiente de la jerarquía y, si se considera apropiado, definirlos y explicitar sus características propias.
El editor de ontologías permite además muchas otras funcionalidades que sería demasiado extenso mostrar aquí en detalle; permite, por ejemplo, modificar la información ya incluida en la ontología, asignar más de un concepto superordinado (herencia múltiple), ver todos los conceptos superordinados o subordinados de un concepto determinado y los valores que un concepto hereda de sus subordinados, de qué concepto hereda cada valor y la distancia que separa ambos conceptos (superordinado y subordinado) [6].
4. Conclusión
La recopilación de la información de la estructura conceptual que subyace a un dominio de especialidad es un requisito indispensable para la construcción de repositorios terminológicos de calidad, aunque en la mayoría de los casos, los terminógrafos no cuentan con herramientas adecuadas que les permitan representarla explícita y formalmente. En este trabajo hemos mostrado cómo el uso de una ontología de conceptos, gestionada por medio de la herramienta denominada OntoTermÔ, hace posible dicha tarea.
5. Bibliografía
International Classification of Diseases (ICD). Documentación obtenida a través de
http://www.cdc.gov/nchswww/about/otheract/icd9/icd9hp2.htm.
FABER, P. (1997). “Traducción y Pragmática: la traducción científica”. Cursos de Verano de la Universidad de Granada en Almuñecar, 1997.
GRUBER, T. R. (1993). “A Translation Approach to Portable Ontologies”. In: Knowledge Acquisition, 5(2): 199-220.
MAHESH, K. & S. NIRENBURG (1995a). “Semantic Classification for Practical Natural Language Processing”. In: Proceedings of the Sixth ASIS SIG/CR Classification Research Workshop: An Interdisciplinary Meeting. October 1995. Chicago, Illinois.
MAHESH, K. & S. NIRENBURG (1995b). “A Situated Ontology for Practical NLP”, en Proceedings of the Workshop on Basic Ontological Issues in Knowledge Sharing. International Joint Conference on Artificial Intelligence (IJCAI-95). August 1995. Montreal, Canada.
MORENO ORTIZ, A. (2000a). “Managing Conceptual and Terminological Information in a User-friendly Environment”. In: Proceedings of OntoLex 2000. Workshop on Ontologies and Lexical Knowledge Bases.
MORENO ORTIZ, A. (2000b). “OntoTerm: un sistema abierto de representación conceptual”. In: Actas del XVI Congreso de la SEPLN (Sociedad Española para el Procesamiento del Lenguaje Natural).
MORENO ORTIZ, A. & C. PÉREZ HERNÁNDEZ (2000). “Reusing the Mikrokosmos Ontology for Concept-Based Multilingual Terminology Databases”. Proceedings of the 2nd International Conference on Language Resources and Evaluation (LREC 2000 Athens, Greece. 31 May -2 June): 1061-1067.
PEREZ HERNÁNDEZ, C. (2000). Explotación de los córpora textuales informatizados para la creación de bases de datos terminológicas. Tesis doctoral. Universidad de Málaga.
VIEGAS, E. et al. (1999). “Semantics in action”. In: P. SAINT-DIZIER, (ed.). Predicative Forms in Natural Language and Lexical Knowledge Bases. Dordrecht: Kluwer Academic Press: 171-204.
[1] Este trabajo se ha elaborado dentro del marco del proyecto OncoTerm: Sistema bilingüe de información y recursos oncológicos (PB 98/1342) subvencionado por el Ministerio de Educación y Ciencia.

[2] Por ejemplo, algunos tipos de quimioterapia pueden conceptualizarse como un tratamiento para combatir el cáncer y como un carcinógeno, puesto que como efecto secundario pueden también provocar determinados tipos de cáncer.

[3] Esta recopilación la hemos llevado a cabo contando con tres fuentes básicas de información: (i) los especialistas en la materia con los que contamos en el proyecto OncoTerm, (ii) diversas obras y glosarios de referencia y (iii) la explotación intensiva de un corpus textual informatizado recopilado específicamente para este proyecto. El uso de estas tres fuentes para la extracción de la información se detalla en Pérez Hernández (2000).

[4] La estructuración conceptual de los términos oncológicos y su inserción en la ontología ha sido fruto de un intenso trabajo de colaboración con otro miembro del grupo OncoTerm, M. García de Quesada, junto con los especialistas del Hospital Virgen de las Nieves de Granada integrados en el proyecto, a quienes queremos agradecer su entusiasta colaboración y su disposición a atender nuestras preguntas.

[5] Tomamos la decisión de representar el cáncer en la ontología como concepto hijo de un evento (de DISEASE-EVENT) y no como un objeto guiados por las indicaciones dadas en Faber (1997), en donde se describen los elementos participantes en el EVENTO MÉDICO, y por la constatación en los ejemplos obtenidos de nuestro corpus, de que el cáncer se conceptualiza como un proceso activo, que posee un desarrollo, afecta a otras partes del organismo, se caracteriza por una serie de comportamientos fisiológicos, etc.

[6] Información detallada sobre otras funcionalidades de esta herramienta de OntoTerm, así como sobre el gestor de base de datos terminológica que integra, pueden encontrarse en Moreno Ortiz & Pérez Hernández (2000), Moreno Ortiz (2000 a/b) y en la siguiente dirección web: http://www.ontoterm.com.

|