|
A terminologia e a hierarquização de ideias
Carlos Casal da Veiga
Instituto de Linguística Teórica e Computacional
Portugal
Resumo
Neste trabalho apresenta-se um modelo de um sistema de hierarquização de ideias em texto especializados, tendo como suporte uma terminologia informatizada que fornece a base de conhecimento construída por especialistas da área, sobre a qual se pretende trabalhar os textos. Os resultados teóricos obtidos neste trabalho são encorajadores e apresentam a grande vantagem de retirar qualquer "responsabilidade" de conhecimento ao Sistema de Informação, utilizando sim uma base de conhecimentos da responsabilidade de especialistas.
1. Introdução
O Instituto de Linguística Teórica e Computacional desenvolveu o projeto ILTERM de terminologias informatizadas. Para tal, concebeu um sistema de informação (SI) com recurso a um SGBD relacional com linguagem de programação de quarta geração, e dispõe neste momento de três áreas já tratadas:
Linguística;
Informática;
Telecomunicações.
O núcleo destas terminologias consiste na identificação dos conceitos de um campo de conhecimento específico, em que cada termo só pode definir-se como tal quando corresponde a um único conceito por ele transmitido com concisão e precisão.
Tratando-se de uma terminologia informatizada, algumas características saem reforçadas pela potencialidade do equipamento utilizado:
armazenamento de uma quantidade de informação muito superior à que se encontra normalmente em instrumentos com suporte de papel;
pesquisa multidirecional de informações complementares;
rápido acesso à informação pretendida;
actualização fácil e frequente dos dados;
prevenção do erro humano no estabelecimento das interligações dos dados terminológicos;
apresentação de uma interface eficiente para o exterior;
intercâmbio de dados terminológicos entre sistemas informáticos distintos;
criação de produtos derivados que utilizam como suporte a terminologia informatizada.
É precisamente sobre este último ponto que este documento se vai debruçar, na tentativa de modelizar um sistema de hierarquização de ideias em textos especializados, recorrendo de forma automática, por um lado, ao sistema de classificação usado na Terminologia, e por outro, à base de conhecimento construída pelos especialistas e projectada sobre aquele sistema de hierarquização.
Esta é a grande vantagem do modelo aqui apresentado, i.e., retira qualquer "responsabilidade" de conhecimento ao SI, utilizando a base de conhecimentos humanos, de uma forma sistemática e com a grande capacidade de processamento do computador. |
2. Apresentação do ILTERM
Embora o ILTERM - Terminologias Informatizadas do ILTEC, constitua um sistema completo do ponto de vista de informação terminológica, só será apresentado o subconjunto da informação a utilizar para a consecução do objectivo da hierarquização de ideias em textos especializados.
Este subconjunto é representado através do modelo conceptual "Entidade/Associação" descrito em 2.1.
2.1. Modelização Conceptual da Base de Dados ILTERM
Os modelos de dados permitem-nos captar e representar os aspectos estáticos e, nalguns casos dinâmicos, associados aos objectos relevantes numa dada aplicação. Um modelo de dados é constituído por três componentes:
um conjunto de Objectos;
um conjunto de Operadores;
um conjunto de Regras de Integridade.
O resultado da tarefa de modelização, é uma representação dos aspectos estáticos definidos num Esquema Conceptual e dos aspectos dinâmicos que especificam diversas Transacções a suportar pelo sistema de informação que se pretende desenvolver.
O modelo de dados fornece pois uma base formal para a representação dos objectos, operações e regras de integridade inerentes ao sistema de informação, servindo ainda de base à utilização de instrumentos operacionais.
Os instrumentos operacionais associados aos modelos de dados, constituem linguagens para definir, manipular e interrogar bases de dados, permitindo ainda suportar a sua evolução, manutenção e gestão. Entre as técnicas de suporte à modelização, destacam-se as que visam os esquemas conceptuais.
Na modelização do sistema de informação suportado pelo ILTERM optou-se pela adopção de um modelo de dados semântico: o modelo Entidade/Associação.
Uma representação gráfica (diagrama Entidade/Associação) associada a este modelo Entidade/Associação é constituída por nós (representando as entidades) e por setas (representando as associações).
Este modelo utiliza apenas dois conceitos básicos os quais são:
conjunto de Objectos;
conjunto de Regras de Integridade.
Vejamos então, quais os tipos de objectos e regras de integridade existentes para este modelo.
Objectos
Existem quatro tipos de objectos, nomeadamente:
Conjuntos de Entidades: que permitem representar objectos concretos do mundo real;
Domínios: ou conjunto de valores;
Atributos: são funções definidas de um conjunto de entidades para um conjunto de valores;
Conjunto de Associações: que permitem representar as relações existentes entre as entidades.
São os seguintes os tipos de associações:
muitos para muitos;
muitos para um;
um para muitos;
um para um.
Associações de muitos para muitos (M:N)

A cada ocorrência da entidade A estão associadas várias ocorrências da entidade B e a cada ocorrência da entidade B estão associadas várias ocorrências da entidade A.
As letras M e N indicam que a uma entidade do conjunto de entidades A, podem estar associadas N entidades do conjunto de entidades B, e a uma entidade do conjunto de entidades B podem estar associadas M entidades do conjunto de entidades A (com M e N inteiros).
Este modelo permite ainda a representação de atributos que são característicos não de entidades propriamente ditas, mas sim de associações existentes entre as entidades. Considere-se a associação unária "relação conceptual" existente: um termo pode estar conceptualmente relacionado com vários outros termos e cada um desses está conceptualmente relacionado com vários outros. O tipo de relação conceptual pode ser: relacionado, mais estrito, mais amplo.
Temos então a seguinte associação:

em que a associação "relação conceptual" tem um atributo próprio que é o tipo de relação.
Associações de muitos para um/um para muitos (1:N)

A cada ocorrência da entidade A estão associadas várias ocorrências da entidade B, mas a cada ocorrência da entidade B está associada, no máximo, uma ocorrência da entidade A.
Associações de um para um (1:1)

A cada ocorrência da entidade A está associada, no máximo, uma ocorrência da entidade B e a cada ocorrência da entidade B está associada, no máximo, uma ocorrência da entidade A.
Regras de Integridade
Restrições de Existência:
Considerem-se as entidades "termo" e "grafia alternativa" e a associação "tem" que as associa. O facto de uma grafia alternativa não poder nunca existir sem o respectivo termo, constitui uma restrição à existência da entidade "grafia alternativa". É isso que se pretende apresentar com o rectângulo colocado no interior da entidade "grafia alternativa".

2.2 Atributos Próprios de cada Entidade (utilizada neste modelo)

2.3 Diagrama Entidade/Associação Expandido

O modelo aqui apresentado permite-nos fazer as seguintes leituras:
um conceito , representado pela definição pode estar classificado em várias áreas ou sub-áreas do conhecimento;
um conceito pode ser designado por vários termos, não podendo existir a representação linguística de um termo sem estar especificada a respectiva definição;
cada termo pode apresentar várias grafias alternativas (GA) e/ou várias formas abreviadas (FA), não podendo existir GA nem FA se não estiver criado o respectivo termo.
Finalmente, o bloco principal deste diagrama para o objectivo deste trabalho, representa as relações conceptuais entre os termos e o respectivo sistema de classificação hierárquica.
Os atributos desta relação são:
A.R.B - O termo A está relacionado com o termo B.
A./A.B - O termo A é mais amplo que o termo B.
A.E.B - O termo A é mais estrito que o termo B.
2.4. Regras de Integridade nas Relações Conceptuais
As regras de integridade das relações conceptuais, definidas pelos terminólogos do ILTERM, permitem garantir a coerência do sistema de hierarquização introduzido na base de conhecimento do domínio a ser tratado.
Estas regras podem traduzir-se assim:
Seja R o conjunto das relações conceptuais, tal que:
R = {R,/A,E}
Seja T o conjunto de termos:
T = {t1, t2,..., tn}
Temos as seguintes regras de integridade (RI):
RI1:

 Quando existir uma relação conceptual entre dois termos, ela é única, o que quer dizer que um termo não pode ser, por exemplo, mais amplo do que um termo e mais estrito do que o mesmo termo.
RI 2:

Se um termo é mais amplo que outro, então este é mais restrito que o primeiro. Propriedades das relações conceptuais:
|
Reflexão |
Simetria |
Transitividade |
|R |
- |
S |
N |
/ A |
N |
N |
S |
| E |
N |
N |
S |
- : não se aplica
S: Sim
N: Não
3. Os Princípios da Hierarquização


Figura 1 Dadas as RIs apresentadas em 2.4. podemos concluir que:
i) o sistema de relações conceptuais pode ser representado por um grafo de hierarquias;
ii) a representação em árvore não é suficiente para traduzir essas relações.
Repare-se que, não explicitando o tipo de relação, o grafo da figura l pode ser redesenhado assim:

Figura 2
Analisando as figuras 1 e 2, concluímos a seguinte estratificação de níveis de hierarquização:

Conclusões:
Termos que pertencem de certeza ao nível 1:
Termos que não pertencem de certeza ao nível 1: t22, t23, t111, t221
Termos que pertencem de certeza ao nível 2:
Termos que não pertencem de certeza ao nível 2: t111,t221
Termos que pertencem de certeza ao nível 3: t111,t221
Termos que não pertencem de certeza ao nível 3: ti, t2, t22, t23
Podemos pois verificar que os resultados são pouco conclusivos quando se ignora o tipo de relação conceptual e se utiliza como base apenas os grafos de ligação das relações.
Assim, os princípios de hierarquização a adoptar vão ser definidos com critérios mais adiante explicitados, fazendo uso da frequência da ocorrência de termos e respectivas relações, em frases do texto sob análise.
3.1. Metodologia da Indexação e Hierarquização do Texto
A primeira fase do modelo agora proposto é a selecção do universo de informação terminológica relevante para a indexação de níveis hierárquicos.
O ponto de entrada, a partir do qual se pretende analisar o texto, é um dado fornecido ao sistema e consiste na área (ou subárea) do conhecimento existente na tabela CLASSIFICAÇÃO. Esta fase está esquematizada na figura 3.

Figura 3 - Obtenção do Universo Terminológico
Com este tipo de construção é possível então definir o universo terminológico e hierarquizá-lo em três níveis de abstração. A selecção de informação associada a cada um desses níveis é formalizada a seguir, utilizando a sintaxe da linguagem SQL ("Standard Query Language").
Para identificação das tabelas e atributos deve consultar-se o diagrama relacional da base de dados ILTERM, figura 4.

Figura 4 - Diagrama relacional da Base de Dados ILTERM
3.1.1. 1 o Nível de Hierarquização
Pesquisa de todos os Termos pertencentes à mesma área (SQL):
SELECT ter_code FROM term WHERE term.ter_conceptcode IN
( SELECT cdm_conceptcode FROM concept_domaín, domain
WHERE
concept.cdm_domaincode = domain.dom_code AND
domain.dom_description = " < área_de_classificação > "
)
Pesquisa de Grafias Alternativas dos Termos anteriormente seleccionados (SQL):
SELECT asp_description FROM alt_spell WHERE asp_termcode
IN
( SELECT ter_code FROM term WHERE term.ter_conceptcode
IN
( SELECT cdm_conceptcode FROM concept_domain, domain
WHERE concept.cdm_domaincode = domain.dom_code AND
domain.dom_description = "<área_de_classificação>"
)
)
Pesquisa das Formas Abreviadas dos Termos anteriormente seleccionados (SQL):
SELECT abr_description FROM abrevform WHERE
abr_termcode IN
( SELECT ter_code FROM term WHERE term.ter_conceptcode
IN
( SELECT cdm_conceptcode FROM concept_domain, domain
WHERE concept.cdm_domain code = domain.dom_code AND
domam.dom_description = " < área_de_classificação > "
)
)
3.1.2. 2° Nível de Hierarquização
Pesquisa de Termos Relacionados (SQL):
SELECT crl_relatedcode FROM concept_rel WHERE crl_type =
"R" AND concept_relcrl_termcode IN
( SELECT ter_code FROM term WHERE íerm.íer_conceptcode
IN
( SELECT cdm_conceptcode FROM concept_domain, domain
WHERE concept.cdm_domaincode = domain.dom_code AND
domam.dom_description = " < área_de_classificação > "
)
)
3.1.3 . 3° Nível de Hierarquização
Pesquisa de Termos Mais Amplos (SQL):
SELECT crl_relatedcode FROM concept_rel WHERE crl_type =
"A" AND concept_rel.crl_termcode IN
( SELECT ter code FROM term WHERE term.ter_conceptcode
IN
( SELECT cdm_conceptcode FROM concept_domain, domain
WHERE concept.cdm_domaincode = domain.dom_code AND
domain.dom_description = "<área_de_classifícação>"
)
)
Pesquisa de Termos Mais Estritos (SQL):
SELECT crl_relatedcode FROM concept_rel WHERE crl_type =
"E" AND concept_rel.crl_termcode IN
( SELECT ter_code FROM term WHERE term.ter_conceptcode
IN
( SELECT cdm_conceptcode FROM concept_domain, domain
WHERE concept.cdm_domaincode = domain.dom_code AND
domain.dom_description = " < área_de_classificação > "
)
)
3.2. O Processamento do Texto
Esta seria a fase prévia de análise do sistema proposto. No entanto, o processamento do texto não é objecto deste trabalho, e pressupõe-se que o texto já existe processado e organizado num ficheiro sequencial com uma frase por linha. As frases foram previamente filtradas relativamente aos códigos de formatação e encontram-se devidamente indexadas.
Existem disponíveis no mercado alguns instrumentos informatizados que permitem fazer este tipo de processamento e, atendendo à modularidade que aqui se propõe, poder-se-á incorporar um desses instrumentos neste modelo.
4. O Nível da Frase
Com base no que atrás se expôs, propõe-se agora fazer a análise a partir da frase. Com o universo dos termos especificado, vamos criar cinco classes de informação terminológica.
Classes terminológicas:
Enquadramento
Informação principal
Especialidade
Informação subsidiária
Informação irrelevante
A cada uma destas classes estão associados respectivamente os seguintes tipos de relações:
Termos mais amplos (A);
termos, grafias alternativas e formas abreviadas (T);
termos mais estritos (E);
termos relacionados (R);
outros termos (O).
Às relações correspondem ainda os seguintes conjuntos de frases:
FA - Frases de enquadramento;
FP - Frases principais;
FE - Frases especializadas;
FS - Frases subsidiárias;
FI - Frases irrelevantes.
Depois disto, constroem-se as seguintes regras de pesquisa em frases (RF), em que F representa uma frase já processada como referido em 3.2.
RF1:

RF2:

RF2:

RF3:

Desambiguação de RF 2 e RF 3:
RF 4 (Se RF2 ou RF3 forem verdadeiras):

Qualquer frase F que não satisfaça nenhuma das regras RF1, RF2, RF3 e RF4 é considerada irrelevante. Nestas condições:

Na figura seguinte, mostra-se então o resultado final organizado:

|