Actas / Atas
1988-2002
Presentación / Apresentação
I Simposio (1988)
II Simpósio (1990)
III Simposio (1992)
IV Simposio (1994)
V Simposio (1996)
VI Simposio (1998)
VII Simpósio (2000)
        Índice
VIII Simpósio (2002)
Índice por autores

 

 

Avaliação de Linguagens Documentárias
para controle terminológico em áreas especializadas

Mariângela Spotti Lopes Fujita
Vera Lucia Cessel
Universidade Estadual de São Paulo
Campus de Marília
Brasil

 

A utilização de uma Linguagem Documentária para escolha do termo correto para descritor reduz a diversidade e a ambigüidade da terminologia e estabelece a eficácia com que o indexador pode descrever o assunto dos documentos, já que vários autores podem se utilizar de diferentes palavras para expressar uma mesma idéia. Portanto, a avaliação da linguagem documentária faz-se necessária uma vez que a qualidade dos serviços de disseminação da informação depende da Linguagem utilizada pelo sistema para a indexação e recuperação dos documentos a fim de se selecionar apenas a informação útil. Nessa pesquisa o estudo de caso proposto detém-se na avaliação das Linguagens Documentárias DeCS e INIS Thesaurus, escolhidas por estarem inseridas em sistemas de informação especializados com serviços de análise documentária para geração de bases de dados. O DeCS é a Linguagem utilizada pela base de dados LILACS/CD-ROM para controle terminológico na indexação e recuperação dos documentos em ciencias da saude. Quanto ao INIS Thesaurus é a Linguagem utilizada pela base de dados internacional INIS produzida pelo INIS (International Nuclear Information System) para controle terminológico na indexação e recuperação dos documentos em energia nuclear. A metodologia de avaliação das Linguagens Documentárias DeCS e INIS Thesaurus foi dividida em duas fases: análise formal da estrutura e avaliação formal da estrutura semântica. A análise formal da estrutura baseou-se no conhecimento externo da estrutura formal dos tesauros analisados. A avaliação da estrutura semântica das linguagens utilizou dois métodos diferentes, cujos resultados são complementares: o método objetivo de Lancaster e o método utilizado por Lara (1993). O estudo concluiu que o INIS Thesaurus mostra-se uma linguagem propícia a uma boa indexação e que o DeCS precisa corrigir erros de relacionamento e incluir relações hierárquicas entre termos, importantes na demonstração da especificidade de descritores.

 

Avaliação de Linguagens Documentárias

Com o intuito de desenvolver estudo sobre avaliação de eficácia das estratégias de leitura mediante representação de termos selecionados por descritores de uma Linguagem Documentária, o Projeto Integrado “Leitura em Análise Documentária” abrigou duas pesquisas sobre a avaliação das Linguagens Documentárias utilizadas pelos dois Sistemas de Informação que serviram como estudo de caso e observação dos procedimentos de leitura do indexador: o DeCS da Sub–Rede Nacional de Informação em Ciências da Saúde, linguagem da base de dados LILACS e o INIS Thesaurus do Centro de Informações Nucleares, linguagem do INIS Atomindex.

Dentre essas duas pesquisas temos “Avaliação de Linguagens Documentárias para indexação em bases de dados” desenvolvida, no período de fevereiro a dezembro de 1998 pela bolsista do Projeto Integrado Vera Lúcia Cessel que, tendo cumprido as etapas previstas no plano de trabalho, encaixa-se nos objetivos do projeto Integrado e visa satisfazer a necessidade que o estudo sobre leitura exigia. A outra pesquisa “Avaliação de Linguagem documentária em Base de Dados” foi desenvolvida, como Trabalho de Conclusão de Curso, sem bolsa, pela aluna Luciana de Souza Gracioso. Essa segunda pesquisa, embora não tenha sido prevista no plano de trabalho, avaliou a eficácia da Linguagem documentária DeCS quanto à recuperação de referências bibliográficas na base de dados LILACS.

Esta pesquisa sobre avaliação de linguagens documentárias para indexação em bases de dados propõe a avaliação das Linguagens documentárias DeCS (Descritores em Ciências da Saúde) e INIS Thesaurus (Informação nuclear), [1] tendo como objetivo identificar, aplicar e avaliar uma metodologia de avaliação de Linguagens documentárias com base na literatura da área para se verificar a eficácia de indexação.

O DeCS é a Linguagem utilizada pela base de dados LILACS/CD-ROM para controle terminológico na indexação e recuperação dos documentos. A Sub-Rede Nacional de Informação na área de Ciências da Saúde Oral é um Centro Cooperante da Rede Brasileira de Informação em Ciências da saúde ligada à Rede Latino-Americana e do Caribe de Informação em Ciências da saúde, que realiza a coleta da literatura nacional em odontologia para indexação e inserção na base de dados LILACS (Literatura Latino-Americana e do Caribe em Ciências da Saúde).

Quanto ao INIS Thesaurus é a Linguagem utilizada pela base de dados internacional INIS produzida pelo INIS (International Nuclear Information System) para controle terminológico na indexação e recuperação dos documentos. No Brasil o CIN ( Centro de Informações Nucleares) serve de ligação entre o INIS e a comunidade brasileira, coletando, processando e enviando a literatura nuclear brasileira para o INIS.

Com o intuito de verificar a avaliação de Linguagens Documentárias para indexação em bases de dados, foi discorrido primeiramente nessa pesquisa sobre o que é Linguagem Documentária e o que se entende por avaliação de Linguagem.

Uma Linguagem Documentária, também chamada de Linguagem de indexação é um conjunto controlado de termos usado para representar os assuntos dos documentos. E o objetivo da Linguagem Documentária é o controle de vocabulário, isto é, controlar a terminologia de área ou áreas do conhecimento através do estabelecimento de um conceito/interpretação definido aos termos de acordo com as necessidades de uso do sistema. Para atingir esse objetivo a Linguagem documentária é formada de vocabulário e sintaxe.

O vocabulário se refere à relação dos descritores usados para a identificação do conteúdo de um documento e a sintaxe se refere as regras utilizadas para a combinação dos descritores usados para a identificação do conteúdo de um documento.

As Linguagens Documentárias podem ser de três tipos: Sistemas de Classificação Bibliográfica como por exemplo a CDD/CDU, Tesauros e Listas de Cabeçalhos de Assuntos como por exemplo a Library of Congress Subject Heading.

Os Sistemas de Classificação, primeiros instrumentos de indexação utilizados, datados do final do século XIX, se apresentam como referência para a classificação de documentos e recuperação dos mesmos através de notações ou símbolos, compostos por números, letras, ou sinais e se constitui um sistema pós-coordenado.

Quanto aos Tesauros constituem-se de descritores que podem ser combinados ou não entre si na indexação, relacionados entre si semanticamente e genericamente. Representam primeiramente os conceitos para depois especificar suas relações e são desenvolvidos para sistemas pós-cordenados.

Em relação aos Cabeçalhos de Assunto são Linguagens pré-coordenadas, não hierárquicas e o arranjo é alfabético. Apresentam sinônimos, quase sinônimos e homógrafos. Prevê regras específicas tais como forma de entrada do descritor, uso de singular/plural, uso de abreviaturas e de termos traduzidos.

A pesquisa ainda ressalta que segundo PINTO (1985:173-177) existem dois tipos de relações existentes em uma Linguagem Documentária, sendo essas:

Relações Sintáticas: originam-se da necessidade de se poder recuperar a intersecção entre duas ou mais classes de conceitos distintos. Constituem-se da associação de termos para representar assuntos compostos, como por exemplo: “fundição do alumínio” e não “fundição” e “alumínio”.

Relações Semânticas: devem ser controladas ou mostradas nas Linguagens de indexação com o objetivo de se indicarem os termos alternativos ou substitutivos de indexação e busca. E podem ser de três tipos:

1- Equivalência: fornece termos substitutivos de indexação e busca, através de:

sinônimos e antônimos
Ex: diminutivos x aumentativos

quase sinônimos
Ex: datiloscopia x impressão digital

grafias diferentes
Ex: contato x contacto

abreviaturas e acrônimos
Ex: ONU – Organização das Nações Unidas

traduções
Ex: recall x recuperação

ordem de citação
Ex: automação de bibliotecas x bibliotecas, automação de
Ressalta-se também que o indexador deve escolher um único termo para representar o conceito.

2- Hierárquicas: permitem a busca por termos alternativos. Exprimem o posicionamento de um conceito em relação a termos mais amplos ou mais específicos.

São as relações de subordinação entre os termos
Ex: relação todo-parte
Livro x folha
Relação gênero-espécie
Gato x mamífero

3- Afinitivas ou Associativas: revelam termos indexadores que desencadeiam uma ampliação da estratégia de busca. Mostram termos afins, sem expressar uma noção de hierarquia. As relações aflitivas possibilitam a busca de termos alternativos em relação à:

coordenação
Ex: portas x janelas

genética
Ex: pai x filho

concorrente
Ex: educação x ensino

causa e efeito
Ex: ensino x aprendizagem

instrumental
Ex: medicina preventiva x vacinação

material
Ex: esquadrias x alumínio

similaridade de processo
Ex: classificação x indexação

Na revisão de literatura dessa pesquisa, destacamos que de acordo com CESARINO & PINTO (1978: 272) a necessidade de se controlar o vocabulário de uma determinada área é decorrente de alguns fatores, como:

a) Fatores humanos: diferenças de cultura, de experiência dos autores e domínio de terminologia entre indexadores, autores e usuários;

b) Fatores referentes à própria Linguagem Natural: vários termos podem designar o mesmo conceito (sinônimos) ; um mesmo termo pode designar conceitos diferentes (homógrafos); o sentido dos termos se altera pela posição que ocupa na frase (sintaxe).

c) Fatores hierárquicos: um conceito implica em outros mais amplos e/ou mais restritos.

Concluímos com a revisão de literatura que a utilização de uma Linguagem Documentária para escolha do termo correto para descritor reduz a diversidade e a ambigüidade da terminologia e estabelece a eficácia com que o indexador pode descrever o assunto dos documentos, já que vários autores podem se utilizar de diferentes palavras para expressar uma mesma idéia.

Portanto, a avaliação da linguagem documentária faz-se necessária uma vez que a qualidade dos serviços de disseminação da informação depende da Linguagem utilizada pelo sistema para a indexação e recuperação dos documentos a fim de se selecionar apenas a informação útil. Isso se dá quando a linguagem do sistema permite que se traduza a Linguagem do autor sem que se perca a idéia principal e quando permite que se traduza a linguagem do usuário de modo que satisfaça suas necessidades de informação.

Sendo assim, estudos para se avaliar o desempenho de linguagens documentárias têm sido feitos desde a década de 50 por profissionais que lidam com a informação, preocupados com a eficácia dos sistemas de indexação e recuperação. Alguns desses estudos, realizados na década de 50, são mencionados por PIEDADE (1976:22), que deu destaque para os testes da ASTIA, os projetos Cranfield I e II, o teste de Aberystwyth e as experiências de James Carlisle e Robert Fetter; por último, a metodologia proposta por Lancaster para a avaliação de linguagens documentária, à qual daremos maior ênfase nesse relato por ter sido á utilizada nessa pesquisa.

O teste da ASTIA (Armed Services Technical Information Agency), realizado em 1953, tinha como objetivo comparar o desempenho do sistema Uniterm e o catálogo alfabético.

Quanto ao projeto Cranfield I (1957) foi um teste sobre a eficácia de sistemas de indexação que investigou o desempenho de quatro linguagens de indexação (Uniterm, Cabeçalhos de Assunto, CDU e Classificação Facetada).

O projeto Cranfield II examinou o papel dos vários artifícios, destinados a promover a revocação e a precisão, das linguagens de indexação na recuperação. Foram selecionados 271 documentos sobre aerodinâmica e estruturas de aeronaves, em língua inglesa, publicados entre 1962 e 1963 que tivessem pelo menos duas citações bibliográficas posteriores a 1954.

Em relação ao teste de Aberystwyth consistiu em testar cinco linguagens de indexação:

1- compressed term index language – linguagem limitada a 300 termos acrescida de termos correlatos, utilizada pós-coordenadamente;

2- uncontrolled index language – linguagem natural composta de 1200 palavras encontradas nos próprios documentos sem qualquer controle de terminologia, utilizada pós-coordenadamente;

3- hierarchically structured index language post-coordinate – Classification of Library Science, utilizada pós-coordenadamente sem emprego de síntese, sem ordem de citação fixa, mas conservando a notação;

4- hierarchically structured language pre-coodinate – Classification of Library Science utlizada pré-coodenadamente;

5- relational indexing index language – indexação relacional de J. Farradane, utilizada pré-coordenadamente.

A experiência realizada por James Carllisle e Robert Fetter (1970) destinava-se a verificar o comportamento do usuário na obtenção de informações computadorizadas utilizando um vídeo e um teletipo. Dois grupos de pesquisa tinham o objetivo de localizar o maior número de documentos pertinentes ao tema em estudo. A relevância dos documentos recuperados com relação as questões propostas foi estabelecida de acordo com a seguinte escala: 10 pontos – referente ao assunto, 1 ponto – na área certa, mas não relevante, 0 ponto – sem valor. O comportamento dos dois grupos de pesquisa foi analisado de acordo com o número de documentos recuperados, a relevância dos documentos, o tempo gasto na pesquisa, os erros cometidos, as estratégias de busca e a satisfação dos pesquisadores em relação ao sistema utilizado.

LANCASTER (1996), que se destaca por seus trabalhos para avaliar o desempenho de sistemas de recuperação da informação, entre eles a avaliação do sistema MEDLARS, afirma que os métodos empregados para a realização da avaliação de Linguagem podem ser do tipo subjetivo e objetivo. No método subjetivo, a avaliação é baseada apenas nas opiniões dos usuários enquanto que no método objetivo são adotados critérios que possibilitam a coleta de dados para análise e diagnóstico.

Nessa pesquisa o estudo de caso proposto detém-se na avaliação das Linguagens Documentárias DeCS e INIS Thesaurus, escolhidas como estudos de casos por estarem inseridas em sistemas de informação especializados com serviços de análise documentária para geração de bases de dados. Estes sistemas, por sua vez, enquadram-se nos objetivos do projeto integrado, que visa a obtenção de diagnóstico dos serviços de análise documentária e de indexadores em centros de informação especializados.

A avaliação das Linguagens Documentárias DeCS e INIS Thesaurus, realizada por intermédio dos trabalhos das alunas Luciana e Vera, considerou as duas funções de uso das linguagens: para a tradução de termos na indexação e orientação quanto à estratégia de busca. O trabalho da bolsista Vera, com enfoque para a linguagem enquanto instrumento para a tradução de termos na indexação, utilizou metodologia de avaliação para análise formal das estrutura externa e interna das linguagens DeCS e INIS Thesaurus. Enquanto que o trabalho da aluna Luciana, enfatizou a eficácia de uso da linguagem documentária DeCS durante a estratégia de busca na base de dados LILASC, utilizando a metodologia de avaliação para medir o índice de precisão na recuperação de documentos relevantes. Em seqüência e sucintamente, relataremos o desenvolvimento e resultados obtidos nos dois trabalhos para concluirmos sobre o uso da linguagem documentária como parâmetro de avaliação de eficácia de identificação e seleção de termos durante a leitura do indexador.

Avaliação de Linguagens Documentárias para indexação em bases de dados [*]

A metodologia de avaliação das Linguagens Documentárias DeCS e INIS Thesaurus foi dividida em duas fases: análise formal da estrutura e avaliação formal da estrutura semântica.

A análise formal da estrutura baseou-se nos parâmetros definidos por CORREA, sob orientação de FUJITA (1998:77-87), para o conhecimento da estrutura formal de tesauros facetados, os quais foram utilizados para o conhecimento da estrutura das linguagens documentárias DeCS e do INIS thesaurus com exceção da parte 6, específica de tesauros facetados. Segundo a autora, estes critérios foram estabelecidos de acordo com a bibliografia consultada para a realizacão de sua pesquisa “A Construção de Tesauros na Perspectiva da Metodologia Facetada”, principalmente no trabalho de Derek Austin (1993).

A avaliação da estrutura semântica das linguagens utilizou dois métodos diferentes, cujos resultados são complementares: o método objetivo de Lancaster e o método utilizado por Lara (1993).

No método objetivo de Lancaster (1996), estão inseridos seis critérios para a avaliação de linguagem documentária:

1- A razão de equivalência, que é o a razão entre o número de não descritores e descritores, realmente constitui uma medida da riqueza do vocabulário de entrada. Este valor deve ser maior que 1, quer dizer, que haja mais termos de entrada que descritores.

2- A razão de reciprocidade, que é o grau em que as relações de TG, TE e TR têm reenvios recíprocos.

3- Definição, representada pela equação (b-a)/b, onde a é o número de descritores que possivelmente são ambíguos porque não têm notas de aplicação, qualificadores, ou relações hierárquicas que os definam, e b é o número total de descritores do vocabulário.

4- Flexibilidade, que é a proporção de palavras nos descritores compostos que aparecem no vocabulário como descritores ou não descritores. Se recomenda um valor de 0,6 ou maior.

5- Nível de pre-coordenacào, que é o número médio de palavras por descritor. Para os tesauros ingleses, espanhóis e franceses se recomenda um valor entre 1,5/2,0 e de 1,1/1,2 para os tesauros alemães.

6- O tamanho dos grupos de termos (quer dizer, os grupos que formam a lista sistemática do tesauro). Se recomenda de 30 a 40 termos por grupo.
(1995:174). (Tradução Livre)

A metodologia utilizada por Lara (1991) em sua dissertação de Mestrado, propõe a avaliação das linguagens através de exemplos a partir de 5 critérios pré-estabelecidos:

categorias de assunto nas quais o descritor se insere;

análise dos termos genéricos;

análise dos termos relacionados;

lógica de subordinação dos termos específicos, e

consistência da relação de equivalência entre os termos

Para a análise formal da estrutura externa, os parâmetros definidos por CORRÊA (Op. Cit) são:

1 Aspectos Gerenciais

a) Compilação dos Termos

b) Número de Termos

c) Uso de Software e/ou Programa de Computador

d) Instrução de uso/informações complementares

e) Utilização de normas para controle de vocabulário

f) Coleta Temática

2 Estrutura da Linguagem

3 Apresentação da Linguagem

4 Termos de Indexação

a) Termos Equivalentes em Outros Idiomas

b) Forma dos Termos

substantivos

frases substantivadas

advérbios

verbos

escolha de formas singular e plural

homógrafos (ou homônimos)

siglas

5 Relações Semânticas e Lógicas

a) relação hierárquica

b) relação associativa

c) relação de equivalência

Quanto aos resultados obtidos constatamos que os parâmetros definidos por CORRÊA (1998), para o conhecimento da estrutura de tesauros facetados revelaram-se eficazes para este trabalho, uma vez que as linguagens (DeCS e UNIS Thesaurus) puderam ser explicitadas de um modo objetivo, onde todos os aspectos relevantes foram inseridos.

A aplicação dos parâmetros especialmente o ítem 4 “ Termos de Indexação” da página (8) revelou-se um pouco mais trabalhoso com o INIS Thesaurus, devido ao fato do mesmo encontrar-se em inglês, e principalmente devido ao fato da área coberta pelo INIS ser bastante complexa.

Observou-se que o DeCS, ao contrário do INIS Thesaurus, não apresenta as relações de hierarquia estabelecidas pelas expressões TG (termo genérico) e TE (termo específico), o que pode dificultar a análise dos assuntos dos documentos para a escolha dos descritores durante a indexação. Ambas as linguagens fornecem explicações detalhadas e indispensáveis para o seu uso e aplicação bem como um controle sobre as formas dos termos utilizados com descritores (notado no item “Termos de indexação”) e se utilizam de diferenciadores tipográficos para diferenciação entre as relações de hierarquia, associações e equivalência ( identificados no item “Relações semânticas e lógicas”).

Para a aplicação dos seis critérios estabelecidos por Lancaster para a avaliação objetiva foi utilizada a técnica de amostragem sistemática devido ao fato dos valores exigidos para o emprego dos critérios não serem de todo constantes no DeCS e no INIS Thesaurus e estes constituírem-se de um número elevado de páginas.

Trabalhou-se com 5% do total de páginas de cada linguagem, ou seja:

DeCS (entrada alfabética) ---688p.
5% = 34 p.
INIS Thesaurus --------------927p.

5% = 46 p.

A seleção de páginas iniciou-se com a escolha da página 10, no DeCS e no INIS Thesaurus, seguida de seus múltiplos 20,30,40 e assim sucessivamente até se obter o total desejado de páginas.

Os resultados da avaliação da estrutura semântica das linguagens com o método objetivo de avaliação, demonstraram que a aplicação do método foi pouco satisfatória para alguns critérios, pois os resultados obtidos, como por exemplo no critério 2 (razão e reciprocidade), revelaram-se talvez triviais, e o critério número 3 (definição) não mostrou-se muito claro quanto ao que seria provavelmente o valor ideal para que se saiba se ambas as linguagens atingiram o esperado. Entretanto, o critério número 1 ("razão de equivalência") revelou-se o mais importante entre os seis critérios, porque quanto mais entradas o descritor tiver, melhor a estrutura da linguagem. Assim, a linguagem documentária deve oferecer um número de entradas, ou termos equivalentes, suficiente para prover os usuários de meios para alcançar o descritor autorizado.

De um modo geral, o DeCS e o INIS Thesaurus estão perfeitamente adequados dentro do esperado pelos critérios, apesar de que o DeCS revelou valor abaixo do previsto para o critério de número 4 (flexibilidade) e o INIS também ter apresentado valor abaixo para o critério número 1 (razão de equivalência).

Ressalta-se que apesar do INIS parecer mais flexível para a indexação devido ao estabelecimento das relações de hierarquia, ambas as linguagens oferecem condições propícias para que a indexação possa ser efetuada com excelente desempenho.

A utilização dos critérios baseados na metodologia de Lara foi de grande importância para o trabalho, porque demonstrou bem objetivamente erros que a avaliação quantitativa de Lancaster não pôde mostrar, mas apenas indicar. Na aplicação do critério "análise dos termos relacionados" para o DeCS, observou-se um erro de reciprocidade na relação de associação entre os descritores teoria da informação e pesquisa operacional, pois, apesar do descritor teoria da informação aparecer como termo relacionado junto ao descritor pesquisa operacional, o inverso não acontece. Outro erro observado no DeCS foi relacionado ao critério de "consistência da relação de equivalência entre os termos", quando os termos parestesia e picada relacionados como descritores equivalentes, deveriam estar compartilhando de uma relação associativa. Essa relação estabelecida indevidamente provoca uma perda conceitual que levará o usuário da linguagem a uma recuperação também indevida.

Quanto ao INIS Thesaurus, os exemplos expostos demonstram que o INIS está bem estruturado. A verificação dos termos genérios e relacionados não mostrou problemas, tampouco a verificação da "lógica de subordinação dos termos específicos" e da "consistência da relação de equivalência entre os termos". Em todos os casos os resultados mostraram-se corretos.

Para os propósitos do Projeto Integrado "Leitura em análise documentária, o estudo concluiu que o INIS Thesaurus mostra-se uma linguagem propícia a uma boa indexação e que o DeCS precisa corrigir erros de relacionamento e incluir relações hierárquicas entre termos, importantes na demonstração da especificidade de descritores.

 

[1] No projeto original de pesquisa, foi sugerido como estudo de caso somente a linguagem documentária DeCS. Contudo, observou-se a necessidade da inclusão do INIS Thesaurus pois o mesmo constitui-se como um importante objeto de estudo dentro do projeto integrado.

[*] Pesquisa de Vera Lúcia Cessel, com bolsa PIBIC/CNPq durante o curso de graduação em Biblioteconomia e Documentação, desenvolvida pela integrante do grupo de Pesquisa Tratamento Temático da Informação Vera Lúcia Cessel, sob orientação da Prof. Dr. Mariângela Spotti Lopes Fujita em 1998.

 

Editado con el apoyo de
Editado com o apoio da: