|
Análise da formação de unidades terminológicas complexas (UTCs) sob a perspectiva da gramática funcional de Simon Dik:
pistas de cunho lingüístico-funcional para o processamento
da linguagem natural
Ligia Café
IBICT / CNPq
Brasil
Delimitação da pesquisa
Este trabalho tem por objetivo contribuir para a construção de sistemas de extração terminológica, fornecendo reflexões de natureza lingüístico-funcional que auxiliem o reconhecimento automático de unidades terminológicas complexas (UTCs) no interior de textos.
Trabalhamos com um corpus formado de UTCs de base nominal encontradas no português escrito do Brasil. Os textos (manuais, artigos científicos, relatórios de pesquisa e dissertações) utilizados como fonte de coleta pertencem à área dos processos relativos à Biotecnologia de Cultura de Tecidos de Plantas.
Fundamento teórico
Esta pesquisa utiliza como fundamento teórico a Gramática Funcional de Simon Dik (1978, 1980, 1981, 1983,1987, 1989). Esta teoria postula três princípios essenciais para uma análise coerente de uma língua, quais sejam: a concepção da língua como instrumento de interação social, o reconhecimento do papel primordial da pragmática na análise da língua e o estudo da sintaxe fundado na semântica. Do ponto de vista metodológico, adotamos, no âmbito deste estudo, o modelo para análise das expressões linguísticas apresentado por Dik. Este modelo se baseia na interpretação do segmento por meio da análise da predicação. Este método resulta em regras de formação que sistematizam os dados linguísticos sobre os segmentos terminológicos, no nosso caso as UTCs, de forma bastante eficaz para a compreensão do funcionamento das expressões no seio da língua.
A teoria da Gramática Funcional de Dik foi concebida para a análise da língua geral, mais precisamente para estudar a estrutura interna das frases e suas funções semânticas, sintáticas e pragmáticas. Uma vez que nosso estudo é de caráter terminológico, tivemos que adaptar a regra de formação e as três funções apresentadas por Dik, sem, no entanto, nos afastar dos principais fundamentos desta teoria.
Regra de formação
Para a Gramática funcional, a língua geral é formada de predicados e de termos (argumentos e satélites), o que constitui a estrutura geral da predicação de uma língua. No que concerne as línguas de especialidade, as UTCs são definidas como segmentos formados de uma base seguida de argumentos et/ou satélites. A base é o centro da estrutura com o qual os argumentos tem uma relação direta. Como ilustrado na figura 1, este conjunto composto de base + argumento forma uma predicação nuclear. Os satélites, por sua vez, são elementos que têm por função completar o significado produzido da relação entre a base e o argumento. Desta forma, os satélites mantêm essencialmente uma relação com o conjunto base + argumento, ou seja com a predicação nuclear. A união de um satélite à uma predicação nuclear é chamada predicação estendida.
Fig. 1 - Regra de formação das UTC

Os índices 1, 2 e n indicam a ordem dos argumentos e dos satélites na UTC. Os colchetes são utlizados para circundar os conjuntos e sub-conjuntos de relações estabelecidads entre os elementos da UTC. Estas relações podem existir no interior da predicação nuclear ou da predicação estendida. Pode-se igualmente encontrar relações dentro de um conjunto de argumentos. Neste último caso, utilisamos a barra oblíqua (/) para monstrar a hierarquia relacional entre os argumentos. Este signo gráfico é utilizado principalmente para marcar a expansão de um argumento, ou seja, no caso em que um argumento é modificado ou especificado por um outro argumento. A determinação de uma regra de formação para uma UTC é fundamentada num conjunto de interpretações de cunho funcionalista. A figura 2 ilustra a análise da predicação da UTC aclimatação de plantas no solo.
Fig. 2 - Exemplo de análise funcional de UTC

A primeira análise é semântica, isto é, identificamos a função semântica de cada componente da UTC. Assim, aclimatação representa o papel de processo, de planta o papel de paciente e no solo de localização. Esta interpretação é fundamentada no conhecimento de que aclimatação é <um processo de adaptação de plantas em um novo meio>. O item de plantas é portanto paciente do processo de aclimatação. E o item no solo é o local onde esta adaptação é realizada.
A partir destes dados, podemos aplicar a análise da predicação e assim definir a natureza das relações semânticas estabelecidas entre cada um dos itens do segmento terminológico. Assim aclimatação é identificada como a base do segmento pois é à partir dela que podemos definir o papel semântico dos outros componentes da UTC. Além disso, a base é dita ativa pois se trata de um substantivo derivado de um verbo (aclimatar).
A direita de aclimatação encontra-se o elemento de planta. Este componente é considerado um argumento por dois motivos: mantém uma relação direta com a base; e é um elemento fundamental exigido pela semântica da predicação. Sem ele, a informação veiculada pela UTC seria incompleta.
O elemento seguinte a ser analisado é no solo. Este é classificado como satélite pois mantém uma relação com todo o conjunto de elementos à esquerda do segmento (aclimatação + de plantas), isto é com a predicação nuclear como um todo. O conjunto da predicação nuclear mais o satélite forma a predicação estendida.
Esta interpretação nos leva a determinar a regra de formação desta UTC, qual seja [ [ ø [ x1 ] ] [ y1 ] ].
Prosseguindo a análise, determinamos para cada componente da UTC a sua categoria gramatical, função sintática e função pragmática. No que se refere as categorias gramaticais, a UTC aclimatação de plantas no solo é formada de Subst. + Sintagma prep. + Sintagma prep. Quanto as funções sintáticas, aclimatação representa o sujeito da UTC. Esta função é atribuída a todos os elementos de uma UTC que servem de ponto de partida para a análise do segmento sob a perspectiva sintática. O argumento de plantas preenche a função de complemento nominal. Sendo o satélite no solo um complemento circunstancial.
No que diz respeito às funções pragmáticas, aclimatação é interpretada como o tópico pois é o elemento ao qual todos os argumentos e satélites fazem referência a fim de precisar o objetivo de comunicação. De plantas e no solo são ditos focus pois são elementos que especificam o estatuto informacional do elemento tópico, ou seja, ele pontua a informação do tópico.
Considerações sobre funções semânticas e relação conceitual entre itens de uma UTC
A análise do comportamento linguístico do corpus resultou em 210 UTC representadas por 10 regras de formação. No quadro 1 ilustramos cada regra com um exemplo da UTC que a representa.
Quadro 1 - Regras de formação e exemplos de UTCs
Na perpectiva da Gramática Funcional, a interpretação semântica, sintática e pragmática da base e de cada argumento ou satélite nos fornece as propriedades e relações existentes no interior de uma UTC. Desta forma, podemos ter diferentes funções semânticas, sintáticas e pragmáticas segundo as propriedades funcionais de cada item de uma UTC.
Castilho analisa as relações entre a predicação e a semântica e afirma que «a predicação é um processo gerador de significados não contidos no sentido dos itens lexicais envolvidos, e depende crucialmente da relação entre um item-predicador e um item-sujeito» (1994:81).
Faulstich acrescenta que a predicação sintático-semântica «[...] corresponde à relação entre um predicador, representado por um adjetivo, por uma locução iniciada por preposição ou um advérbio, e um substantivo, que é o núcleo semântico da UTC, chamado sujeito»[1] (1995:4).
Desta forma, dentro da perspectiva sintático-semântica, o elemento-predicador confere a base da UTC uma propriedade que, segundo Castilho, pode ser: a emissão de um juízo sobre o valor de verdade da classe-sujeito; a alteração da extensão dos indivíduos designados pela classe-sujeito; a alteração das propriedades intensionais da classe-sujeito (1994:81).
Analisando a UTC mecanismo biológico de resistência, constatamos que [2]: o substantivo mecanismo representa a base da UTC; à direita da base encontra-se o adjetivo biológico que constitui o primeiro argumento da UTC. Este argumento especifica o significado de mecanismo, formando assim uma primeira UTC: mecanismo biológico; uma nova expansão à direita, pelo acréscimo de um segundo argumento representado pelo sintagma preposicional de resistência, vem completar a UTC mecanismo biológico de resistência.
As expansões sucessivas criam novas dimensões semânticas e noções mais específicas à UTC. A base mecanismo recebeu novas propriedades que não existiam na sua forma simples, isto é a base mecanismo adquiriu outras propriedades instensionais e extensionais.
Estas dimensões são representadas pela Teoria da Gramática Funcional pelas funções semânticas. No entanto, visto que esta teoria está voltada para a análise de frases da língua geral, alguns ajustes foram feitos no momento de atribuirmos as funções semânticas para cada item das UTCs contidas no corpus. O resultado desta adaptação é mostrado no quadro 2.
Quadro 2 - Funções semânticas
ação, agente, componente, conteúdo, efeito, entidade, estado, fim, forma, grupo, instrumento, intensidade, localização, modo, paciente, pertence, processo, resultado e fonte. |
Num primeiro momento, estas funções são descritas para cada elemento da UTC levando em consideração as relações existentes entre eles. Esta maneira de proceder nos auxilia a estabelecer, num segundo momento, os diferentes tipos de relações conceituais que existem entre a base e os argumentos e entre a predicação nuclear e os satélites. O objetivo final é chegar a estabelecer um tipo de rede conceitual que representaria todas as idéias expressas pelas funções e pelas relações semânticas das UTCs.
A seguir apresentamos alguns exemplos destas funções semânticas e suas relações conceituais decorrentes.
Nas UTCs da regra a relação conceitual <se situa em> foi identificada como produto das funções semânticas entidade + localização como pode ser verificado na ilustração a seguir.
Fig. 3 - Representação das funções semânticas e relação conceitual da UTC meristema apical [3]

Na verdade, ao encontrar a função semântica e a relação conceitual decorrente de uma UTC, torna-se mais claro o relacionamento entre os itens da predicação, facilitando a delimitação do segmento inserido em um texto.
Ao observarmos os exemplos mostrados a seguir podemos verificar a diferença de relacionamentos entre os elementos das UTCs: célula vegetal imobilizada e cultura de tecidos de plantas.
Fig. 4 - Representação das funções semânticas e relação conceitual da UTC célula vegetal imobilizada.

Fig. 5 - Representação das funções semânticas e relação conceitual da UTC cultura de tecidos de plantas

A interpretação de natureza semântica, nos permite, portanto, observar que estas duas UTCs, apesar de serem compostas por uma base e dois argumentos, representam regras de formação diferenciadas. São elas:
Quadro 3 - Regras de formação das UTCs célula vegetal imobilizada e cultura de tecidos de plantas.

A presença dos satélites
É a presença de satélites que distingue as regras et dos outros modos de formação. Os satélites caracterizam uma predicação estendida, ou seja, uma predicação que matém uma relação com a predicação nuclear como um todo e não apenas com a base como é o caso dos argumentos. Observamos, no entanto, que somente a regra representa uma relação direta do satélite com a base devido a um provável apagamento de um argumento no curso do processo de formação da UTC. Este seja talvez a explicação para a UTC cultura in vitro.
Em nível gramatical, os satélites podem ser sintagmas preposicionais ou locuções adverbiais. No nosso corpus, estas locuções adverbiais são representadas por expressões latinas do tipo : in vivo, in vitro e in situ. No plano sintático, os satélites se caracterizam como complementos circunstanciais e, ao nível funcional, eles são classificados como locuções adverbiais estendidas. Esta última etiqueta reflete a localização deste elemento dentro da estrutura da predicação. Do ponto de vista conceitual, os satélites podem exercer dois tipos de funções semânticas: localização ou estado. Eles se relacionam com os outros componentes da UTC de forma a representar determinadas relações conceituais.
A presença da categoria gramatical locução adverbial resultou em novos tipos de modelos morfossintáticos para as regras Além da formula [ [ N [ SP ] ] [ SP ], a regra apresenta os padrões [ [ N [ SA ] ] [ SAdv. ] ] (propagação clonal in vitro) e [ [ N [ SP ] ] [ SAdv. ] ] (cultura de anteras in vitro). No que diz respeito a regra , somente a fórmula [ N [ SAdv. ] ] (polinização in vitro) caracteriza o padrão morfossintático deste modo de formação.
A expansão dos argumentos
As regras têm como característica principal a expansão do primeiro argumento. No caso da regra ( , o argumento é modificado apenas uma vez (ver fig. 6), enquanto que no caso da regra tanto o argumento é modificado quanto a sua expansão (ver fig. 7).
Fig. 6 - Exemplo de UTC para a regra 

Fig. 7 - Exemplo de UTC para a regra 

Este fenômeno é interpretado em nosso estudo como um processo de encadeamento de UTC. Na verdade, se trata de uma inserção de uma UTC dentro da estrutura de uma UTC principal. É um recurso utilizado para formar um determinado conceito à partir de conceitos e de estruturas terminológicas jà existentes.
A presença de argumentos-advérbios (planta genotipicamente uniforme) e de expansões-advérbios (família de seqüências moderadamente repetitivas) foi verificada nestes dois tipos de modos de formação. Estes advérbios são formados de um adjetivo mais o sufixo -mente. No plano funcional, eles são interpretados como advérbios nucleares pois ocupam um espaço na predicação nuclear. No caso específico da regra , estes advérbios podem ser formados de um adjetivo proveniente da língua de especialidade ou da língua geral. No que se refere as relações conceituais, a relação semântica do advérbio é estabelecida com o adjetivo que o segue. É justamente a sequência advérbio + adjetivo que especifica ou modifica a base da UTC.
Conclusão
Apresentamos neste estudo alguns aspectos de nossa pesquisa fundamentada na Teoria da Gramática Funcional de Simon Dik. Procuramos mostrar como uma análise baseada na semântica pode orientar as interpretações do comportamento de UTCs.
Nosso objetivo é contribuir com dados lingüísticos na construção de sistemas orientados à modelagem de conhecimentos lingüísticos e, mais especificamente na delimitação e extração automática de segmentos terminológicos.
Referências bibliográficas
CAFÉ, Ligia (1999). La description et l’analyse des unités terminologiques complexes en langue portugaise (variété brésilienne): une contribution à l’automatisation de la Banque de données terminologiques du Brésil (Brasilterm). Tese de doutorado. Québec: Université Laval, Tomos I e II.
CASTILHO, Ataliba Teixeira de (1994). «Um ponto de vista funcional sobre a predicação». In: Alfa, vol. 38, pp. 75-95.
DIK, Simon (1978). Functional Grammar. North-Holland (North-Holland Linguistics Series, 37).
DIK, Simon (1980). Studies in Functional Grammar. London: Academic Press.
DIK, Simon (1981). «Predication and Expression: the Problem and the Theorical Framework». In: Predication and Expression in Functional Grammar. London: Academic Press, pp. 1-17.
DIK, Simon (ed.) (1983). Advances in Funcional Grammar. Foris Publications (Publications in Languages Sciences, 11).
DIK, Simon (1987). «Some Principles of Functional Grammar». In: Funcionalism in linguistics. Amsterdam/Philadelphia: John Benjamins, pp.81-100 (Linguistics & Literary Studies in Eastern Europe, 20).
DIK, Simon (1989). The Theory of Functional Grammar, part I: The Structure of the Clause. Foris Publications (Functional Grammar, 9).
FAULSTICH, Enilde (1995). Base metodológia para pesquisa em socioterminologia; termo e variação. Brasília: UnB/LIV.
TERMIUM (1996). Banque du bureau de la traduction. Canada: Gouvernement du Canada, Travaux publics et services gouvernementaux.
[1] O negrito é do texto original.

[2] Esta interpretação utilizou como fonte a análise da UTC antena direcional de sete elementos feita por Faulstich (1995:25).

[3] A meristem located a the apex of a root or shoot (Termium)

|