Actas / Atas
1988-2002
Presentación / Apresentação
I Simposio (1988)
II Simpósio (1990)
III Simposio (1992)
IV Simposio (1994)
V Simposio (1996)
VI Simposio (1998)
VII Simpósio (2000)
        Índice
VIII Simpósio (2002)
Índice por autores

 

 

Estudo contrastivo de associações lexicais
no discurso comum e no discurso parlamentar

Maria Helena Saianda
Universidade de Évora
Portugal

 

A constituição dos vocabulários dos dois debates que analisámos na tese de doutoramento – os debates eleitorais de 1986 e de 1991 - e a necessidade daí decorrente de proceder ao levantamento de ambiguidades que, a não serem consideradas, levariam seguramente a uma descrição lexical pouco exacta, fez com que nos tivéssemos apercebido da existência, no discurso, de palavras que co-ocorrem frequentemente com outras, formando com elas conjuntos que, dir-se-ia estabelecerem segmentos únicos, inseparáveis. Caso particularmente evidente ressaltou da pesquisa relativa às formas ‘debate’ e ‘política’, cuja classificação exigiu a consulta dos contextos em que surgem integradas, pois ambas são ambíguas na medida em que a primeira pode desempenhar o papel de forma verbal e de substantivo e a segunda de substantivo e adjectivo.

Essa pesquisa revelou, efectivamente, ocorrerem, com alguma frequência, nos debates que analisámos, as combinatórias ‘debate eleitoral’ e ‘política externa’, por exemplo, e conduziu-nos também a uma evidência: o poder que algumas palavras têm de mutuamente se atraírem, de tal maneira que, quando armazenadas no nosso léxico mental, elas já se encontram em íntima correlação. É o que se verifica com ‘esquerda democrática’, ‘reforma agrária’, ‘maioria absoluta’, “ amplas liberdades”, se pensarmos no discurso político. Mas é também o que se passa se considerarmos outros tipos de discurso, e isso quer se trate de discurso específico, quer se trate de discurso comum. Relembremos, por exemplo, os casos de:

1. discursos específicos

Astronomia - ‘altas pressões’, ‘pressão atmosférica’, ‘anã branca’, ‘gigante vermelha’, ‘espaço cósmico’, ‘dia sideral’, ‘atracção gravitacional’, ‘círculo máximo’;

Medicina‘junta médica’, ‘doente mental’, ‘regime ambulatório’, ‘instrumento cirúrgico’, ‘apendicite aguda’, ‘cintura pélvica’, ‘inseminação artificial’;

Matemática‘espaço vectorial’, ‘geometria euclidiana’, ‘prisma triangular’, ‘espaço métrico’, ‘sucessões convergentes’, ‘progressão aritmética/ geométrica’, ‘desvio padrão’, ‘média aritmética’, ‘amplitude total’;

2. discurso comum

‘estrela cadente’, ‘céu azul’, ‘caldo verde’, ‘recibo verde’, ‘doce lar’, ‘guerra fria’, ‘desporto rei’, ‘zona turística’, ‘protecção civil’, ‘príncipe consorte’, ‘defesa lateral’, ‘disco rígido’, ‘papel timbrado’, ‘código postal’, ‘cheque visado’, ‘tinta permanente’ ;

Tendo, portanto, intuído, a partir da observação de dados reais nos debates eleitorais, a existência relativamente frequente destes grupos, propusemo-nos verificar se tal hipótese se concretizava numa outra das vertentes do discurso político: o discurso parlamentar.

O estudo que efectuámos, delimitado no tempo e no espaço, é apenas um programa de projecto, pois à medida que avançámos na sua realização fomos descobrindo um fosso cada vez maior entre as enormes potencialidades que deixa entrever uma pesquisa deste tipo e o modesto contributo que não poderia deixar de ser o nosso para o esclarecimento da hipótese acima referida. Pretendemos, contudo, e apesar disso, mostrar o faseamento da pesquisa efectuada, as ferramentas informáticas que usámos, e os resultados e tipos de documentos que elas nos permitiram obter. Acreditámos, com efeito, e desde o início, que tal pesquisa pode levar a resultados concretos e consistentes.

Assim, propusemo-nos realizar, no âmbito da área das associações lexicais, um estudo contrastivo entre vários tipos de discurso, com base em dados que quisemos autênticos.

Todavia, os condicionalismos inerentes à realização de tal trabalho, que pressupõe a recolha de dados e respectiva transcrição, para posterior tratamento informático, impediam desde logo a sua concretização dentro do tempo de que dispúnhamos. Foi-nos, pois, imprescindível pedir a colaboração do Centro de Linguística da Universidade de Lisboa, instituição na qual sabíamos estar a ser constituído o Corpus de Referência do Português Contemporâneo, que nos facultou a utilização de alguns dos dados aí armazenados, tendo, em simultâneo, possibilitado a execução de um trabalho a partir de dados já existentes e a demonstração das possibilidades de exploração destes materiais.

Assim, solicitámos que, a partir dos dados desse Corpus fossem desenhados dois corpora de dimensão idêntica e aceitável para pesquisas deste género - cerca de 1 500 000 ocorrências de formas gráficas cada - a partir dos quais pudéssemos efectuar o estudo comparativo que pretendíamos:

um, que designámos de Discurso Político, constituído por uma amostragem de discurso Parlamentar – Diário da Assembleia da República - com a especificidade decorrente do facto de ter sido o resultado da passagem à escrita de um discurso à partida oral. Por esse motivo, o discurso transcrito para ser publicado no diário oficial terá seguramente sido alvo de algumas alterações, consequência material de duas instâncias de controle, o transcritor e os deputados:

o transcritor que, não sendo linguista, terá corrigido automaticamente lapsos e faltas de concordâncias característicos do discurso oral;

os próprios deputados, que têm o direito de alterar a forma desde que não alterem o conteúdo, quando o texto transcrito lhes é submetido para aprovação.

Assim sendo, o texto final, publicado no Diário da República, conquanto baseado num primeiro texto oral (que algumas vezes também já era escrito) segue, na verdade, as regras do texto escrito. Trata-se, com efeito, de uma solução de compromisso entre o discurso real, verbalizado pelos deputados na Assembleia da República durante as suas intervenções, e a necessidade de o conservar, representando-o, por isso, de forma gráfica.

outro, constituído de forma aleatória a partir do grande corpus informatizado, que considerámos Discurso Geral, e que é composto por amostras de discurso escrito, maioritariamente da década de 90 e de proveniências diversas, a saber

textos de carácter técnico-científico;

textos retirados de algumas obras literárias;

textos de imprensa;

textos retirados de livros didácticos;

acórdãos do Supremo Tribunal de Justiça;

correspondência enviada por bancos, seguros, telefones;

folhetos vários.

Foram, portanto, concebidas duas amostragens de língua, sendo que uma, a que designámos de Discurso Geral, pretende reflectir a variedade e diversidade do seu uso geral e corrente, enquanto que a outra - Discurso Político/ Parlamentar - participa mais da natureza dos corpora especializados. Este corpus – DP - é constituído por 1 452 637 ocorrências de 41 313 palavras e o anterior por 1 474 827 ocorrências de 78 899 palavras diferentes, facto que indicia desde logo a maior dispersão existente no Discurso Geral e, por oposição, uma maior concentração no Discurso Parlamentar.

Explicitaremos seguidamente o tratamento e as fases pelas quais passou o processamento dos dados:

em primeiro lugar foram-nos facultadas as listas alfabéticas de todos os vocábulos existentes em ambos os corpora.

Optámos por não efectuar a lematização, pois embora tivéssemos conhecimento de que o tratamento informático poderia efectuá-la com facilidade e rapidez, apesar de, normalmente, haver necessidade de introduzir correcções de forma manual, pareceu-nos que a comparação a executar poderia ser mais interessante e mais rentável se conservássemos todas as formas. Está, aliás, provado que, existindo combinatórias que só ocorrem com formas de plural e de feminino (‘olhos azuis’, ‘vozes partidárias’) ou ainda com determinadas formas verbais (particípio passado ou outras), o estudo das associações lexicais é mais produtivo quando assim é concebido (Ex.: verbo ‘achar’ – é frequente este verbo surgir no discurso comum em associações que incluem o presente do Indicativo – ‘acho/ bem, mal, bom, justo etc., mas não é frequente que idêntica situação ocorra com o futuro);

numa fase posterior a equipa do CLUL que nos forneceu os dados deu-nos também as listas de concordâncias relativas aos vocábulos que escolhemos. Essa escolha poderia e deveria, se o tempo disponível para a realização do trabalho o tivesse permitido, ter sido elaborada de forma mais científica, isto é, após a reflexão sobre maior número de dados. Como tal não foi possível, fizemos as nossas opções em função do conhecimento que nos proporcionou a pesquisa efectuada para a elaboração tese sobre o debate eleitoral e também sobre o nosso próprio conhecimento do mundo, na convicção de que a organização da linguagem reflecte, de algum modo, a organização dele. Essas listas de concordâncias foram estabelecidas com base em associações de dois elementos - sequências de palavras que propusemos de frequência igual ou superior a 2 - e que co-ocorrem no discurso segundo modelos estruturados, sempre por ordem idêntica dos seus elementos.

foram-nos também dadas as listas de pares existentes nos dois corpora com as respectivas ocorrências e a distância entre os elementos do par;

como etapa final do fornecimento dos dados foi-nos facultado o reagrupamento dos contextos em que os referidos vocábulos surgem integrados, tendo o programa informático determinado em simultâneo, e com base em cálculos estatísticos, o Índice de Combinação (IC) dos pares. Esse índice, conjuntamente com a frequência, possibilitou a determinação da significância das combinatórias no corpus.

A este propósito permitimo-nos relembrar o seguinte

Duas formas – X e Y – ambas de frequência hipotética 100. Se conjuntamente ocorrerem 100 vezes, dir-se-á que o seu índice de combinação é elevado e que, portanto, a sua significância enquanto associação lexical também o é. Se, pelo contrário, as mesmas palavras de frequência 100 ocorrerem conjuntamente duas vezes, então dir-se-á que o seu índice de combinação é baixo, o que leva a que a sua significância enquanto associação lexical também o seja.

O cálculo destes índices permitiu-nos antever e entrever as enormes possibilidades resultantes da sua aplicação, mas face ao caudal de informação recebida e à necessidade de restringir o âmbito da pesquisa, não foi possível determo-nos neste aspecto tanto quanto gostaríamos, nem tanto quanto o exigiria uma pesquisa mais detalhada. De forma idêntica, a reflexão sobre todos os vocábulos inicialmente propostos também se revelou impossível de executar num período de tempo relativamente curto. Assim sendo, escolhemos um número restrito de formas, tendo portanto operado uma nova selecção sobre a inicialmente prevista.

Para além da redução que o âmbito deste trabalho exigiu, a prossecução do nosso estudo fez com que se tornasse imprescindível a introdução de filtros pois mesmo tendo sido operada a redução, a informação obtida foi quase inimaginável, sobretudo para quem, como nós, se aventurava num mundo que cremos ainda pouco explorado em relação à língua portuguesa. Assim, optámos por inserir na pesquisa de combinatórias lexicais os filtros seguintes:

a distância 1, o que equivale a dizer que só considerámos aquelas em que a palavra-nó e o seu co-ocorrente se encontravam em posição contígua (‘maiorias absolutas’)

a noção de grupos bem formados do ponto de vista lexical, ou seja, aqueles cujo sentido é facilmente apreensível - em que o substantivo é o núcleo organizador.
Rejeitámos, pois, em consequência da aplicação dos dois filtros indicados, muitas combinatórias lexicais que provavelmente, seria interessante considerar.
Pretendemos, pois, apenas observar que co-ocorrentes seleccionavam

palavras em que se poderia dizer existirem traços semânticos opostos –

Ex. ‘externo’ / ‘interno
Ex. ‘direita’ / ‘esquerda

palavras em que se poderia dizer existirem traços semânticos comuns

Ex. ‘amplo’ / ‘vasto

palavras que adquirem sentido especializado quando usadas no plural

Ex. ‘autoridade’ / ‘autoridades

força’ / ‘forças

palavras cuja frequência com determinado sentido marcou uma época (o post 25 de Abril)

Ex. ‘clientela’ – ‘trabalhadores’ – ‘(o) antigamente’

No termo deste estudo verificámos que algumas das formas indicadas não se revelaram tão produtivas quanto julgávamos, casos, por exemplo, de:

antidemocrático’ e ‘demagógico’, que não ocorreram no Discurso Geral;

(o) antigamente’, que não se mostrou tão frequente quanto empiricamente julgávamos, o que não nos permite tirar conclusões sobre a sua lexicalização;

clientelismo’, que pensávamos ter sido muito frequente a partir do debate entre M. Soares e B. Horta, quando Mário Soares declarou não querer ter a ‘clientela’ com que o seu advresário contava. Os dados, no entanto, contrariaram esta hipótese.

Pensávamos, por outro lado, que combinatórias que nos pareciam a priori óbvias, em virtude de conhecimento do mundo em que evoluímos – ‘amplas liberdades’, por exemplo – não ocorrem em nenhum dos dois corpora. Apenas ocorre no discurso geral - ‘ampla liberdade’ – mas o seu sentido não nos parece corresponder ao que adquire quando a mesma combinatória é flexionada no plural. Ter-se-á certamente especializado ao ser assim usada, embora, como afirmámos, não ocorra nos corpora que analisámos. Cremos, todavia, e pelo saber que o mesmo conhecimento do mundo nos proporcionou, que tal facto se deve, muito provavelmente, à datação dos corpora constituídos, uma vez que, apesar dos resultados obtidos, continuamos a acreditar que num corpus cronologicamente anterior teria certamente registado uma frequência diferente.

Fenómeno idêntico de especialização parece ter ocorrido com a forma ‘autoridade’, cujo sentido terá também sofrido alteração no plural, designando assim os órgãos do poder:

‘altas autoridades’

‘autoridades

administrativas’

marítimas’

policiais’

No singular, a frequência da combinatória ‘alta autoridade’ no discurso parlamentar advém, segundo cremos, do facto de se tratar da designação, truncada, de uma instância de poder:

Alta Autoridade para a Corrupção Social

Alta Autoridade para a Comunicação Social.

Em ambos os casos, no entanto, se pode verificar que a combinatória não se reduz a um grupo de duas palavras, evidenciando-se, assim, a acção do filtro introduzido.

O mesmo poderemos afirmar relativamente a todas as combinatórias que nos surgiram da análise das formas-nó ‘força /( forças)’ , muito produtivas em termos de constituição de combinatórias que, aliás, não considerámos em virtude da introdução do filtro – distância 1. Não obstante isso, verificámos que a forma de plural é mais frequente no discurso político parlamentar e que a forma de singular ocorre com maior frequência no discurso geral, sendo contudo mais produtiva em combinatórias com distância +2 e -2. Exemplo do que acabamos de afirmar:

no discurso parlamentar

‘Forças Armadas’

‘forças políticas’

‘forças partidárias’

‘forças democráticas’

no discurso geral

‘força de vontade’

‘força de atrito’

‘unidade de força’

‘direcção da força’

Do estudo comparativo efectuado portanto sobre um número restrito de formas, verificámos que no discurso parlamentar as combinatórias lexicais são mais frequentes, assistindo-se a uma concentração à volta de um eixo que é a própria actividade política. No discurso geral as associações de palavras que constituem escolhas únicas são mais diversificadas, deixando, assim, perceber a diversidade da sua proveniência. Este corpus, que inclui também combinatórias comuns ao anterior, não se mostra muito homogéneo, residindo aí, naturalmente, a sua dissemelhança relativamente ao primeiro.

As combinatórias que assinalámos tanto no Discurso Parlamentar como no Discurso Geral são dotadas de unidade semântica e correspondem a escolhas únicas, razão pela qual acreditamos poderem constituir já, ou virem a constituir, sintemas que, naturalmente vêm enriquecer a língua, contribuindo assim para que nela exista uma dinâmica que reflecte a da própria vida. Estarão neste caso, por exemplo:

‘reforma agrária’

‘programa eleitoral’

‘política interna’

‘uso externo’

que se comportam como as unidades acima referidas, não admitindo, portanto, modalidades que incidam sobre um só dos seus elementos constitutivos:

‘reforma agrária’ não admite ‘reforma muito agrária’

‘programa eleitoral’ não admite ‘programa muito eleitoral’

‘política interna’ não admite ‘política muito interna’

‘uso externo’ não admite ‘uso muito externo’

Os modelos de sintemas que julgamos ter encontrado nos dois corpora analisados obedecem a dois dos modelos já descritos a propósito da sua formação, a saber:

substantivo + adjectivo -->

adjectivo + substantivo -->

Concluindo, o pequeno estudo exploratório de carácter lexical que fizemos confirmou a possibilidade de associação das palavras, que, co-ocorrendo no discurso, formam combinatórias que o tempo e o uso se encarregam de armazenar no nosso léxico mental. Nelas a ordem dos elementos é sempre respeitada e o sentido veiculado é único, conclusão que acreditamos válida para os dois tipos de discurso em causa – Parlamentar e Geral. Parece-nos, contudo, que esta faculdade de associação ocorre mais frequentemente no discurso político (Parlamentar), apontando para uma maior especificidade e para uma maior coesão da linguagem. Duas tendências opostas se manifestam, portanto, nos corpora analisados: maior concentração de combinatórias no discurso parlamentar, e, naturalmente, maior dispersão no discurso geral, confirmando-se, assim, que o princípio idiomático, segundo o qual os indivíduos começam por usar escolhas únicas é mais forte no discurso especializado.

Com este trabalho pretendemos dar um pequeno contributo para o conhecimento da forma como as palavras se associam no discurso político/ parlamentar, sabendo embora que a presente pesquisa representa apenas o levantar do véu.

 

Editado con el apoyo de
Editado com o apoio da: