Actas / Atas
1988-2002
Presentación / Apresentação
I Simposio (1988)

II Simpósio (1990)

    Índice
III Simposio (1992)
IV Simposio (1994)
V Simposio (1996)
VI Simposio (1998)
VII Simpósio (2000)
VIII Simpósio (2002)
Índice por autores

 

 

Projeto lexicográfico sobre a língua portuguesa
(variante brasileira, língua escrita) [
1]

Maria Tereza Camargo Biderman *
Guiomar Fanganiello Calçada **
Paltonio Daim Fraga **
* Universidade Estadual Paulista "Júlio de Mesquita Filho"
** Universidade de São Paulo
Brasil

 

Resumo

O português é uma língua de civilização desprovida quase totalmente de pesquisa básica em léxico-estatística, área fundamental para a lexicografia, o ensino da língua materna e a recuperação de informação científica. Donde a necessidade de coletar-se um corpus variado e representativo de todos os domínios de uso da língua, para processá-lo computacionalmente e obter os vários produtos tais como: dicionário de freqüência, concordância de textos, etc., o que é o propósito deste projeto. A base de dados constará de três milhões de ocorrências lexicais, extraídas de textos representando os vários domínios da língua escrita: literatura romanesca (romances e contos), literatura dramática (teatro e roteiro de TV), literatura jornalística (jornais e revistas de grande circulação no Brasil), literatura técnico-científica (todos os domínios do conhecimento). Deve-se obter resultados sobre a distribuição do uso dos vocábulos da língua portuguesa em cada um dos quatro subcorpora. Por outro lado, poderemos saber quais são os vocábulos da área técnico-científica que se vulgarizaram, entrando para a língua comum.

Objetivo: compilação de um banco de dados do português contemporâneo a fim de elaborar um Dicionário de Freqüências do Português Contemporâneo e Concordâncias de Textos.

 

I. Introdução

O português é uma língua de civilização desprovida quase totalmente de pesquisa básica em léxico-estatística, área fundamental para a Lexicografia, o ensino da língua materna, a classificação e recuperação de informação científica em biblioteconomia e informática. Não temos, por exemplo, nenhuma lista confiável das 1.000 palavras mais freqüentes da língua, das 2.000 mais freqüentes, das 5.000 mais freqüentes, das 12.000 mais freqüentes, etc. (língua escrita). Todas as línguas modernas de civilização dispõem dessas referências básicas (o inglês, o alemão, o francês, o italiano, o espanhol possuem resultados de várias pesquisas). Ora, sabe-se que o ensino do vocabulário nas escolas primárias e secundárias deve avançar por etapas. Conseqüentemente, as cartilhas, os livros didáticos de português para o primário, os textos para ensino de excepcionais e reeducação de afásicos, os materiais para o ensino do português para estrangeiros, enfim, todos esses recursos pedagógicos fundamentam-se em um vocabulário aleatório, com evidentes prejuízos para o ensino e o aprendizado. [2]

Por outro lado, no Brasil, um dicionário-padrão como o Aurélio e as gramáticas escolares (Celso Cunha, Bechara, Cegalla, Rocha Lima, etc.), que exercem um papel normativo e prescritivo como norma social, continuam a pautar-se por modelos de épocas passadas e baseados em padrões freqüentemente já caídos em desuso. Os dicionários vêm-se copiando desde os tempos em que Bluteau (1712-1721) e Morais (2a ed. 1813) publicaram suas obras pioneiras. Como se sabe, nos países de língua inglesa, francesa, italiana, espanhola, alemã, sueca, etc., para citar alguns, de há muito o computador é a ferramenta básica para a elaboração de dicionários da língua, dicionários técnicos e científicos, dicionários históricos. No mundo de língua portuguesa procedemos ainda como fizeram Bluteau e Morais no século XVHL Não se pode produzir obras lexicográficas que, de fato, espelhem os valores sintático-semânticos das palavras, sem o auxílio de dicionários de freqüência e concordâncias de texto. A mesma asserção vale para a gramática da língua. Até quando os nossos estudantes deverão memorizar os usos incomuns, raros e literários dos elementos lingüísticos que as gramáticas correntes geralmente registram como "modelo ideal"?

Creio que as razões acima arroladas constituem um ideário pragmático de alta relevância para justificar o projeto abaixo descrito.

 

II. Descrição e caracterização do projeto.

O Dicionário de Freqüências e as Concordâncias de Textos serão realizados a partir de um corpus do português contemporâneo, língua escrita (de 1960 a 1990). O corpus será constituído de 3.000.000 de ocorrências vocabulares de linguagem escrita, variante brasileira.

Esse corpus deve ter uma composição heterogênea, a saber:

literatura novelesca (romance e conto)

literatura dramática (teatro, scripts de televisão)

literatura jornalística (revistas e jornais de maior tiragem e divulgação)

literatura técnico-científica das principais áreas do conhecimento.

A distribuição percentual desses subcorpus será planejada tendo em vista sua maior ou menor presença e significação na língua comum da sociedade brasileira.

A heterogeneidade do corpus assim se explica: os diferentes tipos de literatura utilizam um vocabulário distinto conforme o gênero e o assunto, bem como representam estilos e registros diversos. Por conseguinte, para se obter uma amostra significativa do português contemporâneo é preciso utilizar todos esses componentes. As 3.000.000 de ocorrências vocabulares acima referidas seriam extraídas de textos variados, numa média de 500 palavras gráficas para cada fragmento.

Um corpus de 3.000.000 de ocorrências vocabulares não é um corpus pequeno, mas também não é muito grande. Mencionarei alguns exemplos de trabalhos de estatística léxica, baseados em corpora processados em computador para servirem como parâmetro.

1. Os cinco dicionários de freqüência das línguas românicas, elaborados por Alphonse Juilland e sua equipe em Stanford University (Califórnia, USA) de 1960 a 1972 [3]. Cada um desses dicionários baseou-se em um corpus de 500.000 ocorrências, o que é sabidamente insuficiente pelos resultados já obtidos em léxico-estatística, dada a vastidão do léxico.

2. Lessico di Frequenza delia Língua Italiana Contemporânea (U. Bortolini, C. Tagliavini, A. Zampolli, IBM Italia, 2971) baseou-se num corpus de 500.000 ocorrências de palavras, extraídas de obras publicadas entre 1947-1968, nos seguintes domínios: teatro, romance, cinema, jornais e revistas, material didático.

3. O American Heritage Word Frequency Book (1971) fundamentou-se em um corpus de 5.088.721 palavras, volume de dados já bem significativo, em se tratando do léxico de uma língua de civilização, no caso, o inglês. Essas 5.088.721 ocorrências de palavras foram retiradas de 1.075 textos (livros escolares e didáticos do nível secundário), sendo o tamanho de cada amostra de 500 palavras.

4. Os trabalhos de computação léxica realizados pelo Institut de la langue française sobre o francês (séculos XIX e XX), revelaram o espantoso acervo de 800.000 unidades léxicas diferentes na língua francesa (tipos). Para as ambiciosas tarefas planejadas e em execução neste instituto, entre outras ,o Dictionnaire de la langue française du XIXème et XXème siècle , reuniu-se o fantástico corpus de 100.000.000 de palavras, que foram processadas pelo computador. Esse processamento gerou vários tipos de concordâncias, de índices de freqüência e outras variedades de materiais léxico-estatísticos de enorme utilidade lexicográfica e lingüística.

5.0 Português Fundamental (PF) resultou de uma pesquisa feita sobre o português oral (variante européia) de 1970-1982. O volume de dados do PF é superior ao do FDPW, ou seja, 700.000 palavras, contudo ainda insuficiente, sobretudo por tratar-se de um corpus da língua falada, sabidamente mais pobre e menos variada lexicalmente que a língua escrita. O objetivo principal dessa pesquisa era obter um vocabulário fundamental e dados estatísticos sobre as estruturas básicas do português. Esses materiais destinam-se ao ensino da língua portuguesa para estrangeiros. Convém frisar, porém, que há sensíveis discrepâncias entre os léxicos da variante européia e os da brasileira, p. ex., máxime relativamente à língua oral. O vocabulário selecionado pela equipe do PF totalizou 2.217 palavras, vocabulário considerado fundamental para o ensino do português. Num levantamento empírico, constatei que as diferenças entre o que se deveria juntar a esse vocabulário e o que se deveria subtrair, em termos de português brasileiro, oscila em torno de 100 unidades lexicais.

Como bem frisou Georges Matoré (La méthode en Lexicologie. Domaine Français, 1953), o léxico é a testemunha de uma sociedade. Eis por que para se obter uma radiografia do português contemporâneo, testemunha dos vários domínios do uso lingüístico nas diferentes sociedades que se servem do português como instrumento de comunicação, será preciso coletar um corpus amplo e representativo da língua que hoje utilizamos.

Este projeto levará em consideração as pesquisas e resultados já obtidos sobre o português e outras línguas. Quantitativamente, se aproxima ao American Heritage Frequency WordBook e é muito despretensioso em face ao Trésor de la Langue Française. Contudo, o volume de dados que se pretende coletar e processar (3 milhões de palavras) é significativo. Do ponto de vista léxico-estatístico será mais representativo que o FDPW e que o PF. Por outro lado, em virtude da aceleração das mudanças lingüísticas em nossos dias, decorrente da aceleração das mudanças sócio-culturais, o léxico renova-se hoje a um ritmo relativamente rápido. Segundo a Prof a Josette Rey-Debove, da Universidade de Paris e lexicógrafa experiente (dos dicionários Robert), a renovação dos vocábulos franceses é da ordem de 10% em 25 anos, num conjunto lexical de 50.000 palavras. Esse parâmetro certamente serve para o português. Donde se conclui que o FDPW está superado com respeito ao acervo léxico coligido (corpus do português europeu de 1920-1940), considerando-se o repertório lexical do português contemporâneo. Ademais, esse dicionário de freqüência contém alguns defeitos na sua elaboração (particularmente na lematização), e teria que ser refeito de qualquer forma. Por outro lado, os dados coletados pelo PF e pelo projeto NURC (Norma Urbana Culta das principais metrópoles brasileiras - São Paulo, Rio de Janeiro, Recife, Porto Alegre e Salvador) representam a língua falada, nitidamente distinta do registro escrito, sobretudo com respeito ao léxico.

 

III. Referências lexicográficas básicas: o Dicionário de Freqüência e as Concordâncias de Textos.

Um dicionário de freqüência é um produto cultural de grande utilidade. Exibe uma espécie de radiografia do tesouro lexical de uma língua.

Suponhamos que o português contemporâneo escrito abarque umas 100.000 unidades vocabulares diferentes (vocábulos-tipo) [4], incluídos aí os termos técnicos relativamente vulgarizados, palavras de uso exclusivamente literário, regional e umas tantas desusadas. Nesse total, porém, não estariam incluídos grande parte dos topônimos e antropônimos e os vastíssimos repertórios das linguagens técnicas e científicas não vulgarizadas, bem como um vasto contingente de regionalismos e vocábulos típicos das diferentes variedades do português (europeu, angolano, moçambicano, etc.). Também estão excluídas do tesouro do Aurélio , por exemplo, numerosíssimas palavras usadas em outras épocas da história do nosso idioma (português dos séculos XVI, XVII, XVIII, XIX), como se pode constatar confrontando-se esse dicionário com dicionários mais antigos (Bluteau 1712-1721; Elucidário de Viterbo, 1798-9; Morais, 1813; Vieira, 1871; Aulete, 1881; Cândido de Figueiredo, 1899).

Ora, para podermos utilizar eficientemente o thesaurus vocabular da língua segundo os fins desejados, não se pode evidentemente operar com 100.000 unidades, menos ainda se considerarmos que um grande número das palavras constituintes do léxico são polissêmicas, isto é, possuem 2,3,..., n significados e que essas palavras são as de uso mais freqüente, ampliando-se assim enormemente a rede semântica a ser operacionalizada. Contudo, um domínio da ciência lexicológica contemporânea - a léxico-estatística - evidenciou aspectos importantes dos vastíssimos tesouros colocados à disposição dos falantes, em qualquer língua de civilização. Na verdade, um indivíduo médio domina umas 20.000 palavras no seu vocabulário ativo e passivo. Por outro lado, a distribuição do uso das unidades léxicas é função de alguns fatores: 1) o registro usado (língua oral ou escrita, formal ou informal, etc.); 2) o tópico tratado (culinária, botânica, astronomia, etc.); 3) o gênero utilizado (linguagem literária romanesca, dramática, poética, jornalística, técnica, científica). Eis por que um dicionário de freqüência, que inclua parâmetros estatísticos para cada uma das suas entradas léxicas, contém indicadores de grande utilidade. O índice de distribuição (ou repartição, como dizemos portugueses), por exemplo, corrige a distorção do índice da freqüência absoluta, no caso das palavras plenas, ou de significação. No caso das palavras instrumentais, como artigos, preposição, etc., a freqüência absoluta não é enganadora, porque geralmente ela é acompanhada de uma distribuição uniforme, não importando o registro usado, o tópico, ou o gênero.

Os parâmetros estatísticos de um dicionário de freqüência (freqüência, uso, dispersão, freqüência por milhão) acrescentam dimensões importantes a cada palavra do léxico da língua, a saber: evidenciam sua importância relativamente ao repertório vocabular de cada gênero (romance, teatro, jornalismo, cada área do conhecimento). São, portanto, úteis tanto para o trabalho de elaboração de dicionários (gerais ou técnicos) como para a redação de livros didáticos. E ainda para vários outros fins. Assim, por exemplo, se uma palavra ocorrer três vezes num corpus de 3 milhões de palavras e só num tipo de gênero (botânica, v.g.), claro está que ela não deve ser utilizada num livro didático até a 8 a série do 1° grau (sistema brasileiro).

As concordâncias de textos são listas de contextos impressos pelo computador. Elas têm basicamente a seguinte configuração: uma palavra-chave é posta em evidência, ladeada pelo contexto em que ocorreu. O computador localiza e imprime todas as ocorrências dessa palavra no corpus utilizado no processamento de dados. Tem-se assim toda a informação armazenada no banco de dados sobre essa palavra-chave, reunida num bloco seqüencial de fácil consulta para o lexicógrafo, gramático, ou qualquer outro especialista.

 

[1] Este projeto se associa ao do Prof. Francisco da Silva Borba de elaboração de um Dicionário de usos do português contemporâneo do Brasil.

[2] Recentemente (1984, 1987), o Instituto Nacional de Investigação Científica e o Centro de Lingüística da Universidade de Lisboa publicaram três volumes relativos ao PORTUGUÊS FUNDAMENTAL, pesquisa realizada pelo CLUL de 1970-1982 sobre o português falado em Portugal, com o objetivo de fornecer instrumentos para o ensino do português a estrangeiros.

[3] Frequency Dictionary of Spanish Words, 1964.
Frequency Dictionary of Rumanian Words, 1965.
Frequency Dictionary of French Words, 197L
Frequency Dictionary of Italian Words, 1973.
Frequency Dictionary of Portuguese Words, 1972 (não publicado).

Os quatro primeiros dicionários foram publicados pela editora Mouton de Haia.

[4] Segundo Aurélio Buarque de Holanda Ferreira, este é o número de palavras incluídas em seu dicionário (1 a versão, 1975). No exíguo prefácio da 2 a edição (1986), o autor afirma que aumentou 35% do total de entradas da 1 a ed. sem, contudo, citar números.

 

V. Bibliografia.

Advances in Lexicology. Procecdings of the Second Conference of the Centre for the New OED, University of Waterloo, Waterloo, November, 1986.

Alcalá, A., Rodriguez, C, Sopeña, L. & Villar, C. Codificación de los verbos para una caracterización sintáctica en ordenador. Centro de Investigación UAM-IBM, Madrid, 1989.

Atkins, B.T. "Corpus Evidence for Dictionary Senses" in Uses of Large Text Data Bases. Proceedings of 3rd Annual conference of U W Centre for the New OED, Waterloo, 1987, p. 1-25.

_______. Practical Lexicography Workbook. 3rd ESF Summer School in Linguistics, "Computational Lexicology and Lexicography". Pisa, 1988 (manuscrito xerocopiado).

Bertolini, V. et alii. Lessico di frequenza della lingua italiana contemporanea. IBM, Itália, 1971.

BIDERMAN, M.T. Teoria Lingüística (lingüística quantitativa e computacional). Rio de Janeiro, LTC, 1978.

Byrd, HL Data Bases for Lexical Data. IBM Research Center, New York, 1988 (manuscrito xerocopiado).

Calzolari, N. & Picchi, E. Tools for Lexicographic Workstation. ESF Summer School, Pisa, 1988 (manuscrito xerocopiado).

Carrol, J., Davies, P. & Richamn, B. The American Heritage Word Frequency Book. New York/Boston, American Heritage Publishing Co., Inc., Houghton Mifflin Co, 1971.

Computational Lexicography for Natural Language Processing. (ed. by B. Boguraev & T. Briscoe). London, Longman, 1990.

Delatte, L. et alii. "Le traitement automatique de la langue française au laboratoire d'analyse statistique des langues anciennes". in Revue des Etudes Anciennes. 1977,4, p. 1-55.

Duncan, J. Frequency Dictionary of Portuguese Words. Stanford, Stanford University, 1972 (Ph.D. Dissertation).

Ferrari, G. "Dictionnaire automatique et dictionnaire-machine: une hypothèse" in Computational and Mathematical Linguistics. Proceedings of the International Conference on Computational Linguistics. Pisa, 1973. Firenze, Leo Olschki Ed. 1977, p. 257-262

Hopcroft, J. E. & Ullman, J. D. Introduction to Automata Theory, Languages and Computation. Melon Park, Ca., Addison Wesley Publishing Co., 1979.

Key-Word-in-Context Indexing. IBM Data Processing Techniqnes, 1962 (manuscrito xerocopiado).

Jackendoff, R. Consciouness and the Computational Mind. Cambridge, Mass. The MIT Press, 1987.

Juilland, A. & Rodriguez, C. Frequency Dictionary of Spanish Words. The Hague, Mouton, 1964.

Juilland, A., Edwards, P. M. H. & Juilland, I. Frequency Dictionary of Rumanian Words. The Hague, Mouton, 1965.

Juilland, A. & Travessa, V. Frequency Dictionary of Italian Words. The Hague, Mouton, 1973.

La pratique des ordinateurs dans la critique de textes. Editions du Centre National de la Recherche Scientífique. Paris, 1979.

Les principes d'utilisation du système de base textuelle STELLA. Nancy, Institut de la Langue Française.

Martin, E. "Une banque de données sur la langue française". Brises. Bulletin de recherches sur l'information en sciences économiques, humaines et sociales. La linguistique dans les systèmes documentaires, avril 1984, n° 4.

McNaught, J." Terminological data banks: a model for a British linguistic data bank" (LDB). ASLIB Proceedings, 33 (7/8), 1981, p. 297-308.

Muller, C. Initiation à la Statistique Linguistique. Paris, Larousse, 1968.

_____. Principes et Méthodes de la Statistique Lexicale. Paris, Hachette, 1977.

Neff, M. S., Byrd, R.J. & Rizk, O. A. Creating and Querying Data Bases. Research Report IBM Research Division. N. York, 1987.

Paikeday, T. M. "Language analysis and Lexicography by Microcomputer" (Comunicação feita no encontro ADS-MLA, 1981).

Porsch, J. M. "Lingüística Computacional. Elaboração de um diploma para a Língua Portuguesa" in Letras de Hoje. Porto Alegre, PUCRS, V. 22, n. 1, 1987, p. 97-108.

Português Fundamental, Vocabulário e gramática. Lisboa, Instituto de Investigação Científica, Centro de Lingüística da Universidade de Lisboa. Tomo 1, 1984.

Português Fundamental. Métodos e Documentos. Tomo I e II. Lisboa, Instituto de Investigação Científica, Centro de Linguística da Universidade de Lisboa, 1987.

Raw, A., Vandecapelle, B. & Van Eynde, F. Eurotra: an Overview (manuscrito xerocopiado).

Sherman, D. "Retrieving Lexicography Citations from a Computer Archive of Language Materials" Annals of the New York Academy of Sciences, 211, 1973, p. 137-142.

Sinclair, J. M. (editor) et alii. Looking up. An account of the COBUILD Project in Lexical Computing. London, Collins Cobuild, 1987.

Walters, A. M. "Los diccionarios de frecuencia y las calculadoras electrónicas" in Linguística Española Actual. Instituto de Cooperación Iberoamericana. Madrid, III/2 - 1981, p. 275-284.

 

Editado con el apoyo de
Editado com o apoio da: