|
Tradução automática hoje: uma visão panorâmica
Ulf G. Baranow
Senado Federal
Brasil
Resumo
Após uma breve visão histórica da tradução automática (TA), são abordados fatores lingüisticamente limitativos e alguns aspectos técnicos. Apresentam-se as estratégias básicas até hoje utilizadas na TA e os tipos de tradução computadorizada disponíveis. A título ilustrativo, segue uma descrição sucinta e crítica do projeto EUROTRA. A exposição termina com uma visão geral do mercado atual de TA, aventando-se alguns prognósticos gerais.
I. Breve retrospecto histórico
O início da tradução automática, (TA) geralmente, é situado na década de 1950, após a Segunda Guerra Mundial. Entretanto, sabe-se hoje que nos EUA já se faziam pesquisas de TA durante a guerra, especialmente na área militar, sob a responsabilidade dos serviços de inteligência. Estes dispunham do saber-fazer para traduzir automaticamente códigos militares, obviamente diferentes de mensagens emitidas em linguagem natural. É compreensível, pois, que as primeiras propostas de TA, surgidas naquele contexto, encarassem a tradução de (ou para) um idioma estrangeiro como mero problema de criptografia. Num memorando enviado em 1948 pelo matemático americano Warren Weaver [1] para seu colega Norbert Wiener [2], conhecido como o "pai da automação", aquela visão encontra-se claramente documentada:
É possível que o problema da tradução possa ser teoricamente tratado como um problema de criptografia. Quando vejo um artigo escrito em russo, eu diria: na realidade, isto está escrito em inglês; foi apenas codificado com certos símbolos estranhos que é preciso decifrar." [3]
A concepção subjacente às primeiras iniciativas de TA partiu significativamente de engenheiros e teóricos da comunicação, sem a intervenção de lingüistas. Todavia, o desconhecimento das características naturais da linguagem humana contribuiu para que essas iniciativas de TA chegassem logo a um impasse, pois os objetivos dessas pesquisas haviam sido estabelecidos sem que se levasse em conta a intrincada natureza do objeto "língua".
Em 1954, a Universidade de Georgetown em Washington, D.C., juntamente com a IBM, realizou a primeira demonstração pública de uma tradução por computador. Traduziu-se um pequeno corpus textual do russo para o inglês, fato esse entusiasticamente festejado pela grande imprensa nos EUA. O Ministério da Defesa e o Serviço de Inteligência daquele país passaram a subvencionar generosamente os projetos de P & D em TA. Projetos similares surgiram então na Inglaterra, França e União Soviética. Os primeiros projetos na China datam também da década de 1950.
Na primeira fase da TA por computador, as propostas de pesquisa e desenvolvimento nesta área tinham como objetivo obter rapidamente traduções de boa qualidade. Um estímulo inesperado para a TA nos EUA foi o choque provocado pelo lançamento do primeiro satélite artificial soviético, o "Sputnik", em 1957. No intuito de alcançar e ultrapassar a URSS, os americanos começaram a interessar-se sistematicamente pelos resultados das pesquisas científicas soviéticas, o que gerou uma imensa demanda de traduções do russo para o inglês. Com isso, a TA tornou-se também área estrategicamente importante, e por isso prioritária no contexto científico americano.
Entretanto, na década 1960, as dificuldades de natureza propriamente lingüística inerentes ao processo tradutório por computador tornaram-se cada vez mais evidentes. O desencanto teve seu apogeu em 1966 no famoso Relatório ALPAC (sigla de "Automatic Language Processing Advisory Committee"), encomendado pela Academia Nacional de Ciências dos EUA. Em decorrência desse relatório, que apresentou uma análise crítica e muito pessimista das possibilidades de desenvolvimento da TA, as subvenções as pesquisas na área foram praticamente suspensas nos EUA e, por extensão, também em outros países.
Em 1975, não havia nenhum projeto de TA nos EUA que estivesse subvencionado com verbas públicas [4], embora vários órgãos do governo continuassem a utilizar a TA em seus serviços. Isto porque não havia alternativas para traduzir com a rapidez desejada as informações provindas de fontes estrangeiras, sobretudo de fontes soviéticas.
Se, de um lado, haviam sido extintas as subvenções governamentais, de outro, a iniciativa privada continuou a desenvolver programas de TA e de TAC (tradução auxiliada por computador) para satisfazer a uma demanda de mercado sempre crescente. Somente a partir da década de 1980, pode-se falar novamente em P & D com subvenções oficiais nessa área.
Hoje, os centros geradores de conhecimentos na área da TA situam-se em vários países. De acordo com estimativas recentes, há uma nítida predominância do Japão, com cerca de duas vezes mais pesquisadores envolvidos com TA que o resto do mundo junto [5]. A dedicação japonesa à TA decorre da divulgação restrita de seu idioma, da necessidade daquele país em exportar sua tecnologia (acompanhada de marketing e de manuais em idiomas estrangeiros), de absorver seletivamente a informação técnico-científica gerada em outros centros avançados e, além disso, de oferecer software de TA ao mercado internacional, acompanhando seus computadores de última geração.
Os EUA e alguns países da Europa Ocidental figuram com cerca de 400 pessoas envolvidas em P & D de TA. Nos EUA, o maior grupo constituiu-se inicialmente em tomo do projeto SYSTRAN. Formaram-se grupos de pesquisa em algumas universidades americanas e canadenses. Outros grupos estabeleceram-se em Grenoble (França) e em Saarbrücken (R.F.A.), na Holanda, na Inglaterra e na Itália. O projeto europeu- ocidental EUROTRA é atualmente o maior do Mundo, com cerca de 100 colaboradores, envolvendo centros de pesquisa em todos os países-membros da Comunidade Européia (CE).
Desde os seus primórdios, se estabelecera na CE o princípio da igualdade de tratamento para cada uma das línguas oficiais de seus países-membros, inicialmente o francês, alemão, italiano e holandês. Posteriormente, juntaram-se o inglês, dinamarquês e grego e, por último, as línguas espanhola e portuguesa. Dessa forma, coexistem atualmente nove idiomas oficiais na CE, para os quais devem ser traduzidos todos os documentos oficiais de seus órgãos supranacionais. Disso resultam 72 = (9 x 8) pares lingüísticos para a tradução. Corno as instituições e a burocracia da CE estão e m franco crescimento, também com vistas à unificação européia em 1992, a quantidade de documentos a serem traduzidos está aumentando cada vez mais.
II. Alguns aspectos técnicos da tradução automática
1. A problemática das limitações. Antes de abordar alguns aspectos técnicos da TA, tentemos responder à questão sobre o que caracteriza a tradução enquanto processo ou produto, e qual pode ser o papel desempenhado pelo computador na tarefa de traduzir de uma língua-fonte (LF) para uma língua-alvo (LA).
Pelo menos desde o Cours de linguistique générale do lingüista Ferdinand de Saussure, postumamente publicado em 1916, tornou-se quase lugar comum encarar a linguagem natural como um sistema constituído de signos com a dupla face de significante e significado, ou dito de outro modo: o signo lingüístico apresenta simultaneamente forma e conteúdo. No processo tradutório é precisamente esse conteúdo (ou significado) que deve ser preservado, refletindo fielmente o que consta do texto original, na língua-fonte.
Sabemos outrossim que a fidelidade na tradução freqüentemente é problemática, especialmente quando houver diferenças estruturais de "visão de mundo" entre os idiomas envolvidos.
O caminho percorrido pela tradução, entre uma LF e uma LA, pode ser encarado sob o aspecto da substituição de signos lingüísticos. Esses signos podem ser representados por morfemas, lexemas (representando as tradicionais "palavras"), locuções, orações, períodos, parágrafos e textos inteiros. Na tradução humana, antes de desencadear o processo tradutório propriamente dito de um desses signos, procuramos entender seu conteúdo (ou significado), para só então escolher na LA o(s) signo(s) que melhor parece(m) corresponder-lhe.
No caso da TA devemos ter presente que o computador pode armazenar e manipular imensas quantidades de símbolos lingüísticos, substituindo por exemplo, com o auxílio de regras fixas transformados em programas, símbolos e um conjunto X por outros de um conjunto Y. Entretanto, para a tradução, a manipulação de formas não é suficiente. O ponto decisivo é a preservação do significado da frase ou do texto a ser traduzido. Esse significado não só sé vincula aos lexemas individualmente considerados, como decorre também da área do conhecimento, do contexto, da sintaxe etc. É neste ponto que está ainda a principal limitação dos recursos computacionais em relação ao funcionamento do cérebro humano: apesar de o computador manipular os signos lingüísticos como outros quaisquer, ele não tem "acesso direto" aos seus significados. Se a relação entre os significados de dois signos em duas línguas LA e LF fosse de 1:1, não haveria problema algum para o processo tradutório computacional, que se reduziria a uma simples substituição de signos. Infelizmente, essa suposta identidade entre diferentes idiomas é antes a exceção do que a regra. Mesmo em línguas geneticamente tão próximas quanto o espanhol e o português, a simples substituição de signos não gera, necessariamente, uma tradução aceitável, mas pode conduzir a mal-entendidos graves.
Por outro lado, para estabelecer correspondência de conteúdo entre duas línguas, não basta o nível lexical. Torna-se preciso levar em conta a sintaxe, o nível locucional, frasal, oracional ou alguma inter-relação significante entre esses níveis, além do contexto extralingüístico. Registramos pois diferenças estruturais significativas entre diferentes línguas, sejam elas aparentadas ou não. Por isso, em Teoria da Tradução [6], parte-se do pressuposto, empiricamente verificável, que a tradução humana constitui um processo de regulação funcional, com retroalimentação constante, em que se compensam elementos textuais interlingüísticos não idênticos por meio de procedimentos tradutórios apenas indiretamente verbais.
De tudo isso resulta uma diferença qualitativa essencial entre a tradução humana e aquela a cargo de um computador, razão pela qual não se deve tentar reproduzir no contexto deste último a capacidade tradutória humana, mas assumir as limitações (além das potencialidades) computacionais. Já que o computador não pode processar strictu senso o conteúdo, a exemplo do cérebro humano, torna-se preciso estabelecer correspondências formais, capazes de suprir aquela função. Tenta-se chegar assim, por vias fundamentalmente diferentes a resultados iguais, ou pelo menos semelhantes, aos produzidos pela tradução humana.
2. Tipos de tradução automática. Para o processamento da TA existem basicamente três diferentes estratégias: 1) a tradução direta; 2) a tradução por meio de uma interlíngua e 3) a tradução por meio de um processo chamado transferência. [7]
(1) Nos primeiros sistemas de TA predominava a estratégia direta. Esses sistemas eram elaborados para determinados pares de idiomas, por ex., russo-inglês, limitando-se a análise automática das frases na LF a possíveis problemas que poderiam surgir durante o processamento neste par de idiomas. As palavras ou construções sintáticas na LF, que não ofereciam problema algum de tradução, nem sequer eram objeto de análise, sendo diretamente substituídas por seus equivalentes na LA. Em caso de dificuldade de tradução (mudança da estrutura sintática de LF para LA, homografias, polissemias etc.), o dicionário da LF era suprido com as informações adicionais necessárias ao desempenho da TA.
Os programas de TA direta caracterizam-se por seu feitio ad hoc , sem a preocupação de uma base teórica coerente, explícita ou implícita. Seu único critério era produzir um resultado aceitável, razão pela qual esses programas se consistem basicamente de regras que convertem formas lingüísticas da LF para formas lingüísticas na LA.
(2) A segunda estratégia da TA, utilizando-se uma interlíngua (ou língua-pivô), surgiu da necessidade de se superarem as limitações impostas pela TA direta. A estratégia tradutória com essa língua intermediária baseia-se no pressuposto de que o significado, expresso na língua-fonte, pode ser considerado independentemente dessa língua já que, pela própria essência da tradução, o significado permanecerá idêntico na LA. Dessa maneira, a representação lingüística ao nível de significado (conteúdo) seria sempre a mesma, independentemente do idioma. Na Teoria Lingüística e na Filosofia da Linguagem, esse assunto é abordado no estudo dos chamados universais lingüísticos.
A favor do uso de uma interlíngua, haveria ainda argumentos de natureza técnica e econômica, especialmente para um contexto multilíngüe como o europeu [8] . As línguas que fossem objeto de tradução seriam, numa primeira fase, traduzidas apenas para essa interlíngua que poderia ser uma língua artificial ou mesmo uma língua natural. Assim, se N for o número de idiomas envolvidos nessa tradução multilíngüe, então a inserção de urna interlíngua reduziria de N (N - 1) para 2N o número de módulos tradutórios necessários [9]. No caso da CE, atualmente com 72 pares lingüísticos, resultariam, neste caso, apenas 18 pares (=2x9).
Dentre os projetos mais importantes de TA, em que foi implementada a idéia de uma interlíngua, figuram atualmente: ROSETTA (da multinacional Philips, em Eindhoven, Holanda), DLT (Distributed Language Translation (em Utrecht, Holanda), TRANSLATOR (Colgate University, Nova York), LUTE e LAMB (ambos no Japão) e muitos outros. Entre estes, mencione-se ainda o caso curioso do ATAMIRI (Automata Traductor Algorítmico Multilíngue Interactivo Recursivo Inteligente), desenvolvido na Bolívia, com o idioma indígena aimará como interlíngua.
(3) A TA, por meio da transferência, surgiu a partir das dificuldades encontradas nos sistemas baseados numa interlíngua, onde os resultados freqüentemente pecavam pela falta de coerência. Na estratégia por transferência, ao contrário da interlíngua, parte-se da hipótese de que a representação do significado de uma unidade lexical ou gramatical é específica da língua em questão, dependendo ainda do seu uso contextual. Enquanto isso, no caso da interlíngua, artificialmente construída ou escolhida para desempenhar essa função, os significados específicos de cada língua são simplesmente aplainados, isto é, reduzidos a significados-padrão, a exemplo de algarismos. Por essas razões, e com o objetivo de dar conta das diferenças interlingüísticas na TA, postulou-se para fins operacionais automáticos, a existência de um módulo interposto entre a análise na LF e a síntese na LA, chamado transferência (ingl. transfer ). Neste módulo, a representação abstrata, formalizada a partir do significado na LF é transferida para a representação formal desse mesmo significado na LA. A transferência é, portanto, efetuada em duas fases consecutivas: primeiro, é realizada a análise na LF com vistas a uma representação abstrata, já orientada para a LA. Em seguida, é gerada a tradução na LA a partir daquela representação. O módulo da transferência constitui uma interface, aproximando a LF e a LA. Variam de um sistema de TA a outro o grau de abstração e o tipo de informações sintéticas, semânticas ou pragmáticas adicionais, que estão contidas no módulo da transferência.
A maior parte dos sistemas de TA atualmente em desenvolvimento recorre de um modo ou outro à transferência. Citem-se entre os mais importantes projetos os do GETA (Grenoble, França), SUSY (Saarbrücken, RFA), MU (Kyoto, Japão), METAL (Universidade do Texas, EUA) e o maior deles: EUROTRA. No âmbito da pesquisa japonesa, há hoje uma nítida preferência por esta estratégia no processo tradutório computadorizado.
Há ainda uma outra distinção importante, relativamente aos sistemas de TA existentes: referimo-nos à tradução totalmente automática (TTA) e à tradução auxiliada por computador (TAC) [10]. No primeiro tipo, normalmente, não intervém o elemento humano durante o decurso tradutório, desde a entrada do texto até sua saída. Trata-se de um processamento em lotes (ingl. batch processing ), sendo esta a modalidade mais sofisticada da tradução computadorizada. Neste caso, pode (e freqüentemente deve) haver uma padronização manual do texto antes de ele entrar no computador, a chamada pré-editoração. Em outros casos, pode ser desejável ou necessária uma revisão do texto traduzido automaticamente; é a chamada pós- editoração. Note-se que a TA totalmente automatizada, com um mínimo de pré e pós-editoração, é hoje empregada em áreas muito restritas, com tipos de texto mais ou menos padronizados. O sistema mais difundido - apesar de suas limitações - é ainda o SYSTRAN.
Por sua vez, a tradução auxiliada por computador (TAC) subdivide-se ainda em duas subcategorias, dependendo se é o computador que contribui para facilitar a tradução humana, ou se é o tradutor que intervém com seu auxílio no processo tradutório, já maciçamente computadorizado. Em ambos os casos, o homem (isto é, o tradutor) pode interagir com o programa, seja suprindo as limitações do mesmo, seja valendo-se dos recursos computacionais para elaborar melhor e mais rapidamente a chamada "tradução humana". Para esta finalidade, pode ele valer-se de consultas em linha a bancos de dados terminológicos, formatação do texto traduzido, etc. São justamente os bancos de dados, terminológicos e fraseológicos, que constituem atualmente valioso instrumento para a tradução auxiliada por computador. Além de serem acessíveis em linha, podem ser continuamente atualizados, levando vantagens sobre dicionários e glossários convencionais.
Na modalidade da interação entre o homem e o computador existe atualmente uma nítida preferência sobre os chamados sistemas interativos na TA, implementados sob várias formas:
1) Pela análise interativa, o usuário-tradutor pode auxiliar o programa na interpretação correta e na solução de dificuldades surgidas no texto de entrada (p. ex. polissemia, estruturas sintáticas complexas, termos ainda inexistentes no vocabulário armazenado na base de dados terminológicos, etc.).
2) Com o recurso da re-escritura interativa, o autor é convidado pelo programa a reformular o texto de entrada de modo tal que o programa possa traduzi-lo, em seguida, sem dificuldades. O princípio é semelhante aos programas utilizados para o ensino e a avaliação da redação monolíngüe, com auxílio do computador.
3) Semelhante à modalidade anterior é a composição interativa na qual, durante a composição do texto, o programa já tenta analisar e traduzi-lo. Nesta modalidade, pode ser exigido que um texto de entrada na LF seja mais ou menos restrito quanto à sua forma sintética e o vocabulário escolhido.
4) Na transferência interativa, o tradutor-usuário auxilia na seleção de equivalências na LA, por exemplo, quando nesta houver várias possibilidades de tradução para um único signo na LF.
5) Por meio da geração interativa deseja-se obter um texto fluente e estilisticamente adequado na LA. Esta modalidade de interação, por enquanto só teórica, aproximar-se-á, possivelmente, de uma pós-editoração interativa.
Na prática, poderá haver várias combinações dessas modalidades de interação homem-máquina na tradução, aplicando-se esse modelo tanto a sistemas de tradução que processam em lotes (ingl. batch systems ), como aos que se utilizam de uma interlíngua ou, ainda, do recurso por transferência.
III. EUROTRA - um projeto em andamento.
O maior esforço de P & D até hoje desenvolvido em TA concentra-se no projeto EUROTRA. Lançado em 1978, foi efetivamente iniciado em 1982, propondo-se a criar um sistema de TA multílíngüe para as atualmente 9 línguas da Comunidade Européia (CE), a qual é responsável pela supervisão, coordenação e financiamento deste macro-projeto.
Para justificar o vultoso investimento, os responsáveis apontam para a quantidade da demanda da tradução no âmbito da CE. A organização vem mantendo o maior grupo de tradutores no mundo, chegando seus gastos de 35% a 65 % das despesas totais com pessoal, nas diferentes instituições que lhe são subordinadas.
No projeto EUROTRA, cada país-membro é responsável pela produção dos módulos de análise e síntese de seu próprio idioma oficial, enquanto que os módulos de transferência estão sendo desenvolvidos por um grupo central. O cronograma do projeto, já alterado, compreende três etapas: a fase preparatória (1982-85), a fase de pesquisa (1985-88) e a chamada fase de laboratório (1988-90), implicando seus gastos pela CE, até este ano inclusive, mais de 50 milhões de ECU. Além disso, há ainda as contrapartidas dos países-membros.
Segue, resumidamente, a "ficha técnica" deste sistema de TA, ainda em fase de elaboração: sistema-protótipo para TA nas 9 línguas oficiais da CE (72 pares lingüísticos) - aplicação a textos escritos, eletronicamente armazenados, nas áreas de administração e tecnologia, incl. comunicações via satélite; formalismos lingüísticos próprios, especialmente elaborados para este sistema - modalidade da tradução por transferência (v. acima) entre pares de idiomas; compilação das regras lingüísticas na linguagem PROLOG - sistema operacional UNIX, em microprocessadores SUN, HP ou VAX. O sistema EUROTRA pertence, portanto, ao tipo da TA por transferência. Seu processamento tradutório compreende vários níveis intermediários entre LF e LA, agrupados em análise, transferência e síntese. Em cada um desses níveis intermediários, as frases do texto são analisadas uma a uma, de acordo com um formalismo próprio, resultando, respectivamente, uma representação abstrata da frase ou oração analisada.
Atualmente, o sistema pode ser aplicado a um universo ainda bastante limitado de frases. O seu esquema de funcionamento é o seguinte: O texto na LF é submetido a uma padronização estilística prévia (ENT) antes de entrar no sistema. Em seguida, um módulo gerador (EMS) produz automaticamente representações formais das estruturas morfossintáticas concernentes à flexão e à redução a formas gramaticais básicas.
Ao nível seguinte (ECS) determinam-se, pela estrutura da configuração, as categorias a que pertence determinada palavra ou expressão. Além das categorias da gramática tradicional (substantivo, verbo, advérbio etc.), empregam-se categorias adicionais (por ex.: coordenador, quantificador, complementador), além de outras emprestadas às modernas teorias gramaticais. Essas categorias têm a finalidade de agrupar as palavras em unidades, de tal modo que possam constituir objeto de análise (automática) nos diferentes níveis.
Os níveis EMS e ECS são seguidos pelos níveis de estrutura relacional (ERS) e a interface (IS), ainda mais abstratos que seus antecedentes. As representações aqui geradas devem satisfazer aos princípios da completude e coerência [11]. A representação será completada somente no caso em que todos os complementos, exigidos pela regência do respectivo "elemento dominante", estiverem presentes na função de dependentes. A representação abstrata, por outro lado, será coerente somente no caso em que ela não contiver mais complementos do que a referida regência exige.
A estrutura da interface, sendo o nível mais abstrato do sistema, serve de entrada aos componentes para a transferência. Neste sistema, essa representação abstrata, por enquanto, tem sido feita unicamente em termos lingüísticos, sem a participação do chamado "conhecimento do mundo real", a partir de um enfoque mais cognitivo, ou de propostas oriundas de modelos de Inteligência Artificial [12].
A estrutura da interface é concebida como um nível de transferência mínima entre a LF e a LA, para não sobrecarregar o sistema. Entretanto, é preciso assinalar que não se trata de uma interlíngua no estágio atual do desenvolvimento, embora alguns teóricos deste projeto preconizem uma aproximação daquele modelo, afim de reduzir no módulo da transferência algumas das dificuldades tradutórias, advindas da natureza multilíngüe do projeto. É evidente que, para minimizar os problemas inerentes à implementação dos módulos de transferência, será necessário maximizar os elementos comuns, abstraindo dos fenômenos muito específicos de cada idioma envolvido.
O projeto EUROTRA encontra-se atualmente em sua 3a fase (1988- 90), ao término da qual se esperava originariamente apresentar um sistema protótipo de T A, utilizável em áreas restritas do conhecimento. Hoje, já se está planejando o EUROTRA II (1991-92), com o aprofundamento das pesquisas até aqui empreendidas e com vistas a uma possível implementação industrial em 1993.
Entretanto, é preciso lembrar que este projeto se encontra ainda numa fase de pesquisa básica, enquanto permanece seu objetivo inicial de se chegar a uma TA qualitativamente de alto nível para as línguas oficiais da CE. Na verdade, ninguém atualmente, dentro ou fora do projeto, pode afirmar com segurança se este objetivo um dia poderá ser atingido. Não têm faltado críticas ao projeto EUROTRA: o aparato teórico subjacente ao projeto, além de complicado, tem sido constantemente reelaborado, a notação usada nas regras e no léxico é complicada e não parece ser muito eficiente, ocupando muita memória e atrasando o processamento. Os vocabulários elaborados para cada língua da CE são ainda restritos; das planejadas 20.000 entradas até a presente fase inclusive, apenas a quarta parte tem sido implementada, e para algumas línguas ainda menos.
Por outro lado, a idéia de se criar um sistema de TA multüíngüe, através de um projeto transnacional, tem acarretado dificuldades de execução, à vista do grau de preparo e competência dos grupos de pesquisa nos respectivos países, alguns dos quais aderiram mais tarde à CE e ao projeto. Apesar de se ter procurado conciliar os componentes centralizados com os descentralizados, no âmbito organizacional, tendo-se instituído um Grupo de Ligação que congrega todos os gerentes de grupos nacionais, tem havido dificuldades em se chegar a decisões unânimes em diferentes questões e aspectos do projeto.
Não se atingiu, até hoje, o objetivo principal incluído no cronograma original do projeto, como ainda parece ser questionável sua exeqüibilidade nos termos em que vem sendo desenvolvido. São reconhecidos os avanços teóricos em TA, gerados pelas atividades diretamente relacionadas com o projeto EUROTRA, acessíveis ao conhecimento público em inúmeros artigos e coletâneas, embora a programação computacional propriamente dita seja de acesso restrito apenas. Entretanto, um sistema de TA com um produto implementável e utilizável para a finalidade prevista, ainda parece estar muito longe de sua realização.
É possível que a partir de alguns projetos colaterais, desenvolvidos a partir da mesma concepção básica (TA multilíngüe, transferência, modelo estratificacional com uma seqüência de níveis intermediários) provenham soluções mais adequadas. O grupo EUROTRA-D em Saarbrücken (RFA), por exemplo, em cooperação com outras universidades alemãs, tem desenvolvido o CAT-2, descendente direto de EUROTRA, mais ágil e operando interativamente sentença por sentença. Lembramos que o processamento no sistema oficial é por lotes ( batch processing ), em que o usuário não pode intervir durante o processamento, o que ainda vem acarretando freqüentes panes no sistema em ação.
Resumindo, pode-se citar Harold L. Somers, do Centro de Lingüística Computacional da Universidade de Manchester, Inglaterra [13], quando afirma que os próprios "eurotreus" (ingl. Eurotrians ) seriam os primeiros a reconhecer que os problemas não resolvidos superam em muito a lista dos problemas já solucionados, e destes últimos muitos o são apenas parcialmente.
IV. Situação atual e perspectivas
São imprecisas as cifras divulgadas com respeito ao mercado internacional em TA, o qual tem sido estimado em 4,5 a 5,6 bilhões de US$ para 1990 [14]. Os maiores investimentos nos últimos anos, significativamente, tem sido efetuados no Japão, onde há cerca de 900 pesquisadores envolvidos com P & D nesta área.
Os países do Leste Europeu e a própria União Soviética não têm sobressaído no contexto internacional da TA, valendo o mesmo para a República Popular da China. Um observador britânico [15], a partir de um Simpósio Internacional em Tbilisi (URSS), avaliou em 15 anos o atraso tecnológico na área da TA naquele país [15]. Obviamente, a insuficiência de hardware avançada naqueles países tem sido um dos grandes obstáculos ao progresso na área.
No panorama internacional, apesar do diagnóstico pessimista do já mencionado Relatório ALPAC (1966) e dos prognósticos desencorajadores periodicamente divulgados, a TA tem continuado sua caminhada, estimulada por fatores econômicos, políticos e militares, principalmente no campo da informação científico-tecnológica em geral. O interesse científico pela TA tem propulsionado sua pesquisa básica e aplicada em várias universidades e centros de investigação em países industrializados, onde tem sido estimulada por poderosos patrocinadores.
Numa visão global da área, é preciso diferenciar entre: a) sistemas já industrializados, b) sistemas em desenvolvimento (por ex., EUROTRA) e c) sistemas em fase de pesquisa básica. Vejamos alguns exemplos do primeiro grupo:
1) O sistema TAUM-METEO canadense (desde 1965), traduz de hora em hora os boletins da previsão do tempo em inglês e francês naquele país. É o exemplo clássico de uma TA bem sucedida, com um vocabulário restrito (2000 palavras) sobre situações repetitivas. Por isso, pode utilizar-se de uma sintaxe simples e padronizada.
2) SYSTRAN (desde 1970) foi desenvolvido inicialmente nos EUA e é oferecido atualmente para 16 pares de idiomas, sendo capaz de traduzir até 500.000 palavras por hora. O sistema foi adotado na CE (já que sua congênere EUROTRA ainda não saiu da fase de desenvolvimento), é utilizado na área militar pela OTAN (Organização do Tratado do Atlântico Norte), pelo Centro de Pesquisas Nucleares alemão em Karlsruhe, pela XEROX americana, pelo Serviço de Telecomunicações da MINITEL francesa e por órgãos militares nos EUA, entre outros.
3) O sistema SPANAM (desde 1976) e ENGSPAN (desde 1984) traduz inglês e espanhol, sendo utilizado pela Organização Panamericana de Saúde em Washington, D.C. A sua produtividade é relativamente reduzida, requerendo pós- editoração.
4) TITUS é um sistema de TA desenvolvido na França desde a década de 1970 para a tradução multilíngüe na indústria têxtil, incluindo além do francês o inglês, alemão e espanhol. O sistema requer cuidadosa pré-editoração para os textos a serem traduzidos automaticamente.
5) O sistema WEIDNER, desenvolvido nos EUA desde 1977, trabalha hoje com inglês, francês, espanhol, alemão, português, italiano e árabe, exigindo pós- editoração. O rendimento por hora é de 4000 a 8000 palavras traduzidas, portanto de 4 a 8 vezes mais do que a tradução humana conseguiria produzir. São usuários a Aérospatiale francesa, os grupos industriais Buli, Maíra, .RM10.00" Télésystèmes e Thomson (todos na França), além da Perkins inglesa.
6) ALPS é a sigla para Automated Language Processing Systems, também desenvolvido nos EUA desde 1971. É um sistema de TA praticamente interativo, trabalhando com inglês, francês, alemão, italiano, espanhol, português e línguas escandinavas. Dispõe também de um sistema de suporte à tradução, sendo um processador de texto multílíngüe com facilidades para o gerenciamento terminológico, análise de textos-fonte, freqüência de termos e outros recursos. Apesar de sua fundamentação teórico-lingüística ser mínima, os resultados são considerados satisfatórios.
7) Outro produto americano é o sistema LOGOS (desde 1982), inicialmente desenvolvido para o inglês e o vietnamita. Mais tarde passou a incluir francês, alemão e espanhol. Em processamento por lotes ( batch mode ), o sistema pode produzir até 100 páginas por hora (= 320.000 palavras), requerendo pós- editoração. Entre seus usuários figuram a IBM e a Hewlett Packard. Em uma avaliação [16] feita em maio de 1989, pela Sociedade de Matemática e Computação (GMD) alemã-ocidental, que é usuária deste sistema (LF = alemão LA = inglês), 70% a 80% dos textos traduzidos de palestras restritas aos assuntos da sua área de atuação foram considerados "aproveitáveis", mas apenas 20% a 30% "bem traduzidos", o que representa um índice relativamente elevado na área da TA.
8) SMART (desde 1972), também de procedência americana, oferece traduções a uma velocidade de 200.000 palavras/hora. O maior usuário é o Ministério do Trabalho do Canadá, traduzindo bi- direcionalmente em inglês e francês a oferta e procura de empregos. O produto é acessível em linha em todo o país, por meio de cerca de 5 mil terminais. Em cerca de 10% dos textos traduzidos há necessidade de pós-editoração.
9) O sistema METAL foi desenvolvido na Universidade do Texas (EUA) para a tradução bi-direcional inglês-alemão. A P & D deste sistema de TA vem sendo financiada hoje pela Siemens alemã, nas universidades do Texas, de Lovaina (Bélgica) e Barcelona (Espanha). Já se incluíram também as línguas francesa, espanhola e holandesa.
10) Em Israel foi desenvolvido o sistema TOVNA (que em hebraico significa "software"), posteriormente transferido para Londres. Utiliza recursos de inteligência artificial e trabalha com inglês, francês, alemão, espanhol, russo e árabe. O par lingüístico inglês-francês desse sistema foi instalado no Banco Mundial.
11) A China, desde 1950, vem se preocupando com a TA, especialmente com vistas à recuperação da informação em Ciência e Tecnologia em língua inglesa. O projeto de maior sucesso até hoje é o KY-1, desenvolvido pela Academia Militar de Ciências para a área militar, a eletrônica, química e economia.
12) Nos últimos anos, o Japão tem feito grandes esforços na TA, com investimentos maciços de gigantes industriais como Fujitsu, Hitachi, Toshiba, Mitsubishi, Matushita, Ricoh, Sanyo e Sharp e outros. Trata-se de um esforço marcante nessa área, o que, pela sua especificidade, deveria ser tratado à parte.
Em termos de qualidade de software de TA, os centros mais avançados na área encontram-se hoje aproximadamente no mesmo nível. Isto se evidenciou mais uma vez no "MT Summit", espécie de reunião de cúpula desses centros, que teve lugar em Munique, Alemanha em setembro de 1989.
Atualmente, vem mudando a postura dos usuários em relação à qualidade da tradução produzida automaticamente. Já não é mais critério exclusivo o mencionado no famoso Relatório ALPAC (1966), em que se exigia uma TA de alta qualidade ("fulty automatic high- quality translation"). Adota-se agora uma atitude mais pragmática, ao colocar o produto da tradução no contexto de uma situação real, determinada pelo seu usuário. Destarte, numa situação específica que prevê pós-editoração, a tradução é considerada "boa" quando vale a pena revisá-la, e "ruim" é aquela que teria de ser inteiramente refeita.
A qualidade requerida a uma tradução dependerá, portanto, de sua finalidade. Se o texto traduzido serve apenas para o usuário informar-se de um modo geral a respeito do conteúdo do original, basta uma tradução como documento de trabalho, quase como rascunho, podendo-se prescindir da qualidade estilística do texto traduzido. Por outro lado, se o texto for traduzido para acompanhar um produto industrializado, obviamente, terá de satisfazer as exigências qualitativas impostas pelo respectivo mercado consumidor.
No contexto das perspectivas da TA, é preciso situar o futuro papel do tradutor. Há indícios que os tradutores modernos, mormente os especializados, vêm aceitando mais e mais a tradução auxiliada por computador (TAC), bem como os processadores de texto acopláveis a bancos de dados terminológicos, aos quais se pode acessar durante o trabalho tradutório. Poderá surgir uma demanda da parte de tradutores e empresas de tradução de determinados ambientes ou estações de trabalho, com recursos diferenciados para a tradução. Esta não será necessariamente automática, mas terá a seu dispor suportes terminológicos sob forma de bases de dados e recursos automáticos na formatação "estilística" de determinados textos padronizáveis.
A tradução inteiramente automática, e mesmo aquela que se utiliza do computador como um instrumento de interação, poderia deslocar o tradutor para uma função de especialista em editoração interlingüística, além de criador e/ou gerente de bancos de dados terminológicos. A tipologia dos erros a serem corrigidos pelo tradutor, nessas condições, teria características diferentes de erros oriundos da tradução exclusivamente humana. A consistência terminológica será garantida pelo próprio programa, enquanto que o tradutor, como especialista em editoração interlingüística, teria de ocupar- se de problemas menores, por vezes triviais, que numa tradução humana provavelmente não seriam cometidos.
Todavia, o tradutor do futuro não se restringirá a isso; terá à sua disposição recursos computacionais para elaborar ele próprio e manter atualizados seus bancos de dados, não só aumentados com dados terminológicos, mas também sintáticos, estilísticos e, possivelmente de conhecimentos estruturados, sempre à disposição do seu trabalho tradutório.
É previsível que a tradução humana de textos, em determinadas áreas, dificilmente poderá vir a ser substituída pela TA. Essas áreas situam-se, principalmente, nas Ciências Humanas e Sociais: são textos jurídicos, políticos, sociológicos, filosóficos, além de textos literários e históricos. O mesmo se aplica a textos com fortes influxos giriáticos, linguagem coloquial, bem como textos propagandisticos e publicitários. Isto excluiria, a priori, a TA de filmes de ficção, telenovelas e gêneros afins.
Entretanto, também as Ciências Humanas, com vistas à recuperação da informação a partir de formas condensadas, como resumos (ingl. abstracts ) ou índices, podem tornar-se objeto da TA. Esta poderia abranger textos condensados, mais ou menos padronizados, comparáveis aos textos pré-editorados na tradução computadorizada interativa. Facilitar-se-ia destarte o acesso do usuário a informação em línguas estrangeiras, inclusive a bases de dados internacionais.
É de se esperar que a TA e a TAC continuarão a marcar presença crescente no mercado internacional nos próximos anos, impulsionadas por fatos políticos e econômicos, e estimuladas por um provável crescente policentrismo lingüístico e tradutório. Neste cenário, ainda hipotético, a língua inglesa possivelmente já não terá mais o lugar quase exclusivo que ainda ocupa como virtual “interlíngua” em todas as áreas do conhecimento. Além disso, haverá mercados bilaterais e regionais em escala crescente a exigirem recursos tradutórios automatizados para agilizar sua implementação.
As conseqüências de tais previsões para a América Latina, em especial para o caso brasileiro, já deveriam estar sendo debatidas, a exemplo das atividades terminológicas. Seria de bom alvitre, se as atividades de tradução, envolvendo as duas grandes línguas ibéricas do nosso subcontinente - e seu relacionamento tradutório com outros idiomas de importância política, econômica e cultural para nós -, pudessem constituir-se objeto de reflexão séria e criativa, com vistas à P & D de recursos computacionais modernos e eficientes para a tradução.

[1] Warren Weaver (1894-1978), matemático, físico e educador norte-americano.
 [2] Norbert Wiener (1894-1964), matemático norte-americano, fundador da moderna Teoria da Informação e da Cibernética.
 [3] Traduzido do inglês apud Wüss, W. 1980, p. 802.
 [4] Slocum, J. 1985, p. 1.
 [5] Hutchins, W. J. 1988, p. 8.
 [6] Wilss, W. 1980, p. 803.
 [7] cf. as descrições de Hutchins, W. J. 1988; Slocum, J. 1985 e Nagao, M. 1983.
 [8] Vejam-se as considerações de Schubcrt, K. 1986 sobre o emprego do esperanto, no sistema holandês DLT.
 [9] cf. Nagao, M. 1983, p. 1532.
 [10] Hutchins, W. J. 1988, pp. 10 ss.
 [11] Raw, A. et aL 1989, p. 23.
 [12] Somers, H. L. 1990, p. 8.
 [13] Idem, p. 9.
 [14] Information Market (Luxembourg), v. 63 (1990).
 [15] Somers, H. L. 1990, p. 5.
 [16] Bernhard, U. 1989.

Bibliografia citada no trabalho:
BERNHARD, U. 1989. Logos im Einsatz bei der GMD: Anwenderbericht. In: Computergestützte Sprachenübersetzung. IMP Seminar. Heidelberg 17. -18. Mai 1989,7 pp. (mimeo).
HUTCHINS, W. J. 1988. Recent developments in machine translation: a review of the last five years. In: D. Maxwell et al. (eds.) New Directions in Machine Translation. Dordrecht, Foris, p. 7- 63.
|