Actas / Atas
1988-2002
Presentación / Apresentação
I Simposio (1988)
II Simpósio (1990)
III Simposio (1992)
IV Simposio (1994)
V Simposio (1996)
VI Simposio (1998)
VII Simpósio (2000)
        Índice
VIII Simpósio (2002)
Índice por autores

 

 

El seguimiento de la implantación de términos Vía internet:
estrategias de cálculo y control

Lluís de Yzaguirre
Carles Tebé
Araceli Alonso
Rosanna Folguerà
Institut Universitari de Lingüística Aplicada
Universitat Pompeu Fabra
España

 

1. Introducción y objetivos

La gran mayoría de trabajos terminológicos, y muy especialmente los vocabularios y diccionarios producidos por organismos de normalización terminológica, contienen propuestas neológicas que pretenden cubrir vacíos denominativos en la lengua de trabajo del centro, y que se suelen corresponder con conceptos que se han introducido recientemente en el ámbito lingüístico en el que se trabaja. A menudo, estos conceptos se vehiculan a través de una designación en inglés, contra la cual los autores del diccionario suelen proponer una denominación alternativa, formada con recursos lingüísticos propios, que pueda ser viable en la lengua de trabajo.

Consideramos que una de las vertientes más desatendidas del trabajo terminológico es precisamente el seguimiento que debe hacerse a cualquier propuesta neológica para verificar si ha tenido éxito entre la comunidad potencial de hablantes a quién va dirigida. Como recogen la mayoría de metodologías de trabajo terminológico, si una propuesta no tiene éxito, al cabo de un tiempo debe ser revisada, puesto que si es rechazada por sus usuarios potenciales sólo contribuirá a fijar, por exclusión, el término inglés al que pretendía sustituir.

En esta comunicación presentamos unas estrategias de control del seguimiento de la implantación de términos basadas en (a) el vasto corpus textual de validación que es actualmente Internet, y (b) las herramientas de recuperación de información de uso general que son los motores de búsqueda.

La aportación de los autores de esta comunicación es:

presentar el diseño de una aplicación que permite extraer cálculos estadísticos sobre las denominaciones estudiadas;

exponer cómo este proceso puede automatizarse regularmente, de modo que se obtenga una radiografía de la evolución de una propuesta neológica a intervalos regulares desde el momento en que sus autores la divulgan;

ejemplificar todo el proceso de seguimiento automático a casos conflictivos de propuestas neológicas reales para el catalán, con el fin de analizar con detalle los resultados obtenidos.

 

2. El proceso de implantación de los términos

En los países donde el trabajo terminológico ha surgido como consecuencia de un trabajo de planificación lingüística, como Cataluña o Quebec, el proceso que conduce a la normalización de los términos sigue unos métodos y procedimientos claramente establecidos. [1]

En Cabré (1992), se hallan sintetizadas las fases de un proceso de planificación terminológica, que se pueden resumir en los siguientes apartados:

el análisis de las necesidades terminológicas de una situación

la elaboración de un plan de trabajo terminológico

la elaboración de la terminología

la normalización de la terminología

la elección del soporte de la forma de presentación de la terminología

la implantación de la terminología mediante acciones de dinamización adecuadas

el seguimiento del uso de la terminología en cuestión, y

la actualización permanente de la terminología.

Subrayamos los tres últimos apartados, comunes a la fase que llamamos de postproducción de una terminología: implantación, seguimiento y actualización permanente. En la mayoría de obras sobre la materia se pueden rastrear las mismas referencias a estos tres elementos finales, en las que hay un consenso que defiende que: por un lado, las formas propuestas deben ser implantadas en su medio profesional; en segundo lugar, debe realizarse un seguimiento del uso real de esas propuestas en el medio; y por último, y en función precisamente de ese seguimiento, la terminología puesta en circulación debe actualizarse, lo que incluye replantear decisiones sobre términos que no hayan tenido el éxito deseado.

No es difícil hallar estudios en torno al primer aspecto, que se dividen entre criterios de implantabilidad de los neologismos y condicionantes sociolingüísticos que pueden intervenir en la aceptación o rechazo de las propuestas neológicas. En el primer caso, se presta atención a las propiedades intrínsecas de las propuestas léxicas (proceso de formación armónico y sistemático con los demás términos de su área de especialidad, que puedan producir derivados si es necesario, que no posean homónimos en este mismo campo, que semánticamente estén motivados y sean transparentes, que su extensión permita que sea una unidad manejable, etcétera). Entre los temas de carácter sociolingüístico se estudian aspectos como las acciones efectivas de implantación que deben llevarse a cabo en cada medio, así como la efectividad de medidas indirectas que cambien las costumbres, las actitudes y la imagen de prestigio de la lengua que se quiere normalizar. [2]

Sin embargo, no hay tantos trabajos o análisis publicados que describan de forma fiable la elección que los destinatarios realizan sobre las propuestas presentadas, de modo que la valoración sobre el grado de acierto de los criterios de implantación utilizados en cada caso no puede casi nunca realimentarse con datos empíricos. Recientemente, en algunos casos se han publicado trabajos que recogen datos procedentes de encuestas de implantación (véase, entre otros, Thoiron [1997]), pero tienen el inconveniente que si bien son muy explícitos en cuanto a la valoración de las propuestas terminológicas por parte de los encuestados, siguen sin ofrecer datos del uso real de los términos en el medio en cuestión; en cambio, los distintos estudios recopilados en Depecker (1997), contienen una dimensión cuantitativa que permite extraer generalizaciones a partir de los datos analizados. [3]

A nuestro entender, hay distintas razones que pueden explicar la escasez de trabajos sobre este particular, pero en cualquier caso no hay que menospreciar las dificultades que había hasta hace poco para realizar un trabajo empírico de esta clase con un corpus de textos (escrito u oral) lo suficientemente representativo. Consideramos que Internet ha cambiado para bien este panorama.

 

3. El seguimiento de propuestas terminológicas en Internet

La terminología tiene ya desde hace algunos años una presencia importante en Internet, fundamentalmente en forma de recursos de consulta organizados temáticamente (vocabularios y léxicos especializados, bancos de datos terminológicos, portales temáticos que incluyen glosarios sobre cada especialidad, etcétera). Algunos centros de normalización difunden además allí sus propuestas de normalización, e incluso permiten que los usuarios de la red opinen o voten a favor o en contra de algunas de sus propuestas, lo que constituye un primer acercamiento a lo que debería ser un registro del uso de los términos por parte de una comunidad hablante.

Sin embargo, Internet también puede ser visto como un inmenso corpus textual especializado que contiene miles de millones de páginas sobre los más diversos temas y en muchísimas lenguas, de modo que puede utilizarse para comprobar el uso real de esas propuestas en el corpus textual de una determinada lengua, sobre la cual pueden aplicarse además toda clase de filtros.

De entre todas las herramientas de acceso masivo disponibles, los llamados motores de búsqueda permiten que determinadas peticiones realizadas contra millones de páginas (todo Internet) se resuelvan casi instantáneamente, gracias a su potencia de búsqueda y al recurso a las bases de datos previamente indizadas por estos motores.

Nuestra propuesta ha consistido en utilizar varios de estos motores para realizar búsquedas durante un período determinado, con lo que hemos obtenido:

un registro cuantitativo de las distintas alternativas utilizadas para denominar un mismo concepto en una misma lengua, que nos debe permitir evaluar el impacto real que tienen unas y otras propuestas en los textos publicados en la red;

una evolución de este mismo registro a lo largo de distintos rangos de fechas, para contrastar su evolución a lo largo del tiempo, y ver si se produce algún cambio cualitativo en el avance de algunas propuestas frente a otras.

un registro de las principales fuentes de procedencia en los que están recogidas las distintas propuestas, para constatar si puede establecerse alguna relación entre la predominancia de algunas soluciones y los servidores que las alojan.

La lectura combinada de estos tres registros nos ofrecerá un conjunto de datos más que suficiente para analizar el grado de difusión de unas y otras propuestas.

Metodológicamente, hemos seguido las siguientes fases para llevar a cabo el proceso:

Establecer un filtro lingüístico que permita recuperar única y exclusivamente textos en catalán, lengua en la que hemos realizado las búsquedas; al no existir este filtro de forma predeterminada en los buscadores internacionales, hemos utilizado el recurso de añadir a la petición una determinada combinatoria de palabras gramaticales sólo posibles en catalán. [4]

Escribir las peticiones en la sintaxis adecuada para los motores de búsqueda, considerando distintas combinatorias en torno a términos normalizados; en este trabajo hemos preparado tres tipos de petición para cada caso analizado:

(a) ocurrencia de préstamo lingüístico sin presencia de forma normalizada;

(b) coocurrencia de préstamo lingüístico y forma normalizada;

(c) ocurrencia de forma normalizada sin presencia de préstamo lingüístico.

Automatizar la secuencia de peticiones para cada motor, de modo que las búsquedas se realicen a intervalos regulares en distintos motores.

Introducir los datos obtenidos en una hoja de cálculo con el fin de procesar cuantitativamente los resultados y generar gráficos de representación.

Analizar los resultados.

Hemos estudiado dos casos distintos en los motores de búsqueda Altavista y NorthernLight: (1) hardware y software y sus propuestas de normalización (programari y maquinari); y (2) link y sus propuestas sustitutorias, enllaç y vincle. [5]

 

4. Presentación de los datos

Seleccionamos a continuación los datos correspondientes a software/hardware únicamente en el motor NorthernLight.

Tabla 1: Software/programari

En la tabla 1 se indica el número de páginas en valores absolutos donde aparece únicamente el término programari (-s, +p), únicamente el término software (+s, -p), o ambos términos (+s, +p), desde el año 1995 hasta el 2000 (los datos del año en curso se han registrado hasta mediados del mes de septiembre).

Tabla 2: Valores acumulativos

En la tabla 2 se indica el número de páginas acumuladas donde aparece únicamente el término programari (-s, +p), únicamente el término software (+s, -p), o ambos términos (+s, +p), desde el año 1995 hasta el 2000.

Tabla 3: Software/programari

En la tabla 3 se indica el número de servidores en valores absolutos donde aparece únicamente el término programari (-s, +p), únicamente el término software (+s, -p) o los dos términos indistintamente (+s, +p), desde el año 1995 hasta el 2000. Debido a las limitaciones del motor de búsqueda utilizado no es posible saber el valor exacto del número de servidores cuando encuentra pocas páginas. En estos casos hemos establecido el valor máximo posible, que es igual al número de páginas, indicado por medio de la cursiva.

Tabla 4: Valores acumulativos

En la tabla 4 se indica el número de servidores en valores acumulados donde aparece únicamente el término programari (-s, +p), únicamente el término software (+s, -p) o ambos términos indistintamente (+s, +p), desde el año 1995 hasta el 2000.

Las tablas que presentamos a continuación se refieren en primer lugar al par complementario hardware/maquinari en el mismo buscador, y después al segundo caso estudiado link/enllaç y link/vincle y se leen igual que las tablas anteriores.

 

 

5. Análisis de los resultados y conclusiones

De entrada, observamos una tendencia global bastante marcada a utilizar mayoritariamente los préstamos del inglés, es decir software, hardware y link, que resultan las opciones preferidas por los usuarios en datos absolutos, visibles tanto en el número de páginas como en el número de servidores.

En todos los casos estudiados, el análisis de la coocurrencia de ambas soluciones demuestra que la utilización conjunta de préstamo y forma patrimonial es mínima a lo largo de los períodos analizados.

Analizaremos en primer lugar el caso software / hardware:

En el par software/programari, vemos que desde el año 1996 hasta 1998 la tendencia a utilizar software es claramente mayoritaria. A partir del año 1998 aumenta la utilización del neologismo propuesto por Termcat, programari, pero el uso del préstamo software aumenta todavía más. La causa más probable, a nuestro parecer, es un aumento global de la presencia de páginas web en catalán.

Si estudiamos las fuentes de procedencia, podemos observar que las páginas donde aparece el término programari corresponden, en su mayoría, a la administración catalana o a las universidades catalanas, mientras que el préstamo está mucho más diseminado socialmente.

En el par hardware/maquinari, vemos que la tendencia hasta el año 1998 se caracteriza igualmente por el uso muy mayoritario del préstamo antes que del neologismo; y aunque la utilización de maquinari va aumentando en el transcurso de los años, el aumento de uso del préstamo es aún mayor. Por lo que se refiere al número de páginas, en el año 1998, este aumento es considerable, hasta llegar a alcanzar en 1999 casi el mismo nivel que hardware. Sin embargo, a partir de este momento vuelve a disminuir la utilización de maquinari a favor del préstamo.

En cuanto al número de servidores, la tendencia a utilizar ambos términos a la vez es casi igual a la utilización de maquinari, aunque a partir de 1999 vuelve a disminuir, mientras que en el caso de maquinari se mantiene.

En lo que respecta a las fuentes de procedencia, es fácil concluir que, como en el caso de programari, maquinari es un término básicamente utilizado por la administración y por los servidores donde la administración tiene una influencia directa (p ej. servicios lingüísticos de las universidades).

En el caso de link/enllaç/vincle, el análisis de los resultados nos permite llegar a las siguientes conclusiones:

En el par link/enllaç, se utiliza mayoritariamente el préstamo inglés link. A partir de 1997 empieza a aumentar el uso de enllaç, pero éste disminuye a partir de 1999, mientras que link multiplica en dos veces su uso. Por lo que se refiere al número de servidores, el fenómeno que se produce es similar.

En el par link/vincle, la evolución de ambos términos a lo largo de los años es similar, destacándose en 1999 una utilización casi similar de los dos términos. Pero a partir de esta fecha, mientras que el uso de vincle se mantiene, el uso de link se dispara. Por lo que se refiere a los servidores, el número de servidores donde aparece vincle se acerca más al número de servidores donde aparece link, llegando casi a igualarse.

Con respecto de link y de sus equivalentes enllaç y vincle, queremos adelantar una observación que nos parece interesante. Elegimos el término link para nuestro análisis como elemento de control con respecto a los otros dos términos analizados software y hardware, debido a que la propuesta explícita de Termcat de usar enllaç para sustituir el préstamo inglés link es de diciembre de 1999, es decir, constituye un ejemplo de implantación terminológica reciente, al contrario de software y hardware, cuyas propuestas de normalización datan de 1992. Por ello, resulta curioso constatar que, aunque los datos correspondientes al año 2000 son incompletos (sólo hemos analizado los 10 primeros meses), parece ser que desde la fecha de la propuesta de Termcat, la tendencia en cuanto al uso de los términos se ha invertido: el uso de link se ha multiplicado, mientras que se observa un ligero retroceso de vincle y un retroceso todavía más notable de enllaç. La toma de registros posteriores a la fecha de redacción de esta comunicación nos permitirán confirmar o desmentir esta tendencia.

 

En síntesis, con respecto al análisis de los datos, podemos afirmar que:

La tendencia mayoritaria en todos los casos es la utilización del préstamo frente a la utilización del neologismo, ya sean éstos neologismos de forma o neologismos de significado [6]. Tal como hemos podido observar, software y hardware han reafirmado su uso frente a los neologismos de forma programari y maquinari, lo que demuestra que el intento de sustitución de dichos préstamos, mediante unas formas creadas a partir de los recursos propios de la lengua catalana, no ha tenido el éxito esperado. Por lo tanto, consideramos que estos neologismos deberían sustituirse por otros términos, o bien aceptar los préstamos como términos normalizados.

En los casos de link/enllaç y link/vincle, aunque el préstamo se siga utilizando de forma mayoritaria, las formas patrimoniales tienen más aceptación entre los usuarios, sobre todo vincle. Consideramos que puede ser debido a que vincle (como enllaç) es un neologismo de significado, puesto que la forma ya tenía existencia previa en la lengua catalana, de modo que ya estaba integrado en el léxico de los usuarios.

Aunque, a grandes rasgos, las tendencias que hemos señalado son estables, notamos que en el rango temporal se producen algunos saltos bruscos (picos y valles) en que se debería analizar con detalle su posible relación con decisiones críticas en el proceso de implantación del neologismo (su difusión en Internet, por ejemplo). Creemos que son los propios organismos responsables de una propuesta de normalización en cada caso los que mejor pueden llevar a cabo ese seguimiento más cuidadoso, y los que mejor pueden interpretar esas oscilaciones.

Por último, y sobre el proceso de trabajo, presentamos las siguientes conclusiones:

Nos parece imprescindible que el seguimiento de implantación de una propuesta neológica para sustituir a un préstamo o un término mal formado se base en datos de uso real; solo la evidencia empírica permitirá evaluar el grado de aceptación de un término normalizado.

El trabajo que hemos presentado demuestra que las búsquedas por Internet permiten llevar a cabo ese seguimiento de forma fiable, cómoda y bastante precisa (las secuencias de peticiones pueden hacerse simultáneamente contra distintos motores de búsqueda, los experimentos son fácilmente repetibles por distintos equipos y en distintos lugares).

Las posibilidades que ofrece el método de interrogación que hemos desarrollado pueden ir mucho más allá de las que hemos ejemplificado en nuestro estudio [7]. Así, las peticiones pueden refinarse considerablemente utilizando las opciones de búsqueda avanzada de los servidores. Los resultados, además, podrían filtrarse y calcularse por países de un mismo ámbito lingüístico (para obtener datos de carácter geolectal), por tipo de institución (para medir el efecto de implantaciones de carácter más localizado), e incluso podrían realizarse en el interior de un mismo sitio (para llevar a cabo estudios de tipo discursivo, de coherencia textual, etcétera).

El abanico de posibilidades que ofrece este método está todavía por explorar.

 

6. Bibliografía

CABRÉ, M. T. (1992). La terminologia. La teoria, els métodes, les aplicacions. Barcelona: Editorial Empúries.

CABRÉ, M. T. (1997). «Standardization and Interference in Terminology». In: The Changing Scene in World Languages. American Translators Association Monographic Series. Volume IX.

CABRÉ, M. T. (1999a). La terminología. Representación y comunicación. Barcelona: Institut Universitari de Lingüística Aplicada.

CABRÉ, M. T. (1999b). «La normalización de la terminología en el proceso de normalización de una lengua: algunas precisiones». In: Actas del Congreso Internacional. Buenos Aires, 26-27 noviembre 1997. Buenos Aires: Universidad de Buenos Aires, p. 25-39.

DE YZAGUIRRE, Ll. (1996). «Maquinar-hi o programar-hi». In: Estudis de lingüística i filologia oferts a Antoni M. Badia i Margarit. Barcelona: Publicacions de la Badia de Montserrat, p. 341-366. [http://www.iula.upf.es/altres/subaltres/a_publi.htm.]

DEPECKER, L. (ed.) (1997). La mésure des mots: cinq études d'implantation terminologique. Rouen: Publications de l'Université de Rouen.

GOMEZ GUINOVART, J. (1999). «A neoloxía terminolóxica informática en castelán, catalán e galego». In: Vicerversa 5. Revista Galega de Traducción. Vigo: Servicio de Publicacións da Universidade de Vigo, pp. 75-83.

LORENZO SUÁREZ, A. M. & J. GÓMEZ GUINOVART (1996). «Terminoloxía, informática e lingua galega». In: Cadernos da lingua 13. Santiago de Compostela: Servicio de Publicacións da Universidade de Compostela, pp. 5-33.

RINT (1994). «Implantation des termes officiels: Actes du séminaire (Rouen, décembre 1993)». In: Terminologies Nouvelles, núm. 12, diciembre de 1994.

RINT (1997). «Enquêtes terminologiques: Actes des journées d’étude Vers une convergence des méthodologies en mésure de l’implantation terminologique». In: Terminologies nouvelles, núm. 16, junio de 1997.

RONDEAU, G. (1983). Introduction à la terminologie. Québec: Gaëtan Morin Éditeur.

TERMCAT (1990). Manlleus i calcs lingüístics en els treballs de terminologia catalana. Barcelona: Departament de Cultura de la Generalitat de Catalunya.

THOIRON, P. (1997). «Méthodologie d’analyse des résultats des enquêtes d’implantation de la terminologie officielle». In: RINT (1997), pp. 48-54.

WOOLDRIDGE, R. (1998). «Expressing the Cybermedium in English and French». In: Text Technology, 8.1. [http://www.chass.utoronto.ca/epc/chwp/wulfric5/].

 

[1] Véanse, entre otros estudios, las monografías de Rondeau (1983) y Cabré (1992), donde se describe la normalización terminológica en el marco de un proceso de planificación lingüística.

[2] En el contexto de Quebec, véanse los dos números monográficos de Terminologies nouvelles dedicados respectivamente a la implantación de términos oficiales (núm. 12, 1994) y a las encuestas terminológicas (núm. 16, 1997). En el ámbito de la terminología planificada en Cataluña, véase Termcat (1990).

[3] Los centros de normalización terminológica y las academias de la lengua revisan algunas decisiones basándose en opiniones sobre el uso de especialistas que colaboran en las distintas materias; insistimos en que estas observaciones, por atinadas que puedan parecer, no han utilizado hasta el momento datos que reflejen el uso real de modo significativo.

[4] La cadena de palabras gramaticales que acompaña obligatoriamente a todas las peticiones es: +és +(dels quan què). Puede comprobarse la eficacia del procedimiento en http://terminotica.upf.es/cibrcerq.htm. En el caso de lenguas reconocidas por el motor de búsqueda, se incluiría el código de lengua en la sintaxis de la propia petición, que actuaría así como una restricción de búsqueda.

[5] Véase un estudio exhaustivo del primer caso en de Yzaguirre (1996), donde el autor auguraba en una fecha muy temprana la dificultad de implantar dichas propuestas de normalización por distintas razones.

[6] Siguiendo la convención mayoritariamente establecida en lexicología y neología, denominaremos neologismos de forma a la creación de nuevas unidades léxicas a partir de otras ya existentes mediante los procedimientos morfológicos y sintácticos regulares propios de la lengua receptora, y denominaremos neologismos de significado a la utilización de un término ya existente en la lengua receptora con un significado nuevo, relacionado o no con el significado antiguo.

[7] Puede verse la batería de preguntas formuladas en nuestro trabajo, y en la misma sintaxis de búsqueda utilizada contra los motores de búsqueda en http://terminotica.upf.es/enquesta.htm

 

Editado con el apoyo de
Editado com o apoio da: