Actas / Atas
1988-2002
Presentación / Apresentação
I Simposio (1988)
II Simpósio (1990)
III Simposio (1992)
IV Simposio (1994)
V Simposio (1996)
    Índice
VI Simposio (1998)
VII Simpósio (2000)
VIII Simpósio (2002)
Índice por autores

 

 

Del término al texto: sistema para la extracción
de datos sintácticos y semánticos
de descripciones de vinos

Víctor M. Castel
CRICYT (CONICET) - FFyL (UNCuyo)
Mendoza
Argentina

 

Esta comunicación presenta de manera muy resumida algunos aspectos del sistema lingüístico-informático utilizado en el proyecto LeCoDeVi para extraer la información necesaria para la especificación de una terminología y una gramática controladas de la degustación de vinos. En §1, introducimos las nociones fundamentales y en §2, ilustramos el funcionamiento del sistema.

 

1. Nociones y definiciones básicas

SExI (Sistema de extracción de información) es un sistema orientado a la construcción de una base de datos que permite extraer y clasificar información de un corpus de textos de descripción de vinos y provee, en consecuencia, datos relevantes para (i) la identificación y categorización de los componentes básicos de la estructura conceptual del dominio, (ii) la descripción de la sublengua subyacente a los textos de descripción de vinos, tanto de los aspectos sintácticos y semánticos como de las relaciones existentes entre estos dos niveles de análisis, (iii) la evaluación rigurosa de glosarios y léxicos disponibles y (iv) la construcción de una sublengua controlada de la degustación de vinos.

Las nociones y definiciones básicas de SExI son las que se presentan a continuación.

Def(inición) 1. EnLx (Entrada lexical). Es la ocurrencia efectiva de una (secuencia de) palabra(s) en un texto.

Def. 2. Or (Oración). (Secuencia de) palabra(s) que empieza con mayúsculas y termina con un punto.

Def. 3. OrAn (Oración Anfitriona). Oración en la que aparece EnLx.

Def. 4. TxAn (Texto Anfitrión). Texto en el que está inserta OrAn.

Def. 5. FrLx. Frase que es parte de OrAn y que contiene EnLx.

Def. 6. FrLxHp (FrLx Huésped). Es la proyección máxima de EnLx. Por ejemplo, si EnHp es una frase adjetiva; si EnLx es un sustantivo, entonces FrLxHp es una frase nominal.

Def. 7. ArOr (Argumento en OrAn). Es el argumento en OrAn al que se le "asigna" la propiedad expresada por EnLx. Puede existir solamente un ArOr, a menos que se trate de una coordinación de ArOr, en cuyo caso se distinguirá entre ArOr1, …, ArOrn de acuerdo con el orden de aparición, en el texto, de izquierda a derecha.

Def. 8. ArTx (Argumento en TxAn). Es el argumento en TxAn al que se le "asigna" la propiedad expresada por EnLx. Puede existir solamente un ArTx, a menos que se trate de una coordinación de ArTx, en cuyo caso se distinguirá entre ArTx1, …, ArTxn de acuerdo con el orden de aparición, en el texto, de izquierda a derecha.

Def. 9. ArOt (Otro argumento). Argumento en OrAn o en TxAn que es diferente de ArOr (o de ArTx) y que está relacionado (expresa o tácitamente) con FrLx en el sentido de que ésta le "asigna" la(s) propiedad(es) correspondiente(s). Puesto que ArOt puede aparecer en OrAn o en TxAn, se distinguirá, respectivamente, entre ArOtOr y ArOtTx.

Def. 10. PrMdEx (Predicado mediador expreso). Expresión (esto es, palabra, secuencia de palabras o signo de puntuación) en OrAn que relaciona FrLx con otras frases. Para asignar la categoría de PrMdEx a una expresión es necesario que por lo menos una de esas otras frases contenga ArOr (en cuyo caso se tratará de una frase de OrAn) o contenga ArTx (en cuyo caso se tratará de una frase de TxAn) o contenga ArOtOr (en cuyo será una frase de OrAn) o ArOtTx (en cuyo caso será una frase de TxAn).

Def. 11. PrMdN (Predicado mediador nulo). Es la ausencia de realización fonológica, en OrAn, de una relación intuitivamente clara entre FrLx (o la OrAn de la que es parte FrLx) y una frase que contiene ArOr (o ArTx) o, si lo hubiera, ArOt. Se utiliza el símbolo "ø" para representar el PrMdN. Este predicado "vacío" sirve para indicar que FrLx se relaciona con otra frase "directamente", esto es, de hecho, sin la mediación de un predicado.

Def. 12. VrRg (Verbo regente). Es un verbo o expresión verbal compleja de OrAn que rige FrLx pero no es un PrMdEx.

Def. 13. FrLxE (FrLx con mediador expreso). FrLx relacionada con otra frase mediante un PrMdEx.

Def. 14. FrLxS (FrLx sin mediador). FrLx relacionada con otra frase mediante un PrMdN.

Def. 15. FrLxAn (Frase anfitriona). FrLx regida por un VrRg.

Def. 16. FrOtOr (Otra frase en OrAn). Frase en OrAn con la que se relaciona FrLxE, FrLxS o FrLxAn mediante un PrMdEx, ø o un VrRg, respectivamente.

Def. 17. FrOtTx (Otra frase en TxAn). Frase en TxAn con la que se relaciona FrLxE, FrLxS o FrLxAn mediante un PrMdEx, ø o un VrRg, respectivamente.

Def. 18. AIn (Anáfora intermediaria). Es una expresión anafórica de OrAn cuyo antecedente es un ArOr o un ArTx o un ArOt. Para categorizar como AIn una expresión cualquiera es necesario que ésta sea un morfema independiente, lo cual implica que los elementos flexivos no podrán categorizarse como AIn.

Def. 19. CñPr (Compañero de predicación). Es la (secuencia de) palabra(s) de la misma categoría léxica que EnLx y que, al igual que EnLx, mantiene en OrAn una relación de "asignación" de propiedades con ArOr o ArTx. Se distinguirá entre CñPr positivo (+) y CñPr negativo (-). Un CñPr + es la (secuencia de) palabra(s) X que aparece en un contexto en el que se afirma que ArOr (o ArTx) "tiene" la propiedad expresada por X. Un CñPr - es la (secuencia de) palabra(s) X que aparece en un contexto en el que se afirma que ArOr (o ArTx) "no tiene" la propiedad expresada por X.

 

2. Campos y valores de la base de datos

A continuación enumeramos los (grupos de) campos de la base de datos y hacemos una brevísima mención del contenido específico de cada uno de ellos. En §§2.1-2.3, explicamos en detalle la relevancia y el funcionamiento de los campos AQué, MdFr y EsPr.

EnLx (Entrada lexical): campo en el que se registra la ocurrencia efectiva de una palabra o secuencia de palabras. CLex (Categoría de EnLx): se registra la categoría lexical a la que pertenece EnLx a partir de una lista de valores predefinidos. Sens (Sensación evaluada): se explicita, a partir de una lista de valores predefinidos, la denominación de la sensación producida en la evaluación de determinada propiedad de un vino. OrEx (órgano examinador): se anota, a partir de una lista de valores predefinidos, el órgano examinador involucrado en la evaluación de determinada propiedad del vino. RfTx (Referencia textual): se registra la información relativa a la fuente bibliográfica de la que se extrae el texto analizado. Cxto (Contexto): se transcribe el (fragmento de) texto a analizar. EsPr (Estructura de predicación): se explicita el código de identificación de la estructura de predicación variable que corresponde al registro en cuestión. AQué (¿A qué se le asigna la propiedad expresada por FrLx?) es un grupo de 11 campos que explicita los argumentos de los que predican las FrLx de las que es parte la ocurrencia especificada en EnLx. MdFr (Mediador frástico) es un grupo de 13 campos que explicita los predicados que ponen en relación las FrLx con las frases que contienen los diversos argumentos oracionales y textuales. FrRl (Frases relacionadas) es un grupo de 25 campos que explicita las FrLx del texto analizado. OrLe (Orden de lexicalización) es un grupo de 31 campos que explicita las relaciones de orden entre las frases de FrRl y los predicados de MdFr, de las frases entre sí y de los predicados entre sí. FnSt (Función sintáctica) es un grupo de 12 campos que especifica las funciones sintácticas de las frases de FrRl. InAn (Intermediación anafórica) especifica la configuración anafórica del registro en cuestión. CñPr (Compañero de predicación) explicita el o los predicados que junto con EnLx mantienen la relación de "asignación" de propiedades con los ArOr o ArTx de EnLx. PreN (Premodificación nuclear) anota la (secuencia de) palabra(s) que precede a EnLx y que junto con ésta son parte de la FrLxHp. PosN (Posmodificación nuclear) anota la (secuencia de) palabra(s) que sigue a la EnLx y que junto con ésta son parte de la FrLxHp. Ling (Lingüista) explicita el nombre de la persona responsable del análisis anotado en el registro. OK/* (Formación del registro) es el campo en el que se define, de manera automática, la buena o mala formación de un registro determinado. Todos los grupos de campos están encabezados por un código de identificación que es asignado automáticamente por el sistema a partir de información introducida manualmente en el registro. Los códigos pueden utilizarse como "atajos" en la búsqueda de términos y/o textos que respondan a determinadas características estructurales.

 

2.1. Valores del grupo de campos "Aqué"

El propósito del grupo de campos AQué (11 campos) es permitir el registro de las expresiones que en OrAn y/o en TxAn son los argumentos a los que se les "asignan" las propiedades expresadas por las frases de las que es parte una EnLx.

Sea el siguiente esquema de configuraciones de argumentos:

(1)

A5 = ArOtOr ó ArOtTx ó ¿? ó ~ = (secuencia de) palabra(s) ó nin
A4 = ArOtOr ó ArOtTx ó ¿? ó ~ = (secuencia de) palabra(s) ó nin
A3 = ArOtOr ó ArOtTx ó ¿? ó ~ = (secuencia de) palabra(s) ó nin
A2 = ArOtOr ó ArOtTx ó ¿? ó ~ = (secuencia de) palabra(s) ó nin
A1 = ArOr ó ArTx ó ¿? ó ~ = (secuencia de) palabra(s) ó nin

El esquema (1) especifica un conjunto de configuraciones de cinco niveles, donde cada nivel es el rasgo que resulta de asignar un valor a los atributos A1, A2, A3, A4 y A5. Los valores posibles de estos atributos resultan de combinar los atributos ArOr, ArTx, ArOtOr, ArOtTx, ¿? y ~ con los valores (secuencia de) palabras(s) y nin, de modo que cada Ai puede tomar, en principio, 6x2=12 valores diferentes. Puesto que hay cinco niveles (Cfr. §2.3), el esquema (1) define 125 configuraciones de rasgos diferentes, módulo restricciones formales de combinación impuestas por el sistema. A cada una de estas configuraciones, la denominamos configuración (de rasgos) argumental. Llamaremos configuración argumental variable a aquellas configuraciones de rasgos definidas por el esquema (1) que contienen una o más ocurrencias de la expresión "una (secuencia de) palabra(s)". Esta expresión es un valor variable que se determina a partir de información extraída del campo Cxto. Llamaremos configuración argumental instanciada a cualquier configuración argumental cuyos valores variables hayan sido todos fijados.

El esquema (1) define un conjunto relativamente grande de configuraciones argumentales (véase la nota 5), pero está claro que es una cuestión empírica establecer si todas (o cuáles de) esas configuraciones argumentales aparecerán efectivamente instanciadas en el campo AQué. El propósito de una especificación general es justamente realizar esa verificación de manera sistemática en los textos de descripción de vinos.

A cada configuración argumental se le asignará un código de acuerdo con la Tabla 1.

Tabla 1

CONFIGURACIONES ARGUMENTALES

Valores de A5

Valores de A4

Valores de A3

Valores de A2

Valores de A1

1. ArOtOr

2. ArOtTx

3. ¿?

4. ~

1. ArOtOr

2. ArOtTx

3. ¿?

4. ~

1. ArOtOr

2. ArOtTx

3. ¿?

4. ~

1. ArOtOr

2. ArOtTx

3. ¿?

4. ~

1. ArOr

2. ArTx

3. ¿?

4. ~

El código se forma con la sigla AQ seguida del número que resulta de combinar un número (cualquiera) de la primera columna con un número (cualquiera) de la segunda columna con un número (cualquiera) de la tercera columna con un número (cualquiera) de la cuarta columna con un número (cualquiera) de la quinta columna. El número resultante identifica una configuración argumental. Así, por ejemplo, el código AQ42111 identifica la siguiente configuración argumental:

(2)

A5 = ~ = nin
A4 = ArOtTx = (secuencia de) palabra(s)
A3 = ArOtOr = (secuencia de) palabra(s)
A2 = ArOtOr = (secuencia de) palabra(s)
A1 = ArOr = (secuencia de) palabra(s)

El propósito del código es permitir la identificación de configuraciones variables en bloque, esto es, independientemente de los valores específicos que la variable "(secuencia de) palabra(s)" adopte en los distintos campos del grupo AQué de un registro determinado. A partir de los valores asignados a los atributos A5-A1, el sistema introduce automáticamente el código de identificación en el primer campo del grupo AQué.

Ejemplo 1

La configuración argumental variable precedente, codificada como AQ42111, representa, entre otras, la configuración argumental instanciada del siguiente registro:

EnLx frutadas

Cxto

Trapiche Pinot Noir

Vino suave con un leve tinte rubí. Aroma con características florales que recuerdan a la rosa y las esencias frutadas de las frambuesas. […]

AQué AQ42111

A5 ~
nin

A4 ArOtTx
Trapiche Pinot Noir

A3 ArOtOr
aroma

A2 ArOtOr
características florales

A1 ArOr
esencias

Obsérvese que si se hiciera, por ejemplo, una búsqueda de registros que contienen el código AQ42111, el sistema entregaría el conjunto de textos analizables mediante la configuración variable (2) y, por tanto, se obtendría el conjunto de expresiones que realizan los argumentos de nivel oracional y textual en los cuatro niveles de predicación. El precedente es uno de esos registros.

 

2.2. Valores del grupo de campos "MdFr"

El propósito del grupo de campos MdFr (13 campos) es permitir el registro y categorización de las expresiones que funcionan como predicados mediadores entre las frases de las que es parte una EnLx (esto es, las FrLx) y las frases que contienen los argumentos a los que se les "asigna" las propiedades expresadas por aquellas (esto es, las FrOt).

Sea el esquema de configuraciones de predicados mediadores (3):

(3)

P5 = E [CAT] ó ø ó ¿? ó ~ = (secuencia de) palabra(s) ó nin
P4 = E [CAT] ó ø ó ¿? ó ~ = (secuencia de) palabra(s) ó nin
P3 = E [CAT] ó ø ó ¿? ó ~ = (secuencia de) palabra(s) ó nin
P2 = E [CAT] ó ø ó ¿? ó ~ = (secuencia de) palabra(s) ó nin
P1 = E [CAT] ó ø ó ¿? ó ~ = (secuencia de) palabra(s) ó nin
V = VrRg [CAT] ó ¿? ó ~ = (secuencia de) palabra(s) ó nin,

donde CAT es una variable que abarca las categorías a las que pertenecen las expresiones identificadas como E o VrRg, a saber: verbo, preposición, expresión verbal y ¿?, en el caso de Pi, y finito, no finito y ¿?, en el caso de V.

El esquema (3) define un conjunto de configuraciones de seis niveles (Cfr. §2.3), donde cada nivel es el rasgo que resulta de asignar un valor a los atributos V, P1, P2, P3, P4 y P5. Los valores posibles de estos atributos resultan de combinar los atributos VrRg[CAT], ¿? y ~ con los valores (secuencia de) palabra(s) y nin, en el caso del atributo V, y los atributos E[CAT], ø, ¿? y ~ con los valores (secuencia de) de palabra(s) y nin, en el caso de los atributos P1-P5, de modo que, en principio, V puede tomar 5x2=10 valores diferentes y cada Pi puede tomar 7x2=14 valores diferentes. Luego, el esquema (3) especifica 10x145 configuraciones de rasgos diferentes, módulo restricciones formales de combinación impuestas por el sistema. A estas configuraciones las llamaremos configuraciones (de predicados mediadores) variables.

A cada configuración de predicados mediadores se le asignará un código de acuerdo con la Tabla 2.

Tabla 2

CONFIGURACIONES DE PREDICADOS MEDIADORES

Valores de P5

Valores de P4

Valores de P3

Valores de P2

Valores de P1

Valores de V

1. E[CAT]

2. ø

3. ¿?

4. ~

1. E[CAT]

2. ø

3. ¿?

4. ~

1. E[CAT]

2. ø

3. ¿?

4. ~

1. E[CAT]

2. ø

3. ¿?

4. ~

1. E[CAT]

2. ø

3. ¿?

4. ~

1. VrRg[CAT]

2. ¿?

3. ~

El código se forma con la sigla MF seguida del número que resulta de combinar un número (cualquiera) de la primera columna con un número (cualquiera) de la segunda columna con un número (cualquiera) de la tercera columna con un número (cualquiera) de la cuarta columna con un número (cualquiera) de la quinta columna con un número (cualquiera) de la sexta columna. El número resultante identifica una configuración de predicados mediadores. Sea, por ejemplo, el código MF442213 que identifica la siguiente configuración de predicados mediadores:

(4)

P5 = ~ = nin
P4 = ~ = nin
P3 = ø = nin
P2 = ø = nin
P1 = E [CAT] = (secuencia de) palabra(s)
V= ~ = nin

El código de identificación lo introduce automáticamente el sistema en el primer campo del grupo MdFr. La función del código es identificar configuraciones de predicados mediadores variables de modo de captar el conjunto de textos que instancian esas configuraciones.

Ejemplo 2

La configuración variable (4), codificada como MF442213, representa, entre otras, la configuración de predicados mediadores instanciada del siguiente registro:

EnLx afrutado

Cxto

Don Rui Blanco

Un blanco curioso, con atractivos reflejos verdosos, fresco de paladar y afrutado en sus aromas.

AQué AQ44211

A5 ~
nin

A4 ~
nin

A3 ArOtTx
Don Rui Blanco

A2 ArOtOr
blanco

A1 ArOr
aromas

MdFr MF442213

P5 ~
nin

P4 ~
nin

P3 ø
nin

P2 ø
nin

P1 E [prep]
en

V ~
nin

Supongamos que se solicitara al sistema los registros que contienen el código MF442213 en el primer campo del grupo MdFr. En ese caso, la base de datos entregaría el conjunto de registros que responden a la configuración variable (4), es decir, registros cuyos textos (del campo Cxto) son analizables mediante (4). Estos registros, entre los cuales se encontraría el del Ejemplo 2, proveen la siguiente información sobre los contextos de aparición de los términos de degustación: (i) hay tres niveles de predicación, (ii) no hay un verbo que rija la frase en que aparece el término, (iii) hay una expresión en el primer nivel de predicación (P1) que actúa como predicado mediador entre el término en cuestión y un argumento oracional o textual (en el Ejemplo 2, la preposición en pone en relación afrutado con el argumento oracional aromas), (iv) el segundo y tercer nivel de predicación (P2 y P3), en cambio, se realizan sin la mediación de un predicado mediador. Un resultado práctico inmediato es que de esta manera se puede identificar, por ejemplo, el conjunto de expresiones (con las correspondientes categorías léxicas a que pertenecen) que actúan como predicados mediadores entre los distintos términos y los argumentos de primer nivel (A1). Mutatis mutandis, el sistema permite hacer este reconocimiento en todos los niveles de predicación.

Ejemplo 3

EnLx amargo

Cxto

Tocai Friulano […] Con él se elabora un vino blanco muy perfumado, con un leve dejo amargo típico muy suave y casi aterciopelado.

AQué AQ44411

A5 ~
nin

A4 ~
nin

A3 ~
nin

A2 ArOtOr
vino

A1 ArOr
dejo

MdFr MF444121
P5 ~
nin

P4 ~
nin

P3 ~
nin

P2 E [prep]
con

P1 ø
nin

V VrRg [verbo]
elabora

De acuerdo con las configuraciones instanciadas en los grupos de campos AQué y MdFr, el Ejemplo 3 muestra un texto de dos niveles de predicación relativos al término amargo; en el primero, aparece el argumento (oracional) dejo y en el segundo, el argumento (también oracional) vino. En el primer nivel, amargo se relaciona con dejo sin la intervención de un predicado mediador; en el segundo, en cambio, la frase de la que es parte amargo se relaciona con el argumento vino mediante la preposición con. Por otra parte, hay un verbo, elabora, que rige la frase de la que es parte amargo.

Con el código MF444121, el sistema permite identificar todos los textos en la base de datos con dos niveles de predicación en los que no hay un predicado mediador para el primero pero sí para el segundo y que, además, contienen un verbo que rige la frase de la que es parte el término.

 

2.3. Valores del campo "EsPr"

Sean los esquemas de predicación (5) y (6):

(5) Q1 = {SO1[… FO1[… A1 …]FO1 …]SO1, P1 , SL1[… FL1[… EnLx …]FL1 …]SL1}

(6) Qn = {Tn, Pn, En},

donde Tn = SOn[… FOn[… An …]FOn …]SOn y En = SLn[… FLn[Qn - 1]FLn …]SL, para todo n > 1.

El valor de Ai se determina a partir del valor que se les haya asignado a los atributos correspondientes en la configuración argumental instanciada en el grupo de campos AQué. La instanciación de Ai está sujeta a las restricciones impuestas por las definiciones relevantes de §1 y las condiciones formales de especificación de valores impuestas sobre el esquema argumental (1) (Cfr. nota 5). Así, de acuerdo con el esquema (1), la variable A1 puede, en principio, instanciarse como un ArOr o un ArTx. Sin embargo, esta opción es compatible con el esquema (5) pero no con el esquema (6), ya que, en éste, A1 sólo puede instanciarse como un ArOr. De hecho, ni ArTx ni ArOtTx pueden ser valores de un Ai que es parte de una FLj, donde i < j. Esta restricción es una consecuencia de la definición según la cual FLj es parte de la oración anfitriona y por lo tanto todo elemento que sea parte de FLj también lo será de la oración anfitriona. Luego, un Ai que es parte de una FLj no puede instanciarse como un ArTx o un ArOtTx, ya que estas categorías están definidas para el texto anfitrión y no la oración anfitriona.

EnLx es un adjetivo o un sustantivo. "…" es una (secuencia de) palabra(s) o es nulo. SOi es un fragmento de OrAn o TxAn que puede o no ser un constituyente y SLi es un fragmento de OrAn que puede o no ser un constituyente. FLi y FOi representan, respectivamente, las diversas FrLx y FrOt (y son, por lo tanto, constituyentes). La determinación de los valores de estas variables se realiza en el grupo de campos FrRl de acuerdo con el esquema de configuraciones frásticas (Cfr. Castel & Catania 1995: §1.4.4). Por su parte, Pi representa los predicados encargados de "asignar" a FOi las propiedades de FLi; es decir, es una variable que abarca PrMdEx y PrMdN (en adelante, E y ø, respectivamente). La determinación de los valores de Pi se realiza en el grupo de campos MdFr de acuerdo con el esquema (3).

Las llaves de los esquemas (5) y (6) y las comas que separan los distintos elementos que los componen cumplen el propósito de indicar que tanto el orden entre las frases y los predicados como el orden de las frases entre sí y de los predicados entre sí es el permitido por las posibilidades lógicas de permutación. Así, por ejemplo, el esquema (5) resume las siguientes estructuras ordenadas:

SO1[… FO1[… A1 …]FO1 …]SO1 P1 SL1[… FL1[… EnLx …]FL1 …]SL1
SL1[… FL1[… EnLx …]FL1 …]SL1 P1 SO1[… FO1[… A1 …]FO1 …]SO1
P1 SO1[… FO1[… A1 …]FO1 …]SO1 SL1[… FL1[… EnLx …]FL1 …]SL1
P1 SL1[… FL1[… EnLx …]FL1 …]SL1 SO1[… FO1[… A1 …]FO1 …]SO1
SO1[… FO1[… A1 …]FO1 …]SO1 SL1[… FL1[… EnLx …]FL1 …]SL1 P1
SL1[… FL1[… EnLx …]FL1 …]SL1 SO1[… FO1[… A1 …]FO1 …]SO1 P1

Estas seis estructuras ordenadas son relevantes cuando P1 es un PrMdEx. Cuando P1 = ø, las posibilidades de orden distintivas se reducen al orden de las frases entre sí, es decir, las dos estructuras siguientes:

SO1[… FO1[… A1 …]FO1 …]SO1 SL1[… FL1[… EnLx …]FL1 …]SL1
SL1[… FL1[… EnLx …]FL1 …]SL1 SO1[… FO1[… A1 …]FO1 …]SO1

Los esquemas (5) y (6) definen un conjunto de estructuras de predicación, en el que cada estructura difiere de las otras por el valor asignado a Pi, el valor asignado a Ai y por el orden relativo entre las FOi y FLi, entre estas frases y Pi, y de los Pi entre sí. A estas estructuras las denominaremos estructuras (de predicación) variables. Denominaremos estructuras de una sola predicación, a las estructuras definidas por el esquema (5); a las estructuras definidas por el esquema (6), las denominaremos estructuras de dos (tres, cuatro, etc.) predicaciones, según que el valor de Ai sea dos (tres, cuatro, etc.). Obsérvese que el esquema (6) es recursivo y, por lo tanto, no hay límites con respecto a la cantidad de estructuras de predicación que pueden aparecer incrustadas dentro de otras. Está claro, sin embargo, que es una cuestión empírica determinar cuáles son las estructuras que efectivamente ocurren en los textos de descripción de vinos. En efecto, en la muestra analizada, por ejemplo, no hemos encontrado todavía textos que superen las cinco predicaciones.

La identificación de estas estructuras variables se hará mediante un código de tres posiciones. La primera posición, un número romano precedido de EQ, indica la cantidad de predicaciones. La segunda posición, uno o más caracteres (el máximo de caracteres estará dado por la cantidad de predicaciones), sirve para indicar, por un lado, los predicados mediadores que intervienen y, por el otro, el nivel en que se realiza la predicación. Si hay un solo caracter, se trata de P1. Si hay dos, el caracter de la izquierda identifica a P2 y el de la derecha a P1. Si hay tres caracteres, el primero (de la izquierda) identifica a P3, el segundo a P2 y el tercero a P1, etc. Por último, la tercera posición, un número arábigo (la cantidad de dígitos estará dada por la cantidad de predicaciones de la estructura), indica las diferentes posibilidades de instanciación de Ai (esto es, si se trata de ArOr, ArTx, etc.).

Sea, por ejemplo, el código EQII.Eø.11. EQII indica que se trata de una estructura de dos predicaciones. establece que P2 se realiza mediante un PrMdEx y que P1 se realiza mediante un PrMdN. Por su parte, 11 indica que A2 se instancia como un ArOtOr y A1 como un ArOr. El código EQII.Eø.11 identifica, entonces, la siguiente estructura de predicación variable (prevista por el esquema (6)):

{SO2[… FO2[… ArOtOr …]FO2 …]SO2,
E,
SL2[… FL2[SO1[… FO1[… ArOr …]FO1 …]SO1,
ø,
SL1[… FL1[… EnLx …]FL1 …]SL1]FL2 …]SL2}

SExI introduce automáticamente el código de identificación de estructuras de predicación variables en el campo EsPr a partir de las configuraciones instanciadas en los grupos de campos AQué y MdFr.

Si requiriéramos a la base de datos de SExi, por ejemplo, el conjunto de registros que contienen el código EQIV.øEEø.2111 en el campo EsPr, cada registro de la respuesta contendría la siguiente información: (i) un texto analizable (mediante el esquema (6)) como EQIV, es decir, con cuatro niveles de predicación (cuatro argumentos relacionados entre sí mediante los predicados correspondientes); (ii) el predicado mediador del cuarto nivel es PrMdN (ø), los predicados del tercero y segundo son PrMdE (E) y el del primero, también un PrMdN (ø), es decir, los predicados mediadores del texto asociados a EnLx son analizables como øEEø; (iii) los argumentos son analizables como 2111, es decir, A4 es un argumento textual y A3, A2 y A1 son argumentos oracionales. El código EQIV.øEEø.2111 identifica, entonces, la siguiente estructura de predicación variable:

{SO4[… FO4[… ArOtTx …]FO4 …]SO4
ø,
SL4 […FL4 [SO3[… FO3[… ArOtOr …]FO3 …]SO3,
E,
SL3[… FL3[SO2[… FO2[… ArOtOr …]FO2 …]SO2,
E,
SL2[… FL2[SO1[… FO1[… ArOr …]FO1 …]SO1,
ø,
SL1[… FL1[… EnLx …]FL1 …]SL1]FL2 …]SL2]FL3 …]SL3]FL4 …]SL4}

El Ejemplo 4 ilustra todas estas características.

Ejemplo 4

EnLx frutadas
Cxto

Trapiche Pinot Noir
Vino suave con un leve tinte rubí. Aroma con características florales que recuerdan a la rosa y las esencias frutadas de las frambuesas. […]

EsPr EQIV.øEEø.2111

AQué AQ42111

A5 ~
nin

A4 ArOtTx
Trapiche Pinot Noir

A3 ArOtOr
aroma

A2 ArOtOr
características florales

A1 ArOr
esencias

MdFr MF421123

P5 ~
nin

P4 ø
nin

P3 E [prep]
con

P2 E [verbo]
recuerdan

P1 ø
nin

V ~
nin

Este registro muestra que, en el primer nivel de predicación, la FrLx de la que es parte frutadas (FL1) se relaciona con la frase de la que es parte el argumento oracional esencias (FO1) sin la mediación de predicado alguno; en el segundo nivel, la FrLx de la que es parte frutadas (FL2) se relaciona con la frase de la que es parte el argumento oracional características florales (FO2) mediante el verbo recuerdan; en el tercer nivel, la FrLx de la que es parte frutadas (FL3) se relaciona con la frase de la que es parte el argumento oracional aroma (FO3) mediante la preposición con; en el cuarto nivel, la FrLx de la que es parte frutadas (FL4) se relaciona con la frase de la que es parte el argumento textual Trapiche Pinot Noir (FO4) sin la mediación de predicado alguno.

Obsérvese que a partir del código con el que se identifican las estructuras de predicación variables no se puede determinar el orden relativo con que se manifiestan, en el texto, los constituyentes del esquema de predicación correspondiente. En efecto, el código no incluye información sobre si FLi precede o sigue a FOi, si Pi aparece entre esas frases, precede a esas frases o sigue a esas frases, ni si Pi precede o sigue a Pj, etc. La información relativa al orden de realización de las estructuras de predicación se explicita en el grupo de campos Orle como lo ilustra el Ejemplo 5.

 

Referencias

Bès, Gabriel G., Rémi Zajac et Víctor M. Castel (1993) Les langues contrôlées: plan de recherche, Université Blaise Pascal - Clermont II, Francia.

Castel, Víctor M. (1995) "Estructuras de predicación y configuraciones argumentales de los términos de degustación de vinos", ponencia leída en las II Jornadas de Lexicografía, Universidad Nacional de Buenos Aires, en octubre de 1995.

Castel, Víctor M. y Carlos D. Catania (1995) Modelización de sistemas para la producción e interpretación, natural y asistida por computadora, de lenguas controladas en dominios cognitivos restringidos: la terminología y la gramática de la degustación de vinos, Informe anual del proyecto LeCoDeVi (2 volúmenes), Año I, CRICYT, Mendoza.

Grishman, Ralph and Richard Kittredge (1986) Analyzing Language in Restricted Domains: Sublanguage Description and Processing, Lawrence Erlbaum Associates, Inc., New Jersey.

Harris, Zellig (1982) "Discourse and Sublanguage", en Kittredge & Lehrberger (1982:231-236).

Kittredge, Richard and John Lehrberger (1982) Sublanguage. Studies of Language in Restricted Semantic Domains, Walter de Gruyter, Berlin.

Lehrberger, John (1986) "Sublanguage Analysis", en Grishman & Kittredge (1986:19-38).

 

Editado con el apoyo de
Editado com o apoio da: