Clasificación y anotación de clases de sujetos en portugués

Share Embed


Descripción

Lingüística XL. El lingüista del siglo XXI

CLASIFICACIÓN Y ANOTACIÓN DE CLASES DE SUJETOS EN PORTUGUÉS

LUZ RELLO1 E IRIA GAYO2 1

Universitat Pompeu Fabra, 2Universidad de Santiago de Compostela

I.

¿POR QUÉ LA ELIPSIS?

La elipsis es la falta de realización fónica de algún componente necesario para la interpretación del enunciado (Brucart 1999). La elipsis lleva siendo elemento de estudio desde la Antigüedad (Díscolo, [s. II] 1987), pasando por el Renacimiento (Sánchez de las Brozas, [1562] 1976) y la Ilustración (Lancelot y Arnauld, [1660] 1980), hasta el siglo XX (Chomsky, [1968] 2006). En la actualidad, la elipsis no sólo interesa a los lingüistas1 sino también a informáticos y, más concretamente, a aquellos que se dedican al Procesamiento del Lenguaje Natural (PLN). En PLN, el hecho de que exista algo que no está explícito en el texto pero que efectivamente existe, hace necesarias estrategias adicionales que puedan procesar de alguna manera estos elementos que no se realizan en el texto. Una de las ramas de PLN que se ve obligada a tener en cuenta la elipsis es la resolución automática de anáfora (Mitkov 2002). La resolución de anáfora es previa y necesaria en muchas tareas de PLN y, en ella, la elipsis se ve implicada en dos ocasiones. En primer lugar, cuando se trata de resolver una anáfora cero, esto es, cuando el elemento anafórico es un sujeto omitido que hace referencia a otro elemento en el discurso y, por tanto, este elemento anafórico elidido ha de ser identificado de alguna manera en el texto. Y, en segundo lugar, en el proceso de filtrado de candidatos de sujetos omitidos que, en realidad, no lo son pero que la máquina interpreta como tal, como pueden ser el caso de las oraciones impersonales. La necesidad de herramientas que identifiquen la elipsis para mejorar la precisión de las tareas de PLN ha sido explícitamente mencionado en trabajos de la rama (Ferrández y Peral 2000, Recasens y Hovy 2009). Entre las diferentes estrategias que existen en PLN para identificar de manera automática la elipsis del sujeto, está el aprendizaje automático. La utilización de aprendizaje automático para este fin se ha realizado con éxito en otras lenguas como el inglés (Evans, 2001) o el español (Rello y otros, 2010) pero todavía, hasta donde alcanza nuestro conocimiento, no ha sido aplicado al portugués. Para llevar a cabo un método que utilice aprendizaje automático, el primer paso necesario es la creación de un corpus anotado a partir de cual se extraerán los datos de aprendizaje. Para que el sistema de detección automática de elipsis funcione, es crucial que los criterios de anotación 1 Algunos de los marcos teóricos desde los cuales se ha estudiado la elipsis son: el marco descriptivo (Brucart 1999, Bosque 1989), pragmático (Shopen 1973), estructuralista (Francis 1958), semántico (Real Academia Española 2009) y cognitivo (Streb et al. 2004).

291

Lingüística XL. El lingüista del siglo XXI

sean exhaustivos y, a poder ser, que estén motivados lingüísticamente, ya que si los criterios se fundamentan en el lenguaje natural a procesar, estos criterios serán válidos y reproducibles para otros ejemplos en la misma lengua. En este artículo se presentan las siguientes aportaciones originales: (1) el corpus anotado y (2) los criterios lingüísticos que se han utilizado para la delimitación y anotación de los elementos que aparecen en la posición de sujeto en portugués en el corpus. En primer lugar, presentamos el corpus, después explicamos las clases y los criterios de anotación y, finalmente, completamos la exposición con algunos ejemplos de difícil clasificación. II.

CLASES DE ELEMENTOS EN POSICIÓN SUJETO

La clasificació de los difere es c sos que se puede e co r r e l posició de suje o e por ugués respo de l s exige ci s prác ic s que impo e l resolució de áfor e PLN. Es decir, debe r rse de u cl sific ció que pued u iliz rse e u plic ció cuyo fi se ide ific r de m er u omá ic l elipsis de suje o e por ugués. El c rác er prác ico de es cl sific ció requiere e er e cue los dos r sgos que p r icip e l resolució de áfor : l refere ci lid d de l i s ci y su elisió (Ev s, 2001, Rello e . l. 2010). Siguie do es e cri erio, se h re liz do u cl sific ció rip r i de l s i s ci s e : (1) suje o explíci o [+ refere ci l, – elíp ico], (2) suje o omi ido [+ refere ci l, + elíp ico] y (3) co s rucció imperso l [– refere ci l, – elíp ico]. A continuación presentamos un ejemplo de cada clase. Todos los ejemplos en este trabajo están tomados de nuestro corpus. 2

(1) Art. 1º esta lei dispõe sobre a prevenção e a repressão às infrações […]. Art. 1º esta ley dispone sobre la prevención y la represión a las infracciones […]. (2) Ø Convergem também no conceito de que os transtornos mentais surgem a partir de interrelações dimensionais […]. Ø Convergen también en el concepto de que los trastornos mentales surgen a partir de las interrelaciones dimensionales […]. (3) Trata-se de um estudo exploratório-descritivo retrospectivo, com abordagem quantitativa. Se trata de un estudio exploratorio-descriptivo retrospectivo, con un abordaje cuantitativo.

Esta clasificación tripartita de motivación práctica encuentra su fundamento en una clasificación de sujetos más amplia que sigue criterios lingüísticos (véase Sección IV) y que aporta consistencia a cada instancia clasificada. III.

CORPUS ESZIC_PT

Hemos compilado un conjunto de textos que luego han sido parseados y anotados manualmente. 3.1. Compilación del corpus El corpus se llama ESZIC_PT (Explicit Subjects, Zero-pronouns and Impersonal Constructions in Portuguese)3 y está compuesto por 17 textos. Los textos pertenecen a los géneros jurídico (leyes) y médico (artículos científicos de psiquiatría). Se trata de escritos originales, no traducidos, en portugués de Brasil. Se ha buscado que el número de tokens y de textos de ambos géneros sea compensado.

2 3

El verbo anotado sobre el que versa el ejemplo aparece en cursiva. El corpus ESZIC_PT se encuentra a libre disposición en la siguiente URL: http://www.luzrello.com/Projects.html.

292

Lingüística XL. El lingüista del siglo XXI

El conjunto de textos se ha analizado con el parser para el portugués PALAVRAS4, desarrollado por el Institute of Language and Communication en la University of Southern Denmark (Bick 2008). PALAVRAS enriquece el texto con etiquetas que incluyen información morfológica y sintáctica así como las relaciones sintácticas de dependencias entre constituyentes presentando una estructura de árbol. El corpus ESZIC_PT consta de 102.285 tokens repartidos entre el género legal (57.269) y el médico (45.016).

3.2. Anotación del corpus La anotación del corpus se ha realizado de manera manual y para ello se ha implementado un programa que extrae de manera automática cada verbo finito que es detectado por el parser. El programa pide al anotador que marque cada verbo con alguna de las etiquetas siguiendo los criterios de anotación que se detallan en la sección IV. El corpus ESZIC_PT posee un total de 5.665 verbos anotados de los cuales un 77% son sujetos explícitos, un 21% son sujetos omitidos y un 2% se corresponden con oraciones impersonales (Tabla 1). TABLA 1: NÚMERO DE INSTANCIAS POR CLASE EN EL CORPUS ESZIC_PT CLASES GÉNERO GÉNERO CORPUS LEGAL MÉDICO ESZIC_PT SUJETOS EXPLÍCITOS 1.891 2.462 4.353 SUJETOS OMITIDOS 462 740 1.202 ORACIONES IMPERSONALES 55 55 110 TOTAL 2.408 3.257 5.665

IV.

CRITERIOS LINGÜÍSTICOS

Cada verbo del corpus ha sido anotado con una etiqueta según la naturaleza lingüística del elemento en posición de sujeto que le corresponde. Cada etiqueta se distingue por un haz de rasgos único. Cada rasgo se determina según su comportamiento en cada nivel del lenguaje. Los niveles del lenguaje que se han considerado son: (I) Nivel fonético: si el sujeto presenta una realización fonética o no [± elíptico] y si esa realización afecta a todo el sujeto o tan sólo al núcleo de mismo [± núcleo elíptico]. (II) Nivel morfológico: según la diátesis verbal del sujeto es activa o pasiva [± activo]. (III) Nivel sintáctico: si la categoría sintáctica del sujeto es nominal o no [± sujeto nominal]. (IV) Nivel semántico: si el sujeto se corresponde con un agente [± agente]. (V) Nivel discursivo: si el sujeto es referencial o no [± referencial]. De la combinación de estos rasgos se deducen las siguientes 13 categorías que se corresponden con las etiquetas con las que ha sido anotado el corpus ESZIC_PT. Estas 13 etiquetas se agrupan en las tres clases principales según los rasgos [± elíptico] y [± referencial]. Las categorías i, ii y iii se corresponden con la clase de sujeto explícito; las etiquetas iv, v, vi, vii, viii, ix, x e xi con la clase de sujeto omitido y las etiquetas xii y xiii con las construcciones impersonales. Vemos a continuación cada etiqueta del corpus junto con su haz de rasgos definitorio. (i) Sujeto explícito en oración activa: [– elíptico, – núcleo elíptico, + activo, + sujeto nominal, + agente, + referencial]. Véase ejemplo (1). (ii) Sujeto explícito en oración pasiva: [– elíptico, – núcleo elíptico, – activo, + sujeto nominal, + agente, + referencial].

4

El parser PALAVRAS se encuentra a libre disposición en la siguiente URL: http://beta.visl.sdu.dk/visl/pt/parsing/automatic/.

293

Lingüística XL. El lingüista del siglo XXI

(4) Redação dada por a lei nº 10.149, de 21.12.2000) citado por 1§ 2o a empresa estrangeira será notificada e intimada de todos os atos processuais […]. Redacción dada por la ley nº 10.149, de 21.12.2000) citado por 1§ 2o la empresa extranjera será notificada e intimada de todos los actos procesuales […].

(iii)

Sujeto explícito en oración pasiva refleja: [– elíptico, + activo, + sujeto nominal, – agente, + referencial].

elíptico,



núcleo

(5) Ao mesmo tempo em que se visita outra pessoa essa experiência muda o próprio visitante. Al mismo tiempo que se visita otra persona esa experiencia cambia al propio visitante.

(iv)

Sujeto omitido en oración activa: [+ elíptico, – núcleo activo, + sujeto nominal, + agente, + referencial]. Véase ejemplo (2).

elíptico,

+

(v) Núcleo omitido en el sujeto en oración activa: [– elíptico, + núcleo elíptico, + activo, + sujeto nominal, + agente, + referencial]. (6) Em a clínica, é comum a sobreposição de sintomas, o Ø que promove dificuldades na distinção de categorias tão diversas. En clínica, es común la superposición de síntomas, lo Ø que promueve dificultades en la distinción de categorías tan diversas.

(vi) Sujeto no nominal en oración activa: [– elíptico, – núcleo elíptico, + activo, – sujeto nominal, + agente, + referencial]. (7) É possível que um processo menos rebuscado não comprometa a qualidade do instrumento final. Es posible que un proceso menos rebuscado no comprometa la calidad del instrumento final.

(vii)

Sujeto omitido en oración pasiva: [+ elíptico, activo, + sujeto nominal, – agente, + referencial].



núcleo

elíptico,



(8) Ø É tomado por o desejo de ser amado por ela e de expressar o amor que sente por ela. Ø Es tomado por el deseo de ser amado por ella y de expresar el amor que siente por ella.

(viii) Núcleo omitido en el sujeto en oración pasiva refleja: [– elíptico, + núcleo elíptico, + activo, + sujeto nominal, – agente, + referencial]. (9) Os Ø que, embora naturalmente divisíveis, se consideram indivisíveis por lei, ou vontade das partes. Los Ø que, aunque naturalmente divisibles, se consideran indivisibles por la ley, o voluntad de las partes.

(ix)

Sujeto no nominal en oración pasiva refleja: elíptico, + activo, – sujeto nominal, – agente, + referencial].

[–

elíptico,



núcleo

(10) Para a retificação de dados, quando não se prefira fazê-lo por processo sigiloso judicial ou administrativo. Para la rectificación de los datos, cuando no se prefiera hacerlo por proceso secreto judicial o administrativo.

(x) Núcleo omitido en el sujeto en oración pasiva: [+ elíptico, – núcleo elíptico, – activo, + sujeto nominal, – agente, + referencial]. (11) O Ø que foi discutido e solucionado na etapa 3. Lo Ø que fue discutido y solucionado en la etapa 3.

(xi) Sujeto no nominal en oración pasiva: [ – elíptico, – núcleo elíptico, – activo, – sujeto nominal, – agente, + referencial].

294

Lingüística XL. El lingüista del siglo XXI

(12) Sobre a auto-percepção do estado de saúde, deve ser observado que a maioria […] considerou seu estado de saúde bom ou muito bom. Sobre la auto-percepción del estado de salud, debe ser observado que la mayoría […] consideró su estado de salud bueno o muy bueno.

(xii)

Construcción impersonal Véase ejemplo (3).

con

se:

[+

elíptico,



activo,



referencial].

(xiii) Construcción impersonal sin se: [+ elíptico, + activo, – referencial]. (13) Também há uma distinção entre a qualidade de vida global […] e os componentes de cada dimensão. También hay una distinción entre la calidad de vida global […] y los componentes de cada dimensión.

V.

CASOS AMBIGUOS

El corpus no queda exento de ejemplos ambiguos cuya clasificación es objeto de discusión. En estos casos, el anotador siguió los criterios pertinentes para la adopción de una etiqueta u otra, como puede ser, la toma en consideración del co-texto de la oración y del contexto global del texto. (14) Sucede-se uma raivosa explosão, e depois ao final o fantoche se abandona no chão, em estado de desmantelamento. Se sigue una rabiosa explosión, y después al final el fantoche se abandona en el suelo, en estado de desmantelamiento. (15) Art. 183. Não podem casar (arts. 207 e 209): I. Os ascendentes com os descendentes, seja o parentesco legítimo ou ilegítimo, natural ou civil. II. Os afins em linha reta, seja o vínculo legítimo ou ilegítimo. III. O adotante com o cônjuge do adotado e o adotado com o cônjuge do adotante (art. 376). Art. 183. No se pueden casar (arts. 207 e 209): I. Los ascendentes con los descendentes, sea el parentesco legítimo o ilegítimo, natural o civil. II. Los afines en línea recta, sea el vínculo legítimo o ilegítimo. III. El adoptante con el cónyuge del adoptado y el adoptado con el cónyuge adoptante (art. 376).

En (14), si el verbo suceder se considera como un verbo pronominal, este verbo poseería un sujeto explícito en una oración con pasiva refleja. Si, por el contrario, tomamos suceder en su uso intransitivo, nos encontraríamos ante una oración impersonal. En (15), la delimitación del sujeto es controvertida, pues podría considerarse un sujeto omitido o un sujeto no nominal en función de cómo se analicen las oraciones que siguen a la oración principal con el verbo poder. VI.

CONCLUSIONES

En este artículo hemos presentado un recurso lingüístico: un corpus compuesto por más 5.000 verbos anotados según el tipo de elemento en posición de sujeto que posean. Para ello, hemos creado una clasificación de los sujetos en portugués. La creación de este recurso ha estado supeditada a criterios prácticos. El corpus podrá ser utilizado en el futuro cuando del mismo se extraigan los datos de entrenamiento que se utilizarán en un método de aprendizaje automático que detectará automáticamente la elipsis en portugués.

295

Lingüística XL. El lingüista del siglo XXI

Bibliografía Bick, E. 2000: «The parsing system PALAVRAS», en Automatic Grammatical Analysis of Portuguese in a Constraint Grammar Framework, Arhus, University of Arhus. Bosque, I. 1989: «Clases de sujetos tácitos», en Borrego Nieto, J. (ed.) Philologica: homenaje a Antonio Llorente, 2, Universidad Pontificia de Salamanca, Servicio de Publicaciones, pp. 91112. Brucart, J. M. 1999: «La elipsis», en Bosque, I. y Demonte, V. (eds.), Gramática descriptiva de la lengua española, 2, Madrid, Espasa-Calpe, pp. 2787-2863. Chomsky, N. [1968] 2006: Language and mind, Cambridge, Cambridge University Press. Díscolo, A. [s. 2 d.C. ] 1987: Sintaxis, Madrid, Gredos. Evans, R. 2001: «Applying machine learning: toward an automatic classification of it», Literary and Linguistic Computing, 16, Oxford, Oxford University Press, pp. 45-57. Ferrández, A. y Peral, J. 2000: «A computational approach to zero-pronouns in Spanish», en Proceedings of the 38th Annual Meeting of the Association for Computational Linguistics (ACL-2000), pp. 166-171. Francis, W. 1958: The structure of American English, New York, Ronald Press. Lancelot, C. y Arnauld, A. [1660] 1980: Gramática general y razonada, Madrid, Sociedad General Española de Librería. Mitkov, R. 2002: Anaphora resolution, London, Longman. Mitkov, R. 2010: «Discourse processing», en Clark, A. Fox, C. y Lappin, S. (eds.), The handbook of computational linguistics and natural language processing, Oxford, Wiley Blackwell, pp. 599-629. Real Academia Española 2009: Nueva gramática de la lengua española, Madrid, Espasa-Calpe. Recasens, M. y Hovy, E. 2009: «A deeper look into features for coreference resolution», en Proceedings of the 7th Discourse Anaphora and Anaphor Resolution Colloquium (DAARC09), Lecture Notes in Computer Science, Berlin, Heidelberg, Springer, pp. 29-42. Rello, L., Suárez, P. y Mitkov, R. 2010: «A machine learning method for identifying nonreferential impersonal sentences and zero pronouns in Spanish», Procesamiento del Lenguaje Natural, 45, pp. 281-287. Sánchez de las Brozas, F. [1562] 1976: Minerva. De la propiedad de la lengua latina, Madrid, Cátedra. Shopen, T. (1973). «Ellipsis as grammatical indeterminacy», Foundations of Language, 10, pp. 65-77. Streb, J., Hennighausen, E. y Rösler, F. 2004: «Different anaphoric expressions are investigated by event-related brain potentials», Journal of Psycholinguistic Research, 33, pp.175-201.

296

Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.