Análisis de preguntas para Búsqueda de Respuestas: evaluación de tres parsers del español

Share Embed


Descripción

Análisis de preguntas para Búsqueda de Respuestas: evaluación de tres parsers del español Question Analysis for QA: Evaluation of three Spanish Parsers Iria Gayo U. de Santiago de Compostela [email protected] Resumen: El análisis sintáctico de preguntas es un paso crucial en los sistemas de Búsqueda de Respuestas (BR). En español existen herramientas (parsers) de acceso libre para realizar ese análisis. En este artículo nos planteamos hasta qué punto estas herramientas son adecuadas para una tarea específica de BR como es el análisis de preguntas. Para ello, proponemos una evaluación de tres parsers del español de acceso libre: dos con análisis de dependencias y uno con análisis de constituyentes. La evaluación se ciñe exclusivamente al análisis de preguntas. Nuestros resultados muestran que los tres parsers ofrecen buenos resultados en la identificación de constituyentes, mientras que se comportan bastante peor en la asignación de funciones sintácticas a esos constituyentes. Se demuestra además que, como ocurre en inglés, los parsers de constituyentes son mejores que los de tipo dependencial en el análisis de preguntas. Palabras clave: parser; Búsqueda de Respuestas; pregunta; análisis sintáctico; evaluación de parsers. Abstract: Syntactic analysis of questions is a crucial step of Question Answering systems (QA). There are free Spanish parsers for this task. In this paper, we ask about the possibility of using these parsers for question analysis, a specific task of QA. For this reason, we propose an evaluation of three Spanish free parsers: two dependency parsers and one constituency parser. The evaluation accounts only for question syntactic analysis. Our results show that the three parsers show good results in constituent identification, but they have worst results in function labelling. We show also that, as it has been shown for English, constituency parsers perform better than dependency parsers in question analysis. Keywords: parser; Question Answering; question; syntactic analysis; parsing evaluation.

1 Introducción En los sistemas de Búsqueda de Respuestas (BR), el análisis de la pregunta planteada es un paso crucial en el proceso que conduce a la obtención de la respuesta correcta. Por esta razón, en estos sistemas existe generalmente un módulo específico que se encarga del análisis de las preguntas (Vicedo, 2003). El tratamiento de la pregunta puede tener diversos grados de complejidad, pero en la mayoría de los casos, implica al inicio del proceso un análisis de tipo sintáctico. De ahí que en los sistemas de BR el correcto análisis sintáctico de las preguntas constituya un paso fundamental (Moldovan, 2002; Hermjakob, 2001). Si queremos un buen análisis de la pregunta, necesitamos como punto

de partida un buen análisis sintáctico. A la hora de abordar el análisis de preguntas para un sistema de BR en español, podemos decantarnos por elaborar una aplicación específica para ese fin (un parser para preguntas) o echar mano de las herramientas disponibles (parsers generales para el español). La posibilidad de construir una herramienta específica sería la ideal, sobre todo teniendo en cuenta las particularidades sintácticas que presentan las preguntas (Contreras, 1999; Escandell, 1999; RAE, 2009). Sin embargo, la construcción de un parser, incluso de uno centrado en una estructura concreta, es un procedimiento costoso y complejo. Para el

español, además, existen varias herramientas de acceso libre con las que es posible analizar preguntas. Considerando esta situación, la cuestión es: ¿vale la pena construir una herramienta específica para el análisis de preguntas? Para responder adecuadamente a esta cuestión, es necesario en primer lugar una evaluación de los recursos disponibles. Por esta razón, en este trabajo se presenta una evaluación comparativa de tres parsers para el español de acceso libre: dos de tipo dependencial, Txala y el parser para el español de DepPattern (de ahora en adelante, DepPattern), y uno con análisis de constituyentes, Hispal. Teniendo en cuenta que lo que nos interesa es el análisis sintáctico de preguntas, la evaluación que se plantea se centra única y exclusivamente en los resultados que estas tres herramientas ofrecen en la identificación de la estructura principal predicado-argumentos en las preguntas. Al utilizar parsers de dependencias y de constituyentes en el análisis de preguntas podemos además comprobar si, como muestra Petrov (2010) para el inglés, los parsers de constituyentes se comportan mejor que los de tipo dependencial en el análisis de preguntas. La estructura del artículo es la que sigue: en la sección 2 introducimos el tema de la evaluación y comparación de parsers; en el apartado 3 presentamos brevemente los parsers comparados en este trabajo; en la sección 4 detallamos la metodología de evaluación empleada; en el apartado 5 presentamos los resultados obtenidos; finalmente, en la sección 6 recogemos las conclusiones del trabajo y algunas ideas para el futuro.

2 Evaluación de parsers En los últimos años, el desarrollo y aplicación de diferentes modelos de parsing1 ha ocupado un lugar muy importante en el campo del Procesamiento del Lenguaje Natural (PLN). Este hecho ha provocado a su vez el interés por el desarrollo de diversos métodos de evaluación de parsers (Black et al. 1991; Lin 1995; Carroll et al. 1996; Lin, 1998; Carroll et al. 1998; Carroll et al. 1999). En este contexto, se ha revelado como especialmente compleja la comparación de parsers pertenecientes a diferentes modelos teóricos (Musillo, 2002; 1. Cf. Musillo (2002: 1) para una selección de estos modelos.

Gaizauskas, 1998). Entre los diferentes métodos de evaluación de parsers, las medidas del esquema PARSEVAL (Black et al., 1991) se han convertido en las más utilizadas (Gaizauskas, 1998: 2). El esquema PARSEVAL utiliza un corpus anotado2 que es utilizado como gold standard. De esta manera, compara un análisis candidato (salida del parser) con un análisis de referencia en el gold standard y ofrece valores para tres medidas: crossing brackets, precision y recall. La primera medida cuenta el número de constituyentes correctos e incorrectos (en términos de límites de constituyente) que produce el parser. Precision es la proporción (o porcentaje) de constituyentes en la salida del parser que aparecen en el gold standard (número de constituyentes correctos dividido por número de constituyentes en la salida del parser). Recall es la proporción de constituyentes en el gold standard que aparecen en la salida del parser (número de constituyentes correctos en la salida del parser dividido por total de constituyentes correctos en el gold standard). En su versión más simple, estas medidas se aplican solo al reconocimiento de constituyentes; en su versión más estricta, las medidas se aplican también a la asignación de funciones a cada constituyente. En nuestro trabajo aplicamos el esquema PARSEVAL para la evaluación de los tres parsers citados: Txala, Hispal y DepPattern. Aunque se han señalado ciertas carencias para este esquema en la evaluación de parsers pertenecientes a marcos teóricos distintos (Musillo, 2002; Gaizauskas, 1998), las características de nuestra evaluación (que veremos a continuación), hacen de PARSEVAL un esquema de evaluación apropiado para nuestros objetivos. Los parsers comparados se encuadran en dos marcos teóricos: Txala y DepPattern pertenecen al marco del análisis de dependencias, mientras que Hispal pertenece al marco de la Constraint Grammar y ofrece un análisis de constituyentes. Este hecho, como hemos visto, complica la comparación entre ellos. Sin embargo, la evaluación que se propone en este trabajo no pretende medir la eficacia general de los tres parsers, sino que se centra en una tarea muy específica: el análisis de preguntas. Del análisis ofrecido por cada 2. Para el inglés, el más usado, el Penn Treebank

(Marcus et al., 1993).

parser para las preguntas, nos interesa además una información específica: la identificación de la estructura principal formada por predicado y argumentos. La nuestra es, por tanto, una comparación basada en una evaluación parcial y orientada a una tarea específica (Musillo, 2002: 4). Estas características de nuestra evaluación facilitan la de por sí compleja tarea de evaluación y comparación, permitiendo, asimismo, que el esquema PARSEVAL se adecúe perfectamente a nuestros objetivos.

3 Parsers comparados TXALA3 Txala (Atserias, 2005) es el parser para el español del paquete de herramientas lingüísticas Freeling (Padró, 2010). Es un parser de libre descarga (junto con todo el paquete de Freeling). También está disponible para uso online. Ofrece un análisis de tipo dependencial con reconocimiento de funciones sintácticas. HISPAL4 Hispal (Bick, 2006) es el parser para el español del proyecto VISL5. Solo está disponible para uso online (permite la subida de ficheros de hasta un máximo de 2 Mb para su análisis y descarga). Ofrece un análisis de constituyentes con reconocimiento de funciones sintácticas en el marco de la Constraint Grammar. DEPPATTERN6 Es el parser para el español del paquete de herramientas lingüísticas DepPattern (Gamallo, 2009). Herramienta de libre descarga (junto con todo el paquete DepPattern). También disponible para uso online. Ofrece un análisis de tipo dependencial con reconocimiento de funciones sintácticas.

sintáctica principal: predicado y argumentos. Por esa razón, se evalúan dos variables: identificación de constituyenes y asignación de funciones a constituyentes. En primer lugar se ha seleccionado un corpus de preguntas con el que se ha elaborado el gold standard necesario para la evaluación. A continuación, se han analizado los resultados de cada parser comparándolos con los del gold standard.

4.1 El gold standard 4.1.1 Corpus de preguntas El corpus está formado por 100 preguntas7 extraídas de los sets de preguntas monolingües en español de CLEF8 2004, 2006 y 2007. Todas las preguntas son interrogativas directas parciales. La selección de las preguntas que forman el corpus no es aleatoria, se ha realizado manualmente y está relacionada con los siguientes aspectos sintácticos: (a) Función sintáctica de la palabra interrogativa: selección de una serie de preguntas para cada función sintáctica posible. Las funciones9 con ejemplos en nuestro corpus son: sujeto, complemento directo, predicativo y complemento circunstancial10. El reparto del número de preguntas por función del interrogativo es homogéneo: 25 preguntas para cada una de las cuatro funciones manejadas. (b) Complejidad sintáctica de los constituyentes: se han seleccionado preguntas con estructuras sintácticas que van desde lo más simple (una palabra, una frase nominal) a lo más complejo (estructuras de tipo subordinado). Se han incluido muchos ejemplos de preguntas con entidades por la importancia del reconocimiento de entidades en los sistemas de BR.

4 Metodología para la evaluación Para realizar la evaluación y comparación de los parsers, se ha utilizado el esquema PARSEVAL. El objetivo es evaluar la identificación en preguntas de la estructura 3. http://nlp.lsi.upc.edu/freeling/ 4. http://beta.visl.sdu.dk/visl/es/index.php 5. http://beta.visl.sdu.dk/ 6. http://gramatica.usc.es/~gamallo/

7. El número de preguntas responde a dos razones: primera, la (necesaria) cuidada selección de ejemplos; segunda, el detallado tipo de análisis llevado a cabo para cada una de ellas. En un futuro, no obstante, la intención es ampliar este número. 8. http://www.clef-campaign.org/ 9. Cf. sección 4.1.2 para más información sobre las funciones sintácticas manejadas en nuestro análisis. 10. No hay casos de interrogativo en función de complemento indirecto en los conjuntos de preguntas de CLEF utilizados.

(c) Complejidad en la estructura sintáctica global: como en el punto anterior, se han seleccionado preguntas con estructuras sintácticas que van de lo simple (pocos constituyentes) a lo complejo (muchos constituyentes; dificultad en la asignación de relaciones). 4.1.2 Construcción del gold standard Las 100 preguntas seleccionadas se han analizado manualmente. El análisis sintáctico realizado consiste en la identificación de la estructura sintáctica principal, es decir, identificación de verbo y argumentos: ¿Cuántos atletas participaron en los Juegos Olímpicos de Barcelona? 3 constituyentes: 1 verbo + 2 argumentos: - Verbo: participaron - Sujeto: cuántos atletas - Complemento Circunstancial: en los Juegos Olímpicos de Barcelona Esto implica anotar, para cada pregunta: el número de constituyentes y la función de cada uno de esos constituyentes. Características del análisis sintáctico: (a) Las funciones tenidas en cuenta son: sujeto (S), complemento directo (O), complemento indirecto (IO), predicativo (PR), circunstancial (CC) y modificador (MOD). El PR incluye tanto atributo como predicativo. En el CC incluimos una amplia variedad de funciones: desde constituyentes de tipo valencial (habitualmente analizados como complementos preposicionales) a adjuntos. Esta “laxitud” pretende simplificar al máximo el análisis y reducir las discrepancias entre parsers debido a las diferencias de sus marcos teóricos. La función MOD se ha incluido exclusivamente por causa del análisis de los relativos, como veremos en el siguiente apartado. (b) Estructuras subordinadas: reciben un tratamiento especial. Por una parte, se computa la subordinada como constituyente con su función. Por otro, se computan cada uno de los constituyentes con sus funciones que hay dentro de la subordinada: ¿Cuál fue el primer satélite que se lanzó al espacio?

6 constituyentes: 2 verbos + 4 argumentos Verbo: ser S: cuál PR: el primer satélite que se lanzó al espacio Verbo: lanzarse S/MOD: que CC: al espacio En el caso de los relativos en las subordinadas, consideramos dos análisis posibles en el gold standard: el relativo como MOD de la frase nominal anterior (en este caso, el primer satélite) o bien el relativo como S u O (dependendiendo de la oración) del verbo de la subordinada (en el ejemplo, lanzó). Este es el único caso en que un constituyente del gold standard puede tener dos funciones posibles. La decisión de permitir un doble análisis responde a la voluntad de equiparar posibles discrepancias teóricas entre los parsers analizados ya que ambos análisis serían correctos (se puede considerar que el relativo modifica y al mismo tiempo tiene una función en la subordinada). (c) Verbo: se analiza siempre como un solo constituyente, aunque sea una unidad compleja (tiempo compuesto, perífrasis verbal). En el caso de la pasiva, se analiza el verbo principal y el participio como un solo constituyente: ¿Qué director de cine italiano ha sido premiado con un Óscar? 3 constituyentes: 1 verbo + 2 argumentos V: ha sido premiado S: qué director de cine italiano CC: con un Óscar (d) Clíticos y partícula “se”: no se computan como constituyentes: ¿Cómo se le llama también al Síndrome de Down? 4 constituyentes: 1 verbo + 3 argumentos V: llama PR: cómo CC: también IO: al Síndrome de Down

4.2 Análisis de la salida de los parsers11 Para salvar las diferencias en la salida de los 11. De los dos PoS taggers que ofrece el paquete DepPattern, se ha utilizado el de Freeling.

parsers provocadas por los distintos marcos teóricos en los que estos se encuadran, se realizó un preproceso de los resultados en la línea de (Gaizauskas, 1998: 2). En primer lugar, de los tres parsers utilizados, solo Hispal ofrece análisis de constituyentes. Para los dos parsers dependenciales se ha salvado este problema mediante la reconstrucción de los constituyentes a partir de las dependencias12. En segundo lugar, se excluyeron del cómputo de constituyentes aquellos elementos en la salida de los parsers no contemplados en el gold standard (partícula “se”, clíticos, signos de puntuación). Una vez finalizado este preproceso, de la salida de cada parser se extrajeron manualmente los siguientes datos: (a) Número total de constituyentes reconocidos: se anotó el número de constituyentes reconocidos por cada parser. (b) Identificación de los constituyentes del gold standard: se anotó el número de constituyentes correctos e incorrectos (en relación al gold standard) reconocidos por cada parser. (c) Identificación de las funciones de los constituyentes del gold standard: se anotó el número de funciones correctamente e incorrectamente asignadas a cada constituyente (en relación al gold standard) para cada parser.

constituyentes es Hispal (88% de eficacia), si bien DepPattern se aproxima bastante (86%). Txala, con un 72% de eficacia, es el que peor resultados ofrece. En precision, DepPattern (89%) supera ligeramente a Hispal (87%), mientras que Txala (68%) se aleja considerablemente de los resultados de ambos. En recall, Hispal (89%) supera con mayor margen de diferencia a DepPattern (86%); Txala ofrece mejores resultados que para la precision (75% frente a 68%). En lo que a identificación de constituyentes se refiere, observamos que no existen grandes diferencias entre un parser de constituyentes (Hispal) y uno de dependencias (DepPattern). Los resultados, además, son muy positivos para los tres parsers, especialmente para Hispal y DepPattern, con casi un 90% de eficacia en reconocimiento de constituyentes en preguntas.

5.2 Asignación de función sintáctica Para la asignación de función sintáctica, los resultados obtenidos son los siguientes: DepPattern

Txala

Hispal

precision

0.55

0.59

0.72

recall

0.46

0.44

0.64

F-score

0.5

0.51

0.68

Tabla 2: Asignación de funciones a los constituyentes.

5 Resultados de la evaluación 5.1 Identificación de constituyentes En la identificación de constituyentes, los resultados obtenidos son los siguientes: DepPattern

Txala

Hispal

precision

0.89

0.68

0.87

recall

0.83

0.75

0.89

F-score

0.86

0.72

0.88

Tabla 1: Reconocimiento de constituyentes. En téminos globales, el parser que mejor se comporta en el reconocimiento de 12. La reconstrucción de constituyentes a partir de un análisis de tipo dependencial es costosa en términos de tiempo (de ahí también el número de preguntas de nuestro corpus), pero solo así podemos comparar los diferentes tipos de análisis que producen los tres parsers.

Lo primero que observamos en la Tabla 2 es que existe una diferencia considerable entre los resultados globales para identificación de constituyentes y asignación de funciones: para la primera variable todos los parsers superaban el 70% de eficacia, mientras que para la segunda ninguno llega a ese 70% (solo Hispal se acerca). El parser que mejores resultados globales obtiene es de nuevo Hispal (68%). Le sigue, en esta ocasión, Txala, si bien la diferencia entre este y el que ocupa el último lugar, DepPattern, es mínima (51% frente a 50%). La diferencia entre Hispal, por un lado, y Txala y DepPattern, por otro, es bastante grande para esta variable. En cuanto a precision y recall, Hispal es el que mejores resultados obtiene (72% y 64%, respectivamente). Txala supera ligeramente a DepPattern en precision (59% frente a 55%), mientras que ocurre lo contrario en recall (46%

frente a 44%). Observamos que, en cuanto a asignación de funciones, sí existen diferencias entre el parser de constituyentes y los dos parsers de dependencias. Por otra parte, los resultados globales son mucho menos positivos que para la identificación de constituyentes: 88% frente a 68% para el mejor parser, Hispal.

6 CONCLUSIONES FUTURO

Y

TRABAJO

El análisis de preguntas es una tarea clave en los sistemas de BR. Dentro de este análisis, es de crucial importancia el análisis sintáctico. Por esta razón, en este trabajo hemos evaluado el comportamiento de tres parsers de acceso libre en el análisis de preguntas en español. Nuestra evaluación demuestra que los tres parsers presentan unos resultados aceptables en la identificación de constituyentes, mientras que fallan mucho más en la asignación de funciones. Este dato plantea la pregunta de si sería conveniente, por tanto, la construcción de una herramienta específica destinada a BR para el análisis de preguntas en español. El parser que mejores resultados globales ofrece es el de constituyentes, Hispal. Este resultado confirma las conclusiones para el inglés de Petrov (2010), donde se muestra que, en el análisis de preguntas, los parsers de dependencias tienen más dificultades que los de constituyentes. En el futuro nos interesa, por un lado, ampliar el corpus de preguntas utilizado. Por otro, sería conveniente analizar los resultados de cada uno de los parsers en aspectos concretos de la sintaxis de las preguntas especialmente relevantes para un sistema de BR, como, por ejemplo, el análisis del interrogativo. Bibliografía Atserias, J., E. Comelles y A. Mayor. 2005. TXALA un analizador libre de dependencias para el castellano. Procesamiento del Lenguaje Natural, 35: 455-456. Bick, E. 2006. A Constraint Grammar-Based Parser for Spanish. En Proceedings of TIL 2006 - 4th Workshop on Information and Human Language Technology, Ribeirao Preto, Brazil, October.

Black, E., S. Abney, D. Flickenger, C. Gdaniec, R. Grishman, P. Harrison, D. Hindle, R. Ingria, F. Jelinek, J. Klavans, M. Liberman, M. Marcus, S. Roukos, B. Santorini, T. Strzalkowski. 1991. A Procedure for Quantitatively Comparing the Syntactic Coverage of English Grammars. En Proceedings of the DARPA Speech and Natural Language Workshop, pp. 306-311. Carroll, J., T. Briscoe, N. Calzolari, S. Federici, S. Montemagni, V. Pirrelli, G. Grefenstette, A. Sanfilippo, G. Carroll y M. Rooth. 1996. Sparkle Work Package 1: Specification of Phrasal Parsing. [Available at URL: http://www.ilc.pi.cnr.it/sparkle/wp1-prefinal/ wp1- prefinal.html]. Carroll, J., E. Briscoe and A. Sanfilippo. 1998. Parser evaluation: a survey and a new proposal. En Proceedings of the 1st International Conference on Language Resources and Evaluation (LRC'98), Granada, Spain, pp. 447-454. Carroll, J., G. Minnen and E. Briscoe. 1999. Corpus annotation for parser evaluation. En Proceedings of the EACL-99, PostConference Workshop on Linguistically Interpreted Corpora, Bergen, Norway, pp. 35-41. Contreras, H. 1999. Relaciones entre las construcciones interrogativas, exclamativas y relativas. En I. Bosque y V. Demonte (eds.), Gramática descriptiva de la lengua española (3). Espasa Calpe, Madrid. Escandell, M. V. 1999. Los enunciados interrogativos. Aspectos semánticos y pragmáticos. En I. Bosque y V. Demonte (eds.), Gramática descriptiva de la lengua española (3). Espasa Calpe, Madrid. Gaizauskas, R., M. Hepple y C. Huyck. 1998. A Scheme for Comparative Evaluation of Diverse Parsing Systems. En Proceedings of the 1st International Conference on Language Resources and Evaluation (LREC'98), Granada, Spain, pp. 143-149. Gamallo, P. y González, I. 2009. Una gramática de dependencias basada en patrones de etiquetas, Procesamiento del Lenguaje Natural, 43: 315-324. Hermjakob, U. 2001. Parsing and Question

Classification for Question Answering. En ACL 2001 Workshop on Open-Domain Question Answering, Toulouse, France, pp. 255-262.

Evaluation (LREC`02), Beyond PARSEVAL Workshop, Las Palmas, Spain.

Lin, D. 1995. A Dependency-based Method for Evaluating Broad Coverage Parsers. En Proceedings of IJCAI–95, Montreal, Canada, pp. 1420-1425.

Padró, L., M. Collado, S. Reese, M. Lloberes e I. Castellón. 2010. FreeLing 2.1: Five Years of Open-Source Language Processing Tools. En Proceedings of 7th Language Resources and Evaluation Conference (LREC'10), ELRA , La Valletta, Malta, May.

Lin, D. 1998. Dependency-based Evaluation of MINIPAR. En Proceedings of the Workshop on the Evaluation of Parsing Systems, 1st International Conference on Language Resources and Evaluation (LREC'98), Granada, Spain.

Petrov, S., P. Chang, M. Ringgaard, H. Alshawi. 2010. Uptraining for Accurate Deterministic Question Parsing. En Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, (EMNLP'10), Massachusetts, USA, pp. 705-713.

Moldovan, D., S. Harabagiu, R. Girju, P. Morarescu, F. Lacatusu, A. Novischi, A. Badulescu y O. Bolohan. 2002. LCC Tools for Question Answering. En Proceedings of the 11th Text REtrieval Conference (TREC), Gaithersburg, Maryland.

Real Academia Española. 2009. Nueva gramática de la lengua española (II). Espasa Libros, Madrid.

Musillo, G. y K. Sima’an. 2002. Towards Comparing Parsers from Different Linguistic Frameworks. En Proceedings of the Conference on Language Resources and

Vicedo, J. L. 2003. La búsqueda de respuestas: Estado actual y perspectivas de futuro. Inteligencia Artificial, Revista Iberoamericana de Inteligencia Artificial, 2003: 37-56.

Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.