Estudio comparativo sobre el empleo de diccionarios

June 20, 2017 | Autor: Andres Soto | Categoría: Twitter, Dictionary, OPINION MINING AND SENTIMENT ANALYSIS

Descripción

Estudio comparativo sobre el empleo de diccionarios en el análisis de sentimientos en textos cortos.

Andrés Soto, Carlos Cabrero, Antonio Menta, David Corbatón, Pedro Martín, Asier Ruiz de Alegría 1

BityvipTechnology, {andres.soto, carlos.cabrero, antonio.menta, david.corbaton, pedro.martin, asier.ruizdealegria}@bityvip.es

Resumen Se presentan las experiencias sobre el empleo de distintos tipos de diccionarios para el análisis de sentimientos basado en textos cortos tales como mensajes de Twitter. Se analizaron las posibilidades de su uso tanto de forma independiente como combinada, integrados en uno solo. Además se desarrollo una ampliación de los diccionarios, mediante la adición de sinónimos de las palabras ya existentes en los diccionarios. Para ello se desarrolló un método basado en asignarles pesos a las diferentes interpretaciones de dichas palabras. Los resultados obtenidos muestran ventajas en la incorporación de los sinónimos y son satisfactorios comparados con otros obtenidos en condiciones similares. Palabras Clave: análisis de sentimientos, diccionario, Twitter.

1 INTRODUCCIÓN La gran cantidad de información disponible en internet ha motivado grandes esfuerzos de la comunidad científica para procesar esta información y poder extrapolar conocimientos útiles de la misma. Esta información sirve para expresar opiniones y sentimientos, en muchos casos, sobre diferentes aspectos de la sociedad, productos, servicios, aficiones, etc. Por ello, diversos colectivos desde empresas hasta los propios gobiernos se encuentran interesados en conocer dichas opiniones y sentimientos relacionadas con sus actividades. En este sentido, Twitter ha devenido una herramienta fundamental para conocer las opiniones de los usuarios sobre muy diversos temas. El análisis de los mensajes de Twitter plantea nuevos retos a la comunidad científica teniendo en cuenta la brevedad de los mismos y el lenguaje especifico empleado en este medio.

Muchos de los trabajos realizados hasta el momento sobre análisis de sentimientos se basan mayormente en documentos en inglés. Esta situación se debe probablemente a la relativa escasez de recursos tales como diccionarios y corpus en otros idiomas. El español ocupa la tercera posición entre los 10 idiomas más utilizados en internet 1 [1], solo por debajo del inglés y del chino. Con este trabajo pretendemos contribuir a subsanar esta situación. De acuerdo con B. Liu [[11]2], existen dos enfoques fundamentales en el contexto del análisis automatizado de sentimientos: 1) basado en el empleo de vocabularios sobre sentimientos, 2) basado en el empleo de corpora pre etiquetados. El trabajo que se presenta a continuación se encuentra enfocado en el empleo de vocabularios sobre sentimientos [[18]3, [19]4, [12]5, [8]6], estando orientado al estudio sobre la influencia de utilizar diferentes diccionarios en el análisis de sentimientos en textos cortos (i.e. mensajes de Twitter) en español. Para el estudio, se dispuso de 3 diccionarios [[15]7, [16]8, [17]9], los cuales presentan muy diferentes características, por lo cual nos pareció interesante tratar de determinar las ventajas y desventajas de usar uno u otro o una combinación de los mismos y, en este último caso, determinar cómo integrarlos. Para poder medir la efectividad debida al empleo de uno u otro diccionario se decidió emplear el corpus de mensajes denominado TASS2013 [[20]10], el cual contiene alrededor de 68000 mensajes de Twitter, escritos. A continuación explicaremos brevemente las principales características de los diccionarios empleados. Posteriormente nos referiremos a los resultados obtenidos en los experimentos con uno u otro. Después explicaremos las diferentes formas en que los hemos combinado y haremos una comparación entre unos y otros resultados.

1

Internet World Users By Language, http://www.internetworldstats.com/stats7.htm

Top

10

Languages,

2 DICCIONARIOS UTILIZADOS EN EL ESTUDIO

Emopos

Refotro

Deportes

Sentpos

Amigos

TV

Los vocabularios (diccionarios) sobre sentimientos que se emplearon en el trabajo fueron: el diccionario de V. Pérez-Rosas, C. Banea y R. Mihalcea [[15]7]; el LIWC (Linguistic Inquiry and Word Count) [[13]11, [14]12]; y SANEW [[17]13] El diccionario de Pérez-Rosas et al es un léxico en español obtenido de forma semiautomática a partir de otros existentes en inglés, utilizando el diccionario WordNet para vincular el sentido de las palabras en uno y otro idioma. El diccionario contiene 1347 palabras con una precisión del 90%. Utilizando una expansión vectorial basada en LSA (Latent Semantic Analysis) con el diccionario se obtuvo una medida F promedio de un 66%. En el diccionario aparecen las palabras etiquetadas como positivas (pos) o negativas (neg). LIWC es un programa desarrollado para analizar las implicaciones psicológicas del uso de las palabras que ha sido utilizado con éxito en el área de las ciencias sociales y en psicología. El programa viene acompañado con un diccionario de palabras que utiliza en su funcionamiento. El diccionario original en inglés ha sido traducido al español [[16]8] manualmente y dicha versión es la que se emplea en el presente estudio. El diccionario contiene 7515 palabras clasificadas en 68 categorías (ver Tabla 1). Las categorías del LIWC están organizadas jerárquicamente; por ejemplo, todas las palabras relacionadas con la categoría ‘enojo’, se organizan además en las categorías de emociones negativas o palabras afectivas. Es por ello que las palabras aparecen generalmente catalogadas en varias categorías. Por ejemplo, el verbo abandonar aparece catalogado en las categorías Afectiva, Emoneg, Tristeza y MecCog. En muchos casos se ofrece una “raíz” de la palabra terminada en ‘*’ para indicar que, en ese caso, se acepta cualquiera de las terminaciones. Por ejemplo, abandonaré*, abandonaste*.

Optimi

Familia

Música

Emoneg

Humanos

Dinero

Ansiedad

Tiempo

Metafo

Enojo

Pasado

Relig

Tristeza

Presente

Muerte

MecCog

Futuro

Físico

Tabla 1: Categorías del diccionario LIWC. Pronom

Causa

Espacio

cuerpo

Yo

Insight

Arriba

Sexual

Nosotros

Discrep

Abajo

Comer

unomismo

Inhib

Incl

Dormir

Tu

Tentat

Excl

Asearse

Otro

Certeza

Moción

Maldecir

Negación

Sentidos

Ocupa

Nonfl

Asentir

Ver

Escuela

Fillers

Artículo

Oír

Trabajo

Prepo

Sentir

Logro

Número

Social

Placer

Afectiva

Comu

Casa

SANEW es la adaptación al español de la versión original del diccionario ANEW [[9]14], el cual ofrece un conjunto de normas de evaluación para 1034 palabras en diferentes dimensiones con carácter sicolingüístico. La adaptación se llevo a cabo en base a las valoraciones de un panel de 720 participantes. En este caso las valoraciones aparecen expresadas en valores reales positivos, entre 1.1 y 8.54, correspondientes a promedios y desviaciones estándar con relación a las diferentes dimensiones, donde los valores mayores correspondían a la valoración positiva y los valores más cercanos a cero se consideraban negativos. Para poder integrar de manera uniforme las palabras y la valoración de los sentimientos asociados a las mismas, se determinó normalizar y transformarlos en valores del intervalo [0,1]. Al integrar los diccionarios en uno solo, el valor del sentimiento asociado a una palabra del diccionario unificado se definió mediante el promedio de los valores de los demás diccionarios. Conviene señalar que la intersección entre los 3 diccionarios no era tan grande como cabía esperar, por lo que, en muchos casos, el promedio solo se realizaba entre dos diccionarios o no se hacía promedio. Teniendo en cuenta, los tres diccionarios originales y el diccionario unificado se procedió a evaluar los resultados con cada uno de ellos.

3 RESULTADOS EXPERIMENTALES Para poder medir la efectividad debida al empleo de uno u otro diccionario se utilizó el corpus de mensajes de Twitter utilizado en el Taller de Análisis de Sentimientos de la Sociedad Española de Procesamiento de Lenguaje Natural, TASS 2013 [[20]10]. Este es un corpus general que contiene alrededor de 68000 mensajes de Twitter, escritos en español por diversas personalidades públicas entre 2011 y 2012. Cada mensaje está clasificado en una de las categorías: muy positivo (p+), positivo (p), neutro o mixto (neu), negativo (n), muy negativo (n+) o sin opinión (none). El experimento consistió en procesar uno a uno los tweets del corpus y evaluar el sentimiento asociado a los mismos y comparar el resultado obtenido con el resultado que aparecía asociado al tweet. Cabe señalar que los tweets catalogados como muy positivos (p+) o muy negativos

(n+) se consideraron simplemente como positivos (p) o negativos (n) según el caso. Para descomponer las oraciones en sus componentes léxicos (tokens) se utilizó la librería BeautifulSoup2 [15] de Python y la librería CLiPS Pattern3 [16], la cual nos facilita acceder a las palabras que componen en sí la oración. Teniendo en cuenta que los tweets emplean muchas palabras deformadas (con letras repetidas, o que les faltan letras, etc.), característico del lenguaje SMS, se desarrollaron funciones especificas para tratar este tipo de situaciones, eliminando las letras repetidas, reconociendo emoticonos, sustituyendo las palabras mal escritas (las más comunes), etc., antes de buscarlas en el diccionario que se estaba evaluando. Por otra parte, como los tweets son mensajes muy cortos en general, con una sintaxis particular, se consideró no realizar el análisis sintáctico (parser) de las oraciones y hacer el tratamiento tipo bolsa de palabras (bag of words), analizando solo si la palabra está presente en la oración. Considerando la oración como un vector, donde cada elemento es una palabra. O  p1 , p2 ,, pn  (1) Para cada una de las palabras de la oración se tiene en cuenta si aparece en el diccionario (i.e. si tiene un sentimiento asociado), en cuyo caso se obtiene la valoración del mismo. Dichas valoraciones se recolectan en un nuevo vector. (2) V  v1 , v2 , , vk  Observe que las longitudes de ambos vectores no se corresponden, por cuanto no todas las palabras se encuentran en el diccionario y, por tanto, no tienen sentimientos asociados. Posteriormente se promedia el vector V y el resultado será la valoración del sentimiento asociado a O. K

S(O) =

åv

i

i=1

K

(3)

La valoración obtenida de esta manera se compara con la expresada en el corpus TASS. Todos los experimentos se realizaron con el total del corpus (68020 tweets), obteniéndose los resultados que se muestran a continuación. Tabla 2: Resultados obtenidos en los experimentos. Diccionario precisión SANEW 0.4656 LIWC 0.4470 Pérez-Rosas 0.4928 Unión 0.5225

2 3

BeautifulSoup http://www.crummy.com/software/BeautifulSoup/

Pattern CLiPS (Computational Linguistics & Psycholinguistics) http://www.clips.ua.ac.be/pattern

Como se aprecia en la tabla 2, los resultados con el diccionario unificado superaron a los obtenidos por cada una de los diccionarios por separado, lo cual hace pensar que no estaban completos y que se podían mejorar.

4 AMPLIANDO EL DICCIONARIO Con la intención de mejorar el diccionario de sentimientos, se decidió incluir otras palabras que también sirvieran para expresar sentimientos y que no estaban incluidas. La extensión más lógica pareciera ser incluir los sinónimos de las palabras ya incluidas. La dificultad estriba en determinar cuáles sinónimos se deben incluir y cuáles no. Con vistas a determinar cuáles sinónimos se deberían incluir, se decidió incluir preferentemente aquellos sinónimos correspondientes a interpretaciones o significados que estuvieran mayoritariamente representados en el diccionario unificado. Para lograr este propósito se procedió como se explica a continuación. Consideramos que, cada palabra p del diccionario U (diccionario unificado) tiene asociados un conjunto de significados S = {s1, s2,…} Por otra parte, un significado puede tener asociadas diferentes palabras que comparten dicho significado, las cuáles serán sinónimos bajo ese significado. Sea P = {p1,i, p2,i,…} el conjunto de palabras del diccionario U que comparten el significado si Como cada palabra de U tiene un único sentimiento asociado, ese sentimiento no dependerá, según el diccionario, de uno u otro significado de la palabra. Sea V = {v1,i, v2,i,…} el conjunto de valoraciones de los sentimientos asociados a las palabras del conjunto P. Podemos definir entonces que la valoración del sentimiento asociado al significado si viene dada en función de las valoraciones de los sentimientos asociados a las palabras que comparten dicho significado en el diccionario. En nuestro caso, definiremos VS como la media aritmética de dichos valores.

V si   S

v j

j ,i

card V 

(4)

Como ya habíamos mencionado, una palabra puede tener varios significados asociados y, puede suceder que, algunos de ellos estén asociados a sentimientos y otros no. Por tanto, se decidió que las valoraciones de los sentimientos asociados a los significados (según se explicó en el párrafo anterior) solo se aplicarán si el significado estaba “mayormente cubierto” por las palabras del diccionario. Veamos qué entendemos por “mayormente cubierto”. Sea N el número de palabras del diccionario que comparten un significado S. Por tanto, dichas palabras son sinónimos bajo ese significado. Sea NS el número total de sinónimos asociados al significado S. Entonces, si se cumple que la proporción de palabras del diccionario que comparten el significado S es suficientemente grande (mayor que un cierto porcentaje α) con respecto al número total de sinónimos asociados a S, diremos que el significado S está

cubierto por el diccionario, por lo que dicho significado debe corresponder a un cierto sentimiento.

N

NS



(5)

Por otra parte, si un significado S corresponde a un cierto sentimiento, resulta lógico suponer que todos los sinónimos que comparten dicho significado deberán compartir, de la misma manera, ese sentimiento. Por tanto, si hay algunos de dichos sinónimos que no se encuentran en el diccionario, se deberían incorporar al mismo. Una vez determinados los sinónimos faltantes en el diccionario, para poder proceder a incorporarlos, se requiere asignarles una valoración del sentimiento que tienen asociado. La valoración más lógica en este caso resulta la valoración que tiene asociado el significado o interpretación al cual corresponde el sinónimo. Pero, ¿qué sucede si el sinónimo tiene a su vez varias interpretaciones? En ese caso, se promedian las valoraciones asociadas a cada significado asociado al sinónimo. Sea p una palabra del diccionario U. Sea p′ un sinónimo de p bajo el significado S, tal que p′ no pertenece a U. Entonces para incorporar a p′ a U, debemos asignarle una valoración de sentimiento. Supongamos que p′ tiene varios significados Si asociados, los cuales tienen una valoración sentimental VS(Si) asociada; si no la tienen, no se consideran, por cuanto dicho significado no está cubierto por el diccionario. Entonces, la valoración sentimental de p′ se define como:

V S  S

v  p ' 

i

i

card Si 

(6)

Para buscar los sinónimos de las palabras se utilizó el diccionario MCR [[6]17, [10]18], un repositorio multilingüe basado en WordNet 3.0 que integra 5 idiomas: inglés, español, catalán, vasco y gallego, ampliado con diferentes ontologías. De esta manera, los sinónimos de las palabras del diccionario U, que no se encontraban en el mismo, se incorporaron formándose entonces un diccionario ampliado A. Con este nuevo diccionario, se repitió el experimento aplicado a cada uno de los diccionarios anteriores, con los resultados que se muestran a continuación. Para mayor claridad se copiaron en esta tabla los resultados reflejados anteriormente. Todos los experimentos se realizaron con el total del corpus (68020 tweets), obteniéndose los siguientes resultados: Tabla 3: Resultados obtenidos incluyendo el diccionario ampliado. Diccionario SANEW LIWC Pérez-Rosas Unión Ampliado

precisión 0.4656 0.4470 0.4928 0.5225 0.5801

Teniendo en cuenta que todos los experimentos fueron realizados con ayuda del corpus TASS 2013, cabe comparar los resultados obtenidos con los obtenidos por los diferentes participantes en dicho taller. En la tabla 5 del trabajo de Villena-Román et al [[20]10], se encuentran resumidos los resultados de las 17 participaciones, de las cuales 9 obtuvieron una precisión por debajo de la obtenida en el presente experimento. De las 8 participaciones restantes, 2 estuvieron por debajo del 60%, apenas por encima de los resultados obtenidos en estos experimentos.

5 CONCLUSIONES Este trabajo presenta los resultados de una investigación en curso sobre análisis de sentimientos en textos cortos, más concretamente mensajes de Twitter. Como parte de la investigación se analizaron las diferentes ventajas y desventajas del empleo de varios diccionarios: LIWC, SANEW y el de Pérez-Rosas con características y enfoques bien diferenciados. También se experimento con el diccionario obtenido mediante la unión de los 3 anteriores y con una ampliación en la cual se incluyeron los sinónimos de las palabras que aparecían en los 3 diccionarios originales. Para la ampliación se planteó un modelo para determinar cuáles significados de las palabras de los diccionarios originales resultaban más importantes, desde el punto de vista de los sentimientos, y cómo asociarles una valoración sentimental a dichos significados. También se planteó un mecanismo para poder determinar qué valoración sentimental asociarles a los sinónimos incorporados al diccionario ampliado. Los experimentos realizados muestran que la integración y ampliación de los 3 diccionarios contribuyó a mejorar los resultados. Para medir la efectividad del empleo de uno u otro diccionario se utilizó el corpus de mensajes de Twitter del Taller de Análisis de Sentimientos TASS 2013. El experimento consistió en procesar cada uno de los tweets del corpus y evaluar el sentimiento asociado a los mismos y comparar el resultado obtenido con la valoración sobre el tweet que aparecía en el corpus. En comparación con los resultados presentados en TASS 2013, consideramos que los resultados de este trabajo son satisfactorios, habiendo sobrepasado los resultados de más de la mitad de los participantes. En trabajos futuros se plantea continuar estudiando posibles formas de extender y mejorar el diccionario obtenido, mediante la integración con otros diccionarios disponibles como SentiWordNet [[7]19]. También se pretende evaluar el efecto de analizar sintácticamente los tweets.

[11] 2) B. Liu, Sentiment Analysis and Opinion Mining, Morgan & Claypool Publishers, 2012 - 180 pages. [12] 5) B. Pang, L. Lee, and S. Vaithyanathan, Thumbs up? Sentiment classification using machine learning techniques, Proceedings of EMNLP, pp. 79--86, 2002. [13] 11) J. W. Pennebaker, M. E. Francis, & R. J. Booth, (2001) Linguistic Inquiry and Word Count (LIWC). [estilo: refer 1] Referencias [1] [estilo: refer 2] C. Alsina, E. Trillas: On the symmetric difference of fuzzy sets. Fuzzy Sets and Systems 153, pp. 181-194, 2005. [2] P.C. Fishburn: Utility Theory for Decision Making. Wiley, Nueva York, 1970. [3] R.R. Yager: E-Z OWA weights. En: Proceedings of the 10th IFSA World Congress, Estambul (Turquía), pp. 39-42, 2003. [4] L.A. Zadeh: Towards a theory of fuzzy systems. En: R.E. Kalman, N. DeClaris (Eds.), Aspects of Network and System Theory, Holt, Rinehart and Winston, Nueva York, pp. 469-490, 1971. [5] Las referencias bibliográficas han de estar ordenadas por orden alfabético [6] 17) J. Atserias, L. Villarejo , G. Rigau, E. Agirre, J. Carroll, B. Magnini and P. Vossen, The MEANING Multilingual Central Repository. In Proceedings of the Second International Global WordNet Conference (GWC’04). ISBN 80-210-3302-9. Brno, Czech Republic. January, 2004. [7] 19) S. Baccianella, A. Esuli and F. Sebastiani, SentiWordNet 3.0: An Enhanced Lexical Resource for Sentiment Analysis and Opinion Mining, Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10), 2010. [8] 6) F. Balbachan, D. Dell'Era, Análisis Automatizado de Sentimiento en Textos Breves de la Plataforma Twitter, Revista Infosur no.6 de Junio 2012. [9] 14) M. M. Bradley, & P. J. Lang (1999a). Affective norms for English words (ANEW): Instruction manual and affective ratings. Gainesville, FL: Center for Research in Psychophysiology, University of Florida. [10] 18) A. Gonzalez-Agirre, E. Laparra and G. Rigau Multilingual Central Repository version 3.0: upgrading a very large lexical knowledge base. In Proceedings of the Sixth International Global WordNet Conference (GWC’12). Matsue, Japan. January, 2012.

[14] 12) J. W. Pennebaker, & A. Graybeal (2001). Patterns of natural language use: Disclosure, personality, and social integration. Current Directions in Psychological Science, 10, 90-93. [15] 7) V. Perez Rosas, C. Banea, R. Mihalcea, Learning Sentiment Lexicons in Spanish, in Proceedings of the International Conference on Language Resources and Evaluations (LREC 2012), Istanbul, Turkey, May 2012. [16] 8) N. Ramírez-Esparza, J. W. Pennebaker, F. A. García, y R. Suriá, La Psicología del Uso de las Palabras: Un Programa de Computadora que Analiza Textos en Español, Revista Mexicana de Psicología, 24, 85-99. [17] 9), 13) J. Redondo, I. Fraga, I. Padrón, And M. Comesaña, The Spanish adaptation of ANEW (Affective Norms for English Words), Behavior Research Methods, 2007, 39 (3), 600-605. [18] 3) D. R. Rice, C. Zorn, Corpus-Based Dictionaries for Sentiment Analysis of Specialized Vocabularies, New Directions in Analyzing Text as DataWorkshop, September 27-28, 2013, London, England. [19] 4) P. D. Turney: Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews. ACL 2002: 417-424. [20] 10) J. Villena-Román, S. Lana-Serrano, E. MartínezCámara, J. C. González-Cristóbal. 2013. Revista de Procesamiento del Lenguaje Natural, 50, pp 37-44. 1) Internet World Users By Language, Top 10 Languages, http://www.internetworldstats.com/stats7.htm 15) BeautifulSoup http://www.crummy.com/software/BeautifulSoup/ 16) Pattern CLiPS (Computational Linguistics & Psycholinguistics) http://www.clips.ua.ac.be/pattern

Lihat lebih banyak...

Estudio comparativo sobre el empleo de diccionarios

Descripción

Comentarios