Análisis Computacional de Textos - Escuela ALACIP 2017

May 24, 2017 | Autor: Manuel Sigüeñas | Categoría: Ciencia Politica, Big Data, Analisis De Textos
Share Embed


Descripción

Análisis Computacional de Textos Escuela ALACIP 2017 Escuela de Herramientas para el Análisis Político Montevideo- Uruguay Julio de 2017 ____________________________________________________________

Presentación ____________________________________________________________ En el análisis político cuantitativo se han popularizado una serie de técnicas para el tratamiento y modelamiento de datos estructurados. Sin embargo, desde la Ciencia Política, se viene desarrollando una creciente literatura centrada en el análisis de textos. Como, por ejemplo, los estudios empíricos en política comparada e internacional que usan las estimaciones de posiciones políticas de los partidos y élites para analizar cómo las preferencias configuran los resultados de los procesos de toma de decisión (Laver & Garry, 2000; Klemmensen, Binzer & Ejnar, 2007; Bräuninger, Debus & Müller, 2013). Otro ejemplo, son aquellas investigaciones que miden la influencia de los grupos de interés para explicar los resultados de la política y evaluar la legitimidad democrática (Kluver, 2009) o el estudio de la estrategia comunicacional de los partidos políticos (Sagarzazu & Kluver, Nd) y como esta influye en el electorado (Pardos-Prado & Sagarzazu, 2016). También tenemos, un grupo de investigaciones que analizan los sentimientos, a favor o en contra, de los debates en el ámbito legislativo (Thomas, Pang & Lee, 2006) y los discursos políticos durante las campañas presidenciales (Hart & Childers, 2005). Estos ejemplos, y muchos otros, sugieren que para entender de qué se trata la política, necesitamos saber lo que dicen los actores y documentos políticos. Es así, por lo señalado, que en el presente ciclo de talleres demostrativo nos ocuparemos de las técnicas cuantitativas para explorar el contenido de los documentos políticos, tratando de eliminar las subjetividades y la confusión con respecto a técnicas que han primado al realizar el análisis desde un enfoque cualitativo. En los talleres responderemos a interrogantes como: ¿Qué sentimientos esconden los discursos políticos? ¿Qué temas trataron estos discursos? ¿Cuánto es el número óptimo de temas tratados? ¿Cuáles son los más relevantes? ¿Qué similitudes pueden guardar? ¿Existe una escala ideológica subyacente en estos textos? ¿Cuál es la posición ideológica que tienen? Para el desarrollo de estos talleres haremos uso del software estadístico R. Se propone realizar tres talleres demostrativos que cubran los temas de análisis de sentimientos, estimación de temas (topic modeling), y estimación de escalas ideológicas. La dinámica de cada taller incluye la exposición de la técnica (20 minutos), la demostración con R Project de los análisis presentados (55 minutos) y respuestas a las interrogantes de los participantes (15 minutos).

____________________________________________________________

Talleres Demostrativos ____________________________________________________________ TD01: Análisis de Sentimientos. Descripción: El taller desarrolla la técnica de análisis de sentimientos, que permite conocer la valoración positiva o negativa de los documentos que comprenden un corpus. El análisis de sentimientos se ha implementado tanto en el estudio de twitter, de debates en el legislativo, como de los discursos políticos durante las campañas electorales, entre otros campos. En este taller se brindará, además, una introducción al análisis de textos. Temario: . Introducción al Análisis de Textos. . Conceptos importantes. . Preparación y limpieza del Corpus. . Análisis de Sentimientos. Lecturas: Hart, Roderick P.; Childers, Jay P. 2005. “The Evolution of Candidate Bush. A Rhetorical Analysis.” American Behavioral Scientist49(2): 180–197. Thomas, Matt; Pang, Bo; Lee, Lilian. 2006. Get out the vote: Determining support or opposition from congressional floor-debate transcripts. In EMNLP, page 327-335. _____________________________________________________________________________ TD02: Topic Modeling con LDA. Descripción: Este taller proporciona una aproximación teórica y aplicada al modelamiento temático que permite la identificación y análisis de los temas dentro de un conjunto de documentos (corpus). Se discutirá sobre la ejecución del algoritmo de aprendizaje (Latent Dirichlet allocation), el establecimiento del número óptimo de temas para el corpus, la validación del modelo usando los valores de la probabilidad logarítmica, descripción de los diferentes temas que resulten del modelo y una medida de similitud (coseno) para la comparación de los discursos políticos. Temario: . Extracción y visualización de los términos claves. . Clustering de contenido por temas: LDA. . Número óptimo de temas. . Cálculo de similitudes: coseno. Lecturas:

Blei, D.M.; Ng, A.Y.; Jordan; M.I., 2003. Latent Dirichlet allocation. J Mach Learn Res 3, 993–1022. Nguyen, E. 2013. Text Mining and Network Analysis of Digital Libraries in R. En: Yanchang Zhao y Yonghua Cen. Data Mining Applications with R. USA: Academic Press. _____________________________________________________________________________ TD03: Estimación de Posiciones Ideológicas. Descripción: El taller desarrolla la técnica para extraer posiciones políticas de textos políticos, conocido como Wordscores. Esta técnica de análisis de contenido computarizado es una herramienta potencialmente poderosa para los investigadores interesados en el estudio de los partidos y élites políticas, ya que promete una manera fácil y eficiente de inferir la posición política a partir de textos y discursos. Temario: . Enfoques para medir las posiciones políticas . El enfoque Wordscores. . Estimación de las posiciones partidarias. Lecturas: Bräuninger, Thomas; Debus, Marc; Müller, Jochen. 2013. Estimating Policy Positions of Political Actors Across Countries and Time. Arbeitspapiere – Working Papers, Nr. 153. Laver, Michael; Garry, John. 2000. “Estimating Policy Positions from Political Texts.” American Journal of Political Science 44(3): 619–634. ____________________________________________________________

Expositores ____________________________________________________________

Iñaki Sagarzazu, PhD en Ciencia Política, University of Houston, EE.UU. Profesor Asistente de Ciencia Política en Texas Tech University, EE.UU. Su investigación actual se centra en el desarrollo y uso de técnicas de análisis de contenido para entender los diferentes problemas políticos (discursos políticos, decisiones judiciales, etc.). Ha impartido cursos de análisis de texto en la Universidad de São Paulo, Escuela de Verano de IPSA en Singapur y en la 5ª Escuela de Invierno de ECPR. Contacto: [email protected] Manuel Sigüeñas, Con estudios de Maestría en Estadística Aplicada en la Universidad Agraria La Molina, Perú, y Politólogo de la Universidad Nacional Federico Villarreal, Perú. Director de Investigaciones en el Centro de Investigaciones Politológicas (CIPOL-Perú). Su investigación se centra en minería de textos aplicada al análisis de redes sociales y discursos políticos. Se desempeña como consultor de diversas instituciones en metodologías cuantitativas e investigaciones de opinión pública. Contacto: [email protected]

____________________________________________________________

Referencias ____________________________________________________________ Blei, D.M.; Ng, A.Y.; Jordan; M.I., 2003. “Latent Dirichlet allocation.” J Mach Learn Res 3: 993– 1022. Bräuninger, Thomas; Debus, Marc; Müller, Jochen. 2013. Estimating Policy Positions of Political Actors Across Countries and Time. Arbeitspapiere – Working Papers, Nr. 153. Buckley, Patrick. 2016. Topic Modeling. En: Markus Hofmann y Andrew Chisholm. Text Mining and Visualization. Case Studies Using Open Source Tools. USA: CRC Press. Chang, Jonathan. 2015. lda: Collapsed Gibbs Sampling Methods for Topic Models. Version 1.4.2, URL (consultado marzo de 2016): https://cran.r-project.org/web/packages/lda/index.html Feinerer, Ingo. 2015. tm: Text Mining Package. Version 0.6-2, URL (consultado febrero de 2016): https://cran.r-project.org/web/packages/tm/index.html

Hart, Roderick P.; Childers, Jay P. 2005. “The Evolution of Candidate Bush. A Rhetorical Analysis.” American Behavioral Scientist49(2): 180–197. Klochikhin, Evgeny; Boyd-Graber, Jordan. 2016. Text Analysis. En: Ian Foster, Rayid Ghani, Ron S. Jarmin, Frauke Kreuter y Julia Lane (eds.). Big Data and Social Science. A Practical Guide to Methods and Tools. USA: CRC Press. Klemmensen, Robert; Binzer Hobolt, Sara; Ejnar Hansen, Martin. 2007. “Estimating policy positions using political texts: An evaluation of the Wordscores approach.” Electoral Studies 26(4): 746–755. Kluver, Heike. 2009. “Measuring interest group influence using quantitative text analysis.” European Union Politics 10(4):535–549. Laver, Michael; Garry, John. 2000. “Estimating Policy Positions from Political Texts.” American Journal of Political Science 44(3): 619–634. Munzert, Simon; Rubba, Christian; MeiBner, Peter; Nyhuis, Dominic. 2015. Automated Data Collection with R. A Practical Guide to Web Scraping and Text Mining. United Kingdon: Wiley & Sons. Nguyen, E. 2013. Text Mining and Network Analysis of Digital Libraries in R. En: Yanchang Zhao y Yonghua Cen. Data Mining Applications with R. USA: Academic Press. Pardos-Prado, Sergi; Sagarzazu, Iñaki. 2016. “The Political Conditioning of Subjective Economic Evaluations: The Role of Party Discourse”. British Journal of Political Science 46(4): 799-823 Sagarzazu, Iñaki; Klüver, Heike. (Forthcoming). “Coalition Governments and Party Competition: Political Communication Strategies of Coalition Parties”. Political Science Research and Methods.

Sigüeñas, Manuel. (próximo). “Estimando las Posiciones Ideológicas y Similitudes de los Discursos Presidenciales en los Países Andinos, 1980-2016”. Documento de trabajo. Lima: Centro de Investigaciones Politológicas. Thomas, Matt; Pang, Bo; Lee, Lilian. 2006. Get out the vote: Determining support or opposition from congressional floor-debate transcripts. In EMNLP, page 327-335. Wiedemann, Gregor. 2016. Text Mining for Qualitative Data Analysis in the Social Science. A Study on Democratic Discourse in Germany. New York: Springer. Zhao, Yanchang. 2013. R and Data Mining. Examples and Case Studies. USA: Academic Press.

Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.