Sentiment analysis, data mining y el futuro de los mercados

July 9, 2017 | Autor: María José Calderón | Categoría: Data Mining, Market Research, OPINION MINING AND SENTIMENT ANALYSIS
Share Embed


Descripción

Sentiment analysis, data mining y el futuro de los mercados María José Calderón PhD El análisis de sentimiento (también conocido como minería de opinión) se refiere al uso de procesamiento de lenguaje natural, análisis de texto y lingüística computacional para identificar y extraer información subjetiva.1 La potencialidad de este medio suele ser gigantesca si medimos que la importancia de los mercados a partir de la intención de las personas. La Web Semántica aparece con la concepción de que la máquina puede y debe entender a un humano. La base de la inteligencia artificial es parte de la estructura analítica del Internet. Previsto por Tim Berners-Lee, el padre Internet, como el siguiente pasó en la evolución de la Web, la Web Semántica ofrece una pirámide de normas de información que permiten que la información sea comprensible la máquina, así como de lectura mecánica. (Campbell: 2014). En su base fundamental, los algoritmos que organizan los sistemas de búsquedas y comprenden el significado de un texto escrito. En términos generales, el análisis de sentimiento intenta determinar la actitud de un interlocutor con respecto a algún tema o la polaridad contextual general de un documento. La actitud puede ser su juicio o evaluación, estado afectivo (o sea, el estado emocional del autor al momento de escribir), o la intención comunicativa emocional (o sea, el efecto emocional que el autor intenta causar en el lector). La fundación W3C tomó el papel de liderazgo en la creación de estándares abiertos para encontrar, compartir y crear máquinas formatos de datos comprensibles para apoyar esta visión. La creación de datos comprensibles que permite a los agentes no humanos sacar conclusiones y extraer datos en tiempo real. Lo que es más, una recategorización semántica de la realidad, obliga a repensar los contextos y comprender si estos son capaces de alterar prácticas cotidianas de las personas. Lo que analizamos requiere de desambiguación, reconocimiento del contexto, el control del vocabulario y la categorización. Los análisis iniciales fueron realizados por empresas que descubrieron que la popularidad de los medios sociales crea un foro viable para la voz de los clientes, Facebook y la membresía combinada de Twitter es más de 1 mil millones de personas en todo el mundo. Los usuarios de Internet también añaden comentarios a reseñas de restaurantes en sitios especializados. Esto crea una gran oportunidad para las empresas y políticos en el momento de capitalizar su discurso o conocer mejor a su audiencia y/o electores. El Internet permite mediciones en tiempo real y esquemas analíticos complejos con los “grandes datos” para mapear a los actores de los mismos, la automatización de las interacciones (robots) también puede afectar el resultado de las investigaciones,

1

Tomado de Wikipedia: https://en.wikipedia.org/wiki/Sentiment_analysis

finalmente el fenómeno del anonimato y la navegación privada puede alterar los índices de confiabilidad considerablemente. En este sentido, los análisis de web semántica, enfocados en el contenido de las interacciones por un período de tiempo particular logran un acercamiento más efectivo del análisis bajo la premisa de lo coyuntural. 2 El objetivo de este tipo de análisis es aprovechar la percepción de los usuarios para entender mejor lo que dice la gente sobre un tema. Después de extraer los datos y determinar la relevancia de cada comentario, la evaluación del sentimiento (positivo, negativo o neutro) genera otros tipos de información, más allá de su valor. El volumen de datos, el rápido ritmo de las opiniones sociales, y el valor temporal de la información de todo el lugar y escala de las demandas en el tiempo, es directamente proporcional a la rapidez con que una empresa actúa en él. El análisis de redes, se centra en la presencia de las conexiones entre las personas y las dimensiones estructurales de las relaciones mientras y el significado de estas relaciones, ya que se promulgan y son constantemente negociadas en las interacciones comunicativas cotidianas que pueden ser divididos en dos categorías: a. La recuperación del mensaje: identificar mensajes relacionados con el tema. b. Estimación de opinión: determinar si estos mensajes expresan opiniones o noticias positivas o negativas sobre el tema. Si hay suficiente de datos de entrenamiento, esto podría ser formulado como un modelo de tema-sentimiento (Mei et al. 2007) en el que se infieren de manera conjunta los temas y el sentimiento de documentos. Nuestro conjunto de datos, sin embargo es asimétrico, con millones de mensajes de texto por día (y millones de artículos del vocabulario diferentes), es un escenario difícil de estimar un modelo útil sobre el vocabulario y mensajes. El manejo de interfaces inclusive dentro de las redes sociales está cambiando rápidamente, y los experimentos con datos recientes han obtenido mejores resultados, lo que sugiere que está evolucionando en una dirección compatible con nuestro enfoque. Para los procesos políticos que vamos a analizar a los riesgos de sesgo deben ser contextualizados por la complejidad del medio.3 2

Big Data Analysis, se refiere en particular a la capacidad de procesar inmensas cantidades de datos generados por interacciones en línea –sincrónicas y asincrónicas- generadas por todos los servidores y bases de datos en relación a individuos que generan algún tipo de información. Es particularmente útil y se le ha otorgado el triunfo de las elecciones de Obama para mapear las tendencias globales de su electorado. Sin embargo, esta metodología es cuestionada debido al manejo de esquemas en particular debido a que cada empresa que consigue materializar el análisis tiene su propio método. Ver: Philip N. Howard(2005) “Deep Democracy, Thin Citizenship: The Impact of Digital Media in Political Campaign Strategy” en The ANNALS of the American Academy of Political and Social Science. January 597: 153170. 3

Para efectos de comprender el análisis a mediano plazo, la estructura de lo político desde la plataforma web, los políticos globales empezando por Barak Obama en su segunda elección recurrieron a una extensa estructura de análisis en red que incluye la puesta en práctica de sistemas analíticos inteligentes.

El debate sobre el sesgo en análisis cuantitativo, en Internet, es vital para comprender la metodología de captura de datos. Los procesos políticos contenciosos analizados por redes sociales, nos permiten conocer sobre los ciclos de protestas y la efectividad política cuando estos se replican en redes sociales. Si bien es cierto, los análisis sobre movimientos sociales, responden a diversas circunstancias socioeconómicas, y son llevados por enfoques políticos muy diferentes, pero todos ellos parecen compartir la misma característica morfológica: el uso de sitios de redes sociales (SNS) para ayudar a los manifestantes se auto-organizan y logran una masa crítica de los participantes La investigación empírica sobre la actividad en línea en torno a los disturbios y protestas es escasa, y los pocos estudios que existen muestran patrones claros de crecimiento protesta. La investigación relacionada ha demostrado que las cascadas de información en las redes en línea ocurrir ocasionalmente con la implicación de que incluso en línea es difícil de alcanzar y movilizar a un gran número de personas. Las revoluciones, disturbios y movilizaciones de masas son también frecuentes y como tal, difícil de predecir; pero cuando ocurren desatan consecuencias potencialmente dramáticas. La metodología y el análisis utilizados muestran innovaciones con el mapeo de tendencias en tiempo real. Visualizaciones de este tipo conjuntamente con el uso de mediciones matemáticas para determinar comportamientos de los usuarios en Internet. Estadísticas puentes de computación con otras disciplinas. Se incluye además el contexto del análisis de emociones (sentiment analysis-mood analysis) que se perfila en tiempo real. Desde la lingüística se han realizado estudios han atendido a de los mensajes y su dimensión social, combinando análisis semántico, análisis de redes y análisis del discurso. (Lindgren, 2011). También se ha tratado de conectar las ciencias sociales con el análisis de sistemas complejos (fundamentado, principalmente, en el análisis de sistemas químicos y biológicos) para estudiar redes digitales, su estructura y sus dinámicas y tratar de responder a la complejidad de los nuevos movimientos. Otro concepto clave ha sido el de sistemas emergentes que, recurriendo a modelos basados en fenómenos naturales, ha tratado de dar cuenta de comportamientos colectivos y procesos sociales. (Toret: 2012). Los enfoques sociológicos enlazados con la tradición de análisis de sistemas proporcionan nuevos marcos teóricos y analíticos para estudiar procesos de organización social en red. Permiten analizar en detalle cómo los procesos de comunicación en red se coordinan a diferentes escalas temporales y espaciales para constituirse como unidades coherentes, capaces de modular comportamientos colectivos complejos. También nos permiten diferenciar varios tipos de movilización y organización social mediados por las tecnologías de la comunicación.4

Brendan O’Connor, et al (2004).From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series (2004). http://cs.wellesley.edu/~cs315/Papers/From%20Tweets%20to%20Polls.pdf 4

El análisis de los movimientos sociales y el uso de Internet tuvo un despunte importante a partir de las movilizaciones en medio oriente y el 15M de Madrid. Uno de los estudios más representativos es el de España a partir de un working paper entre l Universidad Autónoma de Barcelona y un grupo de investigación para el análisis de datos en web: Toret, Javier y @Datanalysis15m (2012). Tecno-política: la potencia de las multitudes conectadas. El sistema red 15M, un nuevo paradigma de la política distribuida:

Un ejemplo a continuación nos permite analizar como la sociedad se manifiesta de esta manera. Imagen de la página web del diario el comercio con la visita del Papa Francisco:

El creciente número de recursos de Internet hace posible que sea más accesible aprender acerca de las estadísticas, y hacer su propio cálculo estadístico. La estadística es mucho más que un puñado de pruebas. Las computadoras hacen posible el estudio de variación mucho más fluida, para simular, probar y permutar para incorporar la variabilidad en los análisis. Podemos mostrar la variabilidad mediante gráficos en lugar de un pequeño conjunto de resúmenes estadísticos creados para su acoplamiento matemático. Las técnicas numéricas con software de gráficos nos permiten entender peculiaridades en los mismos, por lo que es posible discutir diagnósticos y algoritmos en detalle. Los sistemas de visualización son útiles para mapear estructuras analíticas. (Lang, Ihaka: 2008). Hemos diferenciado a Internet de manera espacial para comprender el futuro de las tendencias políticas. Y a su vez, entre el uso de Internet y la política de lo local en el territorio y de lo nacional. Estas distinciones obedecen a una necesidad de caracterizar los procesos políticos desde un nivel micro hasta sus repercusiones en un nivel macro. En este caso, en lugar de atenderse a la composición y conexión (o migración) de multitudes conectadas a través de diferentes hashtags, se atiende a la articulación y difusión de emociones y vocabularios multitudinarios. 5 El análisis de vocabulario se define como un conjunto articulado de procesos, conceptos y metodologías orientados a la comprensión del repertorio léxico utilizado por los 5

Un hashtag es un contenido en la red social Twitter, que está determinado por el símbolo de #. El tagging es parte de un sistema ontológico de categorización que permite que los usuarios encuentren una categoría fácilmente dentro de Twitter. Definición tomada de Twitter: https://support.twitter.com/articles/49309using-hashtags-on-twitter

productores de enunciados en un contexto semántico. El análisis de los procesos contenciosos en línea con el uso hashtags sirve para expresar contexto en torno a un mensaje dado, sin ninguna intención de clasificar realmente el mensaje para la búsqueda después, compartir, o por otras razones. Esto puede ayudar humor expreso, emoción, tristeza u otras señales contextuales. Tales cambios en la estructura semántica de la interacción en línea servirán para dar contexto a la hipótesis sobre la acción y cambio de los procesos políticos contemporáneos con el uso de redes sociales. A nivel de mercados, el propósito del conocimiento de sentimientos va más allá de la inteligencia de negocios tradicional. Esta medición nos permite conocer trends en la sociedad y por ende al mercado. El futuro del conocimiento y la sociedad depende en gran manera de la manera en que podamos manejar la gran inteligencia global que se produce en Internet.

Referencias: Howard, Philip N (2005) “Deep Democracy, Thin Citizenship: The Impact of Digital Media in Political Campaign Strategy” en The ANNALS of the American Academy of Political and Social Science. January 597: 153-170. O’Connor, Brendan (2004). From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series (2004). http://cs.wellesley.edu/~cs315/Papers/From%20Tweets%20to%20Polls.pdf

Toret, Javier y @Datanalysis15m (2012). Tecno-política: la potencia de las multitudes conectadasEl sistema red 15M, un nuevo paradigma de la política distribuida. Disponible en: http://in3wps.uoc.edu/index.php/in3-working-paperseries/article/view/1878

Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.