HERRAMIENTA DE BI WEKA EN CASO DE ESTUDIO

June 23, 2017 | Autor: Eder Mendivil | Categoría: Business Intelligence, Weka, WEKA Tool

Descripción

ACTIVIDAD 3 EDER IVAN MENDIVIL BARCELOACTIVIDAD 3 EDER IVAN MENDIVIL BARCELO

ACTIVIDAD 3
EDER IVAN MENDIVIL BARCELO
ACTIVIDAD 3
EDER IVAN MENDIVIL BARCELO

Contenido
1. ¿Qué es Weka? 3
2. Instalación de Weka 3
3. Estructura de Weka 5
3.1. Barra de opciones 6
Program: 6
Visualization: 6
Tools: 6
3.2. Paneles de la interfaz 6
Explorer: 6
Experimenter (Experimentador): 10
Knowledge Flow (Flujo de Conocimiento): 11
Simple CLI (interfaz simple de línea de comandos): 12
4. Aplicación de la herramienta en un caso de estudio 13
4.1. PREPROCESO DE LA INFORMACIÓN 13
4.2. MINERIA DE DATOS 15
4.2.1. Clasificación 15
4.2.2. Clusters 18
4.2.3. Asociación 20
4.3. POST-PROCESO (ANALISIS DE RESULTADOS) 20
5. CONCLUSIONES 22

¿Qué es Weka?

Weka (Waikato Environment for Knowledge Analysis, en español «entorno para análisis del conocimiento de la Universidad de Waikato») es una plataforma de software para el aprendizaje automático y la minería de datos escrito en Java y desarrollado en la Universidad de Waikato. Weka es software libre distribuido bajo la licencia GNU-GPL. (Wikipedia, 2015)
Para iniciar la descarga de la herramienta, se accede al sitio : http://www.cs.waikato.ac.nz/ml/weka/la versión más reciente basada en Java (WEKA 3), que empezó a desarrollarse en 1997, se utiliza en muchas y muy diferentes áreas, en particular con finalidades docentes y de investigación.Al descargar el archivo de instalación, y ser ejecutado para que realice el correspondiente proceso, este mismo detecta si la plataforma Java, se encuentra instalada en el equipo.De no ser así, el paquete de instalación, direcciona inmediatamente, a la página de Java, para solicitar la descarga e instalación de esta plataforma sobre la cual Weka, está diseñado.Se realiza la instalación normal de Java, con la descarga de los componentes necesarios y posteriormente la instalación de la plataforma de Java; seguido a esto la herramienta Weka, procede a la instalación de los componentes requeridos para su correcto funcionamientoPara iniciar la descarga de la herramienta, se accede al sitio : http://www.cs.waikato.ac.nz/ml/weka/la versión más reciente basada en Java (WEKA 3), que empezó a desarrollarse en 1997, se utiliza en muchas y muy diferentes áreas, en particular con finalidades docentes y de investigación.Al descargar el archivo de instalación, y ser ejecutado para que realice el correspondiente proceso, este mismo detecta si la plataforma Java, se encuentra instalada en el equipo.De no ser así, el paquete de instalación, direcciona inmediatamente, a la página de Java, para solicitar la descarga e instalación de esta plataforma sobre la cual Weka, está diseñado.Se realiza la instalación normal de Java, con la descarga de los componentes necesarios y posteriormente la instalación de la plataforma de Java; seguido a esto la herramienta Weka, procede a la instalación de los componentes requeridos para su correcto funcionamientoInstalación de Weka
Para iniciar la descarga de la herramienta, se accede al sitio : http://www.cs.waikato.ac.nz/ml/weka/
la versión más reciente basada en Java (WEKA 3), que empezó a desarrollarse en 1997, se utiliza en muchas y muy diferentes áreas, en particular con finalidades docentes y de investigación.
Al descargar el archivo de instalación, y ser ejecutado para que realice el correspondiente proceso, este mismo detecta si la plataforma Java, se encuentra instalada en el equipo.
De no ser así, el paquete de instalación, direcciona inmediatamente, a la página de Java, para solicitar la descarga e instalación de esta plataforma sobre la cual Weka, está diseñado.
Se realiza la instalación normal de Java, con la descarga de los componentes necesarios y posteriormente la instalación de la plataforma de Java; seguido a esto la herramienta Weka, procede a la instalación de los componentes requeridos para su correcto funcionamiento
Para iniciar la descarga de la herramienta, se accede al sitio : http://www.cs.waikato.ac.nz/ml/weka/
la versión más reciente basada en Java (WEKA 3), que empezó a desarrollarse en 1997, se utiliza en muchas y muy diferentes áreas, en particular con finalidades docentes y de investigación.
Al descargar el archivo de instalación, y ser ejecutado para que realice el correspondiente proceso, este mismo detecta si la plataforma Java, se encuentra instalada en el equipo.
De no ser así, el paquete de instalación, direcciona inmediatamente, a la página de Java, para solicitar la descarga e instalación de esta plataforma sobre la cual Weka, está diseñado.
Se realiza la instalación normal de Java, con la descarga de los componentes necesarios y posteriormente la instalación de la plataforma de Java; seguido a esto la herramienta Weka, procede a la instalación de los componentes requeridos para su correcto funcionamiento

Inicio de la instalación de Weka Aceptación de la licencia

Elección de componentes Elección de carpeta de instalación

Elección de la carpeta de menú Finalización de instalación

Una vez instalada la herramienta, cada vez que la ejecutemos, aparecerá ubicada en la parte superior izquierda de nuestra pantalla, y en la barra de tareas, el icono

Estructura de Weka

Cuando se ejecuta la herramienta, la interfaz que aparece, muestra lo siguiente:

Barra de opciones

Paneles de Interfaz

Barra de opciones

En esta barra de menú se encuentran las siguientes opciones:
Program: en este submmenu, se encuentran las opciones
Log Window (muestra la configuración de Java para la aplicación).
Memory Usage (muestra la cantidad de memoria utilizada por la aplicación y sus procesos)
Exit (finalización normal de la aplicación)
Visualization: permite ver de diferentes formas la información previamente almacenada, estos modos de visualización se encuentran en algunas de las subherramientas de Weka, estos modos son: Pot, ROC, TreeVisualizer, GraphVisualizer y BoundaryVisualizer
Tools: permite la ejecución de diferentes visores para tipos de archivos, estos visores son los siguientes: Arff Viewer, Sql Viewer y Bayes net editor
Paneles de la interfaz

Cuando se ejecuta por primera vez la aplicación nos aparece el panel de interfaces de la herramienta, que nos da la opción de elegir entre cuatro posibles interfaces de usuario para acceder a las funcionalidades del programa, dichas interfaces son las siguientes:
Explorer: dicha interfaz dispone de diferentes paneles que dan acceso a los componentes principales del banco de trabajo. Dichos paneles son:
Preprocess: dispone de opciones para importar datos de una base de datos, de un fichero CSV, etc., y para pre procesar estos datos utilizando algoritmos de filtrado. Estos filtros se pueden utilizar para transformar los datos (por ejemplo convirtiendo datos numéricos en valores discretos) y para eliminar registros o atributos según distintos criterios previamente especificados.

Classify: permite al usuario aplicar algoritmos de clasificación estadística y análisis de regresión (denominados clasificadores en WEKA) a los conjuntos de datos resultantes, para estimar la exactitud del modelo predictivo resultante y para visualizar predicciones erróneas, o el propio modelo (si el mismo es susceptible de ser visualizado, como por ejemplo un árbol de decisión).

Cluster: da acceso a las técnicas de clustering o agrupamiento de WEKA como por ejemplo el algoritmo "K-Means".

Associate: proporciona acceso a las reglas de asociación aprendidas que intentan identificar todas las interrelaciones importantes entre los atributos de los datos.

Selected Attributes: proporciona algoritmos para identificar los atributos más predictivos en un conjunto de datos.

Visualize: muestra una matriz de puntos dispersos donde cada punto individual puede seleccionarse y agrandarse para ser analizados en detalle usando varios operadores de selección

Experimenter (Experimentador): permite la comparación sistemática de una ejecución de los algoritmos predictivos de WEKA sobre una colección de conjuntos de datos.

Knowledge Flow (Flujo de Conocimiento): es una interfaz que soporta las mismas funciones que la interfaz Explorer, pero con una interfaz que permite "arrastrar y soltar". Una ventaja es que ofrece soporte para el aprendizaje incremental.

Simple CLI (interfaz simple de línea de comandos): es una consola que permite acceder a todas las opciones de WEKA desde línea de comandos.

Aplicación de la herramienta en un caso de estudio

El archivo like.arff contiene la información de una compañía que acaba de lanzar un nuevo producto al mercado. Lo realizó utilizando un nuevo subdominio de su página web en la cual el usuario debe registrarse ingresando así los siguientes datos: hombres, mujeres, niños, adultos, estratos al que pertenece.
Cada usuario registrado que visitó la página dejo su impresión del nuevo producto haciendo en el botón de "like" o "no like". En el archivo like.arff se registró toda la información de los usuarios que se registraron y visitaron la nueva página durante los primeros días de lanzamiento.
Para hacer uso de los conceptos de BI, se realizarán los proceso correspondiente al mismo, a saber: Preproceso, Minería de datos y Post-proceso.
PREPROCESO DE LA INFORMACIÓN, es decir la captura, refinamiento de la misma. Esta herramienta permite realizar dicho proceso en la opción PREPROCESS, de la sub-herramienta EXPLORER, (para esto se procede a la carga del archivo, que contiene la información recolectada con en la página de la compañía), en formato arff.

Área de filtros
Área de Atributos
Cantidad de registros con la información contenida en el atributo sombreado

Área Gráfica con la información del campo elegido

La información en esta ventana aparece sin ningún tipo de filtro, los filtros permitirían analizar la información en este punto de pre-proceso, algunos filtros han sido probados y otros se encuentran en etapa de prueba.

Filtros no probadosFiltros no probadosFiltros probadosFiltros probados
Filtros no probados
Filtros no probados
Filtros probados
Filtros probados
En la opción Preprocess, la herramienta Weka, permite de manera simple y en un entorno gráfico, realizar un análisis previo de la información que se va a tratar, facilitando al usuario una observación inicial de esta misma, para esto basta con trabajar en cualquiera de las siguientes áreas: en el área de atributos (Attributes) o en el área gráfica.
En estas áreas, el usuario simplemente se ubica, en el caso de Attributes y elige en atributo sobre el cual quiere visualizar la cantidad de registros y la gráfica que muestra, esta selección de un atributo en particular, se puede complementar eligiendo en el recuadro ubicado abajo a la derecha (Class) el atributo con respecto al cual desea comparar la información, haciendo una especie de contra-referencia o refinamiento de una muestra sabiendo exactamente la distribución de un atributo con respecto al otro, en la siguiente gráfica se aprecia cómo está representada la información del atributo (elegido) sexo, con respecto al atributo estrato (elegido en Class)

Atributo: Sexo
Cantidad de registros con la información del atributo elegido
Distribución del atributo sexo en comparación con el estrato

MINERIA DE DATOS
Para este proceso, se aplicarán las sub-herramientas: árboles, cluster y asociación.
Clasificación para la primera se hace clic en la pestaña Classify, se pulsa el botón Choose, y se hace clic en la opción trees, eligiendo de esta la opción J48

Una vez elegido el proceso a aplicar se selecciona algunas de las opciones de Test Options, como son: Use training set, esta opción aplica el aprendizaje a todos los registos cargados. Supplied test set, esta opción permite elegir un archivo que se encargará del aprendizaje para aplicarlo al archivo que se ha cargado. Cross-validation, realiza un aprendizaje de referencia cruzada con respecto a una cantidad de campos especificados y Percentage Split, el cual toma una parte de los registros para realizar el aprendizaje y este es aplicado al porcentaje restante de los registro del archivo de trabajo.
Para el caso de estudio se aplicara la opción Use training set, para que se realice el aprendizaje sobre la totalidad de los registros y este aprendizaje sea aplicado a todos el archivo.
Como variable base, se tomará inicialmente el atributo like, este atributo contiene la información de las preferencia de los usuarios con respecto al producto lanzado.

Con esta opción, se puede apreciar en el árbol generado, lo siguiente:
En cuanto a la edad, solamente se interesaron los niños en el producto, las niñas no realizaron ningún aporte.
Solo participaron niños en los estratos 1 y 2
A los hombres y mujeres en general les agrada el producto,
En cuanto a los hombres, el porcentaje de no aceptación fue mayor en el estrato 4 y en las mujeres en el estrato 3.
Se plantea tomar como variable base, sexo, el resultado generado es el siguiente

Con esta opción, se puede apreciar en el árbol generado, lo siguiente:

Al mayor porcentaje le agradó el producto
En el estrato 1 encontramos participación de hombres, mujeres y niños, es decir que tienen más acceso a la web en este estrato
Clusters
Se hace clic en la pestaña Cluesters, se pulsa el botón Choose, y se hace clic en la opción SimpleKmeans.

Para el caso de estudio se aplicara la opción Use training set, para que se realice el aprendizaje sobre la totalidad de los registros y este aprendizaje sea aplicado a todos el archivo.
Como variable base, se tomará inicialmente el atributo like, este atributo contiene la información de las preferencia de los usuarios con respecto al producto lanzado.

Por clusters, apreciamos que la información es agrupada, de acuerdo al número de iteraciones, en este caso 3, en la primera tomó la totalidad de la información, en la segunda tomó el 76% de la información y en la última tomó el 24% de la información, obteniéndose como resultado lo siguiente:
En la primera iteración el estrato predominante fue el 4, la mayoría adultos, hombres y dijeron que "No" les agradaba el producto.
En la segunda iteración igual que la anterior.
En la última iteración el estrato predominante fue el 3, adultos, mujeres y opinaron favorablemente al producto.
En esta opción, se aprecia que los datos no son muy congruentes, tampoco dicientes, se puede interpretar que el producto no fue del agrado.

Asociación
En esta sub-herramienta, únicamente se elige el algoritmo a aplicar, para esto se hace clic en el botón Choose, y elegimos PredictiveApriori.

Este se puede considerar el algoritmo más completo en cuanto a la información que recaba, ofrece una serie de sugerencias, las cuales al final de cada una indica el porcentaje de fiabilidad de las mismas; para el archivo de trabajo, generó 99 sugerencias o asociaciones con porcentajes de fiabilidad que van desde el 99% hasta el 39%.
POST-PROCESO (ANALISIS DE RESULTADOS)

La información trabajada en las diferentes sub-herramientas, arroja diferentes respuestas, siendo las más congruentes las obtenidas por Clasificación y por Asociación.
En el análisis de la primera se observa que el mayor porcentaje de la población aprueba el producto, el acceso a la información se refleja más en el estrato 1, allí se encuentran, niños y en los adultos, tanto hombres como mujeres.
Se debe hacer más penetración de mercado en el estrato 4, debido a la alta cantidad de hombres que no les agrada el producto, sin que esto de a entender que en ese estrato no se es bien recibido el producto, sino que es el estrato donde mayor cantidad de negativas obtuvo.
En cuando a la sub-herramienta Asociación, esta muestra más sugerencias de respuestas, alcanzan las 99, para el caso se toman como referencia las 10 primeras y en ellas se puede determinar lo siguiente:
Las preferencias por el producto se encuentran dividas entre las que están a favor y los que están en contra en la anterior sub-herramienta la favorabilidad era bastante alta, acá la favorabilidad es positiva pero no tanto. A diferencia de la clasificación donde únicamente mostraban 5 niños, en este resultado aparecen muchos más.
En ambas herramientas, las más dicientes y congruentes en los resultados arrojados, le indican a los productores del artículo, que deben hacer mejor marketing, para que el porcentaje de aceptación sea mayor y mejoren los ingresos por el producto.

CONCLUSIONES

La herramienta aplicada en esta actividad, en mi caso es bastante novedosa e interesante, como explicaba en la actividad anterior, he utilizado el ad-ins de Excel para BI, bastante complicado con respecto a esta herramienta. De hecho hasta el mismo Pentaho, aun cuando es algo más completo, es complicado con respecto a Weka, por algo hace parte de sus herramientas.
Personalmente la considero una herramienta muy interesante y la cual empezaré a estudiar para aplicarla de mejor forma en las dos actividades que hacen parte de mi trabajo, como son los procesos que debo analizar de comportamiento de pago, en cuanto a modalidades, periodos de pago de los estudiantes de la Universidad Cooperativa sede Santa Marta, para mejorar los canales de ingreso de dinero a la sede y por ende aumentar la favorabilidad de la Universidad en cuanto a las estrategias de matrículas financieras, incrementando la cantidad de estudiantes nuevos y disminuyendo la tasa de deserción por cuestiones económicas en los estudiantes de la Sede.
Por otra parte, en la parte académica, hare uso de las facilidades de procesamiento de la información para proponer estudios que permitan determinar la percepción del estudiante en cuanto a la metodología utilizado por los profesores en las diferentes facultades de la Sede, para lograr una estandarización de métodos de enseñanza y procurando direccionar estos hacia todo lo concerniente a la Economía Solidaria, como valor agregado que debemos tener todos los egresados de la Universidad Cooperativa de Colombia.
Como conclusión de la herramienta, en sí, tiene muchas características que la hacen altamente beneficiosa, el máximo provecho se obtiene con la capacitación que realice en la misma, obviamente aplicando los conceptos esenciales de la minería de datos. Ahora bien solo aplique tres opciones de las múltiples que tiene cada sub-herramienta, coincidiendo que la más interesante es la de Asociación, seguramente cada una de ellas tiene su correspondiente aplicación dado el caso que se requiera, pero la que más me llamó la atención fue la de asociación.

Lihat lebih banyak...

HERRAMIENTA DE BI WEKA EN CASO DE ESTUDIO

Descripción

Comentarios