Análisis a una Fuente de 2000 Datos con Minería de Datos

October 8, 2017 | Autor: Pedro Salas Vergara | Categoría: Minería de Datos, KDD (Knowledge Discovery Databases)

Descripción

Universidad Tecnológica Metropolitana Facultad de Ingeniería Escuela de Informática

Herramientas y Técnicas de Minería de Datos KDD (KNOWLWDGE DISCOVERY IN DATABASES) Alumnos Pedro Salas Vergara Nicolas Oyarzun Hernandez Profesor Victor Escobar Jeria

Contenidos ● ● ● ● ●

Introducción Objetivo Técnicas de Minería de datos Ejemplo explicativo Conclusiones

Introducción Actualmente se manejan grandes volúmenes de información de todo ámbito y se hace necesario emplear técnicas que permitan descubrir información, establecer reglas y predecir comportamiento de distintas entidades. El descubrimiento de conocimiento en bases de datos (KDD) como procedimiento ordenado cuenta con una serie de etapas, dentro de las cuales destaca el Análisis de los datos, que es donde se centrará el presente trabajo.

Objetivos Objetivo General Analizar una fuente de datos mediante el uso de un software de minería de datos. Objetivos Específicos ●

Entender el funcionamiento del uso de software para la minería de datos.

●

Utilizar técnicas de minería de datos.

Técnicas de Minería de Datos Las técnicas de Data Mining que se utilizan en este análisis son: ➢ ➢

Clasificación ○ Árbol de Decisión Asociación

Nos enfocaremos en Árbol de Decisión

Árboles de Decisión Se eligió esta técnica al presentar las siguientes características: ❏ ❏

❏

El aprendizaje está englobado como una metodología del aprendizaje supervisado. Consiste en una representación del conocimiento relativamente simple y es una de las causas por la que los procedimientos utilizados en su aprendizaje son más sencillos que los de sistemas que utilizan lenguajes de representación más potentes. El aprendizaje suele ser más robusto y conceptualmente sencillo, aunque los sistemas que han resultado del perfeccionamiento y de la evolución de los más antiguos se complican con los procesos que incorporan para ganar fiabilidad.

Herramienta Weka Es un entorno para experimentación de análisis de datos que permite aplicar, analizar y evaluar las técnicas más relevantes de análisis de datos, principalmente las provenientes del aprendizaje automático, sobre cualquier conjunto de datos del usuario.

Fuente de Datos El fichero Titanic.arff contiene datos sobre las características de los 2201 pasajeros del Titanic. Estos datos son reales y provienen del (S.S.)" (British Board of Trade , Inquiry Report (reprint), Gloucester, UK, Allan Sutton Publishing, 1990). El formato arff (Attribute-Relation File Format) es el formato “oficial” de Weka y consiste, simplemente, en un fichero de texto en el que se almacena una tabla de datos, con una línea por tupla y los valores de una misma tupla separados por comas (en la misma línea del fichero de texto).

Fuente de Datos En el caso del fichero de datos correspondiente a los datos de los pasajeros del Titanic, sólo consideraremos los siguientes cuatro atributos, que ya aparecen codificados en el fichero Titanic.arff: • Clase (0 = tripulación, 1 = primera, 2 = segunda, 3 = tercera) • Edad (1 = adulto, 0 = niño) • Sexo (1 = hombre, 0 = mujer) • Sobrevivió (1 = sí, 0 = no)

Registro Titanic Se habilitan todas las opciones de la parte inferior y vemos en la parte izquierda los diferentes atributos que contiene el registro: Clase, edad, sexo, sobrevivió. Observamos cómo a partir de que seleccionamos cada uno del lado derecho se muestran la cantidad de registros y en la parte superior el número de registros por ejemplo la clase tiene 325 registros de primer clase,285 la segunda clase, 706 de tercera y un total de 885 tripulantes.

Clasificación de Datos Nos permite obtener como resultado un árbol de decisiones. Una vez seleccionado el algoritmo podemos realizar diferentes tipos de entrenamiento para la minería de datos como son: ❏ Use training set: El aprendizaje de Weka es realizado por todos los registros que se encuentran cargados. (EL UTILIZADO) ❏ Supplied test set: Se puede seleccionar un archivo .arrf que se encarga del aprendizaje de la minería de datos ❏ Cross-validación: El aprendizaje será a partir de una cantidad de campos que queramos. ❏ Percentage-split: Se encarga de especificar qué registros serán utilizados para el aprendizaje de la minería de datos.

Resultado Procedemos a presionar el botón Start, nos arroja los siguientes resultados el cual nos dará un recuadro con el resumen del árbol generado. Además nos muestra la cantidad de hojas y tamaño del árbol

Matriz de Confusión Un dato importante que debemos tener en cuenta son los resultados que nos arroja la matriz de confusión:

La cual se interpreta de la siguiente manera: muestra en la diagonales que tanto porcentaje de error o de confiabilidad se puede tener, entre mayor sea el resultado de su respectiva letra mayor es el grado de confiabilidad, en este caso vemos que 1470>441 y 270>20 por lo que los resultados obtenidos son confiables.

Árbol de decisión Si una persona es del sexo femenino: ● ● ● ●

Tripulación: Sobrevivieron 3 de los 23 Primera clase: Sobrevivieron 4 de los 145 Segunda clase: Sobrevivieron 13 de los 106 Tercera clase: No sobrevivieron 90 de los 196. Si una persona es del sexo masculino: ● ●

●

●

Tripulación: No sobrevivieron 192 de los 862 Primera clase ○ Niño: Sobrevivieron los 5 ○ Adulto: No sobrevivieron 57 de los 175 Segunda clase: sobrevivieron 13 de los 106 ○ Niño: Sobrevivieron los 11 ○ Adulto: No sobrevivieron 14 de los 168 Tercera clase: No sobrevivieron 88 de los 510.

Otro Análisis También se pueden generar nuevos análisis a la base de datos partir de otros atributos, en este caso nuestra variable base será el Sexo.

Matriz de Confusión Se puede apreciar la matriz de confusión donde los parámetros son mucha más precisos que los anteriores.

Se aprecian 323 puntos buenos y solo 170 errores para a (sexo femenino) , para b que es sexo masculino 147 errores y 1561 puntos buenos. Por los tanto podemos decir que los datos son confiables y si los podemos tomar en cuenta.

Árbol de decisión Si una persona no sobrevivió: ●

Sexo masculino: No sobrevivieron 126 de los 1490

Si una persona es del sexo masculino: ●

Clase ○ Tripulación: Sobrevivieron 20 de los 212 hombres ○ Primera Clase ■ Edad ● Niño: Sobrevivieron 1 de 6 hombres ● Adulto: Sobrevivieron 57 de 197 mujeres ○ Segunda Clase: Sobrevivieron 25 de 118 mujeres ○ Tercera Clase: Sobrevivieron 88 de 178 mujeres

Conclusión Las herramientas de minería de datos permiten extraer patrones, tendencias y regularidades para describir y comprender mejor los datos y para predecir comportamientos futuros. Para el modelo del árbol de decisiones, podemos seleccionar distintos atributos como base para realizar el análisis, como en este caso, utilizamos las variables de “sobrevivió” y “sexo” los cuales dan resultados diferentes, cada uno con su grado de exactitud, lo cual nos da una mayor posibilidad para analizar los datos y buscar los más correctos. En general se obtuvieron modelos de análisis precisos que logran reglas con alto valor de certeza y que permiten caracterizar los datos analizados y diseños de prueba suficientes para proceder con posteriores análisis.

Lihat lebih banyak...

Análisis a una Fuente de 2000 Datos con Minería de Datos

Descripción

Comentarios