Análisis a una Fuente de 2000 Datos con Minería de Datos

October 8, 2017 | Autor: Pedro Salas Vergara | Categoría: Minería de Datos, KDD (Knowledge Discovery Databases)

Descripción

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

Técnicas de Minería de Datos Análisis a una Fuente de Datos Electivo de formación especializada KnowledgeDiscovery in Database

Integrantes: Pedro Salas Nicolás Oyarzún Profesor: Víctor Escobar Jeria

1

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

ÍNDICE Índice de Ilustraciones ...................................................................................................................................................3 1. Introducción...............................................................................................................................................................4 2. Objetivos ....................................................................................................................................................................5 1.1. Objetivo General .................................................................................................................................................5 1.2. Objetivos Específicos ..........................................................................................................................................5 3. Técnicas de minería de datos ....................................................................................................................................6 3.1. Técnicas a usar ....................................................................................................................................................8 4. Software de Análisis Elegido ....................................................................................................................................10 4.1. Interfaz principal de Weka ................................................................................................................................10 5. Análisis de Datos ......................................................................................................................................................12 5.1. Fuente de Datos ................................................................................................................................................12 5.2. Proceso .............................................................................................................................................................13 5.3. Clasificación de Datos, Árbol de Decisión .........................................................................................................16 5.4. Asociación .........................................................................................................................................................23 6. Conclusiones ............................................................................................................................................................27 7. Bibliografía ...............................................................................................................................................................28

2

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

ÍNDICE DE ILUSTRACIONES Ilustración 1: Clasificación de Técnicas Minería de Datos .............................................................................................6 Ilustración 2: Técnicas Supervisadas y No Supervisadas ...............................................................................................7 Ilustración 3: Interfaz principal de weka .....................................................................................................................10 Ilustración 4: Ventana explorer de weka .....................................................................................................................11 Ilustración 5: Formato ARff ..........................................................................................................................................12 Ilustración 6: Ventana explorer de weka .....................................................................................................................14 Ilustración 7: Ventana para seleccionar archivo ..........................................................................................................15 Ilustración 8: Muestra de datos de registro ................................................................................................................15 Ilustración 9: Ventana classify y selección de algoritmo .............................................................................................16 Ilustración 10:Selección de variables ...........................................................................................................................17 Ilustración 11: Muestra de resultados Classify ............................................................................................................18 Ilustración 12: Procentaje de error de los resultados .................................................................................................19 Ilustración 13: Metodo de seleccion para visualizar el árbol ......................................................................................21 Ilustración 14: árbol DE Decisión .................................................................................................................................21 Ilustración 15: muestra de resultado a partir del sexo ................................................................................................22 Ilustración 16: árbol de decisión a partir del sexo .......................................................................................................23 Ilustración 17: Ventana Associate de Weka y selección de algoritmo ........................................................................24 Ilustración 18: REsultados de asociación .....................................................................................................................25 Ilustración 19: RElaciones de asociación .....................................................................................................................25

3

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

1. INTRODUCCIÓN Hoy en día se utiliza la minería de datos en diferentes campos de la ciencia. Cabe destacar las aplicaciones financieras y en banca, en análisis de mercados y comercio, en seguros y salud privada, en educación, en procesos industriales, en medicina, en biología y bioingeniería, en telecomunicaciones y en muchas otras áreas. Lo esencial para empezar a trabajar en minería de datos, sea cual sea el campo en que se aplique, es la comprensión de los propios conceptos, tarea que no exige ni mucho menos el dominio de aparato científico que conlleva la materia. Posteriormente, cuando ya sea necesaria la operatoria avanzada, los softwares de computador permiten obtener los resultados sin necesidad de descifrar el desarrollo matemático de los algoritmos que están debajo de los procedimientos. Las técnicas de minería de datos persiguen el descubrimiento automático del conocimiento contenido en la información almacenada de modo ordenado en grandes bases de datos. Estas técnicas tienen como objetivo descubrir patrones, perfiles y tendencias a través del análisis de los datos utilizando tecnologías de reconocimiento de patrones, redes neuronales, lógica difusa, algoritmos genéticos y otras técnicas avanzadas de análisis de datos.

4

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

2. OBJETIVOS 1.1. OBJETIVO GENERAL Analizar una fuente de datos mediante el uso de un software de minería de datos.

1.2. OBJETIVOS ESPECÍFICOS 

Entender el funcionamiento del uso de software para la minería de datos.



Utilizar técnicas de minería de datos.

5

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

3. TÉCNICAS DE MINERÍA DE DATOS Entre las técnicas de minería de datos que se pueden distinguir: Técnicas predictivas: Donde las variables pueden clasificarse inicialmente en dependientes e independientes. Lo cual permite realizar predicciones y así prever el comportamiento futuro de algún tipo de entidad. Técnicas descriptivas: En las que todas las variables tienen inicialmente el mismo estatus. Ayudan a entender la comprensión de lo que se está analizando. Técnicas auxiliares: Son herramientas de apoyo más superficiales y limitadas, empleadas normalmente para propósitos de verificación de los resultados obtenidos con las otras técnicas (predictivas o descriptivas). A continuación (ver Ilustración 1) se pueden observar gran cantidad de técnicas de Data Mining

ILUSTRACIÓN 1: CLASIFICACIÓN DE TÉCNICAS MINERÍA DE DATOS

6

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

Se observa que las técnicas de clasificación pueden pertenecer tanto al grupo de técnicas predictivas (discriminantes, árboles de decisión y redes neuronales) como a las descriptivas (clustering y segmentación). Las técnicas de clasificación predictivas suelen denominarse técnicas de clasificación ad hoc ya que clasifican individuos u observaciones dentro de grupos previamente definidos. Las técnicas de clasificación descriptivas se denominan técnicas de clasificación post hoc porque realizan clasificación sin especificación previa de los grupos. Los algoritmos de minería de datos se clasifican en dos grandes categorías: supervisados o predictivos y no supervisados o de descubrimiento del conocimiento (Ilustración 2.)

ILUSTRACIÓN 2: TÉCNICAS SUPERVISADAS Y NO SUPERVISADAS

7

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

Los algoritmos supervisados o predictivos predicen el valor de un atributo (etiqueta) de un conjunto de datos, conocidos otros atributos (atributos descriptivos). A partir de datos cuya etiqueta se conoce se induce una relación entre dicha etiqueta y otra serie de atributos. Esas relaciones sirven para realizar la predicción en datos cuya etiqueta es desconocida. Cuando una aplicación no es lo suficientemente madura no tiene el potencial necesario para una solución predictiva, en ese caso hay que recurrir a los métodos no supervisados o de descubrimiento del conocimiento que descubren patrones y tendencias en los datos actuales (no utilizan datos históricos).

3.1. TÉCNICAS A USAR Las técnicas de Data Mining que se utilizan en este informe se pueden clasificar en Clasificación, Asociación y Segmentación o Clustering. Clasificación: En la clasificación, los métodos tienen la intención de aprender diferentes funciones que clasifiquen los datos dentro de un conjunto predefinido de clases. Dado un nuevo número de clases predefinidas, un número de atributos y un conjunto de datos de aprendizaje o entrenamiento, los métodos de clasificación pueden automáticamente predecir la clase de los datos previamente no clasificados. Las claves más problemáticas relacionadas con la clasificación son las evaluación de los errores de clasificación y la potencia de predicción. Las técnicas matemáticas más usadas para la clasificación son los árboles de decisión binarios, las redes neuronales, programación lineal y estadística. Utilizando un árbol de decisión binario, con un modelo de inducción de árbol en el formato Si-No, podremos posicionar los datos en las diferentes clases según el valor de sus atributos. Sin embargo, esta clasificación puede no ser óptima si la potencia de predicción es baja. Con el uso de redes neuronales, se puede construir un modelo de inducción neuronal. En este modelo, los atributos son capas de entrada y las clases asociadas con los datos son las capas de salida. Entre las capas de entrada y de salida hay un gran número de conexiones ocultas que aseguran la fiabilidad de la clasificación (como si fuesen las conexiones de una neurona con las de su alrededor).El modelo de inducción neuronal ofrece buenos resultados en muchos análisis de data mining, cuando hay un gran número de relaciones se complica la implementación del método por el gran número de atributos. Usando técnicas de programación lineal, el problema de la clasificación es visto como un caso especial de programación lineal. La programación lineal optimiza la clasificación de los datos, pero puede dar lugar a modelos complejos que requieran gran tiempo de computación. Otros métodos estadísticos, como la regresión lineal, regresión discriminante o regresión logística también son populares y usados con frecuencia en las procesos de clasificación.

8

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN



Árboles de decisión: El aprendizaje de árboles de decisión está englobado como una metodología del aprendizaje supervisado. La representación que se utiliza para las descripciones del concepto adquirido es el árbol de decisión, que consiste en una representación del conocimiento relativamente simple y que es una de las causas por la que los procedimientos utilizados en su aprendizaje son más sencillos que los de sistemas que utilizan lenguajes de representación más potentes, como redes semánticas, representaciones en lógica de primer orden etc. No obstante, la potencia expresiva de los árboles de decisión es también menor que la de esos otros sistemas. El aprendizaje de árboles de decisión suele ser más robusto frente al ruido y conceptualmente sencillo, aunque los sistemas que han resultado del perfeccionamiento y de la evolución de los más antiguos se complican con los procesos que incorporan para ganar fiabilidad. La mayoría de los sistemas de aprendizaje de árboles suelen ser no incrementales, pero existe alguna excepción.

Asociación: La relación entre un ítem de una transacción y otro ítem en la misma transacción es utilizada para predecir patrones. Por ejemplo, un cliente compra un ordenador (X) y a la vez compra un ratón (Y) en un 60% de los casos. Este patrón ocurre en un 5,6% de las compras de ordenadores. La regla de asociación en esta situación es que “X implica Y, donde 60% es el factor de confianza y 5,6% el factor de soporte. Cuando el factor de confianza y al factor de soporte están representados por las variables lingüísticas alto y bajo, la regla de asociación se puede escribir en forma de lógica difusa, como: “cuando el factor de soporte es bajo, X implica Y es alto”. Este sería el típico ejemplo de datamining de estudio realizado en supermercados con la asociación entre la venta de pañales de bebé y cerveza. Usan los algoritmos de reglas de asociación y árboles de decisión.

9

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

4. SOFTWARE DE ANÁLISIS ELEGIDO Weka 3.4.7.- Hemos utilizado la herramienta Weka para la demostración de algunas de las técnicas de minería de datos. Es un entorno para experimentación de análisis de datos que permite aplicar, analizar y evaluar las técnicas más relevantes de análisis de datos, principalmente las provenientes del aprendizaje automático, sobre cualquier conjunto de datos del usuario. Los algoritmos pueden ser aplicados directamente a un conjunto de datos o llamada de su propio código Java. Weka contiene herramientas de datos pre-procesamiento, clasificación, regresión, clustering, reglas de asociación y visualización. Una característica sobresaliente de este software es que es de código abierto publicado bajo la Licencia Pública General de GNU.

4.1. INTERFAZ PRINCIPAL DE WEKA

ILUSTRACIÓN 3: INTERFAZ PRINCIPAL DE WEKA

Presionamos el botón de Explorador (Ilustración 3) y nos abrirá una nueva ventana la cual nos permite carga de información que tengamos almacenada en algún medio como una base de datos (Ilustración 4). 10

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

ILUSTRACIÓN 4: VENTANA EXPLORER DE WEKA

Descripción de las pestañas superiores.

Pre procesos: Permite cargar toda la información que tengamos y visualizar los datos, posee filtros para la ejecución del mismo. Clasificación: Permite acceso a las técnicas de clasificación y regresión y nos permite el árbol de ejecución dentro del flujo de datos Clúster: Se puede decir que es igual a clasificación, pero nos permite obtener un porcentaje de error y sacar la medida de todo el conjunto de datos. Asociación: Esta es la acción más importante ya que nos permite saber cuáles son las relaciones entre toda la información que ingresamos y que a simple vista no vemos.

11

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

Selección de atributos: Determina cuales son los atributos más importantes para la ejecución de la minería de datos. Visualización: Permite ver de manera gráficas los resultados que se obtuvieron a través de la minería de datos.

5. ANÁLISIS DE DATOS 5.1. FUENTE DE DATOS A continuación se detalla la fuente de datos escogida para realizar las tareas de minería de datos. El fichero Titanic.arff contiene datos sobre las características de los 2201 pasajeros del Titanic. Estos datos son reales y provienen del (S.S.)" (British Board of Trade , Inquiry Report (reprint), Gloucester, UK, Allan Sutton Publishing, 1990). El formato arff (Attribute-Relation File Format) es el formato “oficial” de Weka y consiste, simplemente, en un fichero de texto en el que se almacena una tabla de datos, con una línea por tupla y los valores de una misma tupla separados por comas (en la misma línea del fichero de texto). Adicionalmente, los ficheros cabecera con información adicional acerca de los nombres y tipos de datos asociados a los distintos atributos de la relación, tal como se muestra a continuación en la Ilustración 5.

ILUSTRACIÓN 5: FORMATO ARFF

12

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

En el caso del fichero de datos correspondiente a los datos de los pasajeros del Titanic, sólo consideraremos los siguientes cuatro atributos, que ya aparecen codificados en el fichero Titanic.arff:

• Clase (0 = tripulación, 1 = primera, 2 = segunda, 3 = tercera) • Edad (1 = adulto, 0 = niño) • Sexo (1 = hombre, 0 = mujer) • Sobrevivió (1 = sí, 0 = no)

5.2. PROCESO Cargar un archivo. arff A continuación se muestra la interfaz de cómo es carga un archivo .arff en Weka, en este caso cargaremos una bases de datos con la cual se trabaja que ya tenemos creada en nuestro equipo la cual corresponde a la tripulación que abordó el Titanic (Ilustración 6).

13

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

ILUSTRACIÓN 6: VENTANA EXPLORER DE WEKA

Presionamos el botón Open File y buscamos el archivo en nuestro sistema (Ilustración 7).

14

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

ILUSTRACIÓN 7: VENTANA PARA SELECCIONAR ARCHIVO

A continuación se muestran los datos de los registros que contiene la base de datos Titanic.

ILUSTRACIÓN 8: MUESTRA DE DATOS DE REGISTRO

15

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

Observamos cómo se habilitan todas las opciones de la parte inferior y vemos en la parte izquierda los diferentes atributos que contiene el registro: Clase, edad, sexo, sobrevivió. Observamos cómo a partir de que seleccionamos cada uno del lado derecho se muestran la cantidad de registros y en la parte superior el número de registros por ejemplo la clase tiene 325 registros de primer clase, 285 la segunda clase, 706 de tercera y un total de 885 tripulantes.

5.3. CLASIFICACIÓN DE DATOS, ÁRBOL DE DECISIÓN A continuación se aplica el primer método de minería de datos, la Clasificación, la cual nos permite obtener como resultado un árbol de decisiones. Se presiona el botón superior Classify como se muestra en la imagen y seleccionamos el algoritmo J48 presionando el botón Choose.

ILUSTRACIÓN 9: VENTANA CLASSIFY Y SELECCIÓN DE ALGORITMO

16

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

Una vez seleccionado el algoritmo podemos realizar diferentes tipos de entrenamiento para la minería de datos como son:

   

Use training set: El aprendizaje de Weka es realizado por todos los registros que se encuentran cargados. Supplied test set: Se puede seleccionar un archivo. arrf que se encarga del aprendizaje de la minería de datos Cross-validación: El aprendizaje será a partir de una cantidad de campos que queramos. Percentage-split: Se encarga de especificar de registros serán utilizados para el aprendizaje de la minería de datos.

En esta ocasión seleccionamos la primera opción “Use training set”. En el siguientes recuadro vemos las diferentes variables que se encuentran en el archivo .arff de los registros que se subieron, siempre la variable base o la variable muestra será la última ingresada. En este caso seleccionamos el último.

ILUSTRACIÓN 10:SELECCIÓN DE VARIABLES

17

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

Y procedemos a presionar el botón Start, nos arroja los siguientes resultados el cual nos dará un recuadro con el resumen del árbol generado (Ilustración 11).

ILUSTRACIÓN 11: MUESTRA DE RESULTADOS CLASSIFY

Este recuadro contiene información de los registros el cual dice: Si una persona es del sexo femenino:    

Tripulación: Sobrevivieron 3 de los 23 Primera clase: Sobrevivieron 4 de los 145 Segunda clase: Sobrevivieron 13 de los 106 Tercera clase: No sobrevivieron 90 de los 196.

Si una persona es del sexo masculino:  

 

Tripulación: No sobrevivieron 192 de los 862 Primera clase o Niño: Sobrevivieron los 5 o Adulto: No sobrevivieron 57 de los 175 Segunda clase: sobrevivieron 13 de los 106 o Niño: Sobrevivieron los 11 o Adulto: No sobrevivieron 14 de los 168 Tercera clase: No sobrevivieron 88 de los 510.

18

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

Además nos muestra la cantidad de hojas y tamaño del árbol:

También podemos apreciar el porcentaje del error que se puede generar:

ILUSTRACIÓN 12: PROCENTAJE DE ERROR DE LOS RESULTADOS

19

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

Un dato importante que debemos tener en cuenta son los resultados que nos arroja la matriz de confusión:

La cual se interpreta de la siguiente manera: muestra en la diagonales que tanto porcentaje de error o de confiabilidad se puede tener en la diagonal entre mayor se al resultado de su respectiva letra mayor es el grado de confiabilidad, en este caso vemos que 1470>441 y 270>20 por lo que los resultados obtenidos son confiables. Para poder visualizar el árbol de ejecución (Ilustración 14) damos click sobre el algoritmo y seleccionamos la opción visualize tree (Ilustración 13).

20

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

ILUSTRACIÓN 13: METODO DE SELECCION PARA VISUALIZAR EL ÁRBOL

ILUSTRACIÓN 14: ÁRBOL DE DECISIÓN

Podemos generar el árbol no a partir de si sobrevivió o no si no a partir del sexo (Ilustración 15). 21

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

ILUSTRACIÓN 15: MUESTRA DE RESULTADO A PARTIR DEL SEXO

Se puede apreciar la matriz de confusión donde los parámetros son mucha más precisos que los anteriores.

Se aprecian 323 puntos buenos y solo 170 errores para a (sexo femenino) , para b que es sexo masculino 147 errores y 1561 puntos buenos. Por los tanto podemos decir que los datos son confiables y si los podemos tomar en cuenta. El árbol de ejecución resulta (Ilustración 16):

22

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

ILUSTRACIÓN 16: ÁRBOL DE DECISIÓN A PARTIR DEL SEXO

Si una persona no sobrevivió: 

Sexo masculino: No sobrevivieron 126 de los 1490

Si una persona es del sexo masculino: 

Clase o Tripulación: Sobrevivieron 20 de los 212 hombres o Primera Clase  Edad  Niño: Sobrevivieron 1 de 6 hombres  Adulto: Sobrevivieron 57 de 197 mujeres o Segunda Clase: Sobrevivieron 25 de 118 mujeres o Tercera Clase: Sobrevivieron 88 de 178 mujeres

5.4. ASOCIACIÓN Podemos entrar a la opción de asociación de la siguiente forma nos dirigimos a la pestañas superiores de la interfaz de Weka y damos click en la opción de asociación (Ilustración 17).

23

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

ILUSTRACIÓN 17: VENTANA ASSOCIATE DE WEKA Y SELECCIÓN DE ALGORITMO

Esta opción es una de las más interesantes ya que en ella podemos ver información oculta detrás de la información de todos los registros ingresados, primero que nada damos a seleccionar el algoritmo de asociación A priori y apretamos start.

Los resultados que debemos ver serán los siguientes (Ilustración 18):

24

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

ILUSTRACIÓN 18: RESULTADOS DE ASOCIACIÓN

En esta información podemos ver la cantidad de instancias, la relación, la cantidad de atributos, y la más importante es la que encontramos la final de los resultados:

ILUSTRACIÓN 19: RELACIONES DE ASOCIACIÓN

25

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

En estas líneas vemos que el algoritmo encontró 10 recomendaciones de información de la relación de todos los registros que ingresamos, el conf representa el porcentaje de acierto, por ejemplo la interpretación de la primera línea sería así:

1.- Las personas que tiene la clase tripulación es igual a adulto, esto quiere decir que todas las personas de la tripulación eran adultas con un 100% de certeza. 2.- En la segunda vemos que todas las personas que sean de tripulación y de sexo masculino todos son adultos con un 100% de certeza 3.- Todas las personas del sexo masculino y que no sobrevivieron fueron adultas, esto con 0.97 de certeza. 4.- Todas las personas de la clase tripulación eran de sexo masculino, esto con un 0.97 de certeza. 5.- Todas las personas de la clase tripulación y adultos eran de sexo masculino, esto con un 0.97 de certeza. 6.- Todas las personas de la clase tripulación, eran adultas y de sexo masculino, esto con un 0.97 de certeza. 7.- Todas las personas que no sobrevivieron, eran adultas, esto con un 0.97 de certeza. 8.- Todas las personas de sexo masculino, eran adultos, esto con un 0.96 de certeza. 9.- Todas las personas adultas que no sobrevivieron, eran de sexo masculino, esto con un 0.92 de certeza. 10.- Todas las personas que no sobrevivieron, eran de sexo masculino, esto con un 0.92 de certeza. Podemos decir que estos datos son muy obvios pero cuando tenemos una gran cantidad de información este tipo de información a veces no se aprecia a simple vista.

26

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

6. CONCLUSIONES Las herramientas de minería de datos permiten extraer patrones, tendencias y regularidades para describir y comprender mejor los datos y para predecir comportamientos futuros. Para el modelo del árbol de decisiones, podemos seleccionar distintos atributos como base para realizar el análisis, como en este caso, utilizamos las variables de “sobrevivió” y “sexo” los cuales dan resultados diferentes, cada uno con su grado de exactitud, lo cual nos da una mayor posibilidad para analizar los datos y buscar los mas correctos. También podemos decir que a través de la técnica de asociación se llego a resultados muy obvios pero cuando tenemos una gran cantidad de información con una mayor cantidad de atributos este tipo de información a veces no se aprecia a simple vista. En general se obtuvieron modelos de predicción precisos que logran reglas con alto valor de certeza y que permiten caracterizar los datos analizados y diseños de prueba eficientes para proceder con posteriores análisis.

27

UNIVERSIDAD TECNOLÓGICA METROPOLITANA FACULTAD DE INGENIERÍA DEPARTAMENTO DE INFORMÁTICA Y COMPUTACIÓN

7. BIBLIOGRAFÍA 

Lopez CP. Mineria de Datos y Herramientas. 1st ed. Reguera AO, editor. España: Paraninfo S.A.; 2007.



http://churriwifi.wordpress.com/2010/02/26/teoria-de-data-mining/



http://cs.uns.edu.ar/~cic/dm2007/downloads/datasets/titanic.arff



http://grupofivasa.blogspot.com/2009/09/tareas-en-data-mining.html



http://es.slideshare.net/verito/ejercicio-en-weka



http://elvex.ugr.es/decsai/intelligent/workbook/D2%20Association.pdf

28

Lihat lebih banyak...

Análisis a una Fuente de 2000 Datos con Minería de Datos

Descripción

Comentarios