Análisis de la Información del sitio web de la UTEM a través de Minería de Datos

September 25, 2017 | Autor: Pedro Salas Vergara | Categoría: Minería de Datos, KDD (Knowledge Discovery Databases)
Share Embed


Descripción

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _________________________________________________________________________________________________________________________________________________________________________________

Análisis de la Información del sitio web de la UTEM a través de Minería de Datos Electivo de formación especializada Knowledge Discovery in Database

Integrantes:

Pedro Salas V. Nicolás Oyarzun H

Profesor:

Víctor Escobar Jeria

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

Tabla de Contenidos Tabla de Contenidos .......................................................................................................... 2 Tabla de Ilustraciones ........................................................................................................ 4 Índice de Tablas ................................................................................................................ 5 Introducción ....................................................................................................................... 6 1. Comprensión del Negocio .............................................................................................. 7 1.1. Determinar los objetivos del negocio ....................................................................... 7 1.1.1. Contexto ........................................................................................................... 7 1.1.2. Objetivos del Negocio ....................................................................................... 8 1.2. Evaluación de la Situación ...................................................................................... 8 1.2.1. Inventario de Recursos ..................................................................................... 8 1.2.2. Requerimientos, supuestos y restricciones ....................................................... 9 1.2.3. Riesgos y contingencias ................................................................................... 9 1.2.4. Terminología ................................................................................................... 10 1.3. Determinación de metas de la minería de datos .................................................... 10 1.3.1. Metas de la minería de datos ........................................................................ 10 1.4. Elaboración del plan de proyecto .......................................................................... 11 1.4.1. Plan de proyecto ............................................................................................. 11 1.4.2. Técnicas de Minería ........................................................................................ 11 1.4.3. Evaluación inicial de herramientas y técnicas ................................................. 12 2. Comprensión de Datos ................................................................................................ 13 2.1. Recolección de Datos Iniciales .............................................................................. 13 3. Preparación de Datos .................................................................................................. 14 3.1. Integración de Datos ............................................................................................. 14 3.2. Limpieza de Datos................................................................................................. 14 3.2.1. Segmentación de Campos. ............................................................................. 15 3.2.2. Eliminación de Registros Basura. ................................................................... 16 3.2.3. Reducción de Atributos ................................................................................... 17 4. Modelado de Datos ...................................................................................................... 18 4.1. Selección de la técnica de modelado .................................................................... 18 4.2. Generación del plan de prueba ............................................................................. 19 Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 2

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

4.3. Construcción del Modelo ....................................................................................... 19 4.3.1. Análisis del WebLog ....................................................................................... 19 4.3.2. Clusterización ................................................................................................. 25 4.3.3. Reglas de asociación ...................................................................................... 30 5. Evaluación ................................................................................................................... 33 5.1. Análisis de resultados............................................................................................ 33 5.1.1. Análisis del WebLog ....................................................................................... 33 5.1.2. Clusterización ................................................................................................. 34 5.1.3. Reglas de asociación ...................................................................................... 36 5.2. Revisión del proceso ............................................................................................. 39 5.3. Determinar próximos pasos ................................................................................... 39 6. Implementación ........................................................................................................... 40 6.1. Planear la implementación .................................................................................... 40 6.2. Plan de monitorización y mantención .................................................................... 40 Conclusión ....................................................................................................................... 41 Bibliografía ....................................................................................................................... 42

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 3

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

Tabla de Ilustraciones Ilustración 1: Captura de WebLog .................................................................................... 13 Ilustración 2: Esquema de limpieza de datos pre proceso de minería. ............................. 14 Ilustración 3: Captura datos estructurados accedidos mediante Microsoft Excel .............. 16 Ilustración 4: Detección de datos basura ......................................................................... 16 Ilustración 5: Estructura final origen de datos. ................................................................. 17 Ilustración 6: Modelado de Datos ..................................................................................... 18 Ilustración 7: Grafico Cantidad de visitantes por hora ...................................................... 21 Ilustración 8: Grafico Cantidad de visitas por página del sitio........................................... 22 Ilustración 9: Grafico Visitantes por cada URL referida .................................................... 23 Ilustración 10: Grafico Cuota de uso de navegadores Web.............................................. 24 Ilustración 11: Detalle de uso de navegadores Web ........................................................ 24 Ilustración 12: Algoritmo KMeans (Parámetros) ............................................................... 26 Ilustración 13: Resultados KMeans .................................................................................. 27 Ilustración 14: Número de cluster KMeans ....................................................................... 27 Ilustración 15: Cluster Full Data ....................................................................................... 28 Ilustración 16: Cluster 0 ................................................................................................... 28 Ilustración 17: Cluster 1 ................................................................................................... 28 Ilustración 18: Cluster 2 ................................................................................................... 28 Ilustración 19: Cluster 3 ................................................................................................... 29 Ilustración 20: Cluster 4 ................................................................................................... 29 Ilustración 21: Cluster 5 ................................................................................................... 29 Ilustración 22: Cluster 6 ................................................................................................... 29 Ilustración 23: Cluster 7 ................................................................................................... 29 Ilustración 24: Cluster 8 ................................................................................................... 30 Ilustración 25: Cluster 9 ................................................................................................... 30 Ilustración 26: Ventana Associate de WEKA y Selección de algoritmo ............................ 31 Ilustración 27: : Resultados de Asociación ....................................................................... 32 Ilustración 28: Relaciones Encontradas ........................................................................... 32

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 4

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

Índice de Tablas Tabla 1: Visitas realizadas ............................................................................................... 20 Tabla 2: Páginas vistas .................................................................................................... 20 Tabla 3: Resumen de los visitantes ................................................................................. 20 Tabla 4: Ancho de banda utilizado ................................................................................... 20 Tabla 5: Actividad diaria ................................................................................................... 21 Tabla 6: Detalle de visitas por tramo horario .................................................................... 21 Tabla 7: Archivos descargados ........................................................................................ 22 Tabla 8: Sitios referentes por cantidad de visitantes ........................................................ 23 Tabla 9: Visitas por sistema operativo ............................................................................. 25

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 5

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

Introducción La mayoría de las páginas web de instituciones de educación se crean bajo un diseño principalmente de facilidad de navegación y que sean agradables a la vista, esto con la finalidad de que sea un medio de comunicación entre los participantes de dicha institución, así como también un medio de información para toda la comunidad y darse a conocer al resto de la población. Para las instituciones que basan gran parte de su trabajo en la utilización de plataformas web, es necesario hacer periódicamente un análisis con respecto a la forma en que se utiliza su sitio, de tal forma de conocer cuales son las páginas más visitadas dentro del sitio, si estas son de fácil acceso, etc. Todo esto con la finalidad de decidir si es necesario hacer una re-estructuración del sitio para hacerlo más amigable con el usuario y de facilitar su utilización. Existen diversas metodologías para la minería web, una de ellas es la metodología CRISP-DM, la cual cuenta con seis fases de trabajo para lograr los objetivos. [1] 1. 2. 3. 4. 5. 6.

Comprensión del negocio Recopilación de datos Preparación de datos Modelado Evaluación Despliegue Esta es una de las metodologías más utilizadas en el área, debido a su efectividad y calidad.

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 6

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

1. Comprensión del Negocio 1.1. Determinar los objetivos del negocio 1.1.1. Contexto La Universidad con el fin de mejorar la calidad de la información que es mostrada a la comunidad a través de su sitio web (www.utem.cl), le ha solicitado a la Dirección de Sistemas y Servicios de Informática (SISEI), prestar el apoyo necesario para este proyecto, y así mejorar algunos procesos internos del sitio. El director de SISEI, informa que será necesario contratar un grupo de expertos que utilicen la Metodología CRISP-DM, para realizar un proceso de Minería Web, que les permita tener nociones mucho más clases que sólo la estadística de navegación. Una semana más tarde, el director de SISEI ha informado que ya tiene el grupo de personas que se harán cargo del proyecto, y que ha indicado que se han comprometido a tres entregas formales de avances del proyecto: · · ·

Fase 1: Entendimiento del negocio y de los datos o Fecha: 30 de Septiembre Fase 2: Preparación de los datos y Modelamiento o Fecha: 28 de Octubre Fase 3: Propuesta Final o Fecha: 9 de Diciembre Además, el director indica que toda la data del servidor del sitio web de la universidad ha sido entregada al grupo responsable de este proyecto. Recalcó que en conversaciones con las personas a cargo, se les indicó que no habrá ningún aplazamiento de las fechas de entrega que no sean los ya estipulados.

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 7

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

1.1.2. Objetivos del Negocio General Mejorar la calidad de la información que es mostrada a la comunidad a través de su sitio web (www.utem.cl). Específico Según lo solicitado por la Universidad, los objetivos del análisis son los siguientes: ●

Ordenar los datos disponibles para realizar el análisis de la organización.



Analizar y modelar los datos recopilados, a través de una técnica de Minería de Datos.



Determinar las características de navegación más importantes de los usuarios.



Determinar las páginas más visitadas por los usuarios.



Definir si es necesario una re-estructuración al sitio Web.

1.2. Evaluación de la Situación 1.2.1. Inventario de Recursos En este punto se deben listar todos los recursos disponibles, apunta a identificar el personal, fuentes de datos, instalaciones técnicas, y otros recursos que pueden ser útiles en la realización del proyecto. ●

1 Experto en minería de datos, para que puedan tomar decisiones basadas en procesos de análisis de los datos.



1 Técnico, para que puedan manipular los datos, realizar los procesos, entregar toda la información necesaria a los expertos.



Base de datos en Excel que contiene la información de la página de la universidad.



1 Computador. Sistema Operativo: Windows 7 64- bit, CPU Intel Core i7 2.30GHz, Memoria: 8.00 GB RAM.

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 8

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

1.2.2. Requerimientos, supuestos y restricciones Requerimientos ● Obtener datos concretos y así mejorar algunos procesos internos del sitio. ●

Determinar las mejores acciones para intervenir y mejorar la calidad de la información que es mostrada a la comunidad a través de su sitio web (www.utem.cl)

Supuestos ●

Los encargados tienen que preocuparse de hacer un modelo adecuado y claro, para que luego la universidad logre deducir de donde se obtuvieron los resultados.

Restricciones ●

Se debe trabajar con la tecnología adecuada (software especializado en bases de datos) para que los resultados sean los buscados. El software debe ser específico para el volumen de datos.



La universidad debe evaluar con anterioridad si posee los recursos financieros necesarios para llevar a cabo este proyecto.

1.2.3. Riesgos y contingencias Esta sección identifica los problemas que pueden acontecer en el transcurso del proyecto, se nombran las posibles consecuencias, y se formulan las acciones pueden ser tomadas para reducir al mínimo tales riesgos.

Riesgos ●

Fallos encadenados en la utilización de la BD.



Inapropiado acceso a la base de datos (por ejemplo, confidencialidad de la información).

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 9

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

Contingencias ●

Fácil acceso a versiones anteriores, o continuar desde un punto de control verificado. Backup continúo. Equipos informáticos configurados de respaldo. Disponer de servidores alternativos para emergencias.



Cifrar todo la información sensible para que no pueda ser utilizada por terceros. No dejar la información significativa en lugares fácilmente accesibles.

1.2.4. Terminología En este paso, se compila un glosario de terminología relevante al proyecto. ●

Base de datos: conjunto de datos que pertenecen al mismo contexto y se almacenan para su posterior uso (obtención de resultados).



Modelo: proporciona una descripción del ciclo de vida del proyecto, contiene sus fases, tareas y relaciones

1.3. Determinación de metas de la minería de datos En esta etapa se establecen los objetivos del proyecto desde el punto de vista técnico del data Mining.

1.3.1. Metas de la minería de datos ●

Preprocesar y filtrar los datos digitalizados, para normalizar el formato de la fuente de datos y muestrear estos últimos.



Determinar las características de navegación más importantes de los usuarios.



Determinar las páginas más visitadas por los usuarios.



Obtener uno o varios modelos de conocimiento a partir de los patrones de comportamiento o relaciones de asociación entre los valores de las variables elegidas.



Interpretar el mejor modelo obtenido, es decir, el que permita conocer las mejores acciones para intervenir y mejorar la navegación a través de la página web.

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 10

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

1.4. Elaboración del plan de proyecto Esta fase tiene como objetivo desarrollar el plan de proyecto considerando los pasos a seguir y los métodos a emplear en cada paso.

1.4.1. Plan de proyecto El plan inicialmente contemplado incluye la selección inicial de herramientas y técnicas, contemplando, además: ●

Consolidación de las planillas digitalizadas para normalizar los datos a utilizar.



Filtrado, muestreo y verificación de los datos.



Realizar el diagrama de navegación del sitio web

1.4.2. Técnicas de Minería La minería que se debe aplicar es de tipo web, para la cual existen tres técnicas dependiendo del objetivo de la minería: ●

Agrupamiento y clasificación: las técnicas de agrupamiento se basan en la separación de ciertos comportamientos similares en grupos homogéneos, existiendo así grupos con características diferentes entre sí. Dado que la información depende de los log, es posible detectar algunos los siguientes grupos de usuarios: ○ ○ ○

Aquellos que visitan gran cantidad de páginas con un intervalo de tiempo similar en todas ellas. Los que visitan un número pequeño de páginas en intervalos cortos. Aquellos que visitan un número pequeño-mediano de páginas con tiempo variable en cada una de ellas.

Las técnicas de clasificación en la minera Web permiten desarrollar un perfil cliente/servidor en función de los patrones de acceso al servidor. El agrupamiento de estos perfiles entrega facilidades en el desarrollo de estrategias para futuros mercados.

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 11

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________





Reglas de asociación: estas permiten determinar patrones en los datos mientras ocurren transacciones de más datos. Así, se encontrarán ciertos patrones y relaciones que permitirán clasificar más fácilmente sin la necesidad de un operador. Las reglas de asociación se dividen en dos fases: ○ Extracción de los conjuntos de elementos que cumplen con la información requerida a partir de los datos. ○ Generación de las reglas a partir de estos documentos. Secuencias frecuentes: esta técnica utiliza los datos de transacciones realizados en un período de tiempo. De esta forma, se pueden predecir futuras visitas y ordenar de mejor forma, los accesos y publicidades de determinados productos.

Para los efectos de la minería que se aplicará en este trabajo, utilizaremos la técnica de secuencias frecuentes, ya que se apega más a los objetivos establecidos.

1.4.3. Evaluación inicial de herramientas y técnicas Las herramientas a utilizar, que permiten el desarrollo del proyecto, son: ●

Software Microsoft Excel.



Software Weka.



Sistemas operativos Microsoft Windows 7



Máquina virtual Java.

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 12

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

2. Comprensión de Datos Para realizar la compresión de datos, se tomó la base datos de un weblog del año 2014, del servidor web en donde se encuentra hospedada la página web de la universidad.

2.1. Recolección de Datos Iniciales El formato en que se recibe el weblog es el siguiente (Ilustración 1):

Ilustración 1: Captura de WebLog

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 13

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

3. Preparación de Datos 3.1. Integración de Datos Si bien los registros se encuentran en relativo orden estructural, ubicado cada registro en una línea, y separados los campos de análisis por tabulaciones, indistinto de ello, es necesario realizar limpieza sobre la fuente. Dicha limpieza se asocia a: ●

Ordenamiento de atributos.



Eliminación de registros basura.



Segmentación de campos según requerimientos.



Eliminación de atributos (columnas) según el análisis que se desee establecer.

Para dicha limpieza, y por temas prácticos, se llevarán los datos desde texto plano hacia Microsoft Excel, con el fin de tener una herramienta versátil de tratamiento de datos (filtros, modificación, segmentación, etc).

3.2. Limpieza de Datos Los datos dispuestos en el weblog se maquetaran bajo el siguiente esquema (Ilustración 2):

Ilustración 2: Esquema de limpieza de datos pre proceso de minería. Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 14

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

De los campos mostrados en la Imagen, aquellos denotados con fondo blanco y borde azul son aquellos datos que se desestimarán para el análisis, dado que el objetivo apunta a conocer como es usada la web a nivel de navegación, más que un análisis “técnico” o “regional” de la navegación. Si bien los campos de “Fecha” y “Hora” pueden no resultar directamente necesarios para el enfoque de análisis que se plantea, no se eliminarán de la estructura pues podrían aportar un mayor entendimiento de la situación analizada, una vez avanzado el análisis.

3.2.1. Segmentación de Campos. Como podemos observar en el weblog, existen “campos compuestos”, resultantes de la concatenación de datos, como podría ser el dato de la “fecha”, que se define como la concatenación de la fecha (dd-MM-yyyy), hora (HH:mm:ss) y zona horaria. Dada la naturaleza del análisis, y el alto volumen de datos, Para la segmentación de campos, se aplican las siguientes directivas de limpieza: 1. Reemplazar todas las tabulaciones (“ “) por “;”(punto y coma) con el fin de hacer legible el fichero utilizando Microsoft Excel. 2. Eliminar Caracteres “*“ y “+” (reemplazar por “”). 3. Reemplazar “/2014:” por “/2014;” con el fin de segmentar el campo “fecha”. 4. Reemplazar “-0400” por “;0400” con el fin de segmentar el campo “zona horaria” y “hora”. 5. Reemplazar “*/” por “;/” con el fin de segmentar el campo “método”. (métodos de solicitud encontrados = GET, HEAD, POST) 6. Reemplazar “HTTP/1.0*” y “HTTP/1.1*” por “;HTTP/1.0” y “;HTTP/1.1” respectivamente, para segmentar el campo “protocolo de comunicación”. Una vez aplicadas estas directivas se definen los campos en orden, con el fin de preparar los datos para su posterior manipulación en Microsoft Excel. Así, la cadena de definición de atributos resulta: “Host;ID_usuario;Autent_usuario;Fecha;Hora;Zona Horaria;Metodo;Direccion Destino;Protocolo Web;Estado;Bits;Direccion Origen;Datos Navegador”

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 15

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

Una vez estructurado, se guarda un nuevo archivo en formato “.csv” y se abre usando Microsoft Excel. El resultado es el siguiente (Ilustración 3):

Ilustración 3: Captura datos estructurados accedidos mediante Microsoft Excel

3.2.2. Eliminación de Registros Basura. Utilizando la herramienta de “Filtro” de Excel podemos revisar cuales son los valores contenidos en cada columna, y con ello, detectar en cada columna las instancias de datos que contienen “datos basura” que podrían entorpecer el proceso. Por ejemplo, en el campo de protocolo, en donde solo debería encontrarse “HTTP/1.0” y “HTTP/1.1”, encontramos (Ilustración 4):

Ilustración 4: Detección de datos basura

La existencia de datos basura se debe a registros mal almacenados por el server. Se aplica el filtro de logs duplicados e incompletos al weblog. Además se remueven aquellos registros erróneos e incompletos, reduciendo así el volumen de datos, de 32.284 registros (weblog original) a 32.046 registros (weblog limpio).

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 16

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

3.2.3. Reducción de Atributos Basado en el modelo de limpieza propuesto anteriormente, se seleccionan los datos indicados y se eliminan aquellos atributos denotados en blanco, con el fin de reducir la cantidad de datos de análisis. La estructura de datos resulta de la siguiente forma (Ilustración 5):

Ilustración 5: Estructura final origen de datos.

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 17

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

4. Modelado de Datos

Ilustración 6: Modelado de Datos

Las técnicas a utilizar en esta fase se eligen en función de los siguientes criterios: · · · ·

Ser apropiada al problema. Disponer de datos adecuados. Cumplir los requisitos del problema. Tiempo adecuado para obtener un modelo.

4.1. Selección de la técnica de modelado Se considera que para los efectos de la minería que se aplicará en este trabajo, utilizaremos un análisis estadístico, el cual nos enseñara las distintas características permitiendo descubrir patrones que nos entrega el WebLog, luego la técnica de Clusterización la cual pretende encontrar entre los distintos visitantes, grupos con características similares de navegación Web. También se tienen en consideración las técnicas de las Reglas de asociación ya que usando esta técnica se pretende encontrar las asociaciones de enlaces o páginas que se producen cuando los visitantes navegan en un sitio Web determinado y la de secuencias frecuentes, ya que esta técnica utiliza los datos de transacciones realizados en un período de tiempo. De esta forma, se

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 18

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

pueden predecir futuras visitas y ordenar de mejor forma, los accesos y publicidades de determinados productos.

4.2. Generación del plan de prueba Al crear el modelo y aplicar la técnica elegida, se debe generar un procedimiento destinado a probar la calidad y validez del mismo. A continuación, se genera el plan de prueba para que la técnica clustering se lleve a cabo de la mejor manera y los resultados sean completamente válidos. Elegir las variables adecuadas para agrupar por similitud, por ejemplo, las variables deben de estar en la misma escala de medición, o en su defecto, deben tener estandarizados los valores. Identificar la existencia de fuertes correlaciones entre distintas variables, si no se observa este punto, lo mejor es no realizar clustering. Se debe seleccionar el procedimiento por el cual se lleva a cabo la agrupación. Primero, por el método jerárquico (también conocido como exploratorio), ya que este presenta los distintos diagramas que ayudan a estudiar/decidir en cuántos clusters podemos dividir a los elementos. Luego, se debe llevar a cabo el método no jerárquico (también conocidos como método confirmatorio) para validar o confirmar de alguna forma los datos obtenidos en un principio.

4.3. Construcción del Modelo Después de establecer las técnicas, estas se aplican sobre los datos a trabajar.

4.3.1. Análisis del WebLog ●

Datos a analizar

Los datos del log corresponden a 32,283 registros de acceso al sitio Web cuya URL principal es http://www.utem.cl, capturados durante el día 4 de mayo de 2014, entre las 07:55 y las 12:00 horas. El análisis se realiza utilizando la herramienta “Web Log Expert Lite”, la que se encarga del procesamiento de los datos y el descubrimiento de patrones.

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 19

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________



Estadísticas generales

Tabla 1: Visitas realizadas Visitas Visitas totales

32,283

Visitas de visitantes

31,721

Visitas de arañas

562

Promedio de visitas por día

32,283

Promedio de visitas por visitante

113.29

Peticiones en caché

22,217

Peticiones fallidas

121

A partir de los datos de la Tabla 1, es posible determinar que el 30% de las peticiones realizadas al servidor Web ha generado tráfico, puesto que se trata de peticiones que no se almacenan en caché.

Tabla 2: Páginas vistas Páginas vistas Total de páginas vistas

807

Promedio de páginas vistas por día

807

Promedio de páginas vistas por visitante

2.88

Tabla 3: Resumen de los visitantes Visitantes Total de visitantes

280

Promedio de Visitantes por día

280

Total de IPs únicas

326

Tabla 4: Ancho de banda utilizado Ancho de banda Total de ancho de banda

525.57 MB

Ancho de banda por visitante

503.08 MB

Ancho de banda por araña

22.49 MB

Promedio de ancho de banda por día

525.57 MB

Promedio de ancho de banda por visita

16.67 KB

Promedio de ancho de banda por visitante

1.80 MB

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 20

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________



Estadísticas de Actividad Tabla 5: Actividad diaria

Fecha

Visitas

Páginas vistas

Visitantes

Promedio de la duración de la visita

Ancho de banda (KB)

Dom 04/05/2014

32,283

807

280

14:10

538,184

Total

32,283

807

280

14:10

538,184

Se puede observar en la Tabla 5 que se realizaron 32.283 visitas, con un tiempo promedio de permanencia de 14 minutos y 10 segundos en el sitio. A continuación en la gráfica se puede observar el horario peak en que se visitó la página.

Ilustración 7: Grafico Cantidad de visitantes por hora

Según la Ilustración 7, la mayor cantidad de visitantes se realiza en el periodo comprendido desde las 11:00 hasta las 11:59 h

Tabla 6: Detalle de visitas por tramo horario Hora

Visitas

Páginas vistas

Visitantes

Ancho de banda (KB)

07:00 - 07:59

399

7

10

8,895

08:00 - 08:59

5,793

144

44

98,224

09:00 - 09:59

7,338

196

72

142,902

10:00 - 10:59

10,013

233

69

135,214

11:00 - 11:59

8,737

227

85

152,947

Total

13,530

347

126

250,022

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 21

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________



Estadísticas de Acceso

Ilustración 8: Grafico Cantidad de visitas por página del sitio

Tabla 7: Archivos descargados I d

Archivo

Visitas

Solicitud es incomple tas

Visitantes

Ancho de Banda (KB)

1

http://www.utem.cl/wp-content/ uploads/2013/12/ingeniería-en-biotecnología.pdf

6

0

4

3,264

2

http://www.utem.cl/wp-content/ uploads/2013/12/ingeniería-civil-en-prevenciónde-riesgo s-y-medio-ambiente.pdf

7

0

2

2,698

3

http://www.utem.cl/wp-content/ uploads/2013/12/trabajo-social.pdf

2

0

2

1,276

4

http://www.utem.cl/wp-content/ uploads/2013/12/ingeniería-en-gestiónturística.pdf

3

0

2

1,119

5

http://www.utem.cl/wp-content/ uploads/2010/08/ingenieria-civil-industrialprosecucion1 .pdf

4

0

2

1,185

6

http://www.utem.cl/wp-content/ uploads/2013/12/ingeniería-en-geomensura.pdf

1

0

1

0

Total

23

0

N/A

9542

Se puede apreciar en la tabla 7 que el documento con mayor cantidad de descargas es la “Ingeniería en biotecnologia.pdf”, el que contiene información acerca de la oferta académica de la universidad.

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 22

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________



Referentes

Tabla 8: Sitios referentes por cantidad de visitantes ID

Sitio

Visitantes

1

Sin referente

2

http://aldia.utem.cl

7

3

http://www.google.com

5

4

http://prensamerica.bligoo.cl

3

5

http://www.google.cl

2

6

http://www.altillo.com

1

7

http://www.artparquet.ru

1

8

http://es.kioskea.net

1

9

http://bibliotecarios.cl Total

204

1 225

Ilustración 9: Grafico Visitantes por cada URL referida

Según la Tabla 8, es posible determinar que alrededor del 90% de los visitantes ingresa directamente al sitio Web, sin entrar desde enlaces externos, mientras que el 2.2% de los visitantes llega a través del motor de búsqueda Google.

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 23

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

Las consultas más realizadas mediante el motor de búsqueda Google son: ● ● ● ●

ingenieria comercial vespertino ingeniería civil.industrial continuidad de estudios utem vespertina utem

Ilustración 10: Grafico Cuota de uso de navegadores Web

Ilustración 11: Detalle de uso de navegadores Web

Según la Ilustración 11 se tiene, para los visitantes, que:

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 24

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

Del total de visitas, el 27,30% corresponde a visitantes automatizados. Casi el 35% de los visitantes normales utiliza Google Chrome, pudiendo tratarse tanto de versiones de escritorio como versiones móviles. Tabla 9: Visitas por sistema operativo Sistema operativo

Visitas

Visitantes

% del total de visitantes

1

Otros

5,903

118

42.14%

2

Windows 7

20,061

75

26.79%

3

Android OS

709

24

8.57%

4

Windows XP

1,671

20

7.14%

5

Windows 8

688

10

3.57%

6

iPhone

248

7

2.50%

7

Windows Vista

37

7

2.50%

8

Windows 8.1

368

6

2.14%

9

Mac OS

27

5

1.79%

10

iPad

214

4

1.43%

11

Linux

1,792

3

1.07%

12

Windows 2000

1

1

0.36%

13

Windows 95

2

0

0.00%

Total

31,721

280

100.00%

La mayor cantidad de visitantes utilizo otro sistema operativo, y el con mayor cantidad de visitas fue Windows 7 que representa un 26,79% de los visitantes.

4.3.2. Clusterización Se utilizó la técnica de Clustering sobre los datos la cual pretende encontrar entre los distintos visitantes, grupos con características similares de navegación Web. Se aplicó el algoritmo de agrupamiento K-medias, por ser uno de los más veloces y eficientes, aunque también hay que decir que es uno de los más limitados. Este algoritmo precisa únicamente del número de categorías similares en las que queremos dividir el conjunto de datos. Seleccionamos el algoritmo SimpleKMeans con un número de clusters igual a 10.

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 25

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

Esta técnica se aplica bajo los siguientes parámetros mostrados en la figura.

Ilustración 12: Algoritmo KMeans (Parámetros)

Los resultados obtenidos son los siguientes: Se seleccionaron para trabajar los atributos IP, Fecha, Pedido, Referente y Navegador y se excluyeron los atributos Metodo, Estado y Bytes, ya que estos no son relevantes debido a la repetición que presentan.

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 26

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

Ilustración 13: Resultados KMeans

Ilustración 14: Número de cluster KMeans

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 27

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

Como se observa en la figura , se crean 10 grupos de datos, los cuales se detallan a continuación.

Ilustración 15: Cluster Full Data

Ilustración 16: Cluster 0

Ilustración 17: Cluster 1

Ilustración 18: Cluster 2

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 28

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

Ilustración 19: Cluster 3

Ilustración 20: Cluster 4

Ilustración 21: Cluster 5

Ilustración 22: Cluster 6

Ilustración 23: Cluster 7

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 29

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

Ilustración 24: Cluster 8

Ilustración 25: Cluster 9

4.3.3. Reglas de asociación Se aplica la técnica de reglas de asociación, con la cual se pretende encontrar las asociaciones de enlaces o páginas que se producen cuando los visitantes navegan en un sitio Web determinado y la de secuencias frecuentes. Podemos entrar a la opción de asociación de la siguiente forma nos dirigimos a la pestañas superiores de la interfaz de Weka y damos click en la opción de asociación (Ilustración 26).

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 30

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

Ilustración 26: Ventana Associate de WEKA y Selección de algoritmo

Esta opción es una de las más interesantes ya que en ella podemos ver información oculta detrás de la información de todos los registros ingresados, primero que nada damos a seleccionar el algoritmo de asociación A priori y apretamos start. Los resultados obtenidos son los siguientes (Ilustración 27):

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 31

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

Ilustración 27: : Resultados de Asociación

En esta información podemos ver la cantidad de instancias, la relación, la cantidad de atributos, y la más importante es la que encontramos la final de los resultados:

Ilustración 28: Relaciones Encontradas

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 32

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

5. Evaluación 5.1. Análisis de resultados Se realiza el análisis de los resultados obtenidos en los métodos propuestos anteriormente, los cuales corresponden al análisis estadístico del WebLog, la clusterización de los datos y las reglas de asociación aplicada a los datos.

5.1.1. Análisis del WebLog El análisis efectuado permite obtener una visión acerca del comportamiento de los distintos tipos de visitantes que llegan al sitio Web. La gama de información que se puede generar a partir de este tipo de análisis es extensa: es posible detectar lo que esperan obtener los usuarios al visitar el sitio Web, el tiempo que permanecen dentro del sitio, el tipo de dispositivo y tecnología que utilizan para ingresar, el nivel de optimización de los componentes del sitio, entre muchos aspectos. En cuanto al tipo de dispositivo y tecnología, es posible determinar que casi la mitad de los visitantes utilizan computadores relativamente modernos, ya que cuentan con sistema operativo Windows 7 o superior. Además, la quinta parte de los visitantes provienen desde teléfonos inteligentes, lo que indica que muchos usuarios podrían requerir una versión del sitio adaptada a teléfonos móviles. Respecto al tiempo de permanencia en el sitio, los usuarios destinan en promedio 15 minutos a permanecer dentro. Con este antecedente, y también considerando que muchas visitas se realizan directamente y otras ingresan mediante motores de búsqueda, es posible deducir que éstas generalmente responden a la búsqueda de un ítem específico dentro del sitio, y que, una vez encontrado lo requerido, el visitante abandona el sitio.

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 33

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

5.1.2. Clusterización De acuerdo al modelo obtenido, se tiene la siguiente información de cada cluster: ●

El Cluster 0 tomó 14.849 datos que son el 46% de los datos totales. ○ IP: 181.160.164.94 ○ Fecha: 04/May/2014:11:51:57 ○ Pedido: wp-content/uploads/2014/04/acred4a_C3_B1os.jpg HTTP/1.1 ○ Referente: http://www.utem.cl/ ○ Navegador: Mozilla/5.0 (Windows NT 6.1; WOW64)



El Cluster 1 tomó 2.679 datos que son el 8% de los datos totales. ○ IP: 181.160.164.94 ○ Fecha: 04/May/2014:10:25:17 ○ Pedido: wp-content/uploads/2014/03/01B1.jpg HTTP/1.1 ○ Referente: http://www.utem.cl/ ○ Navegador: Mozilla/5.0 (Windows NT 6.1; WOW64)



El Cluster 2 tomó 3851 datos que son el 12% de los datos totales. ○ IP: 190.46.242.158 ○ Fecha: 04/May/2014:11:22:24 ○ Pedido: wp-content/uploads/2014/03/06.jpg HTTP/1.1 ○ Referente: http://www.utem.cl/ ○ Navegador: Mozilla/5.0 (Windows NT 6.1; WOW64)



El Cluster 3 tomó 2459 datos que son el 8% de los datos totales. ○ IP: 200.104.250.61 ○ Fecha: 04/May/2014:08:10:32 ○ Pedido: HTTP/1.1 ○ Referente: https://miportal.uss.cl/cp/home/next ○ Navegador: Mozilla/4.0



El Cluster 4 tomó 1440 datos que son el 4% de los datos totales. ○ IP: 201.241.41.249 ○ Fecha: 04/May/2014:11:36:57 ○ Pedido: wp-content/uploads/2014/04/panel_educacion.jpg HTTP/1.1 ○ Referente: http://www.utem.cl/ ○ Navegador: Mozilla/5.0 (Windows NT 6.1; WOW64)

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 34

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________



El Cluster 5 tomó 2459 datos que son el 8% de los datos totales. ○ IP: 181.160.164.94 ○ Fecha: 04/May/2014:11:49:01 ○ Pedido: wp-content/uploads/2014/03/banner_diploma-01.jpg HTTP/1.1 ○ Referente: http://www.utem.cl/ ○ Navegador: Mozilla/5.0 (Windows NT 6.1; WOW64)



El Cluster 6 tomó 1640 datos que son el 5% de los datos totales. ○ IP: 181.160.164.94 ○ Fecha: 04/May/2014:10:25:07 ○ Pedido: wp-content/uploads/2014/04/panel_educacion.jpg HTTP/1.1 ○ Referente: http://www.utem.cl/ ○ Navegador: Mozilla/5.0 (Windows NT 6.1; WOW64)



El Cluster 7 tomó 278 datos que son el 1% de los datos totales. ○ IP: 186.79.162.135 ○ Fecha: 04/May/2014:11:22:12 ○ Pedido: wp-content/plugins/m-vslider/jquery.nivo.slider.js[ver=3.3.1 HTTP/1.1 ○ Referente: http://www.utem.cl/ ○ Navegador: Mozilla/5.0 (Linux)



El Cluster 8 tomó 1948 datos que son el 6% de los datos totales. ○ IP: 146.83.183.226 ○ Fecha: 04/May/2014:09:40:57 ○ Pedido: wp-content/uploads/enlaces/cna.jpg HTTP/1.1 ○ Referente: http://www.utem.cl/ ○ Navegador: Mozilla/5.0 (X11; Linux x86_64)



El Cluster 9 tomó 670 datos que son el 2% de los datos totales. ○ IP: 190.46.242.158 ○ Fecha: 04/May/2014:07:56:11 ○ Pedido: wp-content/uploads/2014/03/01B1.jpg HTTP/1.1 ○ Referente: http://www.utem.cl/ ○ Navegador: Mozilla/5.0 (Windows NT 6.1; WOW64)

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 35

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

Como se puede observar en los cluster obtenidos, la IP que que mas se presenta en este WebLog es la “181.160.164.94” ya que se puede observar en 4 de los cluster obtenidos, presentandose en distintas horas. También se puede observar que las hora de mayor tráfico en la pagina comienzan desde las 10:00 a 12:00 horas en adelante. La página de referencia que prevalece es la de http://www.utem.cl/, esto quiere decir que la mayoria ingresa directamente a la pagina, y no a traves de otras paginas o enlaces. Y finalmente se puede observar que el navegador más utilizado es Mozilla y el sistema operativo es Windows.

5.1.3. Reglas de asociación Se observa en los resultados que al aplicar reglas de asociación a los datos trabajados, el algoritmo encontró 6 recomendaciones de información de la relación de todos los registros que ingresamos donde el conf representa el porcentaje de acierto. Mejores reglas encontradas: 1. Sistema Operativo=(Windows NT 6.1, WOW64) AppleWebKit/537.36 (KHTML- like Gecko) Chrome/34.0.1847.131 Safari/537.36 13593 ==> Navegador=Mozilla/5.0 13593 conf:(1) Indica que el sistema operativo Windows NT 6.1 utiliza el navegador Mozilla/5.0 en un 100% 2. Referente=http://www.utem.cl/ Sistema Operativo=(Windows NT 6.1, WOW64) AppleWebKit/537.36 (KHTML- like Gecko) Chrome/34.0.1847.131 Safari/537.36 13068 ==> Navegador=Mozilla/5.0 13068 conf:(1) Indica que los que tienen el sistema operativo Windows NT 6.1 y la pagina de referencia http://www.utem.cl/ utilizan el navegador Mozilla/5.0 en un 100% 3. IP=181.160.164.94 9845 ==> Referente=http://www.utem.cl/ 9845

conf:(1)

La IP 181.160.164.94 utiliza como referente la pagina http://www.utem.cl/ en un 100% 4. IP=181.160.164.94 9845 ==> Navegador=Mozilla/5.0 9845

conf:(1)

La IP 181.160.164.94 utiliza el navegador Mozilla/5.0 en un 100%

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 36

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

5. IP=181.160.164.94 Navegador=Mozilla/5.0 9845 ==> Referente=http://www.utem.cl/ 9845 conf:(1) La IP 181.160.164.94 con el navegador Mozilla/5.0 utilizan como referente a http://www.utem.cl/ con un 100 % 6. IP=181.160.164.94 Referente=http://www.utem.cl/ 9845 ==> Navegador=Mozilla/5.0 9845 conf:(1) La IP 181.160.164.94 con pagina referente http://www.utem.cl/ utilizan el navegador Mozilla/5.0 en un 100% 7. IP=181.160.164.94 9845 ==> Referente=http://www.utem.cl/ Navegador=Mozilla/5.0 9845 conf:(1) La IP 181.160.164.94 utiliza como referente http://www.utem.cl/ junto con el navegador Mozilla/5.0 en un 100% 8. Referente=http://www.utem.cl/ 22816 ==> Navegador=Mozilla/5.0 22720 conf:(1) Los referentes de http://www.utem.cl/ utilizan el navegador Mozilla/5.0 en un 100% 9. Sistema Operativo=(Windows NT 6.1, WOW64) AppleWebKit/537.36 (KHTML- like Gecko) Chrome/34.0.1847.131 Safari/537.36 13593 ==> Referente=http://www.utem.cl/ 13068 conf:(0.96) El sistema operativo Windows NT 6.1 utiliza como referente a http://www.utem.cl/ en un 96% 10. Navegador=Mozilla/5.0 Sistema Operativo=(Windows NT 6.1, WOW64) AppleWebKit/537.36 (KHTML- like Gecko) Chrome/34.0.1847.131 Safari/537.36 13593 ==> Referente=http://www.utem.cl/ 13068 conf:(0.96) El navegador Mozilla/5.0 junto con el sistema operativo Windows NT 6.1 utilizan como referente a http://www.utem.cl/ en un 96%

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 37

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

11. Sistema Operativo=(Windows NT 6.1, WOW64) AppleWebKit/537.36 (KHTML- like Gecko) Chrome/34.0.1847.131 Safari/537.36 13593 ==> Referente=http://www.utem.cl/ Navegador=Mozilla/5.0 13068 conf:(0.96) El sistema operativo Windows NT 6.1 utilizan como referente a http://www.utem.cl/ y el navegador Mozilla/5.0 en un 96% 12. Navegador=Mozilla/5.0 25322 ==> Referente=http://www.utem.cl/ 22720 conf:(0.9) El navegador Mozilla/5.0 utiliza como referente a http://www.utem.cl/ en un 90% 13. Referente=http://www.utem.cl/ Navegador=Mozilla/5.0 22720 ==> Sistema Operativo=(Windows NT 6.1, WOW64) AppleWebKit/537.36 (KHTML- like Gecko) Chrome/34.0.1847.131 Safari/537.36 13068 conf:(0.58) La pagina referente http://www.utem.cl/ con el navegador Mozilla/5.0 utilizan el sistema operativo Windows NT 6.1 en un 58% 14. Referente=http://www.utem.cl/ 22816 ==> Sistema Operativo=(Windows NT 6.1, WOW64) AppleWebKit/537.36 (KHTML- like Gecko) Chrome/34.0.1847.131 Safari/537.36 13068 conf:(0.57) Los referentes de http://www.utem.cl/ utilizan el sistema operativo Windows NT 6.1 con un 57% 15. Referente=http://www.utem.cl/ 22816 ==> Navegador=Mozilla/5.0 Sistema Operativo=(Windows NT 6.1, WOW64) AppleWebKit/537.36 (KHTML- like Gecko) Chrome/34.0.1847.131 Safari/537.36 13068 conf:(0.57) Los referentes de http://www.utem.cl/ utilizan el navegador Mozilla/5.0 y el sistema operativo Windows NT 6.1 con un 57%

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 38

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

5.2. Revisión del proceso Se considera que el proceso completo de minería de datos ha logrado responder en cierta manera a los objetivos propuestos en un principio, puesto que el modelo es capaz de entregar antecedentes los cuales ayudan a comprender la forma de navegación que se presenta en la página.

5.3. Determinar próximos pasos Como los resultados del modelo son satisfactorios, los próximos pasos se enfocan en su implementación.

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 39

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

6. Implementación 6.1. Planear la implementación El plan de implementación para el modelo consiste en poner a disposición de los usuarios una aplicación que, dado un conjunto de información mostrada a la comunidad a través del sitio web www.utem.cl representados mediante datos recopilados, realice un análisis minucioso sobre todos los recursos, restricciones, supuestos y otros factores que deben ser considerados en la determinación de las caracteristicas de navegación mas importantes de los usuarios, con el fin de definir si es necesario o no una re-estrucuración del sitio web. Además, la quinta parte de los visitantes provienen desde teléfonos inteligentes, lo que indica que muchos usuarios podrían requerir una versión del sitio adaptada a teléfonos móviles.

6.2. Plan de monitorización y mantención Para realizar un Monitoreo y mantención se utilizará la herramienta “Web Log Expert Lite”, la que se encarga del procesamiento de los datos y el descubrimiento de patrones, de esta forma se tendrá otra visión de los datos, la medición de estos y se podrá tener un análisis detallado de los requerimientos de cambios aprobados, incluyendo acciones correctivas y preventivas recomendadas y la reparación de defectos si hubiese que hacerlos.

Realizar un análisis, verificar el diseño, algunas pruebas, intervenir y mejorar para que entregue los resultados esperados de tal manera que sea mejorada la calidad de la información que es mostrada a la comunidad a través de sus sitio web (www.utem.cl).

Para reforzar este plan de monitorización y con el fin de mejorar continuamente la precisión del modelo, es necesario regenerar el modelo agregando nuevos datos concretos, cada vez que sea posible.

Para agregar nuevos datos al modelo, es necesario que éstos hayan pasado previamente por una etapa de preprocesamiento, de modo que los datos a añadir al modelo sean adecuados y útiles al proceso.

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 40

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

Conclusión Dentro del desarrollo del proyecto se logró ver la utilización de la minería de datos como una herramienta válida de extracción de información útil desde una gran cantidad de datos. Pero los datos a trabajar antes de ser procesados por un Data Mining deben pasar por distintas fases de integración y limpieza para concluir con un formato estándar con el cual se trabajara. Por lo mismo, una de las etapas más complejas del trabajo es la preparación de los datos ya que la unificación de estos hará que el procesamiento de los datos entregue información más exacta para el apoyo en conclusiones o determinar un buen diagnóstico de la situación.

También se logró obtener la capacidad de utilizar herramientas referidas a la minería de datos como metodologías de construcción de DM (CRIPS - DM) el cual otorgó los lineamientos generales con los cuales se desarrolló el proyecto (esto también era un requisito del problema a resolver). Otro tipo de herramienta que se estudió y utilizó fue el software WEKA, que esta orientado a este tipo de problemas. Y gracias a este, por sus características como una interfaz intuitiva y distintas funcionalidades como agrupamiento de datos a través de clustering, asociación y otros tipos de técnicas de inteligencia artificial, se obtuvo conocimiento de una nueva técnica de solución a este tipo de problema. También y no menos importante, referido a la información que otorgaron las distintas técnicas y herramienta que se ocuparon para la solución del problema del proyecto, se deduce que una gran cantidad de los usuarios que acceden al dominio (www.utem.cl) lo hacen a través de dispositivos móviles, dando a entender que se debe realizar la creación de una configuración para este tipo de dispositivos. Y otro de los datos relevantes que se logró obtener es que el navegador más utilizado por los usuarios es Google Chrome con un 35% de las preferencias aproximadamente, viendo una posibilidad de crear plantillas que le signifiquen a este navegador obtener un mayor rendimiento en temas de accesibilidad al dominio. Y por ultimo cabe recordar que los datos recolectados para el análisis no permiten descubrir patrones mucho más significativos en otros aspectos distintos de los mencionados con anterioridad, puesto que el intervalo de tiempo que se registra en el archivo de log corresponde solamente a 5 horas de actividad. Para obtener información más clara, es decir, descartar con mayor precisión las visitas automatizadas al sitio Web, reflejar hábitos de los visitantes dependientes del día de la semana y de los horarios del día, y obtener conclusiones más significativas acerca de los propósitos de los usuarios al navegar por el sitio Web, se requiere un archivo de log con registros que abarquen un rango de tiempo mayor, considerando como mínimo la actividad de una semana de lunes a domingo, o en un mejor caso, la actividad de un mes completo o un tiempo mayor.

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 41

ASIGNATURA PROFESOR

: Electivo KDD : Víctor Escobar Jeria

FACULTAD DE INGENIERIA DEPTO. DE INFORMATICA Y COMPUTACION _____________________________________________________________________________________________________________________________________________________________________________________________

Bibliografía Lopez CP. Mineria de Datos y Herramientas. 1st ed. Reguera AO, editor. España: Paraninfo S.A.; 2007.

http://churriwifi.wordpress.com/2010/02/26/teoria-de-data-mining/

http://cs.uns.edu.ar/~cic/dm2007/downloads/datasets/titanic.arff

http://grupofivasa.blogspot.com/2009/09/tareas-en-data-mining.html

http://es.slideshare.net/verito/ejercicio-en-weka

http://elvex.ugr.es/decsai/intelligent/workbook/D2%20Association.pdf

http://www.it.uc3m.es/jvillena/irc/practicas/06-07/28.pdf

http://users.dsic.upv.es/~cferri/weka/CursDoctorat-weka.pdf

Facultad de Ingeniería – Depto. Inf. y Comp. - Campus Macul. Av. José Pedro Alessandri 1242, Ñuñoa, Santiago

Página 42

Lihat lebih banyak...

Comentarios

Copyright © 2017 DATOSPDF Inc.