Está en la página 1de 7

Generacin e interpretacin de reglas del log de isrolab.

com
Andrs Moya
Ingeniera de sistemas

Andrs Echavarra
Ingeniera de sistemas

Said Hernndez
Ingeniera de sistemas
said_her@hotmail.com

andresfelipemoyarico@outlook.com andresechavarriamalagon@gmail.com Director: Msc. Javier Hernndez Cceres Ingeniera del conocimiento, Universidad del Magdalena, Colombia

1. RESUMEN:
En el presente trabajo, se realizaron reglas de asociacin con el fin de identificar hechos comunes dentro de la informacin contenida por el log permitiendo encontrar relaciones entre las variables, se gener un rbol de decisin que permite obtener resultados de acuerdo con las decisiones tomadas, adems se generaron reportes con los datos proporcionados por el log de registro del servidor tales como la IP, fecha de acceso y contenido accesado entre otros atributos. Como resultado se identificaron grupos por sus caractersticas de acceso al servidor as como informacin acerca de la IP que ms visitaron al servidor, palabras ms buscadas, desde que sistema operativo fue accesado entre otras caracterstica obtenidas por la tcnica de web Mining.

consultas, entre otros tipos de informacin, y que pueden tener distintos fines tales como la implantacin de determinada tecnologa, mejoras en el tratamiento de los usuarios o en la mayora de los casos, la caracterizacin de determinadas entidades (Usuarios) con el fin de poder determinar tendencias entre los clientes, determinar cules son los productos con mayor demanda o porque una compaa decide utilizar determinados servicios bancarios en vez de otros. Una especificacin de la minera de datos, es la tcnica conocida como minera web (Web Mining). Esta tcnica consiste en realizar minera de datos en servicios web que en la mayora de los casos tienen como objetivo la caracterizacin de las llamadas al servidor, esto con diversos fines entre los que se encuentran cules son los servicios ms solicitados de la pgina web, que secciones son ms visitadas, cuales son los productos ms solicitados todo esto con el fin de poder tomar una determinada decisin o identificar los clientes potenciales de determinado servicio. El presente trabajo est orientado hacia esta tcnica mediante el anlisis de un log de acceso de un servidor web. Para poder analizar el log de servidor, se utilizaran herramientas orientadas a este fin como el Analog y el Weka el primero a fin de analizar el log y generar reportes tales como dominios que ms visitan la pgina o las horas de mayor acceso y el segundo dirigido a la minera de datos y elaboracin de reglas de asociacin que nos permitan identificar el comportamiento de loas accesos. Finalmente se analizaran los resultados de los dos software con el fin de obtener conclusiones que permitieran, si fuera el caso, tomar o no decisiones que afecten el negocio.

2. ABSTRACT:
In this work, association rules were made in order to identify common events within the log information by allowing you to find relationships between variables, we generated a decision tree which delivers results in line with the decisions made, and reports generated with data provided by the server log such as IP, date accessed content and access among other attributes. As a result groups were identified by virtue of their access to the server and the IP information about the server most visited, most popular words, since the operating system was accessed from other property obtained by the technique of Web Mining.

3. PALABRAS CLAVE:
Minera de datos, Minera web, Analog, Weka, log de registro, rbol decisin, reglas de asociacin.

5. OBJETIVO GENERAL:
Analizar el log del servidor web del dominio isrolab.com para generar reportes estadsticos de los datos as como generar reglas de asociacin que permitan ver el comportamiento de las solicitudes al servidor.

4. INTRODUCCIN:
La minera de datos, es la actividad propia de la ingeniera de sistemas que se encarga de la extraccin de informacin donde al parecer y con anlisis superficiales esta no existe. Esta actividad reviste una gran importancia ya que permite a las compaas analizar sus almacenes de informacin, que en la mayora de los casos son bases de datos, con el fin de obtener datos valiosos acerca de diversos aspectos tales como el nmero de accesos a las BD, donde se producen mayor cantidad de consultas, quienes realizan estas

6. OBJETIVOS ESPECFICOS:
Llevar a cabo un procedimiento de limpieza en el log con el fin de eliminar informacin redundante. Analizar reportes generados con el software Analog. Generar reglas de asociacin.

Extraer patrones o reglas de comportamientos de usuarios o clientes. Analizar los resultados obtenidos, con el fin de generar nuevo conocimiento con respecto al log.

esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.

7.2 Web Mining:


Web Mining es una metodologa de recuperacin de la informacin que usa herramientas de la minera de datos para extraer informacin tanto del contenido de las pginas, de su estructura de relaciones (enlaces) y de los registro de navegacin de los usuarios.

7. MARCO TERICO: 7.1 Minera de datos:


Es un campo de las ciencias de la computacin referido al proceso que intenta descubrir patrones en grandes volmenes de conjuntos de datos. Utiliza los mtodos de la inteligencia artificial, aprendizaje automtico, estadstica y sistemas de bases de datos. El objetivo general del proceso de minera de datos consiste en extraer informacin de un conjunto de datos y transformarla en una estructura comprensible para su uso posterior. Adems de la etapa de anlisis en bruto, que involucra aspectos de bases de datos y gestin de datos, procesamiento de datos, el modelo y las consideraciones de inferencia, mtricas de Intereses, consideraciones de la Teora de la complejidad computacional, post-procesamiento de las estructuras descubiertas, la visualizacin y actualizacin en lnea. Un proceso tpico de minera de datos consta de los siguientes pasos generales:

7.3 Reglas de asociacin:


Las reglas de asociacin se utilizan para descubrir hechos que ocurren en comn dentro de un determinado conjunto de datos. Esta informacin se puede utilizar como base para tomar decisiones adems hoy en da, las reglas de asociacin tambin son de aplicacin en otras muchas reas como el Web Mining, la deteccin de intrusos o la bioinformtica. La idea de utilizar reglas de asociacin para aplicar a conjuntos de elementos en grandes bases de datos fue de Rakesh Agrawal, Tomasz Imielinski y Arun Swami del Centro de investigacin Almaden de IBM en California. El artculo en el que se trat este tema por primera vez tena el nombre de "Mining Association Rules between Sets of Items in Large Databases" (18) . Segn este artculo, las reglas de asociacin se definen de la siguiente manera: sea I = I1, I2,..., Im un conjunto de atributos binarios llamados elementos. Sea T una base de datos de transacciones. Cada transaccin t est representada como un vector binario, con t[k]=1 si t compr el elemento Ik, t[k] = 0 en otro caso. Existe una tupla en la base de datos por cada transaccin. Sea X un conjunto de algunos elementos de I. Decimos que una transaccin t satisface X si para todos los elementos Ik de X, t[k] = 1.

7.1.1

Seleccin del conjunto de datos, tanto en lo que se refiere a las variables objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables independientes (las que sirven para hacer el clculo o proceso), como posiblemente al muestreo de los registros disponibles. Anlisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersin, presencia de valores atpicos y ausencia de datos (valores nulos).

7.1.2

7.1.3 Transformacin del conjunto de datos de entrada, se realizar de diversas formas en funcin del anlisis
previo, con el objetivo de prepararlo para aplicar la tcnica de minera de datos que mejor se adapte a los datos y al problema, a este paso tambin se le conoce como pre procesamiento de los datos.

7.4 Analog:
Analog es un software libre multiplataforma, proporciona la capacidad de hacer bsquedas inversas de DNS en los archivos de registro, para indicar de qu sitio web proceden los xitos. Es capaz de analizar diferentes tipos de registros del servidor web, como Apache, IIS, e iPlanet. Cuenta con ms de 200 opciones de configuracin y puede generar 32 reportes. Tambin es compatible con los archivos de registro de mltiples hosts virtuales. Hoy da se encuentra en la versin 6 y en este proyecto es utilizado con el fin de generar reportes relacionados con la informacin proporcionada por el log del servidor.

7.1.4 Seleccionar y aplicar la tcnica de minera de datos, se construye el modelo predictivo, de clasificacin o
segmentacin.

7.1.5

Extraccin de conocimiento, mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente cada tcnica obliga a un pre procesado diferente de los datos. Interpretacin y evaluacin de datos, una vez obtenido el modelo, se debe proceder a su validacin comprobando que las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados

7.5 Log de acceso del servidor:


En un servidor web, un log de accesos es un archivo o grupo de archivos que contiene una lista de cada archivo que fue accedido en el servidor. Es un tipo de log de servidor. En general, se almacena la direccin IP, la fecha y hora de acceso, el archivo accedido, el navegador o agente usado, el sistema operativo y versin, la URL de referencia, bytes servidos, etc. Existen mltiples formas en que se puede almacenar esta informacin, y depende del software que se utilice para correr el servidor. Entre estas formas, la ms popular es el formato estndar recomendado por la W3C. El log de accesos puede servir, entre otras cosas, para crear las estadsticas de acceso a un sitio web. El anlisis del log de accesos puede servir para determinar, por ejemplo, cundo un servidor web se sobrecarga.

7.1.6

7.6 Weka:
Sigla que significa (Waikato Environment for Knowledge Analysis), es una plataforma de software para aprendizaje automtico y minera de datos escrito en Java y desarrollado en la Universidad de Waikato. Weka es un software libre distribuido bajo licencia GNU-GPL. Este software contiene una coleccin de herramientas de visualizacin y algoritmos para anlisis de datos y modelado predictivo, unidos a una interfaz grfica de usuario para acceder fcilmente a sus funcionalidades. La versin original de Weka fue un front-end en TCL/TK para modelar algoritmos implementados en otros lenguajes de programacin, ms unas utilidades para pre procesamiento de datos desarrolladas en C para hacer experimentos de aprendizaje automtico. Esta versin original se dise inicialmente como herramienta para analizar datos procedentes del dominio de la agricultura, pero la versin ms reciente basada en Java (WEKA 3), que empez a desarrollarse en 1997.

Como se observa en la imagen se produjeron solicitudes al servidor en todos los das de la semana se produjeron accesos al servidor principalmente los das mircoles y viernes.

8.1.3 Resumen de horario:


Este reporte generado con Analog muestra la actividad total por cada hora de la semana sumando todos los das proporcionados por el log de acceso. En la grfica se observan estos resultados:

8. ANLISIS DE DATOS 8.1 Analog:


Resultados obtenidos por medio del software Analog que como ya dijimos, se encarga de analizar el log de registro del servidor web y nos genera una serie de informes acerca de diferentes aspectos que nos interesan como son los siguientes:

8.1.1 Informe mensual:


El log de acceso que utilizamos en esta investigacin, contiene la informacin acerca de los accesos o peticiones que tuvo el servidor durante un mes, ms especficamente durante el mes de junio del 2012: Tabla 3: Horario de acceso Como se puede ver en la tabla 2 durante todo el mes de junio del 2012 se produjeron accesos las 24 horas del da, as por ejemplo en la primera hora del da se produjeron al mes 67 solicitudes al servidor, en la segunda hora 21 solicitudes y as sucesivamente. Esto nos permite identificar en que horas se producen ms accesos a la pgina.

8.1.4 Informe de organizacin:


Tabla 1: Informe mensual Como se puede observar en la tabla 1 en el mes de junio del 2012 se produjeron solicitudes al servidor de las cuales 694 fueron solicitudes de pginas. Este informe, nos muestras las distintas organizaciones que accesaron al servidor identificadas por su direccin IP mostrndonos cuales compaas tuvieron un mayor acceso al servidor o hicieron un mayor nmero de solicitudes de archivos a la pgina en cuestin. En la grfica 1 se obtienen los siguientes resultados:

8.1.2 Resumen diario:


El resumen diario proporcionado por Analog, muestra la actividad total por cada da de la semana realizando la sumatorio de todas las semanas del log del servidor. De manera tabular, se tienen los siguientes resultados:

Tabla 2: Accesos diarios mensuales

Grafico 1: Peticiones al servidor

De acuerdo con la grfica 1 la empresa o compaa identificada con 220.181 y la 123 hicieron fueron las que hicieron la mayora de las peticiones al servidor web. El nmero de peticiones que hizo cada compaa durante el mes de junio al servidor se encuentra en la siguiente tabla:

En la siguiente tabla se muestran estas palabras ordenadas por el nmero de peticiones hechas el servidor:

Tabla 4: Peticiones de organizaciones En la tabla 4 se muestran el nmero de peticiones que las distintas empresas realizan al servidor desde mayor a menor nmero de accesos. Un caso especial de la tabla es que Analog muestra 62 organizaciones no listadas, esto quiere decir que el nmero de peticiones no es comparable con las otras compaas debido a que su acceso al servidor fue muy bajo.

Tabla 5: Palabras ms buscadas Esto quiere decir que las palabras que ms se utilizaron en los buscadores permitiendo encontrar el sitio web fueron conseguir, /, 404, http con 5, 3, 3, y 2 respectivamente. Esta informacin es valiosa ya que podemos determinar como buscan las organizaciones o empresas va web la pgina del log analizado. Esto permite que la empresa a la que pertenece el log modifique la presentacin de la pgina web en caso de que las palabras encontradas no sean las esperadas por la empresa.

8.1.5 Informe de palabras buscadas:


Este informe muestra cuales fueron las palabras buscadas en los buscadores web que permitieron encontrar el sitio. Grficamente se muestran a continuacin:

8.1.6 Informe de sistemas operativos


En este informe generado por Analog, se muestran los sistemas operativos que fueron utilizados durante el acceso a la pgina web y por ende solicitudes al servidor. Estos sistemas son el siguiente:

Grafico 2: Palabras ms buscadas

Grafico 3: Accesos de sistemas operativos

Como se observa en la grfica 3 la mayor parte est ocupada por robots conocidos los cuales son usados por los servicios de bsqueda par indexar el contenido del sitio. Sistemas operativos desconocidos ocupan otra gran parte acompaados por sistemas como Windows, Mac y otros. Estos resultados son confirmados ms especficamente por la siguiente tabla:

8.1.8 Informe de directorios:


El siguiente reporte nos muestra cuales fueron los directorios desde los que se solicitaron archivos tal como se muestra a continuacin:

Grfico 5: Directorios del servidor Tabla 6: Sistemas operativos El servidor de la empresa a la cual se le realizo este anlisis, contaba con el directorio en el que se encontraba el log de registro y el directorio raz del propio servidor de donde fue descargada la informacin en casa acceso al servidor.

8.1.7 Informe de tamao de archivo:


Este informe genera el nmero de peticiones que solicitaron un determinado tamao de archivos del servidor:

8.1.9 Informe de archivos del sitio web:


Este informe generado por Analog muestra los archivos con los que cuenta el servidor de la empresa a la que se le hace el anlisis. En la tabla se muestran estos archivos:

Grafico 4: Tamao de las solicitudes externas El anlisis de este grfico 4, permite visualizar que la mayora de las peticiones al servidor tuvieron como resultado archivos de tamao entre los 101 bytes y 1 kilobyte. De manera tabular se tiene los siguientes resultados: Tabla 8: Archivos del servidor

8.2 Weka:
La segunda parte del proyecto, consiste en analizar los datos del log del servidor con el software Weka. Para utilizar este software, se hace necesario hacer un tratamiento o pre-procesamiento al log del servidor con objetivo de eliminar informacin redundante de los datos, cdigos de error como el 404 de pgina no encontrada y las extensiones de imgenes que no representan datos o informacin significativa, y solo se deja informacin relativa a las pginas visitadas. El pre-procesamiento del servidor, consiste en hacer una limpieza del log (ver imagen 1 y 2) la cual se realiza con ayuda del software Excel que permite tabular los datos de forma que estos sean ms fciles de

Tabla 7: Tamao de la solicitud

manejar a la hora de codificar el archivo .arff (ver imagen 3) extensin manejada por Weka. Algunos atributos tabulados fueron la direccin IP, la fecha de solicitud, el directorio accesado, al archivo solicitado entre otros datos.

Luego de realizada la codificacin del archivo, abrimos este en el software Weka con lo cual se tiene los siguientes datos:

Grafico 6: Distribucin de las direcciones IP

Imagen 1: Log sin pre-procesamiento

Grafico 7: Distribucin de las fechas de acceso

Grafico 8: Distribucin de las horas de acceso Imagen 2: Log con pre-procesamiento Para la codificacin del archivo arff de Weka, solo se tomaron atributos relevantes para generar las reglas de asociacin como la IP, la fecha, la hora y la URL.

Grafico 9: Distribucin de las URL En las grficas 6 a 9 se puede observar cmo se distribuyen los atributos codificados en el archivo arff de Weka que han sido obtenidos del log luego del pre-procesamiento. Finalmente, por medio de este software generamos las reglas de asociacin. Para realizar este ltimo paso, configuramos el software para genere las reglas por medio del algoritmo predictivo a priori y restringimos el nmero de reglas a 10 con objetivo de ser analizadas. De esta manera en la imagen 4 podemos observar la salida de este software:

Imagen 3: Archivo arff de Weka codificado

3.

Imagen 4: Informacin de la ejecucin del archivo

Imagen 5: Reglas de asociacin generadas por Weka Estas 10 reglas generadas por medio de la codificacin y tratamiento de los datos del log del servidor, permiten identificar hechos comunes de esta informacin. De acuerdo con esto, los dueos del dominio ISROLAB.COM podrn tomar decisiones con el fin de mejorar los servicios que presten o tomar cualquier accin referente a la compaa. Las reglas tabuladas son las siguientes:

La interpretacin de la tercera regla, es que la IP 95.108.151.244 realizo 30 consultas en la URL: yandex.com/bots con una confianza del 100%. 4. La interpretacin de la cuarta regla, es que la IP 220.181.108 realizo 30 consultas en la URL: baidu.com/search/spider.html con una confianza del 100%. 5. La interpretacin de la quinta regla, es que la IP 123.125.71 30 realizo 30 consultas en la URL: baidu.com/search/spider.html con una confianza del 100%. 6. La interpretacin de la sexta regla, es que la IP 95.108.151.244 a las 12 am realizo 30 consultas el 22 de junio del 2012 con una confianza del 100%. 7. La interpretacin de la sptima regla, es que la IP 95.108.151.244 el 22 de junio del 2012 realizo 30 consultas a las 12 am con una confianza del 100%. 8. La interpretacin de la octava regla, es que la IP 95.108.151.244 realizo 30 consultas el 22 de junio del 2012 a las 12 am con una confianza del 100%. 9. La direccin 95.108.151.244 realizo 30 consultas a la URL: yandex.com/bots en la fecha 22 de junio del 2012 con una confianza del 100%. 10. La direccin IP 95.108.151.244 el 22 de junio del 2012 realizo 30 consultas en la URL: yandex.com/bots con una confianza del 100%

9. CONCLUSIONES:
Despus de haber realizado esta experiencia, podemos concluir luego del anlisis de los reportes estadsticos del software ANALOG y de utilizar el algoritmo apriori provisto por el software WEKA, que las reglas de asociacin proporcionadas por este software proporcionan valiosa informacin a la hora de identificar comportamientos en los accesos que se realizan al servidor de la compaa ISROLAB reglas que cuentan con una confianza del 100%. Adems de la generacin de reportes estadsticos que permiten analizar las tendencias de accesos al servidor con la fechas de ingreso, palabras ms buscadas, directorios, teniendo todo esto como fin mostrar cuales fueron las direcciones IP que ms realizaron solicitudes al servidor, para que la empresa les ofrezca un mejor servicio.

Regla ip=95.108.151.244 30 ==> fecha=22 30 ip=95.108.151.244 30 ==> hora=0 30 ip=95.108.151.244 30 ==> url=yandex.com/bots 30 ip=220.181.108 30 ==> url=baidu.com/search/spider.html 30 ip=123.125.71 30 ==> url=baidu.com/search/spider.html 30 ip=95.108.151.244 hora=0 30 ==> fecha=22 30 ip=95.108.151.244 fecha=22 30 ==> hora=0 30 ip=95.108.151.244 30 ==> fecha=22 hora=0 30 ip=95.108.151.244 url=yandex.com/bots 30 ==> fecha=22 30 ip=95.108.151.244 fecha=22 30 ==> url=yandex.com/bots 30 Tabla 9: Regla de asociacin Las reglas mencionadas son interpretadas de la siguiente manera: 1. La interpretacin de la primera regla, es que la IP 95.108.151.244 acceso 30 veces el 22 de Junio del 2012 con una confianza del 100%. La interpretacin de la segunda regla, es que la IP 95.108.151.244 acceso 30 veses a las 12 am con una confianza del 100%.

10. BIBLIOGRAFIA:
Presser Carne, Cynthia. Data Mining. El Cid Editor | apuntes. 2009. Palma, Claudio Palma. Wilfredo Prez, Ricardo. Data Mining: el arte de anticipar RIL editores Chile. 2009. eISBN: 9781449284459 Documentacin WEKA. http://www.cs.waikato.ac.nz/ml/weka/documentation.htm Documentacin ANALOG http://www.analog.cx/docs/Readme.html

2.

También podría gustarte