Está en la página 1de 16

Web Mining: Estado Actual de Investigacin

Autor Lic. Gustavo D. Koblinc e-mail: gk7c@dc.uba.ar En este trabajo, me propongo analizar la actualidad sobre Web Mining, o sea la aplicacin de las tcnicas de Data Mining sobre los datos contenidos en la World Wide Web. De esta definicin se deriva que Web Mining es simplemente aprovechar las tcnicas de Data Mining para obtener conocimiento de la informacin disponible en Internet. Las motivaciones que despertaron la investigacin en este campo es el gran volumen de datos con el que se cuenta, las posibilidades de negocios, la actual dificultad en acceder a la informacin precisa ya que esta se encuentra dispersa y desordenada, y la necesidad de mejorar la performance de los servicios brindados por la red. En algunos casos se deben adaptar las tcnicas conocidas de Data Mining para utilizarlas en este entorno, aunque en otros deben adaptarse los datos para que puedan ser utilizados. Pueden observarse dos enfoques bien diferenciados sobre los diferentes desarrollos e investigaciones realizadas: el primer enfoque apunta a realizar mining en el lado del servidor, especficamente sobre los datos que son depositados por los Web Servers; el segundo enfoque est ms orientado a los clientes y esta basado en agentes que buscan datos sobre toda la Web y luego aplican las tcnicas de mining sobre estos. El primero de estos enfoques aplica mining sobre los datos que dejan, en distintos tipos de logs, los Servidores de Web. Analizar esta informacin puede ayudar principalmente a empresas que basan su negocio en Internet determinando los tipos de clientes que ingresan, disear estrategias de marketing sobre productos y servicios, evaluar la efectividad de las campaas promocionales, mejorar tiempos de acceso y buscar la mejor estructura para el site. El segundo se basa en aplicar mining sobre documentos obtenidos de la red. Esto permite mejorar la bsqueda de informacin, generar perfiles de usuarios adecuados a sus necesidades y organizar bookmarks entre otras cosas. Cada uno de estos enfoques presenta ventajas y desventajas que luego sern analizadas.

4.1- Web Mining en Servidores de Web Actualmente los servidores de Web generan un gran volumen de datos proveniente del registro de las acciones que estos realizan. Cada requerimiento de los clientes (browsers, agentes, etc.) queda registrado en los logs que se generan constantemente. Este gran volumen de datos contiene valiosa informacin que no es visible de forma evidente, y que hasta hace poco era utilizada mnimamente para obtener algn tipo de estadsticas, analizar accesos invlidos o problemas que se produjeran en el servidor. Existen numerosas herramientas que generan reportes estadsticos y grficos sobre el uso del servidor, de las cuales podemos destacar algunos productos conocidos como Webtrends, Getstats, Analog, Microsoft Inters Market Focus, etc. Ninguna de estas herramientas realiza data mining de los datos. No se aplica ni clustering, ni association rules, an menos sequential patterns. Con una herramienta de data mining se podra descubrir, por ejemplo, que en general los clientes que realizan compras on-line en el servidor haban consultado ciertas pginas los das anteriores. Con una herramienta estadstica se podran obtener por ejemplo totales por dominio, cantidad de requerimientos por recurso, etc. En este momento, debido a la gran cantidad de negocios que se manejan por Internet, la gran competencia y la creciente necesidad de mejorar los servicios, el anlisis de los datos que se obtienen para convertirlos en informacin til se torna imprescindible para poder sobrevivir en este ambiente competitivo. Es necesario conocer el comportamiento de los usuarios (potenciales clientes) y brindarles un acceso ms fcil y un mejor servicio as como tambin saber hacia quien orientar las campaas promocionales. Adems aprovechar esta informacin puede ser muy til para mejorar la performance de los servidores. Actualmente, hay varias herramientas desarrolladas que aplican mining en el servidor, tanto a nivel comercial como acadmico. Del anlisis de las mismas, se observa que en general todas aplican el proceso de KDD sobre el log del servidor aunque lo hacen con algunas diferencias. Los datos almacenados en los logs siguen un formato standard diseado por CERN y NCSA [Luotonen, 1995]. Una entrada en el log siguiendo este formato contiene entre otras cosas, lo siguiente: direccin IP del cliente, identificacin del usuario, fecha y hora de acceso, requerimiento, URL de la pgina accedida, el protocolo utilizado para la transmisin de los datos, un cdigo de error, agente que realiz el requerimiento, y el nmero de bytes transmitidos. Esto es almacenado en un archivo de texto separando cada campo por comas (,) y cada acceso es un rengln distinto.

peo-il1-21.ix.netcom.com - - [24/Feb/1997:00:00:21 +0000] "GET /images/nudge.gif HTTP/1.0" 200 37 "http://www.internet.ibm.com/" "Mozilla/2.0 (compatible; MSIE 3.01; Windows NT)" slip166-72-149-200.wv.us.ibm.net - - [24/Feb/1997:00:00:21 +0000] "GET / HTTP/1.0" 200 9185 "http://www.ibm.com/Products/" "Mozilla/2.0 (Win95; I)" ss5-08.inre.asu.edu - - [24/Feb/1997:00:00:21 +0000] "GET /commercepoint/html3/purchasing/3_a.html HTTP/1.0" 200 6277 "http://www.internet.ibm.com/commercepoint/html3/purchasing/3.html" "Mozilla/3.0 (Win95; I)" peo-il1-21.ix.netcom.com -- [24/Feb/1997:00:00:24 +0000] "GET /images/isbutton.gif HTTP/1.0" 200 1333 "http://www.internet.ibm.com/" "Mozilla/2.0 (compatible; MSIE 3.01; Windows NT)" ss5-08.inre.asu.edu - - [24/Feb/1997:00:00:25 +0000] "GET /commercepoint/html3/purchasing/images/fea_a.gif HTTP/1.0" 200 1338 "http://www.internet.ibm.com/commercepoint/html3/purchasing/3_a.html" "Mozilla/3.0 (Win95; I)"

Ejemplo de entradas del log de NCSA HTTPd Estos datos contenidos en los logs son insuficientes para analizarlos directamente. Sin embargo utilizando una buena tcnica de data mining se puede obtener informacin interesante. Como fue mencionado anteriormente, se genera una entrada en el log por cada requerimiento de un recurso realizado por un usuario. Aunque esto puede reflejar la actividad del servidor no refleja el verdadero comportamiento de los clientes, debido a que las vueltas atrs y a que los requerimientos que se encuentran cacheados por el browser del cliente o por un proxy no son registrados en el server. Tampoco son registradas las funciones que el usuario realiza dentro de una pgina como por ejemplo el scroll-up y scroll-down. Este dficit en la informacin puede generar conclusiones errneas al estudiar la mejor estructura para un site. Por ello dicha informacin debera ser registrada en logs generados por los browsers o por una applet Java. A este dficit de informacin se suma que el identificador de usuario no siempre est disponible en el log. Debido al uso de proxy servers por parte de los proveedores del servicio de Internet y de firewalls por parte de las corporaciones comerciales, la verdadera direccin IP del cliente no se encuentra disponible para

el servidor de web. En vez de tener varias direcciones IP distintas para varios clientes distintos, la misma direccin del proxy server o firewall es guardada en el log representando los requerimientos de diferentes usuarios que llegan al servidor desde el mismo proxy server o firewall. Esto genera cierta ambigedad en los datos del log. Para solucionar este problema, generalmente se requiere que los usuarios completen un formulario de registracin, se implementa algn tipo de log-in o se utilizan cookies entre el servidor y el browser del cliente. De esta manera, el servidor puede identificar distintos requerimientos realizados por los usuarios, pero se viola la privacidad de los mismos ya que gereralmente ellos desean permanecer annimos lo ms que se pueda. Por este motivo, los servidores no solicitan registraciones ni utilizan cookies; por lo tanto el anlisis para identificar el comportamiento de los usuarios debe basarse slo en las entradas del log. 4.1.1- El Proceso de Knowledge Discovery Antes de aplicar cualquier tcnica de data mining es necesario realizar una transformacin de los datos para que stos puedan ser operados eficientemente. A este proceso se lo conoce como el proceso de Knowledge Discovery. En el marco de dicho proceso se filtrarn datos que no interesan y en general se transformar el log en una estructura ms manipulable (por ejemplo una base de datos relacional). Es necesario el conocimiento de la estructura del Web server para poder determinar a partir de los accesos cual es la accin que quiere realizar el usuario. Se han encontrado diferentes enfoques de cmo realizar este proceso que abarcan desde el filtrado o no de pedidos de recursos multimedia, la conversin de un conjunto de requerimientos en la supuesta accin requerida por el usuario llegando hasta la creacin de un cubo n-dimensional. Para poder aplicar las tcnicas de data mining sobre los datos del log del servidor es necesario, adems de aplicar las transformaciones en los datos tpicas del proceso de KDD, realizar una adaptacin en la definicin de las transacciones y los tems que las componen para los distintos algoritmos. Esto se debe a que en este caso no se tiene la nocin de transaccin como en una base de datos transaccional en donde existe un identificador de transaccin. Aqu para poder delimitar una transaccin se debe utilizar por ejemplo una combinacin entre el identificador del usuario que interactua con el servidor y un perodo mximo de tiempo aceptado entre accesos. Por ejemplo si un usuario accede a una pgina del servidor a las 9:00 hs, y hasta las 9:15 hs navega dentro del site; y luego vuelve a acceder por la tarde, esto es considerado como dos transacciones distintas. Cada herramienta utiliza su propios modelos de transaccin y de tems, aunque en general estos modelos son similares entre s.

4.1.2- Tcnicas de Data Mining En el Web Mining en los servidores de Web es posible aplicar cualquiera de las tcnicas de data mining conocidas, por ejemplo Association Rules, Sequential Patterns, Clasificacin o Clustering; cada una de las cuales sern analizadas a continuacin. 4.1.2.1- Association Rules El descubrimiento de association rules es generalmente aplicado a Bases de Datos transaccionales, donde cada transaccin consiste en un conjunto de tems. En este modelo, el problema consiste en descubrir todas las asociaciones y correlaciones de tems de datos donde la presencia de un conjunto de tems en una transaccin implica (con un grado de confianza) la presencia de otros tems. En el contexto de Web Mining este problema tiende a descubrir la correlacin entre los accesos de los clientes a varios archivos disponibles en el servidor. Cada transaccin est compuesta por un conjunto de URL accedidas por el cliente en una visita al servidor. Utilizando association rules, se puede descubrir, por ejemplo, lo siguiente: 60% de los clientes que acceden a la pgina con URL /company/products/, tambin acceden a la pgina /company/products/product1.html. Esta tcnica, adems, considera el soporte para las reglas encontradas. El soporte es una medida basada en el nmero de ocurrencias de los tems dentro del log de transacciones. En Web Mining existen otros factores que pueden ayudar a podar el espacio de bsqueda de las reglas. En general, los sites estn organizados jerrquicamente y la estructura de esta jerarqua es conocida con anticipacin. Por ejemplo, si el soporte de /company/products/ es bajo, se puede inferir que la bsqueda de association rules en las pginas /company/products/product1.html y /company/products/product2.html no van a tener el soporte necesario. El descubrimiento de estas reglas en el mbito del comercio electrnico pueden ayudar en el desarrollo de las estrategias de marketing. Adems las association rules pueden ayudar a mejorar la organizacin de la estructura del site. Por ejemplo, si descubrimos que el 80% de los clientes que acceden a /company/products y /company/products/file1.html tambin acceden a /company/products/file2.html, parece indicar que alguna informacin de file1.html lleva a los clientes a acceder a file2.html. Esta correlacin podra sugerir que sta

informacin debera ser movida a /company/products para aumentar el acceso a file2.html. 4.1.2.2- Sequential Patterns En general en las Bases de Datos transaccionales se tienen disponibles los datos en un perodo de tiempo y se cuenta con la fecha en que se realiz la transaccin; la tcnica de sequential patterns se basa en descubrir patrones en los cuales la presencia de un conjunto de tems es seguido por otro tem en orden temporal. En el log de transacciones de los servidores de Web, se guarda la fecha y hora en la que un determinado usuario realiz los requerimientos. Analizando estos datos, se puede determinar el comportamiento de los usuarios con respecto al tiempo. Con esto, se puede determinar por ejemplo: 60% de los clientes que emitieron una orden on-line en /company/products/product1.html, tambin emitieron una orden on-line en /company/products/product4.html dentro de los siguientes 15 das. El descubrimiento de sequential patterns en el log puede ser utilizado para predecir las futuras visitas y as poder organizar mejor los accesos y publicidades para determinados perodos. Por ejemplo, utilizando est tcnica se podra descubrir que los das laborables entre las 9 y las 12 horas muchas de las personas que accedieron al servidor lo hicieron para ver las ofertas y en los siguientes das la mayora compr productos. Entonces por la maana debera facilitarse el acceso a las ofertas y brindar la publicidad ms llamativa posible. Tambin puede ser utilizado para descubrir tendencias, comportamiento de usuarios, secuencias de eventos, etc. Esta informacin puede ser aprovechada tanto en el aspecto comercial (pensar una campaa de marketing) como en el aspecto tcnico (mejorar los tiempos de acceso). En general todas las herramientas que realizan mining sobre el log enfocan el anlisis sobre secuencias de tiempo ya que los eventos que son almacenados estn muy relacionados con el tiempo en que se producen. 4.1.2.3- Clasificacin y Clustering Las tcnicas de clasificacin permiten desarrollar un perfil para los tems pertenecientes a un grupo particular de acuerdo con sus atributos comunes. Este perfil luego puede ser utilizado para clasificar nuevos tems que se agreguen en la base de datos.

En el contexto de Web Mining, las tcnicas de clasificacin permiten desarrollar un perfil para clientes que acceden a pginas o archivos particulares, basado en informacin demogrfica disponible de los mismos. Esta informacin puede ser obtenida analizando los requerimientos de los clientes y la informacin transmitida de los browsers incluyendo el URL. Utilizando tcnicas de clasificacin, se puede obtener, por ejemplo, lo siguiente: Clientes que frecuentemente emiten una orden on-line /company/products/product3.html tienden a ser de instituciones educativas. en

50% de los clientes que emiten una orden on-line en /company/products/product2.html, estn entre 20 y 25 aos y viven en la costa oeste. La informacin acerca de los clientes puede ser obtenida del browser del cliente automticamente por el servidor; esto incluye los accesos histricos a pginas, el archivo de cookies, etc. Otra manera de obtener informacin es por medio de las registraciones y los formularios on-line. La agrupacin automtica de clientes o datos con caractersticas similares sin tener una clasificacin predefinida es llamada clustering. La utilizacin de la tcnica de clustering sobre el log del Web Server, puede ser utilizado para estrategias de marketing dirigido segn las clases obtenidas. Por ejemplo si se reconoce un grupo de potenciales clientes se les podra enviar las ofertas por correo slo a ellos. 4.1.3- Beneficios y Problemas En general aplicar tcnicas de data mining sobre el log de los servidores puede brindar las siguientes ventajas: Mejorar la performance del servidor Mejorar la navegabilidad del site Mejorar el diseo de las aplicaciones del Web Descubrir potenciales clientes de comercio electrnico Identificar lugares y horarios principales para colocar publicidades

Actualmente existen varios problemas que afectan a la exactitud de los resultados obtenidos al realizar el anlisis. Entre ellos podemos destacar: Imposibilidad de registrar los accesos a pginas cacheadas o descubrir fehacientemente el uso del backtracking u otras funcionen del browser Dificultades en delimitar transacciones o sesiones del usuario

Datos ambiguos en el log debido a cambios de identidad realizados por proxys y firewalls Estructura de los logs no adecuada para aplicar las tcnicas de data mining Como se puede ver, actualmente los logs no almacenan toda la informacin necesaria para hacer un buen anlisis. Debido a que hace poco se comenz con la aplicacin de estas tcnicas de data mining, logrando importantes avances, es de esperar que muy pronto se produzcan mejoras como la mayor cooperacin entre browsers y servidores y posiblemente la adecuacin de la estructura de los logs para que stos puedan ser analizados ms eficientemente. Quizs, en el futuro, se puede lograr la aplicacin de data mining on-line para adaptar rpidamente la estructura y la imagen de los servidores de acuerdo a las necesidades del momento. Mientras tanto se debe encontrar la mejor manera de aprovechar los datos insuficientes y ambiguos con que se cuenta. Para ello es muy importante realizar un buen proceso de KDD aprovechando el conocimiento que se tenga sobre el dominio de la aplicacin. 4.2- Web Mining en Clientes de Web El World Wide Web es un gran repositorio de informacin que crece constantemente. Existen y son muy conocidas las poderosas herramientas de bsqueda que tratan de buscar por categora o por contenido, tales como Altavista, Yahoo, etc. Basndose en largos ndices de documentos que estn localizados en la Web, los buscadores determinan las URLs tratando de satisfacer los requerimientos del usuario. Muchas veces estas consultas traen resultados inconsistentes y documentos que cumplen con el criterio de bsqueda pero no con el inters del usuario. 4.2.1- Agentes Inteligentes Ultimamente fueron desarrollados agentes inteligentes (basados en inteligencia artificial) que tratan de extraer las caractersticas semnticas de las palabras o la estructura de los documentos HTML. Estas caractersticas son luego utilizadas para clasificar y categorizar los documentos. El uso del clustering ofrece la ventaja de que no se necesita conocimiento de las categoras, por eso el proceso de categorizacin no es supervisado. Los resultados del clustering pueden ser utilizados para formular consultas automticamente y buscar documentos similares u organizar bookmarks o construir un perfil de usuario.

En general estos agentes de Web Mining pueden ubicarse en las siguientes categoras: Agentes de Bsqueda Inteligentes: Buscan informacin relevante utilizando las caractersticas de un dominio (y quizs un perfil de usuario) en particular para organizar e interpretar la informacin descubierta. Por ejemplo FAQ-Finder ([Hammond, 1995]). Filtradores y Categorizadores de Informacin: Utilizan tcnicas de recuperacin de informacin y caractersticas de los documentos de hipertexto para recuperar, filtrar y categorizar los mismos. Por ejemplo HyPursuit que utiliza informacin semntica que se encuentra en la estructura de los links y el contenido de los documentos para crear una jerarqua de clusters de los hipertextos. Algunos otros hacen clustering de palabras usando, por ejemplo, el algoritmo K-means. Agentes de Web Personalizados: Obtienen o aprenden las preferencias del usuario y descubren fuentes de informacin en la Web que se correspondan con las mismas o posiblemente con preferencias de otros usuarios con intereses similares. Por ejemplo WebWatcher. 4.2.2- Diferencias entre un Documento Web y un Hipertexto Clsico La mayora de las herramientas de bsqueda en la Web se basan solamente en la informacin textual de los documentos ignorando la informacin implcita que contienen los links o los analizan sin tomar en cuenta de que tipo de link se refiere, tratando al documento como un documento de hipertexto tpico. Para aclarar las deficiencias de este enfoque analizaremos las diferencias exitentes entre un documento de Web y un documento hipertexto clsico ([Spertus, 1997]). Links entre Documentos y Sites: Los hipertextos clsicos contienen links pero stos son diferentes de los encontrados en la Web, ya que los primeros apuntan a referencias dentro del mismo documento y nunca refieren a documentos situados en otros sites. En la Web existen links que pueden referir al mismo documento, otros que lo pueden hacer a un documento en el mismo site y otros que pueden hacerlo a documentos en otros sites. Es necesario analizar estos links para determinar a que tipo pertenecen. Informacin Repetida o Falta de Informacin: El Web es por un lado redundante y por el otro incompleto. Un hipertexto clsico suele ser completo y no redundante. La redundancia en la Web puede ser una ventaja si es utilizada convenientemente. En cambio la ausencia de un link entre dos pginas no implica que estas no estn relacionadas, algo que suele inferirse naturalmente en un hipertexto comn.

Cambio Constante: A diferencia del hipertexto clsico, la Web est en constante cambio creando el problema de poder encontrar informacin que no se encuentra todava indexada. Es claro que para poder obtener informacin de la Web es conveniente utilizar herramientas que tomen en cuenta estas diferencias. En particular una herramienta que genere ndices de bsqueda debera tomar en cuenta los diferentes tipos de links con los que puede encontrarse, analizarlos e inferir, por ejemplo, si el link est relacionado con el tema que est evaluando, y si debe descartar el link o agregarlo al ndice y/o avanzar por ese camino ([Spertus, 1997]). 4.2.3- Tcnicas de Data Mining En general, estos agentes inteligentes aplican tcnicas de clustering sobre los documentos obtenidos en la Web ya sea para organizar el perfil de los usuarios o para mejorar la eficacia de las bsquedas que stos desean realizar (ver [Han, 1998] y [Moore, 1998]). Existe un enfoque diferente que utiliza esta tcnica para encontrar documentos muy similares o documentos contenidos unos en otros, pudindose utilizar esto para filtrar las bsquedas encontradas por los buscadores tradicionales o para detectar la copia ilegal de documentos ([Broder, 1997]). Las tcnicas de clustering tradicionales utilizan conocimiento previo sobre la estructura de los documentos para definir una funcin de distancia entre los mismos o utilizan tcnicas probabilsticas. Sin embargo, estos algoritmos no funcionan bien cuando la dimensin del espacio es grande en relacin con el tamao de los documentos, algo que ocurre en la Web. Algunos piensan que la frecuencia de las palabras es una buena medida para la funcin de distancia en los algoritmos de clustering, pero esta no es adecuada ya que existen documentos ms largos que otros y por eso algunas palabras pueden ocurrir ms frecuentemente que otras. Por otro lado, la cantidad de palabras diferentes en todos los documentos puede ser demasiado larga. Adems, los esquemas basados en distancias generalmente requieren el clculo de las medias de los clusters de los documentos las cuales, si la dimensin es alta, no diferirn mucho entre un clustrer y otro. Por lo tanto, este tipo de mtodo de clustering no siempre genera buenos clusters. Del mismo modo los mtodos probabilsticos no son buenos cuando la cantidad de caractersticas posibles es mucho ms grande que el tamao de la muestra. Otro problema de los mtodos probabilsticos es que muchos de ellos asumen independencia de los atributos lo cual, para muchos dominios, puede ser una asuncin muy restrictiva.

10

Por estos motivos es necesario implementar nuevos algoritmos de clustering que no necesiten conocimiento previo para obtener una funcin de distancia y sean capaces de descubrir similitudes y asociaciones entre los documentos y adems que funcionen bien en espacios de grandes dimensiones. 4.2.4- Nuevos Mtodos de Clustering Los mtodos basados en distancia utilizan como dimensiones, un conjunto de palabras que aparecen en distintos documentos. Cada conjunto, simbolizado como un vector, representa al documento y puede ser visto como un punto en el espacio multidimensional. Estos mtodos presentan varios inconvenientes descriptos anteriormente. 4.2.4.1- ARHP: Association Rules Hypergraph Partitioning ([Broder, 1997]) En las bases de datos transaccionales, como las de un supermercado, este mtodo primero busca un conjunto de tems que frecuentemente aparecen juntos utilizando association rules. Luego, cada conjunto de tems es utilizado para agrupar a los tems en los arcos de un hipergrafo y un algoritmo de particionamiento de hipergrafos, es utilizado para encontrar los clusters. En el clustering de documentos, cada documento corresponde a un tem y cada caracterstica corresponde a una transaccin. Se utilizan association rules para encontrar conjuntos de documentos con caracterstica en comn. Cada conjunto debe satisfacer un cierto soporte. El hipergrafo H = ( V, E ) est formado por vrtices V representando a los documentos y hiperarcos (pueden conectar ms de 2 vrtices) E representando a los tems frecuentes. A cada hiperarco se le asocia un peso que es calculado como el promedio de la confianza de las association rules relacionadas con los documentos del hiperarco, donde la confianza para cada regla es la probabilidad de que una caracterstica est en un documento sabiendo que est en el resto de los documentos de ese hiperarco. Luego se particiona el hipergrafo de forma tal que los pesos de los hiperarcos que son cortados es minimizado. Este mtodo tambin se puede aplicar a Clustering de palabras donde cada palabra es un tem y cada documento una transaccin. Una ventaja de este mtodo es que permite filtrar documentos no relevantes mientras realiza el clustering de documentos. Esta capacidad de filtrado es debida al criterio de soporte en la utilizacin de association rules, utilizando un valor lmite para el soporte, los documentos que tengan un soporte menor, sern eliminados.

11

4.2.4.2- Principal Component Analysis (PCA) Partitioning Algorithm ([Broder, 1997]) En este algoritmo, cada documento es representado por un vector normalizado de frecuencias de palabras. El algoritmo procede cortando el espacio de los documentos con un hiperplano que pasa por la media de todos los vectores y perpendicular a la direccin principal (mxima varianza) del conjunto de documentos. Los documentos son divididos en dos grupos separados por el hiperplano y a cada grupo se le aplican los mismos pasos sucesivamente todas las veces que se quiera formando una jerarqua con forma de rbol, siendo las hojas de ste los clusters. 4.2.4.3- Syntactic Clustering ([Han, 1998]) Este mtodo permite definir una medida de similitud y de inclusin entre documentos. Para ello cada documento es convertido en una secuencia cannica de tokens. Esta secuencia slo contiene las palabras del documento eliminando la capitalizacin, el formato y todos los comandos html. A partir de esta secuencia de tokens se define el concepto de shingle que es una subsequencia continua de w palabras. Luego se define el conjunto w-shingling S(D,w) como el conjunto de todos los shingles de longitud w. Por ejemplo dada la secuencia ( hola, que, tal ) el conjunto 2-shingle sera { (hola, que), (que, tal) } Dados dos documentos A y B se define la similitud entre ellos como: r (A,B) = S (A) S(B) S (A) S(B) Tambin podemos definir el grado de contencin como: c (A,B) = S (A) S(B) S (A) Para reducir el costo computacional de este clculo se define el concepto de sketch que dado un conjunto S(D,w) toma un pequeo subconjunto de ste que mantenga suficiente informacin sobre el documento y de esta forma poder utilizar el sketch para comparar la similitud entre los documentos. El algoritmo funciona de la siguiente manera: Para cada documento calcula el conjunto S(D,w) para un w particular, por ejemplo 10. Luego calcular el sketch del documento. Compara los sketchs de cada par de

12

documentos entre s. Si el grado de similitud es mayor que un determinado lmite ubica estos documentos en el mismo cluster. 4.2.5- Beneficios y Problemas En general se puede observar que los desarrollos realizados a nivel cliente bsicamente realizan algoritmos de clustering. Esto se debe a que, a este nivel, el propsito es organizar mejor la informacin que poseen los usuarios o mejorar los mtodos de bsqueda de informacin en la Web. En esta seccin observamos que los algoritmos clsicos de clustering no son adecuados para manejar informacin documental, ms aun si se tiene en cuenta la gran cantidad que existe de ella. Es por ello que se implementaron nuevos algoritmos ms eficientes y adecuados. Los algoritmos de clustering utilizados en la Web no se basan en una funcin de distancia, en lugar de ello, utilizan el particionamiento de hipergrafos o componentes principales siendo ms eficientes debido a que: No dependen de la eleccin de la funcin de distancia No son sensitivos a las dimensiones de los datos Son linealmente escalables La principal ventaja de aplicar data mining a este nivel es la simplificacin del proceso de obtencin de informacin, ya que utilizando estas tcnicas lograremos filtrar informacin incorrecta o irrelevante y adems podremos obtener mayor cantidad de informacin sobre los temas buscados. Debido a que la cantidad de documentos que los agentes deben analizar es demasiado grande e imposible de manejar, podemos relacionar en cierto sentido las tcnicas utilizadas en este entorno con las utilizadas en una VLDB donde es necesario realizar sampling en la mayora de los casos. En la web, no es posible no realizar sampling, pero a diferencia de las bases de datos, en este caso, el sample se toma, por ejemplo, como los documentos encontrados en una bsqueda. 4.3- Conclusiones sobre Web Mining Las caractersticas de la World Wide Web y la necesidad de obtener distinto tipo de informacin de la misma, presenta un nuevo desafo tanto a los mtodos de recuperacin de informacin tradicionales como a las tcnicas aplicadas para analizar los datos registrados por los servidores. Se puede observar que en ambos aspectos todava existen bastantes deficiencias en la recoleccin y anlisis de los datos.

13

Para mejorar los datos encontrados en los logs del servidor, sera bueno que se registraran todas las acciones de los usuarios tanto como el refresco de una pgina o una vuelta a una pgina anterior (back), cosa que en este momento no se realiza porque se toma la pgina cacheada por el browser. Esto no significa dejar de utilizar las pginas cacheadas y volver a traerlas desde el servidor, cosa que empeorara considerablemente la performance, simplemente sera necesario que al levantar una pgina cacheada, el browser le avise al servidor y le provea los datos necesarios para poder registrar el requerimiento en el log. De esta manera la informacin en el log estara completa. Por otro lado, la estructura y los datos de los logs de los servidores no es la ms adecuada para realizar un buen anlisis. En principio faltara un campo que indique la cantidad de tiempo que un usuario utiliz para visitar una pgina, se pudo ver que la mayora de los algoritmos que analizan el log deben inferir este dato. Adems, sera interesante que se pueda determinar donde comienza y termina una transaccin o sesin de usuario, tambin los algoritmos analizados tienen inconvenientes con este tema ya que todos necesitan las delimitacin de las transacciones y para ello dependen del valor de un intervalo mximo, cosa que puede provocar resultados errneos. Todo el anlisis de los logs del servidor se realiza con datos histricos. Otro enfoque sera realizar el anlisis de los accesos y data mining sobre los datos en forma on-line. Esto se podra lograr actualizando incrementalmente, por cada acceso o por cada intervalo pequeo de tiempo, los datos almacenados por ejemplo en un cubo. Al tener siempre actualizados los datos, las herramientas de anlisis ahorraran una gran cantidad de pasos y tiempo, teniendo la ventaja, adems, de poder generar resultados semi-inmediatos. Para ello se podra aprovechar las ventajas que proveen algunos servidores de web, como el IIS de Microsoft que permite generar el log directamente en una base de datos relacional. La bsqueda de documentos similares y la creacin de perfiles de usuarios es un aspecto del Web Mining que involucra el anlisis de una gran cantidad de datos distribuidos por todos el mundo, que no estn organizados, y son heterogneos y pueden tener muchas formas diferentes (html, cgi, dll, asp, etc). Adems, la web es un entorno sumamente dinmico donde tanto el contenido como la ubicacin de los documentos vara constantemente. Los mtodos analizados utilizan en general datos contenidos dentro de los documentos como ser palabras o informacin de los links, olvidndose de lo que cada vez es ms utilizado que son aplicaciones tales como cgi, dll, y asp, las cuales actuaran como un programa ejecutable el cual armara la pgina correspondiente. En estos casos para poder analizarlos en base a las palabras que forman el documento generado, el agente debera encargarse de requerir su previa ejecucin. Al haber cada vez ms cantidad de estas pginas activas, los

14

buscadores y agentes debern tomar en cuenta lo mencionado anteriormente o atacar este problema con una tcnica que obtenga resultados similares. Los agentes de bsqueda inteligentes que aplican tcnicas de Data Mining, en general clustering, proveen una gran ventaja a los usuarios que buscan informacin en la web, ya que mejoran drsticamente la calidad de la informacin obtenida. Bibliografa [Broder, 1997] A. Broder, S. Glassman, M. Manasse & G. Zweig, Syntantic Clustering on the Web. Systems Research Center - Digital Equiment Corporation, Departament of Computer Science University of California, Berkeley. 1997. [Hammond, 1995] K. Hammond, R. Burke, C. Martin & S. Lytinen, FAQ-Finder: A case-based approach to knowledge navigation. In Working Notes of the AAAI Spring Symposium: Information gathering from heterogeneous distributed environment. AAAI Press, 1995. [Han, 1996] Han J., WebMiner: A Resourse and Knowledge Discovery System for the Internet. Database Systems Research Laboratory, School of Computing Science, Simon Fraser University. 1996. [Han, 1998] E. Han, D. Boley, M. Gini, R. Gross, K. Hastings, G. Karypis, V. Kumar, B. Mobasher & J. Moore, WebACE: A Web Agent for Document Categorization and Exploration. Department of Computer Science and Engineering University of Minesota. 1998. [Luotonen, 1995] A. Luotonen, The Common Log File Format. http://www.w3.org/pub/WWW/. 1995. [Moore, 1998] J. Moore, E. Han, D. Boley, M. Gini, R. Gross, K. Hastings, G. Karypis, V. Kumar & B. Mobasher, Web Page Categorization and Feature Selection Using Association Rule and Principal Component Clustering. Departament of Computer Science and Engineering / Army HPC Research Center University of Minnesota, Minneapolis. 1998. [Spertus, 1997]

15

E. Spertus, ParaSite: Mining Structural Information on the Web. MIT Artificial Inteligence Lab and University of Washington Dept. of CSE. 1997.

16