Está en la página 1de 25

Minera web y personalizacin: Revisin bibliogrfica y propuesta de un marco de referencia

Antonio Gonzlez Torres

Curso de doctorado: Ingeniera web Profesor: Dr. Francisco Jos Garca Pealvo

Resumen
Se aborda brevemente el crecimiento exponencial de Internet en los ltimos aos y los efectos que ello ha producido en los procesos de obtencin de informacin til y relevante para las necesidades y preferencias de los usuarios. Posteriormente se explica el proceso de la minera web y sus componentes, pero adems se propone una taxonoma para la minera web desde el punto de vista de personalizacin. En la seccin 2 se introduce y explica una propuesta para un marco de referencia en la personalizacin web, mientras que la seccin 3 estudia la personalizacin de sistemas web, minera de uso, minera de contenido y aborda dicho marco de referencia con ms profundidad. La seccin 4 lista algunas de las conclusiones de este trabajo. Palabras claves: Personalizacin web, minera de uso, minera de contenido, recuperacin de informacin, extraccin de informacin, minera de texto.

1.

Introduccin

En los ltimos 10 aos el auge y crecimiento de Internet, tanto en cantidad de informacin como de usuarios, ha hecho de esta red una herramienta indispensable en la vida y comunicacin de muchas personas. Proporcionarle al usuario la informacin adecuada de acuerdo a sus necesidades y preferencias es un complicado reto que se vuelve cada da ms complejo por el crecimiento exponencial de la informacin disponible en la web. En la actualidad la cantidad de informacin existente es sencillamente abrumadora y difcil de cuantificar. En un estudio realizado por BaezaYates [1] se estimaba que a la fecha de la publicacin existan al menos 4 mil millones de pginas estticas en la porcin indexable de la web. Siendo fundamental tener en consideracin que el porcentaje no indexable de la web es muy superior al porcentaje indexable. Una consecuencia de ese acelerado crecimiento y la alta disponibilidad de informacin es que los usuarios experimentan dificultades cuando intentan localizar informacin de su inters, a pesar de que pueden acceder a un nmero considerable de herramientas para realizar bsquedas asistidas. Como parte de los esfuerzos realizados para brindar soluciones ms efectivas a los usuarios, en la ltima dcada se han

emprendido investigaciones para aprender sobre su comportamiento y preferencias con el propsito de brindarles informacin pertinente a sus necesidades. En este marco la minera web, pero ms especficamente la minera de uso web, se ha convertido en un campo ampliamente investigado en el cual se han implementado una gran variedad de herramientas que van desde la recuperacin y clasificacin de la informacin hasta el diseo y desarrollo de agentes inteligentes para proporcionar informacin de forma personalizada en base a los patrones de comportamiento y preferencias del usuario. Teniendo en consideracin lo anterior y extendiendo la definicin brindada por Cooley[2], la minera web se puede definir como el descubrimiento y anlisis de informacin relevante tomando en consideracin el comportamiento y preferencias del usuario. La informacin que se proporciona al usuario como producto del proceso de la minera web puede ser documental o sobre productos como libros, msica, pelculas u otros especficos del inters de este. La minera web, de acuerdo con Li [0], puede ser clasificada en cuatro categoras: Minera de uso en la web, minera de la estructura web, minera del contenido web y minera de los perfiles del usuario. Sin embargo, en este documento la minera web es tratada como dos grandes reas; la minera de contenido incluye la minera del contenido de los documentos y la estructura, mientras que la minera de uso contempla el procesamiento de los patrones de uso y los perfiles de usuario. La figura 1 sirve para ilustrar el enfoque propuesto.

Figura 1.Taxonoma general de la minera web desde un enfoque de la personalizacin web

La minera de uso en la web consiste en la aplicacin de tcnicas de minera de datos para descubrir los patrones de uso de la informacin web con el objetivo de entender y satisfacer las necesidades de los usuarios [4]. Siendo utilizadas principalmente las tcnicas de anlisis estadstico, reglas de asociacin, agrupacin de tems, clasificacin y modelos de dependencia aplicadas a las bitcoras de los servidores web y secuencia de pginas visitadas para realizar transacciones. Por otro lado, la minera de la estructura web est conformada por los hipervnculos entre sitios, pginas o secciones de la misma pgina y estudia las tcnicas para el tratamiento de esa estructura y la informacin que proporcionan los enlaces con el fin de recuperar informacin relevante. En el caso de la minera del contenido web, esta tiene que ver con la extraccin e integracin de datos, informacin y conocimiento til a partir del contenido web.

El tratamiento de los perfiles de usuarios es un caso especial porque hace uso de la informacin registrada por el usuario en los formularios web y busca obtener informacin sobre las preferencias y caractersticas de este, principalmente con el objetivo de relacionar dicha informacin con la de otros usuarios para proporcionar soluciones personalizadas. La separacin del tratamiento de los perfiles de usuario de la minera de uso web obedece a que por lo general los perfiles del usuario son datos estticos, mientras que la minera de uso web estudia las preferencias del usuario de forma dinmica y es un proceso que se realiza mientras el usuario se encuentra en lnea. En este documento se estudia brevemente la taxonoma de la minera web y sus categoras, pero se hace especial nfasis en la minera de uso web, tratamiento de perfiles y sistemas de personalizacin. El enfoque utilizado asume que se ha recolectado previamente la informacin que se requiere para efectuar los anlisis necesarios que permitirn realizar las recomendaciones de informacin o productos pertinentes a los usuarios. Como se muestra en la figura 2, el proceso de minera de uso web y extraccin de preferencias de los perfiles de usuario se realiza de forma previa al proceso de extraccin de conocimiento que utiliza como fuentes de informacin la estructura y contenido web. El proceso de minera de uso web y extraccin de preferencias de los usuarios se asume como un proceso abierto y continuo que analiza de forma constante el comportamiento y predilecciones de los usuarios. Dicha figura ser abordada con ms detalle en la seccin 2 al estudiar el proceso general de la minera web, la minera de contenido y la minera de uso web desde el enfoque que se propone. La seccin 3 estudia la personalizacin de sistemas web y la seccin 4 enumera algunas conclusiones del trabajo.

2. Minera web y propuesta de un marco de referencia para la personalizacin web


La minera web es un proceso complejo que comprende el anlisis de informacin diversa, como el contenido y estructura de los documentos web (html, xml), archivos de texto, bases de datos, bitcoras de acceso de usuarios, bitcoras de referencias de otros servidores, perfiles de usuarios y otros, con el fin de encontrar informacin til y relevante de acuerdo a las necesidades de un usuario. Por lo que en un escenario ideal se contara con un sistema que cuenta con una interfaz que analiza el comportamiento y preferencias del usuario y realiza peticiones en su representacin a una base de conocimientos que se encuentra estructurada y gestionada debidamente para la rpida y correcta recuperacin de informacin; en donde dicha base de conocimientos devuelve las respuesta a la interfaz para que esta a su vez le brinde una respuesta al usuario. La figura 2 sirve como marco general para estudiar con ms profundidad la implementacin de sistemas de este tipo. Dicho marco general sugiere que el sistema podra estar basado en el servidor de una empresa, en el cliente o ser un sistema intermediario para localizar recursos en donde el sistema puede tener un componente servidor y un componente cliente. En caso de que el sistema est basado en el servidor y no cuente con un perfil ingresado por el usuario de forma explcita, ste analiza el comportamiento del usuario de acuerdo a la secuencia de pginas que visita o transacciones que realiza y le hace

Figura 2. Marco de referencia general para la personalizacin web

sugerencias. La informacin sobre las visitas de los usuarios puede ser almacenada en las bitcoras de los servidores web o en una base de datos. Cuando el usuario regresa es posible identificarlo por la identificacin de su cookie, direcciones IP o alguna combinacin de criterios creada con el fin de darle seguimiento de forma personalizada. Ahora, si el sistema hace uso de perfiles de usuario se le realizan sugerencias de acuerdo a los segmentos en que se ubiquen mediante la regin geogrfica que habita, edad, profesin y pasatiempos entre otros. Tambin es posible realizar una combinacin de la informacin del perfil con la que se obtiene de su comportamiento mientras navega. Por otro lado, si el sistema se encuentra corriendo en el lado del cliente, es un proceso permanente que analiza el comportamiento del usuario de forma constante y no cuenta con ningn tipo de informacin brindada por el usuario de forma explcita; entonces puede recopilar informacin del usuario a travs del tiempo para generar un perfil de preferencias y combinarla con la obtiene del comportamiento durante cada navegacin. En el caso de contar con el perfil del usuario, puede actualizarlo de acuerdo al comportamiento de este a travs del tiempo y adems puede utilizar el comportamiento particular de cada navegacin para efectuar sugerencias. Si el caso es el de un proceso que es iniciado a peticin del usuario el comportamiento del sistema es similar en cuanto a funcionamiento, a no ser porque en el primer caso realiza sugerencias sin que el usuario lo pueda desear, mientras que en el ltimo caso solo lo hace cuando el usuario inicia el proceso. Una consideracin sobre el caso anterior, es que el sistema corriendo en el lado cliente puede realizar la personalizacin de forma ms eficiente porque es ms fcil darle seguimiento a las acciones del usuario. Tambin es posible personalizar la experiencia del usuario sin importar el sitio por el que navegue ya que la aplicacin podra no depender de un servidor en particular. Sin embargo se podra considerar algunas limitaciones como el hecho de que la informacin personalizada se despliegue en una ventana diferente a la del navegador y que el sistema experimente problemas de rendimiento debido a que hacer bsquedas y procesamientos generales en la web para responder a lo que el usuario requiere. Una posible solucin al problema descrito anteriormente y que podra mejorar significativamente la experiencia del usuario es la posibilidad de que exista un componente servidor y otro componente cliente. En donde el componente cliente realiza el seguimiento a las acciones del usuario, pero adems ejecuta tareas de extraccin de informacin del perfil de este y su comportamiento mientras navega con el fin de obtener un perfil actualizado. En este caso si el proceso es permanente o iniciado por el cliente no origina un escenario nuevo en ese aspecto; como tampoco lo hace el hecho de que existan o no existan perfiles ingresados explcitamente por el usuario. Sin embargo, lo interesante es que el componente cliente logra obtener de forma ms eficiente el comportamiento del usuario y puede enviar de forma procesada al componente servidor lo que el usuario desea obtener, as como el perfil actualizado para que pueda ser asociado con otros perfiles, y ste realiza el procesamiento necesario para brindar una respuesta adecuada que posteriormente regresa al cliente para que le agregue algunos elementos mnimos de personalizacin y se la entregue al usuario. Como se puede observar en la figura 1, el proceso inicia determinando si se cuenta con el perfil del usuario y aplica las tcnicas de minera de uso web y minera de datos que el implementador haya decidido utilizar para determinar el comportamiento y

preferencias del usuario. Incluso, si se cuenta con informacin previa sobre el usuario se podra extraer el perfil del mismo y pasarlo directamente al motor de personalizacin. El motor de personalizacin procesa toda la informacin de las preferencias y el comportamiento del usuario, realiza las clasificaciones u asociaciones que implemente las tcnias utilizadas y solicita a la base de datos de conocimiento que es gestionada por los procesos de minera de contenido web que obtengan la informacin relevante. Una vez que se ha obtenido la informacin que se requiere, el motor de personalizacin le realiza las sugerencias pertinentes al usuario mediante mecanismos que pueden ser de una amplia diversidad y que pueden contemplar un simple mensaje de dialogo, la generacin de una pgina dinmica o la generacin de un archivo de texto en algn formato determinado. Para la realizacin de los diferentes procesos involucrados se puede hacer uso de diferentes mtodos, modelos, tcnicas y algoritmos segn el enfoque particular y la eficiencia que se desee obtener. La tabla 1 presenta en una lista la recopilacin realizada de solamente algunas de las posibilidades existentes. Con el fin de explicar el marco de referencia presentado anteriormente, en los siguientes apartados se estudiarn las bsquedas en la web y su utilizacin clsica, la minera de uso web, la personalizacin y la minera del contenido web. 3.1 Bsquedas en la web El diseo de una solucin de bsqueda clsica en la web contempla la implementacin de mecanismos para recuperar informacin pertinente e indexar esa informacin. Cabe indicar que mediante el diseo de una solucin de este tipo no se proporciona informacin sobre la estructura de la web, ni se clasifica, filtra o interpreta la informacin como s sucede con la minera de contenido. Las tcnicas de recuperacin de informacin se pueden clasificar como basadas en enlaces o basadas en contenido. Las tcnicas basadas en contenidos permiten recuperar un documento relacionado con un tema particular y las basadas en enlaces permiten localizar un sitio web determinado. En el caso de las tcnicas basadas en el contenido de las pginas, el usuario ingresa un argumento de bsqueda, que por lo general es un tema en el que se encuentra interesado y el sistema devuelve una lista de sitios web que contienen informacin relacionada. Para hacer posible el proceso se debe recuperar una muestra representativa de informacin mediante el uso de un robot1 de recuperacin e indexar esa informacin posteriormente. Antes de iniciar la recuperacin de la informacin, a los robots de recuperacin se les proporciona un punto de partida inicial. A partir de ese punto de partida inicial efectan la descarga de pginas y actan de forma recursiva sobre los enlaces de estas hasta construir un repositorio lo suficientemente representativo. Dicho repositorio es indexado y utilizado en las bsquedas que realizan los usuarios. Para la realizacin del indexado se requiere extraer palabras claves del contenido de las pginas web y realizar una serie de operaciones sobre stas para garantizar su unicidad y relevancia, como es explicado por Baeza-Yates[7] de forma detallada. .
1

Web crawler por su nombre en ingls

Es relevante indicar que los robots de recuperacin tienen limitada su capacidad para descargar y mantener actualizado un porcentaje elevado de la informacin disponible en Internet debido a factores como el ancho de banda disponible, limitaciones de espacio fsico en los discos duros, costo econmico, cambios constantes las pginas, pginas dinmicas, imgenes, lenguajes de formateo2 y pginas desarrolladas con aplicaciones como Macromedia Flash, entre otras. Conviene hacer referencia al hecho de que la informacin de la web es finita pero el nmero de pginas web es infinita[8]. Las tcnicas basadas en enlaces funcionan de forma diferente a las basadas en el contenido de las pginas; el usuario ingresa el nombre del sitio que desea encontrar y como respuesta recibe un enlace al sitio web principal asociado. Por ejemplo, el usuario ingresa Universidad de Costa Rica y obtiene http://www.ucr.ac.cr/. Sin embargo, tambin podran aparecer listadas otras direcciones como http://www.ucr.ac.cr/guia_tel/index.htm que corresponde al directorio telefnico de esa universidad. En este caso, la direccin es equivalente y es considerada vlida. Otro tipo de consulta vlida es Dnde encuentro la Universidad de Costa Rica?, por lo cual un buscador comercial como Google debera estar en capacidad de responder a ste tipo de preguntas. Para comprobar el comportamiento de Google ante este tipo de consulta, efectuamos la prueba tanto por el nombre de la universidad como con la pregunta Dnde encuentro la Universidad de Costa Rica? y funcion adecuadamente. Google adems cuenta con la opcin Voy a Tener Suerte, la cual despliega directamente el mejor sitio de acuerdo a sus registros y tambin funcion de forma satisfactoria. Ambas pruebas fueron realizadas en la versin de Google para Costa Rica, localizada en http://google.co.cr/. Al efectuar las mismas pruebas en Yahoo Espaa, que puede ser encontrada en http://es.yahoo.com/, ambas consultas tambin tuvieron xito. Con estas sencillas pruebas, se pudo corroborar al menos de forma simple que los dos principales buscadores comerciales de la actualidad brindan apoyo a ste tipo de bsqueda. La tcnica de clasificacin basada en enlaces clasifica los resultados en base a los enlaces entrantes y salientes de un sitio web y tiene tres variantes; por recomendacin, agrupacin por temas y descripcin del enlace. Estas variantes funcionan utilizando la descripcin del texto del enlace en el documento o seccin fuente y considera la relacin entre ste y el documento objetivo. Para realizar la clasificacin se hace uso de un conjunto de documentos a los cuales se les aplica una consulta. Cuando se efecta la consulta una lista de documentos clasificados es generada y el sitio consultado debe aparecer tan cerca como sea posible de la mejor clasificacin. La clasificacin por recomendacin asume que los enlaces contenidos en un documento es una recomendacin por parte del autor al documento que hace referencia. Por lo que un sitio o documento que cuenta con una gran cantidad de referencias puede ser considerado como altamente recomendado, lo que implica que es probable que su contenido sea de alta calidad y por lo tanto debe ser mejor clasificado. En lo que respecta a la clasificacin por agrupacin de temas, se asume que las pginas conectadas por enlaces desde un mismo sitio se encuentran relacionadas con un mismo tema. Mientras que la clasificacin por la descripcin del enlace considera que el
2

Lenguajes como JavaScript

texto del enlace describe su objetivo, por ejemplo; el enlace Ministerio de Ciencia y Tecnologa de Costa Rica debera conducir al sitio http://www.micit.go.cr/. Segn un estudio realizado por Craswell y Robertson[9] utilizando un conjunto de 100 consultas sobre 18.5 millones de documentos sta ltima variante de la tcnica de clasificacin basada en enlaces permite obtener resultados 100% ms efectivos que los obtenidos por tcnicas basadas en la clasificacin de acuerdo al contenido. Los documentos utilizados para realizar las pruebas en dicho estudio fueron los de la coleccin VLC23 pertenecientes a TREC4. Es conveniente mencionar que de acuerdo con los autores, dicha coleccin ha sido criticada por ser muy pequea e incompleta para que los mtodos basados en enlaces funcionen de forma adecuada, pero eso no le quita validez al estudio debido a que es el primer estudio realizado al 2001 sobre un volumen de datos de esa magnitud. 3.2 Minera de uso web La minera de uso web captura y modela los patrones de comportamiento y los perfiles de los usuarios al interactuar con un sitio web. Los patrones son representados como colecciones de pginas o tems que son accedidos de forma frecuente por grupos de usuarios con intereses comunes. Tales patrones pueden ser usados para entender las caractersticas del comportamiento de los visitantes o usuarios de segmentos para mejorar la estructura de un sitio y crear una experiencia personalizada para los visitantes al proporcionar recomendaciones dinmicas sobre contenido u objetos [5]. El proceso de la minera de uso web contempla la recoleccin de la informacin, preparacin de los datos, transformacin de la informacin y descubrimiento de patrones de uso. La recoleccin de informacin se puede ejecutar a nivel del servidor web que hospeda las pginas, a nivel del servidor proxy del lado cliente o en el nivel de los agentes del cliente web[4]. Entre las fuentes de informacin que se pueden considerar se encuentran los archivos del sitio web, bitcoras de accesos, bitcoras de referencias, bitcoras de agentes locales y remotos, base de datos con los registros de los usuarios, informacin de agentes remotos, atributos de productos, informacin semntica, ontologas del dominio, rdenes de los clientes, estructura del sitio y cualquier otro tipo de informacin pertinente. Algunas veces se puede requerir la sincronizacin entre servidores web, servidores proxy o agentes para obtener la informacin actualizada o en tiempo real. Una vez que la informacin ha sido obtenida se efecta el preprocesamiento en varias etapas; combinacin de fuentes de informacin, limpieza de datos, identificacin de pginas visitadas, identificacin de usuarios, identificacin de sesiones, identificacin de transacciones y la elaboracin de inferencias sobre las referencias a enlaces perdidos durante el almacenamiento de los archivos en la memoria cach de los servidores proxy o dispositivos de administracin de contenidos [4 et. al]. En el proceso de transformacin de la informacin se crean las tablas, grafos y estructuras de datos que sean requeridas por los algoritmos utilizados en el descubrimiento de patrones de uso. Cuando la informacin ha sido transformada, inicia el descubrimiento de patrones mediante algoritmos que pueden hacer uso de anlisis
3 4

Very Large Collection 2 Text Retrieval Conference

estadstico, reglas de asociacin, agrupamiento de tems, clasificacin, rastreo de rutas para crear patrones secuenciales y modelado de dependencias. 3.2.1 Preparacin y transformacin de la informacin

La etapa de preparacin de la informacin inicia con la combinacin de diferentes fuentes de informacin de la misma naturaleza (i.e. bitcoras de servidores web) y contina con la limpieza de datos en la cual se remueven las referencias extraas a objetos incrustados en las pginas web como son los grficos o archivos de sonido, as como las referencias generadas e incluidas por los robots de recuperacin de informacin en las cabeceras de las pginas web. La identificacin de las pginas visitadas en un sitio es de gran utilidad para la identificacin de transacciones, qu pueden ser transacciones comerciales o de bsqueda de contenidos, y para efectuar anlisis sobre el diseo y rediseo de sitios web. Este proceso depende del contenido de las pginas, estructura y conocimiento con que se cuente sobre el dominio al cual pertenece el sitio. Una tcnica til que puede ser utilizada en este contexto es sugerida por Mobasher[5] y consiste en asignar pesos diferentes a las pginas de acuerdo al tipo de aplicacin (i.e. cambios en los carritos de compras, o visita a pginas relacionadas con la venta de productos en un sitio de ecommerce o la asignacin de un peso mayor a las pginas de contenidos que al que se le asigna a las pginas de navegacin en un sitio orientado a servir contenidos) Algunos atributos que pueden ser almacenados cuando un usuario visita una pgina son el identificador de la pgina (i.e. direccin web de la pgina), duracin de la visita, tipo de pgina y otros. En sntesis, lo que se busca es la creacin de los subconjuntos relevantes de pginas visitadas en cada sesin de usuario. La tcnica ms efectiva para identificar a los usuarios y las sesiones de estos en un sistema es la de creacin de perfiles, para lo cual se requiere el registro de los usuarios y autenticacin de estos cada vez que acceden al sitio web. Es importante considerar que la informacin proporcionada por los usuarios frecuentemente es subjetiva, los perfiles usualmente son estticos y su valor se degrada conforme stos se vuelven viejos. Sin embargo, el problema de los perfiles estticos puede ser resuelto mediante la actualizacin dinmica de estos al incorporar informacin sobre el comportamiento y patrones de navegacin de los usuarios. Otra tcnica utilizada para identificar a los usuarios y sus sesiones, probablemente la ms popular, es la que hace uso de cookies. Por medio de las cookies es posible realizar la autenticacin, efectuar el rastreo, mantener informacin especfica, preferencias y compras de los usuarios. Su principal ventaja es que no se requiere que el usuario registre ningn tipo de informacin. Sin embargo, el usuario debe configurar el navegador de Internet para permitir la recepcin de las cookies, pero adems estas pueden ser borradas en cualquier momento con la consecuencia de que se pierde el historial de informacin con el usuario, existen implicaciones sobre la privacidad y anonimato de los usuarios mientras navegan y aunque las cookies solo son enviadas entre el cliente y el servidor que las origin, la utilizacin de cookies de terceros es posible cuando se carga una pgina que contiene anuncios o imgenes de otros dominios.

Con la utilizacin de cookies la identificacin de usuarios y sesiones puede resultar complicada debido a que estas no identifican a una persona sino a una combinacin de la cuenta del usuario, el ordenador y el navegador web. Por lo que un usuario que utiliza mltiples ordenadores, cuentas de usuario o navegadores ser identificado por una diversidad de cookies. En el caso de varios usuarios utilizando el mismo ordenador, con la misma cuenta de usuario y navegador web, tendrn el inconveniente de que sern identificados como un nico usuario. Tambin existen algunos problemas de seguridad relacionados con la captura de cookies de otros usuarios con el fin de simular la identidad de otro usuario ante un sistema, y tambin con el cambio de los montos que un usuario tiene que pagar por una compra. Otro problema de seguridad consiste en la explotacin de las vulnerabilidades de algunos navegadores que permiten que un atacante coloque una cookie en el espacio de otro dominio.

Funcionamiento de las cookies (Figura tomada de http://www.wikipedia.org) Cuando se crea una cookie es importante la configuracin que realiza el servidor de algunos parmetros como son nombre de la cookie, la fecha de expiracin y el nombre del dominio. Si la fecha de la cookie no ha sido especificada, esta se remueve una vez que el usuario sale del navegador. Por lo que es mejor especificar la fecha de expiracin, en cuyo caso se les llama cookies persistentes. Para ms informacin se puede consultar el artculo HTTP cookie [6]. Otra tcnica que se puede utilizar para identificar usuarios y sesiones es el uso de las direcciones IP, sin embargo la identificacin de usuarios por medio de su direccin IP se dificulta por el uso de servidores Proxy y asignacin dinmica de direcciones IP. Sin embargo, es posible realizar el rastreo de sesiones mediante el par nico direccin IP- puerto del cliente, es decir la combinacin de la direccin IP en combinacin con el nmero de puerto abierto por el ordenador del cliente al abrir una sesin con un servidor, de forma adicional se puede mantener el registro de las pginas que visita ese usuario para proporcionarle un mejor servicio. El inconveniente que se presenta en este caso es que los puertos en el cliente se asignan de forma dinmica y se les asigna un tiempo de expiracin.

Otras tcnicas que se pueden utilizar es la de autenticacin por medio del protocolo http, que requiere el uso de un usuario y clave solo una vez, otra alternativa son las cadenas de interrogacin utilizadas por PHP o el uso de Objetos Locales Compartidos del Flash Player de Macromedia. Sin embargo, cuando resulta difcil la distincin entre sesiones con los mtodos anteriores debido a que los usuarios pueden establecer sesiones con el mismo servidor de forma simultnea es posible identificar las sesiones de un usuario segmentando las bitcoras de actividad de los usuarios que son mantenidas por los servidores web. En los casos donde no se requiere que el usuario se autentique en el sistema, es posible realizar la identificacin de sesiones mediante mtodos heursticos que permiten identificar las actividades realizadas en un intervalo de tiempo o sobre la estructura del sitio por parte de un usuario particular. Los mecanismos utilizados para recolectar informacin sobre el uso de un sitio web o vistas de pginas contemplan tcnicas para rastrear a los usuarios a travs de las visitas y mantener un historial de stas. Lo anterior se puede realizar mediante el registro de la secuencia de pginas visitadas para completar una transaccin, analizando las bitcoras de acceso de los servidores web, las bitcoras de los agentes locales o agentes remotos. 3.2.2 Descubrimiento de patrones

Para el descubrimiento de patrones se pueden hacer uso de tcnicas de anlisis estadstico, agrupacin y clasificacin, reglas de asociacin y anlisis de la secuencia de pginas visitadas por los usuarios. Todas estas tcnicas hacen uso de la informacin que se obtiene sobre el comportamiento del usuario a travs de los anlisis de bitcoras de servidores, patrn de navegacin, transacciones realizadas, preferencias obtenidas de los perfiles de usuario e informacin geogrfica del usuario, entre otros. El anlisis estadstico acta sobre una muestra de datos estudiando las relaciones entre estos a la vez que busca errores observables. Dentro de las tcnicas que se pueden emplear en el anlisis estadstico se encuentran las descriptivas y las basadas en inferencias. Las tcnicas descriptivas son utilizadas principalmente para sintetizar datos mediante el clculo de promedios, la media, la moda, la varianza, la desviacin estndar y la desviacin absoluta. Mientras que las tcnicas basadas en inferencias realizan presunciones sobre informacin desconocida o que no se encuentra visible haciendo uso de probabilidades de frecuencias e inferencia Bayesiana. En el caso de las tcnicas de agrupacin, stas buscan agrupar tems, transacciones, usuarios o vistas de pginas. Eexiste una amplia variedad de algoritmos, entre los que se encuentran el algoritmo PageGather, publicado por Perkowitz y Etzioni en 1998, y el de los k-medios. ste ltimo realiza un anlisis estadstico de los datos para efectuar agrupaciones y mide las distancias entre estas. Tambin realiza clculos sobre los valores promedio y medios de la muestra utilizada. La clasificacin en este contexto, busca determinar los patrones de navegacin que siguen los usuarios y crear categoras de acuerdo a su comportamiento. Para tal

efecto, es comn la utilizacin de redes neuronales, sistemas de lgica borrosa, algoritmos genticos y modelos vectoriales. Mientras que las reglas de asociacin capturan las relaciones entre los tems basndose en los patrones de ocurrencia a travs de las transacciones. En el caso de las transacciones web, las reglas de asociacin capturan las relaciones entre las pginas visitadas de acuerdo a los patrones de navegacin de los usuarios en un sitio. Usualmente se basan el algoritmo de Apriori publicado por Agrawal y Srikant en 1994.

3.2.3

Identificacin de transacciones

La identificacin de transacciones requiere tener acceso a la secuencia de acciones realizadas por el usuario mientras visita un sitio web. El mecanismo ms utilizado consiste en determinar la secuencia de pginas que visit, as como las acciones que ejecut durante la realizacin de la transaccin. Para realizar lo anterior la forma ms efectiva es utilizar un agente que se integre con el navegador y que capture todos los procesos realizados por el usuario. El agravante en este caso es que el usuario debe aceptar la ejecucin del agente sin interrumpir su funcionamiento y que el agente no violente la privacidad del usuario. El que el agente se ejecute en el lado cliente es ventajoso porque no representa una carga de procesamiento en el lado servidor, pero podra afectar el desempeo del equipo del usuario si las caractersticas de este no son las adecuadas e igualmente podra afectar el ancho de banda efectivo. Como la opcin de identificar las transacciones en el lado del cliente prcticamente no es posible con el consentimiento del usuario, se utilizan las bitcoras de los servidores web. El uso de las bitcoras de los servidores web en la identificacin de transacciones presenta una gran cantidad de inconvenientes debido a la inexactitud de la informacin, entre ellos el uso de servidores proxy, dispositivos de administracin de contenidos, dispositivos de traduccin dinmica de direcciones y la utilizacin de un ordenador por mltiples usuarios. El principal inconveniente se debe a que no es posible realizar una relacin nica entre una direccin IP y un usuario, por lo que es posible que un usuario aparezca con una gran cantidad de transacciones cuando en realidad estas han sido realizadas por los empleados de una compaa o los clientes de un proveedor de servicios de Internet. Otro inconveniente es que los servidores proxy y dispositivos de administracin de contenidos hacen uso de almacenamiento cach para reducir el trfico externo y proporcionar mejores tiempos de respuesta a los usuarios, con lo cual cuando un usuario contacta un sitio en realidad esta recuperando la informacin almacenada el dispositivo local. Para solventar los problemas mencionados, es aconsejable utilizar cookies o perfiles de usuario en combinacin con las cookies. Adems de los inconvenientes indicados, la identificacin de transacciones se dificulta cuando el usuario el usuario retrocede entre pginas frecuentemente. Para resolver esta situacin es conveniente deshabilitar la funcin de retroceso en el sitio web. 3.2.4 Anlisis de patrones

Uno de los procesos ms importantes en todo el proceso de la minera web es el anlisis de patrones. Este proceso debe ser lo suficientemente efectivo para descubrir informacin que no es visible a simple vista, presentar los resultados de forma tal que sea fcil identificar las acciones que realizan los usuarios e identificar tendencias o cambios en las preferencias de los usuarios. Con este fin se pueden utilizar tcnicas de filtrado de informacin, tcnicas de visualizacin, herramientas del tipo OLAP5 y herramientas de minera de datos.

On Line Analytical Processing

El resultado de dicho anlisis debe ayudar a determinar el comportamiento efectivo de los usuarios con el fin desarrollar campaas de mercadeo (en el caso de sitios dedicados a la venta de productos), mejoramiento de sistemas, modificacin y personalizacin del sitio y los sistemas. En nuestro caso particular su principal utilidad es para la personalizacin de sitios web. 3.3 Personalizacin web La personalizacin web es la habilidad de un sitio para mantener la atencin de los usuarios a un nivel ms alto de lo comn y guiarlos de forma satisfactoria a obtener informacin til y pertinente, de acuerdo con Mobasher[5]. Segn el mismo autor, la personalizacin web contempla el modelado de objetos web como pginas y tpicos, la categorizacin de esos objetos, la bsqueda de coincidencias entre estos, as como el conjunto de acciones que se debe tomar para llevarla a cabo. En donde las acciones a ser tomadas depende del tipo de personalizacin utilizada que puede ser basada en sistemas de reglas de decisin manuales, agentes de filtrado basados en el contenido o sistemas de filtrado colaborativo. En este punto es de suma importancia retomar la figura 1 para analizar el proceso de personalizacin web. De acuerdo a los escenarios que fueron descritos anteriormente, el usuario se encuentra navegando y el sistema determina cuales son las preferencias del usuario. Entonces pasa esa informacin al mdulo de personalizacin, que toma tanto las preferencias del usuario como sus necesidades de informacin, las procesa y crea una consulta para la base de conocimientos. La base de conocimientos efecta el proceso de extraccin de informacin utilizando los mecanismos que han sido implementados y retorna al mdulo de personalizacin la informacin que es considerada como de ms relevancia a las preferencias y necesidades del usuario. Finalmente, el sistema de personalizacin toma el resultado, le realiza las personalizaciones convenientes y le devuelve una sugerencia o resultado al usuario. La personalizacin de las sugerencias se puede realizar de forma individualizada o grupal. En el caso de la personalizacin grupal se busca la pertenencia del usuario a un grupo mediante sus preferencias y es probable que si se encuentra un grupo grande de usuarios el proceso de personalizacin no requiera de un la realizacin de un proceso intensivo para satisfacer la necesidad o comportamiento planteado por el usuario. Por otro lado si las sugerencias que se le proporcionan al usuario son individualizadas y aisladas, el proceso de extraccin de informacin y procesamiento es mas intensivo debido a que el proceso de bsqueda podra resultar ms exhaustivo y difcil de efectuar. Ahora, si el anlisis del comportamiento del usuario se realiza en tiempo real, todo el proceso de anlisis y personalizacin se realiza en lnea. Mientras que si se utiliza un enfoque esttico el anlisis y personalizacin se puede realizar de forma previa y ofrecerle mejores tiempos de respuesta al usuario. En caso de que se utilice un enfoque combinado, el proceso se realiza en lnea. La realizacin del anlisis del comportamiento del usuario y la personalizacin en lnea se efecta cuando se utiliza mtodos orientados a las visitas de pginas y transacciones, as como aquellos que hacen uso de cookies. Este tipo de sistemas requieren de mayor capacidad de cmputo y ancho de banda.

Como ya se mencion anteriormente para la realizacin de la personalizacin es necesario tener conocimiento sobre el comportamiento y preferencias de los usuarios y sta se puede realizar de forma grupal o individual. Para la personalizacin grupal e individual son muy tiles los perfiles de usuario, pero frecuentemente estos contienen informacin subjetiva y por sus caractersticas esttica la informacin se vuelve obsoleta en poco tiempo por lo que se deben implementar mecanismos adicionales para aprender del comportamiento del usuario y modificar su perfil de forma dinmica. Para efectuar personalizaciones grupales en base a la informacin de los perfiles se deben buscar perfiles de usuarios con preferencias similares, una vez que se le realizar una recomendacin al usuario o grupo es deseable que el usuario califique los objetos para que el sistema modifique el perfil en base a las calificaciones. Una desventaja de las recomendaciones grupales es la falta de escalabilidad en los sistemas, la formacin del conjunto de perfiles similares se debe realizar en lnea y los conjuntos de datos muy grandes pueden producir retrasos inaceptables, si los datos se encuentran dispersos el procesamiento se dificulta y si el conjunto de usuarios con preferencias similares es muy grande la calificacin del usuario individual tiene un peso poco significativo en relacin con el conjunto. Es valioso hacer referencia al hecho de que para las recomendaciones grupales, el filtrado colaborativo requiere de la concordancia entre las calificaciones de un usuario con la de usuarios similares para producir recomendaciones para objetos que an no han sido. Una referencia interesante sobre filtrado colaborativo es el artculo escrito por Bamshad Mohasher[27]. La personalizacin tambin se puede realizar sin tener ningn conocimiento previo sobre los usuarios mediante el estudio del comportamiento mientras estos navegan por el sitio web. Para ello se analizan las secuencias de las pginas visitadas y el patrn de la secuencia de pginas visitadas para completar una transaccin. Hasta el momento se han estudiado algunas tcnicas que el sistema puede utilizar para identificar las preferencias y comportamiento del usuario y se discuti la personalizacin de resultados. En el siguiente apartado se estudia el proceso de la minera de contenido. 3.4 Minera de contenido web Las definiciones que una gran cantidad de autores proporcionan sobre la minera de contenido web son muy diversas y discrepantes[2,8,10,24,25]. La minera de contenido web hace uso de tcnicas de minera de datos y descubrimiento de conocimientos con el objetivo de poder revisar y encontrar informacin muy especfica[14] sin limitarse a la simple extraccin de palabras claves o estadsticas de palabras y frases en los documentos[25]. Por lo que considera procesos selectivos e intensivos de recuperacin de informacin, extraccin de informacin, minera de textos y minera de la estructura web. La tabla 2 muestra una lista de los mtodos anteriores con informacin bastante detallada sobre tcnicas, procesos y algoritmos que se pueden utilizar. La clasificacin general de dicha tabla se encuentra basada en el artculo escrito por Soumen Chakrabarti [15]. El principal problema al que se enfrenta la minera de contenido web es la naturaleza dinmica de la web y que los datos pueden ser estructurados, semiestructurados o no estructurados del todo.

En mi opinin, los procesos de recuperacin de informacin realizan una funcin primaria que se ocupa de recuperar un grupo de documentos con cierta relevancia y realiza un determinado procesamiento sobre stos. El proceso de recuperacin de informacin puede ser considerado como parte del preprocesamiento del proceso global de la minera de contenido web. Posteriormente, y dependiendo del tipo de documentos recuperados y tipo de consulta a responder, se utilizan tcnicas de minera de texto, extraccin de informacin, minera de la estructura web y bases de datos si existe la posibilidad. Las tcnicas que se utilizan en el ltimo caso citado no son consideradas en este documento, pero cabe mencionar que cuando la personalizacin se realiza en el lado servidor o mediante una arquitectura cliente-servidor su uso resulta muy til y puede ser llevado a cabo con relativa facilidad debido a la cantidad de herramientas disponibles en el rea de las bases de datos relacionales, tanto para recuperar informacin como para el anlisis de esta. En el marco de referencia que se propone en este documento, se sugiere la implementacin de una base de conocimientos gestionada de acuerdo al enfoque mencionado anteriormente. El sistema de personalizacin interacta con esa base de conocimientos pasndole una consulta basada en las preferencias y comportamiento del usuario y cuando recibe una respuesta le realiza una sugerencia al usuario. En los siguientes puntos se detalla el proceso de recuperacin de informacin, minera de la estructura web, extraccin de informacin y minera de texto. 3.4.1 Recuperacin de Informacin

Los objetivos originales de la recuperacin de informacin eran realizar la indexacin de texto para facilitar la bsqueda de documentos tiles en una coleccin. No obstante, en la actualidad, la recuperacin de informacin incluye modelado, clasificacin y categorizacin, arquitectura de sistemas, interfaces de usuario, visualizacin de datos, filtrado y lenguajes, entre otros muchos[7]. En este trabajo se considera la recuperacin de informacin como el proceso de extraccin de los contenidos web, es decir tomar la informacin del sitio web y almacenarla en una unidad de almacenamiento local, as como la organizacin, representacin y acceso a los tems de informacin. Siendo necesaria la aplicacin de tcnicas para remover sufijos y palabras significativas que se repiten con mucha frecuencia, detectar palabras con races idiomticas equivalentes, realizar la clasificacin de palabras claves e indexado. As como seleccionar el tipo de estructura de almacenamiento, implementar los algoritmos para realizar medidas de desempeo y la implementacin de los mecanismos de bsqueda. La determinacin sobre la relevancia de los documentos es un aspecto clave en el proceso de recuperacin de informacin que toma especial importancia en los sistemas de personalizacin. Hiemstra y Robertson[26] presentan un mecanismo de retroalimentacin para ayudar a determinar la relevancia de la informacin y su aplicacin es interesante desde un punto de vista general para el proceso de la minera de contenido en la forma que se discute en este documento.

En el proceso de recuperacin de informacin es posible incorporar la estructura de los documentos, de acuerdo al enfoque que se utilice. En este caso se trata como un proceso separado para facilitar la comprensin del modelo de referencia que se sugiere. 3.4.2 Minera de la estructura web

La minera de la estructura web se encarga de explorar los enlaces en los sitios web, generar grafos a partir de los enlaces y realizar bsquedas en los grafos resultantes con el fin de obtener informacin que pueda resultar relevante para los usuarios. En realidad, la minera de la estructura web se aprovecha de la informacin que contienen los enlaces, que de un sitio web apuntan a otros sitios web, teniendo en consideracin que esta ha sido agregada por los diseadores de los sitios con el objetivo de dirigir al visitante a informacin relevante. Los principales algoritmos utilizados en la minera de la estructura de la web utilizan sistemas de pesos para calificar si la informacin contenida en un sitio es relevante a un tema o no. Para ello, estos algoritmos, identifican los sitios dedicados a proporcionar enlaces sobre diversos temas (que por comodidad los denomino como referenciadores), los clasifican por tema y posteriormente analizan por cada tema la recurrencia de recomendaciones a un mismo sitio web. De acuerdo al resultado del clculo de pesos se realiza la clasificacin de los referenciadores y las pginas web oficiales con la informacin ms relevante y de la mejor calidad sobre un tema[17]. Uno de los algoritmos ms utilizados en la minera de la estructura web es HITS . Dicho algoritmo recupera una muestra representativa de pginas web, que se presume tienen relevancia sobre un tema, y les aplica un procedimiento iterativo que busca determinar los pesos de referenciadores y de los sitio web oficiales. Durante el proceso se construye un subgrafo para iniciar un proceso de exploracin expansiva en donde cada nodo a la vez se contina expandiendo hasta alcanzar una cantidad de niveles predeterminada. Al finalizar dicho proceso se obtiene una lista de pginas web relevantes.
6

Un algoritmo muy referenciado que tambin hace uso de la estructura de la web para encontrar informacin relevante es PageRank. Dicho algoritmo fue desarrollado por Larrry Page y Sergey Brin y es el que utiliza Google para calificar la relevancia de un sitio en relacin con un tema. En el caso de este algoritmo, acta sobre la cantidad y calidad de referencias entre sitios pero no utiliza el texto de los enlaces que se encuentran en los sitios para realzar la calificacin de las pginas. Otro algoritmo muy reciente, de naturaleza similar, que funciona de forma semiautomtica y tiene como objetivo separar quellas pginas consideradas de origen confiable de las que no lo son, es TrustRank. En el artculo escrito por Zoltn Gyngyi [18] se puede encontrar ms informacin sobre el funcionamiento de dicho algoritmo.

Hyperlink Induced Topic Search

3.4.3

Extraccin de informacin

La extraccin de informacin consiste en obtener piezas de informacin relevante a un conjunto de conceptos relacionados haciendo uso de un grupo de documentos restringidos a un dominio[16], mientras que la recuperacin de informacin solamente proporciona una lista de documentos de relevancia potencial. El proceso de la extraccin de informacin contempla una etapa de preprocesamiento, anlisis sintctico, interpretacin semntica, anlisis verbal y como salida produce las piezas de informacin de acuerdo al formato de una plantilla. En el preprocesamiento se crean zonas de texto, se separan las unidades de texto, se realiza filtrado de texto, las unidades lxicas son separadas mediante analizadores lxicos, se identifican las races de las palabras, se utilizan algoritmos para resolucin de ambigedades y se efectan agrupaciones por tpicos. En el anlisis sintctico se busca la coincidencia de patrones y durante la interpretacin semntica las relaciones gramaticales. La extraccin de informacin puede ser aplicada tanto a documentos web como a documentos de texto, por lo que se puede combinar tanto con la recuperacin de informacin tradicional, como con la minera de la estructura de la web la minera de texto. Un ejemplo de la aplicacin de minera de texto haciendo uso de tcnicas de extraccin de informacin puede ser encontrada en el artculo escrito por Raymond J. Mooney[19]. 3.4.4 Minera de texto

Haciendo uso de las diferentes tcnicas de la minera de texto es posible descubrir informacin y encontrar relaciones entre datos que en apariencia no poseen mayor utilidad o relevancia. Una definicin bastante acertada es la que describe la minera de texto como el proceso de encontrar patrones, modelos, tendencias y reglas tiles o interesantes en texto no estructurado[19 et al.] con el fin de responder a una peticin con informacin relevante novedosa o desconocida hasta el momento. Un artculo publicado por Hearst [20] reafirma lo anterior mediante dos casos interesantes; en uno de los casos se hace uso de la minera del texto para formular hiptesis sobre enfermedades y en el otro caso se analiza el impacto social de las investigaciones financiadas con fondos pblicos reflejado en el registro de patentes. Dentro de las principales tcnicas que utiliza la minera de texto para cumplir su cometido se encuentran las de categorizacin del texto, agrupacin de elementos, aprendizaje inductivo y anlisis de informacin. Para categorizar el texto se pueden utilizar algoritmos del tipo SVM7, redes neuronales, algoritmos genticos, sistemas de lgica difusa, clasificacin bayesiana y rboles de decisin entre otras muchas opciones. El algoritmo ms comn para la agrupacin de elementos es el de los k-medios y sus variantes, mientras que en las tcnicas de aprendizaje inductivo se utilizan las reglas de asociacin y el aprendizaje simblico. Para realizar el anlisis de la informacin se puede utilizar el anlisis de la secuencia temporal o algn otro tipo de anlisis estadstico.

Support Vector Machine

Conclusiones

La personalizacin web es un campo de estudio en el cual se han interesado una gran cantidad de investigadores de diferentes disciplinas y que ha tenido como consecuencia la implementacin de estrategias para obtener informacin sobre los usuarios, sus preferencias y comportamiento, pero tambin en el desarrollo de mecanismos para encontrar informacin relevante a los perfiles y necesidades de los usuarios. Como se ha indicado en el presente documento, existe una gran cantidad de tcnicas y algoritmos que pueden ser utilizados tanto en el proceso de personalizacin como en la minera de uso web y en los diferentes componentes de la minera de contenido web. El anexo A es una recopilacin de algunas de esas tcnicas. Sobre las principales dificultades que se enfrentan al realizar un proceso de personalizacin, tienen especial importancia las relacionadas con la identificacin de los usuarios, las de obtencin de informacin de stos y las que procuran identificar las transacciones que realizan. Aunque existen tcnicas efectivas, se requiere la autorizacin del usuario para instalar herramientas en su ordenador y stas pueden tener serias implicaciones relacionadas con la seguridad y la privacidad. Otra de las grandes limitaciones que resulta difcil superar tiene que ver con la realizacin de sugerencias y personalizacin en lnea, principalmente porque los tiempos de respuesta se pueden ver seriamente afectados por la capacidad de procesamiento de los equipos que se utilicen tanto en el lado cliente como servidor, las tcnicas que se implementen y por las caractersticas de los datos, as como las estructuras de las que se haga uso para su almacenamiento y recuperacin. Adicionalmente, los anchos de banda suponen otra limitacin considerable en algunas regiones o pases. Para la creacin de la base de conocimientos que utiliza el sistema de personalizacin, es conveniente realizar combinaciones de estrategias, mtodos, tcnicas y algoritmos con el fin de encontrar o producir informacin til y relevante para las necesidades de los usuarios. De acuerdo a los anlisis realizados previamente, para implementar un sistema de personalizacin es recomendable el uso de componentes cliente-servidor. Debido a que en esta arquitectura el cliente puede administrar parte del proceso de minera de uso y del proceso de personalizacin, mientras que el servidor realiza parte de esos procesos y se encarga de gestionar la gestin de la base de conocimientos con todos sus componentes. Finalmente, es importante indicar que el modelo de referencia propuesto es un buen punto de partida para efectuar un anlisis con mayor profundidad y proponer un modelo que sea adoptado como marco de trabajo en el campo.

5. Referencias bibliogrficas 1. Ricardo Baeza-Yates. Excavando la web. El profesional de la informacin. v13, n1, 2004 2. R. Cooley, B. Mobasher, J. Srivastava. Web Mining: Information and Pattern Discovery on
the World Wide Web. Tools with Artificial Intelligence, 1997. Proceedings., Ninth IEEE International Conference on 3-8 Nov. 1997 Pginas(s):558 567

3. Yuefeng Li, Ning Zhong. Mining Ontology for Automatically Acquiring Web User Information
Needs. IEEE Transactions on Knowledge and Data Engineering, vol. 18 No. 4 Abril 2006. Pginas 554-568.

4. Jaideep Srivastava, Robert Cooley, Mukund Deshpande y Pang-Ning Tan. Web Usage
Mining: Discovery and Applications of Usage Paterns from Web Data. SIGKDD Explorations, ACM. Enero 2000.

5. Bamshad Mobasher. Web Usage Mining and Personalization. CRC Press LLC. 2004 6. Wikipedia, The free Encyclopedia. HTTP cookie. Abril, 2006. http://en.wikipedia.org/wiki/Internet_cookie 7. Ricardo Baeza-Yates and Berthier Ribeiro-Neto. Modern Information retrieval. ACM Press.
Addison Wesley, 1999

8. Web Mining by Patricio Galeas. http://www.galeas.de/webmining.html 9. Nick Craswell, David Hawking. Effective Site Finding using Link Anchor Information. ACM.
2001

10. Kosala, R. and Blockeel, H. Web Mining Research: A Survey. ACM SIGKDD Explorations,

Newsletter of the Special Interest Group on Knowledge Discovery and Data Mining. Page 19, 2000.

11. Ricardo baeza-Yates and Brbara Pobrete. Actas del III Taller Nacional de Minera de

Datos y Aprendizaje, TAMIDA2005, pp.39-48 ISBN: 84-9732-449-8 2005 Los autores, Thomson. http://www.lsi.us.es/redmidas/CEDI/papers/187.pdf

12. Ricardo baeza-Yates, Carlos Castillo, Mauricio Marin and Andrea Rodrguez. 2005
http://www.dcc.uchile.cl/%7Eccastill/papers/baeza05_crawling_country_better_breadth_first_web_page_ ordering.pdf

13. Bing Liu. WWW-2005 Tutorial Web Content Mining. The 14th International World Wide Web
Conference. May 10-14, 2005, Chiba, Japan. http://www.cs.uic.edu/~liub/WebContentMining.html

14. Hans-Peter Kriegel. Web Content Mining. Institute for Computer Science, University of
Munich. Diciembre, 2004. http://www.dbs.informatik.unimuenchen.de/Forschung/KDD/WebContentMining/index.html

15. Soumen Chakrabarti. Data Mining for hypertext: A tutorial survey. SIGKDD Explorations,
ACM. Enero 2000.

16. Jordi Turmo. Information Extraction, Multilinguality and Portability. Revista Iberoamericana
de Inteligencia Artificial No.20, pp. 34-52. ISBN:1137-3601, 2003

17. Soumen Chakrabarti. Mining the Link Structure of the World Wide Web. Computer, volume 32, n.8, pp. 60-67, 1999. http://www.cs.cornell.edu/home/kleinber/ieee99-web.pdf 18. Zoltn Gyngyi, Hctor Garca Molina y Jan Pederson. Combating Web Spam with
TrustRank. Proceedings of the 30 VLDB Conference, Toronto, Canada, 2004. http://www.vldb.org/conf/2004/RS15P3.PDF
th th

19. Raymond J. Mooney. Text Mining with Information Extraction. Multilingualism and Electronic
Language Management: Proceedings of the 4 Internation MIDP Colloquium, Setiembre, 2003. http://www.cs.utexas.edu/users/ml/papers/discotex-dissertation-04.pdf

20. Marti A. Hearst. Untangling Text Data Mining. Proceedings of ACL'99: the 37th Annual

Meeting of the Association for Computational Linguistics, University of Maryland, June 2026, 1999 (invited paper). http://www.sims.berkeley.edu/~hearst/papers/acl99.pdf

21. Hsinchun Chen. Machine Learning for Information Retrieval: Neural Networks, Symbolic

Learning, and Genetic Algorithms. Journal of the American Society for Information Science, 1994. http://ai.bpa.arizona.edu/papers/mlir93/

22. Siegfried Nijssen. Frequent Structure Mining: Efficiency Issues Universitet Leiden.
http://hms.liacs.nl/mgts2004/mgts-intro.pdf

23. Xiaojin Zhu. Semi-Supervised Learning Literature Survey. Computer Sciences, University of Wisconsin-Madison, 2005. http://www.cs.wisc.edu/~jerryzhu/pub/ssl_survey.pdf 24. Pranam Kolari y Anupam Joshi. Web Mining: Research and Practice. Computing in Science
& Engineering, IEEE Volume 06, Issue 4, July-Aug. 2004 Page(s):49 - 53.

25. Nivedita Roy y Tapas Mahapaatra. Web Mining: A key enabler in e-business. Services

Systems and Services Management, 2005. Proceedings of ICSSSM '05. 2005 International Conference on. Volume 2, 13-15 June 2005 Page(s):1121 - 1125 Vol. 2

26. Djoerd Hiemstra y Stephen Robertson. Relevance feedback for best match term weighting
algorithms in information retrieval. Proceedings of the Second DELOS Network of Excellence Workshop on Personalisation and Recommender Systems in Digital Libraries, ERCIM. http://www.ercim.org/publication/ws-proceedings/DelNoe02/hiemstra.pdf

27. Bamshad Mobasher. Improving the effectiveness of colaborative filtering on anonymous


web usage data. School of Computer Science, DePaul University. http://maya.cs.depaul.edu/~classes/ect584/
th

28. Raymond J. Mooney. Text Mining with Information Extraction. Multilingualism and Electronic
Language Management: Proceedings of the 4 Internation MIDP Colloquium, Setiembre, 2003.

Anexo A: Mtodos, modelos, tcnicas y algoritmos que se pueden utilizar en los diferentes procesos de la minera web y personalizacin de sistemas web Mtodos
Modelos bsicos

Modelos
Modelos para texto

Tcnicas o algoritmos
Bag of words Modelo del espacio vectorial Modelo binario Modelo polinmico Creacin de grafos dirigidos a partir de los enlaces web AWA Adaptive Window Algorithm Bsqueda primero en anchura Bsqueda primero en profundidad Minera de subrbol mediante el algoritmo Freqt Induced y variantes Algoritmo TreeMinerV y variantes Algoritmo Induced UNOrdered FFSM gSpan AcGM FSG FTM Directorios de tpicos Modelos probabilsticos Descubrimiento de asociaciones estructurales Descubrimiento de patrones Tcnicas basadas en grafos Clasificacin de Bayes Relajacin de parmetros Redes bayesianas Mxima entropa rboles de decisin Perceptrones SVM (Support Vector Machine) Conexionistas Simblicos k-means Aglomerativa Indexado Semntico Potencial Proyecciones aleatorias Identificabilidad de los datos Correctitud del modelo EM Expectation-Maximization Clasificacin y etiquetado Aprendizaje discriminativo mediante el uso del Kernel de Fisher (Fisher Kernel for discriminative learning)

Modelos para hipertexto[22]

Modelos para datos semiestructurados[23]

Aprendizaje supervisado

Modelos probabilsticos para aprendizaje de texto

Aprendizaje no supervisado

Mtodos para relaciones de aprendizaje Tcnicas bsicas de agrupacin Tcnicas de lgebra lineal Modelos generativos

Aprendizaje[23] semisupervisado

Autoentrenamiento Coentrenamiento Algoritmos para evitar cambios en regiones densas

TSVM Transductive Support Vector Machine Procesos Gaussianos paralelos para TSVM Regularizacin de la informacin Minimizacin de la entropa

Mtodos

Modelos
Mtodos basados en grafos

Tcnicas o algoritmos
Construccin de grafos Regularizacin medio de grafos Induccin basada en grafos Consistencia de algoritmos basados en grafos Entrenamiento semisupervisado en datos estructurados Grafos dirigidos Conexin a modelos grficos estndar PageRank HITS Hyperlink Induced Topic Search ARC Automatic Resource Compilation Outlier Filtering

Anlisis de redes sociales

Anlisis de redes sociales aplicados a la web

Anexo B: Mtodos, tcnicas, procesos y algoritmos de la minera de contenido web Mtodo de Minera del contenido Recuperacin de Informacin[1,7] Tcnica Anlisis Automtico del texto Proceso o algoritmo Remover palabras que ocurren con una frecuencia muy alta (acentos, espaciado, artculos y conectivas) Remover sufijos Detectar palabras con races equivalentes Realizar indexado Representacin y discriminacin de documentos Clasificacin automtica de palabras claves y uso de tesauros. Normalizacin K-medios Clasificacin con el algoritmo QT (Quality Threshold) Clasificacin con el algoritmo difuso cmedios Archivos secuenciales Archivos secuenciales indexados Archivos invertidos Archivos multilistas Archivos celulares multilistas Archivos con estructuras de anillo Listas con mltiples procesos Archivos con direccionamiento asociativo Representaciones jerrquicas Representaciones de red Bases de datos relacionales Bsquedas booleanas Funciones de bsqueda de coincidencias (matching) Bsquedas secuenciales Bsquedas basadas en agrupaciones o clasificaciones existentes Formulacin de bsquedas interactivas Bsquedas con mecanismos de retroalimentacin Relevancia Relevancia algortmica Relevancia temtica Pertinencia de la informacin Relevancia situacional Relevancia motivacional Precisin de la bsqueda de informacin

Clasificacin automtica de palabras claves y documentos

Estructuras de archivos

Estrategias de bsqueda

Medidas de desempeo

Mtodo de Minera del contenido Extraccin de Informacin[16,19]

Tcnica Preprocesamiento del documento

Proceso o algoritmo Creacin de zonas de texto Separadores de unidades de texto Filtrado de texto Separacin de unidades lxicas Analizadores lxicos Algoritmos para la resolucin de ambigedades Identificadores de las races de las palabras Lematizadores Coincidencia de patrones Relaciones gramticales Relacin de las piezas de informacin extradas con el formato de salida deseado PageRank TrustRank HITS y sus variantes

Anlisis sintctico completo o parcial Interpretacin semntica Anlisis verbal Generacin de plantillas Minera de la Estructura web Generacin de grafos dirigidos, asignacin de pesos a los nodos y recorrido de los grafos Categorizacin de texto

Minera de Texto

SVM - Support Vector Machine Redes neuronales Algoritmos genticos Sistemas de lgica difusa Clasificacin bayesiana rboles de decisin Agrupacin de elementos k-medios Aprendizaje inductivo Reglas de asociacin Aprendizaje simblico Anlisis de informacin Anlisis de la secuencia temporal Anlisis estadstico

También podría gustarte