Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Mining Web
Mining Web
Mining Web
2
Fundamentos del Data
Mining
Las técnicas de Data Mining son el resultado de un largo proceso de
investigación y desarrollo de productos. Esta evolución comenzó
cuando los datos de negocios fueron almacenados por primera vez
en computadoras, y continuó con mejoras en el acceso a los datos,
y más recientemente con tecnologías generadas para permitir a los
usuarios navegar a través de los datos en tiempo real. Data Mining
toma este proceso de evolución más allá del acceso y navegación
retrospectiva de los datos, hacia la entrega de información
prospectiva y proactiva. Data Mining está listo para su aplicación en
la comunidad de negocios porque está soportado por tres
tecnologías que ya están suficientemente maduras:
3
Alcance de Data Mining
4
identificar segmentos de población que probablemente respondan
similarmente a eventos dados.
5
Técnicas de Data Mining
Las técnicas más comúnmente usadas en Data Mining son:
Arboles de decisión:
estructuras de forma de árbol que representan conjuntos de
decisiones. Estas decisiones generan reglas para la
clasificación de un conjunto de datos. Métodos específicos
de arboles de decisión incluyen arboles de Clasificación y
Regresión (CART: Classification And Regression Tree) y
Detección de interraccion Automática de Chi Cuadrado
(CHAI: Chi Square Automatic Interaction Detection).
Algoritmos genéticos:
técnicas de optimización que usan procesos tales como
combinaciones genéticas, mutaciones y selección natural en
un diseño basado en los conceptos de evolución.
6
Método del vecino más cercano:
Regla de inducción:
la extracción de reglas if-then de datos basados en
significado estadístico.
7
Extensiones de Data Mining
Normalmente, el web mining puede clasificarse en tres dominios de
extracción de conocimiento de acuerdo con la naturaleza de los datos:
Web contenido mining
(minería de contenido web). Es el proceso que consiste en la extracción de
conocimiento del contenido de documentos o sus descripciones. La
localización de patrones en el texto de los documentos, el descubrimiento
del recurso basado en conceptos de indexación o la tecnología basada en
agentes también pueden formar parte de esta categoría.
Web estructura mining
(minería de estructura web). Es el proceso de inferir conocimiento de la
organización del WWW y la estructura de sus ligas.
Web uso mining
(minería de uso web). Es el proceso de extracción de modelos interesantes
usando los logs de los accesos al web.
8
Las herramientas de web mining analizan y procesan estos logs para producir
información significativa, por ejemplo, cómo es la navegación de un cliente
antes de hacer una compra en línea. Debido a que los contenidos de Internet
consisten en varios tipos de datos, como texto, imagen, vídeo, metadatos o
hiperligas, investigaciones recientes usan el término multimedia data mining
(minería de datos multimedia) como una instancia del web mining para tratar
ese tipo de datos.
9
Herramientas para el Web
Mining
Como ya he comentado al principio, en los tres tipos de extracción de información web se
utilizan técnicas que se venían utilizando con la minería de datos y otras que se han planteado
y perfeccionado en ambos casos. Se trata de campos extremadamente ligados, el primero
centrado en datos hipertextuales en red (W3) y el segundo aplicado a información
estructurada o semi-estructurada que se encuentra en bases de datos. Según pues la rama en
la que se esté trabajando dentro de la extracción de información web, se utilizan más los
elementos formales o los elementos de contenido. Apuntamos algunos de ellos.
Metadatos
Los metadatos, entendidos como normas de representación de la estructura autoidentificativa
del documento. El análisis de estos proporciona un mecanismo formal para la categorización y
clasificación automática de documentos. Aplicando a los metadatos unas determinadas escalas
conceptuales, se pueden construir espacios conceptuales facetados según la perspectiva que
le interese a cada usuario. Esta modalidad de identificación permite el uso de programas y
servicios informáticos. Utilizado principalmente en el Web Mining de Contenido. Con estos
elementos y con la ayuda de la inteligencia artifical, se intenta conseguir deducciones
terminológicas, predicciones en respuestas a consultas compleja, todo ello cuando las
relaciones entre términos y los conceptos que representan no mantienen una relación lineal
directa.
Hiperenlaces
En la tecnología hipertextual, cada bloque de texto contiene una multitud de palabras clave,
pictogramas y/o dibujos que son susceptibles de ser marcados con el ratón. Estos puntos de
intersección, denominados "enlaces". Estos enlaces se pueden desglosar en:
Externos: entre documentos diferentes
Internos: que a su vez pueden ser estructurales (incluyendo elementos multimedia en
el documento, o de referencia a otros puntos del mismo documento.
10
Logs
Los ficheros logs son una grabación de la actividad de un servidor o de un sitio web a lo largo
de un período de tiempo determinado. La información se genera automáticamente y suelen
incluir la dirección IP de los visitantes, la página solicitada junto con la fecha y hora de la
consulta, tiempo de lectura, si han accedido desde buscadores, etc. Suelen ser ficheros
voluminosos y registran visitas automáticas de robots, no efectuadas por usuarios de manera
voluntaria y con una intención.
Carlos Pérez Ruiz | Herramientas para el Web Mining.
Métodos estadísticos
Como el clustering o proceso de encontrar grupos tras un procesamiento de los datos. Es decir,
a priori se desconoce el número de grupos o las características de los mismos. Otro método es
el escalamiento multidimensional (MDS), etc.
Reglas de Asociación
Las relaciones planteadas entre elementos web (contenidos, documentos, instituciones,
usuarios, etc.) se materializan con la inclusión de hiperenlaces. El poder de decisión a la hora
de incluir o no un nuevo enlace muestra el grado de interés hacia ese enlace establecido. Una
de las herencias procedentes del campo de la recuperación de información son los análisis de
citas. Bajo este planteamiento, se establecen relaciones entre elementos u actores sociales.
Las asociaciones entre usuarios que consultan una misma página, los entes que son enlazados
por otros entes, los textos más utilizados a lo largo del tiempo y su conexión con otros textos,
son claros ejemplos de relaciones sincrónicas y diacrónicas. Estas reglas son una técnica
alternativa para detenerse en modelos que se repiten entre usuarios que comparten caminos
transversales similares. En algunos motores de búsqueda se ha implantado ya esta filosofía de
relaciones para una mayor precisión en los resultados obtenidos.
11
Productos para Minería de
Datos
Hoy existen una buena cantidad de productos, de diversos
fabricantes, para minería de datos, varios de ellos impulsados por
universidades reconocidas.
Por enumerar algunos, Intelligent Miner (IBM), KDD Project (GTE
laboratories), Datamind (Datamind Inc), Saxon (PMSI).
Algunos se pueden conseguir en sitios Internet, para las diferentes
plataformas: Data Surveyor (www.ddi.nl), IDIS
(http://datamine.inter.net/datamine),VisDB
(http://www.informatik.uni-halle.de/dbs/Research/VisDB).
Este último producto tiene una versión para sistema
operativo Linux. El VisDB se ha desarrollado para apoyar la
exploración de bancos de datos grandes. Los instrumentos de VisDB
implementan severas técnicas visuales, permitiendo trabajar con
bodegas de datos de aproximadamente un millón de valores de
datos. Las técnicas apoyadas por el sistema son: Técnicas
orientadas a pixel (espirales, Ejes y Técnicas de Agrupación),
Coordenadas Paralelas y figuras de madera.Estos productos, en
forma integrada o separada se basan en: Redes neuronales,
algoritmos genéticos, árboles de decisión, algoritmos estadísticos,
funciones de visualización gráfica, técnica de K-vecinos, reglas
de producción.
12
Conclusión
13
14