Mining Web

Contenido
Data Mining ........................................................................................................ 2

Fundamentos del Data Mining .......................................................................... 3
Alcance de Data Mining ..................................................................................... 4
Predicción automatizada de tendencias y comportamientos. ..........................................................................4
Descubrimiento automatizado de modelos previamente desconocidos. ......................................................5
Técnicas de Data Mining ................................................................................... 6
Redes neuronales artificiales: .......................................................................................................................................6

Arboles de decisión: ...........................................................................................................................................................6
Algoritmos genéticos: ........................................................................................................................................................6
Método del vecino más cercano: ................................................................................................................................... 7
Regla de inducción: ............................................................................................................................................................. 7
Extensiones de Data Mining .............................................................................. 8
Web contenido mining ....................................................................................................................................................... 8

Web estructura mining..................................................................................................................................................... 8
Web uso mining ................................................................................................................................................................... 8
Herramientas para el Web Mining ..................................................................10
Metadatos ............................................................................................................................................................................. 10
Hiperenlaces ....................................................................................................................................................................... 10
Logs...........................................................................................................................................................................................11
Métodos estadísticos .........................................................................................................................................................11
Reglas de Asociación .........................................................................................................................................................11
Productos para Minería de Datos ...................................................................12
Conclusión .......................................................................................................13
Data Mining
El data mining es reunir las ventajas de varias áreas como
la estadística, la inteligencia artificial, la Computación Gráfica, las
Bases de Datos y el Procesamiento Masivo, principalmente usando
como materia prima las bases de datos. Una definición tradicional
es la siguiente: Un proceso no trivial de identificación válida,
novedosa, potencialmente útil y entendible de patrones
comprensibles que se encuentran ocultos en los datos
la integración de un conjunto de áreas que tienen como propósito
la identificación de un conocimiento obtenido a partir de las bases
de datos que aporten un sesgo hacia la toma de decisión. La idea de
data mining no es nueva. Ya desde los años sesenta los estadísticos
manejaban términos como data fishing, data mining o data
archaeology con la idea de encontrar correlaciones sin
una hipótesis previa en bases de datos con ruido.
El data mining es una tecnología compuesta por etapas que integra
varias áreas y que no se debe confundir con un gran software.
Durante el desarrollo de un proyecto de este tipo se usan
diferentes aplicaciones software en cada etapa
que pueden ser estadísticas, de visualización de datos o
de inteligencia artificial, principalmente. Actualmente existen
aplicaciones o herramientas comerciales de data mining muy
poderosas que contienen un sinfín de utilerías que facilitan el
desarrollo de un proyecto. Sin embargo, casi siempre acaban
complementándose con otra herramienta.
2
Fundamentos del Data
Mining
Las técnicas de Data Mining son el resultado de un largo proceso de
investigación y desarrollo de productos. Esta evolución comenzó
cuando los datos de negocios fueron almacenados por primera vez
en computadoras, y continuó con mejoras en el acceso a los datos,
y más recientemente con tecnologías generadas para permitir a los
usuarios navegar a través de los datos en tiempo real. Data Mining
toma este proceso de evolución más allá del acceso y navegación
retrospectiva de los datos, hacia la entrega de información
prospectiva y proactiva. Data Mining está listo para su aplicación en
la comunidad de negocios porque está soportado por tres
tecnologías que ya están suficientemente maduras:
 Recolección masiva de datos

 Potentes computadoras con multiprocesadores
 Algoritmos de Data Mining
Los componentes esenciales de la tecnología de Data Mining

han estado bajo desarrollo por décadas, en áreas de investigación
como estadísticas, inteligencia artificial y aprendizaje de máquinas.
Hoy, la madurez de estas técnicas, junto con los motores de bases de
datos relacionales de alta performance, hicieron que estas
tecnologías fueran prácticas para los entornos de data warehouse
actuales.
3
Alcance de Data Mining
Las técnicas de Data Mining pueden redituar los beneficios

de automatización en las plataformas de hardware y software
existentes y puede ser implementadas en sistemas nuevos a medida
que las plataformas existentes se actualicen y nuevos productos sean
desarrollados. Cuando las herramientas de Data Mining son
implementadas en sistemas de procesamiento paralelo de alta
performance, pueden analizar bases de datos masivas en minutos.
Procesamiento más rápido significa que los usuarios pueden
automáticamente experimentar con más modelos para entender datos
complejos. Alta velocidad hace que sea práctico para los usuarios
analizar inmensas cantidades de datos. Grandes bases de datos, a su
vez, producen mejores predicciones y al proveer estas dos capacidades.
Predicción automatizada de tendencias y

comportamientos.
Data Mining automatiza el proceso de encontrar información predecible

en grandes bases de datos. Preguntas que tradicionalmente requerían
un intenso análisis manual, ahora pueden ser contestadas directa y
rápidamente desde los datos. Un típico ejemplo de problema predecible
es el marqueting apuntado a objetivos (targeted marketing). Data
Mining usa datos en mailing promocionales anteriores para identificar
posibles objetivos para maximizar los resultados de la inversión en
futuros mailing. Otros problemas predecibles incluyen pronosticos de
problemas financieros futuros y otras formas de incumplimiento, e
4
identificar segmentos de población que probablemente respondan
similarmente a eventos dados.
Descubrimiento automatizado de modelos

previamente desconocidos.
Las herramientas de Data Mining barren las bases de datos e identifican

modelos previamente escondidos en un sólo paso. Otros problemas de
descubrimiento de modelos incluye detectar transacciones fraudulentas
de tarjetas de créditos e identificar datos anormales que pueden
representar errores de tipiado en la carga de datos.
5
Técnicas de Data Mining
Las técnicas más comúnmente usadas en Data Mining son:
Redes neuronales artificiales:

modelos predecibles no-lineales que aprenden a través del
entrenamiento y semejan la estructura de una red neuronal
biológica.
Arboles de decisión:
estructuras de forma de árbol que representan conjuntos de
decisiones. Estas decisiones generan reglas para la
clasificación de un conjunto de datos. Métodos específicos
de arboles de decisión incluyen arboles de Clasificación y
Regresión (CART: Classification And Regression Tree) y
Detección de interraccion Automática de Chi Cuadrado
(CHAI: Chi Square Automatic Interaction Detection).
Algoritmos genéticos:
técnicas de optimización que usan procesos tales como
combinaciones genéticas, mutaciones y selección natural en
un diseño basado en los conceptos de evolución.
6
Método del vecino más cercano:
una técnica que clasifica cada registro en un conjunto de

datos basado en una combinación de las clases del/de
los k registro (s) más similar/es a él en un conjunto de datos
históricos (donde k ? 1). Algunas veces se llama la técnica
del vecino k-más cercano.
Regla de inducción:
la extracción de reglas if-then de datos basados en
significado estadístico.
7
Extensiones de Data Mining
Normalmente, el web mining puede clasificarse en tres dominios de
extracción de conocimiento de acuerdo con la naturaleza de los datos:
Web contenido mining
(minería de contenido web). Es el proceso que consiste en la extracción de
conocimiento del contenido de documentos o sus descripciones. La
localización de patrones en el texto de los documentos, el descubrimiento
del recurso basado en conceptos de indexación o la tecnología basada en
agentes también pueden formar parte de esta categoría.
Web estructura mining
(minería de estructura web). Es el proceso de inferir conocimiento de la
organización del WWW y la estructura de sus ligas.
Web uso mining
(minería de uso web). Es el proceso de extracción de modelos interesantes
usando los logs de los accesos al web.
Algunos de los resultados que pueden obtenerse tras la aplicación de los

diferentes métodos de web mining son:
El ochenta y cinco por ciento de los clientes que acceden a

/productos/home.html y a /productos/noticias.html acceden también a
/productos/historias_suceso.html. Esto podría indicar que existe alguna
noticia interesante de la empresa que hace que los clientes se dirijan a
historias de suceso. Igualmente, este resultado permitiría detectar la noticia
sobresaliente y colocarla quizá en la página principal de la empresa.
Una de las extensiones del data mining consiste en aplicar sus técnicas
a documentos y servicios del Web, lo que se llama web mining (minería de
web) (Kosala y otros, 2000). Todos los que visitan un sitio en Internet dejan
huellas digitales (direcciones de IP, navegador, galletas, etc.) que
los servidores automáticamente almacenan en una bitácora de accesos (log).
8
Las herramientas de web mining analizan y procesan estos logs para producir
información significativa, por ejemplo, cómo es la navegación de un cliente
antes de hacer una compra en línea. Debido a que los contenidos de Internet
consisten en varios tipos de datos, como texto, imagen, vídeo, metadatos o
hiperligas, investigaciones recientes usan el término multimedia data mining
(minería de datos multimedia) como una instancia del web mining para tratar
ese tipo de datos.
9
Herramientas para el Web
Mining
Como ya he comentado al principio, en los tres tipos de extracción de información web se
utilizan técnicas que se venían utilizando con la minería de datos y otras que se han planteado
y perfeccionado en ambos casos. Se trata de campos extremadamente ligados, el primero
centrado en datos hipertextuales en red (W3) y el segundo aplicado a información
estructurada o semi-estructurada que se encuentra en bases de datos. Según pues la rama en
la que se esté trabajando dentro de la extracción de información web, se utilizan más los
elementos formales o los elementos de contenido. Apuntamos algunos de ellos.
Metadatos
Los metadatos, entendidos como normas de representación de la estructura autoidentificativa
del documento. El análisis de estos proporciona un mecanismo formal para la categorización y
clasificación automática de documentos. Aplicando a los metadatos unas determinadas escalas
conceptuales, se pueden construir espacios conceptuales facetados según la perspectiva que
le interese a cada usuario. Esta modalidad de identificación permite el uso de programas y
servicios informáticos. Utilizado principalmente en el Web Mining de Contenido. Con estos
elementos y con la ayuda de la inteligencia artifical, se intenta conseguir deducciones
terminológicas, predicciones en respuestas a consultas compleja, todo ello cuando las
relaciones entre términos y los conceptos que representan no mantienen una relación lineal
directa.
Hiperenlaces
En la tecnología hipertextual, cada bloque de texto contiene una multitud de palabras clave,
pictogramas y/o dibujos que son susceptibles de ser marcados con el ratón. Estos puntos de
intersección, denominados "enlaces". Estos enlaces se pueden desglosar en:
Externos: entre documentos diferentes
Internos: que a su vez pueden ser estructurales (incluyendo elementos multimedia en
el documento, o de referencia a otros puntos del mismo documento.
10
Logs
Los ficheros logs son una grabación de la actividad de un servidor o de un sitio web a lo largo
de un período de tiempo determinado. La información se genera automáticamente y suelen
incluir la dirección IP de los visitantes, la página solicitada junto con la fecha y hora de la
consulta, tiempo de lectura, si han accedido desde buscadores, etc. Suelen ser ficheros
voluminosos y registran visitas automáticas de robots, no efectuadas por usuarios de manera
voluntaria y con una intención.
Carlos Pérez Ruiz | Herramientas para el Web Mining.
Métodos estadísticos
Como el clustering o proceso de encontrar grupos tras un procesamiento de los datos. Es decir,
a priori se desconoce el número de grupos o las características de los mismos. Otro método es
el escalamiento multidimensional (MDS), etc.
Reglas de Asociación
Las relaciones planteadas entre elementos web (contenidos, documentos, instituciones,
usuarios, etc.) se materializan con la inclusión de hiperenlaces. El poder de decisión a la hora
de incluir o no un nuevo enlace muestra el grado de interés hacia ese enlace establecido. Una
de las herencias procedentes del campo de la recuperación de información son los análisis de
citas. Bajo este planteamiento, se establecen relaciones entre elementos u actores sociales.
Las asociaciones entre usuarios que consultan una misma página, los entes que son enlazados
por otros entes, los textos más utilizados a lo largo del tiempo y su conexión con otros textos,
son claros ejemplos de relaciones sincrónicas y diacrónicas. Estas reglas son una técnica
alternativa para detenerse en modelos que se repiten entre usuarios que comparten caminos
transversales similares. En algunos motores de búsqueda se ha implantado ya esta filosofía de
relaciones para una mayor precisión en los resultados obtenidos.
11
Productos para Minería de
Datos
Hoy existen una buena cantidad de productos, de diversos
fabricantes, para minería de datos, varios de ellos impulsados por
universidades reconocidas.
Por enumerar algunos, Intelligent Miner (IBM), KDD Project (GTE
laboratories), Datamind (Datamind Inc), Saxon (PMSI).
Algunos se pueden conseguir en sitios Internet, para las diferentes
plataformas: Data Surveyor (www.ddi.nl), IDIS
(http://datamine.inter.net/datamine),VisDB
(http://www.informatik.uni-halle.de/dbs/Research/VisDB).
Este último producto tiene una versión para sistema
operativo Linux. El VisDB se ha desarrollado para apoyar la
exploración de bancos de datos grandes. Los instrumentos de VisDB
implementan severas técnicas visuales, permitiendo trabajar con
bodegas de datos de aproximadamente un millón de valores de
datos. Las técnicas apoyadas por el sistema son: Técnicas
orientadas a pixel (espirales, Ejes y Técnicas de Agrupación),
Coordenadas Paralelas y figuras de madera.Estos productos, en
forma integrada o separada se basan en: Redes neuronales,
algoritmos genéticos, árboles de decisión, algoritmos estadísticos,
funciones de visualización gráfica, técnica de K-vecinos, reglas
de producción.
12
Conclusión
Nuestra capacidad para almacenar datos ha crecido en los últimos

años a velocidades exponenciales. En contrapartida, nuestra
capacidad para procesarlos y utilizarlos no ha ido a la par. Por este
motivo, el data mining se presenta como una tecnología de apoyo
para explorar, analizar, comprender y aplicar el conocimiento
obtenido usando grandes volúmenes de datos. Descubrir nuevos
caminos que nos ayuden en la identificación de
interesantes estructuras en los datos es una de las tareas
fundamentales en la data mining.
En conclusión, el data mining se presenta como una tecnología

emergente, con varias ventajas: por un lado, resulta un buen punto
de encuentro entre los investigadores y las personas de negocios;
por otro, ahorra grandes cantidades de dinero a una empresa y
abre nuevas oportunidades de negocios. Además, no hay duda de
que trabajar con esta tecnología implica cuidar un sinnúmero de
detalles debido a que el producto final involucra toma de
decisiones.
13
14

Mining Web

Cargado por

Copyright:

Formatos disponibles

También podría gustarte

Mining Web

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mining Web

Cargado por

Copyright:

Formatos disponibles

Contenido

Data Mining ........................................................................................................ 2

Redes neuronales artificiales: .......................................................................................................................................6

Web contenido mining ....................................................................................................................................................... 8

 Recolección masiva de datos

Los componentes esenciales de la tecnología de Data Mining

Las técnicas de Data Mining pueden redituar los beneficios

Predicción automatizada de tendencias y

Data Mining automatiza el proceso de encontrar información predecible

Descubrimiento automatizado de modelos

Las herramientas de Data Mining barren las bases de datos e identifican

Redes neuronales artificiales:

una técnica que clasifica cada registro en un conjunto de

Algunos de los resultados que pueden obtenerse tras la aplicación de los

El ochenta y cinco por ciento de los clientes que acceden a

Nuestra capacidad para almacenar datos ha crecido en los últimos

En conclusión, el data mining se presenta como una tecnología

También podría gustarte