Aplicaciones Mineria de Datos

Minería de datos y aplicaciones
Fernando Virseda Benito Javier Román Carrillo

Universidad Carlos III Universidad Carlos III
NIA 100032962 NIA 100035306
100032962@alumnos.uc3m.es 100035306@alumnos.uc3m.es
OBJETIVO 2. El incremento de las velocidades de cómputo en los

procesadores.
En la primera parte de este trabajo se definirán los conceptos
generales de la minería de datos, así como sus diferentes usos y 3. Las mejoras en la confiabilidad y aumento de la
sus objetivos principales. En la segunda parte se centrará en casos velocidad en la transmisión de datos.
prácticos en los que la minería de datos ha conseguido resultados
sorprendentes. 4. El desarrollo de sistemas administradores de bases de
datos más poderosos.
1. INTRODUCCION
Actualmente todas estas ventajas nos han llevado a abusar del
almacenamiento de la información en las bases de datos. Podemos
Cada día generamos una gran cantidad de información, algunas decir que las empresas almacenan datos pero no todas hacen uso
veces conscientes de que lo hacemos y otras veces inconscientes de ellos. En cambio, si estos datos son leídos y analizados pueden
de ello porque lo desconocemos. Nos damos cuenta de que proporcionar en conjunto un verdadero conocimiento que ayude
generamos información cuando registramos nuestra entrada en el en la toma de decisiones. Así pues, es necesario contar con
trabajo, cuando entramos en un servidor para ver nuestro correo, tecnologías que nos ayuden a explotar el potencial de este tipo de
cuando pagamos con una tarjeta de crédito o cuando reservamos datos.
un billete de avión. Otras veces no nos damos cuenta de que
generamos información, como cuando conducimos por una vía El data mining surge como una tecnología que intenta ayudar a
donde están contabilizando el número de automóviles que pasan comprender el contenido de una base de datos. De forma general,
por minuto, cuando se sigue nuestra navegación por Internet o los datos son la materia prima bruta. En el momento que el
cuando nos sacan una fotografía del rostro al haber pasado cerca usuario les atribuye algún significado especial pasan a convertirse
de una oficina gubernamental. en información. Cuando los especialistas elaboran o encuentran
un modelo, haciendo que la interpretación conjunta entre la
¿Con qué finalidad queremos generar información? Son muchos información y ese modelo represente un valor agregado, entonces
los motivos que nos llevan a generar información, ya que nos nos referimos al conocimiento. En la figura 1 se ilustra la
pueden ayudar a controlar, optimizar, administrar, examinar, jerarquía que existe en una base de datos entre dato, información
investigar, planificar, predecir, someter, negociar o tomar y conocimiento. Se observa igualmente el volumen que presenta
decisiones de cualquier ámbito según el dominio en que nos en cada nivel y el valor que los responsables de las decisiones le
desarrollemos. La información por sí misma está considerada un dan en esa jerarquía. El área interna dentro del triángulo
bien patrimonial. De esta forma, si una empresa tiene una pérdida representa los objetivos que se han propuesto. La separación del
total o parcial de información provoca bastantes perjuicios. Es triángulo representa la estrecha unión entre dato e información, no
evidente que la información debe ser protegida, pero también así entre la información y el conocimiento. El data mining trabaja
explotada. en el nivel superior buscando patrones, comportamientos,
¿Qué nos ha permitido poder generar tanta información? En los agrupaciones, secuencias, tendencias o asociaciones que puedan
últimos años, debido al desarrollo tecnológico a niveles generar algún modelo que nos permita comprender mejor el
exponenciales tanto en el área de cómputo como en la de dominio para ayudar en una posible toma de decisión.
transmisión de datos, ha sido posible que se gestionen de una
mejor manera el manejo y almacenamiento de la información. Sin
duda existen cuatro factores importantes que nos han llevado a
este suceso:
1. El abaratamiento de los sistemas de almacenamiento

tanto temporal como permanente.
hipótesis previa en bases de datos con ruido. A principios de los
años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y
Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar
los términos de data mining y KDD. A finales de los años ochenta
sólo existían un par de empresas dedicadas a esta tecnología; y en
2002 existían más de 100 empresas en el mundo que ofrecían
alrededor de 300 soluciones. Las listas de discusión sobre este
tema las forman investigadores de más de ochenta países. Esta
tecnología ha sido un buen punto de encuentro entre personas
pertenecientes al ámbito académico y al de los negocios.
El data mining es una tecnología compuesta por etapas que
integra varias áreas y que no se debe confundir con un gran
software. Durante el desarrollo de un proyecto de este tipo se usan
diferentes aplicaciones software en cada etapa que pueden ser
estadísticas, de visualización de datos o de inteligencia artificial,
principalmente. Actualmente existen aplicaciones o herramientas
comerciales de data mining muy poderosas que facilitan el
Figura 1. Relación entre dato, información y conocimiento. desarrollo de un proyecto. Sin embargo, casi siempre acaban
complementándose con otra herramienta.
Con todo lo anterior podemos decir que Data Mining es el
proceso de descubrir patrones de información interesante y
potencialmente útiles, inmersos en una gran base de datos en la
que se interactúa constantemente. Data Mining es una 3. ¿DÓNDE SE ULTILIZA LA MINERÍA
combinación de procesos como: DE DATOS?
• Extracción de datos
La utilidad de Data Mining se puede dar dentro de los siguientes
• Limpieza de datos. aspectos:
• Selección de características. Sistemas parcialmente desconocidos: Si el modelo del

sistema que produce los datos es bien conocido, entonces no
• Algoritmos. necesitamos de la minería de datos ya que todas las variables
son de alguna manera predecibles. Este no es el caso del
comercio electrónico, debido a los efectos del
• Análisis de resultados.
comportamiento humano, el clima y de decisiones políticas
entre otros. En estos casos habrá una parte del sistema que es
conocida y habrá una parte aparentemente de naturaleza
aleatoria. Bajo ciertas circunstancias, a partir de una gran
2. MINERÍA DE DATOS. CONCEPTOS E
cantidad de datos asociada con el sistema, existe la
HISTORIA posibilidad de encontrar nuevos aspectos previamente
desconocidos del modelo.
Aunque desde un punto de vista académico el término data
mining es una etapa dentro de un proceso mayor llamado Enorme cantidad de datos: Al contar con mucha información
extracción de conocimiento en bases de datos (Knowledge en algunas bases de datos es importante para una empresa
Discovery in Databases o KDD) en el entorno comercial, ambos encontrar la forma de analizar "montañas" de información (lo
términos se usan de manera indistinta. Lo que en verdad hace el que para un humano sería imposible) y que ello le produzca
data mining es reunir las ventajas de varias áreas como la algún tipo de beneficio.
Estadística, la Inteligencia Artificial, la Computación Gráfica, las
Bases de Datos y el Procesamiento Masivo, principalmente Potente hardware y software: Muchas de las herramientas
usando como materia prima las bases de datos. Una definición presentes en la minería de datos están basadas en el uso
tradicional es la siguiente: "Un proceso no trivial de identificación intensivo de la computación, en consecuencia, un equipo
válida, novedosa, potencialmente útil y entendible de patrones conveniente y un software eficiente, con el cual cuente una
comprensibles que se encuentran ocultos en los datos". Desde otro compañía, aumentará el desempeño del proceso de buscar y
punto de vista se define como "la integración de un conjunto de analizar información, el cual a veces debe vérselas con
áreas que tienen como propósito la identificación de un producciones de datos del orden de los Gbytes/hora
conocimiento obtenido a partir de las bases de datos que aporten (repetimos, algo humanamente imposible). El uso del data
un sesgo hacia la toma de decisión”. mining puede ser provechoso en el caso de poseer datos
sobre sus procesos productivos, datos de seguimiento de
La idea de data mining no es nueva. Ya desde los años sesenta los clientes, datos externos de mercado, datos sobre la actividad
estadísticos manejaban términos como data fishing, data mining o de competidores, etc.
data archaeology con la idea de encontrar correlaciones sin una
4. OBJETIVOS PRINCIPALES DE LA 1. Los basados en la elección de los mejores atributos del
problema.
MINERÍA DE DATOS
2. Los que buscan variables independientes mediante tests
Data Mining persigue ciertos objetivos de manera específica: de sensibilidad, algoritmos de distancia o heurísticos.
Descripción: El principal producto del proceso de la minería de
Extracción de Conocimiento: Mediante una técnica se obtiene un
datos es el descubrimiento de reglas. Estas mostrarán nuevas
modelo de conocimiento, que representa patrones de
relaciones entre las variables o excepciones de acuerdo a la
comportamiento observados en los valores de las variables del
empresa en que se utilice este proceso. Ello enriquecerá el análisis
problema o relaciones de asociación entre dichas variables.
y la descripción de la forma en que trabaja una compañía y
También pueden usarse varias técnicas a la vez para generar
ayudará en la planificación y en el diseño de futuros cambios. Es
distintos modelos.
posible que algunas de las reglas descubiertas no puedan ser
cambiadas, pero si resulte posible realizar modificaciones
Interpretación y evaluación: Finalmente se procede a su
apropiadas en la organización con el propósito de mejorar su
validación, comprobando que las conclusiones son válidas y
desempeño.
satisfactorias. En el caso de haber obtenido varios modelos
Predicción(Forecasting): Una vez descubiertas reglas importantes, mediante el uso de distintas técnicas, se deben comparar los
estas pueden ser utilizadas pera estimar algunas variables de modelos en busca de aquel que se ajuste mejor al problema. Si
salida. Puede ser en el caso de secuencias en el tiempo, o bien en ninguno de los modelos alcanza los resultados esperados, se
la identificación e interrupción a tiempo, de una futura mala alterará alguno de los procesos anteriores en busca de nuevos
experiencia de crédito. En esta tarea, se complementan las modelos.
técnicas estadísticas tradicionales con aquellas provenientes de la
inteligencia artificial. Conceptos adaptativos como los algoritmos 6. APLICACIONES DE LA MINERÍA DE
genéticos y las redes neuronales, permiten realizar predicciones DATOS
más acertadas, especialmente en casos de gran complejidad y con
relaciones internas. 6.1 Gobiernos
5. FASES GENERALES PARA LA 6.1.1 El FBI analizará las bases de datos
CREACIÓN DE UN PROYECTO DE comerciales para detectar terroristas.
MINERÍA DE DATOS
A principios del mes de julio de 2002, el director del FBI en
En esta parte se emplean cuatro fases independientemente de la Estados Unidos, John Aschcroft, anunció que el Departamento de
técnica específica de extracción de conocimiento usada. Justicia comenzaría a introducirse en la enorme cantidad de datos
comerciales en los que se revelan hábitos y costumbres de la
1. Filtrado de datos. población, con el fin de poder identificar a potenciales terroristas
con antelación a que puedan cometer un atentado. Algunos
2. Selección de Variables. expertos aseguran que, con esta información, el FBI unirá todas
las bases de datos mediante el número de la Seguridad Social y
3. Extracción de Conocimiento. permitirá saber si una persona fuma, qué talla y tipo de ropa usa,
si ha sido arrestado y cuantas veces, el barrio donde vive, si en
4. Interpretación y Evaluación.
este se cometen mas o menos delitos, su salario, las revistas a las
que está suscrito, su altura y peso, sus contribuciones a la Iglesia,
Estas fases las explicamos a continuación.
grupos políticos u organizaciones no gubernamentales, sus
enfermedades crónicas, los libros que lee, los productos de
Filtrado de datos: El formato de los datos contenidos en la fuente
supermercado que compra, si tomó clases de vuelo o si tiene
de datos nunca es el idóneo, y la mayoría de las veces no es
cuentas de banco abiertas, entre otros. La inversión inicial ronda
posible utilizar ningún algoritmo de minería. Mediante el
los 70 millones de $ estadounidenses para consolidar los
preprocesado, se filtran los datos (se eliminan valores incorrectos,
almacenes de datos, desarrollar redes de seguridad que sean
no válidos, desconocidos, etc.), se obtienen muestras de los
capaces de compartir la información e implementar nuevo
mismos (mayor velocidad de respuesta del proceso), o se reducen
software analítico y de visualización.
el número de valores posibles (mediante redondeo, agrupamiento,
etc.). Con este tipo de aplicaciones sale de nuevo el tema ético de la
privacidad y libertad de los individuos. En el fondo la aplicación
Selección de variables: Aún después de haber sido preprocesados, es un gran hermano que observa cualquier movimiento que se
se sigue teniendo una cantidad ingente de datos. La selección de haga, pudiendo estos ser utilizados para otros fines distintos a los
características reduce el tamaño de los datos, eligiendo las que fue diseñado.
variables más influyentes en el problema, sin apenas sacrificar la
calidad del modelo de conocimiento obtenido del proceso de 6.2 Empresariales
minería. Los métodos para la selección de características son dos:
6.2.1 Detección de fraudes en las tarjetas de crédito. La BBC (British Broadcasting Corporation) del Reino Unido
emplea un sistema para predecir el tamaño de las audiencias
televisivas de un programa determinado, así como la hora óptima
En 2001, las instituciones financieras a escala mundial perdieron de emisión (Brachman y otros, 1996). El sistema utiliza redes
del orden de 2.000 millones de dólares en fraudes cometidos con neuronales y árboles de decisión aplicados a datos históricos de la
tarjetas de crédito. El Falcon Fraud Manager es un sistema cadena para determinar los criterios que participan según el
inteligente que examina transacciones, propietarios de tarjetas y programa que hay que presentar, según el contenido del programa
datos financieros para intentar detectar y paliar el número de (humor, serie, película, show) y otros muchos factores. La versión
fraudes. En un principio estaba pensado, en instituciones final se desempeña tan bien como si se tratara de un profesional
financieras de Norteamérica, para detectar fraudes en tarjetas de con experiencia, con la ventaja de que se adapta más fácilmente a
crédito. Sin embargo, actualmente se le han incorporado los cambios porque está siendo constantemente entrenada con
funcionalidades de análisis en las tarjetas comerciales, de datos actuales.
combustibles y de débito. El sistema Falcon ha permitido ahorrar
más de seiscientos millones de dólares al año y proteger
aproximadamente más de cuatrocientos cincuenta millones de
6.2.4 Supermercados Wal-mart
pagos con tarjeta en todo el mundo, aproximadamente el 65% de
todas las transacciones con tarjeta de crédito. Hace algunos años uno de estos supermercados se hizo la
pregunta sobre qué productos se vendían con mayor frecuencia en
La solución de Falcon usa una sofisticada combinación de
compañía de los pañales. Pues bien, “minearon” la base de datos y
modelos de redes neuronales para analizar el pago mediante
encontraron que en asociación con los pañales se vendían muy
tarjeta y detectar los más remotos casos de fraude. Lleva siendo
frecuentemente las cervezas. Además, se dieron cuenta que ambos
usado durante más de 15 años y monitoriza alrededor de 450
productos se vendían principalmente los viernes en la tarde y eran
millones de cuentas distribuidas en los 6 continentes.
comprados por hombres con edades entre los 25 y 35 años de
edad.
6.2.2 Migración de clientes entre distintas
compañías Después de cierto tiempo descubrieron la razón de este hallazgo.
El caso es que los paquetes de pañales son voluminosos, y las
esposas, que en muchos casos hacen la compra de la casa, dejan
Un ejemplo es el estudio de la migración de clientes de una los pañales para que el esposo los compre. El esposo y padre,
operadora de comunicaciones móvil a otra. Este estudio fue compraba los pañales especialmente los viernes, en compañía de
desarrollado en una operadora española que básicamente situó sus las cervezas para el fin de semana.
objetivos en dos puntos:
Como consecuencia de esto el supermercado puso la cerveza al
- El análisis del perfil de los clientes que se dan de baja lado de los pañales. El resultado fue que los padres que
- La predicción del comportamiento de sus nuevos clientes normalmente llegaban a comprar los pañales y la cerveza,
compraron más cervezas, y los que antes no compraban cerveza,
Se analizaron las diferencias históricas entre clientes que habían empezaron a comprarla por la proximidad de ésta con los pañales.
abandonado la operadora (12,6%) y de los clientes que Finalmente las ventas de cerveza se dispararon.
continuaban con su servicio (87,4%). También se analizaron las
variables personales de cada cliente (estado civil, edad, sexo,
nacionalidad, etc.). De igual forma se estudiaron para cada cliente 6.3 Universidad
la morosidad, la frecuencia y el horario de uso del servicio, los
6.3.1 Conociendo si los recién titulados de una
descuentos y el porcentaje de llamadas locales, interprovinciales,
internacionales y gratuitas. Al contrario de lo que se podría universidad llevan a cabo actividades profesionales
pensar, los clientes que abandonaban la operadora generaban relacionadas con sus estudios.
ganancias para la empresa; sin embargo, una de las conclusiones
más importantes radicaba en el hecho de que los clientes que se Se realizo un estudio sobre los recién titulados de la carrera de
daban de baja recibían pocas promociones y registraban un mayor Ingeniería en Sistemas Computacionales del Instituto Tecnológico
número de incidencias respecto a la media. de Chihuahua II en Méjico. Se quería observar si los recién
Como resultado de este estudio de minería de datos se recomendó titulados se insertaban en actividades profesionales relacionadas
a la operadora hacer un estudio sobre sus ofertas y analizar con sus estudios y, en caso negativo, se buscaba saber el perfil
profundamente las incidencias recibidas por esos clientes. Al que caracterizó a los ex-alumnos durante su estancia en la
descubrir el perfil que presentaban, la operadora tuvo que diseñar universidad. Se deseaba concluir si con los planes de estudio de la
un trato más personalizado para sus clientes actuales con esas universidad y el rendimiento del alumno se hacía una buena
características. Para poder predecir el comportamiento de sus inserción laboral o si existían otras variables que participaban en
nuevos clientes se diseñó un sistema de predicción basado en la el proceso. Dentro de la información considerada estaba el sexo,
cantidad de datos que se podía obtener de los nuevos clientes la edad, la escuela de procedencia, el desempeño académico, la
comparados con el comportamiento de clientes anteriores. zona económica donde tenía su vivienda y la actividad
profesional, entre otras variables. Mediante la aplicación de
6.2.3 Predicción del tamaño de las audiencias conjuntos aproximados se descubrió que existían cuatro variables
televisivas que determinaban la adecuada inserción laboral, que son citadas
de acuerdo con su importancia:
se relaciona con el estilo de juego de un país concreto donde se
1. Zona económica donde habitaba el estudiante practica el fútbol.
2. Colegio de donde provenía

3. Nota al ingresar 6.5.2 NBA: Knicks de New York y Patrick Ewing
4. Promedio final al salir de la carrera
Los equipos de la NBA también utilizan aplicaciones inteligentes
A partir de estos resultados, la universidad obtuvo como resultado para apoyar a su cuerpo de entrenadores. El Advanced Scout es un
que las tres características más importantes no tenían relación con software que emplea técnicas de Data Mining y que han
la universidad, y si de la economía de la zona donde provenía el desarrollado investigadores de IBM para detectar patrones
estudiante. Por lo que podía plantearse nuevas soluciones de tipo estadísticos y eventos extraños. Tiene una interfaz gráfica muy
socioeconómico, como becas en empresas u otras. amigable orientada a un objetivo muy específico: analizar el juego
de los equipos de la National Basketball Association (NBA).El
software utiliza todos los registros guardados de cada evento en
6.4 Investigación espacial cada juego: pases, encestes, rebotes y doble marcaje (double team)
6.4.1 Proyecto SKYCAT a un jugador por el equipo contrario, entre otros. El objetivo es
ayudar a los entrenadores a aislar eventos que no detectan cuando
observan el juego en vivo o en película. Un resultado interesante
Durante seis años, el Second Palomar Observatory Sky Survey fue uno hasta entonces no observado por los entrenadores de los
(POSS-II) coleccionó tres terabytes de imágenes que contenían Knicks de Nueva York. El doble marcaje a un jugador puede
aproximadamente dos millones de objetos en el cielo. Tres mil generalmente dar la oportunidad a otro jugador de encestar más
fotografías fueron digitalizadas a una resolución de 16 bits por fácilmente. Sin embargo, cuando los Bulls de Chicago jugaban
píxel con 23040 x 23040 píxeles por imagen. El objetivo era contra los Knicks, se encontró que el porcentaje de encestes
formar un catálogo de todos esos objetos. El sistema Sky Image después de que al centro de los Knicks, Patrick Ewing, le hicieran
Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de doble marcaje era extremadamente bajo, indicando que los Knicks
agrupación (clustering) y árboles de decisión para poder clasificar no reaccionaban correctamente a los dobles marcajes. Para saber
los objetos en estrellas, planetas, sistemas, galaxias, etc. con una el porqué, el cuerpo de entrenadores estudió cuidadosamente
alta confiabilidad. Los resultados han ayudado a los astrónomos a todas las películas de juegos contra Chicago. Observaron que los
descubrir dieciséis nuevos quásares (señales radiales lejanas) con jugadores de Chicago rompían su doble marcaje muy rápido de tal
corrimiento hacia el rojo que los incluye entre los objetos más forma que podían tapar al encestador libre de los Knicks antes de
lejanos del universo y, por consiguiente, más antiguos. Los prepararse para efectuar su tiro. Con este conocimiento, los
quásares son fuentes de Rayos X, radiación ultravioleta, luz entrenadores crearon estrategias alternativas para tratar con el
visible y también infrarroja; en otras palabras, la emisión de doble marcaje. La temporada pasada, IBM ofreció el Advanced
radiación de los quásares resulta intensa en todo el espectro Scout a la NBA, que se convirtió así en un patrocinador
electromagnético. Estos quásares son difíciles de encontrar y corporativo. La NBA dio a sus veintinueve equipos la
permiten saber más acerca de los orígenes del universo. oportunidad de aplicarlo. Dieciocho equipos lo están haciendo
hasta el momento obteniendo descubrimientos interesantes.
6.5 Deporte
6.6 Textos: Text Mining
6.5.1 A.C Milan
Estudios recientes indican que la mayor parte de la toda la
El AC de Milán utiliza un sistema inteligente para prevenir información de una compañía está almacenada en forma de
lesiones. El club posee redes neuronales para prevenir lesiones y documentos. Sin duda, este campo de estudio es muy complejo y
optimizar el acondicionamiento de cada atleta. Esto ayuda a de dimensiones enormes, por lo que técnicas como pueden ser la
seleccionar el fichaje de un posible jugador o a alertar al médico
categorización de texto, el procesamiento de lenguaje natural, la
del equipo de una posible lesión. El sistema, creado por Computer
extracción y recuperación de la información o el aprendizaje
Associates International, es alimentado por datos de cada jugador,
automático, entre otras, apoyan al text mining (minería de texto).
relacionados con su rendimiento, alimentación y respuesta a
En ocasiones se confunde el text mining con la recuperación de la
estímulos externos, que se obtienen y analizan cada quince días.
información (Information Retrieval o IR). Ésta última consiste en
El jugador lleva a cabo determinadas actividades que son
la recuperación automática de documentos relevantes mediante
monitorizadas por veinticuatro sensores conectados al cuerpo y
indexaciones de textos, clasificación, categorización, etc.
que transmiten señales de radio que posteriormente son
Generalmente se utilizan palabras clave para encontrar una página
almacenadas en una base de datos. Actualmente el sistema
relevante. En cambio, el text mining se refiere a examinar una
dispone de 5000 casos registrados que permiten predecir alguna
colección de documentos y descubrir información no contenida
posible lesión. Con ello, el club intenta ahorrar dinero evitando
en ningún documento individual de la colección; en otras
comprar jugadores que presenten una alta probabilidad de lesión,
palabras, trata de obtener información sin haber partido de algo.
lo que haría incluso renegociar su contrato. Por otra parte, el
sistema pretende encontrar las diferencias entre las lesiones de
atletas de ambos sexos, así como saber si una determinada lesión
6.6.1 Medicina
Una aplicación muy popular del text mining es relatada en Hearst una página hasta llegar al contenido deseado, así, si se encuentra
(1999). Don Swanson intenta extraer información derivada de que una gran cantidad de usuarios acceden a un link alejado de la
colecciones de texto. Teniendo en cuenta que los expertos sólo página principal se puede poner un acceso directo desde la misma
pueden leer una pequeña parte de todo lo que se publica en su y así ahorrar tiempo a lo navegantes y conseguir un mayor
campo, y por lo general tampoco pueden tener en cuenta los beneficio. O incluir publicidad en los links que se visitarán más
nuevos desarrollos que se suceden en otros campos relacionados, frecuentemente.
y teniendo en cuenta que la cantidad de nuevos documentos que Normalmente, la minería de datos de Web puede clasificarse en
se publican es cada vez mayor, la aplicación de la minería de tres dominios de extracción de conocimiento de acuerdo a la
datos en colecciones de texto va resultando más importante. Así, naturaleza de los datos:
Swanson ha demostrado cómo cadenas de implicaciones causales
dentro de la literatura médica pueden conducir a hipótesis para
enfermedades poco frecuentes, algunas de las cuales han recibido 1. Web content mining (minería de contenido web). Es el
pruebas de soporte experimental. Investigando las causas de la proceso que consiste en la extracción de conocimiento
migraña, dicho investigador extrajo varias piezas de evidencia a del contenido de documentos o sus descripciones. La
partir de títulos de artículos presentes en la literatura biomédica. localización de patrones en el texto de los documentos,
Algunas de esas claves fueron: el descubrimiento del recurso basado en conceptos de
indexación o la tecnología basada en agentes también
pueden formar parte de esta categoría.
• El estrés está asociado con la migraña.
• El estrés puede conducir a la pérdida de magnesio. 2. Web structure mining (minería de estructura web). Es el
• Los bloqueadores de canales de calcio previenen algunas proceso de relacionar el conocimiento de la
migrañas. organización del www y la estructura de sus ligas.
• El magnesio es un bloqueador natural del canal de calcio.
• La depresión cortical diseminada (DCD) está implicada en
algunas migrañas. 3. Web usage mining (minería de uso web). Es el proceso
• Los niveles altos de magnesio inhiben la DCD. de extracción de modelos interesantes usando los logs
• Los pacientes con migraña tienen una alta agregación de los accesos al web.
plaquetaria.
• El magnesio puede suprimir la agregación plaquetaria. Algunos de los resultados que podrían obtenerse tras la aplicación
de los diferentes métodos de web mining a una página ficticia son:
Estas claves sugieren que la deficiencia de magnesio podría El ochenta y cinco por ciento de los clientes que acceden a
representar un papel en algunos tipos de migraña, una hipótesis /productos/home.html y a /productos/noticias.html acceden
que no existía en la literatura y que Swanson encontró mediante también a /productos/historias_suceso.html. Esto podría indicar
esas ligas. De acuerdo con Swanson , estudios posteriores han que existe alguna noticia interesante de la empresa que hace que
probado experimentalmente esta hipótesis obtenida por text los clientes se dirijan a historias de suceso. Igualmente, este
mining con buenos resultados. resultado permitiría detectar la noticia sobresaliente y colocarla
quizá en la página principal de la empresa.
6.7 Internet: Web Mining O también se pueden observar casos donde los clientes que hacen
una compra en línea cada semana en /compra/producto1.html
Una de las aplicaciones de la minería de datos consiste en aplicar tienden a ser de sectores de la población determinado, como
sus técnicas a documentos y servicios Web, lo que se denomina estudiantes, pensionistas, funcionarios u otros. Esto podría
comúnmente con el término inglés web mining (minería de Web). resultar en proponer diversas ofertas a este sector para y así
Cada vez que un usuario visita un sitio Web va dejando todo tipo conseguir un potenciamineto en las comprar por parte de estos
de “huellas” Web (direcciones de IP, navegador, galletas, etc.) grupos.
que los servidores automáticamente almacenan en una base de El sesenta por ciento de los clientes que hicieron una compra en
datos (log). Las herramientas de web mining analizan y procesan línea en /compra/producto1.html también compraron en
esta abundante cantidad de datos para producir información /compra/producto4.html después de un mes. Esto indica que se
significativa, por ejemplo, cómo es la navegación de un cliente podría recomendar en la página del producto 1 comprar el
antes de hacer una compra en línea. Debido a que los contenidos producto 4 y ahorrarse el costo de envío de este producto.
de Internet consisten en varios tipos de datos, como texto, imagen,
vídeo, metadatos o hiperligas, investigaciones recientes usan el
término multimedia data mining (minería de datos multimedia) 6.7.1 Radio personalizada en Internet: Last.fm
como una instancia del web mining para tratar ese tipo de datos.
Los accesos totales por dominio, horarios de accesos más
Last.fm es una radio vía Internet y además un sistema de
frecuentes y visitas por día, entre otros datos, son registrados por
recomendación de música que construye perfiles y estadísticas
herramientas estadísticas que complementan todo el proceso de
sobre gustos musicales, basándose en los datos enviados por los
análisis del web mining.
usuarios registrados. En la radio se puede seleccionar las
También es muy importante como los link en los sitios Web son canciones según las preferencias personales (de acuerdo a un
utilizados. Se puede saber cuantos links debe pasar el usuario en algoritmo y a las estadísticas) o de otros usuarios. El servicio es
de código abierto. Se fusionó con su proyecto hermano ninguna persona. Así, se consigue que estas sean de una gran
Audioscrobbler en agosto de 2005. calidad según las visitas recibidas, notas de otros usuarios, rating
Un usuario de Last.fm puede construir un perfil musical usando del usuario que la colgo etc.
dos métodos: escuchando su colección musical personal en una
aplicación de música con un plugin de Audioscrobbler, o
escuchando el servicio de radio a través de Internet de Last.fm, 7. CONCLUSIONES
normalmente con el reproductor de Last.fm. Las canciones
escuchadas son añadidas a un registro desde donde se calcularán La capacidad para almacenar datos ha crecido en los últimos años
los gráficos de barras de tus artistas y canciones favoritos, además a velocidades exponenciales. En el otro extremo, nuestra
de las recomendaciones musicales. capacidad para procesar esta enorme cantidad de datos para por
Las recomendaciones son calculadas usando un algoritmo utilizarlos eficazmente no ha ido a la par. Por este motivo, el data
colaborativo de filtrado, así los usuarios pueden explorar una lista mining se presenta como una tecnología de apoyo para explorar,
de artistas no listados en su propio perfil pero que si que aparecen analizar, comprender y aplicar el conocimiento obtenido usando
en otros usuarios con gustos similares. Last.fm también permite a grandes volúmenes de datos. Descubrir nuevos caminos que nos
los usuarios manualmente recomendar discos específicos a otros ayuden en la identificación de interesantes estructuras en los datos
usuarios (siempre que el disco esté incluido en la base de datos). es una de las tareas fundamentales en el data mining.
Además, Last.fm soporta etiquetaje de artistas por el usuario final.
Los usuarios pueden explorar vía etiquetas, pero el beneficio más En el ámbito comercial, resulta interesante encontrar patrones
importante es la radio etiquetada, permitiendo a los usuarios ocultos de consumo de los clientes para poder explorar nuevos
escuchar música que ha sido etiquetada de una manera horizontes. Saber que un vehículo deportivo corre un riesgo de
determinada. Este etiquetaje puede ser por género ("garage rock, accidente casi igual al de un vehículo normal cuando su dueño
Indie…"), humor ("relajado"), característica artística ("barítono"), tiene un segundo vehículo en casa ayuda a crear nuevas
o cualquier otra forma de clasificación hecha por el usuario final. estrategias comerciales para ese grupo de clientes. Asimismo,
predecir el comportamiento de un futuro cliente, basándose en los
Quizá la característica más usada por la comunidad de Last.fm es
datos históricos de clientes que presentaron el mismo perfil, ayuda
la formación de grupos de usuarios con algo en común (por
a poder retenerlo durante el mayor tiempo posible.
ejemplo, militancia en otro foro de Internet). Last.fm generará un
perfil de grupos similar a los perfiles de los usuarios, mostrando
una amalgama de datos y mostrando listas con los gustos globales Las herramientas comerciales de data mining que existen
del grupo. actualmente en el mercado son muy variadas y excelentes en
diversas aplicaciones. Las hay orientadas al estudio del web o al
Los sellos musicales y los artistas son ayudados a promocionarse
análisis de documentos o de clientes de supermercado, mientras
en Last.fm, porque el filtraje y recomendación son características
que otras son de uso más general. Su correcta elección depende de
que hacen que la música sea escuchada por usuarios que le gusten
la necesidad de la empresa y de los objetivos a corto y largo plazo
artistas similares. El stock musical de Last.fm contiene más de
que pretenda alcanzar. La decisión de seleccionar una solución de
100.000 canciones.
data mining no es una tarea simple. Es necesario consultar a
Como un sistema masivo de puntuación musical, Last.fm tiene expertos en el área con vista a seleccionar la más adecuada para el
varias ventajas sobre las listas musicales tradicionales. Mientras problema de la empresa.
las listas tradicionales miden el éxito de una canción por el
En resumen, el data mining se presenta como una tecnología
número de unidades vendidas y de reproducciones de radio,
emergente, con varias ventajas: por un lado, resulta un buen punto
Last.fm lo mide por el número de gente que reproduce la canción.
de encuentro entre los investigadores y las personas de negocios;
por otro, ahorra grandes cantidades de dinero a una empresa y
6.7.2 Flickr abre nuevas oportunidades de negocios. Además, no hay duda de
que trabajar con esta tecnología implica cuidar una
Flickr es un sitio web de organización de fotografías digitales y infinidad de detalles debido a que el producto final involucra
red social. El servicio es utilizado extensamente como depósito de "toma de decisiones".
fotos.
Además, el sistema de Flickr emplea técnicas de clustering de 8. REFERENCIAS
datos para agrupar las imágenes por etiquetas o tags (al igual que
Last.fm). Simplemente son palabras que permiten definir algo. [1] Artículo: “Data mining: torturando a los datos hasta que
Por ejemplo si subimos una imagen de la Playa Punta de Palma de confiesen”. Luis Carlos Molina Felix. Universitat Politècnica
Izabal, Guatemala, puedo clasificarla con las siguiente etiquetas: de Catalunya.
“playa” “mar” “izabal” y “guatemala”.
[2] Artículo Wikipedia “Last.fm”.
Pero Flickr es más que un simple sitio Web donde poder colgar
tus fotos, puedes crear un perfil de usuario y encontrar gente [3] Web www.last.fm.com
alrededor del mundo con gustos similares a los tuyos y agregarlos
a tus lista de contactos.
También almacena diariamente una colección sobre las mejores
fotos que se van colgando en el servidor sin que intervenga

Aplicaciones Mineria de Datos

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Aplicaciones Mineria de Datos

Cargado por

Copyright:

Formatos disponibles

Minería de datos y aplicaciones

Fernando Virseda Benito Javier Román Carrillo

OBJETIVO 2. El incremento de las velocidades de cómputo en los

1. El abaratamiento de los sistemas de almacenamiento

• Selección de características. Sistemas parcialmente desconocidos: Si el modelo del

2. Colegio de donde provenía

También podría gustarte