Articulo Introductorio de La Mineria de Datos

Minera de datos y aplicaciones
Fernando Virseda Benito

Universidad Carlos III NIA 100032962
Javier Romn Carrillo

Universidad Carlos III NIA 100035306
100032962@alumnos.uc3m.es
100035306@alumnos.uc3m.es
OBJETIVO
En la primera parte de este trabajo se definirn los conceptos generales de la minera de datos, as como sus diferentes usos y sus objetivos principales. En la segunda parte se centrar en casos prcticos en los que la minera de datos ha conseguido resultados sorprendentes.
2. 3. 4.
El incremento de las velocidades de cmputo en los procesadores. Las mejoras en la confiabilidad y aumento de la velocidad en la transmisin de datos. El desarrollo de sistemas administradores de bases de datos ms poderosos.
1. INTRODUCCION
Cada da generamos una gran cantidad de informacin, algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos. Nos damos cuenta de que generamos informacin cuando registramos nuestra entrada en el trabajo, cuando entramos en un servidor para ver nuestro correo, cuando pagamos con una tarjeta de crdito o cuando reservamos un billete de avin. Otras veces no nos damos cuenta de que generamos informacin, como cuando conducimos por una va donde estn contabilizando el nmero de automviles que pasan por minuto, cuando se sigue nuestra navegacin por Internet o cuando nos sacan una fotografa del rostro al haber pasado cerca de una oficina gubernamental. Con qu finalidad queremos generar informacin? Son muchos los motivos que nos llevan a generar informacin, ya que nos pueden ayudar a controlar, optimizar, administrar, examinar, investigar, planificar, predecir, someter, negociar o tomar decisiones de cualquier mbito segn el dominio en que nos desarrollemos. La informacin por s misma est considerada un bien patrimonial. De esta forma, si una empresa tiene una prdida total o parcial de informacin provoca bastantes perjuicios. Es evidente que la informacin debe ser protegida, pero tambin explotada. Qu nos ha permitido poder generar tanta informacin? En los ltimos aos, debido al desarrollo tecnolgico a niveles exponenciales tanto en el rea de cmputo como en la de transmisin de datos, ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacin. Sin duda existen cuatro factores importantes que nos han llevado a este suceso: 1. El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente.
Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacin en las bases de datos. Podemos decir que las empresas almacenan datos pero no todas hacen uso de ellos. En cambio, si estos datos son ledos y analizados pueden proporcionar en conjunto un verdadero conocimiento que ayude en la toma de decisiones. As pues, es necesario contar con tecnologas que nos ayuden a explotar el potencial de este tipo de datos. El data mining surge como una tecnologa que intenta ayudar a comprender el contenido de una base de datos. De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algn significado especial pasan a convertirse en informacin. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretacin conjunta entre la informacin y ese modelo represente un valor agregado, entonces nos referimos al conocimiento. En la figura 1 se ilustra la jerarqua que existe en una base de datos entre dato, informacin y conocimiento. Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarqua. El rea interna dentro del tringulo representa los objetivos que se han propuesto. La separacin del tringulo representa la estrecha unin entre dato e informacin, no as entre la informacin y el conocimiento. El data mining trabaja en el nivel superior buscando patrones, comportamientos, agrupaciones, secuencias, tendencias o asociaciones que puedan generar algn modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisin.
hiptesis previa en bases de datos con ruido. A principios de los aos ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los trminos de data mining y KDD. A finales de los aos ochenta slo existan un par de empresas dedicadas a esta tecnologa; y en 2002 existan ms de 100 empresas en el mundo que ofrecan alrededor de 300 soluciones. Las listas de discusin sobre este tema las forman investigadores de ms de ochenta pases. Esta tecnologa ha sido un buen punto de encuentro entre personas pertenecientes al mbito acadmico y al de los negocios. El data mining es una tecnologa compuesta por etapas que integra varias reas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadsticas, de visualizacin de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de data mining muy poderosas que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementndose con otra herramienta.
Figura 1. Relacin entre dato, informacin y conocimiento. Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacin interesante y potencialmente tiles, inmersos en una gran base de datos en la que se interacta constantemente. Data Mining es una combinacin de procesos como:
3. DNDE SE ULTILIZA LA MINERA DE DATOS?

La utilidad de Data Mining se puede dar dentro de los siguientes aspectos: Sistemas parcialmente desconocidos: Si el modelo del sistema que produce los datos es bien conocido, entonces no necesitamos de la minera de datos ya que todas las variables son de alguna manera predecibles. Este no es el caso del comercio electrnico, debido a los efectos del comportamiento humano, el clima y de decisiones polticas entre otros. En estos casos habr una parte del sistema que es conocida y habr una parte aparentemente de naturaleza aleatoria. Bajo ciertas circunstancias, a partir de una gran cantidad de datos asociada con el sistema, existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo. Enorme cantidad de datos: Al contar con mucha informacin en algunas bases de datos es importante para una empresa encontrar la forma de analizar "montaas" de informacin (lo que para un humano sera imposible) y que ello le produzca algn tipo de beneficio. Potente hardware y software: Muchas de las herramientas presentes en la minera de datos estn basadas en el uso intensivo de la computacin, en consecuencia, un equipo conveniente y un software eficiente, con el cual cuente una compaa, aumentar el desempeo del proceso de buscar y analizar informacin, el cual a veces debe vrselas con producciones de datos del orden de los Gbytes/hora (repetimos, algo humanamente imposible). El uso del data mining puede ser provechoso en el caso de poseer datos sobre sus procesos productivos, datos de seguimiento de clientes, datos externos de mercado, datos sobre la actividad de competidores, etc.
Extraccin de datos Limpieza de datos. Seleccin de caractersticas. Algoritmos. Anlisis de resultados.
2. MINERA DE DATOS. CONCEPTOS E HISTORIA

Aunque desde un punto de vista acadmico el trmino data mining es una etapa dentro de un proceso mayor llamado extraccin de conocimiento en bases de datos (Knowledge Discovery in Databases o KDD) en el entorno comercial, ambos trminos se usan de manera indistinta. Lo que en verdad hace el data mining es reunir las ventajas de varias reas como la Estadstica, la Inteligencia Artificial, la Computacin Grfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos. Una definicin tradicional es la siguiente: "Un proceso no trivial de identificacin vlida, novedosa, potencialmente til y entendible de patrones comprensibles que se encuentran ocultos en los datos". Desde otro punto de vista se define como "la integracin de un conjunto de reas que tienen como propsito la identificacin de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisin. La idea de data mining no es nueva. Ya desde los aos sesenta los estadsticos manejaban trminos como data fishing, data mining o data archaeology con la idea de encontrar correlaciones sin una
4. OBJETIVOS PRINCIPALES DE LA MINERA DE DATOS

Data Mining persigue ciertos objetivos de manera especfica: Descripcin: El principal producto del proceso de la minera de datos es el descubrimiento de reglas. Estas mostrarn nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso. Ello enriquecer el anlisis y la descripcin de la forma en que trabaja una compaa y ayudar en la planificacin y en el diseo de futuros cambios. Es posible que algunas de las reglas descubiertas no puedan ser cambiadas, pero si resulte posible realizar modificaciones apropiadas en la organizacin con el propsito de mejorar su desempeo. Prediccin(Forecasting): Una vez descubiertas reglas importantes, estas pueden ser utilizadas pera estimar algunas variables de salida. Puede ser en el caso de secuencias en el tiempo, o bien en la identificacin e interrupcin a tiempo, de una futura mala experiencia de crdito. En esta tarea, se complementan las tcnicas estadsticas tradicionales con aquellas provenientes de la inteligencia artificial. Conceptos adaptativos como los algoritmos genticos y las redes neuronales, permiten realizar predicciones ms acertadas, especialmente en casos de gran complejidad y con relaciones internas.
1. 2.
Los basados en la eleccin de los mejores atributos del problema. Los que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heursticos.
Extraccin de Conocimiento: Mediante una tcnica se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos. Interpretacin y evaluacin: Finalmente se procede a su validacin, comprobando que las conclusiones son vlidas y satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, se alterar alguno de los procesos anteriores en busca de nuevos modelos.
6. APLICACIONES DE LA MINERA DE DATOS 6.1 Gobiernos

6.1.1 El FBI analizar las bases de datos comerciales para detectar terroristas.
A principios del mes de julio de 2002, el director del FBI en Estados Unidos, John Aschcroft, anunci que el Departamento de Justicia comenzara a introducirse en la enorme cantidad de datos comerciales en los que se revelan hbitos y costumbres de la poblacin, con el fin de poder identificar a potenciales terroristas con antelacin a que puedan cometer un atentado. Algunos expertos aseguran que, con esta informacin, el FBI unir todas las bases de datos mediante el nmero de la Seguridad Social y permitir saber si una persona fuma, qu talla y tipo de ropa usa, si ha sido arrestado y cuantas veces, el barrio donde vive, si en este se cometen mas o menos delitos, su salario, las revistas a las que est suscrito, su altura y peso, sus contribuciones a la Iglesia, grupos polticos u organizaciones no gubernamentales, sus enfermedades crnicas, los libros que lee, los productos de supermercado que compra, si tom clases de vuelo o si tiene cuentas de banco abiertas, entre otros. La inversin inicial ronda los 70 millones de $ estadounidenses para consolidar los almacenes de datos, desarrollar redes de seguridad que sean capaces de compartir la informacin e implementar nuevo software analtico y de visualizacin. Con este tipo de aplicaciones sale de nuevo el tema tico de la privacidad y libertad de los individuos. En el fondo la aplicacin es un gran hermano que observa cualquier movimiento que se haga, pudiendo estos ser utilizados para otros fines distintos a los que fue diseado.
5. FASES GENERALES PARA LA CREACIN DE UN PROYECTO DE MINERA DE DATOS

En esta parte se emplean cuatro fases independientemente de la tcnica especfica de extraccin de conocimiento usada. 1. 2. 3. 4. Filtrado de datos. Seleccin de Variables. Extraccin de Conocimiento. Interpretacin y Evaluacin.
Estas fases las explicamos a continuacin. Filtrado de datos: El formato de los datos contenidos en la fuente de datos nunca es el idneo, y la mayora de las veces no es posible utilizar ningn algoritmo de minera. Mediante el preprocesado, se filtran los datos (se eliminan valores incorrectos, no vlidos, desconocidos, etc.), se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso), o se reducen el nmero de valores posibles (mediante redondeo, agrupamiento, etc.). Seleccin de variables: An despus de haber sido preprocesados, se sigue teniendo una cantidad ingente de datos. La seleccin de caractersticas reduce el tamao de los datos, eligiendo las variables ms influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minera. Los mtodos para la seleccin de caractersticas son dos:
6.2 Empresariales
6.2.1 Deteccin de fraudes en las tarjetas de crdito.

En 2001, las instituciones financieras a escala mundial perdieron del orden de 2.000 millones de dlares en fraudes cometidos con tarjetas de crdito. El Falcon Fraud Manager es un sistema inteligente que examina transacciones, propietarios de tarjetas y datos financieros para intentar detectar y paliar el nmero de fraudes. En un principio estaba pensado, en instituciones financieras de Norteamrica, para detectar fraudes en tarjetas de crdito. Sin embargo, actualmente se le han incorporado funcionalidades de anlisis en las tarjetas comerciales, de combustibles y de dbito. El sistema Falcon ha permitido ahorrar ms de seiscientos millones de dlares al ao y proteger aproximadamente ms de cuatrocientos cincuenta millones de pagos con tarjeta en todo el mundo, aproximadamente el 65% de todas las transacciones con tarjeta de crdito. La solucin de Falcon usa una sofisticada combinacin de modelos de redes neuronales para analizar el pago mediante tarjeta y detectar los ms remotos casos de fraude. Lleva siendo usado durante ms de 15 aos y monitoriza alrededor de 450 millones de cuentas distribuidas en los 6 continentes.
La BBC (British Broadcasting Corporation) del Reino Unido emplea un sistema para predecir el tamao de las audiencias televisivas de un programa determinado, as como la hora ptima de emisin (Brachman y otros, 1996). El sistema utiliza redes neuronales y rboles de decisin aplicados a datos histricos de la cadena para determinar los criterios que participan segn el programa que hay que presentar, segn el contenido del programa (humor, serie, pelcula, show) y otros muchos factores. La versin final se desempea tan bien como si se tratara de un profesional con experiencia, con la ventaja de que se adapta ms fcilmente a los cambios porque est siendo constantemente entrenada con datos actuales.
6.2.4 Supermercados Wal-mart

Hace algunos aos uno de estos supermercados se hizo la pregunta sobre qu productos se vendan con mayor frecuencia en compaa de los paales. Pues bien, minearon la base de datos y encontraron que en asociacin con los paales se vendan muy frecuentemente las cervezas. Adems, se dieron cuenta que ambos productos se vendan principalmente los viernes en la tarde y eran comprados por hombres con edades entre los 25 y 35 aos de edad. Despus de cierto tiempo descubrieron la razn de este hallazgo. El caso es que los paquetes de paales son voluminosos, y las esposas, que en muchos casos hacen la compra de la casa, dejan los paales para que el esposo los compre. El esposo y padre, compraba los paales especialmente los viernes, en compaa de las cervezas para el fin de semana. Como consecuencia de esto el supermercado puso la cerveza al lado de los paales. El resultado fue que los padres que normalmente llegaban a comprar los paales y la cerveza, compraron ms cervezas, y los que antes no compraban cerveza, empezaron a comprarla por la proximidad de sta con los paales. Finalmente las ventas de cerveza se dispararon.
6.2.2 Migracin de clientes entre distintas compaas

Un ejemplo es el estudio de la migracin de clientes de una operadora de comunicaciones mvil a otra. Este estudio fue desarrollado en una operadora espaola que bsicamente situ sus objetivos en dos puntos: - El anlisis del perfil de los clientes que se dan de baja - La prediccin del comportamiento de sus nuevos clientes Se analizaron las diferencias histricas entre clientes que haban abandonado la operadora (12,6%) y de los clientes que continuaban con su servicio (87,4%). Tambin se analizaron las variables personales de cada cliente (estado civil, edad, sexo, nacionalidad, etc.). De igual forma se estudiaron para cada cliente la morosidad, la frecuencia y el horario de uso del servicio, los descuentos y el porcentaje de llamadas locales, interprovinciales, internacionales y gratuitas. Al contrario de lo que se podra pensar, los clientes que abandonaban la operadora generaban ganancias para la empresa; sin embargo, una de las conclusiones ms importantes radicaba en el hecho de que los clientes que se daban de baja reciban pocas promociones y registraban un mayor nmero de incidencias respecto a la media. Como resultado de este estudio de minera de datos se recomend a la operadora hacer un estudio sobre sus ofertas y analizar profundamente las incidencias recibidas por esos clientes. Al descubrir el perfil que presentaban, la operadora tuvo que disear un trato ms personalizado para sus clientes actuales con esas caractersticas. Para poder predecir el comportamiento de sus nuevos clientes se dise un sistema de prediccin basado en la cantidad de datos que se poda obtener de los nuevos clientes comparados con el comportamiento de clientes anteriores.
6.3 Universidad
6.3.1 Conociendo si los recin titulados de una universidad llevan a cabo actividades profesionales relacionadas con sus estudios.
Se realizo un estudio sobre los recin titulados de la carrera de Ingeniera en Sistemas Computacionales del Instituto Tecnolgico de Chihuahua II en Mjico. Se quera observar si los recin titulados se insertaban en actividades profesionales relacionadas con sus estudios y, en caso negativo, se buscaba saber el perfil que caracteriz a los ex-alumnos durante su estancia en la universidad. Se deseaba concluir si con los planes de estudio de la universidad y el rendimiento del alumno se haca una buena insercin laboral o si existan otras variables que participaban en el proceso. Dentro de la informacin considerada estaba el sexo, la edad, la escuela de procedencia, el desempeo acadmico, la zona econmica donde tena su vivienda y la actividad profesional, entre otras variables. Mediante la aplicacin de conjuntos aproximados se descubri que existan cuatro variables que determinaban la adecuada insercin laboral, que son citadas de acuerdo con su importancia:
6.2.3 Prediccin del tamao de las audiencias televisivas
1. Zona econmica donde habitaba el estudiante 2. Colegio de donde provena 3. Nota al ingresar 4. Promedio final al salir de la carrera A partir de estos resultados, la universidad obtuvo como resultado que las tres caractersticas ms importantes no tenan relacin con la universidad, y si de la economa de la zona donde provena el estudiante. Por lo que poda plantearse nuevas soluciones de tipo socioeconmico, como becas en empresas u otras.
se relaciona con el estilo de juego de un pas concreto donde se practica el ftbol.
6.5.2 NBA: Knicks de New York y Patrick Ewing

Los equipos de la NBA tambin utilizan aplicaciones inteligentes para apoyar a su cuerpo de entrenadores. El Advanced Scout es un software que emplea tcnicas de Data Mining y que han desarrollado investigadores de IBM para detectar patrones estadsticos y eventos extraos. Tiene una interfaz grfica muy amigable orientada a un objetivo muy especfico: analizar el juego de los equipos de la National Basketball Association (NBA).El software utiliza todos los registros guardados de cada evento en cada juego: pases, encestes, rebotes y doble marcaje (double team) a un jugador por el equipo contrario, entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no detectan cuando observan el juego en vivo o en pelcula. Un resultado interesante fue uno hasta entonces no observado por los entrenadores de los Knicks de Nueva York. El doble marcaje a un jugador puede generalmente dar la oportunidad a otro jugador de encestar ms fcilmente. Sin embargo, cuando los Bulls de Chicago jugaban contra los Knicks, se encontr que el porcentaje de encestes despus de que al centro de los Knicks, Patrick Ewing, le hicieran doble marcaje era extremadamente bajo, indicando que los Knicks no reaccionaban correctamente a los dobles marcajes. Para saber el porqu, el cuerpo de entrenadores estudi cuidadosamente todas las pelculas de juegos contra Chicago. Observaron que los jugadores de Chicago rompan su doble marcaje muy rpido de tal forma que podan tapar al encestador libre de los Knicks antes de prepararse para efectuar su tiro. Con este conocimiento, los entrenadores crearon estrategias alternativas para tratar con el doble marcaje. La temporada pasada, IBM ofreci el Advanced Scout a la NBA, que se convirti as en un patrocinador corporativo. La NBA dio a sus veintinueve equipos la oportunidad de aplicarlo. Dieciocho equipos lo estn haciendo hasta el momento obteniendo descubrimientos interesantes.
6.4 Investigacin espacial

6.4.1 Proyecto SKYCAT
Durante seis aos, el Second Palomar Observatory Sky Survey (POSS-II) coleccion tres terabytes de imgenes que contenan aproximadamente dos millones de objetos en el cielo. Tres mil fotografas fueron digitalizadas a una resolucin de 16 bits por pxel con 23040 x 23040 pxeles por imagen. El objetivo era formar un catlogo de todos esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en tcnicas de agrupacin (clustering) y rboles de decisin para poder clasificar los objetos en estrellas, planetas, sistemas, galaxias, etc. con una alta confiabilidad. Los resultados han ayudado a los astrnomos a descubrir diecisis nuevos qusares (seales radiales lejanas) con corrimiento hacia el rojo que los incluye entre los objetos ms lejanos del universo y, por consiguiente, ms antiguos. Los qusares son fuentes de Rayos X, radiacin ultravioleta, luz visible y tambin infrarroja; en otras palabras, la emisin de radiacin de los qusares resulta intensa en todo el espectro electromagntico. Estos qusares son difciles de encontrar y permiten saber ms acerca de los orgenes del universo.
6.5 Deporte
6.5.1 A.C Milan
El AC de Miln utiliza un sistema inteligente para prevenir lesiones. El club posee redes neuronales para prevenir lesiones y optimizar el acondicionamiento de cada atleta. Esto ayuda a seleccionar el fichaje de un posible jugador o a alertar al mdico del equipo de una posible lesin. El sistema, creado por Computer Associates International, es alimentado por datos de cada jugador, relacionados con su rendimiento, alimentacin y respuesta a estmulos externos, que se obtienen y analizan cada quince das. El jugador lleva a cabo determinadas actividades que son monitorizadas por veinticuatro sensores conectados al cuerpo y que transmiten seales de radio que posteriormente son almacenadas en una base de datos. Actualmente el sistema dispone de 5000 casos registrados que permiten predecir alguna posible lesin. Con ello, el club intenta ahorrar dinero evitando comprar jugadores que presenten una alta probabilidad de lesin, lo que hara incluso renegociar su contrato. Por otra parte, el sistema pretende encontrar las diferencias entre las lesiones de atletas de ambos sexos, as como saber si una determinada lesin
6.6 Textos: Text Mining

Estudios recientes indican que la mayor parte de la toda la informacin de una compaa est almacenada en forma de documentos. Sin duda, este campo de estudio es muy complejo y de dimensiones enormes, por lo que tcnicas como pueden ser la categorizacin de texto, el procesamiento de lenguaje natural, la extraccin y recuperacin de la informacin o el aprendizaje automtico, entre otras, apoyan al text mining (minera de texto). En ocasiones se confunde el text mining con la recuperacin de la informacin (Information Retrieval o IR). sta ltima consiste en la recuperacin automtica de documentos relevantes mediante indexaciones de textos, clasificacin, categorizacin, etc. Generalmente se utilizan palabras clave para encontrar una pgina relevante. En cambio, el text mining se refiere a examinar una coleccin de documentos y descubrir informacin no contenida en ningn documento individual de la coleccin; en otras palabras, trata de obtener informacin sin haber partido de algo.
6.6.1 Medicina
Una aplicacin muy popular del text mining es relatada en Hearst (1999). Don Swanson intenta extraer informacin derivada de colecciones de texto. Teniendo en cuenta que los expertos slo pueden leer una pequea parte de todo lo que se publica en su campo, y por lo general tampoco pueden tener en cuenta los nuevos desarrollos que se suceden en otros campos relacionados, y teniendo en cuenta que la cantidad de nuevos documentos que se publican es cada vez mayor, la aplicacin de la minera de datos en colecciones de texto va resultando ms importante. As, Swanson ha demostrado cmo cadenas de implicaciones causales dentro de la literatura mdica pueden conducir a hiptesis para enfermedades poco frecuentes, algunas de las cuales han recibido pruebas de soporte experimental. Investigando las causas de la migraa, dicho investigador extrajo varias piezas de evidencia a partir de ttulos de artculos presentes en la literatura biomdica. Algunas de esas claves fueron: El estrs est asociado con la migraa. El estrs puede conducir a la prdida de magnesio. Los bloqueadores de canales de calcio previenen algunas migraas. El magnesio es un bloqueador natural del canal de calcio. La depresin cortical diseminada (DCD) est implicada en algunas migraas. Los niveles altos de magnesio inhiben la DCD. Los pacientes con migraa tienen una alta agregacin plaquetaria. El magnesio puede suprimir la agregacin plaquetaria.
una pgina hasta llegar al contenido deseado, as, si se encuentra que una gran cantidad de usuarios acceden a un link alejado de la pgina principal se puede poner un acceso directo desde la misma y as ahorrar tiempo a lo navegantes y conseguir un mayor beneficio. O incluir publicidad en los links que se visitarn ms frecuentemente. Normalmente, la minera de datos de Web puede clasificarse en tres dominios de extraccin de conocimiento de acuerdo a la naturaleza de los datos: 1. Web content mining (minera de contenido web). Es el proceso que consiste en la extraccin de conocimiento del contenido de documentos o sus descripciones. La localizacin de patrones en el texto de los documentos, el descubrimiento del recurso basado en conceptos de indexacin o la tecnologa basada en agentes tambin pueden formar parte de esta categora. Web structure mining (minera de estructura web). Es el proceso de relacionar el conocimiento de la organizacin del www y la estructura de sus ligas. Web usage mining (minera de uso web). Es el proceso de extraccin de modelos interesantes usando los logs de los accesos al web.
2.
3.
Algunos de los resultados que podran obtenerse tras la aplicacin de los diferentes mtodos de web mining a una pgina ficticia son: El ochenta y cinco por ciento de los clientes que acceden a /productos/home.html y a /productos/noticias.html acceden tambin a /productos/historias_suceso.html. Esto podra indicar que existe alguna noticia interesante de la empresa que hace que los clientes se dirijan a historias de suceso. Igualmente, este resultado permitira detectar la noticia sobresaliente y colocarla quiz en la pgina principal de la empresa. O tambin se pueden observar casos donde los clientes que hacen una compra en lnea cada semana en /compra/producto1.html tienden a ser de sectores de la poblacin determinado, como estudiantes, pensionistas, funcionarios u otros. Esto podra resultar en proponer diversas ofertas a este sector para y as conseguir un potenciamineto en las comprar por parte de estos grupos. El sesenta por ciento de los clientes que hicieron una compra lnea en /compra/producto1.html tambin compraron /compra/producto4.html despus de un mes. Esto indica que podra recomendar en la pgina del producto 1 comprar producto 4 y ahorrarse el costo de envo de este producto. en en se el
Estas claves sugieren que la deficiencia de magnesio podra representar un papel en algunos tipos de migraa, una hiptesis que no exista en la literatura y que Swanson encontr mediante esas ligas. De acuerdo con Swanson , estudios posteriores han probado experimentalmente esta hiptesis obtenida por text mining con buenos resultados.
6.7 Internet: Web Mining

Una de las aplicaciones de la minera de datos consiste en aplicar sus tcnicas a documentos y servicios Web, lo que se denomina comnmente con el trmino ingls web mining (minera de Web). Cada vez que un usuario visita un sitio Web va dejando todo tipo de huellas Web (direcciones de IP, navegador, galletas, etc.) que los servidores automticamente almacenan en una base de datos (log). Las herramientas de web mining analizan y procesan esta abundante cantidad de datos para producir informacin significativa, por ejemplo, cmo es la navegacin de un cliente antes de hacer una compra en lnea. Debido a que los contenidos de Internet consisten en varios tipos de datos, como texto, imagen, vdeo, metadatos o hiperligas, investigaciones recientes usan el trmino multimedia data mining (minera de datos multimedia) como una instancia del web mining para tratar ese tipo de datos. Los accesos totales por dominio, horarios de accesos ms frecuentes y visitas por da, entre otros datos, son registrados por herramientas estadsticas que complementan todo el proceso de anlisis del web mining. Tambin es muy importante como los link en los sitios Web son utilizados. Se puede saber cuantos links debe pasar el usuario en
6.7.1 Radio personalizada en Internet: Last.fm

Last.fm es una radio va Internet y adems un sistema de recomendacin de msica que construye perfiles y estadsticas sobre gustos musicales, basndose en los datos enviados por los usuarios registrados. En la radio se puede seleccionar las canciones segn las preferencias personales (de acuerdo a un algoritmo y a las estadsticas) o de otros usuarios. El servicio es
de cdigo abierto. Se fusion con su proyecto hermano Audioscrobbler en agosto de 2005. Un usuario de Last.fm puede construir un perfil musical usando dos mtodos: escuchando su coleccin musical personal en una aplicacin de msica con un plugin de Audioscrobbler, o escuchando el servicio de radio a travs de Internet de Last.fm, normalmente con el reproductor de Last.fm. Las canciones escuchadas son aadidas a un registro desde donde se calcularn los grficos de barras de tus artistas y canciones favoritos, adems de las recomendaciones musicales. Las recomendaciones son calculadas usando un algoritmo colaborativo de filtrado, as los usuarios pueden explorar una lista de artistas no listados en su propio perfil pero que si que aparecen en otros usuarios con gustos similares. Last.fm tambin permite a los usuarios manualmente recomendar discos especficos a otros usuarios (siempre que el disco est incluido en la base de datos). Adems, Last.fm soporta etiquetaje de artistas por el usuario final. Los usuarios pueden explorar va etiquetas, pero el beneficio ms importante es la radio etiquetada, permitiendo a los usuarios escuchar msica que ha sido etiquetada de una manera determinada. Este etiquetaje puede ser por gnero ("garage rock, Indie"), humor ("relajado"), caracterstica artstica ("bartono"), o cualquier otra forma de clasificacin hecha por el usuario final. Quiz la caracterstica ms usada por la comunidad de Last.fm es la formacin de grupos de usuarios con algo en comn (por ejemplo, militancia en otro foro de Internet). Last.fm generar un perfil de grupos similar a los perfiles de los usuarios, mostrando una amalgama de datos y mostrando listas con los gustos globales del grupo. Los sellos musicales y los artistas son ayudados a promocionarse en Last.fm, porque el filtraje y recomendacin son caractersticas que hacen que la msica sea escuchada por usuarios que le gusten artistas similares. El stock musical de Last.fm contiene ms de 100.000 canciones. Como un sistema masivo de puntuacin musical, Last.fm tiene varias ventajas sobre las listas musicales tradicionales. Mientras las listas tradicionales miden el xito de una cancin por el nmero de unidades vendidas y de reproducciones de radio, Last.fm lo mide por el nmero de gente que reproduce la cancin.
ninguna persona. As, se consigue que estas sean de una gran calidad segn las visitas recibidas, notas de otros usuarios, rating del usuario que la colgo etc.
7. CONCLUSIONES
La capacidad para almacenar datos ha crecido en los ltimos aos a velocidades exponenciales. En el otro extremo, nuestra capacidad para procesar esta enorme cantidad de datos para por utilizarlos eficazmente no ha ido a la par. Por este motivo, el data mining se presenta como una tecnologa de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes volmenes de datos. Descubrir nuevos caminos que nos ayuden en la identificacin de interesantes estructuras en los datos es una de las tareas fundamentales en el data mining. En el mbito comercial, resulta interesante encontrar patrones ocultos de consumo de los clientes para poder explorar nuevos horizontes. Saber que un vehculo deportivo corre un riesgo de accidente casi igual al de un vehculo normal cuando su dueo tiene un segundo vehculo en casa ayuda a crear nuevas estrategias comerciales para ese grupo de clientes. Asimismo, predecir el comportamiento de un futuro cliente, basndose en los datos histricos de clientes que presentaron el mismo perfil, ayuda a poder retenerlo durante el mayor tiempo posible. Las herramientas comerciales de data mining que existen actualmente en el mercado son muy variadas y excelentes en diversas aplicaciones. Las hay orientadas al estudio del web o al anlisis de documentos o de clientes de supermercado, mientras que otras son de uso ms general. Su correcta eleccin depende de la necesidad de la empresa y de los objetivos a corto y largo plazo que pretenda alcanzar. La decisin de seleccionar una solucin de data mining no es una tarea simple. Es necesario consultar a expertos en el rea con vista a seleccionar la ms adecuada para el problema de la empresa. En resumen, el data mining se presenta como una tecnologa emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Adems, no hay duda de que trabajar con esta tecnologa implica cuidar una infinidad de detalles debido a que el producto final involucra "toma de decisiones".
6.7.2 Flickr
Flickr es un sitio web de organizacin de fotografas digitales y red social. El servicio es utilizado extensamente como depsito de fotos. Adems, el sistema de Flickr emplea tcnicas de clustering de datos para agrupar las imgenes por etiquetas o tags (al igual que Last.fm). Simplemente son palabras que permiten definir algo. Por ejemplo si subimos una imagen de la Playa Punta de Palma de Izabal, Guatemala, puedo clasificarla con las siguiente etiquetas: playa mar izabal y guatemala. Pero Flickr es ms que un simple sitio Web donde poder colgar tus fotos, puedes crear un perfil de usuario y encontrar gente alrededor del mundo con gustos similares a los tuyos y agregarlos a tus lista de contactos. Tambin almacena diariamente una coleccin sobre las mejores fotos que se van colgando en el servidor sin que intervenga
8. REFERENCIAS
[1] Artculo: Data mining: torturando a los datos hasta que confiesen. Luis Carlos Molina Felix. Universitat Politcnica de Catalunya. [2] Artculo Wikipedia Last.fm. [3] Web www.last.fm.com

Articulo Introductorio de La Mineria de Datos

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Articulo Introductorio de La Mineria de Datos

Cargado por

Copyright:

Formatos disponibles

Minera de datos y aplicaciones

Fernando Virseda Benito

Javier Romn Carrillo

3. DNDE SE ULTILIZA LA MINERA DE DATOS?

Extraccin de datos Limpieza de datos. Seleccin de caractersticas. Algoritmos. Anlisis de resultados.

2. MINERA DE DATOS. CONCEPTOS E HISTORIA

4. OBJETIVOS PRINCIPALES DE LA MINERA DE DATOS

6. APLICACIONES DE LA MINERA DE DATOS 6.1 Gobiernos

5. FASES GENERALES PARA LA CREACIN DE UN PROYECTO DE MINERA DE DATOS

6.2.1 Deteccin de fraudes en las tarjetas de crdito.

6.2.4 Supermercados Wal-mart

6.2.2 Migracin de clientes entre distintas compaas

6.2.3 Prediccin del tamao de las audiencias televisivas

se relaciona con el estilo de juego de un pas concreto donde se practica el ftbol.

6.5.2 NBA: Knicks de New York y Patrick Ewing

6.4 Investigacin espacial

6.6 Textos: Text Mining

6.7 Internet: Web Mining

6.7.1 Radio personalizada en Internet: Last.fm

También podría gustarte