Está en la página 1de 8

Minera de datos y aplicaciones

Fernando Virseda Benito


Universidad Carlos III NIA 100032962

avier !om"n Carrillo


Universidad Carlos III NIA 10003#306

100032962@alumnos.uc3m.es

10003#306@alumnos.uc3m.es

OBJETIVO
En la primera parte de este trabajo se definirn los conceptos generales de la minera de datos, as como sus diferentes usos y sus objetivos principales. En la segunda parte se centrar en casos prcticos en los que la minera de datos ha conseguido resultados sorprendentes.

/. 0. 1.

El incremento de las velocidades de cmputo en los procesadores. )as mejoras en la confiabilidad y aumento de la velocidad en la transmisin de datos. El desarrollo de sistemas administradores de bases de datos ms poderosos.

1. INTRODUCCION
Cada da generamos una gran cantidad de informacin, algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos. Nos damos cuenta de que generamos informacin cuando registramos nuestra entrada en el trabajo, cuando entramos en un servidor para ver nuestro correo, cuando pagamos con una tarjeta de cr dito o cuando reservamos un billete de avin. !tras veces no nos damos cuenta de que generamos informacin, como cuando conducimos por una va donde estn contabili"ando el n#mero de automviles que pasan por minuto, cuando se sigue nuestra navegacin por $nternet o cuando nos sacan una fotografa del rostro al haber pasado cerca de una oficina gubernamental. %Con qu finalidad queremos generar informacin& 'on muchos los motivos que nos llevan a generar informacin, ya que nos pueden ayudar a controlar, optimi"ar, administrar, e(aminar, investigar, planificar, predecir, someter, negociar o tomar decisiones de cualquier mbito seg#n el dominio en que nos desarrollemos. )a informacin por s misma est considerada un bien patrimonial. *e esta forma, si una empresa tiene una p rdida total o parcial de informacin provoca bastantes perjuicios. Es evidente que la informacin debe ser protegida, pero tambi n e(plotada. %+u nos ha permitido poder generar tanta informacin& En los #ltimos a,os, debido al desarrollo tecnolgico a niveles e(ponenciales tanto en el rea de cmputo como en la de transmisin de datos, ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacin. 'in duda e(isten cuatro factores importantes que nos han llevado a este suceso.. El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente.

2ctualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacin en las bases de datos. 3odemos decir que las empresas almacenan datos pero no todas hacen uso de ellos. En cambio, si estos datos son ledos y anali"ados pueden proporcionar en conjunto un verdadero conocimiento que ayude en la toma de decisiones. 2s pues, es necesario contar con tecnologas que nos ayuden a e(plotar el potencial de este tipo de datos. El data mining surge como una tecnologa que intenta ayudar a comprender el contenido de una base de datos. *e forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye alg#n significado especial pasan a convertirse en informacin. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretacin conjunta entre la informacin y ese modelo represente un valor agregado, entonces nos referimos al conocimiento. En la figura . se ilustra la jerarqua que e(iste en una base de datos entre dato, informacin y conocimiento. 'e observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarqua. El rea interna dentro del tringulo representa los objetivos que se han propuesto. )a separacin del tringulo representa la estrecha unin entre dato e informacin, no as entre la informacin y el conocimiento. El data mining trabaja en el nivel superior buscando patrones, comportamientos, agrupaciones, secuencias, tendencias o asociaciones que puedan generar alg#n modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisin.

hiptesis previa en bases de datos con ruido. 2 principios de los a,os ochenta, @aAesh 2gra8al, :io Biederhold, @obert ;lum y :regory 3iatetsAyC'hapiro, entre otros, empe"aron a consolidar los t rminos de data mining y 7**. 2 finales de los a,os ochenta slo e(istan un par de empresas dedicadas a esta tecnologaD y en /EE/ e(istan ms de .EE empresas en el mundo que ofrecan alrededor de 0EE soluciones. )as listas de discusin sobre este tema las forman investigadores de ms de ochenta pases. Esta tecnologa ha sido un buen punto de encuentro entre personas pertenecientes al mbito acad mico y al de los negocios. El data mining es una tecnologa compuesta por etapas que integra varias reas y que no se debe confundir con un gran soft8are. *urante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones soft8are en cada etapa que pueden ser estadsticas, de visuali"acin de datos o de inteligencia artificial, principalmente. 2ctualmente e(isten aplicaciones o herramientas comerciales de data mining muy poderosas que facilitan el desarrollo de un proyecto. 'in embargo, casi siempre acaban complementndose con otra herramienta.

Figura 1. Relacin entre dato, informacin y conocimiento. Con todo lo anterior podemos decir que *ata 4ining es el proceso de descubrir patrones de informacin interesante y potencialmente #tiles, inmersos en una gran base de datos en la que se interact#a constantemente. *ata 4ining es una combinacin de procesos como-

3. DNDE SE ULTILIZA LA MINERA DE DATOS?


)a utilidad de *ata 4ining se puede dar dentro de los siguientes aspectos'istemas parcialmente desconocidos- 'i el modelo del sistema que produce los datos es bien conocido, entonces no necesitamos de la minera de datos ya que todas las variables son de alguna manera predecibles. Este no es el caso del comercio electrnico, debido a los efectos del comportamiento humano, el clima y de decisiones polticas entre otros. En estos casos habr una parte del sistema que es conocida y habr una parte aparentemente de naturale"a aleatoria. ;ajo ciertas circunstancias, a partir de una gran cantidad de datos asociada con el sistema, e(iste la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo. Enorme cantidad de datos- 2l contar con mucha informacin en algunas bases de datos es importante para una empresa encontrar la forma de anali"ar =monta,as= de informacin 6lo que para un humano sera imposible9 y que ello le produ"ca alg#n tipo de beneficio. 3otente hard8are y soft8are- 4uchas de las herramientas presentes en la minera de datos estn basadas en el uso intensivo de la computacin, en consecuencia, un equipo conveniente y un soft8are eficiente, con el cual cuente una compa,a, aumentar el desempe,o del proceso de buscar y anali"ar informacin, el cual a veces debe v rselas con producciones de datos del orden de los :bytesFhora 6repetimos, algo humanamente imposible9. El uso del data mining puede ser provechoso en el caso de poseer datos sobre sus procesos productivos, datos de seguimiento de clientes, datos e(ternos de mercado, datos sobre la actividad de competidores, etc.

5 5 5 5 5

E(traccin de datos )impie"a de datos. 'eleccin de caractersticas. 2lgoritmos. 2nlisis de resultados.

2. MINERA DE DATOS. CONCEPTOS E HISTORIA


2unque desde un punto de vista acad mico el t rmino data mining es una etapa dentro de un proceso mayor llamado e(traccin de conocimiento en bases de datos 67no8ledge *iscovery in *atabases o 7**9 en el entorno comercial, ambos t rminos se usan de manera indistinta. )o que en verdad hace el data mining es reunir las ventajas de varias reas como la Estadstica, la $nteligencia 2rtificial, la Computacin :rfica, las ;ases de *atos y el 3rocesamiento 4asivo, principalmente usando como materia prima las bases de datos. <na definicin tradicional es la siguiente- =<n proceso no trivial de identificacin vlida, novedosa, potencialmente #til y entendible de patrones comprensibles que se encuentran ocultos en los datos=. *esde otro punto de vista se define como =la integracin de un conjunto de reas que tienen como propsito la identificacin de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisin>. )a idea de data mining no es nueva. ?a desde los a,os sesenta los estadsticos manejaban t rminos como data fishing, data mining o data archaeology con la idea de encontrar correlaciones sin una

4. OBJETIVOS PRINCIPALES DE LA MINERA DE DATOS


*ata 4ining persigue ciertos objetivos de manera especfica*escripcin- El principal producto del proceso de la minera de datos es el descubrimiento de reglas. Estas mostrarn nuevas relaciones entre las variables o e(cepciones de acuerdo a la empresa en que se utilice este proceso. Ello enriquecer el anlisis y la descripcin de la forma en que trabaja una compa,a y ayudar en la planificacin y en el dise,o de futuros cambios. Es posible que algunas de las reglas descubiertas no puedan ser cambiadas, pero si resulte posible reali"ar modificaciones apropiadas en la organi"acin con el propsito de mejorar su desempe,o. 3rediccin6Gorecasting9- <na ve" descubiertas reglas importantes, estas pueden ser utili"adas pera estimar algunas variables de salida. 3uede ser en el caso de secuencias en el tiempo, o bien en la identificacin e interrupcin a tiempo, de una futura mala e(periencia de cr dito. En esta tarea, se complementan las t cnicas estadsticas tradicionales con aquellas provenientes de la inteligencia artificial. Conceptos adaptativos como los algoritmos gen ticos y las redes neuronales, permiten reali"ar predicciones ms acertadas, especialmente en casos de gran complejidad y con relaciones internas.

.. /.

)os basados en la eleccin de los mejores atributos del problema. )os que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heursticos.

E(traccin de Conocimiento- 4ediante una t cnica se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Iambi n pueden usarse varias t cnicas a la ve" para generar distintos modelos. $nterpretacin y evaluacin- Ginalmente se procede a su validacin, comprobando que las conclusiones son vlidas y satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas t cnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. 'i ninguno de los modelos alcan"a los resultados esperados, se alterar alguno de los procesos anteriores en busca de nuevos modelos.

". APLICACIONES DE LA MINERA DE DATOS ".1 #$%&'(#)


6.1.1 El FBI analizar las bases de datos comerciales para detectar terroristas.
2 principios del mes de julio de /EE/, el director del G;$ en Estados <nidos, John 2schcroft, anunci que el *epartamento de Justicia comen"ara a introducirse en la enorme cantidad de datos comerciales en los que se revelan hbitos y costumbres de la poblacin, con el fin de poder identificar a potenciales terroristas con antelacin a que puedan cometer un atentado. 2lgunos e(pertos aseguran que, con esta informacin, el G;$ unir todas las bases de datos mediante el n#mero de la 'eguridad 'ocial y permitir saber si una persona fuma, qu talla y tipo de ropa usa, si ha sido arrestado y cuantas veces, el barrio donde vive, si en este se cometen mas o menos delitos, su salario, las revistas a las que est suscrito, su altura y peso, sus contribuciones a la $glesia, grupos polticos u organi"aciones no gubernamentales, sus enfermedades crnicas, los libros que lee, los productos de supermercado que compra, si tom clases de vuelo o si tiene cuentas de banco abiertas, entre otros. )a inversin inicial ronda los KE millones de L estadounidenses para consolidar los almacenes de datos, desarrollar redes de seguridad que sean capaces de compartir la informacin e implementar nuevo soft8are analtico y de visuali"acin. Con este tipo de aplicaciones sale de nuevo el tema tico de la privacidad y libertad de los individuos. En el fondo la aplicacin es un gran hermano que observa cualquier movimiento que se haga, pudiendo estos ser utili"ados para otros fines distintos a los que fue dise,ado.

5. FASES ENERALES PARA LA CREACIN DE UN PRO!ECTO DE MINERA DE DATOS


En esta parte se emplean cuatro fases independientemente de la t cnica especfica de e(traccin de conocimiento usada. .. /. 0. 1. Giltrado de datos. 'eleccin de Hariables. E(traccin de Conocimiento. $nterpretacin y Evaluacin. Estas

fases las e(plicamos a continuacin. Giltrado de datos- El formato de los datos contenidos en la fuente de datos nunca es el idneo, y la mayora de las veces no es posible utili"ar ning#n algoritmo de minera. 4ediante el preprocesado, se filtran los datos 6se eliminan valores incorrectos, no vlidos, desconocidos, etc.9, se obtienen muestras de los mismos 6mayor velocidad de respuesta del proceso9, o se reducen el n#mero de valores posibles 6mediante redondeo, agrupamiento, etc.9. 'eleccin de variables- 2#n despu s de haber sido preprocesados, se sigue teniendo una cantidad ingente de datos. )a seleccin de caractersticas reduce el tama,o de los datos, eligiendo las variables ms influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minera. )os m todos para la seleccin de caractersticas son dos-

".2 E*+'&),'%,-&)

6. .1 !eteccin de fraudes en las tar"etas de cr#dito.


En /EE., las instituciones financieras a escala mundial perdieron del orden de /.EEE millones de dlares en fraudes cometidos con tarjetas de cr dito. El Falcon Fraud $anager es un sistema inteligente que e(amina transacciones, propietarios de tarjetas y datos financieros para intentar detectar y paliar el n#mero de fraudes. En un principio estaba pensado, en instituciones financieras de Norteam rica, para detectar fraudes en tarjetas de cr dito. 'in embargo, actualmente se le han incorporado funcionalidades de anlisis en las tarjetas comerciales, de combustibles y de d bito. El sistema Galcon ha permitido ahorrar ms de seiscientos millones de dlares al a,o y proteger apro(imadamente ms de cuatrocientos cincuenta millones de pagos con tarjeta en todo el mundo, apro(imadamente el MNO de todas las transacciones con tarjeta de cr dito. )a solucin de Galcon usa una sofisticada combinacin de modelos de redes neuronales para anali"ar el pago mediante tarjeta y detectar los ms remotos casos de fraude. )leva siendo usado durante ms de .N a,os y monitori"a alrededor de 1NE millones de cuentas distribuidas en los M continentes.

)a ;;C 6;ritish ;roadcasting Corporation9 del @eino <nido emplea un sistema para predecir el tama,o de las audiencias televisivas de un programa determinado, as como la hora ptima de emisin 6;rachman y otros, .QQM9. El sistema utili"a redes neuronales y rboles de decisin aplicados a datos histricos de la cadena para determinar los criterios que participan seg#n el programa que hay que presentar, seg#n el contenido del programa 6humor, serie, pelcula, sho89 y otros muchos factores. )a versin final se desempe,a tan bien como si se tratara de un profesional con e(periencia, con la ventaja de que se adapta ms fcilmente a los cambios porque est siendo constantemente entrenada con datos actuales.

6. .* +upermercados ,al-mart
Race algunos a,os uno de estos supermercados se hi"o la pregunta sobre qu productos se vendan con mayor frecuencia en compa,a de los pa,ales. 3ues bien, Sminearon> la base de datos y encontraron que en asociacin con los pa,ales se vendan muy frecuentemente las cerve"as. 2dems, se dieron cuenta que ambos productos se vendan principalmente los viernes en la tarde y eran comprados por hombres con edades entre los /N y 0N a,os de edad. *espu s de cierto tiempo descubrieron la ra"n de este halla"go. El caso es que los paquetes de pa,ales son voluminosos, y las esposas, que en muchos casos hacen la compra de la casa, dejan los pa,ales para que el esposo los compre. El esposo y padre, compraba los pa,ales especialmente los viernes, en compa,a de las cerve"as para el fin de semana. Como consecuencia de esto el supermercado puso la cerve"a al lado de los pa,ales. El resultado fue que los padres que normalmente llegaban a comprar los pa,ales y la cerve"a, compraron ms cerve"as, y los que antes no compraban cerve"a, empe"aron a comprarla por la pro(imidad de sta con los pa,ales. Ginalmente las ventas de cerve"a se dispararon.

6. . $igracin de clientes entre distintas compa%&as


<n ejemplo es el estudio de la migracin de clientes de una operadora de comunicaciones mvil a otra. Este estudio fue desarrollado en una operadora espa,ola que bsicamente situ sus objetivos en dos puntosC El anlisis del perfil de los clientes que se dan de baja C )a prediccin del comportamiento de sus nuevos clientes 'e anali"aron las diferencias histricas entre clientes que haban abandonado la operadora 6./,MO9 y de los clientes que continuaban con su servicio 6PK,1O9. Iambi n se anali"aron las variables personales de cada cliente 6estado civil, edad, se(o, nacionalidad, etc.9. *e igual forma se estudiaron para cada cliente la morosidad, la frecuencia y el horario de uso del servicio, los descuentos y el porcentaje de llamadas locales, interprovinciales, internacionales y gratuitas. 2l contrario de lo que se podra pensar, los clientes que abandonaban la operadora generaban ganancias para la empresaD sin embargo, una de las conclusiones ms importantes radicaba en el hecho de que los clientes que se daban de baja reciban pocas promociones y registraban un mayor n#mero de incidencias respecto a la media. Como resultado de este estudio de minera de datos se recomend a la operadora hacer un estudio sobre sus ofertas y anali"ar profundamente las incidencias recibidas por esos clientes. 2l descubrir el perfil que presentaban, la operadora tuvo que dise,ar un trato ms personali"ado para sus clientes actuales con esas caractersticas. 3ara poder predecir el comportamiento de sus nuevos clientes se dise, un sistema de prediccin basado en la cantidad de datos que se poda obtener de los nuevos clientes comparados con el comportamiento de clientes anteriores.

".3 U(%.&')%/,/
6.'.1 .onociendo si los reci#n titulados de una uni)ersidad lle)an a cabo acti)idades profesionales relacionadas con sus estudios.
'e reali"o un estudio sobre los reci n titulados de la carrera de $ngeniera en 'istemas Computacionales del $nstituto Iecnolgico de Chihuahua $$ en 4 jico. 'e quera observar si los reci n titulados se insertaban en actividades profesionales relacionadas con sus estudios y, en caso negativo, se buscaba saber el perfil que caracteri" a los e(Calumnos durante su estancia en la universidad. 'e deseaba concluir si con los planes de estudio de la universidad y el rendimiento del alumno se haca una buena insercin laboral o si e(istan otras variables que participaban en el proceso. *entro de la informacin considerada estaba el se(o, la edad, la escuela de procedencia, el desempe,o acad mico, la "ona econmica donde tena su vivienda y la actividad profesional, entre otras variables. 4ediante la aplicacin de con"untos apro/imados se descubri que e(istan cuatro variables que determinaban la adecuada insercin laboral, que son citadas de acuerdo con su importancia-

6. .' (rediccin del tama%o de las audiencias tele)isi)as

.. Tona econmica donde habitaba el estudiante /. Colegio de donde provena 0. Nota al ingresar 1. 3romedio final al salir de la carrera 2 partir de estos resultados, la universidad obtuvo como resultado que las tres caractersticas ms importantes no tenan relacin con la universidad, y si de la economa de la "ona donde provena el estudiante. 3or lo que poda plantearse nuevas soluciones de tipo socioeconmico, como becas en empresas u otras.

se relaciona con el estilo de juego de un pas concreto donde se practica el f#tbol.

6.4.

5B26 0nic7s de 5e8 1or7 y (atric7 E8ing

".4 I(.&)0%1,2%3( &)+,2%,6.*.1 (royecto +01.23


*urante seis a,os, el 'econd 3alomar !bservatory 'Ay 'urvey 63!''C$$9 coleccion tres terabytes de imgenes que contenan apro(imadamente dos millones de objetos en el cielo. Ires mil fotografas fueron digitali"adas a una resolucin de .M bits por p(el con /0E1E ( /0E1E p(eles por imagen. El objetivo era formar un catlogo de todos esos objetos. El sistema 'Ay $mage Cataloguing and 2nalysis Iool 6'7?C2I9 se basa en t cnicas de agrupacin 6clustering9 y rboles de decisin para poder clasificar los objetos en estrellas, planetas, sistemas, gala(ias, etc. con una alta confiabilidad. )os resultados han ayudado a los astrnomos a descubrir diecis is nuevos qusares 6se,ales radiales lejanas9 con corrimiento hacia el rojo que los incluye entre los objetos ms lejanos del universo y, por consiguiente, ms antiguos. )os qusares son fuentes de @ayos U, radiacin ultravioleta, lu" visible y tambi n infrarrojaD en otras palabras, la emisin de radiacin de los qusares resulta intensa en todo el espectro electromagn tico. Estos qusares son difciles de encontrar y permiten saber ms acerca de los orgenes del universo.

".5 D&+#'0&
6.4.1 2.. $ilan
El 2C de 4iln utili"a un sistema inteligente para prevenir lesiones. El club posee redes neuronales para prevenir lesiones y optimi"ar el acondicionamiento de cada atleta. Esto ayuda a seleccionar el fichaje de un posible jugador o a alertar al m dico del equipo de una posible lesin. El sistema, creado por Computer 2ssociates $nternational, es alimentado por datos de cada jugador, relacionados con su rendimiento, alimentacin y respuesta a estmulos e(ternos, que se obtienen y anali"an cada quince das. El jugador lleva a cabo determinadas actividades que son monitori"adas por veinticuatro sensores conectados al cuerpo y que transmiten se,ales de radio que posteriormente son almacenadas en una base de datos. 2ctualmente el sistema dispone de NEEE casos registrados que permiten predecir alguna posible lesin. Con ello, el club intenta ahorrar dinero evitando comprar jugadores que presenten una alta probabilidad de lesin, lo que hara incluso renegociar su contrato. 3or otra parte, el sistema pretende encontrar las diferencias entre las lesiones de atletas de ambos se(os, as como saber si una determinada lesin

)os equipos de la N;2 tambi n utili"an aplicaciones inteligentes para apoyar a su cuerpo de entrenadores. El 2dvanced 'cout es un soft8are que emplea t cnicas de *ata 4ining y que han desarrollado investigadores de $;4 para detectar patrones estadsticos y eventos e(tra,os. Iiene una interfa" grfica muy amigable orientada a un objetivo muy especfico- anali"ar el juego de los equipos de la National ;asAetball 2ssociation 6N;29.El soft8are utili"a todos los registros guardados de cada evento en cada juego- pases, encestes, rebotes y doble marcaje 6double team9 a un jugador por el equipo contrario, entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no detectan cuando observan el juego en vivo o en pelcula. <n resultado interesante fue uno hasta entonces no observado por los entrenadores de los 7nicAs de Nueva ?orA. El doble marcaje a un jugador puede generalmente dar la oportunidad a otro jugador de encestar ms fcilmente. 'in embargo, cuando los ;ulls de Chicago jugaban contra los 7nicAs, se encontr que el porcentaje de encestes despu s de que al centro de los 7nicAs, 3atricA E8ing, le hicieran doble marcaje era e(tremadamente bajo, indicando que los 7nicAs no reaccionaban correctamente a los dobles marcajes. 3ara saber el porqu , el cuerpo de entrenadores estudi cuidadosamente todas las pelculas de juegos contra Chicago. !bservaron que los jugadores de Chicago rompan su doble marcaje muy rpido de tal forma que podan tapar al encestador libre de los 7nicAs antes de prepararse para efectuar su tiro. Con este conocimiento, los entrenadores crearon estrategias alternativas para tratar con el doble marcaje. )a temporada pasada, $;4 ofreci el 2dvanced 'cout a la N;2, que se convirti as en un patrocinador corporativo. )a N;2 dio a sus veintinueve equipos la oportunidad de aplicarlo. *ieciocho equipos lo estn haciendo hasta el momento obteniendo descubrimientos interesantes.

"." T&40#)5 T&40 M%(%(1


Estudios recientes indican que la mayor parte de la toda la informacin de una compa,a est almacenada en forma de documentos. 'in duda, este campo de estudio es muy complejo y de dimensiones enormes, por lo que t cnicas como pueden ser la categorizacin de texto, el procesamiento de lenguaje natural, la e(traccin y recuperacin de la informacin o el aprendi"aje automtico, entre otras, apoyan al te(t mining 6minera de te(to9. En ocasiones se confunde el te(t mining con la recuperacin de la informacin 6$nformation @etrieval o $@9. Vsta #ltima consiste en la recuperacin automtica de documentos relevantes mediante inde(aciones de te(tos, clasificacin, categori"acin, etc. :eneralmente se utili"an palabras clave para encontrar una pgina relevante. En cambio, el te/t mining se refiere a e/aminar una coleccin de documentos y descubrir informacin no contenida en ning9n documento indi)idual de la coleccinD en otras palabras, trata de obtener informacin sin haber partido de algo.

6.6.1 $edicina

<na aplicacin muy popular del te(t mining es relatada en Rearst 6.QQQ9. *on '8anson intenta e(traer informacin derivada de colecciones de te(to. Ieniendo en cuenta que los e(pertos slo pueden leer una peque,a parte de todo lo que se publica en su campo, y por lo general tampoco pueden tener en cuenta los nuevos desarrollos que se suceden en otros campos relacionados, y teniendo en cuenta que la cantidad de nuevos documentos que se publican es cada ve" mayor, la aplicacin de la minera de datos en colecciones de te(to va resultando ms importante. 2s, '8anson ha demostrado cmo cadenas de implicaciones causales dentro de la literatura m dica pueden conducir a hiptesis para enfermedades poco frecuentes, algunas de las cuales han recibido pruebas de soporte e(perimental. $nvestigando las causas de la migra,a, dicho investigador e(trajo varias pie"as de evidencia a partir de ttulos de artculos presentes en la literatura biom dica. 2lgunas de esas claves fueron5 5 5 5 5 5 5 5 El estr s est asociado con la migra,a. El estr s puede conducir a la p rdida de magnesio. )os bloqueadores de canales de calcio previenen algunas migra,as. El magnesio es un bloqueador natural del canal de calcio. )a depresin cortical diseminada 6*C*9 est implicada en algunas migra,as. )os niveles altos de magnesio inhiben la *C*. )os pacientes con migra,a tienen una alta agregacin plaquetaria. El magnesio puede suprimir la agregacin plaquetaria.

una pgina hasta llegar al contenido deseado, as, si se encuentra que una gran cantidad de usuarios acceden a un linA alejado de la pgina principal se puede poner un acceso directo desde la misma y as ahorrar tiempo a lo navegantes y conseguir un mayor beneficio. ! incluir publicidad en los linAs que se visitarn ms frecuentemente. Normalmente, la minera de datos de Beb puede clasificarse en tres dominios de e(traccin de conocimiento de acuerdo a la naturale"a de los datos.. Beb content mining 6minera de contenido 8eb9. Es el proceso que consiste en la e(traccin de conocimiento del contenido de documentos o sus descripciones. )a locali"acin de patrones en el te(to de los documentos, el descubrimiento del recurso basado en conceptos de inde(acin o la tecnologa basada en agentes tambi n pueden formar parte de esta categora. Beb structure mining 6minera de estructura 8eb9. Es el proceso de relacionar el conocimiento de la organi"acin del 888 y la estructura de sus ligas. Beb usage mining 6minera de uso 8eb9. Es el proceso de e(traccin de modelos interesantes usando los logs de los accesos al 8eb.

/.

0.

2lgunos de los resultados que podran obtenerse tras la aplicacin de los diferentes m todos de 8eb mining a una pgina ficticia sonEl ochenta y cinco por ciento de los clientes que acceden a FproductosFhome.html y a FproductosFnoticias.html acceden tambi n a FproductosFhistoriasWsuceso.html. Esto podra indicar que e(iste alguna noticia interesante de la empresa que hace que los clientes se dirijan a historias de suceso. $gualmente, este resultado permitira detectar la noticia sobresaliente y colocarla qui" en la pgina principal de la empresa. ! tambi n se pueden observar casos donde los clientes que hacen una compra en lnea cada semana en FcompraFproducto..html tienden a ser de sectores de la poblacin determinado, como estudiantes, pensionistas, funcionarios u otros. Esto podra resultar en proponer diversas ofertas a este sector para y as conseguir un potenciamineto en las comprar por parte de estos grupos. El sesenta por ciento de los clientes que hicieron una compra en lnea en FcompraFproducto..html tambi n compraron en FcompraFproducto1.html despu s de un mes. Esto indica que se podra recomendar en la pgina del producto . comprar el producto 1 y ahorrarse el costo de envo de este producto.

Estas claves sugieren que la deficiencia de magnesio podra representar un papel en algunos tipos de migra,a, una hiptesis que no e(ista en la literatura y que '8anson encontr mediante esas ligas. *e acuerdo con '8anson , estudios posteriores han probado e(perimentalmente esta hiptesis obtenida por te(t mining con buenos resultados.

".6 I(0&'(&05 7&$ M%(%(1


<na de las aplicaciones de la minera de datos consiste en aplicar sus t cnicas a documentos y servicios Beb, lo que se denomina com#nmente con el t rmino ingl s 8eb mining 6minera de Beb9. Cada ve" que un usuario visita un sitio Beb va dejando todo tipo de Shuellas> Beb 6direcciones de $3, navegador, galletas, etc.9 que los servidores automticamente almacenan en una base de datos 6log9. )as herramientas de 8eb mining anali"an y procesan esta abundante cantidad de datos para producir informacin significativa, por ejemplo, cmo es la navegacin de un cliente antes de hacer una compra en lnea. *ebido a que los contenidos de $nternet consisten en varios tipos de datos, como te(to, imagen, vdeo, metadatos o hiperligas, investigaciones recientes usan el t rmino multimedia data mining 6minera de datos multimedia9 como una instancia del 8eb mining para tratar ese tipo de datos. )os accesos totales por dominio, horarios de accesos ms frecuentes y visitas por da, entre otros datos, son registrados por herramientas estadsticas que complementan todo el proceso de anlisis del 8eb mining. Iambi n es muy importante como los linA en los sitios Beb son utili"ados. 'e puede saber cuantos linAs debe pasar el usuario en

6.:.1 Radio personalizada en Internet6 ;ast.fm


)ast.fm es una radio va $nternet y adems un sistema de recomendacin de m#sica que construye perfiles y estadsticas sobre gustos musicales, basndose en los datos enviados por los usuarios registrados. En la radio se puede seleccionar las canciones seg#n las preferencias personales 6de acuerdo a un algoritmo y a las estadsticas9 o de otros usuarios. El servicio es

de cdigo abierto. 'e fusion con su proyecto hermano 2udioscrobbler en agosto de /EEN. <n usuario de )ast.fm puede construir un perfil musical usando dos m todos- escuchando su coleccin musical personal en una aplicacin de m#sica con un plugin de 2udioscrobbler, o escuchando el servicio de radio a trav s de $nternet de )ast.fm, normalmente con el reproductor de )ast.fm. )as canciones escuchadas son a,adidas a un registro desde donde se calcularn los grficos de barras de tus artistas y canciones favoritos, adems de las recomendaciones musicales. )as recomendaciones son calculadas usando un algoritmo colaborativo de filtrado, as los usuarios pueden e(plorar una lista de artistas no listados en su propio perfil pero que si que aparecen en otros usuarios con gustos similares. )ast.fm tambi n permite a los usuarios manualmente recomendar discos especficos a otros usuarios 6siempre que el disco est incluido en la base de datos9. 2dems, )ast.fm soporta etiquetaje de artistas por el usuario final. )os usuarios pueden e(plorar va etiquetas, pero el beneficio ms importante es la radio etiquetada, permitiendo a los usuarios escuchar m#sica que ha sido etiquetada de una manera determinada. Este etiquetaje puede ser por g nero 6=garage rocA, $ndieX=9, humor 6=relajado=9, caracterstica artstica 6=bartono=9, o cualquier otra forma de clasificacin hecha por el usuario final. +ui" la caracterstica ms usada por la comunidad de )ast.fm es la formacin de grupos de usuarios con algo en com#n 6por ejemplo, militancia en otro foro de $nternet9. )ast.fm generar un perfil de grupos similar a los perfiles de los usuarios, mostrando una amalgama de datos y mostrando listas con los gustos globales del grupo. )os sellos musicales y los artistas son ayudados a promocionarse en )ast.fm, porque el filtraje y recomendacin son caractersticas que hacen que la m#sica sea escuchada por usuarios que le gusten artistas similares. El stocA musical de )ast.fm contiene ms de .EE.EEE canciones. Como un sistema masivo de puntuacin musical, )ast.fm tiene varias ventajas sobre las listas musicales tradicionales. 4ientras las listas tradicionales miden el (ito de una cancin por el n#mero de unidades vendidas y de reproducciones de radio, )ast.fm lo mide por el n#mero de gente que reproduce la cancin.

ninguna persona. 2s, se consigue que estas sean de una gran calidad seg#n las visitas recibidas, notas de otros usuarios, rating del usuario que la colgo etc.

6. CONCLUSIONES
)a capacidad para almacenar datos ha crecido en los #ltimos a,os a velocidades e(ponenciales. En el otro e(tremo, nuestra capacidad para procesar esta enorme cantidad de datos para por utili"arlos efica"mente no ha ido a la par. 3or este motivo, el data mining se presenta como una tecnologa de apoyo para e(plorar, anali"ar, comprender y aplicar el conocimiento obtenido usando grandes vol#menes de datos. *escubrir nuevos caminos que nos ayuden en la identificacin de interesantes estructuras en los datos es una de las tareas fundamentales en el data mining. En el mbito comercial, resulta interesante encontrar patrones ocultos de consumo de los clientes para poder e(plorar nuevos hori"ontes. 'aber que un vehculo deportivo corre un riesgo de accidente casi igual al de un vehculo normal cuando su due,o tiene un segundo vehculo en casa ayuda a crear nuevas estrategias comerciales para ese grupo de clientes. 2simismo, predecir el comportamiento de un futuro cliente, basndose en los datos histricos de clientes que presentaron el mismo perfil, ayuda a poder retenerlo durante el mayor tiempo posible. )as herramientas comerciales de data mining que e(isten actualmente en el mercado son muy variadas y e(celentes en diversas aplicaciones. )as hay orientadas al estudio del 8eb o al anlisis de documentos o de clientes de supermercado, mientras que otras son de uso ms general. 'u correcta eleccin depende de la necesidad de la empresa y de los objetivos a corto y largo pla"o que pretenda alcan"ar. )a decisin de seleccionar una solucin de data mining no es una tarea simple. Es necesario consultar a e(pertos en el rea con vista a seleccionar la ms adecuada para el problema de la empresa. En resumen, el data mining se presenta como una tecnologa emergente, con varias ventajas- por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negociosD por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. 2dems, no hay duda de que trabajar con esta tecnologa implica cuidar una infinidad de detalles debido a que el producto final involucra =toma de decisiones=.

6.:.

Flic7r

GlicAr es un sitio 8eb de organi"acin de fotografas digitales y red social. El servicio es utili"ado e(tensamente como depsito de fotos. 2dems, el sistema de GlicAr emplea t cnicas de clustering de datos para agrupar las imgenes por etiquetas o tags 6al igual que )ast.fm9. 'implemente son palabras que permiten definir algo. 3or ejemplo si subimos una imagen de la 3laya 3unta de 3alma de $"abal, :uatemala, puedo clasificarla con las siguiente etiquetasSplaya> Smar> Si"abal> y Sguatemala>. 3ero GlicAr es ms que un simple sitio Beb donde poder colgar tus fotos, puedes crear un perfil de usuario y encontrar gente alrededor del mundo con gustos similares a los tuyos y agregarlos a tus lista de contactos. Iambi n almacena diariamente una coleccin sobre las mejores fotos que se van colgando en el servidor sin que intervenga

8. REFERENCIAS
Y.Z 2rtculo- S*ata mining- torturando a los datos hasta que confiesen>. )uis Carlos 4olina Geli(. <niversitat 3olit[cnica de Catalunya. Y/Z 2rtculo BiAipedia S)ast.fm>. Y0Z Beb 888.last.fm.com

También podría gustarte