Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Articulo Introductorio de La Mineria de Datos
Articulo Introductorio de La Mineria de Datos
100032962@alumnos.uc3m.es
100035306@alumnos.uc3m.es
OBJETIVO
En la primera parte de este trabajo se definirn los conceptos generales de la minera de datos, as como sus diferentes usos y sus objetivos principales. En la segunda parte se centrar en casos prcticos en los que la minera de datos ha conseguido resultados sorprendentes.
2. 3. 4.
El incremento de las velocidades de cmputo en los procesadores. Las mejoras en la confiabilidad y aumento de la velocidad en la transmisin de datos. El desarrollo de sistemas administradores de bases de datos ms poderosos.
1. INTRODUCCION
Cada da generamos una gran cantidad de informacin, algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos. Nos damos cuenta de que generamos informacin cuando registramos nuestra entrada en el trabajo, cuando entramos en un servidor para ver nuestro correo, cuando pagamos con una tarjeta de crdito o cuando reservamos un billete de avin. Otras veces no nos damos cuenta de que generamos informacin, como cuando conducimos por una va donde estn contabilizando el nmero de automviles que pasan por minuto, cuando se sigue nuestra navegacin por Internet o cuando nos sacan una fotografa del rostro al haber pasado cerca de una oficina gubernamental. Con qu finalidad queremos generar informacin? Son muchos los motivos que nos llevan a generar informacin, ya que nos pueden ayudar a controlar, optimizar, administrar, examinar, investigar, planificar, predecir, someter, negociar o tomar decisiones de cualquier mbito segn el dominio en que nos desarrollemos. La informacin por s misma est considerada un bien patrimonial. De esta forma, si una empresa tiene una prdida total o parcial de informacin provoca bastantes perjuicios. Es evidente que la informacin debe ser protegida, pero tambin explotada. Qu nos ha permitido poder generar tanta informacin? En los ltimos aos, debido al desarrollo tecnolgico a niveles exponenciales tanto en el rea de cmputo como en la de transmisin de datos, ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacin. Sin duda existen cuatro factores importantes que nos han llevado a este suceso: 1. El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente.
Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacin en las bases de datos. Podemos decir que las empresas almacenan datos pero no todas hacen uso de ellos. En cambio, si estos datos son ledos y analizados pueden proporcionar en conjunto un verdadero conocimiento que ayude en la toma de decisiones. As pues, es necesario contar con tecnologas que nos ayuden a explotar el potencial de este tipo de datos. El data mining surge como una tecnologa que intenta ayudar a comprender el contenido de una base de datos. De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algn significado especial pasan a convertirse en informacin. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretacin conjunta entre la informacin y ese modelo represente un valor agregado, entonces nos referimos al conocimiento. En la figura 1 se ilustra la jerarqua que existe en una base de datos entre dato, informacin y conocimiento. Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarqua. El rea interna dentro del tringulo representa los objetivos que se han propuesto. La separacin del tringulo representa la estrecha unin entre dato e informacin, no as entre la informacin y el conocimiento. El data mining trabaja en el nivel superior buscando patrones, comportamientos, agrupaciones, secuencias, tendencias o asociaciones que puedan generar algn modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisin.
hiptesis previa en bases de datos con ruido. A principios de los aos ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los trminos de data mining y KDD. A finales de los aos ochenta slo existan un par de empresas dedicadas a esta tecnologa; y en 2002 existan ms de 100 empresas en el mundo que ofrecan alrededor de 300 soluciones. Las listas de discusin sobre este tema las forman investigadores de ms de ochenta pases. Esta tecnologa ha sido un buen punto de encuentro entre personas pertenecientes al mbito acadmico y al de los negocios. El data mining es una tecnologa compuesta por etapas que integra varias reas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadsticas, de visualizacin de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de data mining muy poderosas que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementndose con otra herramienta.
Figura 1. Relacin entre dato, informacin y conocimiento. Con todo lo anterior podemos decir que Data Mining es el proceso de descubrir patrones de informacin interesante y potencialmente tiles, inmersos en una gran base de datos en la que se interacta constantemente. Data Mining es una combinacin de procesos como:
1. 2.
Los basados en la eleccin de los mejores atributos del problema. Los que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heursticos.
Extraccin de Conocimiento: Mediante una tcnica se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos. Interpretacin y evaluacin: Finalmente se procede a su validacin, comprobando que las conclusiones son vlidas y satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, se alterar alguno de los procesos anteriores en busca de nuevos modelos.
Estas fases las explicamos a continuacin. Filtrado de datos: El formato de los datos contenidos en la fuente de datos nunca es el idneo, y la mayora de las veces no es posible utilizar ningn algoritmo de minera. Mediante el preprocesado, se filtran los datos (se eliminan valores incorrectos, no vlidos, desconocidos, etc.), se obtienen muestras de los mismos (mayor velocidad de respuesta del proceso), o se reducen el nmero de valores posibles (mediante redondeo, agrupamiento, etc.). Seleccin de variables: An despus de haber sido preprocesados, se sigue teniendo una cantidad ingente de datos. La seleccin de caractersticas reduce el tamao de los datos, eligiendo las variables ms influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minera. Los mtodos para la seleccin de caractersticas son dos:
6.2 Empresariales
La BBC (British Broadcasting Corporation) del Reino Unido emplea un sistema para predecir el tamao de las audiencias televisivas de un programa determinado, as como la hora ptima de emisin (Brachman y otros, 1996). El sistema utiliza redes neuronales y rboles de decisin aplicados a datos histricos de la cadena para determinar los criterios que participan segn el programa que hay que presentar, segn el contenido del programa (humor, serie, pelcula, show) y otros muchos factores. La versin final se desempea tan bien como si se tratara de un profesional con experiencia, con la ventaja de que se adapta ms fcilmente a los cambios porque est siendo constantemente entrenada con datos actuales.
6.3 Universidad
6.3.1 Conociendo si los recin titulados de una universidad llevan a cabo actividades profesionales relacionadas con sus estudios.
Se realizo un estudio sobre los recin titulados de la carrera de Ingeniera en Sistemas Computacionales del Instituto Tecnolgico de Chihuahua II en Mjico. Se quera observar si los recin titulados se insertaban en actividades profesionales relacionadas con sus estudios y, en caso negativo, se buscaba saber el perfil que caracteriz a los ex-alumnos durante su estancia en la universidad. Se deseaba concluir si con los planes de estudio de la universidad y el rendimiento del alumno se haca una buena insercin laboral o si existan otras variables que participaban en el proceso. Dentro de la informacin considerada estaba el sexo, la edad, la escuela de procedencia, el desempeo acadmico, la zona econmica donde tena su vivienda y la actividad profesional, entre otras variables. Mediante la aplicacin de conjuntos aproximados se descubri que existan cuatro variables que determinaban la adecuada insercin laboral, que son citadas de acuerdo con su importancia:
1. Zona econmica donde habitaba el estudiante 2. Colegio de donde provena 3. Nota al ingresar 4. Promedio final al salir de la carrera A partir de estos resultados, la universidad obtuvo como resultado que las tres caractersticas ms importantes no tenan relacin con la universidad, y si de la economa de la zona donde provena el estudiante. Por lo que poda plantearse nuevas soluciones de tipo socioeconmico, como becas en empresas u otras.
6.5 Deporte
6.5.1 A.C Milan
El AC de Miln utiliza un sistema inteligente para prevenir lesiones. El club posee redes neuronales para prevenir lesiones y optimizar el acondicionamiento de cada atleta. Esto ayuda a seleccionar el fichaje de un posible jugador o a alertar al mdico del equipo de una posible lesin. El sistema, creado por Computer Associates International, es alimentado por datos de cada jugador, relacionados con su rendimiento, alimentacin y respuesta a estmulos externos, que se obtienen y analizan cada quince das. El jugador lleva a cabo determinadas actividades que son monitorizadas por veinticuatro sensores conectados al cuerpo y que transmiten seales de radio que posteriormente son almacenadas en una base de datos. Actualmente el sistema dispone de 5000 casos registrados que permiten predecir alguna posible lesin. Con ello, el club intenta ahorrar dinero evitando comprar jugadores que presenten una alta probabilidad de lesin, lo que hara incluso renegociar su contrato. Por otra parte, el sistema pretende encontrar las diferencias entre las lesiones de atletas de ambos sexos, as como saber si una determinada lesin
6.6.1 Medicina
Una aplicacin muy popular del text mining es relatada en Hearst (1999). Don Swanson intenta extraer informacin derivada de colecciones de texto. Teniendo en cuenta que los expertos slo pueden leer una pequea parte de todo lo que se publica en su campo, y por lo general tampoco pueden tener en cuenta los nuevos desarrollos que se suceden en otros campos relacionados, y teniendo en cuenta que la cantidad de nuevos documentos que se publican es cada vez mayor, la aplicacin de la minera de datos en colecciones de texto va resultando ms importante. As, Swanson ha demostrado cmo cadenas de implicaciones causales dentro de la literatura mdica pueden conducir a hiptesis para enfermedades poco frecuentes, algunas de las cuales han recibido pruebas de soporte experimental. Investigando las causas de la migraa, dicho investigador extrajo varias piezas de evidencia a partir de ttulos de artculos presentes en la literatura biomdica. Algunas de esas claves fueron: El estrs est asociado con la migraa. El estrs puede conducir a la prdida de magnesio. Los bloqueadores de canales de calcio previenen algunas migraas. El magnesio es un bloqueador natural del canal de calcio. La depresin cortical diseminada (DCD) est implicada en algunas migraas. Los niveles altos de magnesio inhiben la DCD. Los pacientes con migraa tienen una alta agregacin plaquetaria. El magnesio puede suprimir la agregacin plaquetaria.
una pgina hasta llegar al contenido deseado, as, si se encuentra que una gran cantidad de usuarios acceden a un link alejado de la pgina principal se puede poner un acceso directo desde la misma y as ahorrar tiempo a lo navegantes y conseguir un mayor beneficio. O incluir publicidad en los links que se visitarn ms frecuentemente. Normalmente, la minera de datos de Web puede clasificarse en tres dominios de extraccin de conocimiento de acuerdo a la naturaleza de los datos: 1. Web content mining (minera de contenido web). Es el proceso que consiste en la extraccin de conocimiento del contenido de documentos o sus descripciones. La localizacin de patrones en el texto de los documentos, el descubrimiento del recurso basado en conceptos de indexacin o la tecnologa basada en agentes tambin pueden formar parte de esta categora. Web structure mining (minera de estructura web). Es el proceso de relacionar el conocimiento de la organizacin del www y la estructura de sus ligas. Web usage mining (minera de uso web). Es el proceso de extraccin de modelos interesantes usando los logs de los accesos al web.
2.
3.
Algunos de los resultados que podran obtenerse tras la aplicacin de los diferentes mtodos de web mining a una pgina ficticia son: El ochenta y cinco por ciento de los clientes que acceden a /productos/home.html y a /productos/noticias.html acceden tambin a /productos/historias_suceso.html. Esto podra indicar que existe alguna noticia interesante de la empresa que hace que los clientes se dirijan a historias de suceso. Igualmente, este resultado permitira detectar la noticia sobresaliente y colocarla quiz en la pgina principal de la empresa. O tambin se pueden observar casos donde los clientes que hacen una compra en lnea cada semana en /compra/producto1.html tienden a ser de sectores de la poblacin determinado, como estudiantes, pensionistas, funcionarios u otros. Esto podra resultar en proponer diversas ofertas a este sector para y as conseguir un potenciamineto en las comprar por parte de estos grupos. El sesenta por ciento de los clientes que hicieron una compra lnea en /compra/producto1.html tambin compraron /compra/producto4.html despus de un mes. Esto indica que podra recomendar en la pgina del producto 1 comprar producto 4 y ahorrarse el costo de envo de este producto. en en se el
Estas claves sugieren que la deficiencia de magnesio podra representar un papel en algunos tipos de migraa, una hiptesis que no exista en la literatura y que Swanson encontr mediante esas ligas. De acuerdo con Swanson , estudios posteriores han probado experimentalmente esta hiptesis obtenida por text mining con buenos resultados.
de cdigo abierto. Se fusion con su proyecto hermano Audioscrobbler en agosto de 2005. Un usuario de Last.fm puede construir un perfil musical usando dos mtodos: escuchando su coleccin musical personal en una aplicacin de msica con un plugin de Audioscrobbler, o escuchando el servicio de radio a travs de Internet de Last.fm, normalmente con el reproductor de Last.fm. Las canciones escuchadas son aadidas a un registro desde donde se calcularn los grficos de barras de tus artistas y canciones favoritos, adems de las recomendaciones musicales. Las recomendaciones son calculadas usando un algoritmo colaborativo de filtrado, as los usuarios pueden explorar una lista de artistas no listados en su propio perfil pero que si que aparecen en otros usuarios con gustos similares. Last.fm tambin permite a los usuarios manualmente recomendar discos especficos a otros usuarios (siempre que el disco est incluido en la base de datos). Adems, Last.fm soporta etiquetaje de artistas por el usuario final. Los usuarios pueden explorar va etiquetas, pero el beneficio ms importante es la radio etiquetada, permitiendo a los usuarios escuchar msica que ha sido etiquetada de una manera determinada. Este etiquetaje puede ser por gnero ("garage rock, Indie"), humor ("relajado"), caracterstica artstica ("bartono"), o cualquier otra forma de clasificacin hecha por el usuario final. Quiz la caracterstica ms usada por la comunidad de Last.fm es la formacin de grupos de usuarios con algo en comn (por ejemplo, militancia en otro foro de Internet). Last.fm generar un perfil de grupos similar a los perfiles de los usuarios, mostrando una amalgama de datos y mostrando listas con los gustos globales del grupo. Los sellos musicales y los artistas son ayudados a promocionarse en Last.fm, porque el filtraje y recomendacin son caractersticas que hacen que la msica sea escuchada por usuarios que le gusten artistas similares. El stock musical de Last.fm contiene ms de 100.000 canciones. Como un sistema masivo de puntuacin musical, Last.fm tiene varias ventajas sobre las listas musicales tradicionales. Mientras las listas tradicionales miden el xito de una cancin por el nmero de unidades vendidas y de reproducciones de radio, Last.fm lo mide por el nmero de gente que reproduce la cancin.
ninguna persona. As, se consigue que estas sean de una gran calidad segn las visitas recibidas, notas de otros usuarios, rating del usuario que la colgo etc.
7. CONCLUSIONES
La capacidad para almacenar datos ha crecido en los ltimos aos a velocidades exponenciales. En el otro extremo, nuestra capacidad para procesar esta enorme cantidad de datos para por utilizarlos eficazmente no ha ido a la par. Por este motivo, el data mining se presenta como una tecnologa de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes volmenes de datos. Descubrir nuevos caminos que nos ayuden en la identificacin de interesantes estructuras en los datos es una de las tareas fundamentales en el data mining. En el mbito comercial, resulta interesante encontrar patrones ocultos de consumo de los clientes para poder explorar nuevos horizontes. Saber que un vehculo deportivo corre un riesgo de accidente casi igual al de un vehculo normal cuando su dueo tiene un segundo vehculo en casa ayuda a crear nuevas estrategias comerciales para ese grupo de clientes. Asimismo, predecir el comportamiento de un futuro cliente, basndose en los datos histricos de clientes que presentaron el mismo perfil, ayuda a poder retenerlo durante el mayor tiempo posible. Las herramientas comerciales de data mining que existen actualmente en el mercado son muy variadas y excelentes en diversas aplicaciones. Las hay orientadas al estudio del web o al anlisis de documentos o de clientes de supermercado, mientras que otras son de uso ms general. Su correcta eleccin depende de la necesidad de la empresa y de los objetivos a corto y largo plazo que pretenda alcanzar. La decisin de seleccionar una solucin de data mining no es una tarea simple. Es necesario consultar a expertos en el rea con vista a seleccionar la ms adecuada para el problema de la empresa. En resumen, el data mining se presenta como una tecnologa emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Adems, no hay duda de que trabajar con esta tecnologa implica cuidar una infinidad de detalles debido a que el producto final involucra "toma de decisiones".
6.7.2 Flickr
Flickr es un sitio web de organizacin de fotografas digitales y red social. El servicio es utilizado extensamente como depsito de fotos. Adems, el sistema de Flickr emplea tcnicas de clustering de datos para agrupar las imgenes por etiquetas o tags (al igual que Last.fm). Simplemente son palabras que permiten definir algo. Por ejemplo si subimos una imagen de la Playa Punta de Palma de Izabal, Guatemala, puedo clasificarla con las siguiente etiquetas: playa mar izabal y guatemala. Pero Flickr es ms que un simple sitio Web donde poder colgar tus fotos, puedes crear un perfil de usuario y encontrar gente alrededor del mundo con gustos similares a los tuyos y agregarlos a tus lista de contactos. Tambin almacena diariamente una coleccin sobre las mejores fotos que se van colgando en el servidor sin que intervenga
8. REFERENCIAS
[1] Artculo: Data mining: torturando a los datos hasta que confiesen. Luis Carlos Molina Felix. Universitat Politcnica de Catalunya. [2] Artculo Wikipedia Last.fm. [3] Web www.last.fm.com