Mineria de Datos

MINERIA DE DATOS DATA MINING
1. Conceptos e Historia Data mining es una etapa dentro de un proceso mayor llamado extraccin de conocimiento en bases de datos, en el entorno comercial, ambos trminos se usan de manera indistinta, reune las ventajas de varias reas como la Estadstica, la Inteligencia Artificial, la Computacin Grfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos. Definicin tradicional: Proceso no trivial de identificacin vlida, novedosa, potencialmente til y entendible de patrones comprensibles que se encuentran ocultos en los datos. Desde el punto de vista empresarial: La integracin de un conjunto de reas que tienen como propsito la identificacin de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisin. Data mining desde los aos sesenta los estadsticos manejaban trminos
como data fishing, data mining o data archaeology con la idea de encontrar correlaciones sin una hiptesis previa en bases de datos . A principios de los aos ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron aconsolidar los trminos de data mining y KDD. A finales de los aos ochenta slo existan un par de empresas dedicadas a esta tecnologa; en la actualidad existen ms de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones. El data mining es una tecnologa compuesta por etapas que integra varias reas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadsticas, de visualizacin de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de data mining muy poderosas que contienen un sinfn de utileras que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementndose con otra herramienta. La data mining es la etapa de descubrimiento en el proceso de
KDD: Paso consistente en el uso de algoritmos concretos que generan una enumeracin de patrones a partir de los datos preprocesados. Aunque se suelen usar indistintamente los trminos KDD y Minera de Datos. 2. LOS FUNDAMENTOS DEL DATA MINING Las tcnicas de Data Mining son el resultado de un largo proceso de investigacin y desarrollo de productos. Esta evolucin comenz cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continu con mejoras en el acceso a los datos, y ms recientemente con tecnologas generadas para permitir a los usuarios navegar a travs de los datos en tiempo real. Data Mining toma este proceso de evolucin ms all del acceso y navegacin retrospectiva de los datos, hacia la entrega de informacin prospectiva y proactiva. Data Mining est soportada por tres tecnologas: Recoleccin masiva de datos. Potentes computadoras con multiprocesadores. Algoritmos de Data Mining. 3. PRINCIPALES CARACTERSTICAS Y OBJETIVOS DE LA MINERA DE DATOS Las bases de datos comerciales estn creciendo a un ritmo sin precedentes. Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontr que el 19% de los que contestaron estn por encima del nivel de los 50 Gigabytes, mientras que el 59% espera alcanzarlo en el segundo trimestre de 1997. En algunas industrias, tales como ventas al por menor (retail), estos nmeros pueden ser an mayores. MCI Telecommunications Corp. cuenta con una base de datos de 3 terabytes + 1 terabyte de ndices y overhead corriendo en MVS sobre IBM SP2. La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma ms costo - efectiva con tecnologa de computadoras con ultiprocesamiento paralelo. Los algoritmos de Data Mining utilizan tcnicas que han existido por lo menos desde hace 10 aos, pero que slo han sido implementadas recientemente como
herramientas maduras, confiables, entendibles que consistentemente son ms performantes que mtodos estadsticos clsicos. En la evolucin desde los datos de negocios a informacin de negocios, cada nuevo paso se basa en el previo. Los componentes esenciales de la tecnologa de Data Mining han estado bajo desarrollo por dcadas, en reas de investigacin como estadsticas, inteligencia artificial y aprendizaje de mquinas. Hoy, la madurez de estas tcnicas, junto con los motores de bases de datos relacionales de alta performance, hicieron que estas tecnologas fueran prcticas para los entornos de data warehouse actuales. Explorar los datos se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen informacin almacenada durante varios aos. En algunos casos, los datos se consolidan en un almacn de datos y en mercados de datos; en otros, se mantienen en servidores de Internet e Intranet. El entorno de la minera de datos suele tener una arquitectura clienteservidor. Las herramientas de la minera de datos ayudan a extraer el mineral de la informacin enterrado en archivos corporativos o en registros pblicos, archivados El minero es, muchas veces un usuario final con poca o ninguna habilidad de programacin, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas adhoc y obtener rpidamente respuestas. Hurgar y sacudir a menudo implica el descubrimiento de resultados valioso se inesperados. Las herramientas de la minera de datos se combinan fcilmente y pueden analizarse y procesarse rpidamente. Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minera de datos. La minera de datos produce cinco tipos de informacin: Asociaciones. Secuencias.
Clasificaciones. Agrupamientos. Pronsticos. Los mineros de datos usan varias herramientas y tcnicas. La minera de datos es un proceso que invierte la dinmica del mtodo cientfico en el siguiente sentido: En el mtodo cientfico, primero se formula la hiptesis y luego se disea el experimento para coleccionar los datos que confirmen o refuten la hiptesis. Si esto se hace con la formalidad adecuada (cuidando cules son las variables controladas y cules experimentales), se obtiene un nuevo conocimiento. En la minera de datos, se coleccionan los datos y se espera que de ellos emerjan hiptesis. Se busca que los datos describan o indiquen por qu son como son. Luego entonces, se valida esa hiptesis inspirada por los datos en los datos mismos, ser numricamente significativa, pero experimentalmente invlida. De ah que la minera de datos debe presentar un enfoque exploratorio, y no confirmador. Usar la minera de datos para confirmar las hiptesis formuladas puede ser peligroso, pues se est haciendo una inferencia poco vlida. La minera de datos es una tecnologa compuesta por etapas que integra varias reas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadsticas, de visualizacin de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de minera de datos muy poderosas que contienen un sinfn de utileras que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementndose con otra herramienta. 4. EL ALCANCE DE DATA MINING
El nombre de Data Mining deriva de las similitudes entre buscar valiosa informacin de negocios en grandes bases de datos - por ej.: encontrar informacin de la venta de un producto entre grandes montos de Gigabytes almacenados. Ambos procesos requieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente donde residen los valores. Dadas bases de datos de suficiente tamao y calidad, la tecnologa de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades:
Prediccin automatizada de tendencias y comportamientos. Data Mining automatiza el proceso de encontrar informacin predecible en grandes bases de datos. Preguntas que tradicionalmente requeran un intenso anlisis manual, ahora pueden ser contestadas directa y rpidamente desde los datos. Un tpico ejemplo de problema predecible es el marketing apuntado a objetivos (targeted marketing). Data Mining usa datos en mailing promocionales anteriores para identificar posibles objetivos para maximizar los resultados de la inversin en futuros mailing. Otros problemas predecibles incluyen pronsticos de problemas financieros futuros y otras formas de incumplimiento, e identificar segmentos de poblacin que probablemente respondan similarmente a eventos dados. Descubrimiento automatizado de modelos previamente desconocidos. Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un slo paso. Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de crditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos. Las tcnicas de Data Mining pueden redituar los beneficios de automatizacin en las plataformas de hardware y software existentes y puede ser implementada en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados. Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alta performance, pueden analizar bases de datos masivas en minutos. Procesamiento ms rpido significa que los usuarios pueden automticamente experimentar con ms modelos para entender datos complejos. Alta velocidad hace que sea prctico para los usuarios analizar inmensas cantidades de datos.
Grandes bases de datos, a su vez, producen mejores predicciones.
5. ARQUITECTURA PARA DATA MINING Para aplicar mejor estas tcnicas avanzadas, stas deben estar totalmente integradas con el data warehouse as como con herramientas flexibles e interactivas para el anlisis de negocios. Varias herramientas de Data Mining actualmente operan fuera del warehouse, requiriendo pasos extra para extraer, importar y analizar los datos. Adems, cuando nuevos conceptos requieren implementacin operacional, la integracin con el warehouse simplifica la aplicacin de los resultados desde Data Mining. El Data warehouse analtico resultante puede ser aplicado para mejorar procesos de negocios en toda la organizacin, en reas tales como manejo de campaas deteccin de fraudes, lanzamiento de nuevos productos, etc. El punto de inicio ideal es un data warehouse que contenga una combinacin de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores. Informacin histrica sobre potenciales clientes tambin provee una excelente base para prospecting. Este warehouse puede ser implementado en una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los datos flexible y rpido. promocionales,
6.
FASES DE UN PROYECTO DE MD Y APLICACIONES DE USO 6.1 FASES DE UN PROYECTO DE MINERA DE DATOS
Los pasos a seguir para la realizacin de un proyecto de minera de datos son siempre los mismos, independientemente de la tcnica especfica de extraccin de conocimiento usada. Fases del Proyecto de MD. El proceso de minera de datos pasa por las siguientes fases: Comprensin del negocio y del problema que se quiere resolver. Filtrado de datos.
Seleccin de Variables. Extraccin de Conocimiento. Interpretacin y Evaluacin. Comprensin del negocio y del problema que se quiere resolver. Tener conocimiento pleno de la empresa as como tambin la problemtica para poder resolver sus problemas. Filtrado de datos El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse...) nunca es el idneo, y la mayora de las veces no es posible ni siquiera utilizar ningn algoritmo de minera sobre los datos en bruto. Mediante el preprocesado, se filtran los datos (de forma que se eliminan valores incorrectos, no vlidos, desconocidos... segn las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el nmero de valores posibles (mediante redondeo, clustering,...). Seleccin de Variables An despus de haber sido preprocesados, en la mayora de los casos se tiene una cantidad ingente de datos. La seleccin de caractersticas reduce el tamao de los datos eligiendo las variables ms influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minera. Los mtodos para la seleccin de caractersticas son bsicamente dos: Aquellos basados en la eleccin de los mejores atributos del problema. Y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heursticos. Algoritmos De Extraccin De Conocimiento Mediante una tcnica de minera de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados
en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente cada tcnica obliga a un preprocesado diferente de los datos. Interpretacin y evaluacin Una vez obtenido el modelo, se debe proceder a su validacin, comprobando que las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos. 7. APLICACIONES DE USO Cada ao, en los diferentes congresos, simposios y talleres que se realizan en el mundo se renen investigadores con aplicaciones muy diversas. Sobre todo en los Estados Unidos, el data mining se ha ido incorporando a la vida de empresas, gobiernos, universidades, hospitales y diversas organizaciones que estn interesadas en explorar sus bases de datos. 7.1. FBI: El FBI analizar las bases de datos comerciales para detectar terroristas. A principios del mes de julio de 2002, el director del Federal Bureau of Investigation (FBI), John Aschcroft, anunci que el Departamento de Justicia comenzar a introducirse en la vasta cantidad de datos comerciales referentes a los hbitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una accin. Algunos expertos aseguran que, con esta informacin, el FBI unir todas las bases de datos probablemente mediante el nmero de la Seguridad Social y permitir saber si una persona fuma, qu talla y tipo de ropa usa, su registro de arrestos,
su salario, las revistas a las que est suscrito, su altura y peso, sus contribuciones a la Iglesia, grupos polticos u organizaciones no gubernamentales, sus enfermedades crnicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra, si tom clases de vuelo o si tiene cuentas de banco abiertas, entre otros. La inversin inicial ronda los setenta millones de dlares estadounidenses para consolidar los almacenes de datos, desarrollar redes de seguridad para compartir informacin e implementar nuevo software analtico y de visualizacin. 2 Empresa Deteccin de fraudes en las tarjetas de crdito. En 2001, las instituciones financieras a escala mundial perdieron ms de 2.000 millones de dlares estadounidenses en fraudes con tarjetas de crdito y dbito. El Falcon Fraud Manager es un sistema inteligente que examina transacciones, propietarios de tarjetas y datos financieros para detectar y mitigar fraudes. En un principio estaba pensado, en instituciones financieras de Norteamrica, para detectar fraudes en tarjetas de crdito. Sin embargo, actualmente se le han incorporado funcionalidades de anlisis en las tarjetas comerciales, de combustibles y de dbito. El sistema Falcon ha permitido ahorrar ms de seiscientos millones de dlares estadounidenses cada ao y protege aproximadamente ms de cuatrocientos cincuenta millones de pagos con tarjeta en todo el mundo -aproximadamente el sesenta y cinco por ciento de todas las transacciones con tarjeta de crdito. Descubriendo el porqu de la desercin de clientes de una compaa operadora de telefona mvil. Este estudio fue desarrollado en una operadora espaola que bsicamente situ sus objetivos en dos puntos: el anlisis del perfil de los clientes que se dan de baja y la prediccin del comportamiento de sus nuevos clientes. Se analizaron los diferentes histricos de clientes que haba abandonado la operadora (12,6%) y de clientes que continuaban con su servicio (87,4%). Tambin se analizaron las variables personales de cada cliente (estado civil, edad, sexo, nacionalidad, etc.). De igual forma se estudiaron, para cada cliente, la morosidad, la frecuencia y el horario de uso del servicio, los descuentos y el porcentaje de llamadas locales, interprovinciales, internacionales y gratuitas. Al
contrario de lo que se podra
pensar, los clientes que abandonaban la
operadora generaban ganancias para la empresa; sin embargo, una de las conclusiones ms importantes radic en el hecho de que los clientes que se daban de baja reciban pocas promociones y registraban un mayor nmero de incidencias respecto a la media. De esta forma se recomend a la operadora hacer un estudio sobre sus ofertas y analizar profundamente las incidencias recibidas por esos clientes. Al descubrir el perfil que presentaban, la operadora tuvo que disear un trato ms personalizado para sus clientes actuales con esas caractersticas. Para poder predecir el comportamiento de sus nuevos clientes se dise un sistema de prediccin basado en la cantidad de datos que se poda obtener de los nuevos clientes comparados con el comportamiento de clientes anteriores. Hbitos de compra en supermercados. Un estudio muy citado detect que los viernes haba una cantidad inusualmente elevada de clientes que adquiran a la vez paales y cerveza. Se detect que se deba a que dicho da solan acudir al supermercado padres jvenes cuya perspectiva para el fin de semana consista en quedarse en casa cuidando de su hijo y viendo la televisin con una cerveza en la mano. El supermercado pudo incrementar sus ventas de cerveza colocndolas prximas a los paales para fomentar las ventas compulsivas, Prediciendo el tamao de las audiencias televisivas. La British Broadcasting Corporation (BBC) del Reino Unido emplea un sistema para predecir el tamao de las audiencias televisivas para un programa propuesto, as como el tiempo ptimo de exhibicin (Brachman y otros, 1996). El sistema utiliza redes neuronales y rboles de decisin aplicados a datos histricos de la cadena para determinar los criterios que participan segn el programa que hay que presentar. La versin final se desempea tan bien como un experto humano con la ventaja de que se adapta ms fcilmente a los cambios porque es constantemente reentrenada con datos actuales. En la Universidad Conociendo si los recin titulados de una universidad llevan a cabo actividades profesionales relacionadas con sus estudios. Se hizo un estudio sobre los recin titulados de la carrera de Ingeniera en Sistemas Computacionales del Instituto Tecnolgico de Chihuahua II, en Mjico (Rodas, 2001). Se quera observar si sus recin titulados se insertaban en actividades profesionales relacionadas con sus estudios y, en caso
negativo, se buscaba saber el perfil que caracteriz a los exalumnos durante su estancia en la universidad. El objetivo era saber si con los planes de estudio de la universidad y el aprovechamiento del alumno se haca una buena insercin laboral o si existan otras variables que participaban en el proceso. Dentro de la informacin considerada estaba el sexo, la edad, la escuela de procedencia, el desempeo acadmico, la zona econmica donde tena su vivienday la actividad profesional, entre otras variables. Mediante la aplicacin de conjuntos aproximados se descubri que existan cuatro variables que determina banla adecuada insercin laboral, que son citadas de acuerdo con su importancia: zona econmica donde habitaba el estudiante, colegio de donde provena, nota al ingresar y promedio final al salir de la carrera. A partir de estos resultados, la universidad tendr que hacer un estudio socio econmicosobre grupos de alumnos que pertenecan a las clases econmicas bajas para dar posibles soluciones, debido a que tres de las cuatro variables no dependan de la universidad. En Investigaciones Espaciales Proyecto SKYCAT. Durante seis aos, el Second Palomar Observatory Sky Survey (POSS-II) coleccion tres terabytes de imgenes que contenan aproximadamente dos millones de objetos en el cielo. Tres mil fotografas fueron digitalizadas a una resolucin de 16 bits por pxel con 23.040 x 23.040 pxeles por imagen. El objetivo era formar un catlogo de todos esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en tcnicas de agrupacin (clustering) y rboles de decisin para poder clasificar los objetos en estrellas, planetas, sistemas, galaxias, etc. Con una alta confiabilidad (Fayyad y otros, 1996). Los resultados han ayudado a los astrnomos a descubrir diecisis nuevos qusars con corrimiento hacia el rojo que los incluye entre los objetos ms lejanos del universo y, por consiguiente, ms antiguos. Estos qusars son difciles de encontrar y permiten saber ms acerca de los orgenes del universo. En los Clubes Deportivos Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a su cuerpo de entrenadores.
El Advanced Scout es un software que emplea tcnicas de data mining y que han desarrollado investigadores de IBM para detectar patrones estadsticos y eventos raros. Tiene una interfaz grfica muy amigable orientada a un objetivo muy especfico: analizar el juego de los equipos de la National Basketball Association (NBA). El software utiliza todos los registros guardados de cada evento en cada juego: pases, encestes, rebotes y doble marcaje (double team) a un jugador por el equipo contrario, entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no detectan cuando observan el juego en vivo o en pelcula. Un resultado interesante fue uno hasta entonces no observado por los entrenadores de los Knicks de Nueva York. El doble marcaje a un jugador puede generalmente dar la oportunidad a otro jugador de encestar ms fcilmente. Sin embargo, cuando los Bulls de Chicago jugaban contra los Knicks, se encontr que el porcentaje de encestes despus de que al centro de los Knicks, Patrick Ewing, le hicieran doble marcaje era extremadamente bajo, indicando que los Knicks no reaccionaban correctamente a los dobles marcajes. Para saber el porqu, el cuerpo de entrenadores estudi cuidadosamente todas las pelculas de juegos contra Chicago. Observaron que los jugadores de Chicago rompan su doble marcaje muy rpido de tal forma que podan tapar al encestador libre de los Knicks antes de prepararse para efectuar su tiro. Con este conocimiento, los entrenadores crearon estrategias alternativas para tratar con el doble marcaje. La temporada pasada, IBM ofreci el Advanced Scout a la NBA, que se convirti as en un patrocinador corporativo. La NBA dio a sus veintinueve equipos la oportunidad de aplicarlo. Dieciocho equipos lo estn haciendo hasta el momento obteniendo descubrimientos interesantes. 8. EXTENSIONES DEL DATA MINING 8.1 Web mining Una de las extensiones del data mining consiste en aplicar sus tcnicas a documentos y servicios del Web, lo que se llama web mining (minera de web) (Kosala y otros, 2000). Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, galletas, etc.) que los servidores automticamente almacenan en una bitcora de accesos (log). Las herramientas de web mining analizan y procesan estos logs para producir informacin significativa, por ejemplo, cmo es la navegacin de un cliente
antes de hacer una compra en lnea. Debido a que los contenidos de Internet consisten en varios tipos de datos, como texto, imagen, vdeo, metadatos o hiperligas, investigaciones recientes usan el trmino multimedia data mining (minera de datos multimedia) como una instancia del web mining (Zaiane y otros, 1998) para tratar ese tipo de datos. Los accesos totales por dominio, horarios de accesos ms frecuentes y visitas por da, entre otros datos, son registrados por herramientas estadsticas que complementan todo el proceso de anlisis del web mining. Normalmente, el web mining puede clasificarse en tres dominios de extraccin de conocimiento de acuerdo con la naturaleza de los datos: Web content mining (minera de contenido web). Es el proceso que consiste en la extraccin de conocimiento del contenido de documentos o sus descripciones. La localizacin de patrones en el texto de los documentos, el descubrimiento del recurso basado en conceptos de indexacin o la tecnologa basada en agentes tambin pueden formar parte de esta categora. Web structure mining (minera de estructura web). Es el proceso de inferir conocimiento de la organizacin del WWW y la estructura de sus ligas. Web usage mining (minera de uso web). Es el proceso de extraccin de modelos interesantes usando los logs de los accesos al web. Algunos de los resultados que pueden obtenerse tras la aplicacin de los diferentes mtodos de web mining son: El ochenta y cinco por ciento de los clientes que acceden a la pgina home de productos y a la de noticias de la misma pgina acceden tambin a la pgina de historia. Esto podra indicar que existe alguna noticia interesante de la empresa que hace que los clientes se dirijan a historias de suceso. Igualmente, este resultado permitira detectar la noticia sobresaliente y colocarla quiz en la pgina principal de la empresa. El sesenta por ciento de los clientes que hicieron una compra en lnea en la pgina del producto 1 tambin compraron en la pgina del producto 4 despus de un mes. Esto indica que se podra recomendar en la pgina del producto 1 comprar el producto 4 y ahorrarse el costo de envo de este producto. Los anteriores ejemplos ayudan a formar una pequea idea de lo que se puede obtener. Sin embargo, en la realidad existen herramientas de mercadomuy poderosas con mtodos variados y visualizaciones grficas excelentes. 8.2 Text mining Estudios recientes indican que el ochenta por ciento de la informacin de una compaa est almacenada en forma de documentos. Sin duda, este campo de
estudio es muy vasto, por lo que tcnicas como la categorizacin de texto, el procesamiento de lenguaje natural, la extraccin y recuperacin de la informacin o el aprendizaje automtico, entre otras, apoyan al text mining (minera de texto). En ocasiones se confunde el text mining con la recuperacin de la informacin (Information Retrieval o IR) (Hearst, 1999). sta ltima consiste en la recuperacin automtica de documentos relevantes mediante indexacionesde textos, clasificacin, categorizacin, etc. Generalmente se utilizan palabrasclave para encontrar una pgina relevante. En cambio, el text mining se refierea examinar una coleccin de documentos y descubrir informacin no contenidaen ningn documento individual de la coleccin; en otras palabras, trata deobtener informacin sin haber partido de algo (Nasukawa y otros, 2001). Una aplicacin muy popular del text mining es relatada en Hearst (1999). Don Swanson intenta extraer informacin derivada de colecciones de texto. Teniendo en cuenta que los expertos slo pueden leer una pequea parte delo que se publica en su campo, por lo general no se dan cuenta de los nuevosdesarrollos que se suceden en otros campos. As, Swanson ha demostradocmo cadenas de implicaciones causales dentro de la literatura mdica puedenconducir a hiptesis para enfermedades poco frecuentes, algunas de las cualeshan recibido pruebas de soporte experimental. Investigando las causas dela migraa, dicho investigador extrajo varias piezas de evidencia a partir deTtulos de artculos presentes en la literatura biomdica. Algunas de esas clavesfueron: El estrs est asociado con la migraa. El estrs puede conducir a la prdida de magnesio. Los bloqueadores de canales de calcio previenen algunas migraas. El magnesio es un bloqueador natural del canal de calcio. La depresin cortical diseminada (DCD) est implicada en algunas migraas. Los niveles altos de magnesio inhiben la DCD. Los pacientes con migraa tienen una alta agregacin plaquetaria. El magnesio puede suprimir la agregacin plaquetaria. Estas claves sugieren que la deficiencia de magnesio podra representar unpapel en algunos tipos de migraa, una hiptesis que no exista en la literatura y que Swanson encontr mediante esas ligas. De acuerdo con Swanson(Swanson y otros, 1994), estudios posteriores han probado
experimentalmenteesta hiptesis obtenida por text mining con buenos resultados.
CONCLUSIONES
En la ltima dcada la minera de datos ha experimentado un enorme crecimiento como resultado de los volmenes de datos que procesan los sistemas de informacin. Los xitos obtenidos han demostrado la necesidad e importancia de este joven y prominente campo de investigacin, sin embargo, se requiere mayor estudio a fin de optimizar los mtodos empleados actualmente. En sus inicios la minera se enfocaba a la generacin de conocimiento a partir de datos temticos. El estudio de datos espaciales se deba realizar casi de manera manual. En muchos casos ste consista de la observacin de mapas, fotografas e imgenes. Las nuevas tcnicas espaciales. A esta nueva rama de investigacin se le denomin minera de datos espaciales.
RECOMENDACIONES
Continuar la investigacin a partir de los resultados obtenidos, siguiendo las orientaciones de la fase de Evaluacin, guiado por la metodologa adecuadas. Fomentar el desarrollo de proyectos de Descubrimiento de Conocimiento en Bases de Datos.
REFERENCIAS [1] Crivat, B.: SQL Server Data Mining Programmability. . URL: http://msdn.microsoft.com/sql/bi/dmining/default.aspx?pull=/library/enus/dnsql90/html/sqldmprgrm.asp. [2] Iyer, Raman and Crivat, Bogdan SQL Server Data Mining: Plug-In Algorithms. . http://msdn.microsoft.com/sql/bi/dmining/default.aspx?pull=/library/enus/dnsql90/html/ssdmpia.asp. [3] MacLennan, J.: Unearth the New Data Mining Features of Analysis Services 2005.; development lead for the Data Mining engine in the SQL Server 2005. MSDN Magazine, September 2004. URL: http://msdn.microsoft.com/msdnmag/issues/04/09/AnalysisServices2005/. [4] Tang, L. and Bradley, P...AMO Lets You Dig Deeper into Your Data from Your Own Applications, MSDN Magazine, June 2005. URL: http://msdn.microsoft.com/sql/bi/dmining/default.aspx?pull=/msdnmag/issues/05/06/am o/toc.asp.

Mineria de Datos

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mineria de Datos

Cargado por

Copyright:

Formatos disponibles

MINERIA DE DATOS DATA MINING

Grandes bases de datos, a su vez, producen mejores predicciones.

FASES DE UN PROYECTO DE MD Y APLICACIONES DE USO 6.1 FASES DE UN PROYECTO DE MINERA DE DATOS

contrario de lo que se podra

pensar, los clientes que abandonaban la

experimentalmenteesta hiptesis obtenida por text mining con buenos resultados.

También podría gustarte