Data Mining

GENERALIDADES
La Minera de Datos o Data Mining es una disciplina que combina tcnicas de Inteligencia Artificial, Aprendizaje Computacional, Probabilidad, Estadstica, y Bases de Datos para extraer informacin y conocimientos a partir de grandes cantidades de datos. Algunas empresas estn utilizando esta disciplina para construir ventajas competitivas en base al conocimiento de sus clientes, sus competidores, sus productos y sus procesos internos. Sin embargo, este conocimiento no es explcito, dado que se encuentra oculto en forma de patrones en los datos que las compaas generan como resultado de su operacin. Data Mining permite a las empresas hacer este conocimiento explcito y utilizarlo en procesos de toma de decisiones. El Data Mining surge como una tecnologa que intenta ayudar a comprender el contenido de una base de datos. De forma general, los datos son la materia prima bruta, en el momento que el usuario les atribuye algn significado especial pasan a convertirse en informacin. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretacin del confrontacin entre la informacin y ese modelo represente un valor agregado, entonces nos referimos al conocimiento. En la siguiente figura se ilustra la jerarqua que existe en una base de datos entre dato, informacin y conocimiento. Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarqua. El rea interna dentro del tringulo representa los objetivos que se han propuesto. La separacin del tringulo representa la estrecha unin entre dato e informacin, no as entre la informacin y el conocimiento. El Data Mining trabaja en el nivel superior buscando patrones, comportamientos, agrupaciones, secuencias, tendencias o asociaciones que puedan generar algn modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisin.
Relacin entre Dato, Informacin y conocimiento.
El descubrimiento de conocimiento en base de datos (KDD, de Knowledge Discovery in Databases) combina las tcnicas tradicionales con numerosos recursos desarrollados en el rea de la inteligencia artificial. En estas aplicaciones el trmino "Minera de Datos" (Data Mining) ha tenido ms aceptacin. En algunos casos las herramientas provenientes de la inteligencia artificial son nuevas, no del todo comprendidas y carentes de un soporte terico formal. OBJETIVOS Data Mining persigue ciertos objetivos de manera especfica: Descripcin. El principal producto del proceso de la Minera de Datos es el descubrimiento de reglas. Estas mostrarn nuevas relaciones entre las variables o excepciones de acuerdo a la empresa en que se utilice este proceso. Ello enriquecer el anlisis y la descripcin de la forma en que trabaja una compaa y ayudar en la planificacin y en el diseo de futuros cambios. Es posible que algunas de las reglas descubiertas no puedan ser cambiadas, pero si resulte posible realizar modificaciones apropiadas en la organizacin con el propsito de mejorar su desempeo. Prediccin (Forecasting): Una vez descubiertas reglas importantes, estas pueden ser utilizadas pera estimar algunas variables de salida. Puede ser en el caso de secuencias en el tiempo, o bien en la identificacin e interrupcin a tiempo, de una futura mala experiencia de crdito. En esta tarea, se complementan las tcnicas estadsticas tradicionales con aquellas provenientes de la inteligencia artificial. Conceptos adaptativos como los algoritmos genticos y las redes neuronales, permiten realizar predicciones ms acertadas, especialmente en casos de gran complejidad y con relaciones internas. CONCEPTOS La Minera de Datos es el paso central en el proceso de descubrimiento de conocimiento en las bases de datos (KDD) el cual trata de encontrar una serie de patrones dentro de los datos considerados. Los otros pasos relacionados con el proceso KDD son referentes a la preparacin de los datos para llevar a cabo el proceso de Minera de Datos as como al tratamiento de los patrones obtenidos. Los conceptos ms importantes relacionados con el proceso de Minera de Datos son:
Datos. Los datos de entrada a un proceso de Minera de Datos son tpicamente tablas correspondientes a una base de datos constituidas por un conjunto de tuplas y un conjunto de atributos. Patrones. Constituyen la salida del proceso de Minera de Datos y vienen a ser relaciones entre subconjuntos de los datos pasados como entrada. Constituyen el resultado final del proceso de Minera de Datos. El nmero de tipos de patrones es muy elevado y cada uno de ellos puede ser utilizado por parte de varios algoritmos que desempeen alguna de las tareas vistas anteriormente. Los tipos ms comunes de patrones que se pueden encontrar: o Ecuaciones Uno de los ejemplos ms claros de este tipo de patrones son los modelos lineales, mediante los cuales expresamos el valor de una determinada variable (atributo en nuestro caso) como combinacin lineal de las variables (atributos) de entrada. Del mismo modo, las ecuaciones pueden servirnos para llevar a cabo un proceso de clasificacin, de manera que en funcin del valor obtenido por la ecuacin considerada, es posible predecir el valor que tomar un determinado atributo discreto. o rboles de decisin Son estructuras jerrquicas donde cada nodo representa una evaluacin sobre un atributo, cada arco se corresponde con una salida del test y cada nodo terminal una prediccin sobre el valor del variable objeto de estudio. Dependiendo de si es un problema de clasificacin o de regresin, el rbol correspondiente recibir el nombre de rbol de clasificacin o rbol de regresin respectivamente. o Reglas de prediccin Poseen la siguiente forma: IF Conjuncin de condiciones THEN Conclusin. En este caso, las condiciones individuales se referirn a la evaluacin del valor de un atributo simple. La conclusin har referencia al valor tomado por el atributo que est siendo estudiado. Algoritmos. Generalmente proceden del campo del aprendizaje de mquinas puesto que en estos realizamos una bsqueda (exhaustiva o heurstica) con la cual se trata de encontrar patrones que expliquen los datos introducidos, al igual que en el caso de la Minera de Datos. De este modo la Minera de Datos consistir en la ejecucin de un algoritmo que desempea una determinada tarea sobre los datos introducidos, produciendo como resultado una serie de patrones que expresan una serie de relaciones entre ellos.
EVOLUCIN DE LA MINERIA DE DATOS

ANTECEDENTES Las tcnicas de Data Mining son el resultado de un largo proceso de investigacin y desarrollo de productos. Esta evolucin comenz cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continu con mejoras en el acceso a los datos, y ms recientemente con tecnologas generadas para permitir a los usuarios navegar a travs de los datos en tiempo real. Data Mining toma este proceso de evolucin ms all del acceso y navegacin retrospectiva de los datos, hacia la entrega de informacin prospectiva y proactiva. Data Mining est listo para su aplicacin en la comunidad de negocios porque est soportado por tres tecnologas que ya estn suficientemente maduras: 1. Recoleccin masiva de datos Las bases de datos comerciales estn creciendo a un ritmo sin precedentes. Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse encontr que el 19% de los que contestaron estn por encima del nivel de los 50 Gigabytes, mientras que el 59% espera alcanzarlo en el segundo trimestre de 1997. En algunas industrias, tales como ventas al por menor (retail), estos nmeros pueden ser an mayores. MCI Telecommunications Corp. cuenta con una base de datos de 3 terabytes + 1 terabyte de ndices y overhead corriendo en MVS sobre IBM SP2. 2. Potentes computadoras con multiprocesadores La necesidad paralela de motores computacionales mejorados puede ahora alcanzarse de forma ms costo - efectiva con tecnologa de computadoras con multiprocesamiento paralelo. 3. Algoritmos de Data Mining Los algoritmos de Data Mining utilizan tcnicas que han existido por lo menos desde hace 10 aos, pero que slo han sido implementadas recientemente como herramientas maduras, confiables, entendibles que consistentemente son ms funcionales que mtodos estadsticos clsicos. En la evolucin desde los datos de negocios a informacin de negocios, cada nuevo paso se basa en el previo. Por ejemplo, el acceso a datos dinmicos es crtico para las aplicaciones de navegacin de datos (drill through applications), y la habilidad para almacenar grandes bases de datos es crtica para Data Mining. Los componentes esenciales de la tecnologa de Data Mining han estado bajo desarrollo por dcadas, en reas de investigacin como estadsticas, inteligencia artificial y aprendizaje de mquinas. Data Warehouse: Un paso antes de Data Mining. Data Warehouse es un concepto que est antes de Data Mining y es la base de este (aunque no siempre es as), por lo anterior, es necesario tener una idea general a este concepto, sin entrar detalles, se debe conocer lo ms
relevante para que en lo sucesivo, al mencionar el Data Warehouse o Data Warehousing no haya dudas sobre el significado que tiene. Las Bases de Datos (BD) de una empresa utilizan los ordenadores como medio para organizar sus datos de forma que sean comprensibles para las personas. Este proceso es conocido como Data Warehousing. La comprensin de los datos almacenados es esencial para cualquier organizacin, ya que constituye un elemento bsico en la toma de decisiones. Un Data Warehouse es un almacn o repositorio de datos categorizados, que concentra un gran volumen de informacin de inters para toda una organizacin, la cual se distribuye por medio de diversas herramientas de consulta y de creacin de informes orientadas a la toma de decisiones. El objetivo del Data Warehouse (DW) es agrupar los datos con el propsito de facilitar su posterior anlisis, de forma que sean fciles de acceder y, posteriormente, analizar informacin sobre la propia empresa. A este tipo de datos se les conoce como informativos. Los sistemas que manejan estos datos se denominan OLAP (Online Analytical Processing). Existe muchas definiciones formales de DW de distintos autores, pero una de las mas famosas puede ser la dada por Inmon en 1992: Un Data Warehouse es una coleccin de datos orientados a temas, integrados, no-voltiles y variante en el tiempo, organizados para soportar necesidades empresariales. Los Data Warehouses a menudo almacenan gran cantidad de informacin, la cual est a veces subdividida en pequeas unidades lgicas. Peridicamente, se importan estos datos de otros sistemas de informacin dentro del Data Warehouse, para realizar sobre ellos un procesamiento posterior. Un Data Warehouse se diferencia de una Base de Datos operacional de una empresa, diremos que un Data Warehouse puede derivarse de la Base de Datos corporativa, mediante la importacin de informacin, pero el DW no es esa BD operacional. Muchos de los datos de una empresa se utilizan como soporte a los negocios, por eso a este tipo de datos se les denomina operacionales. Los sistemas usados con el fin de recogerlos reciben el nombre de OLTP (Online Transaction Processing). Las principales caractersticas o propiedades de un DW son las siguientes: El DW est orientado a la toma de decisiones. Un buen diseo de la base de datos favorece el anlisis y la recuperacin de datos para obtener una ventaja estratgica y para facilitar las decisiones de mercadeo. El DW almacena datos categorizndolos o estructurndolos de forma que favorezcan el anlisis de los datos y puedan proporcionar anlisis histricos. El DW no est orientado a procesos relacionados con la operativa de la empresa, es decir, que solo esta destinado a funcionar como un "almacn de datos". El DW est preparado para ser explotado mediante herramientas especficas que permiten la extraccin de informacin significativa y patrones de comportamiento que permanecen ocultos en un enorme
repositorio de datos. Esta explotacin de los datos se suele realizar con herramientas de Data Mining. ACTUALIDAD La Arquitectura para Data Mining Para aplicar mejor estas tcnicas avanzadas, stas deben estar totalmente integradas con el Data Warehouse as como con herramientas flexibles e interactivas para el anlisis de negocios. Varias herramientas de Data Mining actualmente operan fuera del warehouse, requiriendo pasos extra para extraer, importar y analizar los datos. Adems, cuando nuevos conceptos requieren implementacin operacional, la integracin con el warehouse simplifica la aplicacin de los resultados desde Data Mining. El Data Warehouse analtico resultante puede ser aplicado para mejorar procesos de negocios en toda la organizacin, en reas tales como manejo de campaas promocionales, deteccin de fraudes, lanzamiento de nuevos productos. El punto de inicio ideal es un Data Warehouse que contenga una combinacin de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores. Informacin histrica sobre potenciales clientes tambin provee una excelente base para prospecting. Este warehouse puede ser implementado en una variedad de sistemas de bases relacionales y debe ser optimizado para un acceso a los datos flexible y rpido. Un server multidimensional OLAP permite que un modelo de negocios ms sofisticado pueda ser aplicado cuando se navega por el data warehouse. Las estructuras multidimensionales permiten que el usuario analice los datos de acuerdo a como quiera mirar el negocio - resumido por lnea de producto, u otras perspectivas claves para su negocio. El server de Data Mining debe estar integrado con el data warehouse y el server OLAP para insertar el anlisis de negocios directamente en esta infraestructura. Un avanzado, metadata centrado en procesos define los objetivos del Data Mining para resultados especficos tales como manejos de campaa prospecting, y optimizacin de promociones. La integracin con el data warehouse permite que decisiones operacionales sean implementadas directamente y monitoreadas. A medida que el data warehouse crece con nuevas decisiones y resultados, la organizacin puede "minar" las mejores prcticas y aplicarlas en futuras decisiones. Este diseo representa una transferencia fundamental desde los sistemas de soporte de decisin convencionales. Ms que simplemente proveer datos a los usuarios finales a travs de software de consultas y reportes, el server de Anlisis Avanzado aplica los modelos de negocios del usuario directamente
al warehouse y devuelve un anlisis proactivo de la informacin ms relevante. Estos resultados mejoran los metadatos en el server OLAP proveyendo un estrato de metadatos que representa una vista fraccionada de los datos. Generadores de reportes, visualizadores y otras herramientas de anlisis pueden ser aplicadas para planificar futuras acciones y confirmar el impacto de esos planes.
Retos y Promesas de la Minera de Datos Nadie duda que la experiencia es elemento crucial del conocimiento y la sabidura. La asimilacin de hechos pasados permite enfrentar al futuro con ms posibilidades de xito, sin tener que recordar todos los detalles del pasado. Esto es claro en las personas, pero, cmo puede aplicarse a las corporaciones? La Minera de Datos parece ser ms efectiva cuando los datos tienen elementos que pueden permitir una interpretacin y explicacin en concordancia con la experiencia humana. Lo anterior se facilita mucho si estos elementos son el espacio y el tiempo. Afortunadamente, se estima que el 80% de los datos registrados en una base de datos tiene la posibilidad de geo-referenciarse y, el 100%, de puntualizarse temporalmente. Lo anterior indica lo siguiente:
En primer lugar, que en la mayora de los casos es posible asociar un punto en el espacio, un domicilio, unas coordenadas geogrficas con la entidad que representa el dato, una fecha o punto en el tiempo En segundo lugar, que los patrones o inferencias sobre los datos son usualmente interesantes, en la medida en que son patrones en el tiempo o en el espacio. Por ejemplo, qu productos se comercializan mejor en la temporada navidea, en qu regiones es productivo sembrar caf, qu reas de una zona urbana incrementarn su demanda de escuelas primarias. La tecnologa promete analizar con facilidad grandes volmenes de datos y reconocer patrones en tiempo y espacio que soportarn la toma de decisiones y construirn un conocimiento corporativo de alto nivel. Reto 1: Falsa Interpretacin. La tecnologa de Minera de Datos parece robusta y lista para su aplicacin, dado el gran crecimiento de empresas que comercializan software con diferentes tcnicas. Ms an, gran parte de estas tcnicas son una combinacin directa de madurez en tecnologa de bases de datos y "Data Warehousing", con tcnicas de aprendizaje automtico y de estadstica. Sin embargo, la tecnologa enfrenta an varios retos. El primero de estos retos, es la facilidad con que se puede caer en una falsa interpretacin; para explicarlo, basta reconocer que las primeras y ms maduras tcnicas para el anlisis de datos, con el fin de modelar un fenmeno, provienen de la estadstica. Todos sabemos que existe la posibilidad de ser engaados por la estadstica; no todos tenemos un slido entendimiento de la matemtica, los supuestos y el modelado para entender a la perfeccin el riesgo o margen de error en un ejercicio de inferencia estadstica, pero todos operamos y funcionamos con resmenes e indicadores estadsticos generalmente muy simples. Cuando decimos que una gran decisin se bas en la informacin disponible, tpicamente es una serie de promedios y estimadores estadsticos que presentan una generalizacin de un gran volumen de datos, donde se hace una inferencia. La estadstica es una herramienta poderosa, y es elemento crucial en el anlisis de datos. Sin embargo, a veces enfrentamos problemas muy serios en la interpretacin de sus resultados. El ejemplo tpico es que, usualmente, no recordamos que estos resultados se aplican a grupos (poblaciones) y no a individuos. Estos peligros se ven amplificados en el uso de software de Minera de Datos. Dichas herramientas informticas pueden poner a disposicin de un "analista" (o minero de datos), la posibilidad de crear fcilmente indicadores, resmenes, grficas, y aparentes tendencias, sin un verdadero entendimiento de lo que se est reflejando. Es decir, resulta ms fcil hacer creble una falsedad, posiblemente porque la produjo una computadora, con muchas grficas y con base en muchos datos, eso s, en un instante.
As que el reto es doble. Cmo hacer las herramientas de Minera de Datos accesibles a cualquiera, hasta aquel que no sabe lo ms mnimo de estadstica, pero que sus resultados e interpretaciones sean vlidos? Ntese que es importante que la herramienta tenga un gran elemento de accesibilidad para que su produccin sea rentable. Un ejemplo de esto son las bases de datos relacionales, pues su diseo, modelado, y las herramientas alrededor de los manejadores, han hecho posible que no se requiera de una gran especializacin para tener una gran cantidad de usuarios y que, por lo tanto, el mercado sea extenso para mantener a los que producen manejadores de datos. Naturalmente, es importante que las inferencias sean vlidas. Esto nos trae a un segundo punto crtico, o segundo reto. Si con la estadstica enfrentamos el problema de que es relativamente fcil equivocarse, lo vamos a lograr con la Minera de Datos? La primera razn es porque, aun con la estadstica, el hallar una correlacin (estadsticamente significativa) no significa haber encontrado una relacin causa-efecto. El contraejemplo clsico lo constituyen los datos anuales de edad, de las personas fallecidas en los Estados Unidos, por estados. Los anlisis estadsticos ms abundantes encuentran que el estado de Florida tiene, ao tras ao, la edad promedio ms avanzada en que la gente fallece, y con todo el rigor (y significancia estadstica) que se desee. Es acaso esto un indicador de que nacer en Florida garantiza longevidad? Se vive ms si se muda uno a la pennsula? De ninguna manera; la verdadera explicacin es que Florida alberga a una gran cantidad de pensionistas, retirados, etctera. La gente se va a morir a Florida, pero para entonces, ya es muy mayor. Si se muere antes de ser pensionista, se muere en su lugar de origen, forzando el promedio de su estado a bajar; si vive mucho, le alcanza para mudarse a Florida y subir all el promedio. El software de Minera de Datos esta diseado para hallar correlaciones, para olfatearlas. Su tarea consiste en encontrar aquella proyeccin de los datos, aquella perspectiva donde aparece una correlacin y, lamentablemente, en muchos casos, presentarla como una relacin causa-efecto. Esto es especialmente cierto en los sistemas que generan reglas de asociacin, de tal forma, "SI ESTADO = FLORIDA, ENTONCES, EDAD - AL - FALLECIMIENTO = ANCIANA". Esto se deriva de que la Minera de Datos sigue una filosofa muy diferente a como se hace la ciencia. La ciencia, generadora del conocimiento y fundamento de nuestra sorprendente tecnologa, opera con base en el mtodo cientfico. Este mtodo postula que la hiptesis se genera con antelacin a la coleccin de los datos. La Minera de Datos genera hiptesis a partir de los datos. No es catastrfico que se generen hiptesis a partir de los datos. En realidad, el formular creencias a partir de una experiencia finita y limitada es un elemento fundamental del aprendizaje,
pero el otro elemento crucial consiste en la revisin de las hiptesis a la luz de nuevos datos y nuevas experiencias. La Minera de Datos es una herramienta explorativa y no explicativa. Es decir, explora los datos para sugerir hiptesis. Es incorrecto aceptar dichas hiptesis como explicaciones o relaciones causa-efecto. Es necesario coleccionar nuevos datos y validar las hiptesis generadas ante los nuevos datos, y despus descartar aquellas que no son confirmadas por los nuevos datos. Pero la Minera de Datos no puede ser experimental. En muchas circunstancias, no es posible reproducir las condiciones que generaron los datos (especialmente si son datos del pasado, y una variable es el tiempo). Afortunadamente, existen algunas tcnicas para resolverlo, pero se requiere cierta madurez estadstica para su comprensin. Reto 2: Tiempo y Espacio La modelacin en computadora del tiempo y el espacio son problemas complejos, especialmente para hacer inferencias. Esto hace que las tcnicas de Aprendizaje Automtico enfrenten mayores dificultades cuando abordan los temas que parecen ms interesantes, de descubrimiento de patrones. A esto se aaden varios tipos de problemas. El primero, es el de Minera de Datos con relaciones en el tiempo. Es muy posible que se deseen hacer inferencias y anlisis de datos sobre un periodo determinado, pero que durante dicho periodo no se haya registrado el mismo nmero de variables, o que stas no tengan la misma precisin, o carezcan de la misma interpretacin. En ciertos casos puede que se haya hecho un ejercicio de Minera de Datos en el pasado y que los datos se hayan descartado o destruido, pero que se desee hacer una comparacin con datos ms recientes. Ntese que un ejercicio de Minera de Datos puede traer a la luz relevancia de variables y factores, pero que sea imposible recopilar estas variables y completar adecuadamente conjuntos de datos del pasado. Otros problemas de anlisis de datos con relacin al tiempo, son asociados a la granularidad de los datos con respecto al tiempo. En este sentido, no se conocen todos los datos en el continuo del tiempo. Por ejemplo, si se hacen recopilaciones mensuales, es imposible hacer una prediccin semanal. Desde el punto de vista geogrfico o espacial, resulta complejo identificar las esferas de influencia y las distribuciones en espacio que reflejan la realidad. Esto es una observacin que a veces parece paradoja --todo esta relacionado con todo-- pero es mayormente influenciado por lo que tiene ms prximo. Se puede identificar una relacin explcita de cmo decrece una esfera de influencia en el espacio, y existen ideas que, incluso, proponen que los fenmenos espaciales no son modelables (como la teora del caos).
Reto 3: Privacidad Cuando la Minera de Datos era an emergente, se lleg a pensar que no presentaba ningn peligro o riesgo para la privacidad de los clientes. Hoy en da, se piensa todo lo contrario, sin embargo, no existe un marco jurdico que haya mantenido el paso con el avance tecnolgico. Esto es, hoy en da, las corporaciones comercializan con millones de perfiles personales, sin que aquellos a que se refieren los datos intercambiados, estn en posibilidad de intervenir. Cada llamada telefnica, cada transaccin bancaria, cada compra en un supermercado, es registrada en una computadora, y si la compaa de telfonos, el banco y el club de supermercados combinan sus bases de datos, estn en condiciones de elaborar un perfil muy completo. Este perfil definira a ms de una persona (y no como los que estn en condiciones de conocer a sus vecinos). Si a esto aadimos qu sitios de WEB visita, qu y dnde se compr con la tarjeta de crdito, etctera, no existe ninguna privacidad. El problema va desde las definiciones de qu constituye privacidad y quin es el propietario de los datos, hasta qu tanto de un individuo, est en posibilidad real de recopilarse. TENDENCIAS En muchas reas del saber, el conocimiento se ha venido obteniendo por el clsico mtodo hipottico-deductivo, a partir de un conjunto de observaciones y de unos conocimientos previos, la intuicin y la experiencia del investigador le conduce a formular las hiptesis. Sin embargo, esta intuicin resulta casi imposible de llevar a cabo cuando, en vez de observaciones aisladas y casuales, se analizan millones de datos de grandes bases de datos. Es evidente que el proceso de complejidad creciente experimentado por la humanidad en los ltimos tiempos supera a la mente de cualquier ser humano, escapa plenamente a su control. El considerable crecimiento de la informacin llega a obnubilar la mente, produce stress, sobrecarga la memoria, crea deficiencias en la atencin y genera estados de inmovilidad. No obstante, las computadoras pueden manejar volmenes de informacin infinitamente superiores a los que la mente humana puede dominar, considerando un nmero inhumanamente grande de variables simultneas y hacindolo ms rpidamente de lo que jams ningn ser humano podr realizar; y esto se ir acrecentando en los prximos aos, hemos visto como por algunas pocas dcadas las computadoras han evolucionado a algo que hace 50 o 60 aos era impensable por muchos. Actualmente, el mejor uso del Data Mining es aquel en donde el analista formula las consultas especficas a fin de que el sistema convalide o desmienta las hiptesis segn los datos. Sin embargo, la tecnologa continuar automatizando cada vez ms el proceso de decisin en s mismo, haciendo que las futuras herramientas de descubrimiento detecten las relaciones y generen esencialmente las hiptesis.
Como ltimo objetivo todava lejano se intenta crear un sistema de descubrimiento de conocimiento de propsito general que, a medida que se vuelva ms complejo, agregue sus propios aportes. A travs del anlisis cuidadoso, del examen meticuloso y de la asociacin de datos sin una conexin obvia, podra ser capaz -por ejemplo- de descubrir nuevos tratamientos para enfermedades u originales ideas para explicar el origen del universo. Con respecto a este concepto, el futurlogo A. Toffler hace notar que la computadora puede sugerir soluciones imaginativas para ciertos problemas al descubrir relaciones nuevas o que hasta entonces haban pasado inadvertidas. Se podra pedir a la computadora que "piense lo impensable", que piense en lo que aun jams ha sido pensado. En poco tiempo ms, el Data Mining puede volverse tan comn y fcil usar como el e-mail. Podremos utilizar estas herramientas de forma masiva para analizar datos a gran escala y encontrar, por ejemplo, la mejor tarifa area a Cancn, conseguir el nmero telefnico de un antiguo compaero de clase, o encontrar los precios ms econmicos de las bordadoras de csped. El software se dar cuenta dnde buscar, cmo evaluar lo que encuentra y cundo dejar de buscar. Nuestros ayudantes cognitivos pueden volverse tan indispensables como lo es ahora el telfono. Esto significa que las computadoras ahora pensarn por nosotros?, una posible respuesta es que, debemos hacer que ellas piensen, o mejor dicho, descubran lo que queremos que descubran, que sirvan para lo que queremos que sirvan, el uso de tecnologas como Data Mining conlleva muchas facilidades hacia la vida de los seres humanos, las computadoras se han hecho para facilitar la vida cotidiana no para complicarla y Data Mining representa una de estas facilidades, la cual por supuesto evolucionar. El desarrollo de la tecnologa de Minera de Datos est en un momento crtico. Existe una serie de elementos que la hacen operable, y una realidad; sin embargo, existe una serie de retos por los cuales puede caer en un gran descrdito. El ms serio de stos, es que los productos a comercializar son, en la actualidad, significativamente costosos, y los consumidores pueden hallar una relacin costo/beneficio improductiva. Un ejemplo que ha cobrado fama es el de una compaa de seguros que despus de invertir millones de dlares en ejercicios de Minera de Datos, logr obtener una regla de asociacin de la ms alta certeza, pero que deca que el 95 % de los esposos eran hombres. Otros factores que pueden crear una desilusin de las promesas de la Minera de Datos son: Que se requiera de mucha experiencia para utilizar herramientas de la tecnologa, o que sea muy fcil hallar patrones equvocos, triviales o no interesantes,
Que no sea posible resolver los aspectos tcnicos de hallar patrones en tiempo o en espacio, Que exista una reaccin del publico por el uso indiscriminado de datos personales para ejercicios de Minera de Datos, que obligue a los legisladores a imponer restricciones exageradas (y tal vez absurdas) al uso de la tecnologa.
Las herramientas de Data Mining exploran gran cantidad de datos dentro de una BD grande, y mediante su anlisis predicen posibles tendencias o comportamientos futuros entro de una empresa, permitiendo al experto tomar decisiones en los negocios de una forma rpida y utilizando un conocimiento que de otra forma no habra encontrado. Mediante la utilizacin de estas herramientas se pueden generar nuevas oportunidades de negocio. Algunas posibilidades que ofrecen estas herramientas son: Prediccin automatizada de tendencias y comportamientos. Descubrimiento automatizado de modelos desconocidos. Descubrimiento de anomalas y acciones fraudulentas por parte de clientes.
Los prximos cinco aos definirn, en gran medida, el futuro de este tipo de herramientas. Las actividades que deben realizarse estn: 1. Desarrollo de algoritmos de Minera de Datos para la clasificacin, agrupamiento, anlisis de dependencias, deteccin de cambios y desviaciones, que sean escalables en grandes bases de datos. 2. Desarrollo de esquemas para la codificacin de meta informacin. Sobre tablas de datos de tal manera que los algoritmos de Minera de Datos puedan trabajar de una manera ms efectiva. 3. Desarrollo medios efectivos para ejemplificar datos, reducir datos y reduccin dimensional de los mismos, que sean capaces de operar con campos de datos mixtos ya sean numricos o categoriales. 4. Desarrollo esquemas que permitan a la Minera de Datos operar sobre conjuntos de datos no homogneos (multimedia, video y texto) y tratar sobre relaciones que slo incluyen un conjunto de datos. 5. Desarrollo de nuevas herramientas de Minera de Datos capaces de obtener unos patrones ms complejos entre los datos y sean capaces de descubrir una estructura entre ellos (herencia, relaciones escasas). 6. Desarrollo de mtodos de Minera de Datos para descubrir el conocimiento esencial en los datos y explotar ese conocimiento para reducir la bsqueda. 7. Desarrollo de tcnicas que permitan la obtencin de modelos que supongan una mezcla equilibrada entre complejidad y comprensibilidad con propsitos de visualizacin y generacin de informes. 8. Desarrollo de teoras y tcnicas que nos permitan modelar el crecimiento y el cambio en los datos.
9. Incorporar elementos de la Minera de Datos que permitan a los algoritmos llevar a cabo una estimacin de los recursos disponibles que le permitan realizar una ejecucin ms eficiente.
METODOLOGA
En toda metodologa, es necesario en primer trmino: Determinacin de los objetivos. Trata de la delimitacin de los objetivos que el cliente desea bajo la orientacin del especialista en data mining. Fases de un proyecto de Mineria De Datos Los pasos a seguir para la realizacin de un proyecto de Minera de Datos son siempre los mismos, independientemente de la tcnica especfica de extraccin de conocimiento usada.
El proceso de Minera de Datos pasa por las siguientes fases: Filtrado de datos Seleccin de Variables Extraccin de Conocimiento Interpretacin y Evaluacin El CRISP-DM (CRoss Industry Standard Process for Data Mining) es un estndar industrial utilizado por ms de 160 empresas e instituciones de todo el mundo, que surge en respuesta a la falta de estandarizacin y propone un modelo de proceso general para proyectos de Minera de Datos: Neutral respecto a industria y herramientas. Aplicable en cualquier sector de negocio. 1 Filtrado de datos
El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse...) nunca es el idneo, y la mayora de las veces no es posible ni siquiera utilizar ningn algoritmo de minera sobre los datos "en bruto". Mediante el preprocesado, se filtran los datos (de forma que se eliminan
valores incorrectos, no vlidos, desconocidos... segn las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el nmero de valores posibles (mediante redondeo, clustering). 2 Seleccin de variables
An despus de haber sido preprocesados, en la mayora de los casos se tiene una cantidad ingente de datos. La seleccin de caractersticas reduce el tamao de los datos eligiendo las variables ms influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minera. Los mtodos para la seleccin de caractersticas son bsicamente dos: Aquellos basados en la eleccin de los mejores atributos del problema, Y aquellos que buscan variables independientes mediante pruebas de sensibilidad, algoritmos de distancia o heursticos. 3 Algoritmos de Extraccin de Conocimiento
Mediante una tcnica de Minera de Datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente cada tcnica obliga a un preprocesado diferente de los datos. 4 Interpretacin y evaluacin
Una vez obtenido el modelo, se debe proceder a su validacin, comprobando que las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
TECNICAS
Las tcnicas de Data Mining pueden redituar los beneficios de automatizacin en las plataformas de hardware y software existentes y puede ser implementada en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados. Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alta performance, pueden analizar bases de datos masivas en minutos. Procesamiento ms rpido significa que los usuarios pueden automticamente experimentar con ms modelos para entender datos complejos. Alta velocidad hace que sea prctico para los usuarios analizar inmensas cantidades de datos. Grandes bases de datos, a su vez, producen mejores predicciones. Las bases de datos pueden ser grandes tanto en profundidad como en ancho: Ms columnas. Los analistas muchas veces deben limitar el nmero de variables a examinar cuando realizan anlisis manuales debido a limitaciones de tiempo. Sin embargo, variables que son descartadas porque parecen sin importancia pueden proveer informacin acerca de modelos desconocidos. Un Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos, sin preseleccionar un subconjunto de variables. Ms filas. Muestras mayores producen menos errores de estimacin y desvos, y permite a los usuarios hacer inferencias acerca de pequeos pero importantes segmentos de poblacin. Las tcnicas ms comnmente usadas en Data Mining son: Redes neuronales artificiales: modelo predecible no-lineales que aprenden a travs del entrenamiento y semejan la estructura de una red neuronal biolgica. rboles de decisin: estructuras de forma de rbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificacin de un conjunto de datos. Mtodos especficos de rboles de decisin incluyen rboles de Clasificacin y Regresin (CART: Classification And Regression Tree) y Deteccin de Interaccin Automtica de Chi Cuadrado (CHAI: Chi Square Automatic Interaction Detection) Algoritmos genticos: tcnicas de optimizacin que usan procesos tales como combinaciones genticas, mutaciones y seleccin natural en un diseo basado en los conceptos de evolucin. Mtodo del vecino ms cercano: una tcnica que clasifica cada registro en un conjunto de datos basado en una combinacin de las clases del/de los k registro (s) ms similar/es a l en un conjunto de
datos histricos (donde k 1). Algunas veces se llama la tcnica del vecino k-ms cercano. Regla de induccin: la extraccin de reglas if-then de datos basados en significado estadstico. Muchas de estas tecnologas han estado en uso por ms de una dcada en herramientas de anlisis especializadas que trabajan con volmenes de datos relativamente pequeos. Estas capacidades estn ahora evolucionando para integrarse directamente con herramientas OLAP y de Data Warehousing. Datos: Las entradas a un algoritmo de Minera de Datos son tuplas correspondientes a una determinada tabla de una base de datos. Estas tuplas pueden ser consideradas como ejemplos que permiten al algoritmo obtener patrones de los mismos. Clasificacin y regresin Estas tcnicas hacen referencia al proceso por el cual tratamos de averiguar el valor de un determinado atributo a partir del valor de otros campos. Cuando el atributo que se est considerando toma valores continuos, este proceso recibe el nombre de regresin mientras que, si son discretos el nombre es clasificacin. Tanto en uno como en otro se divide el conjunto de datos en dos partes: el conjunto de entrenamiento mediante el cual tratamos de obtener un modelo que me permita determinar el valor del atributo dado, y un conjunto de prueba mediante el cual comprobamos la validez del modelo obtenido. Clustering: Mediante esta tcnica tratamos de dividir el conjunto de datos inicial en una serie de grupos o clusters, de manera que aquellos datos que pertenezcan a un cluster sean muy parecidos entre s pero que difieran en gran medida con aquellos datos que se encuentran en otro cluster. Esta divisin se hace basndose en el concepto de distancia entre los datos. Anlisis de asociaciones Esta tarea comprende dos etapas: Identificar conjuntos de tems frecuentes, lo cual significa que ese tem aparece en un determinado nmero de ejemplos de nuestra tabla. Establecer reglas de la forma XY donde tanto X como Y son tems frecuentes. Aunque las principales tareas relacionadas con la Minera de Datos son las indicadas anteriormente, existen muchas otras como por ejemplo: Caracterizacin de datos: Trata de obtener las caractersticas fundamentales de un conjunto de datos pasado como argumento. Discriminacin de datos: Compara los datos obtenidos por un proceso de caracterizacin de datos con los datos correspondientes a otro conjunto de datos, utilizado para contrastar dicha informacin.
Deteccin de anomalas: Tratamos de detectar elementos de nuestro conjunto de datos que no se adapten al comportamiento general del conjunto. De esta manera tratamos de evitar introducir informacin errnea que nos conduzca a resultados equivocados. Anlisis de evolucin: Describe regularidades cuyo comportamiento cambia con el tiempo, como puede ser la modificacin en el valor esperado en un determinado atributo. Modelado: es simplemente el acto de construir un modelo en una situacin donde usted conoce la respuesta y luego la aplica en otra situacin de la cual desconoce la respuesta. Por ejemplo, si busca un galen espaol hundido en los mares lo primero que podra hacer es investigar otros tesoros espaoles que ya fueron encontrados en el pasado. Notara que esos barcos frecuentemente fueron encontrados fuera de las costas de Bermuda y que hay ciertas caractersticas respecto de las corrientes ocenicas y ciertas rutas que probablemente tomar el capitn del barco en esa poca. Usted nota esas similitudes y arma un modelo que incluye las caractersticas comunes a todos los sitios de estos tesoros hundidos. Con estos modelos en mano sale a buscar el tesoro donde el modelo indica que en el pasado hubo ms probabilidad de darse una situacin similar. Con un poco de esperanza, si tiene un buen modelo, probablemente encontrar el tesoro. Este acto de construccin de un modelo es algo que la gente ha estado haciendo desde hace mucho tiempo, seguramente desde antes del auge de las computadoras y de la tecnologa de Data Mining. Lo que ocurre en las computadoras, no es muy diferente de la manera en que la gente construye modelos. Las computadoras son cargadas con mucha informacin acerca de una variedad de situaciones donde una respuesta es conocida y luego el software de Data Mining en la computadora debe correr a travs de los datos y distinguir las caractersticas de los datos que llevarn al modelo. Una vez que el modelo se construy, puede ser usado en situaciones similares donde usted no conoce la respuesta. Si alguien le dice que tiene un modelo que puede predecir el uso de los clientes, Cmo puede saber si es realmente un buen modelo? La primera cosa que puede probar es pedirle que aplique el modelo a su base de clientes - donde usted ya conoce la respuesta. Con Data Mining, la mejor manera para realizar esto es dejando de lado ciertos datos para aislarlos del proceso de Data Mining. Una vez que el proceso est completo, los resultados pueden ser testeados contra los datos excluidos para confirmar la validez del modelo. Si el modelo funciona, las observaciones deben mantenerse para los datos excluidos
SOFTWARE PROTOTIPO
Algunos ejemplos de software empleado para trabajar Data Mining son: Weka: Magnfica suite de Minera de Datos de libre distribucin. Weka es una coleccin de mquinas virtuales para implementar algoritmos para tareas de Minera de Datos. Los algoritmos pueden aplicarse directamente a un conjunto de datos o pueden utilizarse desde un programa de Java. Weka contiene herramientas para el procesamiento de datos, clasificacin, asociacin, visualizacin, entre otras. Tambin est bien preparado para desarrollar esquemas. Weka es un software abierto emitido por GNU. MLC++: Conjunto de libreras y utilidades de Minera de Datos. Es una biblioteca de clases de C++. Proporciona algoritmos que pueden ser usados por usuarios finales, analistas, profesionales e investigadores. El objetivo principal es proporcionarles una variedad ancha de herramientas que pueden ayudarlos a llevar procesos de Minera de Datos, acelerar el desarrollo de nuevos algoritmos mineros, proporcionar herramientas de comparacin y de despliegue de informacin. Xelopes: Librera con licencia pblica GNU para el desarrollo de aplicaciones de Minera de Datos. Es una librera de plataforma independiente para utilizacin de Data Mining. Proporciona algoritmos de Minera de Datos muy eficaces que usted puede integrar transparentemente en sus aplicaciones. Apoya la automatizacin de seleccin de parmetros de los mtodos para que stos puedan desplegarse totalmente automticamente. Herramientas de Microsoft. Microsoft ha decidido implementar su API de Data Mining utilizando OLE DB para el acceso a los datos. Esta API define un lenguaje basado en SQL especialmente desarrollado con el fin de definir que reglas y patrones que nos gustara encontrar. Los modelos obtenidos en este proceso son tratados mediante tablas SQL especiales. Microsoft SQL Server 2000 incluye esta tecnologa basada en OLE DB, y en dos algoritmos: Microsoft Decision Trees y Microsoft Clustering, ambos basados en tcnicas de Inteligencia Artificial y desarrollados por Microsoft Research. Microsoft SQL Server es el sistema gestor de Bases de Datos de Microsoft. Su diseo se ha realizado pensando en la seguridad, fiabilidad y escalabilidad, por lo que es ideal para aquellas empresas que buscan agilidad en el control y anlisis de su informacin. Entre sus mltiples funcionalidades se puede destacar la integracin
servicios OLAP, directivas de seguridad, optimizacin de recursos de sistema, y un completo paquete pensado para el anlisis de los datos. Por otra parte, las herramientas comerciales de Data Mining que existen actualmente en el mercado son variadas y excelentes. Las hay orientadas al estudio del web o al anlisis de documentos o de clientes de supermercado, mientras que otras son de uso ms general. Su correcta eleccin depende de la necesidad de la empresa y de los objetivos a corto y largo plazo que pretenda alcanzar. La decisin de seleccionar una solucin de Data Mining no es una tarea simple. Es necesario consultar a expertos en el rea con vista a seleccionar la ms adecuada para el problema de la empresa. Debemos aclarar que aqu solo estamos presentando ejemplos de herramientas que estn destinadas al uso de Data Mining, hemos hablado de algunos productos comerciales y dado la descripcin que los mismos diseadores de estos productos dan, sin embargo, esto no quiere decir que nosotros estemos a favor de usar tal o cual producto, la decisin depende en su totalidad de la empresa que pretenda usar alguna herramienta de Data Mining como se mencion en el prrafo anterior. HERRAMIENTA UTILIZADAS EN DATA MINING DE LA INTELIGENCIA ARTIFICIAL. Redes Neuronales (Neural Networks): Grupo de unidades interconectadas y organizadas por capas. Estas pueden ser funciones matemticas y nmeros almacenados en computadoras digitales, pero pueden ser elaboradas tambin mediante dispositivos analgicos como los transistores a efecto de campo. A pesar del incremento en velocidad y de la escala de integracin en los semiconductores, la mejor contribucin de las redes neuronales tendr que esperar por computadoras ms rpidas, masivas y paralelas. Mapas caractersticos de Kohonen (Self-organizing Maps): Es una red neuronal donde los datos son mostrados a la estructura y esta se sensibiliza a los patrones presentes. Una vez entrenada es capaz de identificar tales patrones en nuevos datos. Reconocimiento de patrones (Pattern Recognition): Se trata de un grupo de tcnicas orientadas a evaluar la similitud y las diferencias entre seales. Se involucran en esto a varios tipos de pre-procesamiento tales como la transformada de Fourier. K-nearest neibor: Un procedimiento para clasificar a los registros de un archivo mediante la identificacin de grupos (clusters) y decidiendo a cual grupo pertenece cada uno de los registros. Algoritmo Gentico (Genetic Algorithm): Imitando la evolucin de las especies mediante la mutacin, reproduccin y seleccin, estos algoritmos proporcionan programas y optimizaciones que pueden ser utilizados en la
construccin y entrenamiento de otras estructuras como las redes neuronales. EXTENSIONES DE DATA MINING. Web Mining. Una de las extensiones del Data Mining consiste en aplicar sus tcnicas a documentos y servicios del Web, lo que se llama Web Mining (minera de web). Todos los que visitan un sitio en internet dejan huellas digitales (direcciones de IP, navegador, galletas) que los servidores automticamente almacenan en una bitcora de accesos (logs). Las herramientas de Web Mining analizan y procesan estos logs para producir informacin significativa, por ejemplo, cmo es la navegacin de un cliente antes de hacer una compra en lnea. Debido a que los contenidos de Internet consisten en varios tipos de datos, como texto, imagen, vdeo, metadatos o hiperligas, investigaciones recientes usan el trmino Multimedia Data Mining (Minera de Datos multimedia) como una instancia del Web Mining para tratar ese tipo de datos. Los accesos totales por dominio, horarios de accesos ms frecuentes y visitas por da, entre otros datos, son registrados por herramientas estadsticas que complementan todo el proceso de anlisis del Web Mining. Normalmente, el Web Mining puede clasificarse en tres dominios de extraccin de conocimiento de acuerdo con la naturaleza de los datos: 1. Web Content Mining (minera de contenido web). Es el proceso que consiste en la extraccin de conocimiento del contenido de documentos o sus descripciones. La localizacin de patrones en el texto de los documentos, el descubrimiento del recurso basado en conceptos de indexacin o la tecnologa basada en agentes tambin pueden formar parte de esta categora. 2. Web Structure Mining (minera de estructura web). Es el proceso de inferir conocimiento de la organizacin del WWW y la estructura de sus ligas. 3. Web Usage Mining (minera de uso web). Es el proceso de extraccin de modelos interesantes usando los logs de los accesos al web. Algunos de los resultados que pueden obtenerse tras la aplicacin de los diferentes mtodos de Web Mining son: El ochenta y cinco por ciento de los clientes que acceden a /productos/home.html y a /productos/noticias.html acceden tambin a /productos/historias_suceso.html. Esto podra indicar que existe alguna noticia interesante de la empresa que hace que los clientes se dirijan a historias de suceso. Igualmente, este resultado permitira detectar la noticia sobresaliente y colocarla quiz en la pgina principal de la empresa.
Los clientes que hacen una compra en lnea cada semana en /compra/producto1.html tienden a ser de sectores del gobierno. Esto podra resultar en proponer diversas ofertas a este sector para potenciar ms sus compras. El sesenta por ciento de los clientes que hicieron una compra en lnea en /compra/producto1.html tambin compraron en /compra/producto4.html despus de un mes. Esto indica que se podra recomendar en la pgina del producto 1 comprar el producto 4 y ahorrarse el costo de envo de este producto. Los anteriores ejemplos nos ayudan a formarnos una pequea idea de lo que podemos obtener. Sin embargo, en la realidad existen herramientas de mercado muy poderosas con mtodos variados y visualizaciones grficas excelentes. Text Mining. Con billones de pginas en la red, se requieren de nuevas tecnologas para encontrar, clasificar y detectar particulares patrones en la informacin disponible. La esencia de los mtodos de la Minera de Datos aplicados a los datos numricos, puede tambin ser aplicada a datos de texto. Estudios recientes indican que el ochenta por ciento de la informacin de una compaa est almacenada en forma de documentos. Sin duda, este campo de estudio es muy vasto, por lo que tcnicas como la categorizacin de texto, el procesamiento de lenguaje natural, la extraccin y recuperacin de la informacin o el aprendizaje automtico, entre otras, apoyan al Text Mining (minera de texto). En ocasiones se confunde el Text Mining con la recuperacin de la informacin (Information Retrieval o IR). sta ltima consiste en la recuperacin automtica de documentos relevantes mediante indexaciones de textos, clasificacin, categorizacin, etc. Generalmente se utilizan palabras clave para encontrar una pgina relevante. En cambio, el Text Mining se refiere a examinar una coleccin de documentos y descubrir informacin no contenida en ningn documento individual de la coleccin; en otras palabras, trata de obtener informacin sin haber partido de algo. Una aplicacin muy popular del Text Mining es: Don Swanson intenta extraer informacin derivada de colecciones de texto. Teniendo en cuenta que los expertos slo pueden leer una pequea parte de lo que se publica en su campo, por lo general no se dan cuenta de los nuevos desarrollos que se suceden en otros campos. As, Swanson ha demostrado cmo cadenas de implicaciones causales dentro de la literatura mdica pueden conducir a hiptesis para enfermedades poco frecuentes, algunas de las cuales han recibido pruebas de soporte experimental. Investigando las causas de la migraa, dicho investigador extrajo varias piezas de evidencia a partir de ttulos de artculos presentes en la literatura biomdica. Algunas de esas claves fueron:
El estrs est asociado con la migraa. El estrs puede conducir a la prdida de magnesio. Los bloqueadores de canales de calcio previenen algunas migraas. El magnesio es un bloqueador natural del canal de calcio. Los niveles altos de magnesio inhiben la DCD. Los pacientes con migraa tienen una alta agregacin plaquetaria. El magnesio puede suprimir la agregacin plaquetaria. Estas claves sugieren que la deficiencia de magnesio podra representar un papel en algunos tipos de migraa, una hiptesis que no exista en la literatura y que Swanson encontr mediante esas ligas. De acuerdo con Swanson, estudios posteriores han probado experimentalmente esta hiptesis obtenida por Text Mining con buenos resultados.
USOS Y APLICACIONES DEL DATA MINING

Sin duda alguna que el uso de Data Mining: Contribuye a la toma de decisiones tcticas y estratgicas proporcionando un sentido automatizado para identificar informacin clave desde volmenes de datos generados por procesos tradicionales o elementos software. Permite a los usuarios dar prioridad a decisiones y acciones, por ejemplo, qu segmentos de clientes son desechables en una empresa. Proporciona poderes de decisin a los usuarios del negocio que mejor entienden el problema y el entorno y es capaz de medir la acciones y los resultados de la mejor forma. Genera Modelos descriptivos: En un contexto de objetivos definidos en los negocios permite a empresas, sin tener en cuenta la industria o el tamao, explorar automticamente, visualizar y comprender los datos e identificar patrones, relaciones y dependencias que impactan en los resultados finales de la cuenta de resultados (tales como el aumento de los ingresos, incremento de los beneficios, contencin de costos y gestin de riesgos) Genera Modelos predictivos: permite que relaciones no descubiertas e identificadas a travs del proceso del Data Mining sean expresadas como reglas de negocio o modelos predictivos. Estos outputs pueden comunicarse en formatos tradicionales (presentaciones, informes, informacin electrnica compartida, embebidos en aplicaciones) para guiar la estrategia y planificacin de la empresa. Si una empresa tiene menos de 100 mil clientes probablemente le baste con Access. Sorprendentemente, el aprovechamiento de recursos relativamente simples de ofimtica como Excel, Access, de los que ya disponemos es muy escaso. Por ejemplo, pocos saben que se puede realizar un anlisis de series temporales con Excel, sin necesidad de acudir o contratar otras complejas y caras aplicaciones informticas. Tal vez slo necesita una Intranet, o tener al menos a su empresa en una red de rea local. Adems de una muy simple programacin de algunas rutinas con Visual Basic, para dotar a su empresa de un potente Data Mining. El costo? Al menos entre 20 y 50 veces menor que contratar una solucin propietaria con un proyecto llave en mano de consultora. Slo en compaas de grandes dimensiones o en aquellas en las que el volumen y frecuencia de los datos es igual de grande, est probablemente justificada una inversin, casi siempre desorbitada, en un complejo y potente sistema. Sin embargo, para empresas grandes, la innovacin y la originalidad son habilidades fundamentales para su supervivencia, su xito y prosperidad depende tambin de decisiones eficientes y competitivas que deben ser tomadas en cortos intervalos de tiempo. Para tomar decisiones, es fundamental contar con informacin de calidad, lo cual es proporcionado por Data Mining.
El Data Mining es potencialmente til si se tienen las siguientes condiciones:
Sistemas parcialmente desconocidos: Si el modelo del sistema que produce los datos es bien conocido, entonces no necesitamos de la Minera de Datos ya que todas las variables son de alguna manera predecibles. Este no es el caso del comercio electrnico, debido a los efectos del comportamiento humano, el clima y de decisiones polticas entre otros. En estos casos habr una parte del sistema que es conocida y habr una parte aparentemente de naturaleza aleatoria. Bajo ciertas circunstancias, a partir de una gran cantidad de datos asociada con el sistema, existe la posibilidad de encontrar nuevos aspectos previamente desconocidos del modelo. Enorme cantidad de datos: Al contar con mucha informacin en algunas bases de datos es importante para una empresa encontrar la forma de analizar "montaas" de informacin (lo que para un humano sera imposible) y que ello le produzca algn tipo de beneficio. Potente hardware y software: Muchas de las herramientas presentes en la Minera de Datos estn basadas en el uso intensivo de la computacin, en consecuencia, un equipo conveniente y un software eficiente, con el cual cuente una compaa, aumentar el desempeo del proceso de buscar y analizar informacin, el cual a veces debe vrselas con producciones de datos del orden de los Gbytes/hora (repetimos, algo humanamente imposible). Por ejemplo, las tcnicas de Data Mining son utilizadas habitualmente para el anlisis y explotacin de datos de un Data Warehouse. El uso del Data Mining puede ser provechoso en el caso de poseer un Data Warehouse que contenga datos sobre sus procesos productivos, datos de seguimiento de clientes, datos externos de mercado, datos sobre la actividad de competidores, etc. Una vez que las herramientas de Data Mining fueron implementadas en computadoras cliente servidor de alto rendimiento o de procesamiento paralelo, pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como, cuales clientes tienen mas probabilidad de responder al prximo envo de correo promocional, y por qu? y presentar los resultados en formas de tablas, con grficas, reportes, texto, hipertexto.
Un ejemplo trivial de Minera de Datos, es su uso en un departamento de ventas. Si una tienda registra las ventas de un cliente y es sabido que ese cliente compra muchas camisas de seda, el sistema de Data Mining har una correlacin entre ese cliente y las camisas de seda. El departamento de compras mirar la informacin y realizar envos de informacin sobre camisas de seda a ese cliente, o a todos los clientes que sigan ese modelo obtenido. En este caso el sistema de Data Mining es usado para recoger o extraer informacin nueva sobre los clientes, la cual estaba oculta anteriormente.
El Data Mining tambin es fundamental en la investigacin cientfica y tcnica, como herramienta de anlisis y descubrimiento de conocimiento a partir de datos de observacin o de resultados. APLICACIONES DE LA MINERA DE DATOS Algunas de las aplicaciones que utilizan la Minera de Datos actualmente, se incluyen gran variedad de reas de aplicacin, aunque las listadas a continuacin estn centradas en las aplicaciones enfocadas a las empresas y la economa. Minera de Datos cooperativa Dentro de las diferentes aplicaciones que llevan a cabo tareas relativas a la Minera de Datos, existen dos grupos bien diferenciados: Aplicaciones desarrolladas por importantes empresas relacionadas con el mundo de la informtica (IBM, Oracle), las cuales destacan por su calidad aunque presentan dos inconvenientes fundamentales: por un lado el excesivo costo y recursos requeridos por las mismas y por otro lado el hecho de que son herramientas complejas que requieren la presencia de personal cualificado para su manejo. Por otro lado se encuentran aplicaciones gratuitas que se caracterizan por su simplicidad y por las buenas prestaciones ofertadas en tareas especficas de la Minera de Datos. Ante esta situacin, una solucin para aquellas empresas que no pueden afrontar los inconvenientes presentados por las aplicaciones desarrolladas por grandes marcas, sera la de integrar varias de las aplicaciones gratuitas que existen en la "red" para de este modo generar una nueva aplicacin que satisfaga sus necesidades y a ser posible que posea un formato web. Sin embargo los problemas que presenta esta tarea son varios y serios (falta de documentacin, inaccesibilidad al cdigo fuente,...). De esta manera surgen otro tipo de aplicaciones que permiten integrar dichas aplicaciones en una sola de tal modo que cada componente trabaje en su entorno habitual y llevando a cabo la aplicacin generada la integracin de los resultados obtenidos por las mismas. Un ejemplo de aplicaciones de este tipo es iSOM, que permite integrar las aplicaciones SOM_PAK y Nenet, la primera de ellas trabajando bajo Windows o Linux y la segunda trabajando slo bajo Windows. Anlisis de la cesta de la compra. Es una metodologa estadstica que nos permite encontrar asociaciones entre la compra de diferentes productos dentro de un mismo establecimiento. De este modo las empresas tratan de localizar de la manera ms cercana posible aquellos productos que habitualmente son vendidos conjuntamente.
Uno de los problemas con los que se encuentra la Minera de Datos es el hecho de que las tcnicas utilizadas, tales como reglas de asociacin, rboles de decisin o redes neuronales, no son directamente aplicables para el tratamiento de datos que cambian con el tiempo. Es decir, con la Minera de Datos solo podemos obtener informacin acerca de la situacin actual, pero no podemos comparar dos situaciones comprobando los cambios que se han producido entre una y otra, as como el grado de dicho cambio. Este hecho es de vital importancia para todo tipo de comercio y ms concretamente para el comercio electrnico. Una manera de detectar este cambio, sera generar las reglas para cada conjunto de datos por separado y directamente comparar ambos conjuntos. Sin embargo, este no es un proceso sencillo por dos razones fundamentales: Algunas reglas no pueden ser comparadas directamente debido a que la estructura de las mismas es diferente. Aunque la estructura fuese la misma es difcil conocer que tipo de cambio se ha producido y cual es su magnitud. Para solucionar estos problemas se crean una serie de aplicaciones que nos permiten conocer tanto el tipo de cambio como el alcance de dicho cambio. Rendimiento en Minera de Datos Este tipo de aplicaciones tratan de llevar a cabo un control del desarrollo de una aplicacin concreta a partir de los posibles datos de entrada y los resultados obtenidos, con objeto de optimizar las caractersticas del mismo, estudiando las salidas de la misma ante las diferentes combinaciones en la entrada. Prediccin de fracaso empresarial Uno de los problemas ms importantes que se encuentran las empresas hoy da es el hecho de que no son capaces de predecir posibles fallos corporativos, es decir posibles errores ante decisiones tomadas en un determinado momento. De este modo la Minera de Datos nos permite obtener una serie de relaciones entre diferentes conjuntos de datos, de manera que en este caso concreto puede mostrar a la empresa en cuestin, posibles tendencias de la empresa e indicaciones sobre las consecuencias de las decisiones tomadas. Minera de Datos para el servicio al consumidor Usualmente las bases de datos de los servicios al cliente contiene dos tipos de informacin: informacin sin estructura de informes del servicio los consumidores referentes a problemas tcnicos y las soluciones aplicadas, e informacin estructurada sobre ventas, empleados, clientes, etctera para las operaciones de gestin habituales. Se han aplicado tcnicas de Minera de Datos para extraer conocimiento de este tipo de bases de datos para construir herramientas de soporte a la decisin y diagnstico de defectos
tcnicos. En concreto se puede ver un ejemplo de esto en [9] en el que se utiliza la herramienta DBMiner para analizar la informacin estructurada y obtener as una herramienta de soporte a la decisin. En cuanto al anlisis de la informacin sin estructura para la construccin de una herramienta de diagnstico de fallos en este trabajo [9] se propone la utilizacin de una tcnica que integra redes neuronales, razonamiento basado en casos y basado en reglas. En [10] tambin puede verse un trabajo sobre la aplicacin de la Minera de Datos para el desarrollo de una herramienta de ayuda a la decisin para insolvencia de clientes en el negocio de las telecomunicaciones. Minera de Datos en las redes GSM La Minera de Datos se ha usado tambin para el reconocimiento de patrones de camino en las llamadas en un sistema global de redes para la comunicacin mvil (GSM). El descubrimiento de estos patrones es muy til para el control de trfico y la prevencin de sobrecargas en la red. Deteccin de fraudes Esta es una aplicacin que puede ser considerada como una tcnica de clasificacin. En efecto, cuando el algoritmo analiza una gran cantidad de transacciones, el mismo tratar de categorizar aquellas que sean ilegtimas mediante la identificacin de ciertas caractersticas que estas ltimas tengan en comn. Esto puede ser usado en las corporaciones para prevenir que se culmine un proceso que muestre pertenecer a una "clase" peligrosa. Anlisis de riesgos en crditos Esta es una aplicacin similar a la anterior, pero con la ventaja de de la existencia de maneras tradicionales para realizarlo. El clsico procedimiento de asignacin de puntos puede ser complementado y mejorado con la ayuda de la Minera de Datos. Clasificacin de cuerpos celestes Debido a la gran contribucin a estas tareas por parte del reconocimiento de imgenes y los pre-procesamientos involucrados, esta aplicacin tambin puede considerarse como perteneciente al rea del reconocimiento de patrones de imgenes (Pattern Recognition). El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en tcnicas de agrupacin (clustering) y rboles de decisin para poder clasificar los objetos en estrellas, planetas, sistemas, galaxias, etc. con una alta confiabilidad (Fayyad y otros, 1996). Los resultados han ayudado a los astrnomos a descubrir diecisis nuevos qusars con corrimiento hacia el rojo que los incluye entre los objetos ms lejanos del universo y, por consiguiente, ms antiguos. Estos qusars son difciles de encontrar y permiten saber ms acerca de los orgenes del universo.
Minera de texto Con billones de pginas en la red, se requieren de nuevas tecnologas para encontrar, clasificar y detectar particulares patrones en la informacin disponible. La esencia de los mtodos de la Minera de Datos aplicados a los datos numricos, puede tambin ser aplicada a datos de texto. Deteccin de terroristas En julio de 2002 el FBI anunci que iba a empezar a introducir en una Base de Datos gran cantidad de informacin referente a los hbitos, preferencias de compra referentes a los hbitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una accin Anlisis de tarjetas de crdito En 2001, las instituciones financieras a escala mundial perdieron ms de 2.000 millones de dlares estadounidenses en fraudes con tarjetas de crdito y dbito. Este sistema ha permitido ahorrar ms de 600 millones de dlares cada ao y protege ms de 450 millones de pago con tarjetas en todo el mundo, aproximadamente el 65% de las transacciones con tarjetas de crdito. Desercin de clientes de una compaa Este estudio fue desarrollado en una operadora espaola que bsicamente situ sus objetivos en dos puntos: el anlisis del perfil de los clientes que se dan de baja y la prediccin del comportamiento de sus nuevos clientes. Se analizaron los diferentes histricos de clientes que haban abandonado la operadora (12,6%) y de clientes que continuaban con su servicio (87,4%). Tambin se analizaron las variables personales de cada cliente (estado civil, edad, sexo, nacionalidad, etc.). De igual forma se estudiaron, para cada cliente, la morosidad, la frecuencia y el horario de uso del servicio, los descuentos y el porcentaje de llamadas locales, interprovinciales, internacionales y gratuitas. Al contrario de lo que se podra pensar, los clientes que abandonaban la operadora generaban ganancias para la empresa; sin embargo, una de las conclusiones ms importantes radic en el hecho de que los clientes que se daban de baja reciban pocas promociones y registraban un mayor nmero de incidencias respecto a la media. De esta forma se recomend a la operadora hacer un estudio sobre sus ofertas y analizar profundamente las incidencias recibidas por esos clientes. Al descubrir el perfil que presentaban, la operadora tuvo que disear un trato ms personalizado para sus clientes actuales con esas caractersticas. Para poder predecir el comportamiento de sus nuevos clientes se dise un sistema de prediccin basado en la cantidad de datos que se poda obtener de los nuevos clientes comparados con el comportamiento de clientes anteriores. Prevenir lesiones
Uso de redes neuronales para prevenir lesiones y optimizar el acondicionamiento de cada atleta. Esto ayudar a seleccionar el fichaje de un posible jugador o a alertar al mdico del equipo de una posible lesin. El sistema es alimentado por datos de cada jugador, relacionados con su rendimiento, alimentacin y respuesta a estmulos externos, que se obtienen y analizan cada quince das. El jugador lleva a cabo determinadas actividades que son monitoreadas por veinticuatro sensores conectados al cuerpo y que transmiten seales de radio que posteriormente son almacenadas en una base de datos. Actualmente el sistema dispone de 5.000 casos registrados que permiten predecir alguna posible lesin. Con ello, el club intenta ahorrar dinero evitando comprar jugadores que presenten una alta probabilidad de lesin, lo que hara incluso renegociar su contrato. Por otra parte, el sistema pretende encontrar las diferencias entre las lesiones de atletas de ambos sexos, as como saber si una determinada lesin se relaciona con el estilo de juego de un pas concreto donde se practica el ftbol. Data Mining para Pymes. WebMining Ltda desarrolla estudios y modelos para pequeas y medianas empresas (Pymes) utilizando tcnicas de Data Mining y Web Mining. Se obtiene conocimiento sobre algn negocio utilizando tcnicas de clustering, redes neuronales y rboles de decisin. Entre las variadas aplicaciones de Data Mining que se desarrollan, destacan: Segmentacin de Clientes. Segmentacin de clientes utilizando tcnicas de agrupamiento difuso. Clasificacin. Clasificacin de clientes utilizando tcnicas de redes neuronales. Por ejemplo, para aplicaciones de adquisicin de nuevos clientes o deteccin de fuga. Modelos Predictivos: Desarrollo de modelos predictivos utilizando rboles de decisin o redes neuronales. Estos modelos permiten realizan una prediccin sobre la base de una serie de decisiones. Induccin de reglas: Que permiten entender el comportamiento de compra de los clientes o realizar predicciones basadas en un cierto objetivo. Rediseo de sitios Web: Reorganizacin de la estructura de links o contenido de las pginas. Soporte a decisiones de Marketing o de Negocios: Determinacin de conductas o rasgos de los clientes que realizan ciertas acciones, tales como comprar productos. Personalizacin: Adaptacin de las vistas de pgina de acuerdo a la informacin obtenida de cada usuario. Esto puede incluir precios dinmicos para cada usuario o promociones que aumenten las ventas. Estudios de utilidad: Determinacin de la calidad de la interfaz de usuario. Seguridad: Deteccin de accesos inusuales a datos privados.
Anlisis de trfico de redes: Determinacin de los requerimientos de equipo y la distribucin de datos con el fin de manejar eficientemente el trfico de un sitio.
CASOS DE APLICACION
Cada ao, en los diferentes congresos, simposios y talleres que se realizan en el mundo se renen investigadores con aplicaciones muy diversas sobre Data Mining. Sobre todo en los Estados Unidos, el Data Mining se ha ido incorporando a la vida de empresas, gobiernos, universidades, hospitales y diversas organizaciones que estn interesadas en explorar sus bases de datos. Podemos decir que "en Data Mining cada caso es un caso". A continuacin se describen varios ejemplos donde se ha visto involucrado el Data Mining. Estudio sobre si los recin titulados de una universidad desarrollan actividades profesionales relacionadas con sus estudios Se hizo un estudio sobre los recin titulados de la carrera de Ingeniera en Sistemas Computacionales del Instituto Tecnolgico de Chihuahua II, en Mjico (Rodas, 2001). Se quera observar si sus recin titulados se insertaban en actividades profesionales relacionadas con sus estudios y, en caso negativo, se buscaba saber el perfil que caracteriz a los ex alumnos durante su estancia en la universidad. El objetivo era saber si con los planes de estudio de la universidad y el aprovechamiento del alumno se haca una buena insercin laboral o si existan otras variables que participaban en el proceso. Dentro de la informacin considerada estaba el sexo, la edad, la escuela de procedencia, el desempeo acadmico, la zona econmica donde tena su vivienda y la actividad profesional, entre otras variables. Mediante la aplicacin de conjuntos aproximados se descubri que existan cuatro variables que determinaban la adecuada insercin laboral, que son citadas de acuerdo con su importancia: zona econmica donde habitaba el estudiante, colegio de donde provena, nota al ingresar y promedio final al salir de la carrera. A partir de estos resultados, la universidad tendr que hacer un estudio socioeconmico sobre grupos de alumnos que pertenecan a las clases econmicas bajas para dar posibles soluciones, debido a que tres de las cuatro variables no dependan de la universidad. Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a su cuerpo de entrenadores El Advanced Scout es un software que emplea tcnicas de Data Mining y que han desarrollado investigadores de IBM para detectar patrones estadsticos y eventos raros. Tiene una interfaz grfica muy amigable orientada a un objetivo muy especfico: analizar el juego de los equipos de la National Basketball Association (NBA). El software utiliza todos los registros guardados de cada evento en cada juego: pases, encestes, rebotes y doble marcaje (double team) a un jugador por el equipo contrario, entre otros. El objetivo es ayudar a los entrenadores
a aislar eventos que no detectan cuando observan el juego en vivo o en pelcula. Un resultado interesante fue uno hasta entonces no observado por los entrenadores de los Knicks de Nueva York. El doble marcaje a un jugador puede generalmente dar la oportunidad a otro jugador de encestar ms fcilmente. Sin embargo, cuando los Bulls de Chicago jugaban contra los Knicks, se encontr que el porcentaje de encestes despus de que al centro de los Knicks, Patrick Ewing, le hicieran doble marcaje era extremadamente bajo, indicando que los Knicks no reaccionaban correctamente a los dobles marcajes. Para saber el porqu, el cuerpo de entrenadores estudi cuidadosamente todas las pelculas de juegos contra Chicago. Observaron que los jugadores de Chicago rompan su doble marcaje muy rpido de tal forma que podan tapar al encestador libre de los Knicks antes de prepararse para efectuar su tiro. Con este conocimiento, los entrenadores crearon estrategias alternativas para tratar con el doble marcaje. La temporada pasada, IBM ofreci el Advanced Scout a la NBA, que se convirti as en un patrocinador corporativo. La NBA dio a sus veintinueve equipos la oportunidad de aplicarlo. Dieciocho equipos lo estn haciendo hasta el momento obteniendo descubrimientos interesantes. Paales y cervezas: Un caso famoso acerca del comportamiento de los consumidores. Una situacin muy popular sucedi en una cadena de vveres en los Estados Unidos. Utilizando un software de Minera de Datos para estudiar el comportamiento de sus clientes, encontraron relaciones interesantes entre paales, cervezas, hombres, y da de la semana. Encontraron que los das jueves y sbado, los hombres que compraban paales tambin compraban cerveza. Informacin como esa, que no siempre es evidente a primera vista, puede ser utilizada para reubicar la mercanca en lugares ms estratgicos, en este ejemplo, manteniendo a los paales y a las cervezas cercanos unos de otros. Este resultado suministrado por un proceso de Minera de Datos, puede ser analizado en profundidad por expertos humanos. Si ellos encuentran una explicacin razonable, esta de seguro ser de mucho ayuda para que los ejecutivos de la empresa alcancen sus objetivos de una manera ms eficiente. Data Mining en SAS. La Compaa Software And Services (SAS), lder en inteligencia de negocios (Business Intelligence o BI), contina siendo reconocida como referente en el rea de Data Mining. SAS, el quinto mayor fabricante de software empresarial del mundo, lidera la nueva generacin de software y servicios de que permiten la creacin de una verdadera inteligencia empresarial. Las soluciones de SAS estn implementadas en ms de 40.000 instalaciones, permitiendo la optimizacin de las relaciones con sus clientes y proveedores y ayudando a tomar las mejores decisiones. SAS es el nico proveedor que
integra completamente aplicaciones Data Warehousing, aplicaciones analticas y las tradicionales aplicaciones de BI para crear inteligencia a partir de las cada vez mayores cantidades de datos disponibles en una organizacin. Giga, filial propiedad de Forrester Research, INC., ha publicado recientemente, un informe, Vendor Scorecard: Selecting Software for Predictive Analytics, en el que analiza el software de SAS y de otros tres proveedores. Para la realizacin del informe, se tuvieron en cuenta distintos factores como la estrategia, las propiedades de los productos, la usabilidad, los precios, las opciones de contratacin y la viabilidad y mantenimiento. SAS obtuvo muy buenos resultados con su premiado producto SAS Enterprise Miner, que es la oferta ms completa de Data Mining en el mercado. Dentro del rea de la estrategia del proveedor, el informe establece que los potenciales compradores de productos de software para anlisis predictivo deberan apostar por SAS por su seria y comprometida dedicacin al anlisis de datos. El informe pone de manifiesto que SAS Enterprise Miner tiene el ms completo portafolio de algoritmos para la modelizacin predictiva. Adicionalmente, apunta que la interoperabilidad de los metadatos con otras soluciones best-of-breed de SAS para ETL (extraccin, transformacin y carga), reporting y aplicaciones verticales, proporciona la compaa claras ventajas sobre sus competidores. "Este informe muestra claramente el fuerte compromiso de SAS con el mercado del software de Minera de Datos", ha dicho Anne Milley, Directora de Estrategia de Inteligencia Analtica de SAS. "SAS suministra soluciones de software analtico que permiten a las compaas identificar fcilmente tendencias y relaciones que son determinantes - ayudndoles a adoptar decisiones de negocio crticas con seguridad. Por ello, consideramos que estamos en una buena posicin para ayudar a nuestros clientes a encarar la necesidad creciente de realizar anlisis avanzados, que son los que producen los mayores beneficios". SAS muestra pautas y tendencias, explica resultados conocidos e identifica factores que permiten asegurar efectos deseados. Con esta solucin, las compaas pueden incrementar sus ingresos, reducir los costos y mejorar su competitividad. SAS Text Miner, producto aadido a SAS Enterprise MinerTM, amplia sus capacidades de Minera de Datos proporcionando un juego de soluciones para poner al descubierto y extraer el conocimiento de una amplia variedad de documentos de texto, incluyendo e-mails, informes de venta y anotaciones realizadas por el personal de los call center. Integrar informacin basada en textos con datos estructurados enriquece las capacidades de modelizacin predictiva y proporciona nuevos almacenes de informacin valiosa para conducir el negocio e investigar potenciales iniciativas. SAS posee la solucin ms completa del mercado para sostener el proceso completo de creacin de inteligencia dentro de todas las reas de negocio desde el rea de resultados corporativos, pasando por el de Recursos Humanos, Financiero, el de Ventas o el de Marketing. Esta infraestructura de inteligencia empresarial integral, conocida como SAS Intelligence Architecture, otorga al mercado la agilidad que necesita para adaptarse a los cambios que
se producen en el mismo. Construyendo sobre inversiones existentes en tecnologas de informacin, SAS Intelligence Architecture permite a las compaas seguir respondiendo a las necesidades del mercado, de sus empleados, sus proveedores y de otros protagonistas del entorno. Spoke: Data Mining de correo electrnico. Spoke es un programa de Data Mining para una agenda de correo (hasta ah es fcil, los otros programas de redes de contacto tambin lo hacen), y tambin (aqu est la novedad) de todo el correo. Cuando se da de alta extrae toda la informacin almacenada en Outlook, Lotus Notes o lo que se est usando (incluidas cuentas de webmail). Detecta a quin se han mandado correos, de quien se han recibido, con qu frecuencia, incluso quien estaba copiado en mensajes que se nos han enviado. Con todo eso monta una base de datos salvaje de todos los contactos directos e indirectos. Adems, aplica un complejo algoritmo para clasificar la intensidad de la relacin teniendo en cuenta muchos factores (cuntos datos de esa persona se tiene en la agenda: si se tiene la empresa y puesto, si se tiene el telfono o direccin postal, cuntos correos se han intercambiado, hace cuanto. Todo esto lo presenta en una agenda, pero tambin en un buen mapa de contactos muy fcil de usar. Se puede seleccionar un contacto y ver a quin ms se conoce o quin nos ha hablado de l (copindolo en un correo dirigido a l usuario). Todo esto son funcionalidades en modo aislado. Cuando se conoce otra gente que tambin lo tenga instalado, las posibilidades se multiplican. Se puede buscar personas que se quiera contactar, o empresas, e indican cules de los contactos los conocen directa o indirectamente. Tiene todava algunos fallos. No importa bien los caracteres acentuados y hay que hacer bastante limpieza y consolidacin si se desea tener una base de datos realmente operativa; demasiada gente tiene varias direcciones de e-mail. Data Mining y la medicina basada en la evidencia. Con el advenimiento de los modernos sistemas tecnolgicos de informtica mdica, los profesionales de la salud han podido tener acceso a un mundo insospechado de informacin actualizada y de forma veloz. La bsqueda bibliogrfica por internet, merced a las bondades de Medline y otras libreras, permiti que el mdico dedicara su tiempo en menesteres profesionales mientras la informtica le consegua la preciada documentacin. Pero con el tiempo, surgi el problema del control de calidad y seriedad cientfica de la informacin en medicina, con lo cual la Medicina Basada en la Evidencia (MBE) apareci como el paladn de los que, con el pasar de los aos, veamos con grandes dudas escrito sobre especialidades mdicas. A la primera visin surgi un auto-cuestionamiento de paranoia larvada, pero el anlisis minucioso de la situacin permiti detectar infinidad de procedimientos errneamente elegidos, resultados criticables, seguridad epidemiolgica ausente, y fue entonces cuando la MBE se consagr como la nica forma de
saber si las conductas estratgicas de los profesionales de la salud eran sensatas o arrastraban las costumbres sin fundamentos a travs de los tiempos. La MBE se puede sentir alimentada en el futuro por la informacin codificada y almacenada en un Data Warehouse de la Salud. Es escalofriante pensar en la recoleccin de datos codificados en las consultas mdicas del mundo entero, donde cada enfermedad puede tener sntomas hasta ahora no sospechados, por la sencilla razn de que hasta ahora a nadie se le ocurri atar los cabos sueltos de la informacin dispersa. La revolucin de la MBE puede encontrar aqu una fuente no slo de inspiracin, sino de confirmacin o rechazo de viejas teoras que se perpetan sin bases cientficas ni estadsticas de valor. Un trabajo colaborativo multicntrico mundial con protocolos de recoleccin de datos uniforme, permitira obtener informacin de singular valor como para permitir afirmar que la enfermedad XXX se presenta con el sntoma YYY en el x% de los casos. Solamente hay que querer sacar provecho de la informacin disponible. A la informacin existente en salud, el mundo le queda chico. Con el Data Mining de la base de datos de sntomas clnicos, la MBE puede llegar a decirnos que lo que creamos que era de una forma, en realidad es de otra forma. Las races de la medicina clsica pueden llegar a temblar a la luz del "nuevo conocimiento" bajo el paraguas de la MBE, y dentro del Data Warehouse de la salud. Aplicacin del FBI para detectar terroristas. El FBI analizar las bases de datos comerciales para detectar terroristas. A principios del mes de julio de 2002, el director del Federal Bureau of Investigation (FBI), John Aschcroft, anunci que el Departamento de Justicia comenzar a introducirse en la vasta cantidad de datos comerciales referentes a los hbitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una accin. Algunos expertos aseguran que, con esta informacin, el FBI unir todas las bases de datos probablemente mediante el nmero de la Seguridad Social y permitir saber si una persona fuma, qu talla y tipo de ropa usa, su registro de arrestos, su salario, las revistas a las que est suscrito, su altura y peso, sus contribuciones a la Iglesia, grupos polticos u organizaciones no gubernamentales, sus enfermedades crnicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra, si tom clases de vuelo o si tiene cuentas de banco abiertas, entre otros. La inversin inicial ronda los setenta millones de dlares estadounidenses para consolidar los almacenes de datos, desarrollar redes de seguridad para compartir informacin e implementar nuevo software analtico y de visualizacin. En otras palabras, el FBI pretende vigilar a ciertos clientes de comercios alrededor de todo el mundo para detectar, por medio de Data Mining, cules de ellos tienen el perfil de terroristas y as tomar medidas de seguridad.
Deteccin de fraudes en las tarjetas de crdito. En 2001, las instituciones financieras a escala mundial perdieron ms de 2000 millones de dlares estadounidenses en fraudes con tarjetas de crdito y dbito. El Falcon Fraud Manager es un sistema inteligente que examina transacciones, propietarios de tarjetas y datos financieros para detectar y mitigar fraudes. En un principio estaba pensado, en instituciones financieras de Norteamrica, para detectar fraudes en tarjetas de crdito. Sin embargo, actualmente se le han incorporado funcionalidades de anlisis en las tarjetas comerciales, de combustibles y de dbito. El sistema Falcon ha permitido ahorrar ms de seiscientos millones de dlares estadounidenses cada ao y protege aproximadamente ms de cuatrocientos cincuenta millones de pagos con tarjeta en todo el mundo aproximadamente el sesenta y cinco por ciento de todas las transacciones con tarjeta de crdito. Descubriendo el por qu de la desercin de clientes de una compaa operadora de telefona mvil. Este estudio fue desarrollado en una operadora espaola que bsicamente situ sus objetivos en dos puntos: el anlisis del perfil de los clientes que se dan de baja y la prediccin del comportamiento de sus nuevos clientes. Se analizaron los diferentes histricos de clientes que haban abandonado la operadora (12,6%) y de clientes que continuaban con su servicio (87,4%). Tambin se analizaron las variables personales de cada cliente (estado civil, edad, sexo, nacionalidad). De igual forma se estudiaron, para cada cliente, la morosidad, la frecuencia y el horario de uso del servicio, los descuentos y el porcentaje de llamadas locales, interprovinciales, internacionales y gratuitas. Al contrario de lo que se podra pensar, los clientes que abandonaban la operadora generaban ganancias para la empresa; sin embargo, una de las conclusiones ms importantes radic en el hecho de que los clientes que se daban de baja reciban pocas promociones y registraban un mayor nmero de incidencias respecto a la media. De esta forma se recomend a la operadora hacer un estudio sobre sus ofertas y analizar profundamente las incidencias recibidas por esos clientes. Al descubrir el perfil que presentaban, la operadora tuvo que disear un trato ms personalizado para sus clientes actuales con esas caractersticas. Para poder predecir el comportamiento de sus nuevos clientes se dise un sistema de prediccin basado en la cantidad de datos que se poda obtener de los nuevos clientes comparados con el comportamiento de clientes anteriores. Prediciendo el tamao de las audiencias televisivas. La British Broadcasting Corporation (BBC) del Reino Unido emplea un sistema para predecir el tamao de las audiencias televisivas para un programa propuesto, as como el tiempo ptimo de exhibicin. El sistema utiliza redes neuronales y rboles de decisin aplicados a datos histricos de la cadena para determinar los criterios que participan segn el programa que hay que presentar. La versin final se desempea tan bien como un experto humano
con la ventaja de que se adapta ms fcilmente a los cambios porque es constantemente re-entrenada con datos actuales.
BIBLIOGRAFA Y REFERENCIAS
www.daedalus.es lamorales@ccc.inaoep.mx Vladimir Estivill-Castro. Derechos Reservados LANIA

Data Mining

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Data Mining

Cargado por

Copyright:

Formatos disponibles

GENERALIDADES

Relacin entre Dato, Informacin y conocimiento.

EVOLUCIN DE LA MINERIA DE DATOS

USOS Y APLICACIONES DEL DATA MINING

El Data Mining es potencialmente til si se tienen las siguientes condiciones:

También podría gustarte