Está en la página 1de 61

Data mining: torturando a los datos hasta que confiesen[*]

Luis Carlos Molina Flix Coordinador del programa de Data mining (UOC) lmolinaf@uoc.edu

Resumen: El ttulo de este artculo es una explicacin informal de la actividad que realiza una tecnologa denominada data mining (minera de datos). Lo que se pretende con esta tecnologa es descubrir conocimiento oculto a partir de grandes volmenes de datos. Desde la dcada pasada, debido a los grandes avances computacionales, se ha ido incorporando a las organizaciones para constituirse en un apoyo esencial al momento de tomar decisiones. Organizaciones tales como empresas, clubes profesionales deportivos, universidades y gobiernos, entre otros, hacen uso de esta tecnologa como ayuda en la toma de sus decisiones. Algunos de estos ejemplos sern citados en el presente trabajo.

1. Introduccin

Cada da generamos una gran cantidad de informacin, algunas veces conscientes de que lo hacemos y otras veces inconscientes de ello porque lo desconocemos. Nos damos cuenta de que generamos informacin cuando registramos nuestra entrada en el trabajo, cuando entramos en un servidor para ver nuestro correo, cuando pagamos con una tarjeta de crdito o cuando reservamos un billete de avin. Otras veces no nos damos cuenta de que generamos informacin, como cuando conducimos por una va donde estn contabilizando el nmero de automviles que pasan por minuto, cuando se sigue nuestra navegacin por Internet o cuando nos sacan una fotografa del rostro al haber pasado cerca de una oficina gubernamental. Con qu finalidad queremos generar informacin? Son muchos los motivos que nos llevan a generar informacin, ya que nos pueden ayudar a controlar, optimizar, administrar, examinar, investigar, planificar, predecir, someter, negociar o tomar decisiones de cualquier mbito segn el dominio en que nos desarrollemos. La informacin por s misma est considerada un bien patrimonial.

De esta forma, si una empresa tiene una prdida total o parcial de informacin provoca bastantes perjuicios. Es evidente que la informacin debe ser protegida, pero tambin explotada. Qu nos ha permitido poder generar tanta informacin? En los ltimos aos, debido al desarrollo tecnolgico a niveles exponenciales tanto en el rea de cmputo como en la de transmisin de datos, ha sido posible que se gestionen de una mejor manera el manejo y almacenamiento de la informacin. Sin duda existen cuatro factores importantes que nos han llevado a este suceso:

1. El abaratamiento de los sistemas de almacenamiento tanto temporal como permanente.

2. El incremento de las velocidades de cmputo en los procesadores.

3. Las mejoras en la confiabilidad y aumento de la velocidad en la transmisin de datos.

4. El desarrollo de sistemas administradores de bases de datos ms poderosos. Actualmente todas estas ventajas nos han llevado a abusar del almacenamiento de la informacin en las bases de datos. Podemos decir que algunas empresas almacenan un cierto tipo de datos al que hemos denominado dato-escritura, ya que slo se guarda (o escribe) en el disco duro, pero nunca se hace uso de l. Generalmente, todas las empresas usan un dato llamado dato-escritura-lectura, que utilizan para hacer consultas dirigidas. Un nuevo tipo de dato al cual hemos denominado dato-escritura-lectura-anlisis es el que proporciona en conjunto un verdadero conocimiento y nos apoya en las tomas de decisiones. Es necesario contar con tecnologas que nos ayuden a explotar el potencial de este tipo de datos. La cantidad de informacin que nos llega cada da es tan inmensa que nos resulta difcil asimilarla. Basta con ir al buscador Altavista y solicitar la palabra information para ver que existen 171.769.416 sitios donde nos pueden decir algo al respecto. Suponiendo que nos tomemos un minuto para ver el contenido de cada pgina, tardaramos entonces 326 aos en visitarlas todas. Esto es imposible,

y, por lo tanto, existe una clara necesidad de disponer de tecnologas que nos ayuden en nuestros procesos de bsqueda y, an ms, de tecnologas que nos ayuden a comprender su contenido. El data mining surge como una tecnologa que intenta ayudar a comprender el contenido de una base de datos. De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algn significado especial pasan a convertirse en informacin. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretacin del confronto entre la informacin y ese modelo represente un valor agregado, entonces nos referimos al conocimiento. En la figura 1 se ilustra la jerarqua que existe en una base de datos entre dato, informacin y conocimiento (Molina, 1998). Se observa igualmente el volumen que presenta en cada nivel y el valor que los responsables de las decisiones le dan en esa jerarqua. El rea interna dentro del tringulo representa los objetivos que se han propuesto. La separacin del tringulo representa la estrecha unin entre dato e informacin, no as entre la informacin y el conocimiento. El data mining trabaja en el nivel superior buscando patrones, comportamientos, agrupaciones, secuencias, tendencias o asociaciones que puedan generar algn modelo que nos permita comprender mejor el dominio para ayudar en una posible toma de decisin.

Figura 1. Relacin entre dato, informacin y conocimiento (Molina, 1998).

2. Data mining: conceptos e historia

Aunque desde un punto de vista acadmico el trmino data mining es una etapa dentro de un proceso mayor llamado extraccin de conocimiento en bases de datos (Knowledge Discovery in Databases o KDD) en el entorno comercial, as

como en este trabajo, ambos trminos se usan de manera indistinta. Lo que en verdad hace el data mining es reunir las ventajas de varias reas como la Estadstica, la Inteligencia Artificial, la Computacin Grfica, las Bases de Datos y el Procesamiento Masivo, principalmente usando como materia prima las bases de datos. Una definicin tradicional es la siguiente: "Un proceso no trivial de identificacin vlida, novedosa, potencialmente til y entendible de patrones comprensibles que se encuentran ocultos en los datos" (Fayyad y otros, 1996). Desde nuestro punto de vista, lo definimos como "la integracin de un conjunto de reas que tienen como propsito la identificacin de un conocimiento obtenido a partir de las bases de datos que aporten un sesgo hacia la toma de decisin" (Molina y otros, 2001). La idea de data mining no es nueva. Ya desde los aos sesenta los estadsticos manejaban trminos como data fishing, data mining o data archaeology con la idea de encontrar correlaciones sin una hiptesis previa en bases de datos con ruido. A principios de los aos ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los trminos de data mining y KDD.[3] A finales de los aos ochenta slo existan un par de empresas dedicadas a esta tecnologa; en 2002 existen ms de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones. Las listas de discusin sobre este tema las forman investigadores de ms de ochenta pases. Esta tecnologa ha sido un buen punto de encuentro entre personas pertenecientes al mbito acadmico y al de los negocios. El data mining es una tecnologa compuesta por etapas que integra varias reas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadsticas, de visualizacin de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de data mining muy poderosas que contienen un sinfn de utileras que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementndose con otra herramienta.

3. Aplicaciones de uso

Cada ao, en los diferentes congresos, simposios y talleres que se realizan en el mundo se renen investigadores con aplicaciones muy diversas. Sobre todo en los Estados Unidos, el data mining se ha ido incorporando a la vida de empresas, gobiernos, universidades, hospitales y diversas organizaciones que estn interesadas en explorar sus bases de datos.

Podemos decir que "en data mining cada caso es un caso". Sin embargo, en trminos generales, el proceso se compone de cuatro etapas principales:

1. Determinacin de los objetivos. Trata de la delimitacin de los objetivos que el cliente desea bajo la orientacin del especialista en data mining.

2. Preprocesamiento de los datos. Se refiere a la seleccin, la limpieza, el enriquecimiento, la reduccin y la transformacin de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining.

3. Determinacin del modelo. Se comienza realizando unos anlisis estadsticos de los datos, y despus se lleva a cabo una visualizacin grfica de los mismos para tener una primera aproximacin. Segn los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes reas de la Inteligencia Artificial.

4. Anlisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los anlisis estadsticos y de visualizacin grfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones. A continuacin se describen varios ejemplos donde se ha visto involucrado el data mining. Se han seleccionado de diversos dominios y con diversos objetivos para observar su potencial. Respecto a los modelos inteligentes, se ha comprobado que en ellos se utilizan principalmente rboles y reglas de decisin, reglas de asociacin, redes neuronales, redes bayesianas, conjuntos aproximados (rough sets), algoritmos de agrupacin (clustering), mquinas de soporte vectorial, algoritmos genticos y lgica difusa.

3.1. En el gobierno

El FBI analizar las bases de datos comerciales para detectar terroristas. A principios del mes de julio de 2002, el director del Federal Bureau of Investigation (FBI), John Aschcroft, anunci que el Departamento de Justicia comenzar a introducirse en la vasta cantidad de datos comerciales referentes a los hbitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas antes de que ejecuten una accin.[4] Algunos expertos aseguran que, con esta informacin, el FBI unir todas las bases de datos probablemente mediante el nmero de la Seguridad Social y permitir saber si una persona fuma, qu talla y tipo de ropa usa, su registro de arrestos, su salario, las revistas a las que est suscrito, su altura y peso, sus contribuciones a la Iglesia, grupos polticos u organizaciones no gubernamentales, sus enfermedades crnicas (como diabetes o asma), los libros que lee, los productos de supermercado que compra, si tom clases de vuelo o si tiene cuentas de banco abiertas, entre otros.[5] La inversin inicial ronda los setenta millones de dlares estadounidenses para consolidar los almacenes de datos, desarrollar redes de seguridad para compartir informacin e implementar nuevo software analtico y de visualizacin.

3.2. En la empresa

Deteccin de fraudes en las tarjetas de crdito. En 2001, las instituciones financieras a escala mundial perdieron ms de 2.000 millones de dlares estadounidenses en fraudes con tarjetas de crdito y dbito. El Falcon Fraud Manager[6] es un sistema inteligente que examina transacciones, propietarios de tarjetas y datos financieros para detectar y mitigar fraudes. En un principio estaba pensado, en instituciones financieras de Norteamrica, para detectar fraudes en tarjetas de crdito. Sin embargo, actualmente se le han incorporado funcionalidades de anlisis en las tarjetas comerciales, de combustibles y de dbito.[7] El sistema Falcon ha permitido ahorrar ms de seiscientos millones de dlares estadounidenses cada ao y protege aproximadamente ms de cuatrocientos cincuenta millones de pagos con tarjeta en todo el mundo aproximadamente el sesenta y cinco por ciento de todas las transacciones con tarjeta de crdito. Descubriendo el porqu de la desercin de clientes de una compaa operadora de telefona mvil. Este estudio fue desarrollado en una operadora espaola que bsicamente situ sus objetivos en dos puntos: el anlisis del perfil de los clientes que se

dan de baja y la prediccin del comportamiento de sus nuevos clientes. Se analizaron los diferentes histricos de clientes que haban abandonado la operadora (12,6%) y de clientes que continuaban con su servicio (87,4%). Tambin se analizaron las variables personales de cada cliente (estado civil, edad, sexo, nacionalidad, etc.). De igual forma se estudiaron, para cada cliente, la morosidad, la frecuencia y el horario de uso del servicio, los descuentos y el porcentaje de llamadas locales, interprovinciales, internacionales y gratuitas. Al contrario de lo que se podra pensar, los clientes que abandonaban la operadora generaban ganancias para la empresa; sin embargo, una de las conclusiones ms importantes radic en el hecho de que los clientes que se daban de baja reciban pocas promociones y registraban un mayor nmero de incidencias respecto a la media. De esta forma se recomend a la operadora hacer un estudio sobre sus ofertas y analizar profundamente las incidencias recibidas por esos clientes. Al descubrir el perfil que presentaban, la operadora tuvo que disear un trato ms personalizado para sus clientes actuales con esas caractersticas. Para poder predecir el comportamiento de sus nuevos clientes se dise un sistema de prediccin basado en la cantidad de datos que se poda obtener de los nuevos clientes comparados con el comportamiento de clientes anteriores. Prediciendo el tamao de las audiencias televisivas. La British Broadcasting Corporation (BBC) del Reino Unido emplea un sistema para predecir el tamao de las audiencias televisivas para un programa propuesto, as como el tiempo ptimo de exhibicin (Brachman y otros, 1996). El sistema utiliza redes neuronales y rboles de decisin aplicados a datos histricos de la cadena para determinar los criterios que participan segn el programa que hay que presentar.[8] La versin final se desempea tan bien como un experto humano con la ventaja de que se adapta ms fcilmente a los cambios porque es constantemente reentrenada con datos actuales.

3.3. En la universidad

Conociendo si los recin titulados de una universidad llevan a cabo actividades profesionales relacionadas con sus estudios. Se hizo un estudio sobre los recin titulados de la carrera de Ingeniera en Sistemas Computacionales del Instituto Tecnolgico de Chihuahua II,[9] en Mjico (Rodas, 2001). Se quera observar si sus recin titulados se insertaban en actividades profesionales relacionadas con sus estudios y, en caso

negativo, se buscaba saber el perfil que caracteriz a los exalumnos durante su estancia en la universidad. El objetivo era saber si con los planes de estudio de la universidad y el aprovechamiento del alumno se haca una buena insercin laboral o si existan otras variables que participaban en el proceso. Dentro de la informacin considerada estaba el sexo, la edad, la escuela de procedencia, el desempeo acadmico, la zona econmica donde tena su vivienda y la actividad profesional, entre otras variables. Mediante la aplicacin de conjuntos aproximados se descubri que existan cuatro variables que determinaban la adecuada insercin laboral, que son citadas de acuerdo con su importancia: zona econmica donde habitaba el estudiante, colegio de donde provena, nota al ingresar y promedio final al salir de la carrera. A partir de estos resultados, la universidad tendr que hacer un estudio socioeconmico sobre grupos de alumnos que pertenecan a las clases econmicas bajas para dar posibles soluciones, debido a que tres de las cuatro variables no dependan de la universidad.

3.4. En investigaciones espaciales

Proyecto SKYCAT. Durante seis aos, el Second Palomar Observatory Sky Survey (POSS-II) coleccion tres terabytes de imgenes que contenan aproximadamente dos millones de objetos en el cielo. Tres mil fotografas fueron digitalizadas a una resolucin de 16 bits por pxel con 23.040 x 23.040 pxeles por imagen. El objetivo era formar un catlogo de todos esos objetos. El sistema Sky Image Cataloguing and Analysis Tool (SKYCAT) se basa en tcnicas de agrupacin (clustering) y rboles de decisin para poder clasificar los objetos en estrellas, planetas, sistemas, galaxias, etc. con una alta confiabilidad (Fayyad y otros, 1996). Los resultados han ayudado a los astrnomos a descubrir diecisis nuevos qusars con corrimiento hacia el rojo que los incluye entre los objetos ms lejanos del universo y, por consiguiente, ms antiguos. Estos qusars son difciles de encontrar y permiten saber ms acerca de los orgenes del universo.

3.5. En los clubes deportivos

El AC de Miln utiliza un sistema inteligente para prevenir lesiones. Esta temporada el club comenzar a usar redes neuronales para prevenir

lesiones y optimizar el acondicionamiento de cada atleta. Esto ayudar a seleccionar el fichaje de un posible jugador o a alertar al mdico del equipo de una posible lesin.[10] El sistema, creado por Computer Associates International, es alimentado por datos de cada jugador, relacionados con su rendimiento, alimentacin y respuesta a estmulos externos, que se obtienen y analizan cada quince das. El jugador lleva a cabo determinadas actividades que son monitoreadas por veinticuatro sensores conectados al cuerpo y que transmiten seales de radio que posteriormente son almacenadas en una base de datos. Actualmente el sistema dispone de 5.000 casos registrados que permiten predecir alguna posible lesin. Con ello, el club intenta ahorrar dinero evitando comprar jugadores que presenten una alta probabilidad de lesin, lo que hara incluso renegociar su contrato. Por otra parte, el sistema pretende encontrar las diferencias entre las lesiones de atletas de ambos sexos, as como saber si una determinada lesin se relaciona con el estilo de juego de un pas concreto donde se practica el ftbol. Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a su cuerpo de entrenadores. El Advanced Scout[11] es un software que emplea tcnicas de data mining y que han desarrollado investigadores de IBM para detectar patrones estadsticos y eventos raros. Tiene una interfaz grfica muy amigable orientada a un objetivo muy especfico: analizar el juego de los equipos de la National Basketball Association (NBA). El software utiliza todos los registros guardados de cada evento en cada juego: pases, encestes, rebotes y doble marcaje (double team) a un jugador por el equipo contrario, entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no detectan cuando observan el juego en vivo o en pelcula. Un resultado interesante fue uno hasta entonces no observado por los entrenadores de los Knicks de Nueva York. El doble marcaje a un jugador puede generalmente dar la oportunidad a otro jugador de encestar ms fcilmente. Sin embargo, cuando los Bulls de Chicago jugaban contra los Knicks, se encontr que el porcentaje de encestes despus de que al centro de los Knicks, Patrick Ewing, le hicieran doble marcaje era extremadamente bajo, indicando que los Knicks no reaccionaban correctamente a los dobles marcajes. Para saber el porqu, el cuerpo de entrenadores estudi cuidadosamente todas las pelculas de juegos contra Chicago. Observaron que los jugadores de Chicago rompan su doble marcaje muy rpido de tal forma que podan tapar al encestador libre de los Knicks antes de prepararse para efectuar su tiro. Con este conocimiento, los entrenadores crearon estrategias alternativas para tratar con el doble marcaje.

La temporada pasada, IBM ofreci el Advanced Scout a la NBA, que se convirti as en un patrocinador corporativo. La NBA dio a sus veintinueve equipos la oportunidad de aplicarlo. Dieciocho equipos lo estn haciendo hasta el momento obteniendo descubrimientos interesantes.

4. Extensiones del data mining

4.1. Web mining

Una de las extensiones del data mining consiste en aplicar sus tcnicas a documentos y servicios del Web, lo que se llama web mining (minera de web) (Kosala y otros, 2000). Todos los que visitan un sitio en Internet dejan huellas digitales (direcciones de IP, navegador, galletas, etc.) que los servidores automticamente almacenan en una bitcora de accesos (log). Las herramientas de web mining analizan y procesan estos logs para producir informacin significativa, por ejemplo, cmo es la navegacin de un cliente antes de hacer una compra en lnea. Debido a que los contenidos de Internet consisten en varios tipos de datos, como texto, imagen, vdeo, metadatos o hiperligas, investigaciones recientes usan el trmino multimedia data mining (minera de datos multimedia) como una instancia del web mining (Zaiane y otros, 1998) para tratar ese tipo de datos. Los accesos totales por dominio, horarios de accesos ms frecuentes y visitas por da, entre otros datos, son registrados por herramientas estadsticas que complementan todo el proceso de anlisis del web mining. Normalmente, el web mining puede clasificarse en tres dominios de extraccin de conocimiento de acuerdo con la naturaleza de los datos:

1. Web content mining (minera de contenido web). Es el proceso que consiste en la extraccin de conocimiento del contenido de documentos o sus descripciones. La localizacin de patrones en el texto de los documentos, el descubrimiento del recurso basado en conceptos de indexacin o la tecnologa basada en agentes tambin pueden formar parte de esta categora.

2. Web structure mining (minera de estructura web). Es el proceso de inferir conocimiento de la organizacin del WWW y la estructura de sus ligas.

3. Web usage mining (minera de uso web). Es el proceso de extraccin de modelos interesantes usando los logs de los accesos al web. Algunos de los resultados que pueden obtenerse tras la aplicacin de los diferentes mtodos de web mining son:

El ochenta y cinco por ciento de los clientes que acceden a /productos/home.html y a /productos/noticias.html acceden tambin a /productos/historias_suceso.html. Esto podra indicar que existe alguna noticia interesante de la empresa que hace que los clientes se dirijan a historias de suceso. Igualmente, este resultado permitira detectar la noticia sobresaliente y colocarla quiz en la pgina principal de la empresa.

Los clientes que hacen una compra en lnea cada semana en /compra/producto1.html tienden a ser de sectores del gobierno. Esto podra resultar en proponer diversas ofertas a este sector para potenciar ms sus compras.

El sesenta por ciento de los clientes que hicieron una compra en lnea en /compra/producto1.html tambin compraron en /compra/producto4.html despus de un mes. Esto indica que se podra recomendar en la pgina del producto 1 comprar el producto 4 y ahorrarse el costo de envo de este producto. Los anteriores ejemplos nos ayudan a formarnos una pequea idea de lo que podemos obtener. Sin embargo, en la realidad existen herramientas de mercado muy poderosas con mtodos variados y visualizaciones grficas excelentes. Para ms informacin, ver Mena (1999).

4.2. Text mining

Estudios recientes indican que el ochenta por ciento de la informacin de una compaa est almacenada en forma de documentos. Sin duda, este campo de estudio es muy vasto, por lo que tcnicas como la categorizacin de texto, el procesamiento de lenguaje natural, la extraccin y recuperacin de la informacin o el aprendizaje automtico, entre otras, apoyan al text mining (minera de texto). En ocasiones se confunde el text mining con la recuperacin de la informacin (Information Retrieval o IR) (Hearst, 1999). sta ltima consiste en la recuperacin automtica de documentos relevantes mediante indexaciones de textos, clasificacin, categorizacin, etc. Generalmente se utilizan palabras clave para encontrar una pgina relevante. En cambio, el text mining se refiere a examinar una coleccin de documentos y descubrir informacin no contenida en ningn documento individual de la coleccin; en otras palabras, trata de obtener informacin sin haber partido de algo (Nasukawa y otros, 2001). Una aplicacin muy popular del text mining es relatada en Hearst (1999). Don Swanson intenta extraer informacin derivada de colecciones de texto. Teniendo en cuenta que los expertos slo pueden leer una pequea parte de lo que se publica en su campo, por lo general no se dan cuenta de los nuevos desarrollos que se suceden en otros campos. As, Swanson ha demostrado cmo cadenas de implicaciones causales dentro de la literatura mdica pueden conducir a hiptesis para enfermedades poco frecuentes, algunas de las cuales han recibido pruebas de soporte experimental. Investigando las causas de la migraa, dicho investigador extrajo varias piezas de evidencia a partir de ttulos de artculos presentes en la literatura biomdica. Algunas de esas claves fueron:

El estrs est asociado con la migraa.

El estrs puede conducir a la prdida de magnesio.

Los bloqueadores de canales de calcio previenen algunas migraas.

El magnesio es un bloqueador natural del canal de calcio.

La depresin cortical diseminada (DCD) est implicada en algunas migraas.

Los niveles altos de magnesio inhiben la DCD.

Los pacientes con migraa tienen una alta agregacin plaquetaria.

El magnesio puede suprimir la agregacin plaquetaria. Estas claves sugieren que la deficiencia de magnesio podra representar un papel en algunos tipos de migraa, una hiptesis que no exista en la literatura y que Swanson encontr mediante esas ligas. De acuerdo con Swanson (Swanson y otros, 1994), estudios posteriores han probado experimentalmente esta hiptesis obtenida por text mining con buenos resultados.

5. Conclusiones

Nuestra capacidad para almacenar datos ha crecido en los ltimos aos a velocidades exponenciales. En contrapartida, nuestra capacidad para procesarlos y utilizarlos no ha ido a la par. Por este motivo, el data mining se presenta como una tecnologa de apoyo para explorar, analizar, comprender y aplicar el conocimiento obtenido usando grandes volmenes de datos. Descubrir nuevos caminos que nos ayuden en la identificacin de interesantes estructuras en los datos es una de las tareas fundamentales en el data mining.

En el mbito comercial, resulta interesante encontrar patrones ocultos de consumo de los clientes para poder explorar nuevos horizontes. Saber que un vehculo deportivo corre un riesgo de accidente casi igual al de un vehculo normal cuando su dueo tiene un segundo vehculo en casa ayuda a crear nuevas estrategias comerciales para ese grupo de clientes. Asimismo, predecir el comportamiento de un futuro cliente, basndose en los datos histricos de clientes que presentaron el mismo perfil, ayuda a poder retenerlo durante el mayor tiempo posible. Las herramientas comerciales de data mining que existen actualmente en el mercado son variadas y excelentes. Las hay orientadas al estudio del web o al anlisis de documentos o de clientes de supermercado, mientras que otras son de uso ms general. Su correcta eleccin depende de la necesidad de la empresa y de los objetivos a corto y largo plazo que pretenda alcanzar. La decisin de seleccionar una solucin de data mining no es una tarea simple. Es necesario consultar a expertos en el rea con vista a seleccionar la ms adecuada para el problema de la empresa. Como se ha visto a lo largo del este artculo, son muchas las reas, tcnicas, estrategias, tipos de bases de datos y personas que intervienen en un proceso de data mining. Los negocios requieren que las soluciones tengan una integracin transparente en un ambiente operativo. Esto nos lleva a la necesidad de establecer estndares para hacer un ambiente interoperable, eficiente y efectivo. Esfuerzos en este sentido se estn desarrollando actualmente. En Grossman y otros (2002) se exponen algunas iniciativas para estos estndares, incluyendo aspectos en:

Modelos: para representar datos estadsticos y de data mining.

Atributos: para representar la limpieza, transformacin y agregacin de atributos usados como entrada en los modelos.

Interfaces y API: para facilitar la integracin con otros lenguajes o aplicaciones de software y API.

Configuracin: para representar parmetros internos requeridos para

construir y usar los modelos.

Procesos: para producir, desplegar y usar modelos.

Datos remotos y distribuidos: para analizar y explorar datos remotos y distribuidos. En resumen, el data mining se presenta como una tecnologa emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Adems, no hay duda de que trabajar con esta tecnologa implica cuidar un sinnmero de detalles debido a que el producto final involucra "toma de decisiones".

Bibliografa: BRACHMAN, R.J.; KHABAZA, T.; KLOESGEN, W.; PIATETSKY-SHAPIRO, G.; SIMOUDIS, E. (1996). "Mining business databases". Communications of the ACM. Vol. 39, pg. 42-48. BRODLEY, C.E.; LANE, T.; STOUGH, T.M. (1999). "Knowledge discovery and data mining". American Scientist. Vol. 86, pg. 55-65. FAYYAD, U.M.; PIATETSKY-SHAPIRO, G.; SMYTH, P.; UTHURUSAMY, R. (ed.) (1996). Advances in knowledge and data mining. Cambridge (Massachussets): AAAI/MIT Press. FAYYAD, U.; HAUSSLER, D.; STOLORZ, P. (1996). "Mining scientific data". Communications of the ACM. Vol. 39, pg. 51-57. FELDMAN, R.; DAGAN, I. (1995). "Knowledge discovery in textual databases (KDT)". En: Proceedings of the 1st international conference on knowledge discovery. ACM. GROSSMAN, R. L.; HORNIK, M.F.; MEYER, G. (2002). "Data mining standards initiatives". Communications of ACM. Vol. 45 (8), pg. 59-61. HEARST, M. (1999). "Untangling text data mining". En: Proceedings of 37th annual meeting of the association for computational linguistics. Universidad de

Maryland. KOSALA, R.; BLOCKEEL, B. (2000). "Web mining research: a survey". SIGKDD Explorations: Newsletter of the special interest group on knowledge discovery and data mining. ACM Press. Vol. 2 (1). MENA, J. (1999). Data mining your website. Digital Press. MOLINA, L.C. (1998). Data mining no processo de extrao de conhecimento de bases de dados. Tesis de mster. So Carlos (Brasil): Instituto de Cincias Matemticas e Computao. Universidad de So Paulo. MOLINA, L.C.; RIBEIRO, S. (2001). "Descubrimiento conocimiento para el mejoramiento bovino usando tcnicas de data mining". En: Actas del IV Congreso Cataln de Inteligencia Artificial. Barcelona, pg. 123-130. NASUKAWA, T.; NAGANO, T. (2001). "Text analysis and knowledge mining system". IBM Systems Journal, knowledge management. Vol. 40 (4). RODAS, J. (2001). "Un ejercicio de anlisis utilizando rough sets en un dominio de educacin superior mediante el proceso KDD". Documento interno. Barcelona: Departamento de Lenguajes y Sistemas Informticos, Universidad Politcnica de Catalua. SWANSON, D.R.; SMALHAISER, N.R. (1994). "Assessing a gap in the biomedical literature: magnesium deficiency and neurologic disease". Neuroscience research communications. Vol. 15, pg. 1-9. WAY, J.I.; SMITH, E.A. (1991). "The evolution of synthetic aperture radar systems and their progression to the EOS SAR". IEEE transactions on geoscience and remote sensing. Vol. 29 (6), pg. 962-985. ZAIANE, O.R.; HAN, J.; LI, Z-N.; CHEE, S.H.; CHIANG, J.Y. (1998). "MultiMediaMiner: a system prototype for multimedia data mining". En: Proceedings of international conference on management of data. ACM SIGMOD. Vol. 27 (2), pg. 581-583.

Enlaces relacionados: Formacin en la UOC http://www.uoc.edu/masters/esp/cursos/especializacion/208_id.html

KDnuggets

http://www.kdnuggets.com/

KDcentral http://www.kdcentral.com/

Data Mining and Knowledge Discovery. An International Journal http://www.digimine.com/usama/datamine/

Departamento de Lenguajes y Sistemas Informticos. Grupo de Soft Computing http://www.lsi.upc.es/~webia/soft-comp.html

Pgina de Luis Carlos Molina Flix http://www.lsi.upc.es/~lcmolina/

Datos, informacin, conocimiento En qu se diferencia el conocimiento de los datos y de la informacin? En una conversacin informal, los tres trminos suelen utilizarse indistintamente y esto puede llevar a una interpretacin libre del concepto de conocimiento. Quizs la forma ms sencilla de diferenciar los trminos sea pensar que los datos estn localizados en el mundo y el conocimiento est localizado en agentes de cualquier tipo (personas, empresas, mquinas...), mientras que la informacin adopta un papel mediador entre ambos. Los conceptos que se muestran a continuacin se basan en las definiciones de Davenport y Prusak (1999).

Datos Los datos son la mnima unidad semntica, y se corresponden con elementos primarios de informacin que por s solos son irrelevantes como apoyo a la toma de decisiones. Tambin se pueden ver como un conjunto discreto de valores, que no dicen nada sobre el por qu de las cosas y no son orientativos para la accin. Un nmero telefnico o un nombre de una persona, por ejemplo, son datos que, sin un propsito, una utilidad o un contexto no sirven como base para apoyar la toma de una decisin. Los datos pueden ser una coleccin de hechos almacenados en algn lugar fsico como un papel, un dispositivo electrnico (CD, DVD, disco duro...), o la mente de una persona. En este sentido las tecnologas de la informacin han aportado mucho a recopilacin de datos. Como cabe suponer, los datos pueden provenir de fuentes externas o internas a la organizacin, pudiendo ser de carcter objetivo o subjetivo, o de tipo cualitativo o cuantitativo, etc.

Informacin La informacin se puede definir como un conjunto de datos procesados y que tienen un significado (relevancia, propsito y contexto), y que por lo tanto son de utilidad para quin debe tomar decisiones, al disminuir su incertidumbre. Los datos se pueden transforman en informacin aadindoles valor: Contextualizando: se sabe en qu contexto y para qu propsito se generaron. Categorizando: se conocen las unidades de medida que ayudan a interpretarlos. Calculando: los datos pueden haber sido procesados matemtica o estadsticamente. Corrigiendo: se han eliminado errores e inconsistencias de los datos. Condensando: los datos se han podido resumir de forma ms concisa (agregacin). Por tanto, la informacin es la comunicacin de conocimientos o inteligencia, y es capaz de cambiar la forma en que el receptor percibe algo, impactando sobre sus juicios de valor y sus comportamientos. Informacin = Datos + Contexto (aadir valor) + Utilidad (disminuir la incertidumbre)

Conocimiento El conocimiento es una mezcla de experiencia, valores, informacin y know-how que sirve como marco para la incorporacin de nuevas experiencias e informacin, y es til para la accin. Se origina y aplica en la mente de los conocedores. En las organizaciones con

frecuencia no slo se encuentra dentro de documentos o almacenes de datos, sino que tambin esta en rutinas organizativas, procesos, prcticas, y normas. El conocimiento se deriva de la informacin, as como la informacin se deriva de los datos. Para que la informacin se convierta en conocimiento es necesario realizar acciones como: Comparacin con otros elementos. Prediccin de consecuencias. Bsqueda de conexiones. Conversacin con otros portadores de conocimiento El datamining (minera de datos), es el conjunto de tcnicas y tecnologas que permiten explorar grandes bases de datos, de manera automtica o semiautomtica, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto. Bsicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prcticas estadsticas y, en algunos casos, de algoritmos de bsqueda prximos a la Inteligencia Artificial y a las redes neuronales. De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algn significado especial pasan a convertirse en informacin. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretacin que surge entre la informacin y ese modelo represente un valor agregado, entonces nos referimos al conocimiento. Aunque en datamining cada caso concreto puede ser radicalmente distinto al anterior, el proceso comn a todos ellos se suele componer de cuatro etapas principales: Determinacin de los objetivos. Trata de la delimitacin de los objetivos que el cliente desea bajo la orientacin del especialista en data mining. Preprocesamiento de los datos. Se refiere a la seleccin, la limpieza, el enriquecimiento, la reduccin y la transformacin de las bases de datos. Esta etapa consume generalmente alrededor del setenta por ciento del tiempo total de un proyecto de data mining. Determinacin del modelo. Se comienza realizando unos anlisis estadsticos de los datos, y despus se lleva a cabo una visualizacin grfica de los mismos para tener una primera aproximacin. Segn los objetivos planteados y la tarea que debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes reas de la Inteligencia Artificial. Anlisis de los resultados. Verifica si los resultados obtenidos son coherentes y los coteja con los obtenidos por los anlisis estadsticos y de visualizacin grfica. El cliente determina si son novedosos y si le aportan un nuevo conocimiento que le permita considerar sus decisiones.

Carga de trabajo en las fases de un proyecto de datamining

En resumen, el datamining se presenta como una tecnologa emergente, con varias ventajas: por un lado, resulta un buen punto de encuentro entre los investigadores y las personas de negocios; por otro, ahorra grandes cantidades de dinero a una empresa y abre nuevas oportunidades de negocios. Adems, no hay duda de que trabajar con esta tecnologa implica cuidar un sinnmero de detalles debido a que el producto final involucra "toma de decisiones". En el artculo Data Mining: Torturando a los datos hasta que confiesen, Luis Carlos Molina proporciona una visin muy clarificadora sobre la minera de datos, incluyendo interesantes ejemplos de aplicaciones de la misma. Recomendamos su lectura. Si no est familiarizado con el concepto de Datamining, puede resultarle til, adems, examinar las siguientes definiciones: Datamart Datawarehouse Cuadro de Mando Integral Sistemas de Soporte a la Decisin (DSS) Sistemas de Informacin Ejecutiva (EIS) Datamart Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos de un rea de negocio especfica. Se caracteriza por disponer la estructura ptima de datos para analizar la informacin al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento. Un datamart puede ser alimentado desde los datos de un datawarehouse, o integrar por si mismo un compendio de distintas fuentes de informacin.

Por tanto, para crear el datamart de un rea funcional de la empresa es preciso encontrar la estructura ptima para el anlisis de su informacin, estructura que puede estar montada sobre una base de datos OLTP, como el propio datawarehouse, o sobre una base de datos OLAP. La designacin de una u otra depender de los datos, los requisitos y las caractersticas especficas de cada departamento. De esta forma se pueden plantear dos tipos de datamarts: Datamart OLAP Se basan en los populares cubos OLAP, que se construyen agregando, segn los requisitos de cada rea o departamento, las dimensiones y los indicadores necesarios de cada cubo relacional. El modo de creacin, explotacin y mantenimiento de los cubos OLAP es muy heterogneo, en funcin de la herramienta final que se utilice. Datamart OLTP Pueden basarse en un simple extracto del datawarehouse, no obstante, lo comn es introducir mejoras en su rendimiento (las agregaciones y los filtrados suelen ser las operaciones ms usuales) aprovechando las caractersticas particulares de cada rea de la empresa. Las estructuras ms comunes en este sentido son las tablas report, que vienen a ser fact-tables reducidas (que agregan las dimensiones oportunas), y las vistas materializadas, que se construyen con la misma estructura que las anteriores, pero con el objetivo de explotar la reescritura de queries (aunque slo es posibles en algunos SGBD avanzados, como Oracle). Los datamarts que estn dotados con estas estructuras ptimas de anlisis presentan las siguientes ventajas: Poco volumen de datos Mayor rapidez de consulta Consultas SQL y/o MDX sencillas Validacin directa de la informacin Facilidad para la historizacin de los datos

Datawarehouse Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar informacin de una o ms fuentes distintas, para luego procesarla permitiendo su anlisis desde infinidad de pespectivas y con grandes velocidades de respuesta. La creacin de un datawarehouse representa en la mayora de las ocasiones el primer paso, desde el punto de vista tcnico, para implantar una solucin completa y fiable de Business Intelligence. La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena la informacin (modelos de tablas en estrella, en copo de nieve, cubos relacionales... etc). Este tipo de persistencia de la informacin es homognea y fiable, y permite la consulta y el tratamiento jerarquizado de la misma (siempre en un entorno diferente a los sistemas operacionales).

El trmino Datawarehouse fue acuado por primera vez por Bill Inmon, y se traduce literalmente como almacn de datos. No obstante, y como cabe suponer, es mucho ms que eso. Segn defini el propio Bill Inmon, un datawarehouse se caracteriza por ser:

Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La informacin suele estructurarse tambin en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios. Temtico: slo los datos necesarios para el proceso de generacin del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una nica tabla del datawarehouse. De esta forma, las peticiones de informacin sobre clientes sern ms fciles de responder dado que toda la informacin reside en el mismo lugar. Histrico: el tiempo es parte implcita de la informacin contenida en un datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la informacin almacenada en el datawarehouse sirve, entre otras cosas, para realizar anlisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones. No voltil: el almacn de informacin de un datawarehouse existe para ser ledo, pero no modificado. La informacin es por tanto permanente, significando la actualizacin del datawarehouse la incorporacin de los ltimos valores que tomaron las distintas variables contenidas en l sin ningn tipo de accin sobre lo que ya exista. Otra caracterstica del datawarehouse es que contiene metadatos, es decir, datos sobre los datos. Los metadatos permiten saber la procedencia de la informacin, su periodicidad de refresco, su fiabilidad, forma de clculo... etc. Los metadatos sern los que permiten simplificar y automatizar la obtencin de la informacin desde los sistemas operacionales a los sistemas informacionales. Los objetivos que deben cumplir los metadatos, segn el colectivo al que va dirigido, son: Dar soporte al usuario final, ayudndole a acceder al datawarehouse con su propio lenguaje de negocio, indicando qu informacin hay y qu significado tiene. Ayudar a construir consultas, informes y anlisis, mediante herramientas de Business Intelligence como DSS, EIS o CMI. Dar soporte a los responsables tcnicos del datawarehouse en aspectos de auditora, gestin de la informacin histrica, administracin del datawarehouse, elaboracin de programas de extraccin de la informacin, especificacin de las interfaces para la realimentacin a los sistemas operacionales de los resultados obtenidos... etc. Por ltimo, destacar que para comprender ntegramente el concepto de datawarehouse, es importante entender cual es el proceso de construccin del mismo, denominado ETL (Extraccin, Transformacin y Carga), a partir de los sistemas operaciones de una compaa:

Extraccin: obtencin de informacin de las distintas fuentes tanto internas como externas. Transformacin: filtrado, limpieza, depuracin, homogeneizacin y agrupacin de la informacin. Carga: organizacin y actualizacin de los datos y los metadatos en la base de datos.

Una de las claves del xito en la construccin de un datawarehouse es el desarrollo de forma gradual, seleccionando a un departamento usuario como piloto y expandiendo progresivamente el almacn de datos a los dems usuarios. Por ello es importante elegir este usuario inicial o piloto, siendo importante que sea un departamento con pocos usuarios, en el que la necesidad de este tipo de sistemas es muy alta y se puedan obtener y medir resultados a corto plazo. Principales aportaciones de un datawarehouse Proporciona una herramienta para la toma de decisiones en cualquier rea funcional, basndose en informacin integrada y global del negocio. Facilita la aplicacin de tcnicas estadsticas de anlisis y modelizacin para encontrar relaciones ocultas entre los datos del almacn; obteniendo un valor aadido para el negocio de dicha informacin. Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios. Simplifica dentro de la empresa la implantacin de sistemas de gestin integral de la relacin con el cliente. Supone una optimizacin tecnolgica y econmica en entornos de Centro de Informacin, estadstica o de generacin de informes con retornos de la inversin espectaculares. Si no est familiarizado con el concepto de datawarehouse, puede resultarle til, adems, examinar las siguientes definiciones:

Cuadro de Mando Integral El Cuadro de Mando Integral (CMI), tambin conocido como Balanced Scorecard (BSC) o dashboard, es una herramienta de control empresarial que permite establecer y monitorizar los objetivos de una empresa y de sus diferentes reas o unidades. Tambin se puede considerar como una aplicacin que ayuda a una compaa a expresar los objetivos e iniciativas necesarias para cumplir con su estrategia, mostrando de forma continuada cundo la empresa y los empleados alcanzan los resultados definidos en su plan estratgico.

Diferencia con otras herramientas de Business Intelligence El Cuadro de Mando Integral se diferencia de otras herramientas de Business Intelligence, como los Sistemas de Soporte a la Decisin (DSS) o los Sistemas de Informacin Ejecutiva (EIS), en que est ms orientados al seguimiento de indicadores que al anlisis minucioso de informacin. Por otro lado, es muy comn que un CMI sea controlado por la direccin general de una compaa, frente a otras herramientas de Business Intelligence ms enfocadas a a la direccin departamental. El CMI requiere, por tanto, que los directivos analicen el mercado y la estrategia para construir un modelo de negocio que refleje las interrelaciones entre los diferentes componentes de la empresa (plan estratgico). Una vez que lo han construido, los responsables de la organizacin utilizan este modelo como mapa para seleccionar los indicadores del CMI.

Tipos de Cuadros de Mando El Cuadro de Mando Operativo (CMO), es una herramienta de control enfocada al seguimiento de variables operativas, es decir, variables pertenecientes a reas o departamentos especficos de la empresa. La periodicidad de los CMO puede ser diaria, semanal o mensual, y est centrada en indicadores que generalmente representan procesos, por lo que su implantacin y puesta en marcha es ms sencilla y rpida. Un CMO debera estar siempre ligado a un DSS (Sistema de Soporte a Decisiones) para indagar en profundidad sobre los datos.

El Cuadro de Mando Integral (CMI), por el contrario, representa la ejecucin de la estrategia de una compaa desde el punto de vista de la Direccin General (lo que hace que sta deba estar plenamente involucrada en todas sus fases, desde la definicin a la implantacin). Existen diferentes tipos de cuadros de mando integral, si bien los ms utilizados son los que se basan en la metodologa de Kaplan & Norton. La principales caractersticas de esta metodologa son que utilizan tanto indicadores financieros como no financieros, y que los objetivos estratgicos se organizan en cuatro reas o perspectivas: financiera, cliente, interna y aprendizaje/crecimiento. La perspectiva financiera incorpora la visin de los accionistas y mide la creacin de valor de la empresa. Responde a la pregunta: Qu indicadores tienen que ir bien para que los esfuerzos de la empresa realmente se transformen en valor? Esta perspectiva valora uno de los objetivos ms relevantes de organizaciones con nimo de lucro, que es, precisamente, crear valor para la sociedad. La perspectiva del cliente refleja el posicionamiento de la empresa en el mercado o, ms concretamente, en los segmentos de mercado donde quiere competir. Por ejemplo, si una empresa sigue una estrategia de costes es muy posible que la clave de su xito dependa de una cuota de mercado alta y unos precios ms bajos que la competencia. Dos indicadores que reflejan este posicionamiento son la cuota de mercado y un ndice que compare los precios de la empresa con los de la competencia. La perspectiva interna recoge indicadores de procesos internos que son crticos para el posicionamiento en el mercado y para llevar la estrategia a buen puerto. En el caso de la empresa que compite en coste, posiblemente los indicadores de productividad, calidad e innovacin de procesos sean importantes. El xito en estas dimensiones no slo afecta a la perspectiva interna, sino tambin a la financiera, por el impacto que tienen sobre las rbricas de gasto. La perspectiva de aprendizaje y crecimiento es la ltima que se plantea en este modelo de CMI. Para cualquier estrategia, los recursos materiales y las personas son la clave del xito. Pero sin un modelo de negocio apropiado, muchas veces es difcil apreciar la importancia de invertir, y en pocas de crisis lo primero que se recorta es precisamente la fuente primaria de creacin de valor: se recortan inversiones en la mejora y el desarrollo de los recursos.

Pese a que estas cuatro son las perspectivas ms genricas, no son "obligatorias". Por ejemplo, una empresa de fabricacin de ropa deportiva tiene, adems de la perspectiva de clientes, una perspectiva de consumidores. Para esta empresa son tan importantes sus distribuidores como sus clientes finales. Una vez que se tienen claros los objetivos de cada perspectiva, es necesario definir los indicadores que se utilizan para realizar su seguimiento. Para ello, debemos tener en cuenta varios criterios: el primero es que el nmero de indicadores no supere los siete por perspectiva, y si son menos, mejor. La razn es que demasiados indicadores difuminan el mensaje que comunica el CMI y, como resultado, los esfuerzos se dispersan intentando perseguir demasiados objetivos al mismo tiempo. Puede ser recomendable durante el diseo empezar con una lista ms extensa de indicadores. Pero es necesario un proceso de sntesis para disponer de toda la fuerza de esta herramienta. No obstante, la aportacin que ha convertido al CMI en una de las herramientas ms significativas de los ltimos aos es que se cimenta en un modelo de negocio. El xito de su implantacin radica en que el equipo de direccin se involucre y dedique tiempo al desarrollo de su propio modelo de negocio.

Beneficios de la implantacin de un Cuadro de Mando Integral

La fuerza de explicitar un modelo de negocio y traducirlo en indicadores facilita el consenso en toda la empresa, no slo de la direccin, sino tambin de cmo alcanzarlo. Clarifica cmo las acciones del da a da afectan no slo al corto plazo, sino tambin al largo plazo. Una vez el CMI est en marcha, se puede utilizar para comunicar los planes de la empresa, aunar los esfuerzos en una sola direccin y evitar la dispersin. En este caso, el CMI acta como un sistema de control por excepcin.

Permita detectar de forma automtica desviaciones en el plan estratgico u operativo, e incluso indagar en los datos operativos de la compaa hasta descubrir la causa original que di lugar a esas desviaciones.

Riesgos de la implantacin de un Cuadro de Mando Integral

Un modelo poco elaborado y sin la colaboracin de la direccin es papel mojado, y el esfuerzo ser en vano. Si los indicadores no se escogen con cuidado, el CMI pierde una buena parte de sus virtudes, porque no comunica el mensaje que se quiere transmitir. Cuando la estrategia de la empresa est todava en evolucin, es contraproducente que el CMI se utilice como un sistema de control clsico y por excepcin, en lugar de usarlo como una herramienta de aprendizaje. Existe el riesgo de que lo mejor sea enemigo de lo bueno, de que el CMI sea perfecto, pero desfasado e intil.

Por qu Business Intelligence? La capacidad para tomar decisiones de negocio precisas y de forma rpida se ha convertido en una de las claves para que una empresa llegue al xito. Sin embargo, los sistemas de informacin tradicionales (como la mayora de los programas de gestin, las aplicaciones a medida, e incluso los ERP ms sofisticados), suelen presentar una estructura muy inflexible para este fin. Aunque su diseo se adapta con mayor o menor medida para manejar los datos de la empresa, no permite obtener la informacin de los mismos, y mucho menos extrapolar el conocimiento almacenado en el da a da de las bases de datos. Las principales caractersticas que limitan estos sistemas son: Gran rigidez a la hora de extraer datos, de manera que el usuario tiene que ceirse a los informes predefinidos que se configuraron en el momento de la implantacin, y que no siempre responden a sus dudas reales. Necesidad de conocimientos tcnicos. Para la generacin de nuevos informes o mtricas suele resultar ineludible acudir al departamento tcnico, solicitando una consulta adecuada para interrogar la base de datos.

Largos tiempos de respuesta, ya que las consultas complejas de datos suelen implicar la unin de tablas operacionales de gran tamao, lo que se traduce en una incmoda espera que dificulta la fluidez del trabajo. Deterioro en el rendimiento del SI. Cuando la base de datos consultada, para generar informes o ratios de negocio, es la misma que la que soporta el operativo de la empresa, el funcionamiento del sistema puede degradarse hasta afectar y paralizar a todos los usuarios conectados. Falta de integracin que implica islas de datos. Muchas organizaciones disponen de mltiples sistemas de informacin, incorporados en momentos distintos, para resolver problemticas diferentes. Sus bases de datos no suelen estar integradas, lo que implica la existencia de islas de informacin. Datos errneos, obsoletos o incompletos. El tema de la calidad de los datos siempre es considerado como algo importante, pero esta labor nunca se lleva al extremo de garantizar la fiabilidad de la informacin aportada. Problemas para adecuar la informacin al cargo del usuario. No se trata de que todo el mundo tenga acceso a toda la informacin, sino de que tenga acceso a la informacin que necesita para que su trabajo sea lo ms eficiente posible. Ausencia de informacin histrica. Los datos almacenados en los sistemas operacionales estn diseados para llevar la empresa al da, pero no permiten contrastar la situacin actual con una situacin retrospectiva de aos atrs. Para superar todas estas limitaciones, el Business Intelligence se apoya en un conjunto de herramientas que facilitan la extraccin, la depuracin, el anlisis y el almacenamiento de los datos generados en una organizacin, con la velocidad adecuada para generar conocimiento y apoyar la toma de decisiones de los directivos y los usuarios oportunos. No es que los productos de BI sean mejores que las aplicaciones actuales: se trata de sistemas con objetivos distintos, eficientes en sus respectivas ramas, pero que deben complementarse para optimizar el valor de los sistemas de informacin.

Arquitectura de una solucin de Business Intelligence Una solucin de Business Intelligence parte de los sistemas de origen de una organizacin (bases de datos, ERPs, ficheros de texto...), sobre los que suele ser necesario aplicar una transformacin estructural para optimizar su proceso analtico. Para ello se realiza una fase de extraccin, transformacin y carga (ETL) de datos. Esta etapa suele apoyarse en un almacn intermedio, llamado ODS, que acta como pasarela entre los sistemas fuente y los sistemas destino (generalmente un datawarehouse), y cuyo principal objetivo consiste en evitar la saturacin de los servidores funcionales de la organizacin.

La informacin resultante, ya unificada, depurada y consolidada, se almacena en un datawarehouse corporativo, que puede servir como base para la construccin de distintos datamarts departamentales. Estos datamarts se caracterizan por poseer la estructura ptima para el anlisis de los datos de esa rea de la empresa, ya sea mediante bases de datos transaccionales (OLTP) o mediante bases de datos analticas (OLAP).

Los datos albergados en el datawarehouse o en cada datamart se explotan utilizando herramientas comerciales de anlisis, reporting, alertas... etc. En estas herramientas se basa

tambin la construccin de productos BI ms completos, como los sistemas de soporte a la decisin (DSS), los sistemas de informacin ejecutiva (EIS) y los cuadros de mando (CMI) o Balanced Scorecard (BSC). La Inteligencia de Negocio en los diferentes departamentos de la empresa En todas las empresas cada departamento acumula diferentes datos: sobre sus clientes, sus inventarios, su produccin, sobre la efectividad de las campaas de mrketing, informacin sobre proveedores y socios, adems de los datos que pueden proveer del exterior, como los referentes a competidores. En este sentido, el Business Intelligence puede realizar distintas aportaciones a cada departamento, siempre con el objetivo de integrar y optimizar la informacin disponible en la organizacin: Departamento de marketing El BI permite identificar de forma ms precisa los segmentos de clientes y estudiar con mayor detalle su comportamiento. Para ello se pueden incluir anlisis capaces de medir, por ejemplo, el impacto de los precios y las promociones en cada segmento. Departamento de compras El BI permite acceder a los datos del mercado, vinculndolos con la informacin bsica necesaria para hallar las relaciones entre coste y beneficio. Al mismo tiempo, permite monitorizar la informacin de cada factora o cadena de produccin, lo que puede ayudar a optimizar el volumen de las compras. Departamento de produccin El BI proporciona un mecanismo que permite analizar el rendimiento de cualquier tipo de proceso operativo, ya que comprende desde el control de calidad y la administracin de inventarios hasta la planificacin y la historizacin de la produccin. Departamento de ventas El BI facilita la comprensin de las necesidades del cliente, as como responder a las nuevas oportunidades del mercado. Tambin son posibles anlisis de patrones de compra para aprovechar coyunturas de ventas con productos asociados. Departamento econmico-financiero El BI permite acceder a los datos de forma inmediata y en tiempo real, mejorando as ciertas operaciones, que suelen incluir presupuestos, proyecciones, control de gestin, tesorera, balances y cuentas de resultados. Departamento de atencin al cliente Aplicado a este mbito, el BI permite evaluar con exactitud el valor de los segmentos del mercado y de los clientes individuales, adems de ayudar a retener a los clientes ms rentables. Departamento de recursos humanos Obteniendo los datos precisos de la fuente adecuada, el BI permite analizar los parmetros que ms pueden afectar al departamento: satisfaccin de los empleados, absentismo laboral, beneficio-hora/hombre etc.

Finalmente, en caso de aprovechar la integracin de la informacin con proveedores y socios, el BI ofrece niveles de anlisis sobre cuestiones como nuevas oportunidades de inversin, o nuevas ocasiones para la colaboracin con terceros. Sistemas de Soporte a la Decisin (DSS) Un Sistema de Soporte a la Decisin (DSS) es una herramienta de Business Intelligence enfocada al anlisis de los datos de una organizacin. En principio, puede parecer que el anlisis de datos es un proceso sencillo, y fcil de conseguir mediante una aplicacin hecha a medida o un ERP sofisticado. Sin embargo, no es as: estas aplicaciones suelen disponer de una serie de informes predefinidos en los que presentan la informacin de manera esttica, pero no permiten profundizar en los datos, navegar entre ellos, manejarlos desde distintas perspectivas... etc.

El DSS es una de las herramientas ms emblemticas del Business Intelligence ya que, entre otras propiedades, permiten resolver gran parte de las limitaciones de los programas de gestin. Estas son algunas de sus caractersticas principales: Informes dinmicos, flexibles e interactivos, de manera que el usuario no tenga que ceirse a los listados predefinidos que se configuraron en el momento de la implantacin, y que no siempre responden a sus dudas reales.

No requiere conocimientos tcnicos. Un usuario no tcnico puede crear nuevos grficos e informes y navegar entre ellos, haciendo drag&drop o drill through. Por tanto, para examinar la informacin disponible o crear nuevas mtricas no es imprescindible buscar auxilio en el departamento de informtica. Rapidez en el tiempo de respuesta, ya que la base de datos subyacente suele ser un datawarehouse corporativo o un datamart, con modelos de datos en estrella o copo de nieve. Este tipo de bases de datos estn optimizadas para el anlisis de grandes volmenes de informacin (vease nalisis OLTP-OLAP). Integracin entre todos los sistemas/departamentos de la compaa. El proceso de ETL previo a la implantacin de un Sistema de Soporte a la Decisin garantiza la calidad y la integracin de los datos entre las diferentes unidades de la empresa. Existe lo que se llama: integridad referencial absoluta. Cada usuario dispone de informacin adecuada a su perfil. No se trata de que todo el mundo tenga acceso a toda la informacin, sino de que tenga acceso a la informacin que necesita para que su trabajo sea lo ms eficiente posible. Disponibilidad de informacin histrica. En estos sistemas est a la orden del da comparar los datos actuales con informacin de otros perodos histricos de la compaa, con el fin de analizar tendencias, fijar la evolucin de parmetros de negocio... etc.

Diferencia con otras herramientas de Business Intelligence El principal objetivo de los Sistemas de Soporte a Decisiones es, a diferencia de otras herramientas como los Cuadros de Mando (CMI) o los Sistemas de Informacin Ejecutiva (EIS), explotar al mximo la informacin residente en una base de datos corporativa (datawarehouse o datamart), mostrando informes muy dinmicos y con gran potencial de navegacin, pero siempre con una interfaz grfica amigable, vistosa y sencilla.

Otra diferencia fundamental radica en los usuarios a los que estn destinadas las plataformas DSS: cualquier nivel gerencial dentro de una organizacin, tanto para situaciones estructuradas

como no estructuradas. (En este sentido, por ejemplo, los CMI estn ms orientados a la alta direccin). Por ltimo, destacar que los DSS suelen requerir (aunque no es imprescindible) un motor OLAP subyacente, que facilite el anlisis casi ilimitado de los datos para hallar las causas raices de los problemas/pormenores de la compaa.

Tipos de Sistemas de Soporte a Decisiones Sistemas de informacin gerencial (MIS) Los sistemas de informacin gerencial (MIS, Management Information Systems), tambien llamados Sistemas de Informacin Administrativa (AIS) dan soporte a un espectro ms amplio de tareas organizacionales, encontrndose a medio camino entre un DSS tradicional y una aplicacin CRM/ERP implantada en la misma compaa. Sistemas de informacin ejecutiva (EIS) Los sistemas de informacin ejecutiva (EIS, Executive Information System) son el tipo de DSS que ms se suele emplear en Business Intelligence, ya que proveen a los gerentes de un acceso sencillo a informacin interna y externa de su compaa, y que es relevante para sus factores clave de xito. Sistemas expertos basados en inteligencia artificial (SSEE) Los sistemas expertos, tambin llamados sistemas basados en conocimiento, utilizan redes neuronales para simular el conocimiento de un experto y utilizarlo de forma efectiva para resolver un problema concreto. Este concepto est muy relacionado con el datamining. Sistemas de apoyo a decisiones de grupo (GDSS) Un sistema de apoyo a decisiones en grupos (GDSS, Group Decision Support Systems) es "un sistema basado en computadoras que apoya a grupos de personas que tienen una tarea (u objetivo) comn, y que sirve como interfaz con un entorno compartido". El supuesto en que se basa el GDSS es que si se mejoran las comunicaciones se pueden mejorar las decisiones.

Sistemas de Informacin Ejecutiva (EIS)

Un Sistema de Informacin para Ejecutivos o Sistema de Informacin Ejecutiva es una herramienta software, basada en un DSS, que provee a los gerentes de un acceso sencillo a informacin interna y externa de su compaa, y que es relevante para sus factores clave de xito. La finalidad principal es que el ejecutivo tenga a su disposicin un panorama completo del estado de los indicadores de negocio que le afectan al instante, manteniendo tambin la posibilidad de analizar con detalle aquellos que no estn cumpliendo con las expectativas establecidas, para determinar el plan de accin ms adecuado.

De forma ms pragmtica, se puede definir un EIS como una aplicacin informtica que muestra informes y listados (query & reporting) de las diferentes reas de negocio, de forma consolidada, para facilitar la monitorizacin de la empresa o de una unidad de la misma. El EIS se caracteriza por ofrecer al ejecutivo un acceso rpido y efectivo a la informacin compartida, utilizando interfaces grficas visuales e intutivas. Suele incluir alertas e informes basados en excepcin, as como histricos y anlisis de tendencias. Tambin es frecuente que permita la domiciliacin por correo de los informes ms relevantes. A travs de esta solucin se puede contar con un resumen del comportamiento de una organizacin o rea especfica, y poder compararla a travs del tiempo. Es posible, adems, ajustar la visin de la informacin a la teora de Balanced Scorecard o Cuadro de Mando Integral impulsada por Norton y Kaplan, o bien a cualquier modelo estratgico de indicadores que maneje la compaa.

Bases de datos OLTP y OLAP OLTP - On-Line Transactional Processing Los sistemas OLTP son bases de datos orientadas al procesamiento de transacciones. Una transaccin genera un proceso atmico (que debe ser validado con un commit, o invalidado con un rollback), y que puede involucrar operaciones de insercin, modificacin y borrado de datos. El proceso transaccional es tpico de las bases de datos operacionales. El acceso a los datos est optimizado para tareas frecuentes de lectura y escritura. (Por ejemplo, la enorme cantidad de transacciones que tienen que soportar las BD de bancos o hipermercados diariamente). Los datos se estructuran segn el nivel aplicacin (programa de gestin a medida, ERP o CRM implantado, sistema de informacin departamental...). Los formatos de los datos no son necesariamente uniformes en los diferentes departamentos (es comn la falta de compatibilidad y la existencia de islas de datos). El historial de datos suele limitarse a los datos actuales o recientes.

OLAP - On-Line Analytical Processing Los sistemas OLAP son bases de datos orientadas al procesamiento analtico. Este anlisis suele implicar, generalmente, la lectura de grandes cantidades de datos para llegar a extraer algn tipo de informacin til: tendencias de ventas, patrones de comportamiento de los consumidores, elaboracin de informes complejos etc. Este sistema es tpico de los datamarts. El acceso a los datos suele ser de slo lectura. La accin ms comn es la consulta, con muy pocas inserciones, actualizaciones o eliminaciones.

Los datos se estructuran segn las reas de negocio, y los formatos de los datos estn integrados de manera uniforme en toda la organizacin. El historial de datos es a largo plazo, normalmente de dos a cinco aos. Las bases de datos OLAP se suelen alimentar de informacin procedente de los sistemas operacionales existentes, mediante un proceso de extraccin, transformacin y carga (ETL). Plan director El plan director es un documento formal en el que se intenta plasmar, por parte de los responsables de una compaa (directivos, gerentes, empresarios...) cual ser la situacin de la misma dentro un perodo de tiempo, generalmente de 5 a 10 aos. El plan director es cualitativo: define las futuras cualidades (no las cantidades) de la compaa, finalista: indica lo que se quiere conseguir, pero no cmo conseguirlo, y atemporal: no establece plazos para alcanzar lo propuesto, a excepcin de la propia vigencia del plan. El plan director recoge tres puntos principales: Productos y servicios: describe el catlogo de productos y/o servicios que ofrecer la compaa a sus clientes, y en los que deben basarse sus ingresos en el medio y en el largo plazo. Esta enumeracin debera ser visionaria, completa y realista. Mercado potencial: describe el perfil de los clientes que tendrn acceso a los productos que ofrece la compaa (pblico final, empresas...), indicando el segmento ms aproximado y sus caractersticas principales. Ventajas competitivas: describe las caractersticas que deben situar a la compaa en una situacin ventajosa con respecto a su competencia. Estas ventajas deben ser, ante todo, difciles de imitar y sostenibles en el tiempo. Aprenda ms sobre ventajas competitivas aqu. En la prctica, el plan director se suele condensar en un documento escrito (generalmente de menos de 10 pginas) que no es ms una instantnea del futuro que los directivos quieren para su compaa. El plan director es, por tanto, el eje central sobre el que se articularn otros documentos de vital importancia para la empresa, como el plan estratgico o el plan operativo anual. Plan estratgico El plan estratgico es un documento formal en el que se intenta plasmar, por parte de los responsables de una compaa (directivos, gerentes, empresarios...) cual ser la estrategia de la misma durante un perodo de tiempo, generalmente de 3 a 5 aos. El plan estratgico es cuantitativo: establece las cifras que debe alcanzar la compaa, manifiesto: describe el modo de conseguirlas, perfilando la estrategia a seguir, y temporal: indica los plazos de los que dispone la compaa para alcanzar esas cifras. El plan estratgico recoge tres puntos principales:

Objetivos: un objetivo es un hecho que no depende directamente de la compaa, y que est formado por la ecuacin: cantidad a alcanzar + plazo para conseguirlo. El verbo asociado a un objetivo es siempre conseguir: - Conseguir una facturacin de 1.000.000 antes de 2.010. - Conseguir incrementar la rentabilidad econmica un 10% durante 2.008. - Conseguir una cuota de mercado del 40% antes de Noviembre de 2.007. Los objetivos del tipo: "Optimizar los recursos empleados" o "Maximizar el beneficio durante este ao" no son vlidos, ya que no indican una cantidad a alcanzar y un plazo para conseguirlo. Tampoco sera correcto el objetivo: "Gastar 10.000 en renovar el equipamiento informtico durante Febrero", ya que eso depende directamente de la compaa. Polticas: una poltica es una conducta que marca la compaa, y que sirve para describir su actitud, continuada en el tiempo, a la hora de enfrentarse a situaciones de diversa ndole. El verbo asociado a una poltica es siempre establecer: - Establecer una poltica de cobros a 30 das y de pagos a 90 das. - Establecer una poltica de contratacin para titulados con al menos 2 aos de experiencia. - Establecer una poltica retributiva basada en un 80% de retribucin fija y 20% retribucin variable. Existen muchos parmetros sobre los que se puede establecer la actitud de la empresa, como la poltica de tesorera, la poltica de atencin al cliente, la poltica de recursos humanos, la poltica de imagen corporativa, la poltica de reparto de dividendos... Acciones: una accin es un hecho que depende directamente de la compaa, y que generalmente se lleva a cabo para facilitar la consecucin de los objetivos, fomentar el respeto a las polticas impuestas, o vertebrar la estrategia global de la empresa. El verbo asociado a una accin es siempre realizar: - Asistir a los principales congresos del sector para mejorar la formacin interna. - Lanzar una campaa de publicidad en TV y peridicos para promocionar el nuevo producto. - Elaborar un manual de procedimientos interno que agilice la incorporacin de nuevos miembros. Las acciones se suelen agrupar de tal manera que sea sencillo identificar su origen y, a su vez, su finalidad. As se pueden clasificar como dependientes de un objetivo estratgico, de una poltica de empresa o simplemente como acciones puntuales. En la prctica, el plan estratgico se suele sintetizar en un documento escrito (generalmente de menos de 20 pginas), concretando as las lneas estratgicas generales a seguir por la compaa. El plan estratgico describe, por tanto, una manera de conseguir las cualidades organizacionales enumeradas en el plan director. No obstante, el plan estratgico no suele

estar lo suficientemente detallado como para actuar a nivel departamental. Para ello, se suele utilizar el plan operativo anual. La herramienta de Business Intelligence dedicada a la inclusin y seguimiento del plan estratgico en una empresa es el Cuadro de Mando Integral o Balanced Scorecard. Plan operativo anual (POA) El plan operativo anual es un documento formal en el que se enumeran, por parte de los responsables de una entidad facturadora (compaa, departamento, sucursal u oficina) los objetivos a conseguir durante el presente ejercicio. El plan operativo anual debe estar perfectamente alineado con el plan estratgico de la empresa, y su especificacin sirve para concretar, adems de los objetivos a conseguir cada ao, la manera de alcanzarlos que debe seguir cada entidad (departamento, sucursal, oficina...). Por ejemplo, ante un objetivo estratgico global del tipo: "Conseguir una facturacin de 1.000.000 antes de 2.010.", un plan operativo debe desglosar esa cifra para cada ao: "Conseguir una facturacin de 600.000 en el ao 2.008", "Conseguir una facturacin de 800.000 en el ao 2.009", "Conseguir una facturacin de 1.000.000 en el ao 2.010". Adems, el plan operativo anual debe desglosar los objetivos para cada entidad facturadora: "La oficina de Madrid debe alcanzar una cifra de ventas de 200.000 en el ao 2.008", "La oficina de Valencia debe alcanzar una cifra de ventas de 150.000 en el ao 2.008", etc... Incluso, dentro de cada sucursal o departamento es posible hallar una prediccin del volumen esperado de ventas para cada mes del ao (teniendo en cuenta la estacionalidad del producto o las oscilaciones que ha experimentado el mercado en aos anteriores). Por tanto, es comn en un plan operativo anual disponer, para cada mes (desde enero a diciembre), de un valor POA para cada objetivo. A medida que va avanzando el ao es posible fijar el valor real que se ha alcanzado y, por tanto, hallar posibles errores o desviaciones en el plan. Por ejemplo, para el caso del objetivo: "La oficina de Madrid debe alcanzar una cifra de ventas de 200.000 en el ao 2.008" Mes POA Acumulado Real Acumulado Desviacin

Enero

15.000

16.292

1.292

Febrero

30.000

26.488

-3.512

Marzo

50.000

41.351

-8.649

Abril

70.000

60.134

-9.866

Mayo

85.000

74.011

-10.989

Junio

100.000

88.506

-11.494

Julio

120.000

(-)

(-)

Agosto

150.000

Septiembre

170.000

Octubre

180.000

Noviembre

190.000

Diciembre

200.000

Esto es preciso hacerlo, naturalmente, para cada objetivo anual de cada entidad. Lo ms importante de este modelo es que, mediante un correcto seguimiento del plan operativo anual, se puede hallar no slo las desviaciones en el plan, sino tambin el motivo de su origen. La herramienta de Business Intelligence dedicada a este fin es una de las ms implantadas en las empresas modernas: el Cuadro de Mando Integral o Balanced Scorecard. Plataformas de Business Intelligence A continuacin mostramos las principales plataformas de Business Intelligence con las que trabaja nuestra empresa. Si desea un listado ms exhaustivo de productos puede consultar aqu.

Ejemplos prcticos de Business Intelligence A continuacin mostramos una serie de ejemplos reales (resumidos) de Business Intelligence: Empresa conservera Este caso prctico se refiere a uno de las mayores empresas conserveras de Galicia, con presencia internacional, ms de 500 empleados y cerca de 100.000.000 de facturacin. A pesar de que en el sector conservero es bien conocida la estacionalidad de las ventas (el consumo de atn en conserva se dispara en verano, debido a su participacin en las ensaladas) y en diciembre (con motivo de la navidad), esta empresa no haba sido capaz de optimizar la cantidad de producto finalizado que deba almacenar en stock para maximizar sus beneficios. Mediante la implantacin de un sistema de soporte a la decisin (DSS), y tras el anlisis minucioso de los datos histricos que guardaba la compaa, result posible redisear todo el proceso logstico y de almacenamiento productivo hasta el punto de incrementar la rentabilidad econmica de la misma (independientemente de la produccin y la demanda) en un 10%.

Cadena de supermercados Una conocida cadena de supermercados gallegos ha recurrido a un sistema de Business Intelligence para averiguar cual era el perfil de sus clientes ms rentables e intentar hacer lo posible para fidelizarlos. Para ello, una de las primeras acciones que llev a cabo fue la creaccin de una "tarjeta descuento", que vinculara a los clientes con el club del supermercado. Para poder optar a esta tarjeta, cada cliente deba facilitar sus datos personales bsicos (edad, sexo, origen...) y unos datos complementarios de sus preferencias. A cambio reciba descuentos eventuales en sus compras. Tras haber acumulado una relevante cantidad de datos, lleg el momento de extraer la informacin requerida mediante un sistema de soporte a la decisin. Entre las rarezas

obtenidas en los resultados, cabe destacar que el perfil ideal de cada cliente tena sustanciales diferencias en funcin de la ubicacin geogrfica, a pesar de que el lmite del anlisis era dentro de la propia Galicia.

Cooperativa lechera En una cooperativa lctea de origen gallego, cuyos productos se publicitan en TV a nivel nacional, se haban desatado las alarmas debido a las grandes desviaciones econmicas existentes, cada ao, entre los parmetros estimados en enero y los resultados analizados doce meses ms tarde. Finalmente, para resolver el problema y potenciar al mximo sus sistemas informticos tradicionales, la cooperativa decidi implantar un cuadro de mando integral (Balanced Scorecard) y realizar un seguimiento minucioso de sus objetivos estratgicos. Tras ocho meses desde la puesta en produccin del sistema, consiguieron encontrar el origen de las desviaciones y tomar las acciones oportunas para enderezar la trayectoria operativa de la empresa. Por otro lado, y como efecto colateral estrechamente relacionado, el sistema ha permitido analizar el impacto en las ventas de cada una de sus campaas publicitarias. Basndose la informacin contenida en sus propias bases de datos, la cooperativa ha conseguido desde entonces adaptar su publicidad para incrementar en un 8% su cuota de mercado.

Operador de telecomunicaciones Este ejemplo hace referencia a uno de los mayores operadores de telecomunicacin del mundo, con ms de 91 millones de clientes en 220 pases de los cinco continentes. Esta organizacin cuenta con 190.000 empleados y ofrece una gama completa de servicios de telecomunicaciones: telefona local, internacional y mvil; internet y multimedia; transporte de datos; y difusin de TV por cable. En los ltimos aos, la empresa ha venido utilizando los sistemas informticos como un arma estratgica fundamental en la batalla entre operadores de telecomunicaciones. El objetivo de una de sus principales iniciativas ha sido reducir las inconsistencias en los datos y compartir la informacin de manera ms eficaz entre las diferentes reas de negocio, implementando en toda la organizacin estndares en el campo del software de gestin.

Peluquera local Una peluquera de Santiago de Compostela llevaba dos aos abierta al pblico. Durante todo ese tiempo, las dueas, dos chicas jvenes y emprendedoras, haban trabajado todos los das de la semana (a excepcin, naturalmente, de los domingos) para sacar adelante su negocio.

Al haber estabilizado su cartera de clientes decidieron descansar un da ms a la semana. Su primera opcin fue cerrar los lunes, como las dems peluqueras de la zona. No obstante, decidieron basar su decisin en la informacin histrica que haban recogido en su pequea aplicacin de citas. Los resultados obtenidos fueron contudentes, ya que el lunes result ser el cuarto da ms rentable de la semana (probablemente como consecuencia del cierre de la competencia). Finalmente el da elegido para descansar fue el martes.

Cmo saber si su empresa necesita una solucin BI?


Recuerde que el objetivo del Business Intelligence es colocar todos los datos al alcance de toda la empresa, proporcionando las herramientas para extraerlos de las aplicaciones, conferirles un formato estndar, y posteriormente almacenarlos en un repositorio optimizado para una entrega de la informacin rpida y resumida que haga posible un anlisis muy detallado. Para realizar un diagnstico instantneo de su empresa, slo tiene que responder al siguiente cuestionario: Est seguro de qu productos y clientes son los ms importantes para su empresa?
S No N/a

Tiene problemas para crear una visin clara de toda su organizacin?


S No N/a

Sabe si est perdiendo cuota de mercado con respecto a su competencia?


S No N/a

Ha
S

perdido
No

oportunidades
N/a

de

negocio

por

recibir

informacin

atrasada?

Dedica
S No

horas
N/a

extras

analizar

documentos

informes?

Tiene
S

informes
No

de
N/a

varios

sistemas

operacionales

que

no

concuerdan?

Dispone de alguna ventaja competitiva clara con respecto a las dems empresas de su sector?
S No N/a

Sabe con certeza si su gente est alcanzando los objetivos planificados?


S No N/a

Si al menos la mitad de las respuestas han sido afirmativas, su empresa puede encontrar importantes beneficios al implantar un sistema de Business Intelligence. En caso contrario, puede consultar aqu los motivos por los que quiz llegue a interesarle en un futuro.

Razones por las que invertir en Business Intelligence Segn un artculo de Gartner Research, la falta de conocimiento es la mayor amenaza para las empresas modernas. Para ello, apuntan, el objetivo del Business Intelligence es eliminar las conjeturas y la ignorancia en los ambientes empresariales, aprovechando los vastos volmenes de datos cuantitativos que las empresas recolectan todos los das en sus diversas aplicaciones corporativas. BI como solucin tecnolgica Centralizar, depurar y afianzar los datos. Las tecnologas de BI permiten reunir, normalizar y centralizar toda la informacin de la empresa, mediante un almacn de datos, permitiendo as su explotacin sin esfuerzo. De esta forma, los departamentos comercial, operativo y financiero basan las decisiones estratgicas en la misma informacin. Descubrir informacin no evidente para las aplicaciones actuales. En el da a da de las aplicaciones de gestin se pueden esconder pautas de comportamiento, tendencias, evoluciones del mercado, cambios en el consumo o en la produccin, que resulta prcticamente imposible reconocer sin el software adecuado. Es lo que se puede calificar como extraer informacin de los datos, y conocimiento de la informacin. Optimizar el rendimiento de los sistemas. Las plataformas de BI se disean para perfeccionar al mximo las consultas de alto nivel, realizando las transformaciones oportunas a cada sistema (OLTP - OLAP), y liberando los servidores operacionales.

BI como ventaja competitiva Seguimiento real del plan estratgico. Si su empresa dispone de plan estratgico, el business intelligence le permite, mediante un cuadro de mando, crear, manejar y monitorizar las mtricas y los objetivos estratgicos propuestos en ese plan, para poder detectar a tiempo las desviaciones, adoptando las acciones oportunas para corregirlas. Aprender de errores pasados. Al historizar los datos relevantes, una aplicacin de BI permite que una empresa aprenda de su historia y de sus mejores prcticas, y que pueda evitar tropezarse de nuevo con los mismos errores del pasado. Mejorar la competitividad. Segn la consultora internacional Gartner, 7 de cada 10 compaas realizan anlisis sobre sus datos de forma diaria, o incluso instantnea, en el 2.006. Este mecanismo les permite maximizar su rentabilidad. La acuciante tendencia a explotar la informacin marca cada vez ms la diferencia en los sectores. Obtener el verdadero valor de las aplicaciones de gestin. Durante los ltimos aos, las empresas se han embarcado en la construccin de estas aplicaciones clave para sus negocios. Sin embargo, no siempre han sabido aprovechar todo el potencial que les pueden proporcionar: cuentas de resultados, cash-flow, etc Con el business intelligence, todos los

empleados, desde el director general hasta el ltimo analista, tienen acceso a informacin adecuada, integrada y actualizada Obtencin de patrones y reglas en el proceso acadmico de la Universidad de las Ciencias informticas utilizando tcnicas de minera de datos RESUMEN A partir de la aplicacin de un grupo de tcnicas de Minera de Datos como el clustering, los rboles de decisin y algoritmos de aprendizaje inductivo, se pretende clasificar a los estudiantes de acuerdo a su rendimiento acadmico, para posteriormente encontrar patrones ocultos y reglas que los caractericen; basado en las relaciones que se establecen entre el centro de procedencia de los estudiantes, nivel de escolaridad de los padres y provincia de origen con sus resultados acadmicos en el primer curso en la universidad. Estos resultados pueden mejorar el proceso de formacin acadmica y elevar la calidad de la educacin en la Universidad de las Ciencias Informticas (UCI). Palabras claves: Calidad del proceso docente, Descubrimiento de Conocimientos en Bases de Datos, Minera de Datos. ABSTRACT This investigation intends to classify the students of the University of Informatics Sciences according to their academic behaviour using a set of Data Mining techniques like clustering, decision trees and inductive learning algorithms. The main goal of this work is to find hidden patterns and rules that define this behaviour, based on the relationship established between the scholarship level of the students parents, and their academic origins with their grades in the first year of their career. These results can help to improve the quality of the academic process in the UCI. Key words: Quality of the academic process, Knowledge Discovery in Databases, Data Mining INTRODUCCIN La Universidad de las Ciencias Informticas (UCI) cuenta desde el curso escolar 2006-2007 con una matrcula de alrededor de 10 000 estudiantes procedentes de todas las provincias y municipios del pas, con los ms diversos orgenes sociales y acadmicos; sin que, hasta el momento, se hayan realizado estudios que evalen la influencia de estos factores en su formacin posterior. Por lo que estos factores no son tomados en cuenta a la hora de realizar el proceso de captacin de los estudiantes de nuevo ingreso a la universidad, ni de brindarles a los ya matriculados el seguimiento necesario, lo que puede conducirlos en condiciones extremas a causar baja del centro. Mientras que en otros casos se dejan de identificar a los alumnos con mayor potencial, que pudieran formar parte de proyectos o grupos de investigacin, o simplemente armar al claustro de profesores con la informacin conveniente para que puedan brindarle atencin diferenciada a sus estudiantes en aras de fomentar el pleno desarrollo de sus capacidades y dndole as cumplimiento al objetivo primordial de la Universidad, que es el de formar profesionales de la informtica cada vez mejor preparados.

Toda la informacin personal y docente de los estudiantes, desde hace cinco aos se encuentra digitalizada y se mantiene en histricos que no brindan mayor utilidad que la de los reportes tradicionales. Es por esto que en la Universidad se hace necesario contar con mtodos eficientes y automticos para explorar las grandes Bases de Datos, procesando de forma rpida y fiable la informacin para encontrar patrones de conocimiento apropiados para resolver un problema. Es por esto que el objetivo fundamental de este trabajo est orientado a determinar el vnculo que existe entre el origen y procedencia social de los estudiantes de la UCI con sus resultados acadmicos mediante la aplicacin de tcnicas de agrupacin y reglas de asociacin de Minera de Datos. 1. La Minera de Datos y el Descubrimiento de Conocimiento en Bases de Datos. La Minera de Datos (DM) por las siglas en ingls Data Mining es el proceso de extraer conocimiento til y comprensible, previamente desconocido, desde grandes cantidades de datos almacenados en distintos formatos [1]. Las herramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo en los negocios la toma de decisiones. Existen trminos que se utilizan frecuentemente como sinnimos de la minera de datos. Uno de ellos se conoce como "anlisis (inteligente) de datos" [2], que suele hacer un mayor hincapi en las tcnicas de anlisis estadstico. Otro trmino muy utilizado, y el mas relacionado con la minera de datos, es la extraccin o "descubrirniento de conocimiento en bases de datos" (Knowledge Discovery in Databases o KDD, segn sus siglas en ingls). [3] Aunque algunos autores usan los trminos Minera de Datos y KDD indistintamente, como sinnimos, existen claras diferencias entre los dos. As la mayora de los autores coinciden en referirse al KDD como un proceso que consta de un conjunto de fases, una de las cuales es la minera de datos. [2] De acuerdo con esto, el proceso de minera de datos consiste nicamente en la aplicacin de un algoritmo para extraer patrones de datos y se llamar KDD al proceso completo que incluye pre-procesamiento, minera y post-procesamiento de los datos. El KDD segn [4] es la extraccin automatizada de conocimiento o patrones interesantes, no triviales, implcitos, previamente desconocidos, potencialmente tiles y predictivos de la informacin de grandes Bases de Datos. La figura 1 muestra las fases del proceso de KDD, una de las cuales es la Minera de Datos

Figura 1: Fases del proceso KDD

Las investigaciones en temas de KDD incluyen anlisis estadstico, tcnicas de representacin del conocimiento y visualizacin de datos, entre otras. Algunas de las tareas ms frecuentes en procesos de KDD son la clasificacin y clustering, el reconocimiento de patrones, las predicciones y la deteccin de dependencias o relaciones entre los datos.

1.1 Proyectos en Minera de Datos Los pasos a seguir para la realizacin de un proyecto de minera de datos son siempre los mismos, independientemente de la tcnica especfica de extraccin de conocimiento usada.

Figura 2: Fases dentro de un proceso de Minera de Datos El proceso de minera de datos pasa por las siguientes fases: Comprensin del negocio y del problema que se quiere resolver. El formato de los datos contenidos en la fuente de datos nunca es el correcto, y la mayora de las veces no es posible ni siquiera utilizar algn algoritmo de minera sobre los datos iniciales sin que requieran alguna transformacin. En este paso se filtran los datos con el objetivo de eliminar valores incorrectos, no vlidos o desconocidos; segn las necesidades y el algoritmo a utilizar. Adems se obtienen muestras de los datos en busca de mayor velocidad y eficiencia de los algoritmos, o se reducen el nmero de valores posibles para los atributos de anlisis. Filtrado de datos: Seleccin de variables: Despus de realizar la limpieza de los datos, en la mayora de los casos se tiene una gran cantidad de variables o atributos. La seleccin de caractersticas reduce el tamao de los datos, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minera; seleccionando las variables ms influyentes en el problema. Los mtodos para la seleccin de los atributos que ms influencia tienen en el problema son bsicamente dos: Aquellos basados en la eleccin de los mejores atributos del problema. Aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heursticos. Extraccin de Conocimiento

La extraccin del conocimiento es la esencia de la Minera de Datos donde mediante una tcnica, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores de las variables del problema o relaciones de asociacin entre dichas variables. Los modelos que se generan son expresados de diversas formas: reglas rboles redes neuronales Tambin pueden usarse varias tcnicas a la vez para generar distintos modelos, aunque generalmente cada tcnica obliga a un pre-procesado diferente de los datos. Interpretacin y Evaluacin Una vez obtenido el modelo, se procede a su validacin; donde se comprueba que las conclusiones que arroja son vlidas y suficientemente satisfactorias. En el caso de haber obtenido varios modelos mediante el uso de distintas tcnicas, se deben comparar los modelos para buscar el que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos. 2. Herramientas para la minera de Datos. SQL Server 2005. Microsoft SQL Server 2005 incorpora la herramienta SQL Analysis Server estableciendo nuevas facilidades para realizar Minera de Datos, entre las que se cuentan: El procesamiento de los modelos de una misma estructura de minera ocurre en paralelo, en una sola lectura de los datos. Proporciona ms de 12 visores de resultados para los algoritmos que ayudarn a comprender mejor los patrones encontrados en el proceso de minera. Proporciona grficos de elevacin, de beneficios y una matriz de clasificacin que permite establecer una comparacin de lo real con lo previsto; para contrastar y comparar la calidad de los modelos. Posee un lenguaje para la creacin de consultas de minera (DMX) similar al SQL que facilita la tarea de creacin de aplicaciones de minera de datos. Posee una interfaz grfica para generar las consultas DMX. Cuenta con los algoritmos de minera ms avanzados: Naive Bayes, Clustering, Clsteres de Secuencia, rboles de Decisin, Redes Neuronales, Series Temporales, Reglas de Asociacin, Regresin Logstica, y Regresin Lineal y minera de textos. Marco de desarrollo para agregar nuevos algoritmos y tambin para construir visores propios para los modelos generados. [5] [6] [7] [8] [9] [10]. 3. Metodologas de desarrollo para proyectos de Minera de Datos. CRISP-DM.

La metodologa CRISP-DM [11] consiste en un conjunto de tareas descritas en cuatro niveles de abstraccin: fase, tarea genrica, tarea especializada, e instancia de proceso, organizados de forma jerrquica en tareas que van desde el nivel ms general hasta los casos ms especficos. Fase: Se le denomina fase al asunto o paso dentro del proceso.CRISP-DM consta de 6 fases: comprensin del negocio, comprensin de los datos, preparacin de los datos, modelacin, evaluacin y explotacin. Tarea genrica: Cada fase esta formada por tareas genricas, o sea, la tarea genrica es la descripcin de las actividades que se realizan dentro de cada fase. Por ejemplo, la tarea Limpiar los datos es una tarea genrica. Tarea especializada: La tarea especializada describe cmo se pueden llevar a cabo las tareas genricas en situaciones especficas. Por ejemplo, la tarea Limpiar los datos tiene tareas especializadas, como limpiar valores numricos, y limpiar valores categricos. Instancias de proceso: Las instancias de proceso son las acciones y resultados de las actividades realizadas dentro de cada fase del proyecto. Las fases del proyecto de Minera de acuerdo a lo establecido por la metodologa CRISP-DM interactan entre ellas de forma iterativa durante el desarrollo del proyecto. La secuencia de las fases no siempre es ordenada, o en ocasiones si se determina al realizar la evaluacin que los objetivos del negocio no se cumplieron se debe regresar y buscar las causas del problema para redefinirlo. 4. Resultados del Caso de Estudio. El caso de estudio seleccionado para realizar el proyecto de KDD se refiere a la prediccin de las notas de las asignaturas del primer ao de los estudiantes de la UCI basado en las relaciones que se establecen entre el nivel de escolaridad de los padres, tipo de centro de procedencia, provincia y resultados acadmicos. Los datos seleccionados para realizar el proyecto de Minera de Datos corresponden a la informacin personal y calificaciones en las asignaturas del primer curso escolar de los estudiantes de la UCI que actualmente cursan el segundo, tercero, cuarto y quinto ao. Se utiliza la informacin del primer curso escolar ya que los estudiantes de primer ao reciben mayor influencia de las variables a analizar como entradas para las predicciones. Se utiliza una muestra aleatoria representativa del 90% de los datos para realizar el proyecto de KDD. El proyecto fue desarrollado por siguiendo los lineamientos de la metodologa CRISP-DM. La UCI dispone de un Sistema Automatizado para la gestin acadmica de los estudiantes (AKADEMOS). En el mismo se almacena informacin personal y resultados acadmicos de los estudiantes en las diferentes asignaturas. El sistema brinda la utilidad de los reportes tradicionales que permiten obtener informacin de los estudiantes que han matriculado en la universidad.

AKADEMOS es un sistema informtico en el cual todos los involucrados (directivos, personal de secretara, profesores y estudiantes) tienen un papel activo en el proceso de gestin acadmica. A partir de la informacin que brinda este sistema y con los test evaluativos que se realizan a los estudiantes antes de matricular en la universidad, en la UCI; especficamente en el Centro de Investigaciones por la Calidad de la Educacin (CICE), se est desarrollando el proyecto "Perfeccionamiento del proceso de seleccin para nuevos ingresos al curso regular de la Universidad de Ciencias Informticas". Despus de realizar entrevistas a usuarios, personal de la Direccin de Informatizacin de la UCI y de la Direccin del Centro de Investigacin por la Calidad de la Educacin (CICE) en la Universidad de las Ciencias Informticas; se defini el siguiente caso de estudio a realizar en el proyecto de KDD: Predecir las notas de las asignaturas del primer ao de los estudiantes de la UCI basado en las relaciones que se establecen entre el nivel de escolaridad de los padres, tipo de centro de procedencia, provincia y resultados acadmicos. Comprensin del negocio. Los datos utilizados pertenecen al perodo del 2001 hasta el 2006, especficamente a la informacin personal y acadmica de los estudiantes que eran matrcula de la UCI en esta etapa; tomando de estos la informacin histrica en su primer ao en la universidad. La Base de Datos se encontraba en un servidor SQL Server 2000, por lo que fue necesario importarla para un servidor SQL Server 2005, en orden de poder utilizar las facilidades que brinda esta herramienta para la Minera de Datos. Para decidir que datos utilizar se realiz un estudio conjunto entre especialistas y desarrolladores; donde se analiz el contenido y la complejidad de la Base de Datos, de las tablas implicadas y sus relaciones; as como el tipo de datos de los atributos, sus posibles valores, significado en el negocio y relevancia dentro del mismo; adems se comprobaron los atributos de entradas libres y si existan llaves repetidas. Slo se tomaron en cuenta los resultados acadmicos del primer curso escolar; pues sobre estas existe mayor influencia de las variables centro de procedencia, provincia y nivel de escolaridad de los padres. Debido a los lmites de la investigacin no se seleccionaron todas las asignaturas de primer ao, sino aquellas que se consideraron ms relevantes, Matemtica Discreta, Introduccin a la Programacin, Programacin I, Matemtica I y Algebra Lineal. Los atributos ms importantes para el proyecto de Minera fueron analizados en el diseador de vistas de origen de datos de Business Intelligence Development Studio y el editor de consultas del Management Studio. Con estas herramientas se estudiaron los atributos, sus valores y el comportamiento de los mismos. Se realiz una bsqueda de los posibles valores de los atributos, a partir de la fuente de datos con las herramientas de Microsoft Office Web Components, con el objetivo de encontrar valores incorrectos que pudieran traer problemas en las predicciones, adems para analizar cuales atributos podran requerir discretizacin.

Comprensin de los datos. Toda la informacin necesaria para realizar la investigacin se encuentra en la Base de Datos AKADEMOS por lo que no fue necesario integrar varios orgenes de datos. Los atributos seleccionados para realizar el proyecto de Minera correspondiente a los datos personales de los estudiantes se encontraban en varias vistas dentro de la Base de Datos. Con el objetivo de asociar en una sola tabla los datos personales de los estudiantes; en el Integration Services utilizando el componente Union Alll se obtuvo la tabla Datos Histricos a partir de las 4 vistas Hoja de matricula_108_e, Hoja de matricula_110_e, Hoja de matricula_112_e y Hoja de matricula_114_e donde se encuentra la informacin de los estudiantes matriculados en la Universidad en el perodo comprendido entre los aos 2001 al 2006; como se observa en la figura 3.

Figura 3: Unin de los datos personales de los estudiantes. A partir de la tabla que contiene las asignaturas pivoteadas y de la tabla donde se encuentran los datos personales de los estudiantes; se obtiene una nueva vista (Notas Datos) donde se asocia la informacin perteneciente a los mismos objetos. Referente a los casos sobre los que se trabaja, los mismos fueron seleccionados de la tabla que contiene toda la informacin personal y acadmica de los estudiantes (Notas_Datos), utilizando el componente Percentage Sampling del SQL Server Integration Services (SSIS), en el proyecto se seleccion el 90% de los datos. Preparacin de los datos. Modelacin Para la realizacin de este paso se utilizaron las tcnicas de Minera de Datos del SQL Server 2005, utilizando la herramienta SQL Server Business Intelligence Development Studio, especficamente SQL Server Analysis Services (SSAS). A continuacin se muestran las tcnicas y visores a utilizar por cada objetivo de la Minera. Objetivo de Minera Tcnica

1. Realizar una segmentacin adecuada de los Algoritmo de clustering de Microsoft estudiantes, tomando como columnas de Visor de clsteres de Microsoft entrada la provincia, nivel de escolaridad de los padres, centro de procedencia y las notas Diagrama del clster de las asignaturas del primer ao de la carrera. Perfiles del clster 2. Analizar los clsteres obtenidos de acuerdo Caractersticas del clster a las notas que predominan en cada grupo; como paso analtico para el prximo objetivo. Distincin del clster . 3. Obtener reglas que permitan descubrir la influencia que tiene la provincia, nivel de escolaridad de los padres y centro de procedencia de los estudiantes en sus resultados acadmicos; y permitan predecir la nota final en cada asignatura analizada. Algoritmo de rboles de Decisin de Microsoft Visor de rboles de decisin de Microsoft. Red de dependencia Grfico de elevacin Matriz de Clasificacin Tabla 1: Tcnicas y visores a aplicar por objetivos de la minera. Diseo de pruebas. El diseo de las pruebas sobre los datos se realiz utilizando la herramienta SQL Server Integration Services, empleando la tcnica de validacin cruzada. SQL Server Integration Services tiene componentes que permiten obtener muestras aleatorias representativas segn un porciento de los datos o segn determinada cantidad de filas, estos componentes son el Percentage Sampling y Row Sampling y proporcionan, adems otros componentes para unir varias muestras desde diversos orgenes o fuentes de datos, realizar consultas SQL y guardar los resultados obtenidos en diversos destinos. Utilizando estos componentes se realizaron los diseos de casos de prueba segn la tcnica de Validacin Cruzada; la cual consiste en dividir los datos en 10 grupos o muestras y realizar 10 corridas o iteraciones donde en cada una se combinan 9 muestras para obtener una muestra de experimento y se deja una como muestra de prueba. De esta forma todas las muestras son utilizadas como experimento y como prueba. Al final se selecciona el experimento sobre el cual se realicen mejores predicciones, o sea donde el error sea menor. En la siguiente figura se muestra el flujo de control del paquete de pruebas del Integration Services, utilizando validacin cruzada.

Figura 5: Flujo de Control del paquete de pruebas utilizando validacin cruzada Valoracin del modelo rboles Prediccin Nota en el Experimento #3 A partir de los resultados obtenidos por los modelos que se explican en la fase de Evaluacin; la prediccin logr resolver con xito los siguientes por cientos de los casos de entrada segn las asignaturas y notas: En la asignatura Algebra Lineal se resuelven con xito el 26% de los casos donde la nota es 5 con probabilidad de 0.76; el 40% donde la nota es 4 con probabilidad entre 0.74 y 0.96; el 28% para la nota de 3 con probabilidad mayor que 0.75; y el 4% para la nota 2 con probabilidad de 0.50. En la asignatura Introduccin a la Programacin se resuelven con xito el 35% de los casos donde la nota es 5 con probabilidad de 0.78; el 22% donde la nota es 4 con probabilidad de 0.60; el 37% para la nota de 3 con probabilidad mayor que 0.72 y el 13% para la nota 2 con probabilidad entre 0.52 y 0.82. En la asignatura Matemtica Discreta se resuelven con xito el 21% de los casos donde la nota es 5 con probabilidad mayor que 0.72; el 38% donde la nota es 4 con probabilidad entre 0.65 y 0.73; el 37% para la nota de 3 con probabilidad entre 0.85 y 0.95 y el 4% para la nota 2 con probabilidad de 0.31.

En la asignatura Matemtica I se resuelven con xito el 18% de los casos donde la nota es 5 con probabilidad de 0.67; el 31% donde la nota es 4 con probabilidad de 0.53; el 46% para la nota de 3 con probabilidad entre 0.85 y 0.93 y el 14% para la nota 2 con probabilidad de 0.65. En la asignatura Programacin I se resuelven con xito el 21% de los casos donde la nota es 5 con probabilidad entre 0.68 y 0.93; el 24% donde la nota es 4 con probabilidad entre 0.72 y 0.87; el 50% para la nota de 3 con probabilidad de 0.87 y el 9% para la nota 2 con probabilidad mayor que 0.43. La prediccin es altamente efectiva, las probabilidades son altas en la mayora de los casos. Evaluacin En esta fase se evala el modelo escogido, no desde el punto de vista general, sino del cumplimiento de los objetivos del negocio. Se debe revisar el proceso teniendo en cuenta los resultados obtenidos, para repetir alguna fase en caso que se hayan cometido errores. Si el modelo generado es vlido en funcin de los criterios de xito establecidos en la primera fase y de la precisin del mismo, se procede al despliegue de ste en caso de requerirse. Se mostrarn a continuacin algunas de las reglas obtenidas, a partir de los modelos de rboles de decisin generados para cada asignatura por nota. Algebra Lineal Nota 5 Reglas TC_De Procedencia <> 'DEPORTE' TC_De Procedencia = 'DEPORTE' 4 Provincia = Pinar del Ro Provincia <> Pinar del Ro Provincia <> Pinar del Ro y NE del Padre <> Tcnico medio Provincia <> Pinar del Ro y NE del Padre = Tcnico medio 3 NE_Del Padre = 'Preuniversitario' NE_Del Padre <> 'Preuniversitario' Prob 0.76 0.52 0.96 0.77 0.74 0.89 0.93 0.75

NE_Del Padre <> 'Preuniversitario' y NE_De La Madre <> 'Secundaria' 0.73 NE_Del Padre <> 'Preuniversitario' y NE_De La Madre = 'Secundaria' 2 No tiene influencia ninguno de los factores analizados sobre la nota 0.79 0.50

Tabla 2: Reglas obtenidas para la asignatura Algebra Lineal

Programacin I Nota 5 Reglas TC_De Procedencia = 'DEPORTE' TC_De Procedencia <> 'DEPORTE' TC_De Procedencia <> 'DEPORTE' y NE_Del Padre <> 'Ninguno Terminado' y Provincia = 'Holgun' TC_De Procedencia <> 'DEPORTE' y NE_Del Padre <> 'Ninguno Terminado' y Provincia <> 'Holgun' 4 T C_De Procedencia = 'IPUEC' T C_De Procedencia <> 'IPUEC' T C_De Procedencia <> DEPORTE' T C_De Procedencia = DEPORTE' 3 2 No tiene influencia ninguno de los factores analizados sobre la nota T C_De Procedencia = IPUEC T C_De Procedencia <> IPUEC Tabla 3: Reglas obtenidas para la asignatura Programacin I Introduccin a la Programacin Nota 5 4 3 Reglas Prob 0.87 0.72 0.72 0.48 0.84 0.53 Prob 0.93 0.68 0.69 0.68

No tiene influencia ninguno de los factores analizados sobre la nota 0.78 No tiene influencia ninguno de los factores analizados sobre la nota 0.60 Provincia = 'Ciego de Avila' Provincia <> 'Ciego de Avila' 0.72 0.78 0.52 0.82 0.52

TC_De Procedencia <> IPUEC TC_De Procedencia = IPUEC y NE_De la madre <> Universitario TC_De Procedencia = IPUEC and NE_De la madre = Universitario

Tabla 4: Reglas obtenidas para la asignatura Introduccin a la programacin.

Al analizar los resultados obtenidos se comprob que las variables que ms influyen sobre los resultados acadmicos de los estudiantes en su primer curso en la Universidad; es el tipo de centro de procedencia y la provincia de origen Resumen de evaluacin de los resultados A continuacin se muestra una tabla con el por ciento estimado de cumplimiento del objetivo del negocio basado en los criterios de xito. Criterios de xito del negocio Obtener un modelo de conocimiento y comprobar que las conclusiones obtenidas son vlidas o tiles Cumplimiento estimado 100%

Desarrollar el caso de estudio utilizando las herramientas de 100% SQL Server 2005 para minera de datos Realizar un proyecto de KDD guiado por la metodologa CRISP-DM y la documentacin de cada una da las fases Interpretar los resultados de la relacin que existe entre la procedencia social o acadmica de los estudiantes y sus resultados acadmicos actuales 100%

100%

Tabla 5: Estimado de cumplimiento de los criterios de xito del negocio. Se estima que fue cumplido el objetivo del negocio correspondiente al descubrimiento de patrones ocultos en los datos; que permitan predecir los resultados acadmicos de los estudiantes de la UCI, basado en las relaciones que se establecen entre Centro de Procedencia Provincia Nivel de escolaridad de los padres, con las Notas de las asignaturas recibidas en el primer ao de la carrera. Despliegue Los modelos y reglas obtenidas podrn ser utilizados por el Centro de Investigaciones por la Calidad de la Educacin (CICE), por la Direccin de Formacin Acadmica y en otras investigaciones sobre los resultados acadmicos de los estudiantes de la UCI. Con las relaciones y patrones encontrados se podrn trazar estrategias que permitan elevar la formacin docente de los nuevos ingresos a la Universidad, de acuerdo a las caractersticas propias de los estudiantes. CONCLUSIONES Con la realizacin del presente trabajo se desarroll un proyecto de minera de datos guiado por la metodologa CRISP-DM, para determinar la relacin que existente entre la procedencia del origen social y los resultados acadmicos en los estudiantes de la UCI. Se construyeron, entrenaron y evaluaron los modelos de Clustering o agrupamiento y de rboles de Decisin para obtener las reglas y patrones ocultos en los datos. Se obtuvieron modelos de prediccin

precisos que logran reglas con alto valor de certeza y que permiten caracterizar los datos analizados y diseos de prueba eficientes para proceder con posteriores anlisis. RECOMENDACIONES Utilizar los resultados del proyecto en aplicaciones que permitan mejorar el proceso de formacin acadmica de los estudiantes. Continuar la investigacin a partir de los resultados obtenidos, siguiendo las orientaciones de la fase de Evaluacin, guiado por la metodologa CRISP-DM. Fomentar el desarrollo de proyectos de Descubrimiento de Conocimiento en Bases de Datos en la Universidad de las Ciencias Informticas REFERENCIAS [1] Ian H. Witten and Eibe Frank. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations. Morgan Kaufmann, 2000. [2] Berthold, M.; Hand, D.J. (eds.) Intelligent Data Analysis. An Introduction, Springer, 2ndEdition, 2003. [3] Orallo Hernndez, J.:Quintana Ramrez, Ma. J..:Ramrez Ferri, C.:Introduccin a la Minera de Datos. Prentice Hall, 2004 [4] Fayyad, U. M., Piatetsky-Shapiro, G., Smith, P., Uthurusamy R.: Advances in Knowledge Discovery and Data-Mining, AAAI Press / The MIT Press, 1996. [5] Crivat, B.: SQL Server Data Mining Programmability. . URL: . Fecha de Acceso: Dic 12, 2006. [6] Iyer, Raman and Crivat, Bogdan SQL Server Data Mining: Plug-In Algorithms. . Fecha de Acceso: Dic 13, 2006 URL: http://msdn.microsoft.com/sql/bi/dmining/default.aspx?pull=/library/enus/dnsql90/html/ssdmpia.asp. [7] MacLennan, J.: Unearth the New Data Mining Features of Analysis Services 2005.; development lead for the Data Mining engine in the SQL Server 2005. MSDN Magazine, September 2004. URL: http://msdn.microsoft.com/msdnmag/issues/04/09/AnalysisServices2005/. Fecha de Acceso: Dic 13, 2006. [8] Netz, A.; SQL Server 2000: Data Mining Helps Customers Make Better Business Decisions. Interviewed Netz, Amir; Microsoft SQL Server Development Manager. URL: http://www.microsoft.com/presspass/features/2000/04-24sql.mspx. Fecha de Acceso: Dic 15, 2006.

[9] Tang, L. and Bradley, P...AMO Lets You Dig Deeper into Your Data from Your Own Applications, MSDN Magazine, June 2005. URL: http://msdn.microsoft.com/sql/bi/dmining/default.aspx?pull=/msdnmag/issues/05/06/am o/toc.asp. Fecha de Acceso: Dic 15, 2006. [10]. Tang, Z., MacLennan J.: Data Mining with SQL Server, ISBN-10: 0-471-46261-6. [11] Chapman, P.: Clinton, J.: Kerber, R.: Khabaza, T.: Reinartz, T.: Shearer, C.: Wirth, R.: CRISPDM 1.0 Step-by-step data mining guide, 1999.

AUTORES Ernesto Gonzlez Daz1, Zady Prez Hernndez 2, Ivet Espinosa Conde 3 1 CEIS. Master en Ciencias. 2 CEIS, Ingeniero en Informtica, 3 CEIS, Ingeniero en Informtica,

Partes: 1, 2

Pgina anterior Comentarios

Volver al principio del trabajo

Pgina siguiente

El comentario ha sido publicado.

Para dejar un comentario, regstrese gratis o si ya est registrado, inicie sesin. Principio del formulario

Agregar un comentario

Enviar comentario

Los comentarios estn sujetos a los Trminos y Condiciones Final del formulario

Trabajos relacionados Actividades en la planeacin de sistemas de informacin. Hallazgos de los hechos. Herramientas para documentar procesos y decisiones. rboles de decisin. Tablas de decisin. Es... Computadores Cunticos A lo largo del ltimo medio siglo, las computadoras han ido duplicando su velocidad cada dos aos, al tiempo que el tama... Comunicacin de datos Aplicaciones de las comunicaciones de datos en los negocios. Intercambio electrnico de datos (EDI). Hardware para el so... Ver mas trabajos de General Un ejemplo prctico que se convirti en leyenda urbana En muchos cursos sobre minera de datos se cuenta una bonita historia sobre una gran cadena estadounidense de supermercados, Wal-Mart, que realiz a finales de los aos 90 un anlisis de los hbitos de compra de sus clientes. Sorprendentemente, descubrieron una correlacin estadsticamente significativa entre las compras de paales y cerveza: los viernes por la tarde, los hombres entre 25 y 35 aos que compraban cerveza tambin compraban paales. Despus de un anlisis detallado, este resultado se explica de forma bastante curiosa. Como los paales son bastante voluminosos, las mujeres habitualmente mandaban a sus maridos a comprarlos. Los maridos y padres, jvenes entre 25 y 35 aos (rango medio de edad para tener nios tan pequeos), solan ir a la compra los viernes, algo reticentes, en el ltimo momento posible. Estos pobres padres, con una vida social no demasiado boyante, a la vez que compraban paales para sus bebs, aprovechaban para comprar cerveza, ya que no podran salir a tomarlas al pub.

Tambin se cuenta que Wal-Mart utiliz este resultado para reubicar estos productos en lugares estratgicamente dispuestos: pusieron la cerveza cerca de los paales. El resultado fue que los padres que habitualmente compraban cerveza despus compraron todava ms, al estar tan cmodamente situada. Adems, los que antes no compraban cerveza, empezaron a hacerlo al estar tan a mano, justo al lado a los paales. As, las ventas de cerveza tuvieron un aumento espectacular. Este es un buen ejemplo de los beneficios que puede aportar la Minera de Datos y, en particular, el anlisis de la cesta de la compra (market basket analysis) (*ver abajo). El problema es que esta historia existe en diferentes versiones, a veces se habla de 7 Eleven en vez de Wal-Mart, otras veces se adorna con datos especficos de porcentajes de incremento de ventas... Adems no se conoce quines pudieron realizar esos estudios y, de hecho, no existe documentacin especfica de ningn proyecto en esta lnea en ninguna de las dos organizaciones. Por todo ello, no hay ms remedio que pensar que se trata de una leyenda urbana, un bonito mito del mundo de la minera de datos. Ejemplo ilustrado del anlisis de la cesta de la compra Supongamos el siguiente ejemplo: 800.000 clientes 40.000 compraron paales (5%) 60.000 compraron cerveza (7,5%) 16.000 compraron paales y cerveza (2%) El soporte es el porcentaje del total de transacciones que incluyen un determinado producto. En este ejemplo, la compra de paales tiene un soporte del 5%. La confianza mide hasta qu punto un producto depende del otro: 16.000 de los 40.000 clientes que compraron paales tambin compraron cerveza (40%) Por tanto, la regla de asociacin paales>cerveza tendra un soporte del 5% y una confianza del 40%. Tambin se puede leer de otra forma: el 5% de los clientes compraron paales; de ellos, el 40% adems compraron cerveza Las compras de paales son el antecedente de la regla (la parte izquierda) y las de cerveza, el consecuente (la parte derecha). Los valores del 5% y 7,5% de compras respectivamente con paales y con cerveza se denominan confianza esperada: proporcin de compras que incluyen un determinado producto, independientemente de los dems. Por ltimo, el lift (habitualmente sin traduccin al espaol, aunque sera algo parecido a mejora) mide la proporcin entre la confianza de una regla y la confianza esperada para el producto consecuente. En el ejemplo, la confianza de la regla paales>cerveza es un 40%, y la

confianza esperada de que un cliente cualquiera compre cerveza es un 7,5%, por tanto, el lift es 5,33 (40/7,5): los clientes que compran paales son 5,33 veces ms propensos a comprar cerveza (que quienes no los compran) El objetivo del anlisis de la cesta de la compra es encontrar asociaciones con un lift lo ms elevado posible, para maximizar el posible beneficio. Por supuesto, este mismo anlisis se puede extender a asociaciones de tres o ms productos. A dnde va todo este temario? SOF.I.A. Hace uso de la minera de datos para encontrar informacin en las conversaciones con los usuarios, en lo que lee de Internet, en las diferentes maneras en que se puede llegar a conjugar los verbos y la influencia que eso trae en cada texto que lee... Esto sumado a su capacidad de tener sentido comn la convierte en una herramienta que analiza constantemente todo lo que lee, dando como resultado que a veces diga o se exprese de manera irracional, pero es en parte a que requiere de grandes volumenes de datos para poder expresar una sola idea. No est por ms decir, que los humanos en nuestros primeros aos, hacemos lo mismo.