Modulomineriadedatosii2012u 130422150255 Phpapp02 PDF

1
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD

Escuela de Ciencias Bsicas Tecnologa e Ingeniera
Curso Minera de Datos

MODULO
MINERIA DE DATOS
COD 201170

JOSE MIGUEL HERRAN SUAREZ

UNIVERSIDAD NACIONAL ABIERTA YA DISTANCIA UNAD
PROGRAMA: INGENIERIA DE SISTEMAS
TUNJA. 2012

2


INDICE DE CONTENIDO

Contenido
INTRODUCCIN ........................................................................................................................................... 7
UNIDAD 1: MINERIA DE DATOS .................................................................................................................... 9
1.1. Capitulo I:Conceptos Fundamentales ............................................................................................... 9
Leccin 1: Caractersticas de Mineria de Datos. ................................................................................... 10
Artculo de Reflexin. La informacin digital crece a mas del doble cada ao........................................ 13
Leccion 2. Disponibilidad de Software .................................................................................................. 17
Leccion 3. Ejemplos de aplicaciones de la Minera de Datos. ............................................................... 21
Leccion 4. Objetivos de la Minera de Datos .......................................................................................... 22
Leccin 5. Minera de datos y la toma de decisiones. ............................................................................ 28
Actividad de cierre Capitulo I ................................................................................................................... 28
1.2. Capitulo II KDD. ............................................................................................................................. 30
Leccin 6. Proceso de Descubrimiento del Conocimiento en Bases de Datos ...................................... 30
Leccin 7. Diagrama del Proceso de KDD ............................................................................................... 32
Leccion. 8. Etapas de abordaje. .............................................................................................................. 34
Leccion 9. Desarrollo del proceso de KDD .............................................................................................. 36
Leccion 10. Evaluacin de Patrones ........................................................................................................ 44
Actividad cierre Capitulo II Caso de Estudio. ........................................................................................... 45
1.3 Capitulo III Reglas de Asociacin usadas en Minera de Datos............................................................. 49
Leccin 11. Identificacin de las reglas de asociacin. .......................................................................... 49
Leccion 12. Algoritmos para la busqueda de reglas asociadas. .......................................................... 54
Leccion 13.Jerarquias. ............................................................................................................................. 58
Leccion 13.Redes Bayesianas. ................................................................................................................. 61
Leccion 14. Arboles de Decision. (Repaso) ............................................................................................. 62
Leccion 15. AlgoritmoC.45 ...................................................................................................................... 64
Actividad de cierre Capitulo III ................................................................................................................. 66
UNIDAD II PROCESO DE MINERIA DE DATOS. ............................................................................................ 67
2.1. CapituloIV: El Modelo de CRISP DM. .................................................................................................. 67
Leccion 16. Generalidades ...................................................................................................................... 67
Leccion 17. Comprensin del Negocio. ................................................................................................... 69
Leccion 18. Comprensin de los datos. .................................................................................................. 70

3


Leccion 19. Modelado. ............................................................................................................................ 72
Leccion 20. Evaluacion e Implantacin. .................................................................................................. 73
Actividad de cierre Capitulo IV ................................................................................................................ 73
2.2 Capitulo V. Herramientas de Minera de Datos ...................................................................................... 75
Leccion 21. WEKA .................................................................................................................................... 75
Leccion. 22. IlliMine. ............................................................................................................................... 77
Leccion. 23 Rattle. ................................................................................................................................... 78
Leccion 24. Rapid Miner .......................................................................................................................... 78
Leccion. 25. Knime. ................................................................................................................................. 79
Actividad de Cierre Capitulo V. ................................................................................................................ 80
2.3. Capitulo VI Ambientes de Trabajo en Grid ............................................................................................ 80
Leccion 26. Grid WEKA ............................................................................................................................ 80
Leccion 27. Discovery Net ....................................................................................................................... 82
Leccion 28. Componentes de un Modelo GridMiner ............................................................................. 84
Leccin 29. Mineria de Datos y Almacenes de Datos en ODM. ............................................................. 86
Leccin 30. Oracle DataMinig (ODM) ..................................................................................................... 87
Actividad de Cierre Capitulo VI. ............................................................................................................... 88
UNIDAD III. Contexto de la Mienra de Datos ............................................................................................. 89
Capitulo VII. Causas de aplicacin de la Minera de Datos. ......................................................................... 89
Leccion 31. WEB Mining y Text Mining .................................................................................................. 90
Leccion 32.OLTP Y OLAP .......................................................................................................................... 95
Leccion 33. Bases de datos de transacion ............................................................................................ 96
Leccion 34. Arquitectura de los Almacenes de Datos ............................................................................ 99
Leccion 35. Explotacin de un Almacen de Datos. ............................................................................... 100
Actividad de cierre Capitulo VII ............................................................................................................. 108
Capitulo VIII. Otros tipos de DataMart ....................................................................................................... 109
Leccion 36. Rolap- Molap ...................................................................................................................... 109
Leccion 37. Almacen de Datos y Mineria de Datos ............................................................................. 112
Leccion 38. Exploracion y seleccion. El contexto de la vista minable. ................................................ 116
Leccion 39. Exploracin mediante visualizacin. ................................................................................. 126
Leccion 40. Visualizacin Multidimensional......................................................................................... 130
Actividad de cierre Capitulo VIII ............................................................................................................ 141
Capitulo 9: Tcnicas de Minera de Datos. ................................................................................................. 143
Leccion. 41. Redes Neuronales ............................................................................................................ 143
Leccion 42. Procesamiento analtico en linea .................................................................................... 151
Leccion 43. WEB Mining ........................................................................................................................ 154
Leccin 44. Disciplinas relacionadas ...................................................................................................... 161
Leccion 45. Mineria de Textos .............................................................................................................. 166
ANEXOS ................................................................................................................................................... 171
Oracle SQL Developer ................................................................................................................................. 171
Conectar Oracle SQL Developer con MySQL.......................................................................................... 172

4


Conectar Oracle SQL Developer con SQL Server y Sybase ..................................................................... 174
Servidor virtual con Pentaho configurado ............................................................................................. 175
La instalacin de Pentaho .......................................................................................................................... 176
Las herramientas de Virtualizacin ............................................................................................................ 178
VirtualBox .............................................................................................................................................. 178
VMware ................................................................................................................................................. 178
El Sistema Operativo .............................................................................................................................. 179
Oracle SQL Developer .............................................................................................................................. 180
Conectar Oracle SQL Developer con MySQL.......................................................................................... 182
Conectar Oracle SQL Developer con SQL Server y Sybase ..................................................................... 184
Conclusiones ............................................................................................................................................ 186
BIBLIOGRAFIA .......................................................................................................................................... 187

5


Listado de figuras

1. Figura 1. Anlisis de datos
2. Figura 2. Distinto Enfoque
3. Figura3. Olap y consultas deductivas dirigidos por hiptesis
4. Figura 4. Disponibilidad de software comercial.
5. Figura 5: Jerarqua del conocimiento.
6. Figura 6: Proceso de KDD
7. Figura 7.etapas en el proceso de KDD.
8. Figura 8. Ejemplos de imagenes de clulas con leucemia.
9. Figura 9. Ejemplo de cmo transformar una imagen de una clula a una
tabla.
10. Figura 10. La Minera de Datos y su relacin con otras reas de
conocimiento.
11. figura 11. Clasificacin de Leucemias agudas.
12. Figura 12. Taxonoma de una categora.
13. Figura 13. Insercin en la relacin de compras con una jerarqua.
14. figura 14. Contexto de bases de datos frente a data minimg.
15. figura 15. Explorador de weka.
16. figura 16. Grid weka, escenario de usos.
17. figura17. Componentes de discovery net.
18. figura 18. Componentes de gridminer.
19. Figura 19. Contexto de bases de datos frente a data minimg.
20. Figura 20 almacn de datos como integracin de diferentes fuentes de
datos.
21. Figura 21. Topologa de un clasificador Naive Bayes.

6


Listado de tablas

Tabla 1: Ejemplos de aplicaciones de la minera de datos.
Tabla 2. Fases de modelo crips-dm.
Tabla 3 Diferencia entre bases de datos transaccional y almacenes de datos
Tabla 4.Tabulacion de ventas con nombre_articuloy color
Tabla 5. Representacin relacional de los datos.
Tabla 6. Tabulacion cruzada de ventas con la jerarquia

7


INTRODUCCIN

Este modulo pretende y busca dar una visin general de lo que son las tcnicas de
anlisis de los datos y el proceso de Minera de Datos, basndose en una gran
recoleccin de informacin de variadas fuentes, paginas de internet, artculos
cientficos, foros de desarrollo y en especial en los libros (la gran mayora en
ingles) todos ellos citados para respetar la propiedad intelectual y brindar al
estudiante los conceptos y las tcnicas de la manera mas entendible; de manera
tal que al estudiar el modulo en la soledad de su propia disciplina logre adquirir los
conocimientos sin problemas y no provoce un desanimo ni una apata al area de
estudio, a la vez se debe tener en cuenta que cada semestre se actualizar el
modulo por lo tanto es importante bajarlo del repositorio para una mayor
concordancia con el curso en la plataforma. El tema que concierne es muy
complejo y hay mucha tela de donde cortar, por lo que se pretende sentar las
bases para una profundizacin en las diferentes areas de aplicacin, y a la vez se
recomienda hacer un repaso jucioso de las tematicas revisadas en Bases de
Datos, Anlisis y Diseo de Sistemas, Inteligencia Artificial (Redes Neuronales) y
Probabilidad.
Durante el desarrollo tecnolgico podemos ver como una de las herramientas que
han sido de gran utilidad dentro del campo del manejo de volmenes de
informacin la Mineria de Datos se ha venido abriendo campo en los diferentes
mbitos laborales como son las aplicaciones cientficas, de negocios y medios de
informacin gracias a ella se puede ver como esta interactuando y almacenando
datos en la mayora de los casos, estas organizaciones tienden a construir
conjuntos de datos centralizados o almacenes de datos (Data warehouse) que
renen toda la informacin de sus liares dispersas geogrcamente.
Es as que esta situacin ha fomentado el desarrollo de herramientas para el
tratamiento de la informacin, dando lugar a una disciplina conocida como Mineria

8


de datos o (Data Mining), se define como un conjunto de tcnicas y herramientas
aplicadas al proceso de extraer y presentar conocimiento implcito previamente
desconocido.
El objetiv de la implementacin de este modulo el cual vale tiene un peso de tres
crditos es el abordaje de la tematica relacionada como sigue.
La temtica de la unidad uno es Mineria de Datos, la Unidad dos Preapracin de
los Datos, unidad tres Tecnicas de Mineria de Datos. Con la realizacin de este
modulo como material didctico de consulta para tutores y estudiantes de la
UNAD.

9


UNIDAD 1: MINERIA DE DATOS

1.1. Capitulo I:Conceptos Fundamentales

La minera de datos est relacionada con la subrea de la estadstica denominada
explorador de datos, que tiene objetivos parecidos y se basa en las medidas
estadsticas. Tambin est estrechamente relacionada con las subreas de la
inteligencia artificial denomina descubrimiento del conocimiento y aprendizaje de
la mquina. La caracterstica importante de la minera de datos es que se usa
normalmente para el manejo de datos que estn agrupados en grandes
volmenes; aunque la idea de esta area de estudio relacionada sea aplicable a los
problemas de minera de datos, la escalabilidad con respecto al tamao de los
datos es un criterio nuevo importante, que se debe tener en cuenta para el
proceso de aplicabilidad de los conceptos.
Un algoritmo es escalable y el tiempo de ejecucin crece (linealmente) en
proporcin al tamao del conjunto de datos, lo que mantiene los recursos
disponibles del sistema (por ejemplo, la cantidad de memoria principal y la
velocidad el proceso de la UCP) constante, deben adaptar los algoritmos
antiguos o desarrollar otros nuevos para que se garantice la escalabilidad a la
hora de descubrir pautas en los datos.
La bsqueda de tendencias tiles en los conjuntos de datos es una definicin
bastante imprecisa de la minera de datos: en cierto sentido se puede considerar
que todas las consultas a bases de datos hacen exactamente esto; pero en
realidad, hay un continuo uso de las herramientas de anlisis y exploracin, con
las consultas de SQL que crean mediante la algebra relacional (con algunas
extensiones), OLAP ofrece expresiones de consulta en nivel superior basadas en
el modelo de datos multidimensionales, y la minera de datos proporciona las
operaciones de anlisis abstractas. Se puede pensar en las diferentes tareas de la
minera de datos como consultas complejas especificadas en un nivel elevado,
con unos cuantos parmetros que son definibles por los usuarios, para las que se
implementan algoritmos especializados. SQL /MM: minera de datos SQL /MM.

10


La SQL /MM: data mining de la norma SQL: 1999 soporta cuatro tipos de modelos
de minera de datos:
Conjuntos de elementos frecuentes y reglas de asociacin
Agrupaciones de registros
Arboles de regresin
Arboles de clasificacin.

Se introduce entonces varios tipos de datos nuevos, estos tipos de datos
desempean varios papeles, algunos representan una clase de modelo concreta
(por ejemplo, DM_Regression model, DM_ClusteringModel); otros especifican los
parmetros de entrada de un algoritmo de minera (por ejemplo, DM_ RegTask,
DM_ClusTask); unos describen los datos de entrada (por ejemplo,
DM_LogicaDataSpec, DM, _MininData); y otros representan el resultado de la
ejecucin de un algoritmo de minera (por ejemplo, DM_RegResult,
DM_ClusResult).
En conjunto estas clases y sus mtodos ofrecen una interfaz normalizada para los
algoritmos de minera de datos que se pueden invocar desde cualquier sistema de
bases de datos SQL: en 1999. Los modelos de minera de datos se pueden
exportar en formato XML normalizado denominado lengua de marcas de
modelos predictivos (Predictive Model Markup Language, PMML); tambin se
pueden importar los modelos representados mediante PMML.

Leccin 1: Caractersticas de Mineria de Datos.
Historia de la Minera de Datos

Extraccin de patrones de informacin (implcitos, no triviales, desconocidos y
potencialmente tiles) a partir de grandes cantidades datos.

11


Tambin conocido por: Descubrimiento del conocimiento en bases de datos
(KDD), extraccin del conocimiento, anlisis de datos/patrones, inteligencia de
negocios

Minera de datos NO es:

_ Procesamiento deductivo de consultas en BBDD
_ Un sistema experto o DSS
_ Anlisis estadstico
_ Visualizacin de datos
_ Pequeos programas de aprendizaje

Muchas de las tcnicas usadas en MD ya eran conocidas previamente, a qu se
debe el boomactual?

En los 90s convergen los siguientes factores:

Los datos se estn produciendo
Los datos se estn almacenando
La potencia computacional necesaria es abordable
Existe una gran presin en la competitividad empresarial
Las herramientas software de MD estn disponibles

La MD slo tiene sentido cuando se dispone de grandes volmenes de datos?

Ahora los datos se producen en grandes cantidades: scanners de venta, tarjetas
de crdito, paper view, teletienda, ciencia, e-commerce, e-learning, e-business,
etc.Algunos ejemplos:

El .log producido por Yahoo es de 10 GB cada hora.

12


El .log de google es de 23 GB cada 33 minutos.
Un Astrnomo instrumentista puede producir de 50 a 100 GB de datos en
una noche. ( Proyecto SETI)
El genoma humano ocupa unos 300 TeraBytes.
12 millones de personas poseen una tarjeta Master Card.
Blockbuster Entertainment Corp... 36 millones de casas/familias como
clientes.
Ebay, Mercadolibre, millones de transacciones cada da.

13


Artculo de Reflexin. La informacin digital crece a mas del doble cada ao.

Para una documentacin e ilustracin ms acorde, se acude a la URL

Fuente: Artculo Publicado en la url:
http://www.muycomputerpro.com/2011/08/03/informacion-digital-crece-doble-anos/
ECM public recientemente los resultados del estudio de IDC Digital Universe,
Extracting Value from Chaos, en el que se llega a la conclusin de que la
informacin digital en el mundo crece ms del doble cada dos aos, llegando a la
colosal cifra de 1,8 zettabytes creados y replicados en 2011.
La tecnologa y el dinero son los encargados de impulsar las fuerzas que residen
detrs de este incesante crecimiento. Las nuevas tecnologas para la utilizacin
sencilla de la informacin estn reduciendo el coste a la hora de crear, capturar,
gestionar y almacenar la informacin: un sexto del coste en 2011 respecto a 2005.
Adems, desde 2005 las inversiones anuales de las empresas en el Universo
Digital han aumentado un 50%, alcanzando unos 4.000 millones de dlares.
El estudio seala que un crecimiento masivo de servidores, archivos y gestin de
datos no logra mantener el ritmo del crecimiento de personal: IDC seala que las
habilidades, experiencia y recursos para gestionar la avalancha de datos y
recursos sencillamente no sigue el ritmo de crecimiento de otras reas. Durante la
prxima dcada, los departamentos de TI de todo el mundo experimentarn un
crecimiento de:
- 10 veces el nmero de servidores (virtuales y fsicos).
- 50 veces la cantidad de informacin a gestionar.
- 75 veces el nmero de archivos o contenedores que encapsulan la informacin
en el universo digital, que crece incluso ms rpido que la propia informacin,
como cada vez ms los sistemas integrados tales como sensores en prendas de
vestir, en puentes o en dispositivos mdicos.
- 1,5 veces el nmero de profesionales de TI disponibles para gestionar este
volumen.
A pesar de que la informtica en la nube representa menos del 2% del gasto
actual en TI, IDC predice que en 2015 casi el 20% de la informacin pasar por
las manos de los proveedores de servicios de informtica en la nube, lo que

14


significa que en alguna parte del viaje del byte, desde su origen a su eliminacin,
la informacin se almacenar o procesar en la nube. Tal vez hasta un 10%
permanecer en la nube.
El estudio tambin seala que la sombra digital tiene mente propia: la cantidad de
informacin que crean los particulares (escribiendo documentos, haciendo
fotografas, descargando msica, etc.) es mucho menor que la cantidad de
informacin creada sobre ellos mismos en el universo digital. Adems, la
responsabilidad legal o de cualquier otra naturaleza es de las empresas: a pesar
de que el 75% de la informacin en el universo digital la generan particulares, las
empresas son legalmente responsables del 80% de esta informacin en algn
punto de su vida digital.

Otros hallazgos clave
Las nuevas herramientas de captura, bsqueda, descubrimiento y anlisis pueden
ayudar a las empresas a obtener una visin de los datos no estructurados, que
representan ms de un 90% del universo digital. Estas herramientas pueden crear
datos sobre los datos de forma automtica, al igual que las rutinas de
reconocimiento facial que ayudan a etiquetar las fotos en Facebook. El crecimiento
de los datos sobre los datos es dos veces ms rpido que el del universo digital en
su conjunto.
Por otra parte, las herramientas de inteligencia empresarial tratan cada vez ms
con datos en tiempo real, tanto si se trata de cargar primas de seguros de
automviles en funcin de dnde se conduce, de la distribucin de la energa a
travs de la red inteligente o de cambiar mensajes sobre la marcha segn las
respuestas de las redes sociales.
En cuanto a las herramientas de gestin de almacenamiento ayudan a reducir los
costes de la parte del universo digital que almacenamos, como la deduplicacin, la
autoorganizacin en niveles y la virtualizacin, as como para ayudarnos a decidir
qu almacenamos exactamente, como las soluciones de gestin de contenidos.
Fuente: Artculo Publicado en la url:
http://www.muycomputerpro.com/2011/08/03/informacion-digital-crece-doble-anos/

La coleccin de datos orientadas a un dominio, integrado, no voltil y variable en
el tiempo que ayuda a la toma de decisiones de la empresa u organizacin, esa es

15


la informacin importante que se debe analizar y se debe tomar en cuenta para el
desarrollo de esta lnea profesional en la TI.

El expediente de una empresa ms all de la informacin transaccional y
operacional, almacenado para favorecer el anlisis y la divulgacin eficientes de
datos, se subdivide a veces en unidades lgicas ms pequeas, llamadas los
centroscomerciales dependientes de los datos.

Generalmente, dos ideas bsicas:

_ Integracion de los datos de bases de datos distribuidas y diferentemente
estructura, que facilita una descripcin global y un anlisis comprensivo en el
almacn de los datos.

_ Separacionde los datos usados en operaciones diarias, los datos usados en el
almacn de los datos para los propsitos de la divulgacin, de la ayuda enla toma
de decisiones, para el anlisis y para controlar algn tem de proudccion o la oferta
de un articulo o la creacin de uno nuevo en una empresa.

16


ESTRUCTURA DEL SISTEMA

FIGURA 2. DISTINTO ENFOQUE

FIGURA3. OLAP Y CONSULTAS DEDUCTIVAS DIRIGIDOS POR HIPTESIS
Minera de datos dirigido por los datos

17


Leccion 2. Disponibilidad de Software

Algoritmos y tcnicas usadas:

Investigacin > software comercial > aceptacin

FIGURA 4. DISPONIBILIDAD DE SOFTWARE COMERCIAL

Fuente: Introduccion a la Mineria de Datos. Jos H. Orallo, Ma Jos Ramirez Q y Cesar F Ramirez.
Pearson.

SOFTWARE LIBRE WEKA

18


Weka (Waikato Environment for Knowledge Analysis - Entorno para Anlisis del
Conocimiento de la Universidad de Waikato) es una plataforma de software para
aprendizaje automtico y minera de datos escrito en Java y desarrollado en la
Universidad de Waikato. Weka es un software libre distribuido bajo licencia GNU-
GPL.

La minera de datos consiste en hallar tendencias o pautas interesantes en
conjuntos de datos de gran tamao para orientar las decisiones sobre actividades
futuras. Hay una esperanza generalizada de que las herramientas de minera de
datos puedan identificar esas pautas de los datos con un aporte humano mnimo.
Las pautas identificadas por esas herramientas pueden ofrecer a los analistas de
datos una perspectiva til e inesperada que posteriormente se puede investigar
con ms detenimiento, quizs empleando otras herramientas de soporte a las
decisiones.
En el mundo real la minera de datos es mucho ms aplicacin de uno de estos
algoritmos. Los datos suelen tener ruido o estar incompletos y, a menos que esto
se comprenda y corrija, es probable que muchas pautas interesantes se pasen por
alto y a la fiabilidad de las detectadas sea baja.
Adems el anlisis debe decidir los tipos de algoritmos de minera que se invocan,
aplicarlos a un conjunto bien escogido de muestra de datos y de variables (es
decir, Tuplas y atributos), resumir los resultados, aplicar otras herramientas de
ayuda a la toma de decisiones y de minera e iterar el proceso para poderlo
ejecutar de la manera mas optima. Cabe mencionar en este punto que lamineria
de datos es una tcnica que aborda y que pretende analizar datos y a partir de
ellos lograr predecir un estado de una variable.
Limitarse a almacenar informacin en un almacn de datos no proporciona los
beneficios que las organizaciones buscan a la hora de implantar este tipo de
sistemas; para conseguir sacar el mximo provecho de un almacn de datos, es
necesario extraer el conocimiento oculto dentro del almacn. sin embargo, a

19


medida que crece la cantidad y la complejidad de los datos contenidos en un
almacn de datos, se hace cada vez ms fcil, si no imposible, para los analistas
de negocio identificar las tendencias y relaciones en los datos de manera
acertada, este proceso es muy complejo ya que deben usar herramientas
avanzadas de consulta y de generacin de informes.

La minera de datos es una de las maneras de extraer patrones y tendencias
significativas de entre un enorme conjunto de datos. La mayora de datos
descubre informacin dentro de los almacenes de datos que las consultas e
informes que no pueden hacer por mtodos tradicionales de manera efectiva.
Existen numerosas definiciones sobre lo que s la minera de datos, desde
definiciones muy amplias que describen la minera de datos como cualquier
herramienta que permite a los usuarios acceder directamente a grandes
cantidades de datos, hasta definiciones ms especficas, como la que afirma que
se trata de herramientas y aplicaciones que realizan anlisis estadsticos sobre los
datos para detectar patrones.

Minera de datos: Es el proceso de extraer la informacin vlida, previamente
desconocida, comprensible y til de base de datos de gran tamao y utilizar dicha
informacin para tomar decisiones de negocio cruciales.
La minera de datos se preocupa del anlisis de los datos y de la utilizacin de
tcnicas software para localizar patrones y relaciones ocultas e inesperadas
dentro de una serie de conjuntos de datos. El enfoque de laminera de datos
consiste en revelar informacin que est oculta y sea inesperada, ya que no tiene
mucho sentido tratar de encontrar patrones y relaciones que resulten intuitivos por
s mismos. Para identificar los patrones y relaciones ocultos se examinan las
reglas y caractersticas subyacentes a los datos.

20


El anlisis de minera de datos tiende a trabajar comenzando por los propios datos
y progresando hacia arriba, y las tcnicas que producen los resultados ms
precisos requieren, normalmente, grandes volmenes de datos para poder ofrecer
una conclusin fiable.
El proceso de anlisis comienza desarrollando una representacin ptima de la
estructura de una serie de datos de ejemplo, adquirindose uno ciertos
conocimientos durante esta fase. Dichos conocimientos se amplan posteriormente
a conjuntos de datos de mayor tamao, trabajando con la suposicin de que esos
conjuntos de datos de mayor tamao tienen una estructura similar a la de los
datos de muestra.
La minera de datos puede reportar enormes beneficios a las empresas que hayan
hecho una inversin de significativa en tecnologas de almacn de datos. Aunque
la minera de datos es una tecnologa relativamente nueva, ya se utilizan diversos
sectores. La tabla indica diversos ejemplos de aplicaciones de laminera de datos
en comercio al por menos/marketing, banca, seguros y medicina.

21


Leccion 3. Ejemplos de aplicaciones de la Minera de Datos.

Fuente: Autor

Comercio al por menor/marketing

Identificacin de los patrones de compra de los clientes.
Determinacin de asociaciones entre las caractersticas demogrficas de
los clientes.
Prediccin de la respuesta a las campaas de publicidad por correo anlisis
de cesta de la compra.

Banca
Deteccin de patrones de uso fraudulento de tarjetas de crdito.

22


Identificacin de clientes leales.
Prediccin de clientes que tienen probabilidad de cambiar de banco
suministrador de tarjeta de crdito determinacin de los casos realizados
por ciertos grupos de clientes con la tarjeta de crdito.
Seguros
Anlisis de partes.
Prediccin de los clientes que suscribe nuevas polizas.

Medicina

Caracterizacin del comportamiento de los pacientes para predecir las
visitas quirrgicas.
Identificacin de terapias medicas adecuadas para diferentes
enfermedades.

Leccion 4. Objetivos de la Minera de Datos
Objetivo General

Descubrir patrones, perfiles, y tendencias a travs del anlisis de datos con
tecnologas de reconocimiento de patrones, redes neuronales, lgica difusa,
algoritmos genticos y otras tcnicas estadsticas avanzadas del anlisis
multivariante de datos.

Objetivos Especficos de la Minera de Datos

La Minera de Datos como parte de los sistemas de apoyo a las decisiones,
a partir de un anlisis comparativo entre la teora y la investigacin de
campo, para obtener conclusiones que permitan identificar cmo

23


implementar y utilizar adecuadamente la Minera de Datos en la toma de
decisiones.

Identificar cules son las caractersticas de los productos de Minera de
Datos ms relevantes a nivel mundial.

Explorar los datos que se encuentran en las profundidades de las bases de
datos, como los almacenes de datos, que algunas veces contienen
informacin almacenada durante varios aos.

En algunos casos, los datos se consolidan en un almacn de datos y en market de
datos; en otros, se mantienen en servidores de Internet e Intranet.

El entorno de la minera de datos suele tener una arquitectura cliente servidor.

Las herramientas de la minera de datos ayudan a extraer el mineral (objeto de
datos) de la informacin enterrada en archivos corporativos o en registros
pblicos, archivados

El minero es, muchas veces un usuario final con poca o ninguna habilidad de
programacin, facultado por barrenadoras de datos (formatos de registro de datos)
y otras poderosas herramientas indagatorias para efectuar preguntas y obtener
rpidamente respuestas.

Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e
inesperados. ( hacer anlisis de la informacin y tratar de evitar la redundancia)

Las herramientas de la minera de datos se combinan fcilmente y pueden
analizarse y procesar rpidamente.

24


Debido a la gran cantidad de datos, algunas veces resulta necesario usar
procesamiento en paralelo para la minera de datos.

La minera de datos produce cinco tipos de informacin:

a. Asociaciones.
b. Secuencias.
c. Clasificaciones.
d. Agrupamientos.
e. Pronsticos.

Los mineros de datos usan varias herramientas y tcnicas.

La minera de datos es un proceso que invierte la dinmica del mtodo cientfico
en el siguiente sentido:

En el mtodo cientfico, primero se formula la hiptesis y luego se disea el
experimento para coleccionar los datos que confirmen o refuten la hiptesis.

Si esto se hace con la formalidad adecuada (cuidando cules son las variables
controladas y cules experimentales), se obtiene un nuevo conocimiento.

En la minera de datos, se coleccionan los datos y se espera que de ellos emerjan
hiptesis. Se busca que los datos describan o indiquen por qu son como son.

Luego entonces, se valida esa hiptesis inspirada por los datos en los datos
mismos, ser numricamente significativa, pero experimentalmente invlida. De
ah que la minera de datos debe presentar un enfoque exploratorio, y no
confirmador. Usar la minera de datos para confirmar las hiptesis formuladas
puede ser peligroso, pues se est haciendo una inferencia poco vlida.

25


La minera de datos es una tecnologa compuesta por etapas que integra varias
reas y que no se debe confundir con un gran software. Durante el desarrollo de
un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa
que pueden ser estadsticas, de visualizacin de datos o de inteligencia artificial,
principalmente. Actualmente existen aplicaciones o herramientas comerciales de
minera de datos muy poderosas que contienen un sinfn de utileras que facilitan
el desarrollo de un proyecto. Sin embargo, casi siempre acaban
complementndose con otra herramienta.

Fundamentos del Data Mining.

Las tcnicas de Data Mining son el resultado de un largo proceso de investigacin
y desarrollo de productos. Esta evolucin comenz cuando los datos de negocios
fueron almacenados por primera vez en computadoras, y continu con mejoras en
el acceso a los datos, y ms recientemente con tecnologas generadas para
permitir a los usuarios navegar a travs de los datos en tiempo real. Data Mining
toma este proceso de evolucin ms all del acceso y navegacin retrospectiva de
los datos, hacia la entrega de informacin prospectiva y proactiva. Data Mining
est lista para su aplicacin en la comunidad de negocios porque est soportado
por tres tecnologas que ya estn suficientemente maduras:

Recoleccin masiva de datos.

Potentes computadoras con multiprocesadores.

Algoritmos de Data Mining.

Las bases de datos comerciales estn creciendo a un ritmo sin precedentes.

26


Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse
encontr que el 19% de los que contestaron estn por encima del nivel de los 50
Gigabytes, mientras que el 59% espera alcanzarlo en el segundo trimestre de
1997. En algunas industrias, tales como ventas al por menor (retal), estos
nmeros pueden ser an mayores. MCI Telecommunications Corp. cuenta con
una base de datos de 3 terabytes + 1 terabyte de ndices y overhead corriendo en
MVS sobre IBM SP2. La necesidad paralela de motores computacionales
mejorados puede ahora alcanzarse de forma ms costo - efectiva con tecnologa
de computadoras con multiprocesamiento paralelo. Los algoritmos de Data Mining
utilizan tcnicas que han existido por lo menos desde hace 10 aos, pero que slo
han sido implementadas recientemente como herramientas maduras, confiables,
entendibles que consistentemente son ms performantes que mtodos
estadsticos clsicos.

En la evolucin desde los datos de negocios a informacin de negocios, cada
nuevo paso se basa en el previo. Por ejemplo, l es crtica para Data Mining.

Los componentes esenciales de la tecnologa de Data Mining han estado bajo
desarrollo por dcadas, en reas de investigacin como estadsticas, inteligencia
artificial y aprendizaje de mquinas. Hoy, la madurez de estas tcnicas, junto con
los motores de bases de datos relacionales de alta performance, hicieron que
estas tecnologas fueran prcticas para los entornos de data warehouse actuales.

Alcance de Data Mining.

El nombre de Data Mining deriva de las similitudes entre buscar valiosa
informacin de negocios en grandes bases de datos - por ej.: encontrar
informacin de la venta de un producto entre grandes montos de Gigabytes
almacenados - y minar una montaa para encontrar una veta de metales valiosos.
Ambos procesos requieren examinar una inmensa cantidad de material, o

27


investigar inteligentemente hasta encontrar exactamente donde residen los
valores.

Dadas bases de datos de sucinte tamao y calidad, la tecnologa de Data Mining
puede generar nuevas oportunidades de negocios al proveer estas capacidades:

Prediccin automatizada de tendencias y comportamientos. Data Mining
automatiza el proceso de encontrar informacin predecible en grandes bases de
datos. Preguntas que tradicionalmente requeran un intenso anlisis manual,
ahora pueden ser contestadas directa y rpidamente desde los datos. Un tpico
ejemplo de problema predecible es el marketing apuntado a objetivos (tarjetead
marketing). Data Mining usa datos en maulina promocionales anteriores para
idntica posibles objetivos para maximizar los resultados de la inversin en futuros
maulina.

Otros problemas predecibles incluyen pronsticos de problemas nancieros
futuros y otras formas de incumplimiento, e idntica segmentos de poblacin que
probablemente respondan similarmente a eventos dados.

Descubrimiento automatizado de modelos previamente desconocidos. Las
herramientas de Data Mining barren las bases de datos e idntifica modelos
previamente desconocidos en un slo paso. Otros problemas de descubrimiento
de modelos incluyen detectar transacciones fraudulentas de tarjetas de crditos e
idntifica datos anormales que pueden representar errores en la carga de datos.

Las tcnicas de Data Mining pueden revisar los beneficios de automatizacin y
transaccion en las plataformas de hardware y software existentes y puede ser
implementada en sistemas nuevos a medida que las plataformas existentes se
actualizan y nuevos productos sean desarrollados. Cuando las herramientas de
Data Mining son implementadas en sistemas de procesamiento paralelo de alto
performance, pueden analizar bases de datos masivas en minutos. Procesamiento

28


ms rpido, signicado que los usuarios pueden automticamente experimentar
con ms modelos para entender datos complejos. Alta velocidad hace que sea
prctico para los usuarios analizar inmensas cantidades de datos.

Grandes bases de datos, a su vez, producen mejores predicciones.

Leccin 5. Minera de datos y la toma de decisiones.
En el desarrollo de la conceptualizacin que hasta el momento se ha desarrollado
en el modulo se ha mencionado hasta aqu una gran cantidad de elementos que
se deben aplicar y analizar para poder hacer un ejercicio acorde a la realidad y
que sea concomitante tanto con las teoras estudiadas, como a la vez con las
necesidades de informacin de la entidad o empresa en la que se vaya a realizar
una aplicacin de minera de datos.

El acceso a la informacin para el departamento gerencial o administrativo de una
empresa, debe estar enmarcado con una serie de caractersticas como la
eficiencia de la informacin, la claridad en la misma, la sistematicidad de su
estructura, la correspondencia con la realidad, etc. Es por ello que para poder
seguir adelante en el desarrollo y como cierre del capitulo I se debern acudir a
direferentes fuentes, tanto externas como internas para documentarse sobre la
importancia misma de la minera de datos y ante todo en el apoyo a la toma de
decisiones.

Actividad de cierre Capitulo I
Se debe:
Realizar una lectura juiciosa de artculos cientficos indexados sobre la importancia
de la mineria de datos.

29


Que aspectos considera importantes que se deben evaluar para el desarrollo de
un anlisis de informacin bajo el enfoque de la minera de datos.
Realizar una ruta de planeacin de un proyecto en una empresa con criterios y
etapas de la minera de datos.
Construir con una herramienta (ej. Cmaptools) una estructura que explique el
desarrollo de la planeacin del punto anterior.
Hacer un cuadro informativo con el siguiente formato para documentar lo que
hasta el momento ha aprendido el estudiante.
Primer acercamiento a una aplicacin con MD en una empresa
Nombre de la empresa
Objeto de la empresa
Actividades a
desarrollar
Nombre de la Etapa
Descripcion de la
etapa Responsable
Producto a
entregar

Es importante mencionar que para este punto, el estudiante esta en libertad de
agregar tantas etapas con lo considere ya que este punto (a diferencia de los
anteriores), lo que pretende es servir de entrenamiento de lo aprendido y hacer
una aplicabilidad de los conceptos.

30


1.2. Capitulo II KDD.

Leccin 6. Proceso de Descubrimiento del Conocimiento en Bases de Datos

6.1 Proceso de Descubrimiento del Conocimiento (KDD)

En los ltimos aos, ha existido un gran crecimiento en nuestras capacidades de
generar y colectar datos, debido bsicamente al gran poder de procesamiento de
las mquinas como a su bajo costo de almacenamiento.

Sin embargo, dentro de estas enormes masas de datos existe una gran cantidad
de informacin oculta, de gran importancia estratgica, a la que no se puede
acceder por las tcnicas clsicas de recuperacin de la informacin.

El descubrimiento de esta informacin oculta es posible gracias a la Minera de
Datos (Data Mining), que entre otras tcnicas aplica la inteligencia artificial para
encontrar patrones y relaciones dentro de los datos permitiendo la creacin de
modelos, es decir, representaciones abstractas de la realidad, pero es el
descubrimiento del conocimiento (KDD, por sus siglas en ingls) que se encarga
de la preparacin de los datos y la interpretacin de los resultados obtenidos, los
cuales dan un signicado a estos patrones encontrados.

As el valor real de los datos reside en la informacin que se puede extraer de
ellos, informacin que ayude a tomar decisiones o mejorar nuestra comprensin
de los fenmenos que nos rodean. Hoy, ms que nunca, los mtodos analticos
avanzados son el arma secreta de muchos negocios exitosos.

Empleando mtodos analticos avanzados para la explotacin de datos, los
negocios incrementan sus ganancias, maximizan la esencia operativa, reducen
costos y mejoran la satisfaccin del cliente De forma general, los datos son la

31


materia prima bruta. En el momento que el usuario les atribuye algn signicado
especial pasan a convertirse en informacin. Cuando los especialistas elaboran o
encuentran un modelo, haciendo que la interpretacin de la informacin y ese
modelo representen un valor agregado, entonces nos referimos al conocimiento.
En el desarrollo del proceso se analiza e ilustra la jerarqua que existe en una
base de datos entre los datos, informacin y conocimiento. Se observa igualmente
el volumen que presenta en cada nivel y el valor que los responsables de las
decisiones le dan en esa jerarqua. El rea interna dentro del tringulo representa
los objetivos que se han propuesto. La separacin del tringulo representa la
estrecha unin entre dato e informacin, no as entre la informacin y el
conocimiento.

La capacidad de generar y almacenar informacin creci considerablemente en
los ltimos tiempos, se ha estimado que la cantidad de datos en el mundo
almacenados en bases de datos se duplica cada 20 meses. Es as que hoy las
organizaciones tienen gran cantidad de datos almacenados y organizados, pero a
los cuales no les pueden analizar escientemente en su totalidad.

Con las sentencias SQL se puede realizar un primer anlisis, aproximadamente el
80% de la informacin se obtiene con estas tcnicas. El 20% restante, que la
mayora de las veces, contiene la informacin ms importante, requiere la
utilizacin de tcnicas ms avanzadas.

El Descubrimiento de Conocimiento en Bases de Datos (KDD) apunta a procesar
automticamente grandes cantidades de datos para encontrar conocimiento til en
ellos, de esta manera permitir al usuario el uso de esta informacin valiosa para
su conveniencia.

El KDD es el Proceso no trivial de idntica patrones vlidos, novedosos,
potencialmente tiles y, en ltima instancia, comprensibles a partir de los datos.

(Fallad et al., 1996) El objetivo fundamental del KDD es encontrar conocimiento
til, vlido, relevante y nuevo sobre un fenmeno o actividad mediante algoritmos
encientes, dadas las crecientes rdenes de magnitud en los datos. Al mismo

32


tiempo hay un profundo inters por presentar los resultados de manera visual o al
menos de manera que su interpretacin sea muy clara. Otro aspecto es que la
interaccin humano-mquina deber ser accesible, dinmica y colaboradora.

El resultado de la exploracin deber ser interesante y su calidad no debe ser
afectada por mayores volmenes de datos o por ruido en los datos. En este
sentido, los algoritmos de descubrimiento de informacin deben ser altamente
robustos.

FIGURA 5: JERARQUA DEL CONOCIMIENTO.

Leccin 7. Diagrama del Proceso de KDD

El proceso de KDD consiste en usar mtodos de minera de datos (algoritmos)
para extraer (identifica) lo que se considera como conocimiento de acuerdo a la
especicacin de ciertos parmetros usando una base de datos junto con
reprocesamientos y post-procesamientos.

33


Pearson.
Figura 6: Proceso de KDD

Se estima que la extraccin de patrones (minera) de los datos ocupa solo el 15%
al 20% del esfuerzo total del proceso de KDD.El proceso de descubrimiento de
conocimiento en bases de datos involucra varios pasos:

Determinar las fuentes de informacin: que pueden ser tiles, dnde conseguirlas
y como accederlas.

Disear el esquema de un almacn de datos (Data Warehouse) que consiga
unicar de manera operativa toda la informacin recogida.

34


Implantacin del almacn de datos: que permita la navegacin y visualizacin
previa de sus datos, para discernir qu aspectos puede interesar que sean
estudiados. Esta es la etapa que puede llegar a consumir el mayor tiempo.

Seleccin, limpieza y transformacin de los datos que se van a analizar: la
seleccin incluye tanto la filtracin o fusin horizontal (tablas) como vertical
(atributos).La limpieza y reprocesamiento de datos se logra diseando una
estrategia adecuada para manejar ruido, valores incompletos, secuencias de
tiempo, casos extremos (si es necesario), etc.

Seleccionar y aplicar el mtodo de minera de datos apropiado, esto incluye:

La seleccin de la tarea de descubrimiento a realizar, por ejemplo,
clasicacin,agrupamiento o clustering, regresin, etc.
La seleccin de l o de los algoritmos a utilizar.
La transformacin de los datos al formato requerido por el algoritmo
especco de minera de datos.
Llevar a cabo el proceso de minera de datos.

Se buscan patrones que puedan expresarse como un modelo o simplemente que
expresen dependencias de los datos, el modelo encontrado depende de su
funcin (clasicacin) y de su forma de representarlo (rboles de decisin, reglas
de asociacin, etc.), se tiene que especcar con criterio de preferencia para
seleccionar un modelo dentro de un conjunto posible de modelos, se tiene definir
la estrategia de bsqueda a utilizar (normalmente est predeterminada en el
algoritmo de minera).

Leccion. 8. Etapas de abordaje.

35


Evaluacin, interpretacin, transformacin y representacin de los patrones
extrados:

Evaluacion de los datos.

Se debe hacer un acercaiento real y muy especifico a la informacin que se
maneja en la base de datos, esto con el fin de entender claramente el tipo de
informacin que manje, el flujo de la misma, la dinmica de actualizacin, los
procesos que se desarrollan y por supuesto cuales son las verianles que se tienen
y que en el momento no se estn teniendo en cuenta. Este es quiz una de las
etapas mas simples pero de mayor importancia, el 73% de las ocasiones en la
que se fracasa en la aplicacin de la mineria de datos, esta en la falta de previsin
y de atencin especial al desarrollo de esta etapa ya que de no ser abordada de
manera acertiva todo el proceso ser un fracaso.

Interpretar los resultados y posiblemente regresar a los pasos anteriores.

Esto puede involucrar repetir el proceso, quizs con otros datos, otros algoritmos,
otras metas y otras estrategias. Este es un paso crucial en donde se requiere
tener conocimiento del dominio. La interpretacin puede beneciarse de procesos
de visualizacin, y sirve tambin para borrar patrones redundantes oirrelevantes.

Difusin y uso del nuevo conocimiento.

Incorporar el conocimiento descubierto al sistema (normalmente para mejorarlo) lo
cual puede incluir resolver conictos potenciales con el conocimiento existente.

El conocimiento se obtiene para realizar acciones, ya sea incorporndolo dentro
de un sistema de desempeo o simplemente para almacenarlo y reportarlo a las
personas interesadas.

36


En este sentido, KDD implica un proceso interactivo e iterativo involucrando la
aplicacin de varios algoritmos de minera de datos.

Metas del KDD

Procesar automticamente grandes cantidades de datos crudos.
Idntica los patrones ms signicativos y relevantes.
Presentarlos como conocimiento apropiado para satisfacer las metas del usuario.

Leccion 9. Desarrollo del proceso de KDD
El Preprocesamiento.

El proceso KDD, ilustrado en la Figura 1, est dividido en una serie de pasos,
desde la seleccin y limpieza de la BD hasta la evaluacin e interpretacin de los
Resultados.

FIGURA 7.ETAPAS EN EL PROCESO DE KDD.

37


En la Figura 7 se observa que las primeras etapas del proceso KDD se dedican a
limpiar, preparar, seleccionar y formatear a los datos de acuerdo a los patrones a
buscar y el algoritmo de Minera de Datos a utilizar. A esta etapa se le conoce
como pre procesamiento.

Posteriormente, aparece la etapa de minera de datos, en la cual se buscan o
descubren los patrones ocultos en los datos, los cuales pasan a una etapa de
evaluacin, en donde se determina la validez y confiabilidad de dichos patrones. Al
final de todo este proceso, se obtienen una serie de patrones llamados
conocimiento.

A continuacin se describen a mayor detalle cada una de las etapas.

En esta etapa los datos son preparados para el proceso de Minera de Datos.
Dicha etapa se divide en tres pasos bsicos.

Seleccin y Limpieza

En el mundo real, existen muchas bases de datos que tienen diversos problemas,
como son valores faltantes, ruido (valores que por alguna causa no son correctos),
Inconsistencias (valores que no corresponden a los dominios de los atributos
que son contradictorios con otros datos de la misma BD), errores de captura,
errores en la fuente de informacin, errores provocados por los sistemas de
cmputo, entre otros. Estos problemas deben eliminarse antes de cualquier
proceso de minera de datos, ya que pueden afectar a la precisin de los
resultados o incluso, el algoritmo de minera puede construir patrones a partir de
un conjunto de datos incorrectos.

38


Para estos casos, se deben de implementar una serie de estrategias que corrijan
tales problemas.

Lamentablemente no existe una nica solucin, ya que dependiendo del tipo de
datos ser la estrategia a implementar. Por ejemplo, considere una tabla R con n
registros definida sobre un conjunto de atributos {A1,, Am} en donde existe un
registro <v1,, vs-1, vs, vs+1,, vn> en el cual el valor del atributo s es
desconocido (es decir, vs =?). Una estrategia para solucionar este problema sera
simplemente eliminar dicho registro . Sin embargo, en el caso de que ste
registro sea muy valioso o significativo, se buscara otra forma de solucionar el
problema, como por ejemplo, estimar el posible valor para vs a travs de la media.

FIG. 8 EJEMPLOS DE IMAGENES DE CLULAS CON LEUCEMIA.
Fuente: http://es.scribd.com/doc/93421745/Caso-de-Exito-Mineria-de-Datos

Otro problema comn que se presenta en un conjunto de datos es el ruido. Por
ejemplo, considere una BD de imgenes mdicas tomadas a travs de un
microscopio ptico. La calidad de las imgenes depende de muchos factores,
como es la preparacin de las muestras, la ptica del microscopio, la calidad de la
cmara digital, entre otros. Dependiendo de estas variables, se pueden obtener
imgenes como la mostrada en la Figura 8 izquierda), en donde aparecen
manchas que no son propias de las caractersticas de las clulas. En estos casos
se deben de buscar filtros (dentro del rea del procesamiento digital de imgenes)
que permitan remover estas imperfecciones, de tal manera que al momento de

39


trabajar con las clulas, estas imperfecciones no alteren al proceso de minera de
datos.

Por otro lado, la seleccin es una estrategia til cuando la dimensin de la BD es
muy alta. Entre ms grande sea una BD, los tiempos de respuesta pueden llegar a
ser prohibitivos. En estos casos se opta por no trabajar directamente con todos los
datos, sino con un subconjunto de los datos originales, llamada muestra o datos
de entrenamiento.

El problema con esta estrategia es garantizar que los datos contenidos en la
muestra sean representativos con respecto al total del conjunto. Lamentablemente
esta condicin no es fcil de garantizar, por lo que se ha optado por construir no
solo una, sino un conjunto de muestras con las cuales trabajar (construidas a
travs de un proceso aleatorio). Como consecuencia, por cada muestra se
obtendr un conjunto de patrones, los cuales tendrn que compararse y evaluarse
con respecto a los resultados encontrados a partir de otras muestras.

Preparacin de Datos

En esta etapa del proceso KDD se busca eliminar todos aquellos datos que no
sern relevantes para el proceso de minera de datos. Por ejemplo, considere la
imagen de la Figura 8 derecha), donde la tarea consiste en identificar
caractersticas especficas de las clulas que representan leucemia. En este caso,
toda la imagen como tal no nos interesa, slo la regin que delimita a la clula
(regin de inters). Por tanto, es necesario extraer esta regin del resto de la
imagen, a travs de tcnicas de segmentacin.

Es importante mencionar que no todas las bases de datos requerirn aplicar cada
uno de los pasos mencionados en el proceso KDD. Por ejemplo, para la base de
datos representada por la tabla R, si todos los atributos son importantes y adems,

40


todos los registros son significativos, despus de eliminar cualquier inconsistencia
o ruido el proceso se brincara a la siguiente etapa, sin pasar por la preparacin de
datos.

Transformacin de Datos

Cada algoritmo que se desarrolla siempre establece el tipo y estructura de los
datos que admite. Por ejemplo, un algoritmo de ordenamiento como quicksort
admite con entrada un arreglo de nmeros, por lo que no es posible utilizarlo para
ordenar imgenes. De la misma forma, los algoritmos de minera de datos siempre
Definen un formato y estructura para sus entradas.

Si para la tarea que se est resolviendo se determina utilizar un algoritmo de
minera de datos y los datos no coinciden con la entrada admitida por el algoritmo,
entonces se procede a transformarlos. No obstante en cualquier proceso de
transformacin, cierta cantidad de la informacin de los datos originales se pierde.

Por tanto, un punto fundamental en este proceso es perder la menor cantidad de
la informacin de los datos.

Por ejemplo, considere que se utilizar un algoritmo de clasificacin como C4.5
para construir un rbol que permita clasificar a las clulas como linfoblsticas y
mieloblsticas (las dos familias de leucemia). Dado que el algoritmo C4.5 admite
como entrada una tabla, se requerir transformar a las clulas a este formato. Esta
Transformacin no es trivial, ya que en primera instancia no existe ningn tipo de
relacin natural entre una imagen y una tabla. Sin embargo, si se analiza las
caractersticas de cualquier clula, se podr observar que estas tienen
propiedades como un rea (en pixeles), un dimetro, convexidad, gama de color,
un nmero de grumos entre otras.

41


Estas propiedades se pueden utilizar como atributos de una tabla, donde cada
registro correspondera a una clula especfica, as como se ilustra en la Figura 9.

42


FIG. 9 EJEMPLO DE CMO TRANSFORMAR UNA IMAGEN DE UNA CLULA
A UNA TABLA.

La MD es la parte central del proceso KDD, en la cual se buscan o encuentran
patrones de inters para el usuario. Los patrones descubiertos pueden ser
singrafos, reglas de asociacin, rboles de clasificacin, una red neuronal
entrenada, entre otros.

Para entender el alcance de la MD, hay que comprender qu tipo de tareas se
pueden realizar. Para ello, se identifican caractersticas comunes que sirven para
Agrupar las tareas de MD, que son:

Tipos de BD sobre las que se hace MD: aqu se identifica sobre qu tipos
de bases de datos se trabaja, como data warehouse, bases de datos
relacionales, espaciales, temporales, secuenciales, entre otras. Esto
permite identificar la estructura de los datos a trabajar.

Tipo de conocimiento minado: se determina la estructura del conocimiento a
identificar, que pueden ser caracterizaciones, reglas de asociacin, rboles
de clasificacin, redes neuronales. Los patrones descubiertos pueden ser
descriptivos, es decir, muestran la serie de hechos bajo los cuales se

43


sustenta el patrn, como son los rboles de clasificacin, reglas de
clasificacin, entre otros.

Sin embargo, existen mtodos que no son descriptivos, simplemente dan el
resultado final sin que el usuario pueda conocer el porqu del resultado. Ejemplo
de estos sistemas son las redes neuronales (a estos sistemas se les ve como
cajas negras, se conoce la entrada y la salida pero no se entiende que pasa en el
interior).

Tipo de tcnica utilizada: aqu se define si se utilizan tcnicas estadsticas
de aprendizaje automtico.

Dominios de aplicacin: clasificacin basada en los dominios de trabajo,
que pueden ser qumicos, biolgicos como el DNA, tericos, entre otros.

Otro aspecto importante en toda tarea de MD es identificar si se van a buscar
odescubrir patrones. En un proceso de bsqueda, la minera de datos parte de un
conjunto de datos D y un patrn a buscar S. La tarea consiste en identificar si
existen subestructuras en D que sean idnticas o similares a S. Por otro lado, si la
tarea se aboca a descubrir patrones ocultos, entonces se parte de un conjunto de
datos D y a partir de estos datos, se identifican caractersticas comunes en los
mismos.

Debido a que la MD emplea conocimientos que se han desarrollado en diferentes
reas de investigacin, se ha convertido en un rea multidisciplinaria, en la que
intervienen conceptos de bases de datos, inteligencia artificial, aprendizaje
automtico, entre otras, tal como se ilustra en la Figura 10.

44


FIG. 10. LA MINERA DE DATOS Y SU RELACIN CON OTRAS REAS DE
CONOCIMIENTO.

Leccion 10. Evaluacin de Patrones

En la etapa de evaluacin se extraen los patrones con mayor importancia para el
usuario final. Para lograrlo, es necesario establecer parmetros que nos permitan
comparar la calidad de un patrn con respecto a otro.

La medida ms usual para evaluar patrones es el porcentaje de precisin, en el
cual dado un conjunto de datos D y un patrn P, se determina el porcentaje de
casos en donde el patrn P es vlido correcto con respecto al total de casos en
D. Por ejemplo, considere el caso de una escuela con 200 alumnos, en los cuales
se ha encontrado una regla de clasificacin que dice: si el alumno tiene un
promedio superior a 8 y tiene como mximo 3 faltas en un cuatrimestre, entonces
es un alumno que no reprueba ninguna materia. Para verificar la validez de esta
regla, es necesario determinar para cuantos alumnos en D aplicara la regla, es
decir, cuantos alumnos tienen un promedio mayor a 8, no faltan ms de 3 veces y
no reprueban (soporte) y del nmero obtenido, determinar en cuantos dado el
antecedente, se cumple la consecuencia (confianza). Para este ejemplo, si existen
45 alumnos que cumplen con un promedio superior a 8, no faltan ms de 3 veces
en un cuatrimestre y 50 alumnos que adems no reprueban, entonces el soporte

45


de la regla es de 50/200 = 25%. Por otro lado, si de ellos solo 45 alumnos
cumplenque si tienen promedio superior a 8 y no faltan ms de 3 veces, entonces
no reprueban, se obtendra una confianza de 45/50 = 90%.

Otro aspecto muy importante en todo proceso de evaluacin de patrones es
determinar el umbral a partir del cual un patrn es vlido. Por ejemplo, para el
ejemplo de la BD de la escuela, un 90% de confianza puede resultar muy bueno
para detectar a los alumnos que difcilmente reprueban. Sin embargo, si
cambiamos de dominio de trabajo ese mismo 90% puede ser malo.

Por ejemplo, considere el caso en el cual se est tratando de construir un modelo
que permita predecir si un paciente, a partir de su cuadro clnico, es susceptible a
sufrir algn tipo de cncer. Para este tipo de dominios, un 90% no es suficiente,
requirindose niveles muy cercanos al 100%. Por tanto, la exigencia en la
precisin de los resultados est sujeta al dominio de trabajo y el uso que se le
dar al conocimiento minado.

Actividad cierre Capitulo II Caso de Estudio.
Tomado Fuente: http://es.scribd.com/doc/31587475/Ejemplos-de-Mineria-de-Datos

En la siguiente seccin se presenta un caso real en el cual se ha aplicado con
xito el proceso de minera de datos.

Clasificacin de Leucemias Agudas empleandoMinera de Datos

La Leucemia es una enfermedad que se caracteriza por alterar el proceso
madurativo de las clulas que conforman a la sangre (glbulos rojos, glbulos
blancos, plaquetas y plasma), provocando una proliferacin descontrolada de

46


clulas sanguneas inmaduras. Esta proliferacin se origina a nivel de la mdula
sea.

En la actualidad, para detectar si un paciente padece de esta enfermedad se sigue
la siguiente metodologa. El estudio inicia con un anlisis morfolgico de las
muestras por medio del experto, el cual identifica ciertas caractersticas que le
hagan sospechar si el paciente sufre de la enfermedad. Si es el caso, entonces las
muestras son turnadas a un estudio de cartometra de flujo, el cual sirve para
definir el tipo de leucemia (leucemia linfoblsticas LLA- o mieloblsticas -LMA) y
el subtipo (L1, L2 L3 y MO, M1, M2, M3, M4, M5, M6 y M7). Con base en los
resultados obtenidos, el experto en el dominio prescribe un tratamiento acorde a
las caractersticas de la enfermedad.

Lamentablemente este procedimiento sufre de varios inconvenientes: el anlisis
por observacin es un proceso susceptible a errores, ya que la capacidad de la
visin humana para detectar detalles pequeos es limitada. Aunado a esto,
factores como el cansancio, condiciones de luz, problemas visuales en el experto,
entre otros, lo que disminuye la precisin del diagnstico inicial.

Por otro lado, un estudio de cartometra de flujo no es barato, lo que provoca que
en pases en desarrollo como Colombia los estudios en ocasiones no se puedan
llevar a cabo. Por lo anterior surge la necesidad de desarrollar herramientas de
apoyo al diagnstico mdico que sean confiables y adems, de bajo costo.

Con respuesta a esta necesidad, se est desarrollando una investigacin en el
cual participan investigadores del INAOE IMSS UPP para crear una
herramienta para la deteccin de leucemia aguda a partir de un anlisis
morfolgico de imgenes digitales. En este sistema, el objetivo es extraer
caractersticas de las clulas que permitan construir modelos que sirvan para
clasificar nuevas muestras.

47


Para lograrlo, se propuso una metodologa basada en el proceso KDD, as como
se muestra en la Figura 11

FIG. 11 CLASIFICACIN DE LEUCEMIAS AGUDAS.

El proceso inicia capturando las imgenes a travs de un microscopio ptico de
alta calidad, el cual cuenta con una cmara digital. De este proceso se obtiene una
Base de imgenes, en donde se seleccionan las de mayor calidad (que contengan
caractersticas representativas de la enfermedad). Ese proceso es realizado en
conjunto con los expertos del dominio.

Una vez seleccionadas las imgenes, se procede a limpiarlas, empleando una
serie de filtros que disminuyen imperfecciones. Finalizado este proceso, se
procede a una etapa de segmentacin, en la cual se extraen exclusivamente las
regiones de inters de cada imagen. Cabe hacer mencin que en este proceso

48


intervienen los expertos, ya que una imagen puede contener diferentes tipos de
clulas donde no todas son representativas de la leucemia. Al mismo tiempo, los
expertos en el domino realizaron un proceso de clasificacin, identificando el tipo y
subtipo de la muestra. Esta informacin fue de gran utilidad para el proceso de
minera de datos.

Despus de la segmentacin, se transformaron las clulas a un formato de tabla
(seleccin de caractersticas, Figura 5), donde se extrajeron caractersticas como
el dimetro, media de los valores en tonos de gris, entropa, anisotropa,
correlacin, rea, convexidad, entre otros parmetros. Esta transformacin fue
necesaria, ya que diversos algoritmos de clasificacin, como redes neuronales,
rboles de clasificacin como C4.5 requieren este formato.

A partir de las caractersticas extradas, se probaron diferentes algoritmos. Es
importante mencionar que se utilizaron tanto algoritmos descriptivos como no
descriptivos, ya que los expertos en el dominio no solo estaban interesados en
conocer las clases, sino adems, en identificar las caractersticas de definen a
cada clase.

Este procedimiento se pudo llevar a cabo gracias a la clasificacin de las muestras
que realizaron los expertos en el proceso de seleccin.

Actualmente, el proyecto se encuentra en la fase de evaluacin de resultados, en
donde se han alcanzado clasificaciones con una precisin promedio superior al
90% (para familias como subfamilias). De acerado a los expertos, estos resultados
son muy alentadores, considerando que la precisin alcanzada por los expertos a
travs de un anlisis morfolgico ronda el 40%.

Este es un claro ejemplo en el cual el proceso KDD y la minera de datos se han
usado para identificar patrones complejos, que pueden llegar a tener un fuerte
impacto en la sociedad.

49


1.3 Capitulo III Reglas de Asociacin usadas en Minera de Datos.

Leccin 11. Identificacin de las reglas de asociacin.

Se usar la relacin compras para ilustrar las reglas de asociacin. Mediante el
examen del conjunto de transacciones de compras se pueden identificar reglas de
la forma:
{Pluma} {Tinta}
Esta regla se debe leer de la manera siguiente: si en una transaccin se compra
una pluma, es probable que tambin se compre tinta en esa transaccin. Es una
afirmacin que describen las transacciones de la base de datos; la extrapolacin a
transacciones futuras debe hacerse con cautela, como se analiza en las reglas de
asociacin tiene la forma Izq. Der, donde tanto Izq. como Der. Son conjuntos
de elementos.
La interpretacin de esta regla es que si se compran en una misma transaccin
todos los artculos de Izq., entonces es probable que tambin se compren los
artculos de Der.
Soporte. El soporte de un conjunto de artculos es el porcentaje de transacciones
que contienen todos esos artculos.

El soporte de la regla IzqDer es el soporte del conjunto de artculos Izq. U Der.
Por ejemplo, considrese la regla {pluma} {tinta}. El soporte de esta regla es el
soporte del C lote {pluma, tinta}, que es 75 %.

50


Confianza. Considrense transacciones que contengan todos los artculos de izq.
La confianza de la regla Izq. Der es porcentaje de esas transacciones que
contienen tambin todos los artculos de Der. Ms exactamente, de a sea sop
(Izq.) el porcentaje de transacciones que contienen Izq. y Sop (Izq. U Der) el
porcentaje de transacciones que contienen tanto Izq. como Der. Entonces, la
confianza de la regla Izq. Der es Sop (Izq. U Der/sop (Izq.). La confianza de
cada regla es una indicacin de su fortaleza. Por ejemplo, considrese
nuevamente la regla {Pluma} {Tinta}... La confianza de esta regla es 75%; el 75
% de las transacciones que contienen el lote {pluma} contienen tambin el lote
{Tinta}.

Principales funciones del data mining: Reglas de Asociacin (Asociacin rules)
Reglas fuertes: As se denomina a aquellas reglas que satisfacen un soporte
mnimo (min_sup) y una confianza o confidencia mnima (min_conf).

_ Frecuencia de ocurrencia de un intense (conjunto de tems): es el nmero de
transacciones que contienen el intense.
_ Un intense satisface un soporte mnimo si y solo si su frecuencia de ocurrencia
es superior o igual a min_sup e inferior o igual al nmero de transacciones en D.
_ Si el intense satisface el soporte mnimo entonces se lo denomina intense
frecuente.
_ Principio A priori: Cualquier de sus Principales funciones del data mining:
Reglas de asociacin (Asociacin rules).
Ejemplos de reglas
Basadas en un tipo de valor :
Compra (X,CD) y Compra (X,Reproductor de CD) => Compra
(X,Reproductor MP3)

51


Basadas en la dimensin del dato asociado :
Edad (X,2540) e Ingreso (X,24k48k) => Compra (X,Palm)
Basada en niveles de atraccin edad(X,2540) =>
Compra(X,Notebooks) edad(X,2540) => Compra(X,Computadoras)

Se tiene diferentes niveles de granularidad en las reglas.
Se dispone de una jerarqua de conceptos (productos para el ejemplo).
Los tems de niveles inferiores dispondrn de menos soporte.
Principales funciones del data mining: Reglas de asociacin (Asociacin
rules).
- Si exige que las reglas expuestas posean igual soporte en todos los niveles:

Cuanto ms descienda en la jerarqua, menos soporte dispondr. Esto
implica que perder algunas reglas pero aquellas que cumplan las
condiciones valdran en un contexto general.

- Si accede a menores soportes en los niveles inferiores:

Se corre el riesgo de que la regla no sirva para el contexto general.

- Una regla es redundante si su soporte est cercano a un valor esperado Basado
en la regla de un ancestro. En otras palabras, si bien desciende en el Nivel de
granularidad de la informacin, esta no se traduce en el incremento del
conocimiento. E

Principales funciones de la data mining: Concepto de patrones secuenciales
(Secuencial patterns)

Una secuencia es una lista ordenada de itemsets;
Una secuencia es maximal si no es contenida por otra

52


Cada secuencia maximal es un patrn secuencial
Series temporales son un caso particular de los patrones secuenciales. La
secuencia est dada por algunos parmetros asociados al tiempo.
Aplicaciones especficas:
Retencin de clientes
Marketing focalizado

Clasificacin y prediccin:

Clasificacin versus Prediccin: Predice etiquetas de clases. Categricas mientras
que la prediccin se basa en modelos de Funciones evaluadas-continuas.

Clasificacin:

Mtodo supervisado
Se compone de 2 etapas:
1. Construccin (Entrenamiento)
2. Poda (Pruning).
1. Overfitting
2. Objetivo del pruning
Funcin de splitting
Frena la construccin del rbol si:
_ No existen ms atributos que analizar o
_ No existen ms ejemplos que procesar o

_ Todos los ejemplos para un nodo determinado poseen igual clase Prediccin:
_ Predice el valor para una variable continua
_ Modelos de funciones evaluadas continuas
_ Ejemplos:
_ Regresin lineal simple [Y= Bo. + B1*X]
_ Regresin lineal mltiple [Y= Bo. + B1*x1+ B2*x2 + + Bn*Xn]

53


_ Entre otros

Agrupamiento (Clustering):

Conjunto de datos u objetos reunidos bajo una misma agrupacin en funcin de
alguna medida para asimila y evaluar lavarianza entre grupos y la minimizarla
dentro del mismo

No supervisado
Tipo de acercamientos
_ Orientados al aprisionamiento:
_ K-means:
_ Relativamente eficiente
_ Necesita que se especifique el k (cantidad de grupos a armar o estudiar)
_ No es capaz de manejar ruido y outliers (Efecto similar a la media aritmtica)
_ K-medoids Algoritms
_ No escalable

Tipo de acercamientos:

Continua Orientados al aprisionamiento:
La principal diferencia entre K-means y k-medoids, es que en el primero el
centro del clster no necesariamente es un elemento, mientras que el
segundo requiere que el centro sea un elemento representativo del grupo.
- Jerrquico
Tiene la ventaja de no necesitar especificar la cantidad de grupos a
generar.
Emplea una matriz de distancia entre los registros, para n datos genera
una matriz non que contiene dichas distancias y cuya diagonal principal es
0
Existen dos variantes:

54


Aglomrativo: Va reuniendo elementos desde lo ms particular hasta
obtener el conjunto de datos completo
Divisivo: Va particionado el conjunto de datos completo hasta llegar a la
divisin mnima de los mismos.
Otros acercamientos: Basados en densidad, basados en grilla (detalles a
diferentes niveles de granularidad), etc.

Leccion 12. Algoritmos para la busqueda de reglas asociadas.

Un usuario puede pedir todas las reglas de asociacin que tengan un soporte
mnimo determinado (spin) y una confianza mnima (confmin), y sean desarrollado
varios algoritmos para hallar esas reglas de manera eficiente. Esos algoritmos
trabajan en dos etapas. En la primera etapa se calcula todos los lotes frecuentes
con el soporte mnimo especificando por el usuario. En la segunda etapa se
generan reglas empleando como datos los lotes frecuentes.
Una vez identificados los lotes frecuentes, la generacin de todas las reglas
posibles con el soporte mnimo especificado por el usuario es sencilla.
Considrese el lote frecuente X con el soporte Sx identificando en la primera
etapa del algoritmo. Para generar a una regla a partir de X se divide X en dos
lotes, Izq. y Der. La confianza de la regla Izq. Der es Sx/S izq., la relacin entre
soporte de X y el de Izq. A partir de la propiedad a priori se sabe que el soporte
de Izq. es mayor que spin y, por tanto, se han calculado de soporte de Izq. en la
primera etapa del algoritmo. Los valores de confianza de la posible regla se
pueden obtener calculando la relacin Sop (X) / Sop (Izq.) y, luego, comparando
su relacin.
En General, la etapa ms costosa del algoritmo es el clculo de los lotes
frecuentes, y se han desarrollado muchos algoritmos diferentes para llevar a cabo
de manera eficiente. La generacin de reglas es dada por la capacidadad de

55


porder identificar todos los lotes frecuentes y larelacion que cada una de ellas
tiene.
Algoritmo de Ordenamiento Quicksort.
Fuente url: http://lc.fie.umich.mx/~calderon/programacion/notas/Quicksort.html

Sea x un arreglo y n el nmero de elementos en arreglo que se debe ordenar.
Elegir un elemento a de una posicin especifica en el arreglo (por ejemplo, a
puede elegirse como el primer elemento del arreglo. Suponer que los elemento de
x estn separados de manera que a est colocado en la posicin j y se cumplen
las siguientes condiciones.

1.- Cada uno de los elementos en las posiciones de 0 a j-1 es menor o igual que a.
2.- Cada uno de los elementos en las posiciones j+1 a n-1 es mayor o igual que a.

Observe que si se cumplen esas dos condiciones para una a y j particulares, a es
el j-simo menor elemento de x, de manera que a se mantiene en su posicin j
cuando el arreglo est ordenado en su totalidad. Si se repite este procedimiento
con los subarreglos que van de x[0] a x[j-1] y de x[j+1] a x[n-1] y con todos los
subarreglos creados mediante este proceso, el resultado final ser un archivo
ordenado.
Ilustremos el quicksort con un ejemplo. Si un arreglo esta dado por:

x = [25 57 48 37 12 92 86 33]

y el primer elemento se coloca en su posicin correcta, el arreglo resultante es:

56


x = [12 25 57 48 37 92 86 33]

En este punto 25 esta en su posicin correcta por lo cual podemos dividir el
arreglo en

x = [12] 25 [57 48 37 92 86 33]

Ahora repetimos el procedimiento con los dos subarreglos

x = 12 25 [48 37 33] 57 [92 86]

x = 12 25 33 [37 48] 57 [86] [92]

x = 12 25 33 [37 48] 57 86 92

x = 12 25 33 37 48 57 86 92

El procedimiento es entonces.

Buscar la particin del arreglo j.
Ordenar el subarreglo x[0] a x[j-1]
Ordenar el subarreglo x[j+1] a x[n-1]

57


Su implementacin en Java es:
/************************************
public void quiksort(int x[],int lo,int ho)

{

int t, l=lo, h=ho, mid;

if(ho>lo)

{

mid=x[(lo+ho)/2];

while(l<h)

{

while((l<ho)&&(x[l]<mid)) ++l;

while((h>lo)&&(x[h]>mid)) --h;

if(l<=h)

{

58


t = x[l];
x[l] = x[h];
x[h] = t;
++l;
--h;
}
}
if(lo<h) quiksort(x,lo,h);
if(l<ho) quiksort(x,l,ho);
}
}
Fuente url: http://lc.fie.umich.mx/~calderon/programacion/notas/Quicksort.html

Leccion 13.Jerarquias.

En muchos casos se imponen una jerarqua, la jerarqua categrica hace
referencia al conjunto de artculos. En presencia de jerarquas cada transaccin
contienen implcitamente, para cada uno de sus artculos, todos los ancestros de
esos artculos en la jerarqua. Por ejemplo, considrese la jerarqua de categoras,
dada esta jerarqua, la relacin compras se incrementan conceptualmente con los
ocho registros es decir, la relacin compras tiene todas las Tuplas..
La jerarqua permite detectar las relaciones entre artculos de diferentes niveles
de la jerarqua. Por ejemplo, el soporte del lote {tinta, Jugo} es del 50%, pero si se
sustituye jugo por la categora ms General bebidas, el soporte del lote resultante
{tinta, bebidas} aumenta en 75%. En General, el soporte de cada lote solo puede

59


aumentar y se sustituye un artculo por alguno de sus ancestros de la jerarqua
ES.
Es de anotar que el artculo en este caso es jugo, pero se debe tener en cuenta
que su ancestro es la categora bebidas.
Suponiendo que se aaden fsicamente la verdad los ocho registros de la
relacin compras, se puede emplear cualquier algoritmo para el clculo de los
lotes frecuentes de la base de datos incrementada... Suponiendo que la jerarqua
quepa en memoria principal, tambin se puede llevar a cabo la expresin sobre la
marcha mientras examinan las bases de D a datos, a modo de optimizacin.

60


Papelera Bebidas

Figura 12. Taxonoma de una categora ES.
IDTRANS IDCLI FECHA PRODUCTO CANTIDAD
111 201 5/1/99 PAPELERIA 3
111 201 5/1/99 BEBIDAS 9
112 105 6/3/99 PAPELERIA 2
112 105 6/3/99 BEBIDAS 1
113 106 5/10/99 PAPELERIA 1
113 106 5/10/99 BEBIDAS 1
114 201 6/1/99 PAPELERIA 4
114 201 6/1/99 BEBIDAS 5

FIGURA 13. INSERCIN EN LA RELACIN COMPRAS CON UNA JERARQUA.
Tinta
Pluma
Leche Jugo

61


Leccion 13.Redes Bayesianas.

La bsqueda de relaciones causales suponen un desafo, si determinamos
sucesos estn relacionados, hay muchas explicaciones posibles. Por ejemplo,
Supngase que las plumas, los lpices y la tinta se compran juntos con frecuencia.
Pudiera ser que la compra de uno de estos artculos (por ejemplo, la tinta)
dependiera casualmente de la compra de otro (por ejemplo, las plumas). O bien
pudieran ser que la compra de uno de esos artculos (por ejemplo, las plumas)
estuviese fuertemente correlacionado con la compra de otro de ellos (por ejemplo,
los lpices) debido a algn fenmeno subyacente (por ejemplo, la tendencia de los
usuarios a pensar a los instrumentos de escritura conjuntamente) que influyen
casualmente en ambas compras. Cmo se identifican las relaciones casuales
que se cumplen realmente entre estos sucesos en el mundo real?
Un enfoque que se puede considerar para una posible combinacin de relaciones
casuales entre las variables de los sucesos de inters y evaluar la posibilidad de
cada combinacin con base en los datos disponibles. S se consideran cada
combinacin de relaciones causales como un modelo del mundo real subyacente
a los datos recolectados, se pueden asignar una puntuacin a cada modelo
considerando su consistencia (frecuencia; en trminos de probabilidades, con
algunas suposiciones simplificadoras) con los datos observados. /***Para una
mejor documentacin se debe hacerun repaso de las tematicas como las Redes
Bayesianas, Teoria de Grafos, Arboles de decisin, Algoritmos de Quickshortetc;
ya que no son el objetivo del curso) sin embargo se hace un resumen con la
fuente para que el estudiante realice un repaso all o donde lo requiera***/

Las redes bayesianas son grafos que se pueden utilizar para escribir una clase de
estos modelos, con un nodo por variable o suceso y arcos entre los nodos para

62


indicar la casualidad. Por ejemplo, un buen modelo de ejemplo de plumas, lpices
y tinta puede verse en lafigura14en General, el nmero de modelos posibles es
exponencial en el nmero de variables, y considerar todos los modelos resulta
costoso, por lo que se evala algn subconjunto de todos los modelos posibles.

FIGURA 14. GENERALIDAD DE UNA RED BAYESIANA

Leccion 14. Arboles de Decision. (Repaso)

Fuente: http://www.mitecnologico.com/Main/ArbolesDeDecision

El rbol de decisin es un diagrama que representan en forma secuencial
condiciones y acciones; muestra qu condiciones se consideran en primer lugar,
en segundo lugar y as sucesivamente. Este mtodo permite mostrar la relacin
que existe entre cada condicin y el grupo de acciones permisibles asociado con
ella.
Un rbol de decisin sirve para modelar funciones discretas, en las que el objetivo
es determinar el valor combinado de un conjunto de variables, y basndose en el
valor de cada una de ellas, determinar la accin a ser tomada.
Los rboles de decisin son normalmente construidos a partir de la descripcin de
la narrativa de un problema. Ellos proveen una visin grfica de la toma de
decisin necesaria, especifican las variables que son evaluadas, qu acciones
deben ser tomadas y el orden en la cual la toma de decisin ser efectuada. Cada
Pensar en
instrumentos de
escritura

Comprar
lpices
Comprar
plumasplplu
mas plumas
plumas
Comprar
tinta

63


vez que se ejecuta un rbol de decisin, solo un camino ser seguido
dependiendo del valor actual de la variable evaluada.

Se recomienda el uso del rbol de decisin cuando el nmero de acciones es
pequeo y no son posibles todas las combinaciones.

Uso de rboles decisiones.
El desarrollo de rboles de decisin beneficia al analista en dos formas. Primero
que todo, la necesidad de describir condiciones y acciones llevan a los analistas a
identificar de manera formal las decisiones que actualmente deben tomarse. De
esta forma, es difcil para ellos pasar por alto cualquier etapa del proceso de
decisin, sin importar que este dependa de variables cuantitativas o cualitativas.
Los rboles tambin obligan a los analistas a considerar la consecuencia de las
decisiones.
Se ha demostrado que los rboles de decisin son eficaces cuando es necesario
describir problemas con ms de una dimensin o condicin. Tambin son tiles
para identificar los requerimientos de datos crticos que rodean al proceso de
decisin, es decir, los rboles indican los conjuntos de datos que la gerencia
requiere para formular decisiones o tomar acciones. El analista debe identificar y
elaborar una lista de todos los datos utilizados en el proceso de decisin,
aunque el rbol de decisin no muestra todo los datos.

Si los rboles de decisin se construyen despus de completar el anlisis de flujo
de datos, entonces es posible que los datos crticos se encuentren definidos en el
diccionario de datos (Tener en cuenta lo aprendido en el curso de Base de Datos
respecto a este aspecto), el cual describe los datos utilizados por el sistema y
donde se emplean. Si nicamente se usan rboles de decisiones, entonces el
analista debe tener la certeza de identificar con precisin cada dato necesario para
tomar la decisin.
Los rboles de decisin no siempre son la mejor herramienta para el anlisis de
decisiones. El rbol de decisiones de un sistema complejo con muchas secuencias
de pasos y combinaciones de condiciones puede tener un tamao considerable. El
gran nmero de ramas que pertenecen a varias trayectorias constituye ms un
problema que una ayuda para el anlisis. En estos casos los analistas corren el
riesgo de no determinar qu polticas o estrategias de la empresa son la gua para

64


la toma de decisiones especficas. Cuando aparecen estos problemas, entonces
es momento de considerar las tablas de decision.

Leccion 15. AlgoritmoC.45
Fuentes:
1. http://es.scribd.com/doc/57484779/Algoritmo-c45-Arboles-de-Decision
2. https://docs.google.com/a/unad.edu.co/viewer?a=v&q=cache:pr7QuqiJ4VgJ:su
bversion.assembla.com/svn/easy7550/material/apuntes/AlgoritmoC4.5%28200
5-II-
B%29.pdf+&hl=es&gl=co&pid=bl&srcid=ADGEESh_udX77m_hQeRfpIS7It_OD
oZ2LhuaxOEEijoBFgU-
m5gS5NWlf41aS0zbbrxKqRFn7NziFq6NMSzDOqDbUHeWpfYGw2yW1k7BWI
0cIyC9-
zf3OwWb2Zc3NFuXxajFfl1U9btp&sig=AHIEtbRQX530TyZ_qKL8fcQxYl-
ARFrbjA&pli=1

Algoritmo C4.5. : J.R. QUINLAN (1994): C4.5 para atributos continuos y discretos.
J.R. Quinlan propone una mejora, una extensin del algoritmo ID3, al que
denomina C4.5, estealgoritmo genera un rbol de decisin a partir de los datos
mediante participaciones realizadasrecursivamente. El rbol se construye
mediante la estrategia de profundidad primero (depth first).El algoritmo C4.5 utiliza
una tcnica heurstica conocida como proporcin de ganancia (gainratio). Es una
medida basada en informacin que considera diferentes nmeros y
diferentesprobabilidades de los resultados de las pruebas.El algoritmo considera
todas las pruebas posibles que pueden dividir el conjunto de datos y selecciona la
prueba que le haya generado la mayor ganancia de informacin. Para cada
atributodiscreto, se considera una prueba con n resultados, siendo n el nmero de
valores posibles quepuede tomar el atributo. Para cada atributo continuo, se
realiza una prueba binaria (1,0) sobrecada uno de los valores que toma el atributo
en los datos. En cada nodo, el sistema debe decidircual prueba escoge para dividir
los datos.Segn Espino (2005) los tres tipos de pruebas posibles propuestas para
el C4.5 son:

65


- La prueba estndar para las variables discretas, con un resultado y una rama
para cada valor posible de la variable.
- Una prueba ms compleja, basada en una variable discreta, en donde los valores
posiblesson asignados a un nmero variable de grupos con un resultado posible
para cada grupo, en lugar de para cada valor.
-Si una variable A tiene valores numricos continuos, se realiza una prueba binaria
conresultados A<=Z y A>Z, para lo cual debe determinar el valor limite Z.Todas
estas pruebas se evalan observando la ganancia resultante de la divisin de
datosqueproducen. Ha sido til agregar una restriccin adicional: para cualquier
divisin al menos dos delos subconjuntos C(i) debe contener un nmero razonable
de casos. Esta restriccin, que evita lassubdivisiones casi triviales, es tenida en
cuenta solamente cuando el conjunto C es pequeo.

CARACTERSTICAS DEL ALGORITMO C4.5:
- Permite trabajar con valores continuos para los atributos, separando los
posiblesresultados en 2 ramas Ai<=N y Ai>N.
-Los arboles son menos frondosos, ya que cada hoja cubre una distribucin de
clases nouna clase en particular.
-Utiliza el mtodo divide y vencers para generar el rbol de decisin inicial a
partir de un conjunto de datos de entrenamiento.
-Se basan en la utilizacin del criterio de proporcin de ganancia (gain ratio),
definido como I(Xi,C)/H(Xi). De esta manera se consigue evitar que las variables
con mayor nmero de categoras salgan beneficiadas en la seleccin.
-Es recursivo.

ATRIBUTOS USADOS POR EL ALGORITMO C4.5.

Los atributos o variables poseen caractersticas propias que las diferencian una de
las otras, existen algoritmos que solo se desarrollan para atributos en particular,
en el caso del algoritmoC4.5, los atributos para los cuales se desarrollo dicho
algoritmo son los siguientes

66


Atributos de valores continuos: El algoritmo C4.5 no solo se desarrolla para
atributos de valoresdiscretos como en el caso del algoritmo ID3 tambin se
pueden incorporar atributos con valorescontinuos, se transforma estas variables o
atributos en variables categricas; es decir, se dividenestos valores en intervalos
discretos, de forma que el atributo tendr siempre valorescomprendidos en uno de
estos intervalos.
Medidas alternativas en la seleccin de atributos: El algoritmo ID3 utiliza la
ganancia deinformacin, para la eleccin del atributo, sin embargo estos atributos
no son buenos predictoresde la funcin objetivo para nuevos ejemplos, ya que
dicha ganancia introduce un sesgo quefavorece a los atributos con muchos
valores distintos, debido a que dividen el conjunto deejemplos en muchos
subconjuntos, lo que hace que la ganancia de informacin seaalta.
Una medida alternativa que propuso Quinlan (1993) fue la gatin ratio (proporcin
de ganancia)ganancia que usa el algoritmo C4.5 y que ha resultado un xito.

Atributos con valores perdidos: En ciertos casos existen atributos de los cuales se
conoce su valor para algunos ejemplos, y para otros no. En estos casos lo ms
comn es estimar el valorbasndose en otros ejemplos de los que si se conoceel
valor. Normalmente se fija la atencinen los dems ejemplos de ese mismo nodo.
As, al ejemplo de valor desconocido se le da el valorque ms aparezca en los
dems ejemplos.
Actividad de cierre Capitulo III

Usando las referencias del modulo y algunas de internet, de documentacin y
anlisis de corte acadmico, ejemplarizar un caso desde el punto de vista de:
1. El algoritmo de Quicksort.
2. El algoritmo C.45.
3. Redes Bayesianas
4. Arboles de decisin.

67


UNIDAD II PROCESO DE MINERIA DE DATOS.

2.1. CapituloIV: El Modelo de CRISP DM.

Leccion 16. Generalidades

La metodologa crips-dm es un modelo procesos jerrquico. El nivel superior, el
proceso se divide en seis fases genricas distintas, que van desde la comprensin
del negocio hasta la implementacin de los resultados del proyecto. El siguiente
nivel refina cada una de esas fases, que estn compuestas de diversas tareas
genricas. En este nivel, la descripcin de lo suficientemente genrica como para
abarcar todos los escenarios de minera de datos.
El tercer nivel especializa dichas tareas para situaciones especficas. Por ejemplo,
la tarea genrica puede ser la limpieza de los datos, y la tarea especializada sera
la limpieza de valores numricos o de valores de categoras. El cuarto nivel es la
instancia de proceso, es decir, un registro de acciones, decisiones y resultados de
una ejecucin real de un proyecto de minera de datos.
El modelo tambin analiza las relaciones entre las diferentes tareas de minera de
datos. Proporciona una secuencia idealizada de acciones que debe tener lugar
durante un proyecto de minera de datos; sin embargo, no trata de dar todas las
posibles rutas que puede seguirse para llevar a cabo esas tareas. En la tabla 2. Se
muestran las diferentes fases del modelo.

68


Fase
comprensin del negocio
comprensin de los datos
Preparacin de los datos
Modelado evaluacin
Evaluacin
Implantacin

TABLA 2. FASES DE MODELO CRIPS-DM.
A continuacin vamos a describir brevemente el objetivo de cada fase del modelo
CRISP-DM(Cross- Industry Standard Process for Data Mining) en las tareas
asociadas con cada una de ellas, aunque vale mencionar que existe tambin la
metodolgia SEMMA (Sample, Explore, Modify, Model, Assess) la cual no se
abordara ya que es orientada a los productos SAS los cuales son propietario.
Siendo estas dos las mas usadas en el proceso de MD.
Fuentes:
1. http://anibalgoicochea.com/2009/08/11/crisp-dm-una-metodologia-para-
proyectos-de-mineria-de-datos/
2. http://www.josebhuerta.com/datamining.htm

69


Leccion 17. Comprensin del Negocio.
Objetivos y requerimientos desde una perspectiva no tcnica

Esta fase se centra en comprender los requisitos de objetivos del proyecto desde
la perspectiva del negocio, esta fase convierte el problema de negocio en una
definicin del problema de minera de datos y prepara el plan preliminar para el
proyecto. Las principales tareas implicadas son: determinar los objetivos del
negocio, evaluar la situacin, determinar el objetivo de la minera de datos y
generar un Plan de proyecto. En esta fase es muy importante ser explicitos en el
desarrollo de la Comprension del negocio pero a la vez ser muy acertados para
determinar las necesidades de informacin y todo lo referente al objeto de
negocio; aqu no hay limites ni menos criterios de actuacin, todo lo determina y lo
aduce cada estudiante que hace el anlisis, para ello se basa en diagramas
organizacionales, diagramas basados en UML, organigramas por objetivos y
funciones, etc, es decir todo aquello que puedan indicar e ilustrar el qu del
negocio. La documentacin es muy importante para el buen desarrollo del modelo
CRISP- DM.
En esta etapa se deben documentar los procesos de:

- Establecimiento de los objetivos del negocio (Contexto inicial, objetivos,
criterios de xito, etc)
- Evaluacin de la situacin (Inventario de recursos, requerimientos,
supuestos, terminologas propias del negocio,)
- Establecimiento de los objetivos de la minera de datos (objetivos y criterios
de xito, lo que se quiere lograr)
- Generacin del plan del proyecto (plan, herramientas, equipo y tcnicas)

70


Leccion 18. Comprensin de los datos.
Aqu se debe familiarizar con los datos teniendo presente los objetivos del
negocio, detallados en la etapa anterior, si e la etapa anterior no se fue suficiente
para poder documentar no se lograra aqu un buen resultado.

Esta fase incluye las tareas de recopilacin inicial de los datos y preocupa de
establecer las principales caractersticas de estos. Dichas caractersticas incluyen
la estructura de datos, la calidad de los datos y la identificacin de los posibles
conjuntos de inters de los datos. Las tareas incluidas en esta fase que se deben
documentar son:
- Recoleccin de los datos inciales ( Ingenieria de requisitos)
- Descripcin de los datos. Diagramas de flujo.
- Exploracin de los datos. Coherencia de los datos, con su funcin y su
entorno
- Verificacin de la calidad de los datos.Integridad de los datos respecto al
servicio que prestan y la la utilidad que brindan. Diccionario de datos.
- Integridad de los datos desde sus antecesores y para sus servidores. Vida
til de la informacin y reusabilidad de datos.

Preparacion de los Datos (Obtener la vista minable o dataset).

Esta fase implica todas las actividades para construir el conjunto de datos final al
que puedan aplicar ese directamente las herramientas de modelado. Las tareas
que componen esta fase son:
- Seleccin de datos.

71


- Limpieza de los datos.
- Construccin de los datos.
- Iintegracin de los datos.
- Formateo los datos.

Esta es una etapa crtica. En esta etapa se acondicionan los datos que luego van
a alimentar el modelo o la herramienta de anlisis. La salida de esta etapa es
uno o varios conjuntos de datos que sern utilizados por la etapa de modelado y
validacin, para ello se recomienda realizar un informe donde describa los
conjuntos de datos generados en esta etapa. Las tareas que se deben ejecutar
son:
Decidir los datos a utilizar para el anlisis. Los criterios deben incluir la relevancia
para el objetivo de minera de datos, calidad y restricciones, tcnicas (volumen o
tipos dedatos).
La seleccin implica la seleccin tanto de los atributos como deregistros.

Las salidas de esta etapa son:

- La lista de datos, incluidos/excluidos y lasrazones de ello.
- La inclusin / exclusin de registros, (pacientes) es devital importancia en
protocolos en ciertos casos o que se aplique en areas como la medicina.
- La inclusin/exclusin de atributos, suele ser en smismo un problema de la
mineria de datos.
En la preparacin de los Datos, se debe hacer una seleccin teniendo en cuenta:
Cuantos datos son suficientes ?
Test de Hiptesis ?
Variable continuo o nominal ?
Machine Lerning ?

72


Entranamiento/Validacin/Evaluacin ?

Leccion 19. Modelado.
Esta fase es la operacin de minera de datos propiamente dicha e implica
seleccionar las tcnicas de modelado, seleccionar los parmetros de modelado y
evaluar el modelado creado. Las tareas de esta fase son:
Seleccionar la tcnica modelado
Generar el diseo de prueba
Construir al modelado
Evaluar el modelo.
Es importante establecer una relacin entre las variables explicativas y las
variables objeto del estudio, que posibiliten inferir el valor de las mismas con un
nivel de confianza determinado.
Las tcnicas utilizadas para el modelado de los datos incluyen mtodos
estadsticos tradicionales (tales como anlisis discriminante, mtodos de
agrupamiento, y anlisis de regresin), as como tcnicas basadas en datos tales
como redes neuronales, tcnicas adaptativas, lgica fuzzy, rboles de decisin,
reglas de asociacin y computacin evolutiva.
Finalmente, la ltima fase del proceso consiste en la valoracin de los resultados
mediante el anlisis de bondad del modelo o modelos, contrastado con otros
mtodos estadsticos o con nuevas poblaciones muestrales.

73


Leccion 20. Evaluacion e Implantacin.

Esta fase vlida el modelo desde el punto de vista del anlisis de los datos. El
model y las etapas seguidas durante el modelado se verifican dentro contexto de
la consecucin de los objetivos de negocio.
Las tareas incluidas en esta fase son:
Evaluacin de los resultados
Revisin del proceso
Determinacin de los pasos siguientes repetitivos.

Implantacin: el conocimiento obtenido y reflejado en el modelo tiene que
organizarse y presentarse de una forma que sea comprensible por parte de los
usuarios de la organizacin.
La fase de implementacin puede ser tan simple como generar un informe o tan
compleja como implementar procesos repetidos de minera de datos por toda la
empresa. El usuario de la empresa es quien se encarga normalmente de ejecutar
la fase de implementacin. Los pasos correspondientes son dos. Planificacin de
la implementacin y produccin del informe final y revisin del mismo.

Actividad de cierre Capitulo IV
Usando la explicacin del capitulo IV, buscar un ejemplo en el entorno y aplicarle
las etapas del modelo de CRIPS-DM, ayudndose de las herramientas necesarias
para crear un informe ejecutivo a la empresa en estudio.

74


75


2.2 Capitulo V. Herramientas de Minera de Datos

Las herramientas de la primera etapa ofrecen tpicamente a los usuarios un
simple algoritmo de mineria de datos que opera sobre un conjunto de datos
almacenados de manera local.

Algunos ejemplos incluyen el uso de algoritmos de clasicacin como el C4.5,
algoritmos de agrupamiento como el K-means y otros algoritmos basados en
reglas de asociacin. Tales herramientas fueron presentadas como programas
independientes, obteniendo sus datos de entrada desde la linea de comandos o
va a un archivo de con guracin.

Las herramientas de la segunda etapa combinan una coleccin de diferentes
algoritmos de minera de datos sobre un marco de trabajo comn, y permiten a los
usuarios proveer datos de entrada de varias fuentes de datos. A continuacin se
describen algunas de estas herramientas:

Leccion 21. WEKA

(Waikato Environment for Knowledge Analysis - Entorno para Anlisis del
Conocimiento de la Universidad de Waikato), desarrollado por la Universidad de
Waikato en Nueva Zelanda.

Es un sistema escrito en Java y distribuido bajo los trminos de la licencia pblica
GNU. Contiene una coleccin del estado del arte de los algoritmos de aprendizaje
maquina y herramientas de reprocesamientode datos escritos en Java. Provee un
soporte extenso para el proceso completo de minera de datos, incluyendo la

76


preparacin de los datos de entrada, la evaluacin de los esquemas de
aprendizaje, la visualizacinde los datos de entrada y de los resultados del
aprendizaje. Esta herramienta es accedida comnmente a travs de una interfaz
comn para que sus usuarios puedan comparar diferentes mtodos e idnticas
esos que sean ms apropiados para el problema a tratar. Puede ser ejecutado
desde casi cualquier plataforma y ha sido probado sbrelos sistemas operativos
Windows, Linux y Macintosh. En Weka, las herramientas de la segunda etapa
combinan una coleccin de diferentes algoritmos de mineria de datos sobre un
marco de trabajo comn, y permiten a los usuarios proveer datos de entrada de
varias fuentes de datos.

Weka contiene una coleccin del estado del arte de los algoritmos de aprendizaje
maquina y herramientas de preprocesamientode datos escritos en Java. Provee
un soporte extenso para el proceso completo de mineria datos, incluyendo la
preparacin de los datos de entrada, la evaluacin de los esquemas
reaprendizaje, la visualizacin de los datos de entrada y de los resultados del
aprendizaje.

Esta herramienta es accedida comnmente a travs de una interfaz comn (Figura
15) para que sus usuarios puedan comparar diferentes mtodos e idntica esos
que sean ms apropiados para el problema a tratar. en Weka, todo el preproceso
de mineria de datos se realiza en una sola computadora, dado que los algoritmos
pueden ser ejecutados solo localmente, lo que demanda una gran cantidad de
memoria principal maxime cuando la base de entrenamiento (datos de entrada)
son grandes volmenes de informacin.

El objetivo principal de Weka son los algoritmos de clasicacin, los cuales
mapean un conjunto de instancias con base en un conjunto finito de clases. Cada
instancia de los datos es descrita por los valores de sus atributos. Por ejemplo,
predecir si va a llover basado en la observacin de datos se realiza en una sola
computadora, dado que los algoritmos pueden ser ejecutado solo localmente.

77


FIGURA 15. EXPLORADOR DE WEKA.

Clasicacin. La meta del proceso de obtencin de un clasicador, es derivar un
clasicador de un conjunto etiquetado de datos (un conjunto de instancias de
datos que tienen asignada su clase correspondiente). La idea es que un
clasicador obtenido del conjunto de datos etiquetados pueda ser usado para
predecir las clases de instancias de datos futuras.

Leccion. 22. IlliMine.

Es otra herramienta de minera de datos la cual es un paquete libre, implementado
en C++ y desarrollada por el Departamento de Ciencias Computacionales de la
Universidadde Illinois en conjunto con el Data Mining Resecar Group y el DAIS
(Data And Informacin Sistemas) Resecar Laboratorio. Ilimine incluye algoritmos
de data cubing, asociacin, mineria de patrones secuenciales, minera de

78


patrones grcosy clasicacin.

Leccion. 23 Rattle.

Usada para analizar colecciones de datos muy grandes. Rattle presenta
resumenes estadsticos y visuales de datos, transforma los datos en formas que
pueden ser fcilmente modeladas, construye modelos supervisados y no
supervisados a partir de los datos, presenta el rendimiento de los modelos
graficamente y da una puntuacin a los conjuntos de datos nuevos.

A travs de una interfaz de usuario simple y lgica basada en Gnome puede ser
usado para realizar proyectos de minera de datos. Es posible tambin realizar
proyectos de minera de datos ms especializados haciendo uso del lenguaje
estadstico de licencia libre.

Rattle puede ser ejecutado sobre plataformas GNU/Linux, Macintosh OS/X y
Windows. Su objetivo es proveer una interfaz intuitiva que lleve al usuario a travs
de los pasos bsicos de la minera de datos, al igual que ilustrar el cdigo R usado
para lograr esto. Tambin provee un punto de apoyo para el procesamiento y
modelado ms sofisticado en lenguaje R puro, as como para minera de datos
avanzada y sin restricciones.

Leccion 24. Rapid Miner

Rapid Miner (ms formalmente conocido como YALE) es una de las principales
herramientas para prototipo y minera de datos a nivel mundial de licencia pblica.
Desarrollado puramente en Java, contiene una API para su fcil uso desde
programas de terceros. Ofrece una amplia variedad de diferentes algoritmos y
mtodos los cuales pueden ser combinados de manera accesible y anidada

79


arbitrariamente. Yale abstrae sus mtodos bajo el concepto de operadores
contando con ms de 400, y ofrece un enfoque de combinacin de operadores
como un grafo dirigido para representar el proceso de descubrimiento de
conocimiento (Knowledge Discover).

En este enfoque cada vrtice del rbol corresponde a un operador sencillo,
permitiendo a los usuarios la fcil incorporacin de ciclos dentro de sus
experimentos. Los ciclos son esenciales para muchas tareas como optimizacin
de parmetros, seleccin de caractersticas o la aplicacin de mtodos de
aprendizaje iterativos. Yale provee un sistema interno de administracin de datos,
permitiendo vistas arbitrarias de los datos sin la necesidad de duplicarlos. Esto es
esencial para construcciones a gran escala o para la simulacin de minera de
datos distribuida. Esta administracin de los datos tambin hace posible manejar
los datos tan transparente como sea posible ante los usuarios y desarrolladores.
Finalmente YALE es fcil de extender dado que muchos plugins que enriquecen
su funcionalidad base ya existen. Estos plugins actualmente cubren texto, audio,
series de tiempo, procesamiento multimedia, simulacin de lujo de datos,
agrupamiento y minera de datos distribuida.

Leccion. 25. Knime.

Knime es una plataforma modular de datos que permite al usuario crear
visualmente dibujos de los datos. Permite ejecutar selectivamente algunas o todas
los pasos del anlisis para posteriormente consultar los resultados a travs de
vistas interactivas sobre datos y modelos. La versin base de Knime incorpora ya
ms de 100 nodos de procesamiento para entrada/salida de datos, procesamiento
y limpieza, modelado, anlisis y minera de datos entre otras cosas.

Incluye todos los modulos de anlisis de WEKA y los plugings adicionales que

80


premiten de sripts de cdigo R para que sean ejecutados ofreciendo un gran
acceso a bibliotecas de rutinas estadsticas. Est basado en la plataforma Eclipse
y brinda una fcil extensibilidad con ayuda de su API modular.Subsecuentemente,
aparecieron las herramientas de la tercera etapa, que se enfocan en resolver las
limitantes para trabajar sobre un modelo cerrado, esto es localmente, como lo
hacen las herramientas de la segunda generacin. Algunos ejemplos de
herramientas de la tercera generacin son los siguientes:

Actividad de Cierre Capitulo V.

Realizar un paralelo de al menos 5 herramientas para el proceso de Mineria de
Datos haciendo nfasis en las ventajas y desventajas de cada una de las que se
mencionen.

2.3. Capitulo VI Ambientes de Trabajo en Grid

Leccion 26. Grid WEKA

Grid Weka es una herramienta desarrollada en la Universidad de Dubln que
mdifica Weka para permitir el uso de mltiples recursos computacionales
mientras se ejecuta el anlisis de datos. En este sistema, un conjunto de tareas de
minera de datos pueden ser distribuidas a travs de muchas computadoras en un
ambiente ad-hoc o cerrado.

Las tareas que pueden ser ejecutadas usando Grid Weka incluyen: construir un
clasicador en una mquina remota, clsifica un conjunto de datos empleando un
clasicador previamente construido, probar un clasicador con un conjunto de
datos o empleando validacin cruzada, etc. Est constituido de dos componentes

81


principales: Weka Server y Weka Cliente. El servidor est basado en el Weka
original.

FIGURA 16. GRID WEKA, ESCENARIO DE USOS.

Cada mquina que participa en un Weka Grid es controlada desde el servidor. El
cliente Weka es el responsable de aceptar una tarea de aprendizaje y los datos de
entrada de los usuarios para distribuir el trabajo sobre el Grid. A la vez, el cliente
implementa la funcionalidad necesaria para el balanceo de carga y el monitoreo de
fallas. El servidor traduce las peticiones del cliente en llamadas a las funciones
Weka correspondientes. Tambin ofrece funcionalidades adicionales como la
recuperacin de fuentes de datos del servidor de almacenamiento local despus
de una falla. La figura 16 ilustra un escenario de usos.

An cuando el Grid Weka provee una manera de usar mltiples recursos para
ejecutar tareas de minera de datos de manera distribuida, ste fue diseado para
trabajar dentro de un ambiente ad-hoc, el cual no constituye un Grid por s mismo.

De manera particular, la invocacin de los recursos remotos en Grid Weka no est
orientada a servicios y hace uso de soluciones especcas que no toman en
consideracin los aspectos fundamentales del Grid, como la interoperabilidad,

82


seguridad, etc.

Los creadores proponen una arquitectura para construir un sistema colaborativo y
distribuido de descubrimiento de conocimiento dentro de un ambiente de cmputo
basado en el Grid.

Este es un enfoque genrico originado de la necesidad de procesos de
descubrimiento de conocimiento en la industria bio-informtica, donde los
procesos complicados de anlisis de datos son construidos usando un enfoque en
pipeline. A su vez ellos proponen la implementacin de su arquitectura.

Leccion 27. Discovery Net

Discovery Net es una herramienta que provee un modelo de cmputo orientado a
servicios, permitiendo a los usuarios conectarse y hacer uso del software de
anlisis de datos al igual que las fuentes de datos que son hechas para estar
disponibles en lnea a los clientes.

FIGURA 17. COMPONENTES DE DISCOVERY NET.
Est basado en una visin amplia que se enfoca en soportar el proceso completo,
desde la captura hasta la visualizacin. Sin embargo, Discovery Net no est

83


pensado como una herramienta de uso directo, sino que necesita del trabajo
conjunto de desarrolladores y clientes para dirigir el proceso del descubrimiento
del conocimiento. La Figura 17. Muestra los componentes de la arquitectura.

De igual manera presenta una arquitectura de software basada en servicio para
minera de datos distribuida y de alto rendimiento en ambientes Grid y su
implementacin llamada Criminar. En este trabajo presentan dos modelos de
ejecucin para el servicio de minera de datos. El primero es una adaptacin al
Grid de la herramienta Weka al que llamaron Minera de datos centralizada y el
segundo es una versin distribuida del mismo que hace uso.

84


Leccion 28. Componentes de un Modelo GridMiner

FIGURA 18. COMPONENTES DE GRIDMINER.
Cada vez hay ms herramientas comerciales de minera de datos en el mercado,
las caractersticas ms importantes de las herramientas de minera de datos son la
preparacin de los datos, la seleccin de las operaciones de minera de datos
(algoritmos), la escalabilidad, las presentaciones del producto y las
funcionalidades disponibles para comprender los resultados.
Preparacin de los datos: la preparacin de los datos es el aspecto de la minera
de datos que ms tiempo requiere. Toda accin que una herramienta pueda
proporcionar para facilitar el proceso permitir acelerar en gran medida el
desarrollo del modelo entre las opciones que una herramienta pueda proporcionar
para dar soporte a la preparacin de los datos, a lo cual se puede mencionar:
Limpieza de los datos como. por ejemplo solucionar el problema de la falta
de determinados datos
Destruccin de los datos, por ejemplo la distribucin de los valores
Transformacin de los datos, realizar clculos partiendo de columnas
existentes.

85


Muestreo de los datos, para la creacin de conjuntos de datos para el
proceso entrenamiento y validacin.

Seleccin de las operaciones de minera de datos (algoritmo): Es importante
comprender las caractersticas de las operaciones (algoritmos) utilizados por una
herramienta en minera de datos, con el fin de asegurarse de que cumplan los
requisitos del usuario o lo que se persigue para predecir. En particular, es
importante establecer cmo tratar los distintos algoritmos los tipos de datos de las
variables de respuesta y variables productoras, la rapidez con la que llevan a cabo
la fase de entrenamiento y la velocidad con la que operan sobre los nuevos datos
(una variable productora es la columna de una base de datos que se puede utilizar
para construir un modelo productor, con el fin de predecir los valores de otra
columna).
Otra caracterstica importante de un algoritmo es su sensibilidad al ruido (el ruido y
es la diferencia entre un modelo y sus predicciones. En ocasiones, decimos que
los datos son ruidos cuando contienen errores tales como muchos valores
incorrectos e inexistentes, o cuando hay columnas irrelevantes). Es importante
establecer la sensibilidad a la falta de datos de un algoritmo dado y verlo robusto
que son los patrones que dicho algoritmo descubre en presencia de datos
irrelevantes o incorrectos.
Estabilidad y presentaciones del producto: la estabilidad y las prestaciones
son consideraciones de gran importancia a la hora de seleccionar una herramienta
que sea capaz de tratar cantidades de datos crecientes, (en trminos el nmero de
filas ni el nmero de columnas), posiblemente con sofisticados controles de
validacin. La necesidad de proporcionar estabilidad al mismo tiempo que se
mantienen unas prestaciones satisfactorias, requiere investigar las herramientas
capaces de soportar el procesamiento paralelo utilizando tecnologas tales como
SMP o MPP.

86


Funcionalidades para comprender los resultados: una buena herramienta de
minera de datos debera ayudar al usuario a comprender resultados,
proporcionando medidas que describan la precisin y lo significativo de los datos,
en un formatos til es (por ejemplo, matrices de confusin, que ser el usado en
los ejemplos de la practica del modulo) y permitiendo al usuario realizar anlisis de
sensibilidad sobre el resultado; tambin debe presentarse los resultados en formas
alternativas (utilizando, por ejemplo, tcnicas de visualizacin).
Una matriz de confusin muestra el nmero real de valores de una clase,
comparndolo con el nmero predicho. No slo ilustra la capacidad predictiva del
modelo, sino que tambin presentan los detalles necesarios para ver exactamente
donde pueden estar fallando las cosas.
El anlisis de sensibilidad determina la diferencia de un modelo predictivo con
respecto a los resultados del producto. Mediante esta tcnica, los usuarios finales
pueden evaluar los efectos que las variables ruido hicieron respecto a los cambios
sobre la precisin del modelo.
Las tcnicas de visualizacin permiten mostrar los datos grficamente para facilitar
una mejor comprensin de su significado. Las capacidades grficas de las
herramientas van desde la elaboracin de simples grficas de dispersin hasta
representaciones multidimensionales complejas.

Leccin 29. Mineria de Datos y Almacenes de Datos en ODM.

Uno de los desafos para las organizaciones que pretendan aprovechar las
tcnicas de minera de datos es identificar los datos ms adecuados para
aplicarles estas tcnicas. La minera de datos requiere una fuente de datos
unificada, independiente, limpia, integrada y auto-coherente. Un almacn de datos
est bien preparado para proporcionar los datos que la minera de datos requiere,
por las siguientes razones:

87


La calidad y la coherencia de los datos son prerrequisitos para la minera
de datos con el fin de garantizar la precisin de los modelos predictivos, los
almacenes de datos albergan datos limpios y coherentes.
Resulta conveniente aplicar la minera de datos a datos procedentes de
mltiples fuentes, con el fin de descubrir el mximo nmero posible de
interrelaciones. Los almacenes de datos contienen datos procedentes de
diversas fuentes.
La seleccin de los subconjuntos de registros y campos relevantes para la
minera de datos requiere disponer de las capacidades de consulta de un
almacn de datos.
Los resultados de un estudio de minera de datos son tiles si existe alguna
manera de continuar investigando los patrones no descubiertos. Los
almacenes de datos proporcionan la capacidad de acudir de nuevo al
origen de los datos.
Dada la naturaleza complementaria de las tcnicas de minera de datos y de los
almacenes de datos, muchos fabricantes estn investigando formas de integrar
ambos tipos de tecnologas.

Leccin 30. Oracle DataMinig (ODM)

En los grandes entornos de almacenes de datos pueden realizarse muchos tipos
diferentes de anlisis, adems de consultas SQL, tambin se pueden aplicar
operaciones analticas ms avanzadas a los datos. Los dos tipos principales de
anlisis son el procedimiento analtico en la lnea (OLAP, Online Analytical
Procesing) y la minera de datos. En lugar disponer de los motores independiente
para OLAP y para minera de datos, oracle ha integrado las capacidades OLAP y
la minera de datos directamente en el servidor de bases de datos.

88


Oracle OLAP y oracle data mining (ODM) son opciones para las bases de datos
montadas en oracle9i
Capacidad de la Mineria de Datos.

Oracle permite realizar la minera de datos dentro las bases de datos, por razones
de presentaciones y estabilidad. Algunas de las capacidades de sus productos
son:
Una API que permite el control programtico y la integracin con las
aplicaciones.
Capacidades analticas que incluye mecanismos OLAP y funciones
estadsticas en las bases de datos.
Mltiples algoritmos: Teoria de bayes simple, arboles de decisin,
agrupamientos y reglas de asociacin.
Modos de puntuacin en tiempo real y por lotes.
Mltiples tipos de predicciones.
Detalles de asociaciones.

Actividad de Cierre Capitulo VI.

Hacer un estado del arte de las herramientas que actualmente se usan y una
verificacin de que empresas han aplicado herramientas de Mineria de Datos y
cual de ellas ha servido para el apoyo a la toma de decisiones.

89


UNIDAD III. Contexto de la Mienra de Datos
Capitulo VII. Causas de aplicacin de la Minera de Datos.

1. Crecimiento del volumen de datos:

2. Problemas en la exposicin de informacin

3. Surgimiento e implementacin del concepto de data warehouse, data mart,
(CIF) corporate information factory.

FIGURA 19. CONTEXTO DE BASES DE DATOS FRENTE A DATA MINING.

90


Aplicaciones Actuales

1. Minera de datos aplicado al audio, por ejemplo: Detector de mentiras,
patrones secuenciales aplicados a seguridad, etc.
2. Minera de datos aplicado a la calidad de datos (Laboratorios de precision,
estadstica cuntica, fsica estadstica, etc.
3. Minera de datos como parte del proceso ETL (Extraction, Trasnformation &
Load in Data Warehousing)
4. Minera de datos aplicado a la exploracin de cuencas petroleras, (Apoyo a
los podelos topogrficos, etc
5. Minera de datos aplicado al trfico de comunicaciones (Deteccin de
fraudes, modelos de comunicacin, etc )
6. Web mining (Entorno semiestructurado)
7. Web Usage Mining: Anlisis de log de servidores para anlisis del patrn de
recorrido y consumo del cibernauta (Ej.: Amazon, ebay, mercadolibre, etc)
8. Web Content Mining: Hace hincapi en el contenido de los documentos
9. Web Estructure Mining: se enfoca la web como grafo dirigido (Page Rank,
Comunidades, etc.) tambin se conoce como web structure mining
exploring the graph structure of the world-wide web, area de mucho auge y
en la cual se puede realizar grandes avances orientados a la nube.

Fuente: http://www.interacciones.com.ar/web-mining-en-el-diseno-de-sitios-web/

Leccion 31. WEB Mining y Text Mining

Una de las extensiones del data mining consiste en aplicar sus tcnicas a
documentos y servicios del Web, lo que se llama web mining (minera de web)
(Koala y otros, 2000). Todos los que visitan un sitio en Internet dejan huellas
digitales (direcciones de IP, navegador, cokies, etc.) que los servidores

91


automticamente almacenan en una bitcora de accesos (log). Las herramientas
de web mining analizan y procesan estos logs para producir informacin
significativa, por ejemplo, cmo es la navegacin de un cliente antes de hacer una
compra en lnea. Debido a que los contenidos de Internet consisten en varios tipos
de datos, como texto, imagen, vdeo, metadatos o hipervinculos, investigaciones
recientes usan el trmino multimedia data mining (minera de datos multimedia)
como una instancia del web mining (Zaiane y otros, 1998) para tratar ese tipo de
datos. Los accesos totales por dominio, horarios de accesos ms frecuentes y
visitas por da, entre otros datos, son registrados por herramientas estadsticas
que complementan todo el proceso de anlisis del web mining.

Normalmente, el web mining puede clasificarse en tres dominios de extraccin de
conocimiento de acuerdo con la naturaleza de los datos:

Web content mining (minera de contenido web). Es el proceso que consiste en
la extraccin de conocimiento del contenido de documentos o sus descripciones.

La localizacin de patrones en el texto de los documentos, el descubrimiento del
recurso basado en conceptos de indexacin o la tecnologa basada en agentes
tambin pueden formar parte de esta categora.

Web structure mining (minera de estructura web). Es el proceso de inferir
conocimiento de la organizacin del WWW y la estructura de sus ligas.

Web usage mining (minera de uso web). Es el proceso de extraccin de
modelos interesantes usando los de los accesos al web.

Algunos de los resultados que pueden obtenerse tras la aplicacin de los
diferentes mtodos de web mining son:

92


El ochenta y cinco por ciento de los clientes que acceden a la pgina home de
productos y a la de noticias de la misma pgina acceden tambin a la pgina del
historial. Esto podra indicar que existe alguna noticia interesante de la empresa
que hace que los clientes se dirijan al historial de sucesos. Igualmente, este
resultado permitira detectar la noticia sobresaliente y colocarla quiz en la pgina
principal de la empresa.

El sesenta por ciento de los clientes que hicieron una compra en lnea en la
pgina del producto 1 tambin compraron en la pgina del producto 4 despus de
un mes. Esto indica que se podra recomendar en la pgina del producto 1
comprar el producto 4 y ahorrarse el costo de envo de este producto.

Los anteriores ejemplos ayudan a formar una pequea idea de lo que se puede
obtener, sin embargo, en la realidad existen herramientas de mercado muy
poderosas con mtodos variados y visualizaciones grficas excelentes.

Text mining

Estudios recientes indican que el ochenta por ciento de la informacin de una
compaa est almacenada en forma de documentos. Sin duda, este campo de
estudio es muy grande, por lo que tcnicas como la categorizacin de texto, el
procesamiento de lenguaje natural, la extraccin y recuperacin de la informacino
el aprendizaje automtico, entre otras, apoyan al text mining (minera de texto).

En ocasiones se confunde el text mining con la recuperacin de la informacin
(Information Retrieval o IR) (Hearst, 1999). sta ltima consiste en la recuperacin
automtica de documentos relevantes mediante indexaciones de textos,
clasificacin, categorizacin, etc. Generalmente se utilizan palabras clave para
encontrar una pgina relevante, en cambio, el text mining se refiere a examinar

93


una coleccin de documentos y descubrir informacin no contenida en ningn
documento individual de la coleccin; en otras palabras, trata de obtener
informacin sin haber partido de algo (Nasukawa y otros, 2001).

Una aplicacin muy popular del text mining es relatada en Hearst (1999).

Don Swanson intenta extraer informacin derivada de colecciones de
texto.Teniendo en cuenta que los expertos slo pueden leer una pequea parte de
lo que se publica en su campo, por lo general no se dan cuenta de los nuevos
desarrollos que se suceden en otros campos. As, Swanson ha demostrado cmo
cadenas de implicaciones causales dentro de la literatura mdica pueden conducir
a hiptesis para enfermedades poco frecuentes, algunas de las cuales han
recibido pruebas de soporte experimental, investigando las causas de la migraa,
dicho investigador extrajo varias piezas de evidencia a partir de ttulos de artculos
presentes en la literatura biomdica. Algunas de esas claves fueron:

El estrs est asociado con la migraa.
El estrs puede conducir a la prdida de magnesio.
Los bloqueadores de canales de calcio previenen algunas migraas.
El magnesio es un bloqueador natural del canal de calcio.
La depresin cortical diseminada (DCD) est implicada en algunas migraas.
Los niveles altos de magnesio inhiben la DCD.
Los pacientes con migraa tienen una alta agregacin plaquetara.
El magnesio puede suprimir la agregacin plaquetara.

Estas claves sugieren que la deficiencia de magnesio podra representar un papel
en algunos tipos de migraa, una hiptesis que no exista en la literatura y que
Swanson encontr mediante esas reglas. De acuerdo con Swanson (Swanson y
otros, 1994), estudios posteriores han probado experimentalmente esta hiptesis
obtenida por text mining con buenos resultados.

94


Una arquitectura para Data Mining

Para aplicar mejor estas tcnicas avanzadas, stas deben estar totalmente
integradas con el data warehouse as como con herramientas flexibles e
interactivas para el anlisis de negocios. Varias herramientas de Data Mining
actualmente operan fuera del warehouse, requiriendo pasos para extraer, importar
y analizar los datos. Adems, cuando nuevos conceptos requieren implementacin
operacional, la integracin con el warehouse simplifica la aplicacin de los
resultados desde Data Mining. El Data warehouse analtico resultante puede ser
aplicado para mejorar procesos de negocios en toda la organizacin, en reas
tales como manejo de campaas promocionales, deteccin de fraudes,
lanzamiento de nuevos productos, etc.

El punto de inicio ideal es un data warehouse que contenga una combinacin de
datos de seguimiento interno de todos los clientes junto con datos externos de
mercado acerca de la actividad de los competidores. Informacin histrica sobre
potenciales clientes tambin provee una excelente base para una prospectiva.
Este warehouse puede ser implementado en una variedad de sistemas de bases
relacionales y debe ser optimizado para un acceso a los datos flexible y rpido.

Recopilacin y Almacenes de datos

La proliferacin de sistemas de informacin sustntados en bases de datos ha
generalizado el uso de herramientas que permiten obtener resmenes e incluso
el uso de herramientas que permiten obtener informes complejos, resmenes e
incluso estadsticas globales sobre la informacin almacenada con el objetivo de
asistir en la toma de decisiones. La mayora de sistemas comerciales de
gestin de bases de datos incluyen herramientas de informes avanzados ,
inteligencia de negocio sistemas de informacin ejecutivos (EIS, Executive
informacin Sistemas) y otras, que pese su nombres variados intentan realizar un

95


procedimiento analtico de la informacin , ms que el procesamiento
transaccional habitual realizado por las aplicaciones del da
Leccion 32.OLTP Y OLAP

Con las siglas OLPT Y OLAP se denominan dos tipos de procesamiento muy
diferentes:
OLTP (ON-Line Tarnsational Processing) El procesamiento de
transaccin en tiempo real constituye el trabajo primario en un sistema
de informacin Este trabajo consiste en realizar transacciones, es decir
actualizaciones y consultas a la base de datos con un objetivo
operacional: Hacer funcional las aplicaciones de la organizacin,
proporcionar informacin sobre el estado del sistema de informacin que
permita actualizarlo conforme va variando la realidad del contexto de la
organizacin
Ejemplo el caso de una empresa, la insercin de un nuevo cliente, el cambio
de sueldo de un empleado, el tramite de un pedido, el almacenamiento de una
venta, la impresin de una factura, la baja un producto, etc. Es el trabajo diario
y para el que inicialmente se ha diseado las bases de datos.
OLAP (On-Line analytical processing) El procesamiento analtico en tiempo
real engloba un conjunto de operaciones , exclusivamente de consulta, en
las que se requieren agregar y cruzar gran cantidad de informacin .El
objetivo de estas consultas es realizar informes y resmenes, generalmente
para el apoyo en la toma de decisiones. Ejemplos de este tipo de trabajo
analtico puede ser resmenes de ventas mensuales, los consumos
electrnicos por das, la espera media de los pacientes en ciruga digestiva
de un hospital, el producto cuyas ventas han incrementado en el ltimo
trimestre, las llamadas por horas, etc. Este tipo de consultas suelen

96


emanarse de los departamentos de direcciones, logsticas o prospectiva y
requieren muchos recursos.
Una de las caractersticas de ambos procesamientos es que se pretende que
sean on-line es decir, que sean relativamente instantneos y se puedan realizar
en cualquier momento (en tiempo real).

Leccion 33. Bases de datos de transacion
Un Almacn de datos es un conjunto de datos histricos, internos o externos, y
descriptivos de un contexto o rea de estudio, que estn integrados y organizados
de tal forma que permite aplicar eficientemente herramientas para resumir,
describir y analizar los datos con el fin de ayudar en la toma de decisiones
estratgicas.
La ventaja fundamental de un almacn de datos es su diseo especfico y
superacin de la base de datos transaccional.Un almacn de datos:
Facilita el anlisis de los datos en tiempo real (OLAP).
No difiere el OLTP de las bases de datos originales.
A partir de ahora, por tanto, diferenciaremos claramente entre bases de datos
transaccionales (u operacionales) y almacenes de datos. Dicha diferencia,
adems, se ha ido marcando ms profundamente a medida que las tecnologas
propias de ambas bases de datos (y en especial la de almacenes de datos) se han
ido especializando. De hecho, hoy en da las diferencias son claras.
Como lo muestra en la Tabla 3. Las diferencias mostradas en la tabla, distinguen
claramente la manera de estructurar y disear almacenes de datos respecto a la
forma tradicional de hacerlo con bases de datos transaccionales.

97


BASES DE DATOS
TRANSCCIONALES
ALMACEN DE DATOS
Propsito Operaciones diarias,
Soporte a las
aplicaciones.
Recuperacin de
informacin, informes,
anlisis y minera de
datos.
Tipo de datos Datos de funcionamiento
de la organizacin
Datos tiles para el
anlisis, la solarizacin
etc.
Caractersticas de los
datos
Datos de funcionamiento,
cambiantes, internos,
incompletos.
Datos histricos, dato
internos y externos, datos
descriptivos .
Modelo de datos Datos normalizados Datos en estrella, en
copo de nieve,
parcialmente
desnormalizados y
multidireccionales
Nmero y tipo de
usuarios
Ciento/miles: aplicacin,
operaciones,
administrador de base de
datos
Decenas: directores,
ejecutivos, analistas
(granjeros, mineros )
Acceso SQL, lectura y escritura SQL y herramientas
propias (slice& dice, dril,
roll, pivot..)lectura

98


Tabla 3 Diferencia entre bases de datos transaccional y almacenes de datos

Aunque ambas fuentes de datos (transaccional y almacn de datos) estn
separadas, es importante destacar que gran parte de los datos que se incorporan
en un almacn de datos proviene de las bases de datos transaccional
Esto supone desarrollar una tecnologa de volcado y mantenimiento de datos
desde la base de datos transaccional a almacn de datos.
Adems el almacn de datos debe integrar datos externos, con lo que en realidad
debe estar actualizndose frecuentemente de diferentes fuentes. El almacn de
datos pasa hacer un integrador o recopilador de informacin de diferentes fuentes,
como se observa en la figura 20.

FIGURA 20 ALMACN DE DATOS COMO INTEGRACIN DE DIFERENTES
FUENTES DE DATOS.
La organizacin y el almacenamiento de esta informacin plantean cuestiones
tcnicas, fundamentalmente sobre como disear el almacn de datos, como
cargarlo inicialmente, como mantenerlo y preservar su consistencia. No obstante,

99


son muchas ms las ventajas de esta separacin que sus inconvenientes; esta
separacin facilita la incorporacin de fuentes externa, que en tal caso, sera muy
difcil de encajar en las bases de datos.

Leccion 34. Arquitectura de los Almacenes de Datos

Un almacn de datos recoge, fundamentalmentedatos histricos, es decir, hechos
sobre el contexto en el que se desenvuelve la organizacin. Los hechos son, por
tanto el aspecto central de los almacenes de datos. Estas caractersticas
determinan en gran medida la manera de organizar los almacenes de datos.

Modelo Multidimensional

El modelado conceptual de los datos ms extendido para los almacenes de datos
es el modelo multidimensional. Los datos se organizan en torno a los hechos, que
tienen unos atributos o medidas que pueden verse en mayor o menor detalle
segn ciertas dimensiones por ejemplo, una gran cadena de supermercados
puede tener como hechos bsicos las ventas. Cada venta tiene una informacin
importante: impuesto, cantidad, nmero delcliente, etc.y se puede ser ms
detallada segn los datos que se quieran agregar o se necesiten capturar para
estudiarlos
.
DATAMARTS

En algunos casos puede parecer intuitivo organizar la informacin en dimensiones;
el caso de las ventas es el ejemplo ms ilustrativo. En general cierta informacin

100


es ms fcilmente representantiva de esta forma, pero siempre se puede llegar a
una estructura de este tipo. Lo que no es posible, en general, es la representacin
de todo el almacn de datos como un solo diagrama, ni siquiera jerrquico. Por
ejemplo, la informacin del personal de una empresa (empleados, departamento,
proyecto. etc.) es difcilmente integrable en el mismo modelo, las ventas incluso en
mbitos ms relacionales de una organizacin (por ejemplo ventas y produccin)
esto tampoco es posible.
La idea general es que para cada proceso de la organizacin se va a construir una
estructura en estrella, por tanto el almacn de datos estar formado por muchas
estrellas (jerrquicas o no) formando una constelacin, por ejemplo aparte de
la estrella jerrquica para el proceso ventas, podramos tener otra estrella para el
proceso personal. En este caso, los hechos podran ser que un empleado ha
dedicado ciertos recursos en un proyecto durante un periodo determinado en un
departamento especfico. Los hechos podran llamarse participaciones, las
medidas o atributos podran ser horas de particin, nmero de particiones,
presupuesto, nivel de xito del proyecto, etc. Las dimensiones podran ser
tiempo (para representar el periodo en el que ha estado involucrado),
departamento datamart (mercado de datos), lgicamente, cada datamart tendr
unas medidas y unas dimensiones en tiempo, ya que el almacn de datos
representa informacin histrica y, por tanto, siempre es de inters ser capaz de
agregar por intervalos de diferente detalle .

Leccion 35. Explotacin de un Almacen de Datos.

Para completar el modelo multidimensional se debedefiniruna serie de
operadores, sobre la estructura de operadores importantes asociados son:
Drill: se trata de disgregar los datos (mayor nivel de detalle o desglose,
menos solarizacin) siguiendo los caminos de una o ms dimensiones.

101


Roll: se trata de agregar los datos (menor nivel de detalle o desglose,mas
sumisin o Consolidacin) siguiendo los caminos de una o ms
dimensiones.
Slice Dice: se selecciona y se proyectanlos datos.
Pvot: se orienta las dimensiones

Fuente: http://es.scribd.com/doc/48897874/16/drill-down-y-roll-up
Drill Down y Roll Up
Una jerarqua es un conjunto de miembros de una dimensin, los cuales se
definen por su posicin relativa con respecto a los otros miembros de la misma
dimensin, y forman en su totalidad una estructura de rbol. Partiendo de la raz
del rbol, los miembros son progresivamente ms detallados hasta llegar a las
hojas, donde se obtiene el mayor nivel de detalle. Por ejemplo, para la dimensin
de Organizacin Telefnica se puede establecer rea como raz, luego, dentro de
cada rea existen muchos Internos, los que constituyen las hojas. Puede darse el
caso en que una dimensin no necesite jerarquizarse debido a que ninguno de sus
miembros posee una posicin relativa con respecto a los otros miembros. Por
ejemplo, una dimensin Cliente que tiene como miembros nombre, sexo y fecha
de nacimiento, no necesita organizar estos miembros porque todos estn al mismo
nivel de detalle, a menos que desee agruparlos por alguno de ellos para visualizar
los datos.

102


Existen principalmente dos esquemas para el modelo dimensional: el esquema
estrella (star), y el esquema copo de nieve (snowflake).

En el esquema estrella, cada modelo dimensional est compuesto de una tabla
central con una clave primaria compuesta, denominada tabla de hechos, y un
conjunto de tablas perifricas denominadas tablas de dimensiones.
.Cada una de las tablas de dimensiones tiene una clave primaria que corresponde
exactamente con uno de los componentes de la clave compuesta de la tabla de
hechos. Las tablas de hechos, adems de sus campos clave, contienen una o ms
medidas, indicadores o hechos. Las medidas ms tiles en una tabla de hechos
son numricas y aditivas
. La aditividad es crucial porque las aplicaciones Data Warehouse casi nunca
recuperan un solo registro de la tabla de hechos, sino que acceden a cientos,
miles o incluso millones de registros a la vez. Las tablas de dimensiones, por el
contrario, contienen informacin textual descriptiva.
Los atributos de las dimensiones se emplean como fuente de las restricciones en
las consultas al Data Warehouse. En el modelo estrella las dimensiones no se
normalizan. Con ello se logra minimizar el nmero de uniones y, por consiguiente,

103


incrementar el rendimiento de las consultas (una tabla de hechos est relacionada
con numerosas tablas de dimensiones).

104


Una variante del modelo en estrella es el modelo copo de nieve osnowflake.

En este modelado se normalizan las dimensiones reflejando las jerarquas en las
mismas y conservando lo esencial del modelo en estrella: las tablas de hechos. La
ventaja del modelo copo de nieve es eliminar la redundancia de datos y por lo
tanto ocupar menos espacio en disco. (En caso que se quiera hacer una

105


profundizacin del tema se recomienda hacerlo en lnea en la fuente donde fue
tomado: http://es.scribd.com/doc/48897874/16/Drill-Down-y-Roll-Up)

En realidad un modelo de datos se compone de unas estructuras y unos
operadores sobre dichas estructuras. Se revis el modelo multidimensional el cual
se basa en una en un conjunto de datamarts, que generalmente, son estructuras
de datos en estrella jerrquica.
Fuente: http://es.scribd.com/doc/48897874/16/Drill-Down-y-Roll-Up
La forma de representar la organizacin de los datos en un modelo dimensional es
a travs de un cubo (el cual no necesariamente debe tener tres dimensiones). Por
ejemplo, se puede pensar en un cubo que posea como medida la duracin de las
llamadas y como dimensiones Tiempo, Tipo de Llamada y Organizacin
Telefnica. La representacin de este modelo se muestra en el cubo:

106


Cada porcin del cubo es la medida a la que se hace referencia, y expresa la
duracin de las llamadas de un tipo determinado efectuadas en un rea en un
mes. Las dimensiones estn representadas por los ejes. Una consulta para el
cubo podra ser la duracin de las llamadas salientes del mes de enero de 2004
discriminadas por rea. Los miembros de una dimensin pueden estar
organizados en una o ms jerarquas
Una de las caractersticas del acceso a la informacin es la posibilidad de
representarla a diferentes niveles de agregacin. Esto se logra mediante las
caractersticas conocidas como DrillDown y Roll Up. Estas son tcnicas para
navegar a travs de distintos niveles de detalle de una jerarqua de datos, desde
los de mayor nivel de agregacin (tambin llamados datos sumarizados) hasta los
ms detallados. Drill Down explora los hechos hacia los niveles ms detallados de

107


la jerarqua de dimensiones, mientras que Roll Up explora los hechos
iterativamente hacia el nivel ms alto de agregacin.
En la siguiente figura se puede observar los datos que surgen a partir de aplicar
Drill Down sobre elmiembro Comercializacin de la dimensin Organizacin
Telefnica del cubo de la Figura anterior teniendo la informacin detallada
podemos efectuar la operacin Roll Up para llegar a lainformacin resumida

Normalmente, los operadores se llamados operadores OLAP, operadores de
anlisis de datos u operadores de almacn de datos, estos operadores
genricos bsicos son los que permiten realizar consultas, vistas o informes sobre
la estructura estrella, generalmente de forma grafica.
Estos operadores bsicos permiten realizar las mismas consultas de proyeccin,
seleccin y agrupamiento que se puede hacer en SQL.en muchos casos de

108


hechos, se puede editar la consulta SQL correspondiente, aunque esta se haya
hecho grficamente.
Por tanto, el primer paso para poder utilizar los operadores propios del modelo
multidimensional es definir una consulta. En realidad, como se vio en los
operadores Drill, roll, solice, dice y pivote, que son modificados o refinadores a
base consultas y solo pueden aplicarse sobre una consulta realizada
previamente.
No obstante, lo interesante empieza justamente cuando se intenta modificar el
informe (una consulta, al fin y al cabo).A veces, se quiere mayor nivel de detalle,
otras veces menos, o bien aadir o quitar alguna dimensin, o modificar el
informe en cualquier otro sentido.
Actividad de cierre Capitulo VII

1) Explique la relacion existente entre los almacenes de datos y las tecnicas
de mineria de datos y el soporte que proporcionan las tecnicas de mineria de
datos al manejo de la informacin empresarial.
2) Con base en lo expuesto en la leccin 35 analice una empresa del entorno
(puede ser la misma de la actividad del capitulo anterior) en la cual le aplique
los cirterios de Drill Down y Roll Up, con el respectivo informe de la base de
datos y del diccionario de datos.

109


Capitulo VIII. Otros tipos de DataMart

Leccion 36. Rolap- Molap

Una de las razones para crear un almacn de datos separado de las bases de
datos operacionales es conseguir que el anlisis se pueda realizar de una
manera eficiente. El hecho que la estructura anterior y los operadores vistos
permitan trabajar sencillamente y combinar dimensiones, detallar o agregar
infrmenos, etc, todo ello de manera grfica, no asegura que esto sea eficiente.
Con el objetivo de obtener la eficiencia deseada, los sistemas de almacenes de
bases de datos pueden implementarse utilizando dos tipos de esquemas fsicos.
ROLAP (relational OLAP): Fsicamente, el almacn de datos se construyen
sobre una base de datos relacional.
MOLAP(multidimensional OLAP): Fsicamente, el almacn de datos se
construye sobre estructuras basadas en matrices multidimensionales.
Las ventajas del ROLAP son, en primer lugar, que se puede utilizar directamente
en sistemas de gestin de bases de datos genricos y herramientas asociadas:
(SQL,restricciones, disparadores, etc).En segundo lugar, la formacin y el costo
necesario para su implementacin es generalmente menor.Las ventajas de
MOLAP son su especializacion, la correspondencia entre el nivel lgico y fsico.
Esto hace que MOLAP sea generalmente ms eficiente, incluso aunque en el
caso de ROLAP se utilice ciertas tcnicas de optimizacin.
No todos los sistemas, libros y manuales son consistentes en la diferencia
ROLAP/MOLAP que se produce a nivel fsico o nivel lgico. En algunos textos se

110


habla que el sistema ROLAP representa los resultados de los informes/consultas
como tablas mientras que MOLAP lo representa como matrices.
Segun la definicin (la de muchos autores) tanto ROLAP como MOLAP se
refieren a la implementacin y son independientes de las herramientas del sistema
de almacenes de datos o el sistema OLAP. Por tanto un sistema puede tener una
representacin de consultas relacional y estar basado en MOLAP o puede tener
una representacin completamente multidimensional y estar basado en un OLAP.
Algunos ejemplos de sistema OLAP son Microstrategy, informe Metacube u oracle
Discovery. El primero, por ejemplo, tiene una interfaz completamente
multidimensional mientras que por debajo existe un sistema relacin. Ejemplos de
sistemas MOLAP son el Oracle Expres o Hyperion Enterprise.
La ventaja de ROLAP es que puede utilizar tecnologa y nomenclatura de los
sistemas de bases de datos relacional, esto tiene el riesgo que en algunos casos
se pueda mantener parte de las bases de datos transaccional (manteniendo
claves foraneas, claves primarias, conservado parte de la normalizacin, etc.). En
general, aun que esto puede ser cmodo inicialmente, no es conveniente a largo
plazo.De hecho, una de las maneras ms eficientes de implementar un datamart
multidimensional, es mediante bases de datos relacionales es ignorar casi
completamente la estructura de los datos en las fuentes de origen.
Los sistemas OLAP se pueden acompaar de estructuras especiales: ndices de
mapa de bits, ndices JOIN optimizadores de consultas, extensiones de SQL (por
ejemplo cube, etc), as como tcnicas tan variadas como el pre calculo y el
almacenamiento de valores agregados que vayan a utilizarse frecuentemente
(totales por ao, por producto, etc). Adems, se puede desactivar los locks
delectura/escritura concurrente (ya que solo habr lecturas), muchos ndices
dinmicos se pueden sustituir por estticos o por hashing (ya que las tablas no
van a crecer frecuentemente).

111


Todas estas extensiones y ajustes hacen que el sistema de gestin de bases
de datos se adapte mejor a su nuevo proposito ya que no es una base de datos
operacional sino un almacn de datos y asi proporcione la eficiencia necesaria.
Por lo contrario los sistemas MOLAP almacenan fsicamente el dato estructurado
multidimensional de forma que la presentacin externa e interna coincidan. Las
estructuras de datos utilizadas para ello son bastante especficas, lo que permite
rendimientos mayores que los ROLAP. En cambio, los sistemas MOLAP tienen
algunos inconvenientes.
Se necesitan sistemas especficos. Esto supone un costo de Software
mayor que generalmente compromete la portabilidad, al no existir
estndares sobre MOLAP tan extendidos como los estndares del modelo
relacional.
Al existir un gran acoplamiento entre la visin externa y la implementacin,
los cambios de diseo del almacn de datos obligan a una estructuracin
profunda del esquema fsico y viceversa.
Existe ms de dos modelos de normalizacin que en las ROLAP. En
muchos casos los almacenes de datos MOLAP ocupan ms espacio que
su correspondiente ROLAP.
Quiz la parte del diseo de almacn de datos es una de las areas mas abiertas y
donde existe menosconvergencia, las razones son mltiples pero,
fundamentalmente, se resume en que los almacenes de datos se han originado
principalmente desde mbito industrial y no acadmico, el fin inicial del almacn
de datos era realizar OLAP eficiente, fundamentalmente en los niveles lgico y
fsico.
Pasos para disear un almacn de datos:

1) Elegir para modelar un Proceso o Dominio de la organizacin sobre el
que se desee realizar informes complejos frecuentemente, anlisis o

112


minera de datos. Por ejemplo, se puede hacer un datamart sobre pedidos,
ventas, facturacin, etc.
2) Decidir el hecho central y el granulo(nivel de detalle) mximo que se va
a necesitar sobre el, por ejemplo,se necesita informacin horaria para el
tiempo?, Se necesita saber las cantidad de cajas registradoras de un
supermercado o es dificiente el supermercado como unidad mnima?, etc.
En general, siempre hay que considerar grnulos finos por tuplas las que se
vayan a necesitar, a no ser que haya restricciones de tamao importantes,
precisamente,el almacn de datos se crea entre o tras cosas, para poder
agregar datos eficientemente, por lo que un almacn de datos demasiado
detallado no compromete, en principio, la eficacia.
3) Identificar las dimensiones que caracterizan el dominio y su jerarqua de
agregacin, cuales son los atributos bsicos de cada nivel. No se deben
incluir atributos descriptivos informativos, lo importante es ayudar en la
visualizacion.
4) Determinar y refinar las medidas y atributos necesarios para los hechos y
las dimensiones. Generalmente las medidas de los hechos son valores
numricos agregables (totales, cuentas, medidas, etc) y suelen responder
a la pregunta cuanto. Revisar si toda la informacin que se requiere sobre
los hechos estn representada en el almacn de datos.

Leccion 37. Almacen de Datos y Mineria de Datos
Fuente:
http://www.google.com.co/url?sa=t&rct=j&q=almac%C3%A9n%20de%20datos%20naci%C3%B3%
20hace%20m%C3%A1s%20de%20una%20d%C3%A9cada%20&source=web&cd=2&ved=0CFEQ
FjAB&url=http%3A%2F%2Facademica-
e.unavarra.es%2Fbitstream%2Fhandle%2F2454%2F1955%2F577139.pdf%3Fsequence%3D1&ei=
Avz9T_zxKejO2AWFv4XFDw&usg=AFQjCNFvuWyZ8zktuAkmTV85s9N4LuLw0w&cad=rja

113


El concepto de almacn de datos naci hace ms de una dcada [Enmona 1992]
ligado al concepto de EIS (Executive information System), el sistema de
informacin ejecutivo de una organizacin. En realidad, cuando estn cubiertas las
necesidades operacionales de las organizaciones se plantean herramientas
informticas para asistir las necesidades estratgicas.
La definicin original de almacn de datos es una coleccin de datos, orientada
un dominio, integrada, no voltil y variante en el tiempo para ayudar en las
decisiones de direccin. A raz de esta definicin, parecera que los almacenes de
datos son solo tiles en empresas o instituciones donde los altos cargos directivos
tengan que tomar decisiones. A partir de ah, y de la difusin cada vez mayor de
las herramientas de business intelligence y OLAP, se puede pensar que los
almacenes de datos no se aplican en otros mbitos: cientficos, mdicos,
ingenieriles, acadmicos, donde no se tratan con las variables y problemticas
tpicas de la organizacin de las empresas.
Al contrario, en realidad, los almacenes de datos pueden ser usados en diferentes
propositos, y pueden agilizar muchos procesos de anlisis. Mas adelante se
documentan las aplicaciones y usos que se puede tener en un almacn de
datos: herramientas de consulta e informes, herramientas EIS (Enterprise
Information System), herramientas OLAP y herramientas de minera de datos.
La variedad de usos sugiere tambin la existencia de diferentes grupos de
usuarios: analistas, ejecutivos, investigadores, ingenieros de informacin,
estadistas, etc... Segn el carcter de estos usuarios se les puede catalogar en
dos grandes grupos:
Picapedreros (o granjeros): Son aquellos que se dedicana realizar
informes peridicos, ver la evolucin de los indicadores, controlar algn
tipo de valores anmalos, etc...
Exploradores: Son los encargados de encontrar nuevos patrones
significativos utilizando tcnicas OLAP o de minera de datos, la estructura

114


del almacn da datos y sus operadores facilita la obtencin de diferentes
vistas de anlisis o vistas minales.
Esta diferencia, y el hecho de que se catalogue como exploradores a
aquellos que utilizan tcnicas OLAP o minera de datos, no debe
desdibujar las grandes diferencias de un anlisis clsico bsicamente
basado en la agregacin, la visualizacin y las tcnica descriptivas o
estadsticas con un uso genuino de la minera de datos que transforma
losdatos en datos significativos, en realidad, se puede usar minera de
datos sobre un simple archivo de datos. Sin embargo, las ventajas de
organizar un almacn de datos se amortizan a mediano y largo plazo
especialmente cuando el anlisis esta orientado a grandes volmenes de
datos, aquellos que aumentan significativamente con el tiempo, los que
provienen de fuentes heterogneas, los que se quieren cambiar de
maneras arbitrarias y no predefinidas; en gran medida una almacn da
datos tambin facilita la limpieza y transformacin de datos (en especial
para generar vistas minales en tiempo real). Es importante resaltar como
ya se hizo con anterioridad en el modulo, el proceso de minera de datos
debe ser realizado con la total claridad de lo que se quiere y sobre datos
que en lo posible puedan ser discretas si los proceso van a dar como
resultado una prediccin.

MIDDLEWARE: Es un trmino genrico que se utiliza para referirse a todo tipo de
software de conectividad que ofrece servicios u operaciones que hacen posible el
funcionamiento de aplicaciones distribuidas sobre plataformas heterogneas.
Estos servicios funcionan como una capa de abstraccin de software distribuida,
que se sita entre las capas de aplicaciones y las capas inferiores (sistema
operativo y red). El middleware puede verse como una capa API, que sirve como
base a los programadores para que puedan desarrollar aplicaciones que trabajen
en diferentes entornos sin preocuparse de los protocolos de red y comunicaciones

115


en que se ejecutarn. De esta manera se ofrece una mejor relacin
costo/rendimiento que pasa por el desarrollo de aplicaciones ms complejas, en
menos tiempo.
La funcin del middleware en el contexto de los data warehouse es la de asegurar
la conectividad entre todos los componentes de la arquitectura de un almacn de
datos.
TRANSFORMACION DE ATRIBUTOS

Variedad de tcnicas.

- Conversiones entre tipos de atributos.
- Aadir nuevos atributos sintticos que representen la informacin de un
modo que sea adecuado para el mtodo de aprendizaje. E.j: datos
relacionales, SVM.
- PCA (Anlisis de Componentes Principales).
- Proyecciones aleatorias
Decentralizacion
- Algunos mtodos slo trabajan con atributos nominales.Discretizar valores
nmericos en intervalos [DKS95].
- Hay mtodos que pueden trabajar con valores numricos, pero de un modo
que puede que no sea el ms adecuado. Ej. asumen que siguen una
distribucin normal.
- Clasificador Nave Bayes.
- Mtodos de clustering estadsticos.Algunos mtodos son mucho ms lentos
con atributos numricos que son nominales y de ordenacin.

116


BASADO EN 1R

Mtodo de clasificacin 1R [Hol93].
- Ordenar los valores del atributo.
- Lmites de los intervalos: dnde hay cambio de clase.
- Excepcin: tiene que haber un nmero mnimo de valores (6)de la clase
mayoritaria.
- Mtodo global, se aplica previamente a todos los atributo continuos

MDLMinimum Descripcin Length.
- Minimizar el tamao de la teora ms la informacin necesaria para
especificarlos datos dados con base en esa teora.
- La teora es el punto de divisin. Comparacion y no divisin.
- Conocer los ejemplos pero no las clases.
- Si no se divide, se debe trasmitir la clase de cada ejemplo.
- Compresin.
- Si se divide, se debe codificar el punto de corte.lg[N - 1] bits, N es el
nmero de ejemplos, mas las clases por encima y por debajo del punto de
divison.
-

Leccion 38. Exploracion y seleccion. El contexto de la vista minable.
Pearson. De aqu te tomara un ejemplo parapoder abordar la visin practica.

117


Este ejercicio corresponde al libro Introduccion a la Mineria de Datos. Jos H. Orallo, Ma Jos
Ramirez Q y Cesar F Ramirez de Pearson (se documenta respetando los derechos de autor), ya
que es muy completo y servir de mucho para el aprendizaje del rea de estudio.
Una vez los datos estn recopilados, integrados y limpios, todava no estamos
listos (en muchos casos) para realizar una tarea de minera de datos. Es
necesario, adems, realizar un reconocimiento o anlisis exploratorio de datos con
el objetivo de reconocerlos mejor de cara a la tarea de minera de datos. Incluso
esta fase es imprescindible cuando se realiza minera de datos abierta, ya que
tenemos todo el volumen de datos pero hemos de determinar los datos a
seleccionar y las tareas a realizar sobre esos datos.
Este captulo cubre un conjunto de tcnicas diversas algunas tcnicas simples del
anlisis exploratorio de datos, tcnicas de visualizacin previa, agrupamiento
exploratorio, tcnicas de seleccin, ya sea horizontalmente, eliminando filas
(muestreo), o verticalmente, eliminando atributos, interfaces graficas, tcnicas de
consulta, y agregacin (ya sea ms tradicionales al estilo de SQL, herramientas
OLAP o incluso lenguajes de consulta para minera de datos).
La salida o resultado de las tcnicas presentadas aqui ya es una vista minable
con tarea asignada, o dicho de otra manera, una vista minable tapada (entradas,
salidas) con instrucciones sobre qu datos trabajar, qu tarea realizar y de qu
manera obtener el conocimiento.

El contexto de la vista minable

Imagnese que cae del cielo una base o almacn de datos con una nota: extraiga
usted conocimiento de aqu. Aparte de la sorpresa natural de ver llover bases de
datos, que justificara al cambio climtico, usted se preguntar, entre otras cosas,
lo siguiente:
Qu parte de los datos es pertinente analizar?

118


Qu tipo de conocimiento se desea extraer y cmo se debe presentar?
Qu conocimiento puede ser vlido, novedoso e interesante?
Qu conocimiento previo me hace falta para realizar esta tarea?
Lgicamente, usted no ser capaz de extraer conocimientos si no se le responde a
dichas preguntas. Del mismo modo, una herramienta de minera de datos, no
puede dirigir un conjunto de datos y producir algo razonable, si no se le orienta
adecuadamente. La razn fundamental del porqu esto, radica no solamente en la
capacidad actual de las herramientas de realizar algunas tareas de una manera
completamente automtica, sino fundamentalmente, en que la extraccin del
conocimiento viene a cubrir unas necesidades y expectativas, que deben
indicarse, en cierto modo de forma interactiva. Usted puede realizar la compra en
un supermercadopor internet, o la puede hacer a travs de un tercero, pero en
ningn caso podr realizar una compra si no indica lo que quiere comprar.
Por tanto, es necesario expresar y proporcionar las respuestas a las cuatro
preguntas anteriores, ya sea mediante lenguajes de minera de datos, o
interactivamente con herramientas especializadas o seleccionando aquellas
herramientas necesarias. Resulta en algunas ocasiones que incluso conociendo
los datos y el dominio del que provienen, responder a algunas de ellas no es
sencillo. En necesario, en muchos casos, explorar los datos, el contexto y los
usuarios de la informacin, de all la importancia que el minero sea muy hbil en
detectar estos aspectos
Las cuatro preguntas anteriores son, en realidad, una manera de clasificar el
conjunto de preguntas que se podran realizar, ya que en el fondo, son preguntas
que estn interrelacionadas. Por ejemplo, si no se sabe el conocimiento que
puede ser til no se puede decidir que parte de los datos lo pueden proporcionar.
Por el contrario, si no se selecciona un subconjunto de datos de manera
adecuada, no se puede garantizar la validez de los modelos extrados y si
finalmente van a ser tiles o no para lo que se quiere obtener. Otro ejemplo
similar es determinar el mtodo de minera de datos; observando los datos se

119


puede seleccionar el mtodo ms acertado. Solo al determinar el mtodo se
puede saber si hay ciertos atributos que hacen cambiar o eliminar unos datos. De
modos diversos se interrelacionan estas preguntas acerca de qu, del dnde y del
cmo.
El proceso que lleva desde los datos a obtener el conocimiento del dominio y de
los usuarios de los cuatro aspectos anteriores, son necesarios para llevar a cabo
la fase propia de minera de datos.
No es solo necesario obtener la vista minable (una tabla con los atributos
relevantes) si no que debe ir acompaada de la tarea a realizar sobre ella y cmo
evaluarla, as como la forma de presentar el resultado final y, en su caso, el
conocimiento previo necesario. Ahora se tratar de extender las cuatro preguntas
anteriores

Vista minable: Qu parte de los datos es pertinente analizar? Una vista
minable [Hg et al. 1998] consiste en una vista en el sentido ms clsico de
base de datos; una tabla. La mayora de mtodos de minera de datos, son
solo capaces de tratar una tabla en cada tarea. Por tanto, la vista minable
debe recoger toda (y solo) la informacin necesaria para realizar la tarea de
minera de datos.

Tarea, mtodo y presentacin: Qu tipo de conocimiento desea extraer
y como se debe presentar? Se trata de decir la tarea (clasificacin,
regresin, agrupamiento, reglas de asociacin, etc.), cules son las
entradas y salidas (en las tareas predictivas), con qu mtodo, entre las
existentes para cada tarea (arboles de decisin, redes neurales, regresin
logstica, etc.) y de qu manera se van a presentar o se van a navegar los
resultados (grficamente, como un rbol, como un conjunto de reglas, etc.).

120


Criterios de calidad: Qu conocimiento puede ser vlido, novedoso e
interesante? En muchos casos hay que establecer algunos criterios de
comprensibilidad de los modelos (numero de reglas mximo), criterios de
fiabilidad (basados en medidas como la confianza para las reglas de la
asociacin, la precisin para la clasificacin, el error cuadrtico medio para
la regresin, etc.), criterios de utilidad (basados en medidas de cuanto son
aplicables, como el soporte, qu beneficios se obtienen, aportar matrices de
costos, etc.), y criterios de novedad o inters (basados en medidas ms o
menos subjetivas).

Conocimiento previo: Qu conocimiento previo hace falta para realizar
esta tarea? Tanto a la hora de construir la vista minable final o para ayudar
al propio algoritmo de minera de datos, puede ser necesario establecer e
incluso expresar de una manera formal cierto conocimiento previo. Por
ejemplo, las jerarquas de conceptos o de dimensiones OLAP permiten
trabajar con los datos y generar atributos, existen funciones que pueden
realizarse por asociacin, o al expresar los modelos, se pueden aadir otras
tablas como conocimiento previo o incluso se pueden aadir otros modelos
anteriores como apoyo para revisar o construir un modelo nuevo.
Por ejemplo, suponga que se ha recolectado la informacin sobre los
diagnsticos y formulas mdicas de atencin primaria de una zona sanitaria. El
objetivo es extraer conocimiento de estos datos. En primer lugar, antes incluso
de revisar los datos, se establecen una serie de entrevistas con los jefes de
servicio de atencin primaria en la zona estudiada.
Entre las cosas que salen a la luz en las entrevistas en su preocupacin
porque una cantidad de nuevos medicamentos han aparecido recientemente
con una serie de dolencias crnicas y la mayora de mdicos prescriben de una
manera aleatoria de entre los medicamentos generalmente efectivos, o como
mucho, siguiendo patrones globales de xito de cada medicamento (prueba el
a antes que el b, etc.). Esto tiene como consecuencia que, en muchos

121


casos, a los pocos das el paciente vuelve a la consulta, y el mdico le receta
otro medicamento, hasta que dan con el medicamento realmente efectivo y que
no muestre contraindicaciones no previstas. Entre las necesidades que
aparecen en las reuniones, por tanto, se encuentra la de realizar modelos que
determinen, segn el paciente, qu medicamento prescribir primero, con el
objetivo de resolver cuanto antes el problema sanitario del paciente, evitar
nuevas visitas de los pacientes (reduccin de visitas) y reduccin de costos
farmacuticos.

A partir de este ejemplo, se puede establecer los componentes de la siguiente
figura, Como se pueden estudiar varias patologas, si nos centramos en una
sola, tendremos que la vista minable va a formarse a partir de los diagnsticos
de dicha patologa y los medicamentos prescritos.

Fuente: Introduccion a la Mineria de Datos. Jos H. Orallo, Ma Jos Ramirez Q y Cesar F
Ramirez. Pearson. Pag. 98.
El medicamento satisfactorio es el ltimo prescrito, ya que, se supone, que si
no hay ms registros del mismo paciente y patologa, el ltimo medicamento
fue bien medicado. Por tanto habr que realizar un tipo de consulta que nos
seleccione el ltimo medicamento prescrito a los pacientes de una patologa
(excluyendo los de menos de un mes, para tener ms perspectiva). Los
factores que vamos a incluir de los antecedentes son todos aquellos existentes
del historial del paciente: parmetros generales: edad, tensin, anlisis de
sangre, etc.
La tarea a realizar es una tarea de clasificacin, ya sea completa o parcial (por
ejemplo se podra realizar un subconjunto de reglas de asociacin que
ayudaran en los casos ms claros). Debido a las caractersticas de los usuarios

122


(mdicos) y a la existencia de comprensibilidad de los modelos (para su
validacin facultativa), se decide que los patrones extrados estarn
expresados en forma de arboles de decisin, ya que los mdicos estn
acostumbrados a seguir este tipo de arboles a la hora de hacer diagnsticos o
prescribir medicamentos.
Los criterios de calidad se establecen a partir de la situacin anterior. En primer
lugar, el porcentaje de xito acumulado es el criterio ms importante. Es decir,
que el nmero medio de medicamentos recetados (o intentos) sea menor. Esto
est muy relacionado con la precisin del modelo, pero existen medidas que
ayudan a evaluar este tipo de problemas. Tambin se incluirn matrices de
costos, con el objetivo de incluir tambin los costos de las visitas y de los
medicamentos. Adicionalmente se buscan modelos con pocas reglas y que se
puedan ampliar con parmetros sencillos de los pacientes, sin necesidad de
realizar pruebas caras o dolorosas, o pruebas que no se puedan realizar a
todos los pacientes, para determinar el mejor medicamento.
Finalmente, existe una gran cantidad de conocimiento previo, extrado
fundamentalmente del dominio y de las entrevistas de los especialistas. Por
ejemplo, del dominio se puede extraer que la zona sanitaria habitual del
paciente es fundamental a la hora de hacer la vista minable, ya que los
pacientes que vienen de otras zonas pueden realizar segunda visita en su zona
de origen (por estar de vacaciones o ir de urgencias) y por tanto el criterio de
considerar el no retorno como xito puede ser un error. El conocimiento
previo nos puede ayudar tambin en la transformacin y seleccin de atributos
relevantes. Los arboles de decisin no aceptan conocimiento previo, pero otros
mtodos s que podran beneficiarse.
En realidad no debe cundir el desanimo ante la Figura 5.1, el ejemplo y la
cantidad de aspectos a establecer. Lo que se intenta ilustrar es que obtener la
vista minable, la tarea, el mtodo, el conocimiento previo necesario, etc., es un
proceso iterativo, que ir siendo ms sencillo a medida que se conocen los

123


datos, el contexto, los usuarios y lgicamente, las tcnicas de exploracin y de
minera de datos. Como del ltimo aspecto, vamos a comentar que se puede
hacer para conocer mejor los datos, el contexto de los usuarios.

Englobemos los conocimientos en los aspectos principales:
Reconocimiento del dominio de los usuarios: debemos reconocer el
conocimiento que podra ser til, adems de intentar obtener las reglas
ya existentes, ya sea para utilizarlas como conocimiento previo como
para reemplazarlas por reglas y modelos mejores obtenidas por tcnicas
de minera de datos. Es importante determinar las decisiones que se
toman frecuentemente y a partir de que modelos se toman, si estos
tienen una base solida o son simples reglas de negocio en la cabeza de
uno o ms directivos. Es importante determinar quien usara el
conocimiento obtenido y qu tipo de presentacin puede ser ms
aconsejable.

Reconocimiento y exploracin de los datos: de los datos seguidos
transformando y seleccionando con el objetivo de obtener una vista
minable, lista ya para ser tratada por las herramientas de minera de
datos. A diferencia de las herramientas del captulo anterior, las
herramientas de exploracin y seleccin requieren saber las
expectativas y necesidades del dominio o, de una forma ms concreta,
la tarea y el conocimiento previo pueden incluir ms en estas
transformaciones y selecciones.
Reconocimiento del dominio y de los usuarios
Como hemos visto en el ejemplo anterior, para conocer que no se puede hacer
con unos ciertos datos es necesario conocer el dominio de los usuarios. Si

124


usted es el gerente o un directivo de una empresa o departamento que conoce
bien, probablemente no necesite realizar este reconocimiento. Pero si usted es
(o va a ser) un profesional de las tecnologas de la informacin, un estadstico
o un profesional de una asesora que va a dedicarse a minera de datos de
varios clientes, usted ser ajeno al dominio. Una de las primeras tareas a
realizar ser, por tanto, conocer y reconocer el dominio de los usuarios.
El procedimiento ms similar a este reconocimiento para minera de datos es el
establecimiento de reconocimientos realizado por un analista de software. A
diferencia del caso del software, en las entrevistas (o cuestionarios) no
buscaremos aqu casos de uso y escenarios de las operaciones mecnicas
clsicas de los sistemas software, sino que buscaremos los casos y usos y
escenarios de las tomas de decisin.
Para ello, realizamos preguntas del estilo: Qu aspectos son cruciales en su
negocio? Qu reglas o modelos de direccin estn utilizando? Se pueden
mejorar dichas reglas? Que base tienen dichas reglas? Existen decisiones
que se toman de una manera arbitraria o basndose en reflexiones personales
no explicitas? Existe documentacin sobre decisiones anteriores? Quines
toman las decisiones? Qu decisiones son crticas? Los modelos deben ser
comprendidos y validados por expertos? Qu otros requerimientos
exigiramos a los patrones extrados? Qu conocimiento previo suele utilizar
para sus decisiones? Y un largo etctera de preguntas de este estilo. Algunas
de estas cuestiones tambin son tiles y se pueden realizar a la hora de
construir un almacn de datos o en el momento de integracin, este
reconocimiento se puede establecer como una fase previa a la minera de
datos, en el que se establecen los requerimientos y objetivos de negocio.
Con una entrevista o cuestionario de este estilo se dar cuenta de que muchas
decisiones se realizan con reglas informales, subjetivas y, en muchos casos,
excesivamente simplistas o generalistas. Por ejemplo, la mayora de
aseguradoras de vehculos utilizan reglas generales de estilo recargo por

125


menos de dos aos el carn o por menos de veinticinco aos, sin entrar en
otros aspectos que, personalizando, podran dar mejores resultados (por
ejemplo por ser mujer, estudiante, no fumador, etc.). Muchas campaas de
publicidad se enfocan a grupos de poblacin (jvenes, amas de casa,
nios, etc.) cuya solidez puede dejar mucho que desear.
El resultado de este reconocimiento puede resumirse en una documentacin
u organizarse de una manera esquemtica, estableciendo prioridades de
anlisis, destacando aquellas reglas de decisin importantes, que pueden
mejorarse de manera significativa y para las cuales parece que disponemos de
datos.
En general, se van descubriendo mayores posibilidades a medida que se va
conociendo el dominio, sin este reconocimiento es posible establecer las
tareas, los mtodos, los criterios de calidad, explorar los datos y el
conocimiento previo.
Reconocimiento y exploracin de los datos

Adems del reconocimiento del dominio, debemos reconocer los datos. Para
ello, lgicamente debemos conocer lo que significan y esto es posible, si quien
lo realiza conoce el dominio o los datos (ya sea porque son sus propios datos y
dominio o porque ha hecho el reconocimiento del dominio). El reconocimiento
de los datos por tanto viene guiado por el inters de las necesidades
establecidas en el reconocimiento de dominio. Sin ste, no se puede saber
que datos son relevantes ni que tareas pueden ser tiles.
El reconocimiento de datos se suele conocer con distintos nombres en ingles
(data survey, exploratory data analysis, data fishing). De modo similar, en
castellano, tambin se puede utilizar trminos diversos: exploracin,
prospeccin

126


No obstante, hay que distinguir que el trmino anlisis exploratorio de datos
(exploratory data analysis, EDA), definido como una serie de tcnicas para
investigar los datos para ver tendencias, patrones, errores y caractersticas
[Tukey 1977] tiene un enfoque diferente o ms restrictivo al que vamos a ver
aqu para la minera de datos. Gran parte de lo que se realiza en EDA existe en
herramientas que no son de minera de datos, especialmente los Executive
Informacion Sistemas (EIS) y, lgicamente, en herramientas estadsticas
generales. En realidad, de nuevo no se puede marcar una lnea de separacin
entre EDA y minera de datos, aunque se podra decir que EDA tiene un
carcter ms explicativo, de caracterizacin de los datos y no suele incluir
modelos complejos ni predictivos.
Muchos de los grficos que hemos comentado se utilizan en este tipo de
anlisis. Pero, adems, las herramientas informativas de EDA permiten
interactuar con los grficos. Por ejemplo, seleccionar un grupo que se ve en un
grafico de dispersin, hacer rotar un grafico tridimensional (en su proyeccin en
dos dimensiones)
El objetivo de la exploracin para la minera de datos es obtener una vista
minable, con una tarea asignada. Para ello, se pueden utilizar distintas tcnicas
para obtener y retirar dicha vista: visualizacin, descripcin, generalizacin,
agregacin y seleccin. En los puntos siguientes veremos estas tcnicas.
Todas ellas requieren, como hemos dicho anteriormente, conocer el dominio y
el significado de los datos.

Leccion 39. Exploracin mediante visualizacin.

A lo largo del modulo se han documentado algunos tipos de tablas, como la
tabla de resumen de caractersticas, y algunas graficas, como los histogramas
y las graficas de distribucin. Estas graficas, en general se centran en uno o

127


dos atributos, a lo sumo, y el objetivo principal era, como vimos, la limpieza de
datos. En este apartado veremos algunas graficas mas con un objetivo
diferente, intentar sugerir tareas de minera de datos o patrones que pueden
extraerse. Las graficas que vamos a ver en este apartado se pueden
caracterizar por dos aspectos: o bien son interactivas y permiten una
exploracin activa, o bien son multidimensionales, con lo que permiten
observar muchos atributos a la vez.

Recientemente, ha aparecido el trmino minera de datos visual (visual data
mining) [Wong 1999] con el significado de de una minera de datos que se
realizan manejando e interactuando con grficos (otra interpretacin es la del
uso de interfaces visuales para la minera de datos, en nuestra opinin el
concepto de minera de datos visual es interesante como hibrido entre la
minera de datos y la visualizacin de datos ms tradicional [Cleveland 1993],
pero, en general, no se puede hacer minera de datos solo con graficas.
Precisamente lo que caracteriza la minera de datos de tcnicas anteriores o
de la perspectiva ms clsica del anlisis de datos es que los modelos son
extrados por algoritmos y, por tanto, no son vistos o descubiertos visualmente
por el usuario (y posteriormente simplemente validados estadsticamente).Son
herramientas que son tiles en distintas fases y de distintas maneras y que se
vern a lo largo de la tematica.
Las tcnicas de visualizacin de datos se utilizan fundamentalmente con dos
objetivos:
Aprovechar la gran capacidad humana de ver patrones, anomalas y
tendencias a partir de imgenes y facilitar la comprensin de los datos.
Ayudar al usuario a comprender ms rpidamente patrones
descubiertos automticamente por un sistema de KDD.

128


Estos dos objetivos marcan dos momentos diferentes del uso de la visualizacin
de dos dados (no excluyentes):
Visualizacin previa (esta es la que normalmente recibe el nombre de
minera de datos visual): se utiliza para entender mejor los datos y sugerir
posibles patrones o qu tipo de herramientas de KDD utilizar. La
visualizacin previa se utiliza frecuentemente por picapedreros, para ver
tendencias y resmenes de los datos, y por exploradores, para ver filones
que investigar.
Visualizacin posterior al proceso de minera de datos: se utiliza para
mostrar los patrones y entendernos mejor. La visualizacin posterior se
utiliza frecuentemente para validar y mostrar a los expertos los resultados
de la extraccin de conocimiento.
El primer tipo de visualizacin previa se trata de la visin multidimensional de las
herramientas OLAP. Aunque realmente no se muestran graficas, los datos s que
se muestran de manera visual (al menos parcialmente) y se puede interactuar con
ellos, navegando por las dimensiones.

Existen otros tipos de visualizaciones ms graficas donde podemos apoyarnos
para la preparacin de datos. En general, las herramientas de minera de datos o
estadsticas no nos van a sugerir que grafica utilizar, con lo que en general se
requerir de cierta experiencia y conocimiento de la herramienta para seleccionar
que grafico nos interesa utilizar entre las decenas de graficas que proporcionan los
sistemas actuales.
Por ejemplo, incluso las hojas de clculo permiten representar grficos
tridimensionales como los de la parte izquierda de la siguiente figura,lo que no
podemos hacer en muchos casos es interactuar con la grafica y obtener datos
derivados a partir de ella. Por ejemplo, algunas herramientas estadsticas o de
minera de datos, nos permiten desplazar un plano de corte sobre un eje de ir

129


viendo los cortes instantneamente, como se ve en la parte derecha de la figura.
En este caso podra ser til para discretizar un atributo (entre un valor menor o
mayor que el plano) para facilitar el agrupamiento. Por ejemplo, en la parte
derecha de la figura se ven dos grupos de una manera mucho ms clara que en la
parte izquierda. Si esos dos grupos son los que realmente nos interesan podemos
pasar el corte (convirtiendo en un nuevo problema bidimensional, utilizando el
atributo discretizado como filtro) a un mtodo de agrupamiento (en este caso
bastara con un mtodo lineal simple).

Ramirez. Pearson. Pag. 104. Interactuando con un grafico para obtener una vista mas
simplificada.

Diferentes sistemas de estadstica o minera de datos, tales como Statistica o
Statistica Data Miner de StatSoft, SAS System o SAS Enterprise Miner, IBM
Intelligent Miner, disponen de tipos de graficas adecuadas para diferentes
propsitos, que se pueden navegar, rotar, modificar o combinar.

130


Leccion 40. Visualizacin Multidimensional

La representacin grafica debe limitarse a las pantallas o al papel, que son
bidimensionales. La grafica de la izquierda de la figura anterior no es ms que una
proyeccin de tres dimensiones en dos dimensiones, que se ayuda de la tonalidad
o del color (este s que se puede considerar una tercera dimensin real) para que
sea ms inteligible. Sin embargo, en muchas situaciones tenemos ms de tres
dimensiones, lo que plantea grandes problemas de cara a la visualizacin.
La tcnica de visualizacin de datos multidimensionales ms conocida es la de
visualizacin de cordenadas paralelas [Inselberg &Dimsdale 1990]. Se mapea el
espacio k-dimensional en dos dimensiones mediante el uso de de k ejes de
ordenadas (escalados linealmente) por uno de abscisas. Cada punto en el espacio
k-dimensional se hace corresponder a un lnea poligonal (polgono abierto) dond
cada vrtice de la lnea poligonal intersecta los k ejes en el valor para la
dimensin. La siguiente figura muestra un espacio 6-dimensional representado a
asi.

131


Ramirez. Pearson. Pag. 105. Grafica de seis coordenadas paralelas con muchos ejemplos.
Aunque un gran numero de ejemplos convierte la grafica en una maraa, aun asi,
se pueden detectar patrones. Por ejemplo se puede verificar que los atributos 1 y
2 no estn correlacionados, mientras que el 2 y 3 estan positivamente
correlacionados, el 3 y 4 estan inversamente correlacionados, asi como existe una
relacin entre la magnitud de 4 y las categoras del atributo nominal 5. Los
atributos 5 y 6 tienen una correspondencia clara entre categoras (en realidad el
atributo 6 es dependiente del atributo 5). Un grafico similar es el grafico (survey
plot), donde se muestran todos los ejemplos ordenados y la amplitud de cada lnea
se muestra se muestra el valor de cada atributo, este ultimo es mas apropiado
para valores numricos.
En general si los datos no correlacionan (que suele ocurrir para la mayora de
atributos) se ve una maraa de lneas. Otra cosa que suele suceder es que el
orden de las dimensiones (atributos) es muy significativo para saber si hay
relaciones. Por ejemplo en la grafica anterior no vemos si el atributo 6 y el 1 tiene
relacin o no.

132


Incluso en el caso en que existan relaciones, un numero excesivo de ejemplos
puede hacer que los puntos se apien o se tapen. Por ejemplo en la parte
derecha de la figura los valores nominales se montan unos sobre otros y se ven
solo cuatro lneas (aunque en realidad, hay decenas de ejemplos). Este problema
se conoce como overplotting. Esto se puede solucionar parcialmente con colores o
haciendo un muestreo (mostrando solo un subconjunto aleatorio de los ejemplos).
En los casos que existan muchos ejemplos con los mismos valores, podemos
incluir un grado de aleatoriedad en las magnitudes (esto se conoce como jitter)
para que unos puntos no aprezcan exacaament encima de otros. Este truco
permite ver la cardinalidad de ejemplos en cada sitio.
El grafico anterior se puede utilizar cuando hay pocos ejemplos. En la siguiente
figura se muestran las caracterisitcas de 12 pacientes con enfermedades
cardiovasculares: el nivel de tabaquismo, colesterol, tensin, obesidad,
alcoholismo, precedentes, estrs y riesgo estimado de enfermedades coronarias,
noirmalizaado de 0 a 10.

133


Ramirez. Pearson. Pag. 106. Grafica de ocho coordenadas paralelas con pocos ejemplos..

En este caso se puede realizar un seguimiento de cada ejemplo. Una variante de
este caso cuando hay pocos ejemplos es la representacin radial o circular comos
emuestra a continuacin.

134


Pearson. Pag. 106. Grafica radial de cinco dimensiones y cuatro ejemplos.

En realidad es similar al de coordenadas paralelas, con lo que no aporta mucho si
se usa de esta manera. Frecuentemente en lugar de mostrar todos los valores en
la radial, se muestran uno a uno, conlo que tenemos diferentes figuras para
comparar los ejemplos. Este es un uso mas ilustrativo como se muestra a
continuacin:

Pearson. Pag. 106.Tres pacientes diferentes vistos mediante grafica radial.

135


Este tipo de representaciones con distintas formas que se da a diferentes objetos
puede llevarse ms all mediante el uso de representaciones inicas, en las
cuales se utilizan figuras fciles de reconocer con seres humanos (animales,
caras, casas, etc.) y cada dimensin representa una caracterstica de la figura. Por
ejemplo, en el caso de los animales, un atributo puede representar el tamao de la
cabeza, el otro el de las piernas, el del rabo, etc. Segn sus partidarios, con este
tipo de representaciones inicas uno puede, de un solo vistazo, darse cuenta del
tipo de individuo o grupo con el que estamos tratando. Lgicamente, cada
representacin inica requiere una cierta familiarizacin previa para ser efectiva.
Otra de las ventajas de las representaciones inicas frente a las radiales es que se
pueden combinar mas convenientemente valores discretos y continuos. Por
ejemplo tener o no tener bigote puede utilizarse para un atributo binario, podemos
representar un atributo con cuatro valores con cuatro tipos de nariz, etc.

Sumarizacin, descripcin, generalizacin y positivismo

La construccin de la vista minable es un proceso iterativo que pasa por conocer y
visualizar los datos, combinados de diferentes manera. Para esta combinacin
podemos utilizar operadores de consultas de bases de datos y operadores OLAP.
Los datos con los se trabaja en minera de datos son, muy frecuentemente, datos
histricos que, por tanto, pueden agregarse a diferentes niveles de detalle
temporal. Si adems, la estructura de los datos es multidimensional (por ejemplo
un datamart) existen campos de agregacin, podemos obtener diferentes vistas
concatenando (juntando o enlazando) diferentes tablas y agregando al nivel que
deseemos.
Una pregunta que aparece generalmente en el entorno de la minera de datos es
la siguiente:si ya he decidido que tablas y atributos son relevantes, Por qu

136


debo construir una nica tabla derivada, denominada vista minable? no es
suficiente con marcar dichos atributos y dejar que la herramienta de minera de
datos trabaje sobre las bases de datos?. Existen dos razones fundamentales para
contestar a esta pregunta. La primera es que dadas varias tablas, incluso aunque
tenga claves foraneas definidas, existen muchas maneras de concatenarlas, es
decir, de combinar la informacin que contienen. Por tanto, es ms difcil definir
tareas concretas si no se clarifica exactamente la informacin sobre la que se van
a definir. La segunda razn es quizs ms importante: la mayora de mtodos de
minera de datos solo tratan con una nica tabla. Si bien es cierto que hay
herramientas de programacin lgica inductiva y la minera de datos relacional, si
empiezan a ser capaces de trabajar con varias tablas, la mayora de tcnicas solo
son capaces de trabajar con representaciones del estilo atributo-valor, es decir,
una tabla.
Por tanto, debemos definir una consulta o vista minable. Para ello, las operaciones
necesarias son aquellas de un lenguaje relacional (como por ejemplo el SQL).
Concatenaciones (joins), selecciones, proyecciones, agrupamientos/agregaciones,
etc. La siguiente figura muestra precisamente la construccin de una vista minable
a partir de un conjunto de tablas. Aunque las tablas tiene una estructura
multidimensional y podamos apoyarnos en herramientas OLAP, en realidad las
operaciones necesarias son las tpicas de una consulta SQL: concatenacin,
seleccin, proyeccin y agrupamiento.

137


Pearson. Pag. 108. Seleccin de tablas, atributos, condiciones, y niveles de agregacin para
obtener una vista minable.

Es quiz, la concatenacin de tablas aquella que permite juntar en una tabla la
informacin proveniente de varias. Este proceso generalmente obtiene vistas
desnormalizadas, en las que por ejemplo, la tabla ciudad y pas se funden en una
sola, donde aparece el nombre de la ciudad y del pas. Este tipo de
desnormalizaciones contiene redundancia y por tanto patrones. Hay que ser
concientes de ellos, por que si excluyramos todos los atributos para reglas de
asociacin, por ejemplo, tendremospetrones redescubiertos del estilo de
dependencias funcionales como ciudad pas o en el ejemplo anterior
dia.nombre laborable.

138


Pivotamiento

Una operacin muy usual a las hora de preparar la vista minable se conoce
como pivotamiento y, forma parte de los operadores OLAP. La operacin de
pivotamiento cambia filas por columnas y, por tanto, realiza un cambio
verdaderamente radical para una representacin basada en pares atributo-
valor.
El ejemplo ms clsico de pivotamiento es de la cesta de la compra. Supongamos
que los grandes almacenes guardan una gran tabla de cestas de la compra, donde
cada atributo indica si el producto se ha comprado o no. Existen unos 10000
productos en los atributos en los grandes almacenes y millones de cestas
semanales. El objetivo del anlisis es ver que productos se compran
conjuntamente.
Lgicamente, los datos no caben en memoria, con lo que hay que ir trabajando en
disco. Para tener algo de fiabilidad en las reglas hay que mirar al menos la raz
cuadrada de todas las cestas, eso obliga a seleccionar unas 1000 filas
(aleatoriamente) de la tabla para cada dos atributos que queramos evaluar.
Si este tipo de anlisis se van a realizar frecuentemente, puede merecer la pena
cambiar filas columnas, como se muestra en la figura

#Cesta Prod1 Prod 2 Prod 3 .. Prod
10000
1 SI NO NO . NO
2 NO NO NO . SI

139


3 SI SI NO . NO
4 SI NO NO . NO
5 NO SI SI . SI
.. .. . . . .
10.000.
000
NO NO SI . SI

#Produ
cto
Cesta 1 Cesta
2
Cesta
3
.. Cesta
10.000.00
0
1 SI NO SI . NO
2 NO NO SI . NO
3 NO NO NO . SI
4 NO SI NO . SI
5 SI SI NO . NO
.. .. . . . .
10.000.
000
NO SI NO . SI

Pearson. Pag. 111.Pivotamiento. Cambio de filas por columnas./* Este proceso se puede hacer
facilmente con una hoja de calculo y la funcin transponer*/
pivotaje

140


Ahora, para observar si dos productos estn asociados es solo necesario dos
filas de la tabla y realizar, por ejemplo, un o exclusivo entre las filas ,para ver
si estn asociadas o no.

Seleccin de datos.

La seleccin de datos es algo ms que decir qu tablas (o archivos) se van a
necesitar para la minera de datos y de qu manera concatenarlas. Esto podra
estar ya decidido, pero todava no sabemos qu atributos/variables necesitamos y
cuantas instancias (ejemplos) van a ser necesarias. Dicho de otra manera, puede
ser que no todas las columnas, ni todas las filas sean necesarias. Dicho de otra
manera, puede ser que no todas las columnas, ni todas las filas sean necesarias.
El problema existente es precisamente que si seleccionamos como vista minable
todo aquello que pueda ser relevante podemos acabar con una vista minable de
cientos de columnas/atributos y millones de filas/registros.
El tamao de una tabla como sta, desborda la capacidad de muchas de las
tcnicas de minera de datos. Hemos de ser capaces de ver si podemos obtener
primeros modelos (o incluso mejores modelos) con un subconjunto de las
instancias y de las variables.
La seleccin de datos no tiene nicamente como objetivo la reduccin del tamao
para obtener una minera de datos ms rpida si no que, en muchos casos, puede
permitir mejorar el resultado (tanto en precisin o en costo, por ejemplo utilizando
muestreo estratificado o en comprensibilidad, por ejemplo utilizando reduccin de
dimensionalidad).
El proceso de seleccin de datos muchas veces se engloba dentro de un concepto
ms amplio, denominando reduccin de datos (data reduction), aunque este
trmino tambin puede incluir la agregacin (por ejemplo si pasamos de instancias

141


de cada da a instancias agregadas mensualmente), la generalizacin (por
ejemplo si reemplazamos el atributo ciudad por regin, siguiendo por ejemplo la
jerarqua de alguna dimensin), o incluso la comprensin de datos (por ejemplo
eliminando datos redundantes).
En general, cuando tratamos con datos del estilo atributo-valor (es decir, una
tabla), hay dos tipos de seleccin aplicables: seleccin horizontal (muestreo),
donde se eliminan algunas filas (individuos) y seleccin vertical (reduccin de
dimensionalidad), donde se eliminan caractersticas de todos los individuos.

Actividad de cierre Capitulo VIII

1) Cules son los objetivos o tareas que pretende realizar la minera de
datos.
2) Que son las reglas de asociacin como tipo de conocimiento, de una
definicin de soporte y confianza y utilcelas para definir una regla de
asociacin.
3) Describa un ejemplo de una regla de asociacin entre jerarquas.
4) Que es la entropa y como se usa en la construccin de arboles de
decisin.
5) Describa las redes neuronales y los algoritmos genticos como tcnicas
para la minera de datos Cules son las mayores dificultades al usar estas
tcnicas.
6) Aplique el algoritmo A priori al siguiente conjunto de datos :
Id_trans Articulos_Compras
101 leche,pan ,huevos
102 leche, zumo
103 zumo, mantequilla
104 leche,pan, huevos

142


105 caf, huevos
106 caf
107 caf, zumo
108 leche, pan, galletas, huevos
109 galletas, mantequillas
110 leche, pan

El conjunto de artculos es
{Leche, pan, galletas, huevos, matequilla, caf, zumo,}.
Utilice 2 como valor mnimo de soporte.
7) Cules son los cinco tipos de conocimientos obtenidos a partir de la
minera de datos.
8) Cules son las dificultades de obtener las reglas de asociacin en bases
de datos de gran tamao.
9) En que se diferencia el agrupamiento de la clasificacin.
10)Cules son las reglas de clasificacin y como se relacionan con los arboles
de decisin.

143


Capitulo 9: Tcnicas de Minera de Datos.
Leccion. 41. Redes Neuronales
Pearson. Pag. 327.

Una red neural es una tcnica derivada de la investigacin en inteligencia artificial
que utiliza la regresin generalizada y proporciona un mtodo interactivo para
llevarla a cabo. Las redes neuronales usan un modelo de ajuste de curvas para
deducir una funcin a partir de un conjunto de muestras. Esta tcnica proporciona
un modelo de aprendizaje; funciona mediante una muestra de prueba que utiliza
para la inferencia inicial y el aprendizaje. Con este tipo de mtodo de aprendizaje,
es posible interpolar las respuestas a nuevas entradas a partir de las muestras
conocidas. Esta interpolacin depende, sin embargo, del modelo de conocimiento
(representacin interna del dominio del problema) desarrollado por el mtodo de
aprendizaje.
Se puede hacer una clasificacin ampla de las redes neurales en dos categoras:
redes supervisadas y redes no supervisadas. Los mtodos adaptativos en los
que se intentan reducir el error de salida son mtodos de aprendizaje
supervisado, mientras que los que desarrollan representaciones internas de
generar muestras en salida se denominan mtodos de aprendizaje no
supervisado. Las redes neuronales realizan auto adaptaciones; es
decir,aprenden a partir de la informacin existente sobre un problema
determinado. Se ejecutan con efectividad en tareas de clasificacin y se usan, por
tanto, en la minera de datos. Sin embargo, no estn exentas de problemas. An
que aprenden, no proporcionan una buena representacin de lo que han
aprendido.

144


Sus salidas son muy cuantitativas y difciles de interpretar. Otra de sus
limitaciones es que las representaciones internas desarrolladas por las redes
neuronales no son nicas. Adems, por lo General, las redes neuronales tienen
problemas con el modelado de datos de series temporales. A pesar de estos
inconvenientes, son muy populares y varios proveedores comerciales las utilizan
con frecuencia.

El Aprendizaje en las Redes Neuronales

Hemos afirmado que las RNA no necesitan volver a ser programadas al cambiar
de entorno.Esto no quiere decir que sucomportamientos no cambien con la
finalidad de adaptar al nuevo entorno. Estos cambios son debido a variaciones en
los pesos de la red.
Los cambios en los pesos de una red neural dan lugar al aprendizaje.Estos se
producen para modelar los cambios en el rendimiento de la sinapsis de las redes
neuronales reales. Se cree que nuestro aprendizaje se debe a cambios en el
rendimiento o eficiencia de la sinapsis, a travs de las cuales se transmiten la
informacin entre las neuronas.
Hay dos tipos principales de aprendizaje en RNA:
Aprendizaje supervisado. Con este tipo de aprendizaje, proporcionamos a la
red un conjunto de datos de entrada y la respuesta correcta. El conjunto de
datos de entrada es propagado hacia adelante hasta que la activacin
alcanza las neuronas de la capa de salida. Entonces podemos comparar la
repuesta calculada por la red con aquella que se desea obtener, el valor
real, objetivo o blanco (de target, en ingles). Entonces se ajustan los
pesos para asegurar que la red produzca de una manera ms probable una
respuesta en el caso de que se vuelva a presentar el mismo o similar

145


patrn de entrada. Este tipo de aprendizaje ser til especialmente para las
tareas de regresin y clasificacin.
Aprendizaje no supervisado. Slo se proporciona a la red un conjunto de
datos de entrada. La red debe auto-organizarse (es decir, auto ensearse)
dependiendo de algn tipo de estructura existente en el conjunto de datos
de entrada. Tpicamente est estructurada suele deberse a redundancia o
agrupamiento y reduccin de dimensiones.
Al igual que otros paradigmas de la inteligencia artificial, la faceta ms interesante
del aprendizaje no es solo la posibilidad de que patrones de entrada pueda ser
aprendidos, clasificados e identificados sino la capacidad de generalizacin que
posee. Es decir, mientras el aprendizaje tiene lugar en un conjunto de patrones de
entrenamiento, una propiedad importante de este, es que la red pueda generalizar
sus resultados en un conjunto de patrones de prueba los cuales no han sido vistos
durante el aprendizaje. Uno de los problemas a Tener en cuenta es el peligro de
sobre aprendizaje, denomina ms tcnicamente sobreajuste.

Apredizaje Supervisado En RNA

Para introducir este tipo de aprendizaje primero presentamos dos de las primeras
redes neurales que lo emplearon en su diseo y posteriormente mostraremos dos
de las redes neurales ms usadas basadas en la utilizacin de ste.

146


Perceptron simple y Adaline

El perceptor simple fue inicialmente investigado por Rosenblatt en 1962
(Rosenblatt, 1962). El perceptor simple tiene una estructura de varios nodos o
neuronas de entrada y uno o ms de salida. Un perceptor simple, por tanto, no
tiene capa oculta y as su estructura es como la red neural artificial de la Figura
anterior, pero sin ninguna capa oculta o intermedia. Asociado a un patrn de
entrada particular, x, tenemos una salida y un blanco o salida correcta t. El
algoritmo tiene la siguiente forma:
1. La red comienza en un estado aleatorio. Los pesos entre neuronas
poseen valores pequeos y aleatorios (entre -1 y 1).
2. Seleccionar un vector de entrada, X, a partir del conjunto de ejemplos
de entrenamiento.
3. Se propaga la activacin hacia delante a travs de los pesos en la red
para calcular la salida = W.X.
4. Si =t (es decir, si la salida de la red es correcta) volver al paso 2.

147


5. En caso contrario el cambio de los pesos se realiza atendiendo a la
siguiente expresin: W=X(t - ) donde es un numero pequeo
positivo conocido como coeficiente de aprendizaje. Volver al paso 2.

Lo que se hace, por tanto, es ajustar los pesos de una manera en la que las
salidas de la red, , se vayan haciendo cada vez mas semejantes al valor de los
blancos, t, a medida que cada entrada, X, se va presentando a la red.
Otra red neuronal importante fue la Adaline (AD Aptative LINear Element),
concebida por Widrow y sus colaboradores en 1960 (Windows & Hoff 1960). Su
topologa es idntica al perceptor simple, es decir, no tiene capa oculta, pero la red
Adaline calcula sus salidas empleando la siguiente expresin:
=WX+
Con la misma notacin de antes. La diferencia entre esta red y el Perceptor es la
presencia o no de un umbral, . El inters en esta red se debi parcialmente al
hecho de que se puede implementar fcilmente empleando un conjunto de
resistores e interruptores.
La suma del error cuadrtico a partir del uso de esta red en todos los patrones de
entrenamiento viene dada por la siguiente expresin:
E = E = (t - o)
Y el incremento de los pesos viene dado por su gradiente:
= -
Donde representa el coeficiente de aprendizaje. Esta regla se denomina Error
Cuadrtico Medio (Least Mean Square error, LMS) o regla Delta o de Widrow
Hoff.

Ahora, en el caso del modelo Adaline con una sola salida, o, tenemos:

148


E E
W W
y debido a la linealidad de las unidades Adaline,
.
Por tanto,
W = (t- )x
Ntese la similitud entre esta regla de aprendizaje y la del perceptor. Sin embargo,
esta regla tiene mayor aplicacin ya que se puede usar tanto para neuronas
binarias como continuas, es decir, tanto para neuronas cuyas salidas son
solamente ceros y unos o aquellos cuya salida son nmeros reales. Es una de las
reglas ms potentes y se emplea como base de muchos mtodos que utilizan
aprendizaje supervisado.
El perceptor simple y el modelo Adaline son reales sin capa intermedia y, por
tanto, si ignoramos las funciones de activacin, son equivalentes a una funcin
discriminante lineal. Todo lo anterior no es sino un repaso de lo visto en el
curso de IA.

Perceptor Multicapa

Tanto el perceptor y el modelo Adaline son mtodos potentes de aprendizaje
aunque hay algunas situaciones en las que no dan lugar a buenos resultados.
Estos casos se caracterizan por ser no linealmente separables. Hoy en da es
posible mostrar que muchos conjuntos de datos que no son linealmente
separables pueden ser modelos mediante el empleo del Perceptor Multicapa

149


(Multilayer Perceptor, MLP), es decir una red neural en forma de cascada, que
tiene una o ms capas ocultas, como la vista en la Figura anterior.
Aunque esta potencialidad del MLP se descubri pronto, se tardo bastante tiempo
en encontrar un mtodo o regla de aprendizaje apropiada para construirlas a partir
de ejemplos. Esta regla parece que fue descubierta de manera independiente
varias veces, y no existe acuerdo de la fecha exacta ni de su descubridor, pero fue
popularizada principalmente por el Grupo PDP (Paralel Distributed Procesing)
[McClelland et al. 1986], bajo el nombre de Retro propagacin o Programacin
hacia atrs.
Respecto al uso de la red o de la activacin, la activacin se propaga en la red a
travs desde los pesos desde la capa de entrada hacia la capa intermedia donde
se aplica alguna funcin de activacin a las entradas que le llegan. Entonces la
activacin se propaga a travs de los pesos hacia la capa de salida.
Por tanto, si pensamos en el aprendizaje, hay que actualizar dos conjuntos de
pesos: aquellos entre la capa oculta o intermedia y la de salida, y aquellos entre la
capa de entrada y la capa intermedia. El error debido al primer conjunto de pesos
se calcula empleando el mtodo de error cuadrtico medio anteriormente descrito.
Entonces se propaga hacia atrs la parte del error debido a los errores que tienen
lugar en el segundo conjunto de pesos y se asigna el error proporcional a los
pesos que lo causan.
Podemos utilizar cualquier numero de capas ocultas que queramos ya que el
mtodo es bastante general. Sin embargo, un factor a tener en cuenta es
normalmente el tiempo de entrenamiento, en cual puede ser excesivo para
arquitecturas con muchas capas. Adems se ha demostrado que redes con una
nica capa oculta son capaces de aproximar cualquier funcin continua (o incluso
cualquier funcin con solo un numero finito de discontinuidades), en el caso de
utilizar funciones de activacin diferenciables (no lineales) en la capa oculta.

150


Sistemas, Aplicabilidad Y Recomendaciones De Uso

Hemos sugerido que el principal rasgo diferenciador en el campo de las redes
neuronales artificiales se encuentra entre aquellas redes que emplean aprendizaje
supervisado, aplicables, por tanto, a las tareas de clasificacin y regresin, y
aquellas dedicadas al aprendizaje no supervisado, utilizables, fundamentalmente,
para el agrupamiento, la reduccin de dimensional dad o la transformacin de
atributos.
Para ponerse mano a la obra, existe infinidad de paquetes y herramientas
(muchas ellas gratuitas) para utilizar redes neuronales. Por ejemplo, un simulador
de redes neuronales muy conocido en el denominado SNNS (Simulador de Redes
Neuronales de Stuttgart) (http://www-ra.informatik.uni-tuebingen.de/SNNS/). Su
objetivo es la creacin de un entorno eficiente y flexible que permita simular la
actuacin de diferentes redes neuronales. Tambin recomendamos la Toolbox
de redes neuronales de Matlab (http://www.mathworks.com/products/neuralnet/),
para el estudio, implementacin y aplicacin de diferentes arquitecturas
neuronales. Otras herramientas especificas de redes neuronales son
NeuralPlanner, NeuronalDiet o Easy NN (http://www.easynn.com/)

Respecto a las herramientas generales que incorporan tcnicas de redes
neuronales, hemos comentado anteriormente, WEKA y Clementine. En realidad, la
mayora de paquetes genricos de minera de datos (suites), incorporan al menos
retropropagacin y, muchos de ellos, como por ejemplo Clementine, tambin los
mapas de Kohonen (SOM) o los RBF.
Estos paquetes genricos son recomendables para los principiantes en redes
neuronales, ya que permiten utilizar parmetros y topologas por defecto, con
resultados aceptables. Las herramientas especficas son ms recomendables
cuando ya se tiene un mayor conocimiento y experiencia sobre redes neuronales y

151


se desea obtener todo su potencial, mediante una eleccin precisa de los
algoritmos, las topologas y los parmetros.
Para finalizar, se debe aclarar que lo presentado aqui es una introduccin a toda
una disciplina, la de las redes neuronales, en la que se pueden encontrar muchas
ms tcnicas y variantes de las que se han presentado, que son, a nuestro
parecer, las ms usuales y tiles en minera de datos. Para ampliar informacin
sobre redes neuronales artificiales, tanto como sacar el mximo partido de las
tcnicas vistas aqu, como iniciarse en otras tcnicas, se recomiendan los libros:
[Isasi & Galvn 2003] y [Haykin 1998].

Leccion 42. Procesamiento analtico en linea
El anlisis estadstico suele necesitar el agrupamiento de varios atributos.
Considrese una aplicacin en que una tienda desea averiguar las prendas que
son ms populares. Supngase que las prendas estn caracterizadas por su
nombre de artculo, color y su talla y que se tienen la relacin de ventas asi:
Ventas (nombre_ artculo, color, talla, nmeros). Supngase que nombre_ artculo
pueda adoptar los valores (falda, vestido, camisa, pantaln) color puede adoptar
los valores (pequea, mediana, grande).
Dar una relacin utilizada para el anlisis de datos; se puede identificar algunos
atributos de medida, ya que miden algun valor y pueden agregarse. Por ejemplo,
el atributo nmero de la relacin ventas es un atributo de medida, ya que mide la
cantidad de unidades vendidas. A algunos de los dems atributos (o todos ellos)
de la relacin se identifican cmo atributos de dimensin ya que definen las
dimensiones en las que se ven los atributos de medida y lo resmenes de los
atributos de medida. En la relacin ventas, nombre_ Articulo, color y talla son
atributos de dimension. (Una versin ms realista de la relacin ventas tendra
ms dimensiones, como tiempo o lugar de venta, y ms medidas como el valor
monetario de la venta).

152


Los datos que pueden modelarse como atributos de dimensin y como atributos
de medida se denominan datos multidimensionales.
Para analizar los datos multidimensionales que el administrador desee ver, estn
dispuestos como se encuentran en la siguiente tabla ya que muestra las cifras de
diferentes combinaciones de nombre articulo y color. El valor de talla se especifica
en todas, lo que indica que los valores mostrados son un resumen para todos los
valores de talla.
La tabla es un ejemplo de tabulacin cruzada, tambin se denomina tabla
dinmica. En General, las tabulaciones cruzadas son aquellas en las que los
valores de los atributos (por ejemplo, A) forman las cabeceras de las filas, los
valores que otra atributo (por ejemplo B ) formar las cabeceras de las columnas y
los valores de Celda se obtiene como sigue: cada celda puede identificarse como
(Ai,Bj), el Valor de la celda debe obtener por agregacin de las tuplas con ese
Valor. En este ejemplo la agregacin utilizada en la suma de los valores del
atributo numero, para todos los valores de talla, como se indica por talla: All en la
tabla cruzada, en este ejemplo la tabulacin cruzada tambin tiene una columna y
una fila adicionales que guardan los totales de las celdas que cada fila o columna.
La mayor parte de las tabulaciones tienen esa filas y columnas de resumen.
Las tabulaciones cruzadas son diferentes en la tabla relacionales que se puede
guardar en las bases de datos, ya que el nmero de columnas de la tabulacin
cruzada depende de los datos. Una modificacin en los valores de los datos puede
dar lugar a que se aadan mas columnas, lo que noresulta deseable para el
almacenamiento de los datos.
Nombre_articulo Color Talla Numero
Falda
Falda
Falda
Oscuro
Pastel
Blanco
All
All
All
8
35
10

153


Falda
Vestido
Vestido
Vestido
Vestido
Camisa
Camisa
Camisa
Camisa
Pantaln
Pantaln
Pantaln
Pantaln
All
All
All
All
All
Oscuro
Pastel
Blanco
ALL
Oscuro
Pastel
Blanco
All
Oscuro
Pastel
Blanco
All
Oscuro
Pastel
Blanco
All
Alla
All
All
All
All
All
All
All
All
All
All
All
All
All
All
All
All
53
20
10
5
35
14
7
28
49
20
2
5
27
62
54
48
164

Tabla.Representacin relacional de los datos.
Deseable para el almacenamiento de los datos. No obstante, la vista de tabulacin
cruzada y deseable para mostrrsela a los usuarios. La presentacin de las
tabulaciones cruzadas y valores resumen un formulario relacional con el nmero

154


fijo de columnas. La tabulacin cruzada con columnas o filas resumen, puede
representar el valor especial de todos para presentar los subtotales. La norma
SQL: en 1999 utiliza realmente el Valor Null (nulo) en lugar de all pero, para
evitar confusin con los valores nulos habituales, en el libros se seguira utilizando
all.
Considrese las Tuplas (falda, all, all, 53) y (vestido, all, all, 35). Se han obtenido
heredando las Tuplas individuales con diferentes valores de color y talla, y
sustituyendo el valor de nmero por un agregadoes decir, una suma. El valor all
puede considerarse representante del conjunto de los valores del atributo. Las
Tuplas con el valor all para las dimensiones color y talla pueden obtenerse
mediante una agregacin de las relaciones ventas, con una agrupacin en la
columna nombre articulo. De manera parecida, se puede utilizar una agrupacin
en el color y talla para conseguir las Tuplas con el valor all para nombre artculo, y
se puede utilizar una agrupacin sin atributo alguno (que en SQL puede omitirse
simplemente) para obtener la tupla con el valor al para nombre artculo, color y
talla.

Leccion 43. WEB Mining
Pearson. Pag. 546.

En este apartado se describir la minera web, es decir, el problema de extraer
informacin a partir de documentos de la web. Las tcnicas de minera web
difieren significativamente de las tcnicas vistas hasta ahora ya que la web es un
repositorio de gran tamao donde los documentos contienen datos de muy diverso
tipo (texto, imgenes, audio, etc.) que son, por tanto, no estructurados o semi-
estructurados, a diferencia de las bases de datos. Adems, los documentos son
hipertexto o hipermedia, al hacer referencias a otros documentos a travs de

155


hipervnculos. Estos hipervnculos pueden ser recorridos o no por distintos
usuarios, segn las secuencias de navegacin por la web. Esta diversidad permite
minar la web basndose en tres conceptos: el contenido, la estructura y el uso.
Como veremos, la minera del contenido web reutiliza todas las tcnicas de la
minera de textos y mucha de la recuperacin de informacin. De hecho, la
minera de textos y de documentos de marcas englobada dentro de la minera de
contenido web. Se debe tener en cuenta las nociones bsicas de las tres
modalidades (contenido, estructura y uso) e incluiremos descripciones y
referencias de algunas de las tcnicas empleadas en cada una de ellas.

La World Wide Web es el repositorio ms grande y ampliamente conocido de
hipertexto. Un documento hipertexto es una coleccin de caracteres (texto) que
puede contener, a travs de los hipervnculos, referencias a otros documentos
distribuidos en la web. Estos documentos o pginas web estn escritos en una
gran diversidad de idiomas y abarcan todos los tpicos del conocimiento humano.
La web ha experimentado un crecimiento exponencial desde su aparicin en 1990.
El cdigo inicial fue escrito por Berners-Lee en el Laboratorio de Fsica de Altas
Energas (CERN) en Suiza. Como l mismo afirm: "el principal objetivo de la web
fue tener un espacio de informacin compartido a travs del cual mquinas y
personas pudieran comunicarse". El inters era que se pudieran comunicar
mquinas y software de diferentes tipos. Para ello, desarroll un identificador de
recursos universal (Uniform Resource Locator, URL) para poder referirse a
cualquier documento (u otro tipo de recurso) en el universo de informacin.
Asimismo, en lugar del protocolo de transferencia de archivos utilizado en ese
momento para el intercambio de informacin, cre a partir de l un protocolo de
transferencia de hipertexto (Hipertexto Transfer Protocolo, HTTP) ms rpido que
el primero y un lenguaje de marcas para hipertexto (HyperText Markup Language,
HTML).

156


Actualmente, Internet (incluyendo dentro de este trmino tambin el correo
electrnico) es el medio ms popular e interactivo de difundir informacin. Pero
esta situacin hace que a menudo los usuarios tengamos una sobrecarga de
informacin. Segn [Kosala & Blockeel 2000] algunos de los problemas con los
que nos encontramos cuando interactuamos con la web son:
Encontrar informacin relevante: cuando un usuario utiliza servicios de
bsqueda para encontrar una informacin especfica en la web,
normalmente introduce una pregunta con las palabras clave y obtiene como
respuesta una lista de pginas coordenadas segn su similitud con la
pregunta. Sin embargo, estas herramientas de bsqueda tienen, por lo
general, una precisin bastante baja debido a la irrelevancia de muchos de
los resultados de la bsqueda. A esto se une su limitada memoria que las
hace incapaces de indexar toda la informacin disponible en la web, por lo
que se hace incluso ms necesario encontrar la informacin relevante a la
pregunta.
Crear nuevo conocimiento: la relevancia de la informacin obtenida en las
consultas a la web es un problema estrechamente relacionado con el de
crear nuevo conocimiento a partir de la informacin disponible en la web, es
decir, una vez obtenidos los datos tras el proceso de bsqueda
probablemente queramos extraer coincidencias, resmenes, patrones,
regularidades y, al fin y al cabo, conocimiento a partir de estos datos.
Podemos decir, que si encontrar informacin en la web es un proceso
orientado a la recuperacin, la obtencin de conocimiento til es un proceso
orientado a la minera de datos.
Personalizacin de la informacin: a menudo se asocia este problema con
la presentacin y el tipo de la informacin, ya que los diferentes usuarios
suelen tener gustos distintos a la hora de preferir ciertos contenidos y
presentaciones cuando interactan con la web. Muy relacionado con este
problema est el de aprender de los usuarios, es decir, saber qu es lo que
los usuarios hacen y quieren. Esto permite personalizar la informacin

157


incluso para un usuario individual (diseo de portales web, de herramientas
software, filtros de correo, etc.).
La enorme cantidad de informacin disponible hace de la web un rea frtil para la
minera de datos cuyas tcnicas pueden resolver los problemas que acabamos de
mencionar. Para ello, la minera web se nutre de tcnicas de otras reas de
investigacin como las bases de datos, la recuperacin de informacin
(Informacin Retrieval, IR) [Salton & McGill 1983; Baeza-Yates & Ribeiro-Neto
1999], el procesamiento del lenguaje natural (Natural Language Procesan, NLP)
[Manning & Schtze 1999] y la inteligencia artificial [RusseU & Norvig 2002],
especialmente el aprendizaje automtico.
Sin embargo, a diferencia de las bases de datos relacionales que poseen una
estructura bien definida, la web es poco estructurada por naturaleza. Esto significa
que muchas de las tcnicas de minera de datos vistas hasta ahora no pueden
aplicarse directamente, deben modificarse o, incluso, deben definirse nuevas
tcnicas. De hecho, tradicionalmente, la minera de datos se ha aplicado a las
bases de datos, ya que era un formato de fcil procesamiento por los
computadores, mientras que la informacin en la web reside en documentos
enfocados al consumo humano tales como pginas personales, publicitarias,
informacin general o catlogos de productos. Ms an, mucha de esta
informacin se presenta como un texto en lenguaje natural, o bien como
anotaciones HTML que estructuran la representacin visual de las pginas web
pero que proporcionan una escasa idea acerca de su contenido. Otras formas de
estructurar la web incluyen ciertas convecciones lingsticas y tipogrficas, clases
de documentos semi-estructurados como XML (eXtensible Markup Language)
cada da de ms uso para representar datos con cierta estructura, como los
catlogos o los ndices y directorios web.
Otros datos de inters residen en los archivos .log, en los que los servidores
registran informacin sobre las visitas que se efectan a la web, y en las bases de
datos que se generan a partir de otra informacin como, por ejemplo, la

158


proporcionada por las cookies. Existen algunas herramientas de anlisis de la web
que pueden ser de utilidad al proporcionar respuestas a preguntas como cul es
el orden ms habitual al visitar los enlaces de nuestras pginas?, cuntos nuevos
visitantes tuvimos el mes pasado? cul es la media de visitas de un cliente?,
cunto tiempo est un cliente en nuestras pginas? Estas herramientas analizan
y monitorizan el trfico de la web y analizan los archivos log (normalmente
transformando los datos a un formato inteligible como resmenes agregados o
grafos). En [Mena 1999] se incluye una comparacin entre algunas de estas
herramientas.
Las herramientas de anlisis y estadsticas de sitios web que se proporcionan
junto a los servidores web (frecuentemente mal etiquetadas bajo el trmino
"minera web") proporcionan vistas y resmenes de los datos de un modo similar a
las herramientas clsicas de representacin y solarizacin estadsticas y las
herramientas OLAP. Al igual que stas, son buenas para generar informes
agregados o grficas, lo cual puede ser de gran inters para disear, administrar y
manipular webs, pero no permiten realizar otras actividades, como la extraccin de
patrones sobre el comportamiento de los usuarios, o bien estudiar la relevancia y
clasificacin de pginas y documentos.
Las verdaderas herramientas de minera de datos pueden proporcionar al
administrador de la web informacin adicional para responder a cuestiones mucho
ms sofisticadas, como, por ejemplo, cules seran los visitantes ms adecuados
para una nueva lnea de productos?, cul es el perfil de mis visitantes?, qu
organizacin del portal favorece las compras?, qu pginas web fomentan el
abandono del sitio web? Si bien es cierto que estas cuestiones podran
responderse con herramientas de anlisis a base de tratar de definir criterios y
perfiles y ver cundo se cumplen y cundo no (siguiendo un mtodo de prueba y
error), en un entorno tan dinmico como la web sera un proceso temporalmente
muy costoso (cuando no imposible) y susceptible de cometer errores. Sin
embargo, con herramientas de minera de datos, encontrar, por ejemplo, grupos
de clientes a partir de archivos log es casi inmediato usando tcnicas de

159


agrupamiento, o categorizar documentos sobre ciertos temas utilizando tcnicas
de clasificacin, o determinar qu pginas llevan a comprar que producto
mediante reglas de asociacin secuenciales, etc.
A continuacin, definiremos el concepto de minera web, estudiaremos su relacin
con otros conceptos relacionados y presentaremos una clasificacin de la minera
web atendiendo al tipo de datos que se minan (el contenido, la estructura o el
uso).

Atizona [Atizona 1996] defini la minera web como el uso de tcnicas de minera
de datos para descubrir y extraer informacin automticamente desde el World
Wide Web.

El Proceso de Minera Web

La minera web puede descomponerse en las siguientes subreas:
1. Descubrimiento de las fuentes: localizar los documentos y servicios en la
web.
2. Seleccin y pre-procesado de la informacin: extraer automticamente
informacin especfica desde las fuentes web descubiertas.
3. Generalizacin: descubrir patrones generales desde los sitios web
individuales as como desde mltiples sitios.
4. Anlisis: validacin y/o interpretacin de los patrones minados.
La primera tarea hace referencia al proceso de recuperar los datos desde las
fuentes textuales de la web, tales como los correos y los boletines electrnicos, los
grupos de noticias, el texto en los documentos HTML (una vez procesadas las
etiquetas) o cualquier otro tipo de documento hipertexto (pdfs, Xml, etc.). El trabajo
de descubrir las fuentes se centra principalmente en el uso de ndices de
documentos web. Esto ha dado lugar al desarrollo de una serie de herramientas

160


(los llamados buscadores) que recuperan documentos relevantes, usando
normalmente tcnicas de recuperacin basadas en palabras claves (una tcnica
clsica de la IR). La lista de documentos recuperados suele priorizarse de acuerdo
a diferentes criterios de relevancia. Algunos de los ndices ms populares han sido
creados por robots web como Google (http://www.google.com/), Alta vista
(http://www.altavista.com/), Excite (que comercializa WebCrawler,
http://www.webcrawler.com/), Lycos (http://.www.lycos.co/), y Yahoo!
(http://www.yahoo.com/). Aunque en si estos buscadores no hacen actividades de
minera de datos, su funcionalidad puede extenderse para incluir otras actividades
del tipo minera.
La segunda tarea incluye cualquier proceso de seleccin y/o transformacin de los
datos originales obtenidos en la etapa anterior. Para lo primero, existen algunos
sistemas de extraccin de informacin, como por ejemplo Harvest [Brown et al.
1994], que es entre otras cosas capaz de encontrar el titulo y el autor de
documentos Latex, o FAQ-Finders [Hammond et al. 1995], que extrae las
repuestas a las preguntas ms frecuentes (Frequently Asked Questions) a partir
de archivos FAQ disponibles en la web. La transformacin de los datos
seleccionados comprende cualquier pre-procesamiento tanto los orientados a
eliminar las palabras de fin, las etiquetas, etc., como los destinados a obtener la
presentacin deseada, por ejemplo en forma de frases, en lgica de primero
orden, etc.
La tercera etapa, la de generalizacin, es la etapa central de la minera web y es
en la que se realiza el proceso de minera en s. Para ello, la minera web ha
adaptado tcnicas de la minera de datos (corno las reglas de asociacin, el
agrupamiento, etc.), de la IR (corno algunas tcnicas para la categorizacin y la
clasificacin de textos) y ha desarrollado algunas tcnicas propias, corno por
ejemplo el anlisis de caminos (web paths) usado para extraer secuencias de
patrones de navegacin desde archivos log.

161


La ltima etapa se ocupa de desarrollar tcnicas y herramientas que permitan el
consumo humano del conocimiento minado (a menudo ste no es directamente
utilizable por los analistas). Estas herramientas deben incorporar mtodos
estadsticos (para manipular los patrones), de visualizacin (para facilitar su
anlisis) as corno el conocimiento explcito que sobre el dominio del problema
posee el analista (para contrastar el conocimiento minado con el que se posea
anteriormente sobre el problema). La tecnologa de los agentes inteligentes podra
ser un buen medio para construir herramientas automticas de este estilo.
Todas estas tareas recuerdan a las tareas que componen el proceso general de
extraccin de conocimiento KDD ya visto con anterioridad. De hecho, la definicin
de minera web es idntica a la del proceso KDD salvo que aqu la fuente de los
datos es la web.

Leccin 44. Disciplinas relacionadas

Adems de el proceso de KDD, la minera web se asocia a los procesos de
recuperacin de la informacin (IR, del ingls Informacin Retrieval) y de
extraccin de la informacin (IE, del ingls Informacin Extraction), aunque no son
exactamente lo mismo. Algunas de las diferencias apuntadas en [Kosala &
Blockeel 2000] son:
Minera web e IR: La IR tiene como objetivo principal el indexado de texto y
la bsqueda de documentos tiles en una coleccin, aunque actualmente la
investigacin en IR incluye la modelizacin, la clasificacin y categorizacin
de documentos, interfaces de usuario, visualizacin de datos filtrados, etc.
Es decir, la IR ([Saltan & McGill 1983; Baeza-Yates & Ribeiro-Neto 1999])
est interesada en seleccionar documentos relevantes. La tarea de la
minera web ms relacionada es la de la clasificacin y categorizacin de
documentos web, los cuales pueden usarse para la indexacin.

162


Minera web e IE: La lE tiene como objetivo principal la transformacin de
una coleccin de documentos en informacin para que sea ms fcilmente
comprendida y analizada. En otras palabras, la IE se centra en extraer
hechos relevantes desde documentos. Bsicamente, existen dos tipos de
IE: desde textos no estructurados y desde datos semi-estructurados. Los
mtodos clsicos de IE (por ejemplo, [Cardie 1997; Wilks 1997]) tratan con
textos (no estructurados) escritos en lenguaje natural y tienen su raz en la
comunidad del procesamiento de lenguaje natural. Estos mtodos se basan
en algn tipo de pre-procesado lingstico, corno el anlisis sintctico, el
anlisis semntica y el anlisis del discurso. Con la creciente popularidad
de la web, se ha puesto de manifiesto que los sistemas clsicos de IE no
son apropiados para medios tan dinmicos y diversos como la web y que es
necesario sistemas estructurales que extraigan informacin desde
documentos semi-estructurados. Estos sistemas estructurales (por ejemplo,
[Muslea 1999; Kushmerick et al. 1997; Hsu & Dung 1998]) utilizan meta-
informacin, como las etiquetas HTML o los delimitadores. Para su
construccin se usan tcnicas de minera de datos y de aprendizaje
automtico, ya que construir los sistemas manualmente no es apropiado
para este medio.

Clasificacin de la Minera Web

Generalmente, en la literatura clasifica la minera web en tres reas de inters en
funcin de la parte de la web que se mina: minera del contenido, minera de la
estructura y minera del uso.
La minera del contenido de la web describe el descubrimiento de informacin til
desde los contenidos textuales y grficos de los documentos web, y tiene sus
orgenes en el procesamiento del lenguaje natural y en la recuperacin de la
informacin, (tal y como hemos comentado en la seccin anterior). Analiza, por

163


tanto, documentos, ms que los enlaces entre ellos. Los contenidos de la web han
cambiado sustancialmente desde su origen. Al principio, Internet consista en
diferentes tipos de servicios y fuentes de datos, casi todos textuales y estticos.
Ahora, podemos encontrar una gran variedad de datos: libreras digitales
accesibles desde la web, las bases de datos de muchas empresas que ofrecen
electrnicamente sus negocios y servicios, aplicaciones y sistemas que estn
siendo migrados a la web o emergen en este entorno. De hecho, algunos de los
datos en la web son ocultos ya que se generan dinmicamente o se obtienen
como respuesta a preguntas cuyos datos residen en bases de datos privadas.
Resumiendo, los contenidos en la web pueden ser de varios tipos: textual,
imgenes, audio, video, meta-datos e hipervnculos, y constan de datos no
estructurados (texto), datos muy poco estructurados (como en los documentos
HTML), datos semi-estructurados (como los documentos XML) y datos ms
estructurados (como los contenidos en bases de datos generadas desde paginas
HTML). Sin embargo, como la mayora del contenido corresponde a texto no
estructurado, esta es el rea ms investigada.
La minera de la estructura de la web trata de descubrir el modelo subyacente a la
estructura de enlaces de la web y analiza, fundamentalmente, la topologa de los
hipervnculos (con o sin descripcin de los enlaces). Este modelo puede usarse
para categorizar pginas web y es til para generar informacin como la similitud y
relacin entre diferentes sitios web, as como para detectar pginas autoridades y
pginas concentradores (que apuntan a pginas autoridades), estudiar topologas,
etc.
La minera de uso de la web es el proceso de analizar la informacin sobre los
accesos web disponibles en los servidores web. A diferencia de las mineras de
contenido y de estructura que usan datos reales sobre la web, la minera de uso
mina datos secundarios derivados de la interaccin de los usuarios mientras
interactan con la web. Estos datos incluyen los archivos de log de acceso al
servidor, log del navegador, log de los servidores proxy, perfiles de usuario, datos
de registros, sesiones o transacciones del usuario, cookies, preguntas del usuario,

164


pulsos del ratn y desplazamientos por las pginas, y en general cualquier otro
dato fruto de la interaccin.
Dada la enorme cantidad de informacin disponible en la web y la gran diversidad
de la misma, uno de sus principales usos es el de buscar informacin. La principal
diferencia entre las tcnicas de recuperacin de informacin y las tcnicas de
minera del contenido de la web es que las primeras ayudan a los usuarios a
encontrar documentos que satisfacen sus necesidades de informacin, mientras
que las segundas permiten descubrir, reconocer o derivar informacin nueva a
partir de uno o, generalmente, varios documentos.
La minera del contenido de la web ha sido principalmente aplicada para dos
objetivos que corresponden a dos puntos de vista diferentes:
visin desde IR: para asistir, mejorar o filtrar la informacin que los
buscadores proporcionan a los usuarios a partir de los perfiles de los
mismos (los cuales a su vez pueden haber sido inferidos o bien solicitados).
Este objetivo tambin incluye los documentos que se reciben por correo,
por grupos de noticias u otros medios diferentes de la navegacin.
visin desde Bases de Datos: modelar e integrar los datos encontrados en
la web para permitir preguntas ms sofisticadas que las bsquedas
basadas en palabras clave. Muchas de las aplicaciones tienen por tarea la
extraccin de esquemas o la construccin de DataGuides ([Nestorov et al.
1998; Goldman & Widom 1999]), de las que hablaremos en la seccin de
minera de marcado (21.3.4).
Los diferentes tipos de datos contenidos en la web han dado lugar a diferentes
tcnicas de minera de datos para los diferentes formatos en los que stos se
presentan. As, la aplicacin de tcnicas de minera a textos no estructurados se
conoce como minera de textos (Text Mining), cuando se trata de texto semi-
estructurado (XML, HTML, etc.) recibe el nombre de minera del marcado (Markup
Mining), si se trata de datos multimedia hablamos de minera multimedia
(Multimedia Mining), finalmente, si slo nos referimos a los enlaces entre

165


documentos o en el propio documento, pero sin tener en cuenta la estructura,
recibe el nombre de minera de hipertexto (Hipertexto Mining). De hecho, a los
documentos HTML, al ser sus marcas fundamentalmente de formato y no de
contenido, se les suele eliminar las marcas y se les trata como textos.
Mineria de la Estructura de la Web

Uno de los principales problemas cuando interactuamos con la web es encontrar
informacin interesante. Los buscadores basados en ndices (como Google,
AltaVista, Yahoo!, Excite o InfoSeek) han sido unas de las primeras herramientas
con las que han contado los usuarios para buscar informacin en la web. Si bien
son tiles para usuarios experimentados o cuando se buscan pginas sobre un
tpico muy concreto, pueden no ser tan adecuadas para un concepto muy general
contenido en miles o millones de pginas, lo que obligara al usuario a revisar un
excesivo nmero de pginas. Por lo tanto, a la hora de buscar tpicos en la web
cuyo resultado sea de un tamao razonable para el ser humano, necesitamos
identificar las pginas web ms significativas o definitivas (autoridades) en el
tpico. Esta nocin de autoridad aade una segunda dimensin crucial a la nocin
de relevancia: deseamos no solo localizar un conjunto de pginas relevantes sino
que adems sean de una alta calidad. En segundo lugar, la web consta no solo de
pginas sino tambin de hipervnculos que conectan una pgina a otra. Estos
hipervnculos representan la intencin por parte del autor de "incluir" la pgina
referenciada, lo cual puede ser de inters para inferir automticamente la nocin
de autoridad y hacernos una buena idea de la relevancia y calidad de los
contenidos de la web.
En el modelo ms simple, el hipertexto se representa como un grafo (D, L) donde
D es el conjunto de pginas o documentos y L el conjunto de enlaces. Dado que la
teora de las redes sociales estudia las propiedades relacionadas con la
conectividad y las distancias en grafos, recientemente se ha aplicado este tipo de
anlisis y el anlisis de citaciones al grafo de la web con el propsito de identificar

166


las paginas mas acertadas con relacin a la pregunta del usuario ([Chakrabarti
2003]) recogiendo la idea intuitiva de que el documento mas citado o mas
referenciado es el ms importante.

Leccion 45. Mineria de Textos
Pearson. Pag. 555.

El objetivo de la minera de textos es el descubrimiento de nueva informacin a
partir de colecciones de documentos de texto no estructurado. Por no estructurado
nos referimos a texto libre, generalmente en lenguaje natural aunque tambin
podra ser cdigo fuente u otro tipo de informacin textual. La tarea de minera
ms habitual sobre estos datos es la categorizacin, la clasificacin y el
agrupamiento de los textos. Podemos decir que la categorizacin es la tarea que
identifica las categoras, temas, materias o conceptos presentes en los textos,
mientras que la clasificacin es la tarea de asignar una clase o categora a cada
documento. Existen en la literatura otras definiciones diferentes para la
categorizacin de textos, como la de [Dumais et al. 1998]: la asignacin de textos
en lenguaje natural a una o ms categoras predefinidas basadas en sus
contenidos. Otros autores tienden a ver la categorizacin como una parte de la
clasificacin, por lo que categorizacin y clasificacin se usan como sinnimos.
Nosotros aqu usaremos la siguiente taxonoma:
Agrupamiento de documentos: para organizar los documentos entorno a
una jerarqua basndose en alguna medida de similitud.

167


Identificacin de categoras: extraccin de trminos significativos (es muy
parecido al anlisis de relevancia de atributos y est relacionado con el
agrupamiento).
Categorizacin: asignar una o ms categoras a un documento (esta es la
que se usa en el resto del libro).
Clasificacin: asignar una (y solo una) clase a un documento.
Asociaciones: generalmente entre conceptos ms que entre palabras.
Una aproximacin muy usual a la categorizacin, si se tienen pocas categoras,
digamos n, es convertir el problema en n problemas de clasificacin binaria, en el
que cada clasificador (i) se limita a decir si el documento es de la clase (i) o no.
La minera automtica de textos juega un papel importante en una amplia variedad
de tareas de manipulacin de la informacin ms dinmicas y personalizadas,
como en el orden en tiempo real del correo electrnico o archivos en jerarquas de
carpetas, en el filtro del correo electrnico, bsqueda estructurada y/o en los
navegadores web, identificacin de tpicos para soportar operaciones de
procesamiento especificas a un tpico, catalogacin de nuevos artculos y pginas
web y en los agentes de informacin personal.

En la minera de textos lo primero en realizar es representar el texto en algn
formato concreto que pueda ser adecuado para los algoritmos de aprendizaje.
Esto se realiza en dos pasos. El primero consiste en usar una representacin ms
abstracta, siendo las ms habituales en IR las siguientes:
Bolsas de palabras (bag of Word [Sahami et a1. 1996; Lagus et al. 1999]):
llamada tambin representacin basada en vectores, ya que cada
documento se representa como un vector de dimensin J, siendo J el
numero de palabras y en donde cada palabra constituye una componente
del vector y representa una caractersticas, la cual puede ser booleana
(aparece o no en el documento) o basada en frecuencias (el nmero de

168


veces que ha aparecido en el documento). Esta representacin ignora el
orden de aparicin de las palabras en el texto y es una de las ms
empleadas en el rea de la IR.
Frases ([Frank et al. 1999]): esta representacin consiste simplemente en
considerar el documento como un conjunto de frases sintcticas, tal y como
se hace en el anlisis del procesamiento de lenguaje natural. Esta
representacin permite mantener el contexto en el que ocurre una palabra,
hecho que se pierde en la representacin anterior.
N-gramas ([Kargupta et al. 1997a]): permiten usar la informacin sobre la
posicin de la palabra en el texto, ya que este se representa mediante
secuencias de palabras de longitud mxima n, llamadas n-gramas.
Permiten un mejor tratamiento de las frases negativas como excepto... o
pero no... que de otra forma tomaran como relevantes las palabras que
les siguen.
Representacin relacional ([Cohen 1995b]): la representacin usando lgica
de primer orden permite detectar patrones ms complejos. Por ejemplo,
cada palabra se puede representar mediante un tomo de la forma wi(d,p),
el cual es cierto cundo la palabra wi ocurre en el documento d en la
posicin p.
Categoras de conceptos ([Deerwester et al. 1990]): tambin llamado
Indexacion Semntica Latente (Latent Semantic Indexing) ya que tiene
como objetivo la reduccin de la dimensin del vector de palabras inicial
reduciendo las palabras a su raz morfolgica, es decir, las palabras
informando, informacin, informado" e "informador" se representaran
por su raz informe" y solo esta palabra se usara como componente del
vector. Esta reduccin tiene que ser cuidadosa, ya que otras palabras
aparentemente con la misma raz pueden no tener relacin con el trmino.
En el ejemplo anterior, "informal" e informtica" tienen poca relacin.
Casi todas estas representaciones se enfrentan al problema del vocabulario
([Furnias et al. 1987]), es decir, tienen errores semnticos debido a la sinonimia

169


(diferentes palabras con el mismo significado), la quas-sinonimia (palabras
relacionadas con la misma materia, como declaracin y comunicado), la polisemia
(palabras iguales con diferente significado), los lemas (palabras con el mismo
radical como descubrir y descubrimiento), etc. Aunque se han realizado algunos
estudios comparando las distintas representaciones (como por ejemplo [Scott &
Matwin 1999]), en general no se han encontrado diferencias sustanciales en
cuanto a las prestaciones de los algoritmos usando una u otra, aunque en un
problema especifico s que pueden aparecer diferencias.
El segundo paso consiste en reducir el conjunto de caractersticas original
(reduccin de la dimensionalidad en el rea del reconocimiento de patrones), ya
que el conjunto de caractersticas que resultan de las representaciones descritas
puede ser de cientos de miles, algo inabordable para muchos de los algoritmos de
aprendizaje inductivos. La primera aproximacin consiste en eliminar palabras con
poca semntica, como son los artculos, preposiciones y conjunciones. En
[Moulinier 1996] se describen dos maneras ms elaboradas para reducir la
dimensionalidad del vector basadas en el mbito y en la naturaleza del problema.
La reduccin por mbito tiene que ver con la universalidad del conjunto de
caractersticas, mientras que la reduccin por naturaleza describe como se
seleccionan los atributos (por filtrado o por transformacin.
Se han empleado un gran nmero de tcnicas del aprendizaje automtico y
estadsticas a la categorizacin de textos, incluyendo modelos de regresin
multivariante ([Yang & Chute 1994]), clasificadores del vecino ms prximo ([Yang
1994]), modelos bayesianos ([Jochis 1996; Lewis & Ringuette 1994]), arboles de
decisin ([Lewis & Ringuette 1994]), redes neuronales ([Schiitze et al. 1995]),
aprendizaje de reglas simblicas ([Cohen 1995b]) Y maquinas de vectores soporte
([Jochis 1998]).

Las tematicas de los ltimos captulos pueden ser profundizadas a criterio del
estudiante en la referencia citada del libro: Introduccion a la Mineria de Datos.

170


Jos H. Orallo, Ma Jos Ramirez Q y Cesar F Ramirez. De Pearson, el cual ha
sido una excelente fuente para la creacin de este modulo, ya que ilustra de
manera adecuada cada uno de los ejemplos; a la vez se citan las paginas para
mayor entendimiento de aquellos estudiantes que quieran profundizar ms,
respetando por completo los derechos de autor como se mencion en la
introduccin de este modulo.

171


ANEXOS

Oracle SQL Developer
Submitted by carlos on 30 April, 2008 - 23:55
Bases de datos
Bases de datos
Oracle
SQLServer
MySQL
gratuito
herramientas
IDE
oracle SQL developer
Versin para impresin
Oracle SQL Developer es la herramienta grfica gratuita que proporciona Oracle
para que no sea necesario utilizar herramientas de terceros (como el conocido
TOAD, o el PL/SQL Developer) para desarrollar, o simplemente para ejecutar
consultas o scripts SQL, tanto DML como DDL, sobre bases de datos Oracle.
La apariencia y funcionalidad es similar a la de otras herramientas de este tipo, por
lo que es una buena opcin si no tenemos especial predileccin por otras
herramientas.
Adems en las ltimas versiones ha incorporado mejoras como permitir conectar
con bases de datos no Oracle, como SQLServer, MySQL o Access. La conexin
con MySQL o SQLServer se realiza a travs de JDBC, y de manera bastante
sencilla. Una vez establecida la conexin se pueden explorar los objetos de las
bases de datos como si se tratara de una de Oracle, y ejecutar sobre ellas
sentencias SQL, aunque en cuanto a funcionalidades ms avanzadas como la
creacin de estructuras este tipo de conexin estar mucho ms limitada.
Se puede consultar ms informacin o descargar la herramienta en
www.oracle.com/technology/software/products/sql/index.html

172


Conectar Oracle SQL Developer con MySQL
A modo de ejemplo comentar los sencillos pasos que se pueden seguir para
poder utilizar SQL Developer con una BD MySQL:
Descargar y descomprimir el driver JDBC para MySQL, que se puede
obtener en la zona de descargas de conectores de la web de MySQL.
En el directorio generado localizar el archivo .jar, que es el binario que
contiene el conector. El nombre ha de ser algo as como 'mysql-connector-
java-...-bin.jar'. Para que lo tengis an ms fcil adjunto la versin 5.1.7,
que es la que yo he utilizado ahora.
En la opcin de men Herramientas, entrar en Preferencias.. y abrir las
opciones de Base de datos y seleccionar Controladores JDBC de Terceros.
Hacer click sobre el botn Agregar Entrada, y con el explorador de archivos
seleccionar el archivo .jar que hemos descargado.

173


Despus de esto, en la ventana que se abre al agregar conexiones os
debera aparecer una nueva pestaa MySQL que permite definir una
conexin con MySQL.

174


Conectar Oracle SQL Developer con SQL Server y Sybase
Comento tambin los pasos que se pueden seguir para poder utilizar SQL
Developer con una BD SQL Server o Sybase, aunque lo nico que cambia es el
driver que se utiliza:
Descargar y descomprimir el driver JDBC para SQL Server/ Sybase. El
proyecto open source jTDS proporciona un driver que sirve para ambas
bases de datos. Slo hay que seleccionarlo de la seccin de Download
contiene el conector. El nombre ha de ser algo as como 'jtds-... .jar'. Para
que lo tengis an ms fcil adjunto la versin 1.2.3, que es la que yo he
utilizado ahora.
conexin con MySQL.

175


Servidor virtual con Pentaho configurado
Submitted by carlos on 7 October, 2008 - 14:18
Business Intelligence
Data warehouse
OLAP
Cuadro de mando
Pentaho
Tendencias tecnolgicas
Software libre
centos
Data warehouse
Minera de datos
centos
imagen virtual
instalacion
Pentaho
virtualbox
vmware

176


Hemos preparado servidores virtuales con una instalacin preconfigurada de
Pentaho, la conocida plataforma open source de Business Intelligence (Pentaho
BI PCI).
Podis descargar libremente una mquina virtual preparada con el software de
virtualizacin Sun VirtualBox 2.0, y otra con VM ware server 2.0:
Descarga de maquina virtual para Virtual Box
Descarga de maquina virtual para VMware
(Paciencia con la descarga, los archivos son muy grandes)

La instalacin de Pentaho
Se ha hecho una instalacin de Pentaho BI Suite PCI, que es la instalacin de
Pentaho que viene preconfigurada con la versin 1.7 GA (estable) de la suite, y
con una base de datos Hypersonic (HSQLDB) operativa, con datos de prueba para
que puedan ejecutarse los informes y 'aplicaciones' que podemos encontrar en el
portal de ejemplo que tenemos accesible al levantar el servidor.
Se puede utilizar esta instalacin para probar la plataforma en tu propia
mquina/servidor explorando las opciones del portal, o incluso se puede usar
como base para construir un sistema propio de BI con Pentaho.
Slo hay que crear una nueva mquina virtual con el software de virtualizacin y
hacer que arranque desde los archivos que hemos descargado. Se entra al
sistema con el usuario dataprix, contrasea dataprix.
Al arrancar la mquina ya levantamos el servidor de BI automticamente, por lo
que lo nico que hay que hacer para utilizar Pentaho es abrir el explorador Firefox,
que tiene como pgina de inicio la del portal. Los usuarios del portal ya tienen la
contrasea introducida, por lo que con dos clicks ya podremos comenzar a
explorar los informes.

177


De todas maneras, indico cmo se puede detener y levantar el servidor por si
alguien quiere hacerlo manualmente:
Para levantarlo:
1. Hacer doble click en el Icono Terminal del escritorio
2. En la ventana del terminal ejecutar los siguientes comandos:
$ cd pentaho-demo (directorio de la demo)
$ ./start-pentaho.sh (shell de arranque de la plataforma)
3. Esperar a que en el terminal aparezca el mensaje Pentaho BI server listo
4. Abrir el navegador Firefox (icono al lado de la opcin de men Sistema)
La url de acceso al portal es http://localhost:8080/pentaho
Para detener el servidor Pentaho, abriendo otro terminal:
$ cd pentaho-demo
$ ./stop-pentaho.sh

178


Las herramientas de Virtualizacin
VirtualBox
Virtual Box est disponible para Linux, OS X (Mac) y Windows, y dispone de una
edicin gratuita de evaluacin y uso personal, y otra Open Source sujeta a las
condiciones de la licencia GPL. De esta manera nuestra imagen podr utilizarse
libremente en cualquier entorno, siempre que se respeten las condiciones de las
licencias.
Se instala con facilidad en cualquier entorno, y su funcionamiento es muy intuitivo,
pero adjunto el manual de usuario para quien no conozca la herramienta, o quiera
utilizar opciones avanzadas.

Para utilizar nuestro servidor virtual se pueden seguir estos sencillos pasos:
1. Instalar VirtualBox
2. Descargar el disco virtual desde Imagen virtual Pentaho VirtualBox
3. Descomprimirlo en el directorio de discos virtuales de VirtualBox,
normalmente se llama VDI
4. Ejecutar VirtualBox y crear una nueva mquina con el asistente de la
aplicacin, escogiendo el tipo de Sistema Operativo Red Hat, 512 Mb de
memoria (esto es una sugerencia), y el disco virtual descargado como disco
de inicio.
5. Arrancar la mquina haciendo doble click sobre ella.
Agradecemos a Oscar Osta la preparacin de la imagen virtual con la instalacin
de CentOS que nos ha servido como base.
VMware
Seguramente es el software de virtualizacin ms utilizado, y tambin dispone de
versiones que se pueden utilizar libremente, aunque no para todos los sistemas
operativos. Como hay varios productos de VMWare que permiten trabajar con la
mquina virtual que hemos preparado (VMware Player, VMware Server, VMware
Infrastructure..), os remitimos a la propia web de WMware para descargar
cualquiera de ellos o consultar la documentacin.
De todas maneras, con la mayora de estos productos la manera de proceder
sera muy similar:
1. Instalar un producto de VMWare que permita arrancar la mquina virtual

179


2. Descargar la maquina virtual desde Imagen virtual Pentaho VMware
3. Descomprimirla en el directorio de discos virtuales de VMware..,
normalmente My virtual machines, en la carpeta de documentos del
usuario.
4. Ejecutar VMware.. y agregar una nueva mquina al inventario
seleccionando de los archivos descargados el de extensin .vmx.
5. Arrancar la mquina haciendo doble click sobre ella.

El Sistema Operativo
Como Sistema Operativo base para la instalacin de Pentaho se ha escogido
CentOS 5. Las razones tambin tienen que ver con el uso que se le pueda dar a
esta imagen. Este SO Linux est basado en el cdigo fuente libre que utiliza Red
Hat Enterprise Linux y, a efectos prcticos, funciona de la misma manera que esta
conocida versin empresarial de Linux, y est orientado tambin a un uso
empresarial, pero es totalmente de libre distribucin. Se puede utilizar hasta en un
entorno de produccin, y la mayora de la documentacin y prcticas de RedHat
son aplicables a CentOS.
Se ha creado el usuario dataprix. El password tanto de este usuario como del
usuario root es tambin dataprix.

180


Esta es la instalacin de Pentaho ms bsica, que est configurada para funcionar
en local y sobre Hypersonic, perfecta para evaluar las posibilidades de este
software Open Source de Business Intelligence, o para una primera toma de
contacto sin muchas complicaciones. Tambin sirve como base para preparar
cosas ms complejas, y espero en un futuro poder ir ampliando esta mquina
virtual con nuevas funcionalidades, configuraciones, pruebas o demos
interesantes.
Si alguien utiliza esta imagen como base para hacer algo interesante
agradeceremos que nos lo cuente, o que se ponga en contacto con nosotros si
quiere que alojemos su 'versin'. Igualmente cualquier comentario, duda, idea o
sugerencia ser bienvenido en nuestro foro, en el tema Imagen Virtual con
Pentaho.
Oracle SQL Developer
Submitted by carlos on 30 April, 2008 - 23:55

181


Bases de datos
Bases de datos
Oracle
SQLServer
MySQL
gratuito
herramientas
IDE
oracle SQL developer
Oracle SQL Developer es la herramienta grfica gratuita que proporciona Oracle
para que no sea necesario utilizar herramientas de terceros (como el conocido
TOAD, o el PL/SQL Developer) para desarrollar, o simplemente para ejecutar
consultas o scripts SQL, tanto DML como DDL, sobre bases de datos Oracle.
La apariencia y funcionalidad es similar a la de otras herramientas de este tipo, por
lo que es una buena opcin si no tenemos especial predileccin por otras
herramientas.
Adems en las ltimas versiones ha incorporado mejoras como permitir conectar
con bases de datos no Oracle, como SQLServer, MySQL o Access. La conexin
con MySQL o SQLServer se realiza a travs de JDBC, y de manera bastante
sencilla. Una vez establecida la conexin se pueden explorar los objetos de las
bases de datos como si se tratara de una de Oracle, y ejecutar sobre ellas
sentencias SQL, aunque en cuanto a funcionalidades ms avanzadas como la
creacin de estructuras este tipo de conexin estar mucho ms limitada.
Se puede consultar ms informacin o descargar la herramienta en
www.oracle.com/technology/software/products/sql/index.html

182


Conectar Oracle SQL Developer con MySQL
A modo de ejemplo comentar los sencillos pasos que se pueden seguir para
poder utilizar SQL Developer con una BD MySQL:
Descargar y descomprimir el driver JDBC para MySQL, que se puede
obtener en la zona de descargas de conectores de la web de MySQL.
contiene el conector. El nombre ha de ser algo as como 'mysql-connector-
java-...-bin.jar'. Para que lo tengis an ms fcil adjunto la versin 5.1.7,
que es la que yo he utilizado ahora.

183


conexin con MySQL.

184


Conectar Oracle SQL Developer con SQL Server y Sybase
Comento tambin los pasos que se pueden seguir para poder utilizar SQL
Developer con una BD SQL Server o Sybase, aunque lo nico que cambia es el
driver que se utiliza:
Descargar y descomprimir el driver JDBC para SQL Server/ Sybase. El
proyecto open source jTDS proporciona un driver que sirve para ambas
bases de datos. Slo hay que seleccionarlo de la seccin de Download
contiene el conector. El nombre ha de ser algo as como 'jtds-... .jar'. Para
que lo tengis an ms fcil adjunto la versin 1.2.3, que es la que yo he
utilizado ahora.
conexin con MySQL.

185


186


Conclusiones

La minera de datos es un proceso que permite a un usuario extraer
conocimiento de sus datos y que pueden ser tiles para la toma de
decisiones.

Debido a que en muchos casos los datos de entrada contienen diferentes
tipos de problemas, se ha creado el proceso KDD, el cual organiza de
forma esquemtica cada una de las etapas necesarias para extraer
patrones de calidad. Este esquema incluye desde la seleccin y limpieza de
los datos hasta tcnicas para la evaluacin de patrones, donde la minera
de datos se ubica en el centro del proceso.

La minera de datos es una herramienta muy poderosa, sin embargo, es
necesario tener un conocimiento sobre los datos, de tal forma que permita
seleccionar los mejores mtodos para el proceso de minera.

187


BIBLIOGRAFIA

Jose Hernandez Orralle-Jose Ramirez Quintana-Cesar Ferri Ramirez.
Pearson. Prentice Hall,Introduccion a la minera de datos
Cesar Perez. Daniel Santn,Data Mining Soluciones con Enterprise
Miner.. Alfaomega- Rama.
Jorge Enrique Rodriguez Rodriguez., Fundamentos de Mineria de
Datos. Jorge Enrique Rodriguez Rodriguez. Universidad Distrital
Francisco Jos de Caldas.
Fundamentos de Sistemas de bases de datos (quinta edicin)RAMEZ
ELMARS departamento de loscomputadores.
Jose Manuel Diaz(Person Eddision Wesley)
Ramez Elmars. Fundamentos de sistemas de bases de datos (quinta
edicin) Departamento de Computadoras y aplicaciones.
Jos Manuel Daz. Introduccin a la Minera de Datos(Pearson Eddison
Wesley).
Jos Hernndez Orralle- Jos Ramrez Quintana-Cesar Ferri Ramrez.
Introduccin a la minera de datos.( Pearson. Prentice Hall).
Pablo Valderrey Sanz. Extraccin del conocimiento a partir del anlisis
de datos. Ra-ma.
Jhon Wiley Alan Simon and Sons. Data Warehouse, Data Mining and
OLAP. USA, 1997.
Alex Berson, Stephen J. Smith. Data Warehouse, Data Mining and
OLAP. USA, 1997. Mc Graw Hill.
Mara Jos Ramrez Quintana Jos Hernndez Orallo. Extraccin
Automtica del Conocimiento en Bases de Datos e Ingeniera del
Software. Espaa, 2003. UOC.

188


IBM Press. IBM DB2 IntelligentMinerfor Data: Utilizacin del Visualizador
de Asociaciones. IBM Press, USA, 1999.
Colin J. White. IBM Enterprise Analytics for the
Intelligent e-Business. IBM Press, USA, 2001.

Otras referenciadas relacionadas a los largo del Modulo.

Modulomineriadedatosii2012u 130422150255 Phpapp02 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Modulomineriadedatosii2012u 130422150255 Phpapp02 PDF

Cargado por

Copyright:

Formatos disponibles

1

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA UNAD

También podría gustarte