Mineria de Datos Electiva

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería

Curso Minería de Datos
MODULO
MINERIA DE DATOS
COD 201170
JOSE MIGUEL HERRAN SUAREZ
UNIVERSIDAD NACIONAL ABIERTA YA DISTANCIA – UNAD
PROGRAMA: INGENIERIA DE SISTEMAS
TUNJA. 2012
1
INDICE DE CONTENIDO
Contenido
INTRODUCCIÓN ........................................................................................................................................... 7
UNIDAD 1: MINERIA DE DATOS .................................................................................................................... 9
1.1. Capitulo I:Conceptos Fundamentales ............................................................................................... 9

Lección 1: Características de Mineria de Datos. ................................................................................... 10
Artículo de Reflexión. La información digital crece a mas del doble cada año........................................ 13
Leccion 2. Disponibilidad de Software .................................................................................................. 17
Leccion 3. Ejemplos de aplicaciones de la Minería de Datos. ............................................................... 21
Leccion 4. Objetivos de la Minería de Datos .......................................................................................... 22
Lección 5. Minería de datos y la toma de decisiones. ............................................................................ 28
Actividad de cierre Capitulo I ................................................................................................................... 28
1.2. Capitulo II KDD. ............................................................................................................................. 30

Lección 6. Proceso de Descubrimiento del Conocimiento en Bases de Datos ...................................... 30
Lección 7. Diagrama del Proceso de KDD ............................................................................................... 32
Leccion. 8. Etapas de abordaje. .............................................................................................................. 34
Leccion 9. Desarrollo del proceso de KDD .............................................................................................. 36
Leccion 10. Evaluación de Patrones........................................................................................................ 44
Actividad cierre Capitulo II Caso de Estudio. ........................................................................................... 45
1.3 Capitulo III Reglas de Asociación usadas en Minería de Datos............................................................. 49

Lección 11. Identificación de las reglas de asociación. .......................................................................... 49
Leccion 12. Algoritmos para la busqueda de reglas asociadas. .......................................................... 54
Leccion 13.Jerarquias. ............................................................................................................................. 58
Leccion 13.Redes Bayesianas. ................................................................................................................. 61
Leccion 14. Arboles de Decision. (Repaso) ............................................................................................. 62
Leccion 15. AlgoritmoC.45 ...................................................................................................................... 64
Actividad de cierre Capitulo III ................................................................................................................. 66
UNIDAD II PROCESO DE MINERIA DE DATOS. ............................................................................................ 67
2.1. CapituloIV: El Modelo de CRISP – DM. .................................................................................................. 67

Leccion 16. Generalidades ...................................................................................................................... 67
Leccion 17. Comprensión del Negocio. ................................................................................................... 69
Leccion 18. Comprensión de los datos. .................................................................................................. 70
2
Leccion 19. Modelado. ............................................................................................................................ 72

Leccion 20. Evaluacion e Implantación. .................................................................................................. 73
Actividad de cierre Capitulo IV ................................................................................................................ 73
2.2 Capitulo V. Herramientas de Minería de Datos ...................................................................................... 75

Leccion 21. WEKA .................................................................................................................................... 75
Leccion. 22. IlliMine. ............................................................................................................................... 77
Leccion. 23 Rattle. ................................................................................................................................... 78
Leccion 24. Rapid Miner .......................................................................................................................... 78
Leccion. 25. Knime. ................................................................................................................................. 79
Actividad de Cierre Capitulo V. ................................................................................................................ 80
2.3. Capitulo VI Ambientes de Trabajo en Grid ............................................................................................ 80

Leccion 26. Grid WEKA ............................................................................................................................ 80
Leccion 27. Discovery Net ....................................................................................................................... 82
Leccion 28. Componentes de un Modelo GridMiner ............................................................................. 84
Lección 29. Mineria de Datos y Almacenes de Datos en ODM. ............................................................. 86
Lección 30. Oracle DataMinig (ODM) ..................................................................................................... 87
Actividad de Cierre Capitulo VI. ............................................................................................................... 88
UNIDAD III. Contexto de la Mienría de Datos ............................................................................................. 89
Capitulo VII. Causas de aplicación de la Minería de Datos. ......................................................................... 89

Leccion 31. WEB Mining y Text Mining .................................................................................................. 90
Leccion 32.OLTP Y OLAP .......................................................................................................................... 95
Leccion 33. Bases de datos de transacion ............................................................................................ 96
Leccion 34. Arquitectura de los Almacenes de Datos ............................................................................ 99
Leccion 35. Explotación de un Almacen de Datos. ............................................................................... 100
Actividad de cierre Capitulo VII ............................................................................................................. 108
Capitulo VIII. Otros tipos de DataMart ....................................................................................................... 109

Leccion 36. Rolap- Molap ...................................................................................................................... 109
Leccion 37. Almacen de Datos y Mineria de Datos ............................................................................. 112
Leccion 38. Exploracion y seleccion. El contexto de la vista minable. ................................................ 116
Leccion 39. Exploración mediante visualización. ................................................................................. 126
Leccion 40. Visualización Multidimensional......................................................................................... 130
Actividad de cierre Capitulo VIII ............................................................................................................ 141
Capitulo 9: Técnicas de Minería de Datos. ................................................................................................. 143

Leccion. 41. Redes Neuronales ............................................................................................................ 143
Leccion 42. Procesamiento analítico en linea .................................................................................... 151
Leccion 43. WEB Mining ........................................................................................................................ 154
Lección 44. Disciplinas relacionadas ...................................................................................................... 161
Leccion 45. Mineria de Textos .............................................................................................................. 166
ANEXOS ................................................................................................................................................... 171
Oracle SQL Developer ................................................................................................................................. 171

Conectar Oracle SQL Developer con MySQL.......................................................................................... 172
3
Conectar Oracle SQL Developer con SQL Server y Sybase ..................................................................... 174
Servidor virtual con Pentaho configurado ............................................................................................. 175
La instalación de Pentaho .......................................................................................................................... 176
Las herramientas de Virtualización ............................................................................................................ 178

VirtualBox .............................................................................................................................................. 178
VMware ................................................................................................................................................. 178
El Sistema Operativo .............................................................................................................................. 179
Oracle SQL Developer .............................................................................................................................. 180
Conectar Oracle SQL Developer con MySQL.......................................................................................... 182

Conectar Oracle SQL Developer con SQL Server y Sybase ..................................................................... 184
Conclusiones ............................................................................................................................................ 186
BIBLIOGRAFIA .......................................................................................................................................... 187
4
Listado de figuras
1. Figura 1. Análisis de datos

2. Figura 2. Distinto Enfoque
3. Figura3. Olap y consultas deductivas ⇒dirigidos por hipótesis
4. Figura 4. Disponibilidad de software comercial.
5. Figura 5: Jerarquía del conocimiento.
6. Figura 6: Proceso de KDD
7. Figura 7.etapas en el proceso de KDD.
8. Figura 8. Ejemplos de imagenes de células con leucemia.
9. Figura 9. Ejemplo de cómo transformar una imagen de una célula a una
tabla.
10. Figura 10. La Minería de Datos y su relación con otras áreas de
conocimiento.
11. figura 11. Clasificación de Leucemias agudas.
12. Figura 12. Taxonomía de una categoría.
13. Figura 13. Inserción en la relación de compras con una jerarquía.
14. figura 14. Contexto de bases de datos frente a data minimg.
15. figura 15. Explorador de weka.
16. figura 16. Grid weka, escenario de usos.
17. figura17. Componentes de discovery net.
18. figura 18. Componentes de gridminer.
19. Figura 19. Contexto de bases de datos frente a data minimg.
20. Figura 20 almacén de datos como integración de diferentes fuentes de
datos.
21. Figura 21. Topología de un clasificador Naive Bayes.
5
Listado de tablas
Tabla 1: Ejemplos de aplicaciones de la minería de datos.
Tabla 2. Fases de modelo crips-dm.
Tabla 3 Diferencia entre bases de datos transaccional y almacenes de datos
Tabla 4.Tabulacion de ventas con nombre_articuloy color
Tabla 5. Representación relacional de los datos.
Tabla 6. Tabulacion cruzada de ventas con la jerarquia
6
INTRODUCCIÓN
Este modulo pretende y busca dar una visión general de lo que son las técnicas de
análisis de los datos y el proceso de Minería de Datos, basándose en una gran
recolección de información de variadas fuentes, paginas de internet, artículos
científicos, foros de desarrollo y en especial en los libros (la gran mayoría en
ingles)… todos ellos citados para respetar la propiedad intelectual y brindar al
estudiante los conceptos y las técnicas de la manera mas entendible; de manera
tal que al estudiar el modulo en la soledad de su propia disciplina logre adquirir los
conocimientos sin problemas y no provoce un desanimo ni una apatía al area de
estudio, a la vez se debe tener en cuenta que cada semestre se actualizará el
modulo por lo tanto es importante bajarlo del repositorio para una mayor
concordancia con el curso en la plataforma. El tema que concierne es muy
complejo y hay mucha tela de donde cortar, por lo que se pretende sentar las
bases para una profundización en las diferentes areas de aplicación, y a la vez se
recomienda hacer un repaso jucioso de las tematicas revisadas en Bases de
Datos, Análisis y Diseño de Sistemas, Inteligencia Artificial (Redes Neuronales) y
Probabilidad.
Durante el desarrollo tecnológico podemos ver como una de las herramientas que
han sido de gran utilidad dentro del campo del manejo de volúmenes de
información la Mineria de Datos se ha venido abriendo campo en los diferentes
ámbitos laborales como son las aplicaciones científicas, de negocios y medios de
información gracias a ella se puede ver como esta interactuando y almacenando
datos en la mayoría de los casos, estas organizaciones tienden a construir
conjuntos de datos centralizados o almacenes de datos (Data warehouse) que
reúnen toda la información de sus liares dispersas geográficamente.
Es así que esta situación ha fomentado el desarrollo de herramientas para el

tratamiento de la información, dando lugar a una disciplina conocida como Mineria
7
de datos o (Data Mining), se define como un conjunto de técnicas y herramientas

aplicadas al proceso de extraer y presentar conocimiento implícito previamente
desconocido.
El objetivó de la implementación de este modulo el cual vale tiene un peso de tres

créditos es el abordaje de la tematica relacionada como sigue.
La temática de la unidad uno es Mineria de Datos, la Unidad dos Preapración de

los Datos, unidad tres Tecnicas de Mineria de Datos. Con la realización de este
modulo como material didáctico de consulta para tutores y estudiantes de la
UNAD.
8
UNIDAD 1: MINERIA DE DATOS
1.1. Capitulo I:Conceptos Fundamentales
La minería de datos está relacionada con la subárea de la estadística denominada

explorador de datos, que tiene objetivos parecidos y se basa en las medidas
estadísticas. También está estrechamente relacionada con las subáreas de la
inteligencia artificial denomina descubrimiento del conocimiento y aprendizaje de
la máquina. La característica importante de la minería de datos es que se usa
normalmente para el manejo de datos que están agrupados en grandes
volúmenes; aunque la idea de esta area de estudio relacionada sea aplicable a los
problemas de minería de datos, la escalabilidad con respecto al tamaño de los
datos es un criterio nuevo importante, que se debe tener en cuenta para el
proceso de aplicabilidad de los conceptos.
Un algoritmo es escalable y el tiempo de ejecución crece (linealmente) en

proporción al tamaño del conjunto de datos, lo que mantiene los recursos
disponibles del sistema (por ejemplo, la cantidad de memoria principal y la
velocidad el proceso de la UCP) constante, deben adaptar los algoritmos
antiguos o desarrollar otros nuevos para que se garantice la escalabilidad a la
hora de descubrir pautas en los datos.
La búsqueda de tendencias útiles en los conjuntos de datos es una definición

bastante imprecisa de la minería de datos: en cierto sentido se puede considerar
que todas las consultas a bases de datos hacen exactamente esto; pero en
realidad, hay un continuo uso de las herramientas de análisis y exploración, con
las consultas de SQL que crean mediante la algebra relacional (con algunas
extensiones), OLAP ofrece expresiones de consulta en nivel superior basadas en
el modelo de datos multidimensionales, y la minería de datos proporciona las
operaciones de análisis abstractas. Se puede pensar en las diferentes tareas de la
minería de datos como ―consultas‖ complejas especificadas en un nivel elevado,
con unos cuantos parámetros que son definibles por los usuarios, para las que se
implementan algoritmos especializados. SQL /MM: minería de datos SQL /MM.
9
La SQL /MM: data mining de la norma SQL: 1999 soporta cuatro tipos de modelos
de minería de datos:
 Conjuntos de elementos frecuentes y reglas de asociación
 Agrupaciones de registros
 Arboles de regresión
 Arboles de clasificación.
Se introduce entonces varios tipos de datos nuevos, estos tipos de datos

desempeñan varios papeles, algunos representan una clase de modelo concreta
(por ejemplo, DM_Regression model, DM_ClusteringModel); otros especifican los
parámetros de entrada de un algoritmo de minería (por ejemplo, DM_ RegTask,
DM_ClusTask); unos describen los datos de entrada (por ejemplo,
DM_LogicaDataSpec, DM, _MininData); y otros representan el resultado de la
ejecución de un algoritmo de minería (por ejemplo, DM_RegResult,
DM_ClusResult).
En conjunto estas clases y sus métodos ofrecen una interfaz normalizada para los
algoritmos de minería de datos que se pueden invocar desde cualquier sistema de
bases de datos SQL: en 1999. Los modelos de minería de datos se pueden
exportar en formato XML normalizado denominado lengua de marcas de
modelos predictivos (Predictive Model Markup Language, PMML); también se
pueden importar los modelos representados mediante PMML.
Lección 1: Características de Mineria de Datos.
Historia de la Minería de Datos
Extracción de patrones de información (implícitos, no triviales, desconocidos y

potencialmente útiles) a partir de grandes cantidades datos.
10
También conocido por: Descubrimiento del conocimiento en bases de datos

(KDD), extracción del conocimiento, análisis de datos/patrones, inteligencia de
negocios
Minería de datos NO es:
_ Procesamiento deductivo de consultas en BBDD

_ Un sistema experto o DSS
_ Análisis estadístico
_ Visualización de datos
_ Pequeños programas de aprendizaje
Muchas de las técnicas usadas en MD ya eran conocidas previamente, ¿a qué se

debe el boomactual?
En los 90‘s convergen los siguientes factores:
 Los datos se están produciendo

 Los datos se están almacenando
 La potencia computacional necesaria es abordable
 Existe una gran presión en la competitividad empresarial
 Las herramientas software de MD están disponibles
La MD sólo tiene sentido cuando se dispone de grandes volúmenes de datos?
Ahora los datos se producen en grandes cantidades: scanners de venta, tarjetas

de crédito, paper view, teletienda, ciencia, e-commerce, e-learning, e-business,
etc.Algunos ejemplos:
 El .log producido por Yahoo es de 10 GB cada hora.
11
 El .log de google es de 23 GB cada 33 minutos.

 Un Astrónomo instrumentista puede producir de 50 a 100 GB de datos en
una noche. ( Proyecto SETI)
 El genoma humano ocupa unos 300 TeraBytes.
 12 millones de personas poseen una tarjeta Master Card.
 Blockbuster Entertainment Corp... 36 millones de casas/familias como
clientes.
 Ebay, Mercadolibre, millones de transacciones cada día.
12
Artículo de Reflexión. La información digital crece a mas del doble cada año.
Para una documentación e ilustración más acorde, se acude a la URL
Fuente: Artículo Publicado en la url:
http://www.muycomputerpro.com/2011/08/03/informacion-digital-crece-doble-anos/
ECM publicó recientemente los resultados del estudio de IDC Digital Universe,
Extracting Value from Chaos, en el que se llega a la conclusión de que la
información digital en el mundo crece más del doble cada dos años, llegando a la
colosal cifra de 1,8 zettabytes creados y replicados en 2011.
La tecnología y el dinero son los encargados de impulsar las fuerzas que residen
detrás de este incesante crecimiento. Las nuevas tecnologías para la utilización
sencilla de la información están reduciendo el coste a la hora de crear, capturar,
gestionar y almacenar la información: un sexto del coste en 2011 respecto a 2005.
Además, desde 2005 las inversiones anuales de las empresas en el Universo
Digital han aumentado un 50%, alcanzando unos 4.000 millones de dólares.
El estudio señala que un crecimiento masivo de servidores, archivos y gestión de

datos no logra mantener el ritmo del crecimiento de personal: IDC señala que las
habilidades, experiencia y recursos para gestionar la avalancha de datos y
recursos sencillamente no sigue el ritmo de crecimiento de otras áreas. Durante la
próxima década, los departamentos de TI de todo el mundo experimentarán un
crecimiento de:
- 10 veces el número de servidores (virtuales y físicos).
- 50 veces la cantidad de información a gestionar.
- 75 veces el número de archivos o contenedores que encapsulan la información

en el universo digital, que crece incluso más rápido que la propia información,
como cada vez más los sistemas integrados tales como sensores en prendas de
vestir, en puentes o en dispositivos médicos.
- 1,5 veces el número de profesionales de TI disponibles para gestionar este

volumen.
A pesar de que la informática en la nube representa menos del 2% del gasto

actual en TI, IDC predice que en 2015 casi el 20% de la información “pasará por
las manos” de los proveedores de servicios de informática en la nube, lo que
13
significa que en alguna parte del viaje del byte, desde su origen a su eliminación,
la información se almacenará o procesará en la nube. Tal vez hasta un 10%
permanecerá en la nube.
El estudio también señala que la sombra digital tiene mente propia: la cantidad de
información que crean los particulares (escribiendo documentos, haciendo
fotografías, descargando música, etc.) es mucho menor que la cantidad de
información creada sobre ellos mismos en el universo digital. Además, la
responsabilidad legal o de cualquier otra naturaleza es de las empresas: a pesar
de que el 75% de la información en el universo digital la generan particulares, las
empresas son legalmente responsables del 80% de esta información en algún
punto de su vida digital.
Otros hallazgos clave
Las nuevas herramientas de captura, búsqueda, descubrimiento y análisis pueden

ayudar a las empresas a obtener una visión de los datos no estructurados, que
representan más de un 90% del universo digital. Estas herramientas pueden crear
datos sobre los datos de forma automática, al igual que las rutinas de
reconocimiento facial que ayudan a etiquetar las fotos en Facebook. El crecimiento
de los datos sobre los datos es dos veces más rápido que el del universo digital en
su conjunto.
Por otra parte, las herramientas de inteligencia empresarial tratan cada vez más
con datos en tiempo real, tanto si se trata de cargar primas de seguros de
automóviles en función de dónde se conduce, de la distribución de la energía a
través de la red inteligente o de cambiar mensajes sobre la marcha según las
respuestas de las redes sociales.
En cuanto a las herramientas de gestión de almacenamiento ayudan a reducir los

costes de la parte del universo digital que almacenamos, como la deduplicación, la
autoorganización en niveles y la virtualización, así como para ayudarnos a decidir
qué almacenamos exactamente, como las soluciones de gestión de contenidos.
Fuente: Artículo Publicado en la url:
http://www.muycomputerpro.com/2011/08/03/informacion-digital-crece-doble-anos/
La colección de datos orientadas a un dominio, integrado, no volátil y variable en

el tiempo que ayuda a la toma de decisiones de la empresa u organización, esa es
14
la información importante que se debe analizar y se debe tomar en cuenta para el

desarrollo de esta línea profesional en la TI.
El expediente de una empresa más allá de la información transaccional y

operacional, almacenado para favorecer el análisis y la divulgación eficientes de
datos, se subdivide a veces en unidades lógicas más pequeñas, llamadas los
centroscomerciales dependientes de los datos.
Generalmente, dos ideas básicas:
_ Integracion de los datos de bases de datos distribuidas y diferentemente

estructura, que facilita una descripción global y un análisis comprensivo en el
almacén de los datos.
_ Separacionde los datos usados en operaciones diarias, los datos usados en el

almacén de los datos para los propósitos de la divulgación, de la ayuda enla toma
de decisiones, para el análisis y para controlar algún ítem de proudccion o la oferta
de un articulo o la creación de uno nuevo en una empresa.
15
ESTRUCTURA DEL SISTEMA
FIGURA 2. DISTINTO ENFOQUE
FIGURA3. OLAP Y CONSULTAS DEDUCTIVAS ⇒ DIRIGIDOS POR HIPÓTESIS

Minería de datos ⇒ dirigido por los datos
16
Leccion 2. Disponibilidad de Software
Algoritmos y técnicas usadas:
Investigación —> software comercial —> aceptación
FIGURA 4. DISPONIBILIDAD DE SOFTWARE COMERCIAL
Fuente: Introduccion a la Mineria de Datos. José H. Orallo, Ma José Ramirez Q y Cesar F Ramirez.
Pearson.
SOFTWARE LIBRE WEKA
17
Weka (Waikato Environment for Knowledge Analysis - Entorno para Análisis del
Conocimiento de la Universidad de Waikato) es una plataforma de software para
aprendizaje automático y minería de datos escrito en Java y desarrollado en la
Universidad de Waikato. Weka es un software libre distribuido bajo licencia GNU-
GPL.
La minería de datos consiste en hallar tendencias o pautas interesantes en

conjuntos de datos de gran tamaño para orientar las decisiones sobre actividades
futuras. Hay una esperanza generalizada de que las herramientas de minería de
datos puedan identificar esas pautas de los datos con un aporte humano mínimo.
Las pautas identificadas por esas herramientas pueden ofrecer a los analistas de
datos una perspectiva útil e inesperada que posteriormente se puede investigar
con más detenimiento, quizás empleando otras herramientas de soporte a las
decisiones.
En el mundo real la minería de datos es mucho más aplicación de uno de estos

algoritmos. Los datos suelen tener ruido o estar incompletos y, a menos que esto
se comprenda y corrija, es probable que muchas pautas interesantes se pasen por
alto y a la fiabilidad de las detectadas sea baja.
Además el análisis debe decidir los tipos de algoritmos de minería que se invocan,
aplicarlos a un conjunto bien escogido de muestra de datos y de variables (es
decir, Tuplas y atributos), resumir los resultados, aplicar otras herramientas de
ayuda a la toma de decisiones y de minería e iterar el proceso para poderlo
ejecutar de la manera mas optima. Cabe mencionar en este punto que lamineria
de datos es una técnica que aborda y que pretende analizar datos y a partir de
ellos lograr predecir un estado de una variable.
Limitarse a almacenar información en un almacén de datos no proporciona los

beneficios que las organizaciones buscan a la hora de implantar este tipo de
sistemas; para conseguir sacar el máximo provecho de un almacén de datos, es
necesario extraer el conocimiento oculto dentro del almacén. sin embargo, a
18
medida que crece la cantidad y la complejidad de los datos contenidos en un

almacén de datos, se hace cada vez más fácil, si no imposible, para los analistas
de negocio identificar las tendencias y relaciones en los datos de manera
acertada, este proceso es muy complejo ya que deben usar herramientas
avanzadas de consulta y de generación de informes.
La minería de datos es una de las maneras de extraer patrones y tendencias

significativas de entre un enorme conjunto de datos. La mayoría de datos
descubre información dentro de los almacenes de datos que las consultas e
informes que no pueden hacer por métodos tradicionales de manera efectiva.
Existen numerosas definiciones sobre lo que és la minería de datos, desde

definiciones muy amplias que describen la minería de datos como cualquier
herramienta que permite a los usuarios acceder directamente a grandes
cantidades de datos, hasta definiciones más específicas, como la que afirma que
se trata de herramientas y aplicaciones que realizan análisis estadísticos sobre los
datos para detectar patrones.
Minería de datos: Es el proceso de extraer la información válida, previamente

desconocida, comprensible y útil de base de datos de gran tamaño y utilizar dicha
información para tomar decisiones de negocio cruciales.
La minería de datos se preocupa del análisis de los datos y de la utilización de

técnicas software para localizar patrones y relaciones ocultas e inesperadas
dentro de una serie de conjuntos de datos. El enfoque de laminería de datos
consiste en revelar información que esté oculta y sea inesperada, ya que no tiene
mucho sentido tratar de encontrar patrones y relaciones que resulten intuitivos por
sí mismos. Para identificar los patrones y relaciones ocultos se examinan las
reglas y características subyacentes a los datos.
19
El análisis de minería de datos tiende a trabajar comenzando por los propios datos
y progresando hacia arriba, y las técnicas que producen los resultados más
precisos requieren, normalmente, grandes volúmenes de datos para poder ofrecer
una conclusión fiable.
El proceso de análisis comienza desarrollando una representación óptima de la

estructura de una serie de datos de ejemplo, adquiriéndose uno ciertos
conocimientos durante esta fase. Dichos conocimientos se amplían posteriormente
a conjuntos de datos de mayor tamaño, trabajando con la suposición de que esos
conjuntos de datos de mayor tamaño tienen una estructura similar a la de los
datos de muestra.
La minería de datos puede reportar enormes beneficios a las empresas que hayan
hecho una inversión de significativa en tecnologías de almacén de datos. Aunque
la minería de datos es una tecnología relativamente nueva, ya se utilizan diversos
sectores. La tabla indica diversos ejemplos de aplicaciones de laminería de datos
en comercio al por menos/marketing, banca, seguros y medicina.
20
Leccion 3. Ejemplos de aplicaciones de la Minería de Datos.
Fuente: Autor
Comercio al por menor/marketing
 Identificación de los patrones de compra de los clientes.

 Determinación de asociaciones entre las características demográficas de
los clientes.
 Predicción de la respuesta a las campañas de publicidad por correo análisis
de cesta de la compra.
Banca
 Detección de patrones de uso fraudulento de tarjetas de crédito.
21
 Identificación de clientes leales.

 Predicción de clientes que tienen probabilidad de cambiar de banco
suministrador de tarjeta de crédito determinación de los casos realizados
por ciertos grupos de clientes con la tarjeta de crédito.
Seguros
 Análisis de partes.
 Predicción de los clientes que suscribe nuevas polizas.
Medicina
 Caracterización del comportamiento de los pacientes para predecir las

visitas quirúrgicas.
 Identificación de terapias medicas adecuadas para diferentes
enfermedades.
Leccion 4. Objetivos de la Minería de Datos
Objetivo General
 Descubrir patrones, perfiles, y tendencias a través del análisis de datos con

tecnologías de reconocimiento de patrones, redes neuronales, lógica difusa,
algoritmos genéticos y otras técnicas estadísticas avanzadas del análisis
multivariante de datos.
Objetivos Específicos de la Minería de Datos
 La Minería de Datos como parte de los sistemas de apoyo a las decisiones,

a partir de un análisis comparativo entre la teoría y la investigación de
campo, para obtener conclusiones que permitan identificar cómo
22
implementar y utilizar adecuadamente la Minería de Datos en la toma de

decisiones.
 Identificar cuáles son las características de los productos de Minería de

Datos más relevantes a nivel mundial.
 Explorar los datos que se encuentran en las profundidades de las bases de

datos, como los almacenes de datos, que algunas veces contienen
información almacenada durante varios años.
En algunos casos, los datos se consolidan en un almacén de datos y en market de

datos; en otros, se mantienen en servidores de Internet e Intranet.
El entorno de la minería de datos suele tener una arquitectura cliente servidor.
Las herramientas de la minería de datos ayudan a extraer el mineral (objeto de

datos) de la información enterrada en archivos corporativos o en registros
públicos, archivados
El minero es, muchas veces un usuario final con poca o ninguna habilidad de
programación, facultado por barrenadoras de datos (formatos de registro de datos)
y otras poderosas herramientas indagatorias para efectuar preguntas y obtener
rápidamente respuestas.
Hurgar y sacudir a menudo implica el descubrimiento de resultados valiosos e

inesperados. ( hacer análisis de la información y tratar de evitar la redundancia)
Las herramientas de la minería de datos se combinan fácilmente y pueden

analizarse y procesar rápidamente.
23
Debido a la gran cantidad de datos, algunas veces resulta necesario usar

procesamiento en paralelo para la minería de datos.
• La minería de datos produce cinco tipos de información:
a. Asociaciones.
b. Secuencias.
c. Clasificaciones.
d. Agrupamientos.
e. Pronósticos.
• Los mineros de datos usan varias herramientas y técnicas.
La minería de datos es un proceso que invierte la dinámica del método científico

en el siguiente sentido:
En el método científico, primero se formula la hipótesis y luego se diseña el

experimento para coleccionar los datos que confirmen o refuten la hipótesis.
Si esto se hace con la formalidad adecuada (cuidando cuáles son las variables
controladas y cuáles experimentales), se obtiene un nuevo conocimiento.
En la minería de datos, se coleccionan los datos y se espera que de ellos emerjan

hipótesis. Se busca que los datos describan o indiquen por qué son como son.
Luego entonces, se valida esa hipótesis inspirada por los datos en los datos
mismos, será numéricamente significativa, pero experimentalmente inválida. De
ahí que la minería de datos debe presentar un enfoque exploratorio, y no
confirmador. Usar la minería de datos para confirmar las hipótesis formuladas
puede ser peligroso, pues se está haciendo una inferencia poco válida.
24
La minería de datos es una tecnología compuesta por etapas que integra varias
áreas y que no se debe confundir con un gran software. Durante el desarrollo de
un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa
que pueden ser estadísticas, de visualización de datos o de inteligencia artificial,
principalmente. Actualmente existen aplicaciones o herramientas comerciales de
minería de datos muy poderosas que contienen un sinfín de utilerías que facilitan
el desarrollo de un proyecto. Sin embargo, casi siempre acaban
complementándose con otra herramienta.
Fundamentos del Data Mining.
Las técnicas de Data Mining son el resultado de un largo proceso de investigación

y desarrollo de productos. Esta evolución comenzó cuando los datos de negocios
fueron almacenados por primera vez en computadoras, y continuó con mejoras en
el acceso a los datos, y más recientemente con tecnologías generadas para
permitir a los usuarios navegar a través de los datos en tiempo real. Data Mining
toma este proceso de evolución más allá del acceso y navegación retrospectiva de
los datos, hacia la entrega de información prospectiva y proactiva. Data Mining
está lista para su aplicación en la comunidad de negocios porque está soportado
por tres tecnologías que ya están suficientemente maduras:
• Recolección masiva de datos.
• Potentes computadoras con multiprocesadores.
• Algoritmos de Data Mining.
Las bases de datos comerciales están creciendo a un ritmo sin precedentes.
25
Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse
encontró que el 19% de los que contestaron están por encima del nivel de los 50
Gigabytes, mientras que el 59% espera alcanzarlo en el segundo trimestre de
1997. En algunas industrias, tales como ventas al por menor (retal), estos
números pueden ser aún mayores. MCI Telecommunications Corp. cuenta con
una base de datos de 3 terabytes + 1 terabyte de índices y overhead corriendo en
MVS sobre IBM SP2. La necesidad paralela de motores computacionales
mejorados puede ahora alcanzarse de forma más costo - efectiva con tecnología
de computadoras con multiprocesamiento paralelo. Los algoritmos de Data Mining
utilizan técnicas que han existido por lo menos desde hace 10 años, pero que sólo
han sido implementadas recientemente como herramientas maduras, confiables,
entendibles que consistentemente son más performantes que métodos
estadísticos clásicos.
En la evolución desde los datos de negocios a información de negocios, cada

nuevo paso se basa en el previo. Por ejemplo, l es crítica para Data Mining.
Los componentes esenciales de la tecnología de Data Mining han estado bajo

desarrollo por décadas, en áreas de investigación como estadísticas, inteligencia
artificial y aprendizaje de máquinas. Hoy, la madurez de estas técnicas, junto con
los motores de bases de datos relacionales de alta performance, hicieron que
estas tecnologías fueran prácticas para los entornos de data warehouse actuales.
Alcance de Data Mining.
El nombre de Data Mining deriva de las similitudes entre buscar valiosa

información de negocios en grandes bases de datos - por ej.: encontrar
información de la venta de un producto entre grandes montos de Gigabytes
almacenados - y minar una montaña para encontrar una veta de metales valiosos.
Ambos procesos requieren examinar una inmensa cantidad de material, o
26
investigar inteligentemente hasta encontrar exactamente donde residen los

valores.
Dadas bases de datos de sucinte tamaño y calidad, la tecnología de Data Mining

puede generar nuevas oportunidades de negocios al proveer estas capacidades:
• Predicción automatizada de tendencias y comportamientos. Data Mining

automatiza el proceso de encontrar información predecible en grandes bases de
datos. Preguntas que tradicionalmente requerían un intenso análisis manual,
ahora pueden ser contestadas directa y rápidamente desde los datos. Un típico
ejemplo de problema predecible es el marketing apuntado a objetivos (tarjetead
marketing). Data Mining usa datos en maulina promocionales anteriores para
idéntica posibles objetivos para maximizar los resultados de la inversión en futuros
maulina.
Otros problemas predecibles incluyen pronósticos de problemas financieros

futuros y otras formas de incumplimiento, e idéntica segmentos de población que
probablemente respondan similarmente a eventos dados.
• Descubrimiento automatizado de modelos previamente desconocidos. Las

herramientas de Data Mining barren las bases de datos e idéntifica modelos
previamente desconocidos en un sólo paso. Otros problemas de descubrimiento
de modelos incluyen detectar transacciones fraudulentas de tarjetas de créditos e
idéntifica datos anormales que pueden representar errores en la carga de datos.
Las técnicas de Data Mining pueden revisar los beneficios de automatización y

transaccion en las plataformas de hardware y software existentes y puede ser
implementada en sistemas nuevos a medida que las plataformas existentes se
actualizan y nuevos productos sean desarrollados. Cuando las herramientas de
Data Mining son implementadas en sistemas de procesamiento paralelo de alto
performance, pueden analizar bases de datos masivas en minutos. Procesamiento
27
más rápido, significado que los usuarios pueden automáticamente experimentar

con más modelos para entender datos complejos. Alta velocidad hace que sea
práctico para los usuarios analizar inmensas cantidades de datos.
Grandes bases de datos, a su vez, producen mejores predicciones.
Lección 5. Minería de datos y la toma de decisiones.
En el desarrollo de la conceptualización que hasta el momento se ha desarrollado

en el modulo se ha mencionado hasta aquí una gran cantidad de elementos que
se deben aplicar y analizar para poder hacer un ejercicio acorde a la realidad y
que sea concomitante tanto con las teorías estudiadas, como a la vez con las
necesidades de información de la entidad o empresa en la que se vaya a realizar
una aplicación de minería de datos.
El acceso a la información para el departamento gerencial o administrativo de una

empresa, debe estar enmarcado con una serie de características como la
eficiencia de la información, la claridad en la misma, la sistematicidad de su
estructura, la correspondencia con la realidad, etc. Es por ello que para poder
seguir adelante en el desarrollo y como cierre del capitulo I se deberán acudir a
direferentes fuentes, tanto externas como internas para documentarse sobre la
importancia misma de la minería de datos y ante todo en el apoyo a la toma de
decisiones.
Actividad de cierre Capitulo I
Se debe:
Realizar una lectura juiciosa de artículos científicos indexados sobre la importancia

de la mineria de datos.
28
Que aspectos considera importantes que se deben evaluar para el desarrollo de

un análisis de información bajo el enfoque de la minería de datos.
Realizar una ruta de planeación de un proyecto en una empresa con criterios y

etapas de la minería de datos.
Construir con una herramienta (ej. Cmaptools) una estructura que explique el
desarrollo de la planeación del punto anterior.
Hacer un cuadro informativo con el siguiente formato para documentar lo que

hasta el momento ha aprendido el estudiante.
Primer acercamiento a una aplicación con MD en una empresa
Nombre de la empresa
Objeto de la empresa
Actividades a
desarrollar
Descripcion de la Producto a
Nombre de la Etapa etapa Responsable entregar
Es importante mencionar que para este punto, el estudiante esta en libertad de

agregar tantas etapas con lo considere ya que este punto (a diferencia de los
anteriores), lo que pretende es servir de entrenamiento de lo aprendido y hacer
una aplicabilidad de los conceptos.
29
1.2. Capitulo II KDD.
Lección 6. Proceso de Descubrimiento del Conocimiento en Bases de Datos
6.1 Proceso de Descubrimiento del Conocimiento (KDD)
En los últimos años, ha existido un gran crecimiento en nuestras capacidades de

generar y colectar datos, debido básicamente al gran poder de procesamiento de
las máquinas como a su bajo costo de almacenamiento.
Sin embargo, dentro de estas enormes masas de datos existe una gran cantidad
de información oculta, de gran importancia estratégica, a la que no se puede
acceder por las técnicas clásicas de recuperación de la información.
El descubrimiento de esta información oculta es posible gracias a la Minería de

Datos (Data Mining), que entre otras técnicas aplica la inteligencia artificial para
encontrar patrones y relaciones dentro de los datos permitiendo la creación de
modelos, es decir, representaciones abstractas de la realidad, pero es el
descubrimiento del conocimiento (KDD, por sus siglas en inglés) que se encarga
de la preparación de los datos y la interpretación de los resultados obtenidos, los
cuales dan un significado a estos patrones encontrados.
Así el valor real de los datos reside en la información que se puede extraer de
ellos, información que ayude a tomar decisiones o mejorar nuestra comprensión
de los fenómenos que nos rodean. Hoy, más que nunca, los métodos analíticos
avanzados son el arma secreta de muchos negocios exitosos.
Empleando métodos analíticos avanzados para la explotación de datos, los

negocios incrementan sus ganancias, maximizan la esencia operativa, reducen
costos y mejoran la satisfacción del cliente De forma general, los datos son la
30
materia prima bruta. En el momento que el usuario les atribuye algún significado
especial pasan a convertirse en información. Cuando los especialistas elaboran o
encuentran un modelo, haciendo que la interpretación de la información y ese
modelo representen un valor agregado, entonces nos referimos al conocimiento.
En el desarrollo del proceso se analiza e ilustra la jerarquía que existe en una
base de datos entre los datos, información y conocimiento. Se observa igualmente
el volumen que presenta en cada nivel y el valor que los responsables de las
decisiones le dan en esa jerarquía. El área interna dentro del triángulo representa
los objetivos que se han propuesto. La separación del triángulo representa la
estrecha unión entre dato e información, no así entre la información y el
conocimiento.
La capacidad de generar y almacenar información creció considerablemente en

los últimos tiempos, se ha estimado que la cantidad de datos en el mundo
almacenados en bases de datos se duplica cada 20 meses. Es así que hoy las
organizaciones tienen gran cantidad de datos almacenados y organizados, pero a
los cuales no les pueden analizar escientemente en su totalidad.
Con las sentencias SQL se puede realizar un primer análisis, aproximadamente el

80% de la información se obtiene con estas técnicas. El 20% restante, que la
mayoría de las veces, contiene la información más importante, requiere la
utilización de técnicas más avanzadas.
El Descubrimiento de Conocimiento en Bases de Datos (KDD) apunta a procesar

automáticamente grandes cantidades de datos para encontrar conocimiento útil en
ellos, de esta manera permitirá al usuario el uso de esta información valiosa para
su conveniencia.
El KDD es el Proceso no trivial de idéntica patrones válidos, novedosos,

potencialmente útiles y, en última instancia, comprensibles a partir de los datos.
(Fallad et al., 1996) El objetivo fundamental del KDD es encontrar conocimiento

útil, válido, relevante y nuevo sobre un fenómeno o actividad mediante algoritmos
encientes, dadas las crecientes órdenes de magnitud en los datos. Al mismo
31
tiempo hay un profundo interés por presentar los resultados de manera visual o al
menos de manera que su interpretación sea muy clara. Otro aspecto es que la
interacción humano-máquina deberá ser accesible, dinámica y colaboradora.
El resultado de la exploración deberá ser interesante y su calidad no debe ser

afectada por mayores volúmenes de datos o por ruido en los datos. En este
sentido, los algoritmos de descubrimiento de información deben ser altamente
robustos.
FIGURA 5: JERARQUÍA DEL CONOCIMIENTO.
Lección 7. Diagrama del Proceso de KDD
El proceso de KDD consiste en usar métodos de minería de datos (algoritmos)

para extraer (identifica) lo que se considera como conocimiento de acuerdo a la
especificación de ciertos parámetros usando una base de datos junto con
reprocesamientos y post-procesamientos.
32
Pearson.
Figura 6: Proceso de KDD
Se estima que la extracción de patrones (minería) de los datos ocupa solo el 15%
al 20% del esfuerzo total del proceso de KDD.El proceso de descubrimiento de
conocimiento en bases de datos involucra varios pasos:
Determinar las fuentes de información: que pueden ser útiles, dónde conseguirlas
y como accederlas.
Diseñar el esquema de un almacén de datos (Data Warehouse) que consiga

unificar de manera operativa toda la información recogida.
33
Implantación del almacén de datos: que permita la navegación y visualización

previa de sus datos, para discernir qué aspectos puede interesar que sean
estudiados. Esta es la etapa que puede llegar a consumir el mayor tiempo.
Selección, limpieza y transformación de los datos que se van a analizar: la

selección incluye tanto la filtración o fusión horizontal (tablas) como vertical
(atributos).La limpieza y reprocesamiento de datos se logra diseñando una
estrategia adecuada para manejar ruido, valores incompletos, secuencias de
tiempo, casos extremos (si es necesario), etc.
Seleccionar y aplicar el método de minería de datos apropiado, esto incluye:
 La selección de la tarea de descubrimiento a realizar, por ejemplo,

clasificación,agrupamiento o clustering, regresión, etc.
 La selección de él o de los algoritmos a utilizar.
 La transformación de los datos al formato requerido por el algoritmo
específico de minería de datos.
 Llevar a cabo el proceso de minería de datos.
Se buscan patrones que puedan expresarse como un modelo o simplemente que

expresen dependencias de los datos, el modelo encontrado depende de su
función (clasificación) y de su forma de representarlo (árboles de decisión, reglas
de asociación, etc.), se tiene que específicar con criterio de preferencia para
seleccionar un modelo dentro de un conjunto posible de modelos, se tiene definir
la estrategia de búsqueda a utilizar (normalmente está predeterminada en el
algoritmo de minería).
Leccion. 8. Etapas de abordaje.
34
Evaluación, interpretación, transformación y representación de los patrones

extraídos:
Evaluacion de los datos.
Se debe hacer un acercaiento real y muy especifico a la información que se

maneja en la base de datos, esto con el fin de entender claramente el tipo de
información que manje, el flujo de la misma, la dinámica de actualización, los
procesos que se desarrollan y por supuesto cuales son las verianles que se tienen
y que en el momento no se están teniendo en cuenta. Este es quizá una de las
etapas mas simples pero de mayor importancia, el 73% de las ocasiones en la
que se fracasa en la aplicación de la mineria de datos, esta en la falta de previsión
y de atención especial al desarrollo de esta etapa ya que de no ser abordada de
manera acertiva todo el proceso será un fracaso.
Interpretar los resultados y posiblemente regresar a los pasos anteriores.
Esto puede involucrar repetir el proceso, quizás con otros datos, otros algoritmos,
otras metas y otras estrategias. Este es un paso crucial en donde se requiere
tener conocimiento del dominio. La interpretación puede beneficiarse de procesos
de visualización, y sirve también para borrar patrones redundantes oirrelevantes.
Difusión y uso del nuevo conocimiento.
Incorporar el conocimiento descubierto al sistema (normalmente para mejorarlo) lo

cual puede incluir resolver conflictos potenciales con el conocimiento existente.
El conocimiento se obtiene para realizar acciones, ya sea incorporándolo dentro

de un sistema de desempeño o simplemente para almacenarlo y reportarlo a las
personas interesadas.
35
En este sentido, KDD implica un proceso interactivo e iterativo involucrando la

aplicación de varios algoritmos de minería de datos.
Metas del KDD
Procesar automáticamente grandes cantidades de datos crudos.

Idéntica los patrones más significativos y relevantes.
Presentarlos como conocimiento apropiado para satisfacer las metas del usuario.
Leccion 9. Desarrollo del proceso de KDD
El Preprocesamiento.
El proceso KDD, ilustrado en la Figura 1, está dividido en una serie de pasos,

desde la selección y limpieza de la BD hasta la evaluación e interpretación de los
Resultados.
FIGURA 7.ETAPAS EN EL PROCESO DE KDD.
36
En la Figura 7 se observa que las primeras etapas del proceso KDD se dedican a
limpiar, preparar, seleccionar y formatear a los datos de acuerdo a los patrones a
buscar y el algoritmo de Minería de Datos a utilizar. A esta etapa se le conoce
como pre procesamiento.
Posteriormente, aparece la etapa de minería de datos, en la cual se buscan o

descubren los patrones ocultos en los datos, los cuales pasan a una etapa de
evaluación, en donde se determina la validez y confiabilidad de dichos patrones. Al
final de todo este proceso, se obtienen una serie de patrones llamados
conocimiento.
A continuación se describen a mayor detalle cada una de las etapas.
En esta etapa los datos son preparados para el proceso de Minería de Datos.
Dicha etapa se divide en tres pasos básicos.
Selección y Limpieza
En el mundo real, existen muchas bases de datos que tienen diversos problemas,
como son valores faltantes, ruido (valores que por alguna causa no son correctos),
Inconsistencias (valores que no corresponden a los dominios de los atributos ó
que son contradictorios con otros datos de la misma BD), errores de captura,
errores en la fuente de información, errores provocados por los sistemas de
cómputo, entre otros. Estos problemas deben eliminarse antes de cualquier
proceso de minería de datos, ya que pueden afectar a la precisión de los
resultados o incluso, el algoritmo de minería puede construir patrones a partir de
un conjunto de datos incorrectos.
37
Para estos casos, se deben de implementar una serie de estrategias que corrijan
tales problemas.
Lamentablemente no existe una única solución, ya que dependiendo del tipo de

datos será la estrategia a implementar. Por ejemplo, considere una tabla R con ―n‖
registros definida sobre un conjunto de atributos {A1,…, Am} en donde existe un
registro σ <v1,…, vs-1, vs, vs+1,…, vn> en el cual el valor del atributo ―s‖ es
desconocido (es decir, vs =?). Una estrategia para solucionar este problema sería
simplemente eliminar dicho registro σ. Sin embargo, en el caso de que éste
registro sea muy valioso o significativo, se buscaría otra forma de solucionar el
problema, como por ejemplo, estimar el posible valor para vs a través de la media.
FIG. 8 EJEMPLOS DE IMAGENES DE CÉLULAS CON LEUCEMIA.

Fuente: http://es.scribd.com/doc/93421745/Caso-de-Exito-Mineria-de-Datos
Otro problema común que se presenta en un conjunto de datos es el ruido. Por

ejemplo, considere una BD de imágenes médicas tomadas a través de un
microscopio óptico. La calidad de las imágenes depende de muchos factores,
como es la preparación de las muestras, la óptica del microscopio, la calidad de la
cámara digital, entre otros. Dependiendo de estas variables, se pueden obtener
imágenes como la mostrada en la Figura 8 izquierda), en donde aparecen
manchas que no son propias de las características de las células. En estos casos
se deben de buscar filtros (dentro del área del procesamiento digital de imágenes)
que permitan remover estas imperfecciones, de tal manera que al momento de
38
trabajar con las células, estas imperfecciones no alteren al proceso de minería de

datos.
Por otro lado, la selección es una estrategia útil cuando la dimensión de la BD es

muy alta. Entre más grande sea una BD, los tiempos de respuesta pueden llegar a
ser prohibitivos. En estos casos se opta por no trabajar directamente con todos los
datos, sino con un subconjunto de los datos originales, llamada muestra o datos
de entrenamiento.
El problema con esta estrategia es garantizar que los datos contenidos en la

muestra sean representativos con respecto al total del conjunto. Lamentablemente
esta condición no es fácil de garantizar, por lo que se ha optado por construir no
solo una, sino un conjunto de muestras con las cuales trabajar (construidas a
través de un proceso aleatorio). Como consecuencia, por cada muestra se
obtendrá un conjunto de patrones, los cuales tendrán que compararse y evaluarse
con respecto a los resultados encontrados a partir de otras muestras.
Preparación de Datos
En esta etapa del proceso KDD se busca eliminar todos aquellos datos que no
serán relevantes para el proceso de minería de datos. Por ejemplo, considere la
imagen de la Figura 8 derecha), donde la tarea consiste en identificar
características específicas de las células que representan leucemia. En este caso,
toda la imagen como tal no nos interesa, sólo la región que delimita a la célula
(región de interés). Por tanto, es necesario extraer esta región del resto de la
imagen, a través de técnicas de segmentación.
Es importante mencionar que no todas las bases de datos requerirán aplicar cada
uno de los pasos mencionados en el proceso KDD. Por ejemplo, para la base de
datos representada por la tabla R, si todos los atributos son importantes y además,
39
todos los registros son significativos, después de eliminar cualquier inconsistencia

o ruido el proceso se brincaría a la siguiente etapa, sin pasar por la preparación de
datos.
Transformación de Datos
Cada algoritmo que se desarrolla siempre establece el tipo y estructura de los

datos que admite. Por ejemplo, un algoritmo de ordenamiento como quicksort
admite con entrada un arreglo de números, por lo que no es posible utilizarlo para
ordenar imágenes. De la misma forma, los algoritmos de minería de datos siempre
Definen un formato y estructura para sus entradas.
Si para la tarea que se está resolviendo se determina utilizar un algoritmo de

minería de datos y los datos no coinciden con la entrada admitida por el algoritmo,
entonces se procede a transformarlos. No obstante en cualquier proceso de
transformación, cierta cantidad de la información de los datos originales se pierde.
Por tanto, un punto fundamental en este proceso es perder la menor cantidad de

la información de los datos.
Por ejemplo, considere que se utilizará un algoritmo de clasificación como C4.5

para construir un árbol que permita clasificar a las células como linfoblásticas y
mieloblásticas (las dos familias de leucemia). Dado que el algoritmo C4.5 admite
como entrada una tabla, se requerirá transformar a las células a este formato. Esta
Transformación no es trivial, ya que en primera instancia no existe ningún tipo de
relación natural entre una imagen y una tabla. Sin embargo, si se analiza las
características de cualquier célula, se podrá observar que estas tienen
propiedades como un área (en pixeles), un diámetro, convexidad, gama de color,
un número de grumos entre otras.
40
Estas propiedades se pueden utilizar como atributos de una tabla, donde cada
registro correspondería a una célula específica, así como se ilustra en la Figura 9.
41
FIG. 9 EJEMPLO DE CÓMO TRANSFORMAR UNA IMAGEN DE UNA CÉLULA

A UNA TABLA.
La MD es la parte central del proceso KDD, en la cual se buscan o encuentran

patrones de interés para el usuario. Los patrones descubiertos pueden ser
singrafos, reglas de asociación, árboles de clasificación, una red neuronal
entrenada, entre otros.
Para entender el alcance de la MD, hay que comprender qué tipo de tareas se
pueden realizar. Para ello, se identifican características comunes que sirven para
Agrupar las tareas de MD, que son:
 Tipos de BD sobre las que se hace MD: aquí se identifica sobre qué tipos
de bases de datos se trabaja, como data warehouse, bases de datos
relacionales, espaciales, temporales, secuenciales, entre otras. Esto
permite identificar la estructura de los datos a trabajar.
 Tipo de conocimiento minado: se determina la estructura del conocimiento a

identificar, que pueden ser caracterizaciones, reglas de asociación, árboles
de clasificación, redes neuronales. Los patrones descubiertos pueden ser
descriptivos, es decir, muestran la serie de hechos bajo los cuales se
42
sustenta el patrón, como son los árboles de clasificación, reglas de

clasificación, entre otros.
Sin embargo, existen métodos que no son descriptivos, simplemente dan el

resultado final sin que el usuario pueda conocer el porqué del resultado. Ejemplo
de estos sistemas son las redes neuronales (a estos sistemas se les ve como
cajas negras, se conoce la entrada y la salida pero no se entiende que pasa en el
interior).
 Tipo de técnica utilizada: aquí se define si se utilizan técnicas estadísticas ó

de aprendizaje automático.
 Dominios de aplicación: clasificación basada en los dominios de trabajo,

que pueden ser químicos, biológicos como el DNA, teóricos, entre otros.
Otro aspecto importante en toda tarea de MD es identificar si se van a buscar

odescubrir patrones. En un proceso de búsqueda, la minería de datos parte de un
conjunto de datos D y un patrón a buscar S. La tarea consiste en identificar si
existen subestructuras en D que sean idénticas o similares a S. Por otro lado, si la
tarea se aboca a descubrir patrones ocultos, entonces se parte de un conjunto de
datos D y a partir de estos datos, se identifican características comunes en los
mismos.
Debido a que la MD emplea conocimientos que se han desarrollado en diferentes

áreas de investigación, se ha convertido en un área multidisciplinaria, en la que
intervienen conceptos de bases de datos, inteligencia artificial, aprendizaje
automático, entre otras, tal como se ilustra en la Figura 10.
43
FIG. 10. LA MINERÍA DE DATOS Y SU RELACIÓN CON OTRAS ÁREAS DE

CONOCIMIENTO.
Leccion 10. Evaluación de Patrones
En la etapa de evaluación se extraen los patrones con mayor importancia para el

usuario final. Para lograrlo, es necesario establecer parámetros que nos permitan
comparar la calidad de un patrón con respecto a otro.
La medida más usual para evaluar patrones es el porcentaje de precisión, en el

cual dado un conjunto de datos D y un patrón P, se determina el porcentaje de
casos en donde el patrón P es válido ó correcto con respecto al total de casos en
D. Por ejemplo, considere el caso de una escuela con 200 alumnos, en los cuales
se ha encontrado una regla de clasificación que dice: ―si el alumno tiene un
promedio superior a 8 y tiene como máximo 3 faltas en un cuatrimestre, entonces
es un alumno que no reprueba ninguna materia‖. Para verificar la validez de esta
regla, es necesario determinar para cuantos alumnos en D aplicaría la regla, es
decir, cuantos alumnos tienen un promedio mayor a 8, no faltan más de 3 veces y
no reprueban (soporte) y del número obtenido, determinar en cuantos dado el
antecedente, se cumple la consecuencia (confianza). Para este ejemplo, si existen
45 alumnos que cumplen con un promedio superior a 8, no faltan más de 3 veces
en un cuatrimestre y 50 alumnos que además no reprueban, entonces el soporte
44
de la regla es de 50/200 = 25%. Por otro lado, si de ellos solo 45 alumnos

cumplenque si tienen promedio superior a 8 y no faltan más de 3 veces, entonces
no reprueban, se obtendría una confianza de 45/50 = 90%.
Otro aspecto muy importante en todo proceso de evaluación de patrones es

determinar el umbral a partir del cual un patrón es válido. Por ejemplo, para el
ejemplo de la BD de la escuela, un 90% de confianza puede resultar muy bueno
para detectar a los alumnos que difícilmente reprueban. Sin embargo, si
cambiamos de dominio de trabajo ese mismo 90% puede ser malo.
Por ejemplo, considere el caso en el cual se está tratando de construir un modelo

que permita predecir si un paciente, a partir de su cuadro clínico, es susceptible a
sufrir algún tipo de cáncer. Para este tipo de dominios, un 90% no es suficiente,
requiriéndose niveles muy cercanos al 100%. Por tanto, la exigencia en la
precisión de los resultados está sujeta al dominio de trabajo y el uso que se le
dará al conocimiento minado.
Actividad cierre Capitulo II Caso de Estudio.
Tomado Fuente: http://es.scribd.com/doc/31587475/Ejemplos-de-Mineria-de-Datos
En la siguiente sección se presenta un caso real en el cual se ha aplicado con

éxito el proceso de minería de datos.
Clasificación de Leucemias Agudas empleandoMinería de Datos
La Leucemia es una enfermedad que se caracteriza por alterar el proceso

madurativo de las células que conforman a la sangre (glóbulos rojos, glóbulos
blancos, plaquetas y plasma), provocando una proliferación descontrolada de
45
células sanguíneas inmaduras. Esta proliferación se origina a nivel de la médula

ósea.
En la actualidad, para detectar si un paciente padece de esta enfermedad se sigue

la siguiente metodología. El estudio inicia con un análisis morfológico de las
muestras por medio del experto, el cual identifica ciertas características que le
hagan sospechar si el paciente sufre de la enfermedad. Si es el caso, entonces las
muestras son turnadas a un estudio de cartometría de flujo, el cual sirve para
definir el tipo de leucemia (leucemia linfoblásticas –LLA- o mieloblásticas -LMA) y
el subtipo (L1, L2 L3 y MO, M1, M2, M3, M4, M5, M6 y M7). Con base en los
resultados obtenidos, el experto en el dominio prescribe un tratamiento acorde a
las características de la enfermedad.
Lamentablemente este procedimiento sufre de varios inconvenientes: el análisis

por observación es un proceso susceptible a errores, ya que la capacidad de la
visión humana para detectar detalles pequeños es limitada. Aunado a esto,
factores como el cansancio, condiciones de luz, problemas visuales en el experto,
entre otros, lo que disminuye la precisión del diagnóstico inicial.
Por otro lado, un estudio de cartometría de flujo no es barato, lo que provoca que
en países en desarrollo como Colombia los estudios en ocasiones no se puedan
llevar a cabo. Por lo anterior surge la necesidad de desarrollar herramientas de
apoyo al diagnóstico médico que sean confiables y además, de bajo costo.
Con respuesta a esta necesidad, se está desarrollando una investigación en el

cual participan investigadores del INAOE – IMSS – UPP para crear una
herramienta para la detección de leucemia aguda a partir de un análisis
morfológico de imágenes digitales. En este sistema, el objetivo es extraer
características de las células que permitan construir modelos que sirvan para
clasificar nuevas muestras.
46
Para lograrlo, se propuso una metodología basada en el proceso KDD, así como
se muestra en la Figura 11
FIG. 11 CLASIFICACIÓN DE LEUCEMIAS AGUDAS.
El proceso inicia capturando las imágenes a través de un microscopio óptico de

alta calidad, el cual cuenta con una cámara digital. De este proceso se obtiene una
Base de imágenes, en donde se seleccionan las de mayor calidad (que contengan
características representativas de la enfermedad). Ese proceso es realizado en
conjunto con los expertos del dominio.
Una vez seleccionadas las imágenes, se procede a limpiarlas, empleando una

serie de filtros que disminuyen imperfecciones. Finalizado este proceso, se
procede a una etapa de segmentación, en la cual se extraen exclusivamente las
regiones de interés de cada imagen. Cabe hacer mención que en este proceso
47
intervienen los expertos, ya que una imagen puede contener diferentes tipos de
células donde no todas son representativas de la leucemia. Al mismo tiempo, los
expertos en el domino realizaron un proceso de clasificación, identificando el tipo y
subtipo de la muestra. Esta información fue de gran utilidad para el proceso de
minería de datos.
Después de la segmentación, se transformaron las células a un formato de tabla

(selección de características, Figura 5), donde se extrajeron características como
el diámetro, media de los valores en tonos de gris, entropía, anisotropía,
correlación, área, convexidad, entre otros parámetros. Esta transformación fue
necesaria, ya que diversos algoritmos de clasificación, como redes neuronales,
árboles de clasificación como C4.5 requieren este formato.
A partir de las características extraídas, se probaron diferentes algoritmos. Es

importante mencionar que se utilizaron tanto algoritmos descriptivos como no
descriptivos, ya que los expertos en el dominio no solo estaban interesados en
conocer las clases, sino además, en identificar las características de definen a
cada clase.
Este procedimiento se pudo llevar a cabo gracias a la clasificación de las muestras

que realizaron los expertos en el proceso de selección.
Actualmente, el proyecto se encuentra en la fase de evaluación de resultados, en

donde se han alcanzado clasificaciones con una precisión promedio superior al
90% (para familias como subfamilias). De acerado a los expertos, estos resultados
son muy alentadores, considerando que la precisión alcanzada por los expertos a
través de un análisis morfológico ronda el 40%.
Este es un claro ejemplo en el cual el proceso KDD y la minería de datos se han

usado para identificar patrones complejos, que pueden llegar a tener un fuerte
impacto en la sociedad.
48
1.3 Capitulo III Reglas de Asociación usadas en Minería de Datos.
Lección 11. Identificación de las reglas de asociación.
Se usará la relación compras para ilustrar las reglas de asociación. Mediante el

examen del conjunto de transacciones de compras se pueden identificar reglas de
la forma:
{Pluma}  {Tinta}
Esta regla se debe leer de la manera siguiente: ―si en una transacción se compra
una pluma, es probable que también se compre tinta en esa transacción.‖ Es una
afirmación que describen las transacciones de la base de datos; la extrapolación a
transacciones futuras debe hacerse con cautela, como se analiza en las reglas de
asociación tiene la forma Izq.  Der, donde tanto Izq. como Der. Son conjuntos
de elementos.
La interpretación de esta regla es que si se compran en una misma transacción

todos los artículos de Izq., entonces es probable que también se compren los
artículos de Der.
Soporte. El soporte de un conjunto de artículos es el porcentaje de transacciones

que contienen todos esos artículos.
El soporte de la regla IzqDer es el soporte del conjunto de artículos Izq. U Der.

Por ejemplo, considérese la regla {pluma}  {tinta}. El soporte de esta regla es el
soporte del C lote {pluma, tinta}, que es 75 %.
49
Confianza. Considérense transacciones que contengan todos los artículos de izq.

La confianza de la regla Izq.  Der es porcentaje de esas transacciones que
contienen también todos los artículos de Der. Más exactamente, de a sea sop
(Izq.) el porcentaje de transacciones que contienen Izq. y Sop (Izq. U Der) el
porcentaje de transacciones que contienen tanto Izq. como Der. Entonces, la
confianza de la regla Izq.  Der es Sop (Izq. U Der/sop (Izq.). La confianza de
cada regla es una indicación de su fortaleza. Por ejemplo, considérese
nuevamente la regla {Pluma}  {Tinta}... La confianza de esta regla es 75%; el 75
% de las transacciones que contienen el lote {pluma} contienen también el lote
{Tinta}.
Principales funciones del data mining: Reglas de Asociación (Asociación rules)

Reglas fuertes: Así se denomina a aquellas reglas que satisfacen un soporte
mínimo (min_sup) y una confianza o confidencia mínima (min_conf).
_ Frecuencia de ocurrencia de un intense (conjunto de ítems): es el número de

transacciones que contienen el intense.
_ Un intense satisface un soporte mínimo si y solo si su frecuencia de ocurrencia
es superior o igual a min_sup e inferior o igual al número de transacciones en D.
_ Si el intense satisface el soporte mínimo entonces se lo denomina ‗intense
frecuente‘.
_ Principio ‗A priori‘: Cualquier de sus Principales funciones del data mining:
Reglas de asociación (Asociación rules).
Ejemplos de reglas
 Basadas en un tipo de valor :
Compra (X,‘CD‘) y Compra (X,‘Reproductor de CD‘) => Compra
(X,‘Reproductor MP3‘)
50
 Basadas en la dimensión del dato asociado :

Edad (X,‘25…40‘) e Ingreso (X,‘24k…48k‘) => Compra (X,‘Palm‘)
 Basada en niveles de atracción edad(X,‘25…40‘) =>
Compra(X,‘Notebooks‘) edad(X,‘25…40‘) => Compra(X,‘Computadoras‘)
 Se tiene diferentes niveles de granularidad en las reglas.

 Se dispone de una jerarquía de conceptos (productos para el ejemplo).
 Los ítems de niveles inferiores dispondrán de menos soporte.
 Principales funciones del data mining: Reglas de asociación (Asociación

rules).
- Si exige que las reglas expuestas posean igual soporte en todos los niveles:
 Cuanto más descienda en la jerarquía, menos soporte dispondrá. Esto

implica que perder algunas reglas pero aquellas que cumplan las
condiciones valdrían en un contexto general.
- Si accede a menores soportes en los niveles inferiores:
 Se corre el riesgo de que la regla no sirva para el contexto general.
- Una regla es redundante si su soporte está cercano a un valor esperado Basado

en la regla de un ancestro. En otras palabras, si bien desciende en el Nivel de
granularidad de la información, esta no se traduce en el incremento del
conocimiento. E
Principales funciones de la data mining: Concepto de patrones secuenciales

(Secuencial patterns)
Una secuencia es una lista ordenada de itemsets;

 Una secuencia es maximal si no es contenida por otra
51
 Cada secuencia maximal es un patrón secuencial

 Series temporales son un caso particular de los patrones secuenciales. La
secuencia está dada por algunos parámetros asociados al tiempo.
 Aplicaciones específicas:
 Retención de clientes
 Marketing focalizado
Clasificación y predicción:
Clasificación versus Predicción: Predice etiquetas de clases. Categóricas mientras

que la predicción se basa en modelos de Funciones evaluadas-continuas.
Clasificación:
 Método supervisado
 Se compone de 2 etapas:
1. Construcción (Entrenamiento)
2. Poda (Pruning).
1. Overfitting
2. Objetivo del pruning
 Función de splitting
 Frena la construcción del árbol si:
_ No existen más atributos que analizar o
_ No existen más ejemplos que procesar o
_ Todos los ejemplos para un nodo determinado poseen igual clase Predicción:
_ Predice el valor para una variable continua
_ Modelos de funciones evaluadas continuas
_ Ejemplos:
_ Regresión lineal simple [Y= Bo. + B1*X]
_ Regresión lineal múltiple [Y= Bo. + B1*x1+ B2*x2 + … + Bn*Xn]
52
_ Entre otros
Agrupamiento (Clustering):
―Conjunto de datos u objetos reunidos bajo una misma agrupación en función de

alguna medida para asimila y evaluar lavarianza entre grupos y la minimizarla
dentro del mismo‖
 No supervisado
 Tipo de acercamientos
_ Orientados al aprisionamiento:
_ K-means:
_ Relativamente eficiente
_ Necesita que se especifique el ‗k‘ (cantidad de grupos a armar o estudiar)
_ No es capaz de manejar ruido y outliers (Efecto similar a la media aritmética)
_ K-medoids Algoritms
_ No escalable
Tipo de acercamientos:
Continua Orientados al aprisionamiento:

 La principal diferencia entre K-means y k-medoids, es que en el primero el
centro del clúster no necesariamente es un elemento, mientras que el
segundo requiere que el centro sea un elemento representativo del grupo.
- Jerárquico
 Tiene la ventaja de no necesitar especificar la cantidad de grupos a
generar.
 Emplea una matriz de distancia entre los registros, para ‗n‘ datos genera
una matriz non que contiene dichas distancias y cuya diagonal principal es
‗0‘
Existen dos variantes:
53
 Aglomérativo: Va reuniendo elementos desde lo más particular hasta

obtener el conjunto de datos completo
 Divisivo: Va particionado el conjunto de datos completo hasta llegar a la
división mínima de los mismos.
 Otros acercamientos: Basados en densidad, basados en grilla (detalles a
diferentes niveles de granularidad), etc.
Leccion 12. Algoritmos para la busqueda de reglas asociadas.
Un usuario puede pedir todas las reglas de asociación que tengan un soporte
mínimo determinado (spin) y una confianza mínima (confmin), y sean desarrollado
varios algoritmos para hallar esas reglas de manera eficiente. Esos algoritmos
trabajan en dos etapas. En la primera etapa se calcula todos los lotes frecuentes
con el soporte mínimo especificando por el usuario. En la segunda etapa se
generan reglas empleando como datos los lotes frecuentes.
Una vez identificados los lotes frecuentes, la generación de todas las reglas
posibles con el soporte mínimo especificado por el usuario es sencilla.
Considérese el lote frecuente X con el soporte Sx identificando en la primera

etapa del algoritmo. Para generar a una regla a partir de X se divide X en dos
lotes, Izq. y Der. La confianza de la regla Izq. Der es Sx/S izq., la relación entre
soporte de X y el de Izq. A partir de la propiedad a priori se sabe que el soporte
de Izq. es mayor que spin y, por tanto, se han calculado de soporte de Izq. en la
primera etapa del algoritmo. Los valores de confianza de la posible regla se
pueden obtener calculando la relación Sop (X) / Sop (Izq.) y, luego, comparando
su relación.
En General, la etapa más costosa del algoritmo es el cálculo de los lotes

frecuentes, y se han desarrollado muchos algoritmos diferentes para llevar a cabo
de manera eficiente. La generación de reglas es dada por la capacidadad de
54
porder identificar todos los lotes frecuentes y larelacion que cada una de ellas
tiene.
Algoritmo de Ordenamiento Quicksort.

Fuente url: http://lc.fie.umich.mx/~calderon/programacion/notas/Quicksort.html
Sea x un arreglo y n el número de elementos en arreglo que se debe ordenar.

Elegir un elemento a de una posición especifica en el arreglo (por ejemplo, a
puede elegirse como el primer elemento del arreglo. Suponer que los elemento de
x están separados de manera que a está colocado en la posición j y se cumplen
las siguientes condiciones.
1.- Cada uno de los elementos en las posiciones de 0 a j-1 es menor o igual que a.
2.- Cada uno de los elementos en las posiciones j+1 a n-1 es mayor o igual que a.
Observe que si se cumplen esas dos condiciones para una a y j particulares, a es

el j-ésimo menor elemento de x, de manera que a se mantiene en su posición j
cuando el arreglo está ordenado en su totalidad. Si se repite este procedimiento
con los subarreglos que van de x[0] a x[j-1] y de x[j+1] a x[n-1] y con todos los
subarreglos creados mediante este proceso, el resultado final será un archivo
ordenado.
Ilustremos el quicksort con un ejemplo. Si un arreglo esta dado por:
x = [25 57 48 37 12 92 86 33]
y el primer elemento se coloca en su posición correcta, el arreglo resultante es:
55
x = [12 25 57 48 37 92 86 33]
En este punto 25 esta en su posición correcta por lo cual podemos dividir el

arreglo en
x = [12] 25 [57 48 37 92 86 33]
Ahora repetimos el procedimiento con los dos subarreglos
x = 12 25 [48 37 33] 57 [92 86]
x = 12 25 33 [37 48] 57 [86] [92]
x = 12 25 33 [37 48] 57 86 92
x = 12 25 33 37 48 57 86 92
El procedimiento es entonces.
Buscar la partición del arreglo j.
Ordenar el subarreglo x[0] a x[j-1]
Ordenar el subarreglo x[j+1] a x[n-1]
56
Su implementación en Java es:
/************************************
public void quiksort(int x[],int lo,int ho)
int t, l=lo, h=ho, mid;
if(ho>lo)
mid=x[(lo+ho)/2];
while(l<h)
while((l<ho)&&(x[l]<mid)) ++l;
while((h>lo)&&(x[h]>mid)) --h;
if(l<=h)
57
t = x[l];
x[l] = x[h];
x[h] = t;
++l;
--h;
if(lo<h) quiksort(x,lo,h);
if(l<ho) quiksort(x,l,ho);
Fuente url: http://lc.fie.umich.mx/~calderon/programacion/notas/Quicksort.html
Leccion 13.Jerarquias.
En muchos casos se imponen una jerarquía, la jerarquía categórica hace

referencia al conjunto de artículos. En presencia de jerarquías cada transacción
contienen implícitamente, para cada uno de sus artículos, todos los ancestros de
esos artículos en la jerarquía. Por ejemplo, considérese la jerarquía de categorías,
dada esta jerarquía, la relación compras se incrementan conceptualmente con los
ocho registros es decir, la relación compras tiene todas las Tuplas..
La jerarquía permite detectar las relaciones entre artículos de diferentes niveles

de la jerarquía. Por ejemplo, el soporte del lote {tinta, Jugo} es del 50%, pero si se
sustituye jugo por la categoría más General bebidas, el soporte del lote resultante
{tinta, bebidas} aumenta en 75%. En General, el soporte de cada lote solo puede
58
aumentar y se sustituye un artículo por alguno de sus ancestros de la jerarquía

ES.
Es de anotar que el artículo en este caso es jugo, pero se debe tener en cuenta
que su ancestro es la categoría bebidas.
Suponiendo que se añaden físicamente la verdad los ocho registros de la

relación compras, se puede emplear cualquier algoritmo para el cálculo de los
lotes frecuentes de la base de datos incrementada... Suponiendo que la jerarquía
quepa en memoria principal, también se puede llevar a cabo la expresión sobre la
marcha mientras examinan las bases de D a datos, a modo de optimización.
59
Papelería Bebidas
Pluma Tinta Jugo Leche
Figura 12. Taxonomía de una categoría ES.
IDTRANS IDCLI FECHA PRODUCTO CANTIDAD
111 201 5/1/99 PAPELERIA 3
111 201 5/1/99 BEBIDAS 9
112 105 6/3/99 PAPELERIA 2
112 105 6/3/99 BEBIDAS 1
113 106 5/10/99 PAPELERIA 1
113 106 5/10/99 BEBIDAS 1
114 201 6/1/99 PAPELERIA 4
114 201 6/1/99 BEBIDAS 5
FIGURA 13. INSERCIÓN EN LA RELACIÓN COMPRAS CON UNA JERARQUÍA.
60
Leccion 13.Redes Bayesianas.
La búsqueda de relaciones causales suponen un desafío, si determinamos

sucesos están relacionados, hay muchas explicaciones posibles. Por ejemplo,
Supóngase que las plumas, los lápices y la tinta se compran juntos con frecuencia.
Pudiera ser que la compra de uno de estos artículos (por ejemplo, la tinta)
dependiera casualmente de la compra de otro (por ejemplo, las plumas). O bien
pudieran ser que la compra de uno de esos artículos (por ejemplo, las plumas)
estuviese fuertemente correlacionado con la compra de otro de ellos (por ejemplo,
los lápices) debido a algún fenómeno subyacente (por ejemplo, la tendencia de los
usuarios a pensar a los instrumentos de escritura conjuntamente) que influyen
casualmente en ambas compras. ¿Cómo se identifican las relaciones casuales
que se cumplen realmente entre estos sucesos en el mundo real?
Un enfoque que se puede considerar para una posible combinación de relaciones

casuales entre las variables de los sucesos de interés y evaluar la posibilidad de
cada combinación con base en los datos disponibles. Sí se consideran cada
combinación de relaciones causales como un modelo del mundo real subyacente
a los datos recolectados, se pueden asignar una puntuación a cada modelo
considerando su consistencia (frecuencia; en términos de probabilidades, con
algunas suposiciones simplificadoras) con los datos observados. /***Para una
mejor documentación se debe hacerun repaso de las tematicas como las Redes
Bayesianas, Teoria de Grafos, Arboles de decisión, Algoritmos de Quickshortetc;
ya que no son el objetivo del curso) sin embargo se hace un resumen con la
fuente para que el estudiante realice un repaso allí o donde lo requiera***/
Las redes bayesianas son grafos que se pueden utilizar para escribir una clase de
estos modelos, con un nodo por variable o suceso y arcos entre los nodos para
61
indicar la casualidad. Por ejemplo, un buen modelo de ejemplo de plumas, lápices

y tinta puede verse en lafigura14en General, el número de modelos posibles es
exponencial en el número de variables, y considerar todos los modelos resulta
costoso, por lo que se evalúa algún subconjunto de todos los modelos posibles.
Comprar
Pensar en plumasplplu Comprar
instrumentos de mas plumas tinta
escritura Comprar
plumas
lápices
FIGURA 14. GENERALIDAD DE UNA RED BAYESIANA
Leccion 14. Arboles de Decision. (Repaso)
Fuente: http://www.mitecnologico.com/Main/ArbolesDeDecision
El árbol de decisión es un diagrama que representan en forma secuencial

condiciones y acciones; muestra qué condiciones se consideran en primer lugar,
en segundo lugar y así sucesivamente. Este método permite mostrar la relación
que existe entre cada condición y el grupo de acciones permisibles asociado con
ella.
Un árbol de decisión sirve para modelar funciones discretas, en las que el objetivo
es determinar el valor combinado de un conjunto de variables, y basándose en el
valor de cada una de ellas, determinar la acción a ser tomada.
Los árboles de decisión son normalmente construidos a partir de la descripción de

la narrativa de un problema. Ellos proveen una visión gráfica de la toma de
decisión necesaria, especifican las variables que son evaluadas, qué acciones
deben ser tomadas y el orden en la cual la toma de decisión será efectuada. Cada
62
vez que se ejecuta un árbol de decisión, solo un camino será seguido

dependiendo del valor actual de la variable evaluada.
Se recomienda el uso del árbol de decisión cuando el número de acciones es

pequeño y no son posibles todas las combinaciones.
Uso de árboles decisiones.

El desarrollo de árboles de decisión beneficia al analista en dos formas. Primero
que todo, la necesidad de describir condiciones y acciones llevan a los analistas a
identificar de manera formal las decisiones que actualmente deben tomarse. De
esta forma, es difícil para ellos pasar por alto cualquier etapa del proceso de
decisión, sin importar que este dependa de variables cuantitativas o cualitativas.
Los árboles también obligan a los analistas a considerar la consecuencia de las
decisiones.
Se ha demostrado que los árboles de decisión son eficaces cuando es necesario

describir problemas con más de una dimensión o condición. También son útiles
para identificar los requerimientos de datos críticos que rodean al proceso de
decisión, es decir, los árboles indican los conjuntos de datos que la gerencia
requiere para formular decisiones o tomar acciones. El analista debe identificar y
elaborar una lista de todos los datos utilizados en el proceso de decisión,
aunque el árbol de decisión no muestra todo los datos.
Si los árboles de decisión se construyen después de completar el análisis de flujo

de datos, entonces es posible que los datos críticos se encuentren definidos en el
diccionario de datos (Tener en cuenta lo aprendido en el curso de Base de Datos
respecto a este aspecto), el cual describe los datos utilizados por el sistema y
donde se emplean. Si únicamente se usan árboles de decisiones, entonces el
analista debe tener la certeza de identificar con precisión cada dato necesario para
tomar la decisión.
Los árboles de decisión no siempre son la mejor herramienta para el análisis de

decisiones. El árbol de decisiones de un sistema complejo con muchas secuencias
de pasos y combinaciones de condiciones puede tener un tamaño considerable. El
gran número de ramas que pertenecen a varias trayectorias constituye más un
problema que una ayuda para el análisis. En estos casos los analistas corren el
riesgo de no determinar qué políticas o estrategias de la empresa son la guía para
63
la toma de decisiones específicas. Cuando aparecen estos problemas, entonces

es momento de considerar las tablas de decision.
Leccion 15. AlgoritmoC.45
Fuentes:
1. http://es.scribd.com/doc/57484779/Algoritmo-c45-Arboles-de-Decision
2. https://docs.google.com/a/unad.edu.co/viewer?a=v&q=cache:pr7QuqiJ4VgJ:su
bversion.assembla.com/svn/easy7550/material/apuntes/AlgoritmoC4.5%28200
5-II-
B%29.pdf+&hl=es&gl=co&pid=bl&srcid=ADGEESh_udX77m_hQeRfpIS7It_OD
oZ2LhuaxOEEijoBFgU-
m5gS5NWlf41aS0zbbrxKqRFn7NziFq6NMSzDOqDbUHeWpfYGw2yW1k7BWI
0cIyC9-
zf3OwWb2Zc3NFuXxajFfl1U9btp&sig=AHIEtbRQX530TyZ_qKL8fcQxYl-
ARFrbjA&pli=1
Algoritmo C4.5. : J.R. QUINLAN (1994): C4.5 para atributos continuos y discretos.
J.R. Quinlan propone una mejora, una extensión del algoritmo ID3, al que
denomina C4.5, estealgoritmo genera un árbol de decisión a partir de los datos
mediante participaciones realizadasrecursivamente. El árbol se construye
mediante la estrategia de profundidad primero (depth first).El algoritmo C4.5 utiliza
una técnica heurística conocida como proporción de ganancia (gainratio). Es una
medida basada en información que considera diferentes números y
diferentesprobabilidades de los resultados de las pruebas.El algoritmo considera
todas las pruebas posibles que pueden dividir el conjunto de datos y selecciona la
prueba que le haya generado la mayor ganancia de información. Para cada
atributodiscreto, se considera una prueba con n resultados, siendo n el número de
valores posibles quepuede tomar el atributo. Para cada atributo continuo, se
realiza una prueba binaria (1,0) sobrecada uno de los valores que toma el atributo
en los datos. En cada nodo, el sistema debe decidircual prueba escoge para dividir
los datos.Según Espino (2005) los tres tipos de pruebas posibles propuestas para
el C4.5 son:
64
- La prueba estándar para las variables discretas, con un resultado y una rama
para cada valor posible de la variable.
- Una prueba más compleja, basada en una variable discreta, en donde los valores
posiblesson asignados a un número variable de grupos con un resultado posible
para cada grupo, en lugar de para cada valor.
-Si una variable A tiene valores numéricos continuos, se realiza una prueba binaria
conresultados A<=Z y A>Z, para lo cual debe determinar el valor limite Z.Todas
estas pruebas se evalúan observando la ganancia resultante de la división de
datosqueproducen. Ha sido útil agregar una restricción adicional: para cualquier
división al menos dos delos subconjuntos C(i) debe contener un número razonable
de casos. Esta restricción, que evita lassubdivisiones casi triviales, es tenida en
cuenta solamente cuando el conjunto C es pequeño.
CARACTERÍSTICAS DEL ALGORITMO C4.5:

- Permite trabajar con valores continuos para los atributos, separando los
posiblesresultados en 2 ramas Ai<=N y Ai>N.
-Los arboles son menos frondosos, ya que cada hoja cubre una distribución de
clases nouna clase en particular.
-Utiliza el método ´divide y vencerás para generar el árbol de decisión inicial a

partir de un conjunto de datos de entrenamiento.
-Se basan en la utilización del criterio de proporción de ganancia (gain ratio),

definido como I(Xi,C)/H(Xi). De esta manera se consigue evitar que las variables
con mayor número de categorías salgan beneficiadas en la selección.
-Es recursivo.
ATRIBUTOS USADOS POR EL ALGORITMO C4.5.
Los atributos o variables poseen características propias que las diferencian una de
las otras, existen algoritmos que solo se desarrollan para atributos en particular,
en el caso del algoritmoC4.5, los atributos para los cuales se desarrollo dicho
algoritmo son los siguientes
65
Atributos de valores continuos: El algoritmo C4.5 no solo se desarrolla para

atributos de valoresdiscretos como en el caso del algoritmo ID3 también se
pueden incorporar atributos con valorescontinuos, se transforma estas variables o
atributos en variables categóricas; es decir, se dividenestos valores en intervalos
discretos, de forma que el atributo tendrá siempre valorescomprendidos en uno de
estos intervalos.
Medidas alternativas en la selección de atributos: El algoritmo ID3 utiliza la

ganancia deinformación, para la elección del atributo, sin embargo estos atributos
no son buenos predictoresde la función objetivo para nuevos ejemplos, ya que
dicha ganancia introduce un sesgo quefavorece a los atributos con muchos
valores distintos, debido a que dividen el conjunto deejemplos en muchos
subconjuntos, lo que hace que la ganancia de información seaalta.
Una medida alternativa que propuso Quinlan (1993) fue la gatin ratio (proporción
de ganancia)ganancia que usa el algoritmo C4.5 y que ha resultado un éxito.
Atributos con valores perdidos: En ciertos casos existen atributos de los cuales se
conoce su valor para algunos ejemplos, y para otros no. En estos casos lo más
común es estimar el valorbasándose en otros ejemplos de los que si se conoceel
valor. Normalmente se fija la atenciónen los demás ejemplos de ese mismo nodo.
Así, al ejemplo de valor desconocido se le da el valorque más aparezca en los
demás ejemplos.
Actividad de cierre Capitulo III
Usando las referencias del modulo y algunas de internet, de documentación y

análisis de corte académico, ejemplarizar un caso desde el punto de vista de:
1. El algoritmo de Quicksort.
2. El algoritmo C.45.
3. Redes Bayesianas
4. Arboles de decisión.
66
UNIDAD II PROCESO DE MINERIA DE DATOS.
2.1. CapituloIV: El Modelo de CRISP – DM.
Leccion 16. Generalidades
La metodología crips-dm es un modelo procesos jerárquico. El nivel superior, el

proceso se divide en seis fases genéricas distintas, que van desde la comprensión
del negocio hasta la implementación de los resultados del proyecto. El siguiente
nivel refina cada una de esas fases, que están compuestas de diversas tareas
genéricas. En este nivel, la descripción de lo suficientemente genérica como para
abarcar todos los escenarios de minería de datos.
El tercer nivel especializa dichas tareas para situaciones específicas. Por ejemplo,
la tarea genérica puede ser la limpieza de los datos, y la tarea especializada sería
la limpieza de valores numéricos o de valores de categorías. El cuarto nivel es la
instancia de proceso, es decir, un registro de acciones, decisiones y resultados de
una ejecución real de un proyecto de minería de datos.
El modelo también analiza las relaciones entre las diferentes tareas de minería de
datos. Proporciona una secuencia idealizada de acciones que debe tener lugar
durante un proyecto de minería de datos; sin embargo, no trata de dar todas las
posibles rutas que puede seguirse para llevar a cabo esas tareas. En la tabla 2. Se
muestran las diferentes fases del modelo.
67
Fase
comprensión del negocio
comprensión de los datos
Preparación de los datos
Modelado evaluación
Evaluación
Implantación
TABLA 2. FASES DE MODELO CRIPS-DM.
A continuación vamos a describir brevemente el objetivo de cada fase del modelo

CRISP-DM(Cross- Industry Standard Process for Data Mining) en las tareas
asociadas con cada una de ellas, aunque vale mencionar que existe también la
metodolgia SEMMA (Sample, Explore, Modify, Model, Assess) la cual no se
abordara ya que es orientada a los productos SAS los cuales son propietario.
Siendo estas dos las mas usadas en el proceso de MD.
Fuentes:
1. http://anibalgoicochea.com/2009/08/11/crisp-dm-una-metodologia-para-
proyectos-de-mineria-de-datos/
2. http://www.josebhuerta.com/datamining.htm
68
Leccion 17. Comprensión del Negocio.
Objetivos y requerimientos desde una perspectiva no técnica
Esta fase se centra en comprender los requisitos de objetivos del proyecto desde
la perspectiva del negocio, esta fase convierte el problema de negocio en una
definición del problema de minería de datos y prepara el plan preliminar para el
proyecto. Las principales tareas implicadas son: determinar los objetivos del
negocio, evaluar la situación, determinar el objetivo de la minería de datos y
generar un Plan de proyecto. En esta fase es muy importante ser explicitos en el
desarrollo de la Comprension del negocio pero a la vez ser muy acertados para
determinar las necesidades de información y todo lo referente al objeto de
negocio; aquí no hay limites ni menos criterios de actuación, todo lo determina y lo
aduce cada estudiante que hace el análisis, para ello se basa en diagramas
organizacionales, diagramas basados en UML, organigramas por objetivos y
funciones, etc, es decir todo aquello que puedan indicar e ilustrar el qué del
negocio. La documentación es muy importante para el buen desarrollo del modelo
CRISP- DM.
En esta etapa se deben documentar los procesos de:
- Establecimiento de los objetivos del negocio (Contexto inicial, objetivos,

criterios de éxito, etc)
- Evaluación de la situación (Inventario de recursos, requerimientos,

supuestos, terminologías propias del negocio,…)
- Establecimiento de los objetivos de la minería de datos (objetivos y criterios

de éxito, lo que se quiere lograr)
- Generación del plan del proyecto (plan, herramientas, equipo y técnicas)
69
Leccion 18. Comprensión de los datos.
Aquí se debe familiarizar con los datos teniendo presente los objetivos del
negocio, detallados en la etapa anterior, si e la etapa anterior no se fue suficiente
para poder documentar no se lograra aquí un buen resultado.
Esta fase incluye las tareas de recopilación inicial de los datos y preocupa de
establecer las principales características de estos. Dichas características incluyen
la estructura de datos, la calidad de los datos y la identificación de los posibles
conjuntos de interés de los datos. Las tareas incluidas en esta fase que se deben
documentar son:
- Recolección de los datos iníciales ( Ingenieria de requisitos)
- Descripción de los datos. Diagramas de flujo.
- Exploración de los datos. Coherencia de los datos, con su función y su

entorno
- Verificación de la calidad de los datos.Integridad de los datos respecto al

servicio que prestan y la la utilidad que brindan. Diccionario de datos.
- Integridad de los datos desde sus antecesores y para sus servidores. Vida
útil de la información y reusabilidad de datos.
Preparacion de los Datos (Obtener la vista minable o dataset).
Esta fase implica todas las actividades para construir el conjunto de datos final al
que puedan aplicar ese directamente las herramientas de modelado. Las tareas
que componen esta fase son:
- Selección de datos.
70
- Limpieza de los datos.
- Construcción de los datos.
- Iintegración de los datos.
- Formateo los datos.
Esta es una etapa crítica. En esta etapa se acondicionan los datos que luego van
a ―alimentar‖ el modelo o la herramienta de análisis. La salida de esta etapa es
uno o varios conjuntos de datos que serán utilizados por la etapa de modelado y
validación, para ello se recomienda realizar un informe donde describa los
conjuntos de datos generados en esta etapa. Las tareas que se deben ejecutar
son:
Decidir los datos a utilizar para el análisis. Los criterios deben incluir la relevancia
para el objetivo de minería de datos, calidad y restricciones, técnicas (volumen o
tipos dedatos).
La selección implica la selección tanto de los atributos como deregistros.
Las salidas de esta etapa son:
- La lista de datos, incluidos/excluidos y lasrazones de ello.
- La inclusión / exclusión de registros, (pacientes) es devital importancia en

protocolos en ciertos casos o que se aplique en areas como la medicina.
- La inclusión/exclusión de atributos, suele ser en símismo un problema de la

mineria de datos.
En la preparación de los Datos, se debe hacer una selección teniendo en cuenta:
• Cuantos datos son suficientes ?
– Test de Hipótesis ?
– Variable continuo o nominal ?
– Machine Lerning ?
71
• Entranamiento/Validación/Evaluación ?
Leccion 19. Modelado.
Esta fase es la operación de minería de datos propiamente dicha e implica

seleccionar las técnicas de modelado, seleccionar los parámetros de modelado y
evaluar el modelado creado. Las tareas de esta fase son:
 Seleccionar la técnica modelado
 Generar el diseño de prueba
 Construir al modelado
 Evaluar el modelo.
Es importante establecer una relación entre las variables explicativas y las

variables objeto del estudio, que posibiliten inferir el valor de las mismas con un
nivel de confianza determinado.
Las técnicas utilizadas para el modelado de los datos incluyen métodos

estadísticos tradicionales (tales como análisis discriminante, métodos de
agrupamiento, y análisis de regresión), así como técnicas basadas en datos tales
como redes neuronales, técnicas adaptativas, lógica fuzzy, árboles de decisión,
reglas de asociación y computación evolutiva.
Finalmente, la última fase del proceso consiste en la valoración de los resultados

mediante el análisis de bondad del modelo o modelos, contrastado con otros
métodos estadísticos o con nuevas poblaciones muestrales.
72
Leccion 20. Evaluacion e Implantación.
Esta fase válida el modelo desde el punto de vista del análisis de los datos. El
modeló y las etapas seguidas durante el modelado se verifican dentro contexto de
la consecución de los objetivos de negocio.
Las tareas incluidas en esta fase son:
 Evaluación de los resultados
 Revisión del proceso
 Determinación de los pasos siguientes repetitivos.
Implantación: el conocimiento obtenido y reflejado en el modelo tiene que

organizarse y presentarse de una forma que sea comprensible por parte de los
usuarios de la organización.
La fase de implementación puede ser tan simple como generar un informe o tan
compleja como implementar procesos repetidos de minería de datos por toda la
empresa. El usuario de la empresa es quien se encarga normalmente de ejecutar
la fase de implementación. Los pasos correspondientes son dos. Planificación de
la implementación y producción del informe final y revisión del mismo.
Actividad de cierre Capitulo IV
Usando la explicación del capitulo IV, buscar un ejemplo en el entorno y aplicarle

las etapas del modelo de CRIPS-DM, ayudándose de las herramientas necesarias
para crear un informe ejecutivo a la empresa en estudio.
73
74
2.2 Capitulo V. Herramientas de Minería de Datos
Las herramientas de la primera etapa ofrecen típicamente a los usuarios un

simple algoritmo de mineria de datos que opera sobre un conjunto de datos
almacenados de manera local.
Algunos ejemplos incluyen el uso de algoritmos de clasificación como el C4.5,

algoritmos de agrupamiento como el K-means y otros algoritmos basados en
reglas de asociación. Tales herramientas fueron presentadas como programas
independientes, obteniendo sus datos de entrada desde la linea de comandos o
vía a un archivo de con figuración.
Las herramientas de la segunda etapa combinan una colección de diferentes

algoritmos de minería de datos sobre un marco de trabajo común, y permiten a los
usuarios proveer datos de entrada de varias fuentes de datos. A continuación se
describen algunas de estas herramientas:
Leccion 21. WEKA
(Waikato Environment for Knowledge Analysis - Entorno para Análisis del

Conocimiento de la Universidad de Waikato), desarrollado por la Universidad de
Waikato en Nueva Zelanda.
Es un sistema escrito en Java y distribuido bajo los términos de la licencia pública

GNU. Contiene una colección del estado del arte de los algoritmos de aprendizaje
maquina y herramientas de reprocesamientode datos escritos en Java. Provee un
soporte extenso para el proceso completo de minería de datos, incluyendo la
75
preparación de los datos de entrada, la evaluación de los esquemas de

aprendizaje, la visualizaciónde los datos de entrada y de los resultados del
aprendizaje. Esta herramienta es accedida comúnmente a través de una interfaz
común para que sus usuarios puedan comparar diferentes métodos e idénticas
esos que sean más apropiados para el problema a tratar. Puede ser ejecutado
desde casi cualquier plataforma y ha sido probado sóbrelos sistemas operativos
Windows, Linux y Macintosh. En Weka, las herramientas de la segunda etapa
combinan una colección de diferentes algoritmos de mineria de datos sobre un
marco de trabajo común, y permiten a los usuarios proveer datos de entrada de
varias fuentes de datos.
Weka contiene una colección del estado del arte de los algoritmos de aprendizaje
maquina y herramientas de preprocesamientode datos escritos en Java. Provee
un soporte extenso para el proceso completo de mineria datos, incluyendo la
preparación de los datos de entrada, la evaluación de los esquemas
reaprendizaje, la visualización de los datos de entrada y de los resultados del
aprendizaje.
Esta herramienta es accedida comúnmente a través de una interfaz común (Figura

15) para que sus usuarios puedan comparar diferentes métodos e idéntica esos
que sean más apropiados para el problema a tratar. en Weka, todo el preproceso
de mineria de datos se realiza en una sola computadora, dado que los algoritmos
pueden ser ejecutados solo localmente, lo que demanda una gran cantidad de
memoria principal maxime cuando la base de entrenamiento (datos de entrada)
son grandes volúmenes de información.
El objetivo principal de Weka son los algoritmos de clasificación, los cuales

mapean un conjunto de instancias con base en un conjunto finito de clases. Cada
instancia de los datos es descrita por los valores de sus atributos. Por ejemplo,
predecir si va a llover basado en la observación de datos se realiza en una sola
computadora, dado que los algoritmos pueden ser ejecutado solo localmente.
76
FIGURA 15. EXPLORADOR DE WEKA.
Clasificación. La meta del proceso de obtención de un clasificador, es derivar un

clasificador de un conjunto etiquetado de datos (un conjunto de instancias de
datos que tienen asignada su clase correspondiente). La idea es que un
clasificador obtenido del conjunto de datos etiquetados pueda ser usado para
predecir las clases de instancias de datos futuras.
Leccion. 22. IlliMine.
Es otra herramienta de minería de datos la cual es un paquete libre, implementado

en C++ y desarrollada por el Departamento de Ciencias Computacionales de la
Universidadde Illinois en conjunto con el Data Mining Resecar Group y el DAIS
(Data And Información Sistemas) Resecar Laboratorio. Ilimine incluye algoritmos
de data cubing, asociación, mineria de patrones secuenciales, minería de
77
patrones gráficosy clasificación.
Leccion. 23 Rattle.
Usada para analizar colecciones de datos muy grandes. Rattle presenta

resumenes estadísticos y visuales de datos, transforma los datos en formas que
pueden ser fácilmente modeladas, construye modelos supervisados y no
supervisados a partir de los datos, presenta el rendimiento de los modelos
graficamente y da una puntuación a los conjuntos de datos nuevos.
A través de una interfaz de usuario simple y lógica basada en Gnome puede ser
usado para realizar proyectos de minería de datos. Es posible también realizar
proyectos de minería de datos más especializados haciendo uso del lenguaje
estadístico de licencia libre.
Rattle puede ser ejecutado sobre plataformas GNU/Linux, Macintosh OS/X y

Windows. Su objetivo es proveer una interfaz intuitiva que lleve al usuario a través
de los pasos básicos de la minería de datos, al igual que ilustrar el código R usado
para lograr esto. También provee un punto de apoyo para el procesamiento y
modelado más sofisticado en lenguaje R puro, así como para minería de datos
avanzada y sin restricciones.
Leccion 24. Rapid Miner
Rapid Miner (más formalmente conocido como YALE) es una de las principales
herramientas para prototipo y minería de datos a nivel mundial de licencia pública.
Desarrollado puramente en Java, contiene una API para su fácil uso desde
programas de terceros. Ofrece una amplia variedad de diferentes algoritmos y
métodos los cuales pueden ser combinados de manera accesible y anidada
78
arbitrariamente. Yale abstrae sus métodos bajo el concepto de operadores

contando con más de 400, y ofrece un enfoque de combinación de operadores
como un grafo dirigido para representar el proceso de descubrimiento de
conocimiento (Knowledge Discover).
En este enfoque cada vértice del árbol corresponde a un operador sencillo,

permitiendo a los usuarios la fácil incorporación de ciclos dentro de sus
experimentos. Los ciclos son esenciales para muchas tareas como optimización
de parámetros, selección de características o la aplicación de métodos de
aprendizaje iterativos. Yale provee un sistema interno de administración de datos,
permitiendo vistas arbitrarias de los datos sin la necesidad de duplicarlos. Esto es
esencial para construcciones a gran escala o para la simulación de minería de
datos distribuida. Esta administración de los datos también hace posible manejar
los datos tan transparente como sea posible ante los usuarios y desarrolladores.
Finalmente YALE es fácil de extender dado que muchos plugins que enriquecen
su funcionalidad base ya existen. Estos plugins actualmente cubren texto, audio,
series de tiempo, procesamiento multimedia, simulación de lujo de datos,
agrupamiento y minerıa de datos distribuida.
Leccion. 25. Knime.
Knime es una plataforma modular de datos que permite al usuario crear

visualmente dibujos de los datos. Permite ejecutar selectivamente algunas o todas
los pasos del análisis para posteriormente consultar los resultados a través de
vistas interactivas sobre datos y modelos. La versión base de Knime incorpora ya
más de 100 nodos de procesamiento para entrada/salida de datos, procesamiento
y limpieza, modelado, análisis y minería de datos entre otras cosas.
Incluye todos los modulos de análisis de WEKA y los plugings adicionales que
79
premiten de sripts de código R para que sean ejecutados ofreciendo un gran

acceso a bibliotecas de rutinas estadísticas. Está basado en la plataforma Eclipse
y brinda una fácil extensibilidad con ayuda de su API modular.Subsecuentemente,
aparecieron las herramientas de la tercera etapa, que se enfocan en resolver las
limitantes para trabajar sobre un modelo cerrado, esto es localmente, como lo
hacen las herramientas de la segunda generación. Algunos ejemplos de
herramientas de la tercera generación son los siguientes:
Actividad de Cierre Capitulo V.
Realizar un paralelo de al menos 5 herramientas para el proceso de Mineria de

Datos haciendo énfasis en las ventajas y desventajas de cada una de las que se
mencionen.
2.3. Capitulo VI Ambientes de Trabajo en Grid
Leccion 26. Grid WEKA
Grid Weka es una herramienta desarrollada en la Universidad de Dublın que

módifica Weka para permitir el uso de múltiples recursos computacionales
mientras se ejecuta el análisis de datos. En este sistema, un conjunto de tareas de
minerıa de datos pueden ser distribuidas a través de muchas computadoras en un
ambiente ad-hoc o cerrado.
Las tareas que pueden ser ejecutadas usando Grid Weka incluyen: construir un
clasificador en una máquina remota, clásifica un conjunto de datos empleando un
clasificador previamente construido, probar un clasificador con un conjunto de
datos o empleando validación cruzada, etc. Está constituido de dos componentes
80
principales: Weka Server y Weka Cliente. El servidor está basado en el Weka

original.
FIGURA 16. GRID WEKA, ESCENARIO DE USOS.
Cada máquina que participa en un Weka Grid es controlada desde el servidor. El

cliente Weka es el responsable de aceptar una tarea de aprendizaje y los datos de
entrada de los usuarios para distribuir el trabajo sobre el Grid. A la vez, el cliente
implementa la funcionalidad necesaria para el balanceo de carga y el monitoreo de
fallas. El servidor traduce las peticiones del cliente en llamadas a las funciones
Weka correspondientes. También ofrece funcionalidades adicionales como la
recuperación de fuentes de datos del servidor de almacenamiento local después
de una falla. La figura 16 ilustra un escenario de usos.
Aún cuando el Grid Weka provee una manera de usar múltiples recursos para
ejecutar tareas de minería de datos de manera distribuida, éste fue diseñado para
trabajar dentro de un ambiente ad-hoc, el cual no constituye un Grid por sí mismo.
De manera particular, la invocación de los recursos remotos en Grid Weka no está

orientada a servicios y hace uso de soluciones específicas que no toman en
consideración los aspectos fundamentales del Grid, como la interoperabilidad,
81
seguridad, etc.
Los creadores proponen una arquitectura para construir un sistema colaborativo y

distribuido de descubrimiento de conocimiento dentro de un ambiente de cómputo
basado en el Grid.
Este es un enfoque genérico originado de la necesidad de procesos de

descubrimiento de conocimiento en la industria bio-informática, donde los
procesos complicados de análisis de datos son construidos usando un enfoque en
pipeline. A su vez ellos proponen la implementación de su arquitectura.
Leccion 27. Discovery Net
Discovery Net es una herramienta que provee un modelo de cómputo orientado a

servicios, permitiendo a los usuarios conectarse y hacer uso del software de
análisis de datos al igual que las fuentes de datos que son hechas para estar
disponibles en línea a los clientes.
FIGURA 17. COMPONENTES DE DISCOVERY NET.
Está basado en una visión amplia que se enfoca en soportar el proceso completo,
desde la captura hasta la visualización. Sin embargo, Discovery Net no está
82
pensado como una herramienta de uso directo, sino que necesita del trabajo
conjunto de desarrolladores y clientes para dirigir el proceso del descubrimiento
del conocimiento. La Figura 17. Muestra los componentes de la arquitectura.
De igual manera presenta una arquitectura de software basada en servicio para

minería de datos distribuida y de alto rendimiento en ambientes Grid y su
implementación llamada Criminar. En este trabajo presentan dos modelos de
ejecución para el servicio de minería de datos. El primero es una adaptación al
Grid de la herramienta Weka al que llamaron Minería de datos centralizada y el
segundo es una versión distribuida del mismo que hace uso.
83
Leccion 28. Componentes de un Modelo GridMiner
FIGURA 18. COMPONENTES DE GRIDMINER.
Cada vez hay más herramientas comerciales de minería de datos en el mercado,

las características más importantes de las herramientas de minería de datos son la
preparación de los datos, la selección de las operaciones de minería de datos
(algoritmos), la escalabilidad, las presentaciones del producto y las
funcionalidades disponibles para comprender los resultados.
Preparación de los datos: la preparación de los datos es el aspecto de la minería

de datos que más tiempo requiere. Toda acción que una herramienta pueda
proporcionar para facilitar el proceso permitirá acelerar en gran medida el
desarrollo del modelo entre las opciones que una herramienta pueda proporcionar
para dar soporte a la preparación de los datos, a lo cual se puede mencionar:
 Limpieza de los datos como. por ejemplo solucionar el problema de la falta

de determinados datos
 Destrucción de los datos, por ejemplo la distribución de los valores
 Transformación de los datos, realizar cálculos partiendo de columnas

existentes.
84
 Muestreo de los datos, para la creación de conjuntos de datos para el

proceso entrenamiento y validación.
Selección de las operaciones de minería de datos (algoritmo): Es importante

comprender las características de las operaciones (algoritmos) utilizados por una
herramienta en minería de datos, con el fin de asegurarse de que cumplan los
requisitos del usuario o lo que se persigue para predecir. En particular, es
importante establecer cómo tratar los distintos algoritmos los tipos de datos de las
variables de respuesta y variables productoras, la rapidez con la que llevan a cabo
la fase de entrenamiento y la velocidad con la que operan sobre los nuevos datos
(una variable productora es la columna de una base de datos que se puede utilizar
para construir un modelo productor, con el fin de predecir los valores de otra
columna).
Otra característica importante de un algoritmo es su sensibilidad al ruido (el ruido y

es la diferencia entre un modelo y sus predicciones. En ocasiones, decimos que
los datos son ruidos cuando contienen errores tales como muchos valores
incorrectos e inexistentes, o cuando hay columnas irrelevantes). Es importante
establecer la sensibilidad a la falta de datos de un algoritmo dado y verlo robusto
que son los patrones que dicho algoritmo descubre en presencia de datos
irrelevantes o incorrectos.
Estabilidad y presentaciones del producto: la estabilidad y las prestaciones

son consideraciones de gran importancia a la hora de seleccionar una herramienta
que sea capaz de tratar cantidades de datos crecientes, (en términos el número de
filas ni el número de columnas), posiblemente con sofisticados controles de
validación. La necesidad de proporcionar estabilidad al mismo tiempo que se
mantienen unas prestaciones satisfactorias, requiere investigar las herramientas
capaces de soportar el procesamiento paralelo utilizando tecnologías tales como
SMP o MPP.
85
Funcionalidades para comprender los resultados: una buena herramienta de

minería de datos debería ayudar al usuario a comprender resultados,
proporcionando medidas que describan la precisión y lo significativo de los datos,
en un formatos útil es (por ejemplo, matrices de confusión, que será el usado en
los ejemplos de la practica del modulo) y permitiendo al usuario realizar análisis de
sensibilidad sobre el resultado; también debe presentarse los resultados en formas
alternativas (utilizando, por ejemplo, técnicas de visualización).
Una matriz de confusión muestra el número real de valores de una clase,

comparándolo con el número predicho. No sólo ilustra la capacidad predictiva del
modelo, sino que también presentan los detalles necesarios para ver exactamente
donde pueden estar fallando las cosas.
El análisis de sensibilidad determina la diferencia de un modelo predictivo con

respecto a los resultados del producto. Mediante esta técnica, los usuarios finales
pueden evaluar los efectos que las variables ruido hicieron respecto a los cambios
sobre la precisión del modelo.
Las técnicas de visualización permiten mostrar los datos gráficamente para facilitar
una mejor comprensión de su significado. Las capacidades gráficas de las
herramientas van desde la elaboración de simples gráficas de dispersión hasta
representaciones multidimensionales complejas.
Lección 29. Mineria de Datos y Almacenes de Datos en ODM.
Uno de los desafíos para las organizaciones que pretendan aprovechar las
técnicas de minería de datos es identificar los datos más adecuados para
aplicarles estas técnicas. La minería de datos requiere una fuente de datos
unificada, independiente, limpia, integrada y auto-coherente. Un almacén de datos
está bien preparado para proporcionar los datos que la minería de datos requiere,
por las siguientes razones:
86
 La calidad y la coherencia de los datos son prerrequisitos para la minería

de datos con el fin de garantizar la precisión de los modelos predictivos, los
almacenes de datos albergan datos limpios y coherentes.
 Resulta conveniente aplicar la minería de datos a datos procedentes de

múltiples fuentes, con el fin de descubrir el máximo número posible de
interrelaciones. Los almacenes de datos contienen datos procedentes de
diversas fuentes.
 La selección de los subconjuntos de registros y campos relevantes para la

minería de datos requiere disponer de las capacidades de consulta de un
almacén de datos.
 Los resultados de un estudio de minería de datos son útiles si existe alguna

manera de continuar investigando los patrones no descubiertos. Los
almacenes de datos proporcionan la capacidad de acudir de nuevo al
origen de los datos.
Dada la naturaleza complementaria de las técnicas de minería de datos y de los

almacenes de datos, muchos fabricantes están investigando formas de integrar
ambos tipos de tecnologías.
Lección 30. Oracle DataMinig (ODM)
En los grandes entornos de almacenes de datos pueden realizarse muchos tipos

diferentes de análisis, además de consultas SQL, también se pueden aplicar
operaciones analíticas más avanzadas a los datos. Los dos tipos principales de
análisis son el procedimiento analítico en la línea (OLAP, Online Analytical
Procesing) y la minería de datos. En lugar disponer de los motores independiente
para OLAP y para minería de datos, oracle ha integrado las capacidades OLAP y
la minería de datos directamente en el servidor de bases de datos.
87
Oracle OLAP y oracle data mining (ODM) son opciones para las bases de datos
montadas en oracle9i
Capacidad de la Mineria de Datos.
Oracle permite realizar la minería de datos dentro las bases de datos, por razones
de presentaciones y estabilidad. Algunas de las capacidades de sus productos
son:
 Una API que permite el control programático y la integración con las

aplicaciones.
 Capacidades analíticas que incluye mecanismos OLAP y funciones

estadísticas en las bases de datos.
 Múltiples algoritmos: Teoria de bayes simple, arboles de decisión,

agrupamientos y reglas de asociación.
 Modos de puntuación en tiempo real y por lotes.
 Múltiples tipos de predicciones.
 Detalles de asociaciones.
Actividad de Cierre Capitulo VI.
Hacer un estado del arte de las herramientas que actualmente se usan y una
verificación de que empresas han aplicado herramientas de Mineria de Datos y
cual de ellas ha servido para el apoyo a la toma de decisiones.
88
UNIDAD III. Contexto de la Mienría de Datos
Capitulo VII. Causas de aplicación de la Minería de Datos.
1. Crecimiento del volumen de datos:
2. Problemas en la exposición de información
3. Surgimiento e implementación del concepto de data warehouse, data mart,

(CIF) corporate information factory.
FIGURA 19. CONTEXTO DE BASES DE DATOS FRENTE A DATA MINING.
89
Aplicaciones Actuales
1. Minería de datos aplicado al audio, por ejemplo: Detector de mentiras,

patrones secuenciales aplicados a seguridad, etc.
2. Minería de datos aplicado a la calidad de datos (Laboratorios de precision,
estadística cuántica, física estadística, etc.
3. Minería de datos como parte del proceso ETL (Extraction, Trasnformation &
Load in Data Warehousing)
4. Minería de datos aplicado a la exploración de cuencas petroleras, (Apoyo a
los podelos topográficos, etc
5. Minería de datos aplicado al tráfico de comunicaciones (Detección de
fraudes, modelos de comunicación, etc )
6. Web mining (Entorno semiestructurado)
7. Web Usage Mining: Análisis de log de servidores para análisis del patrón de
recorrido y consumo del cibernauta (Ej.: Amazon, ebay, mercadolibre, etc)
8. Web Content Mining: Hace hincapié en el contenido de los documentos
9. Web Estructure Mining: se enfoca la web como grafo dirigido (Page Rank,
Comunidades, etc.) también se conoce como web structure mining
exploring the graph structure of the world-wide web, area de mucho auge y
en la cual se puede realizar grandes avances orientados a la nube.
Fuente: http://www.interacciones.com.ar/web-mining-en-el-diseno-de-sitios-web/
Leccion 31. WEB Mining y Text Mining
Una de las extensiones del data mining consiste en aplicar sus técnicas a
documentos y servicios del Web, lo que se llama web mining (minería de web)
(Koala y otros, 2000). Todos los que visitan un sitio en Internet dejan huellas
digitales (direcciones de IP, navegador, cokies, etc.) que los servidores
90
automáticamente almacenan en una bitácora de accesos (log). Las herramientas

de web mining analizan y procesan estos logs para producir información
significativa, por ejemplo, cómo es la navegación de un cliente antes de hacer una
compra en línea. Debido a que los contenidos de Internet consisten en varios tipos
de datos, como texto, imagen, vídeo, metadatos o hipervinculos, investigaciones
recientes usan el término multimedia data mining (minería de datos multimedia)
como una instancia del web mining (Zaiane y otros, 1998) para tratar ese tipo de
datos. Los accesos totales por dominio, horarios de accesos más frecuentes y
visitas por día, entre otros datos, son registrados por herramientas estadísticas
que complementan todo el proceso de análisis del web mining.
Normalmente, el web mining puede clasificarse en tres dominios de extracción de

conocimiento de acuerdo con la naturaleza de los datos:
• Web content mining (minería de contenido web). Es el proceso que consiste en

la extracción de conocimiento del contenido de documentos o sus descripciones.
La localización de patrones en el texto de los documentos, el descubrimiento del

recurso basado en conceptos de indexación o la tecnología basada en agentes
también pueden formar parte de esta categoría.
• Web structure mining (minería de estructura web). Es el proceso de inferir

conocimiento de la organización del WWW y la estructura de sus ligas.
• Web usage mining (minería de uso web). Es el proceso de extracción de

modelos interesantes usando los de los accesos al web.
Algunos de los resultados que pueden obtenerse tras la aplicación de los

diferentes métodos de web mining son:
91
• El ochenta y cinco por ciento de los clientes que acceden a la página home de
productos y a la de noticias de la misma página acceden también a la página del
historial. Esto podría indicar que existe alguna noticia interesante de la empresa
que hace que los clientes se dirijan al historial de sucesos. Igualmente, este
resultado permitiría detectar la noticia sobresaliente y colocarla quizá en la página
principal de la empresa.
• El sesenta por ciento de los clientes que hicieron una compra en línea en la
página del producto 1 también compraron en la página del producto 4 después de
un mes. Esto indica que se podría recomendar en la página del producto 1
comprar el producto 4 y ahorrarse el costo de envío de este producto.
Los anteriores ejemplos ayudan a formar una pequeña idea de lo que se puede
obtener, sin embargo, en la realidad existen herramientas de mercado muy
poderosas con métodos variados y visualizaciones gráficas excelentes.
Text mining
Estudios recientes indican que el ochenta por ciento de la información de una

compañía está almacenada en forma de documentos. Sin duda, este campo de
estudio es muy grande, por lo que técnicas como la categorización de texto, el
procesamiento de lenguaje natural, la extracción y recuperación de la informacióno
el aprendizaje automático, entre otras, apoyan al text mining (minería de texto).
En ocasiones se confunde el text mining con la recuperación de la información

(Information Retrieval o IR) (Hearst, 1999). Ésta última consiste en la recuperación
automática de documentos relevantes mediante indexaciones de textos,
clasificación, categorización, etc. Generalmente se utilizan palabras clave para
encontrar una página relevante, en cambio, el text mining se refiere a examinar
92
una colección de documentos y descubrir información no contenida en ningún

documento individual de la colección; en otras palabras, trata de obtener
información sin haber partido de algo (Nasukawa y otros, 2001).
Una aplicación muy popular del text mining es relatada en Hearst (1999).
Don Swanson intenta extraer información derivada de colecciones de

texto.Teniendo en cuenta que los expertos sólo pueden leer una pequeña parte de
lo que se publica en su campo, por lo general no se dan cuenta de los nuevos
desarrollos que se suceden en otros campos. Así, Swanson ha demostrado cómo
cadenas de implicaciones causales dentro de la literatura médica pueden conducir
a hipótesis para enfermedades poco frecuentes, algunas de las cuales han
recibido pruebas de soporte experimental, investigando las causas de la migraña,
dicho investigador extrajo varias piezas de evidencia a partir de títulos de artículos
presentes en la literatura biomédica. Algunas de esas claves fueron:
• El estrés está asociado con la migraña.

• El estrés puede conducir a la pérdida de magnesio.
• Los bloqueadores de canales de calcio previenen algunas migrañas.
• El magnesio es un bloqueador natural del canal de calcio.
• La depresión cortical diseminada (DCD) está implicada en algunas migrañas.
• Los niveles altos de magnesio inhiben la DCD.
• Los pacientes con migraña tienen una alta agregación plaquetaría.
• El magnesio puede suprimir la agregación plaquetaría.
Estas claves sugieren que la deficiencia de magnesio podría representar un papel

en algunos tipos de migraña, una hipótesis que no existía en la literatura y que
Swanson encontró mediante esas reglas. De acuerdo con Swanson (Swanson y
otros, 1994), estudios posteriores han probado experimentalmente esta hipótesis
obtenida por text mining con buenos resultados.
93
Una arquitectura para Data Mining
Para aplicar mejor estas técnicas avanzadas, éstas deben estar totalmente
integradas con el data warehouse así como con herramientas flexibles e
interactivas para el análisis de negocios. Varias herramientas de Data Mining
actualmente operan fuera del warehouse, requiriendo pasos para extraer, importar
y analizar los datos. Además, cuando nuevos conceptos requieren implementación
operacional, la integración con el warehouse simplifica la aplicación de los
resultados desde Data Mining. El Data warehouse analítico resultante puede ser
aplicado para mejorar procesos de negocios en toda la organización, en áreas
tales como manejo de campañas promocionales, detección de fraudes,
lanzamiento de nuevos productos, etc.
El punto de inicio ideal es un data warehouse que contenga una combinación de

datos de seguimiento interno de todos los clientes junto con datos externos de
mercado acerca de la actividad de los competidores. Información histórica sobre
potenciales clientes también provee una excelente base para una prospectiva.
Este warehouse puede ser implementado en una variedad de sistemas de bases
relacionales y debe ser optimizado para un acceso a los datos flexible y rápido.
Recopilación y Almacenes de datos
La proliferación de sistemas de información susténtados en bases de datos ha

generalizado el uso de herramientas que permiten obtener resúmenes e incluso
el uso de herramientas que permiten obtener informes complejos, resúmenes e
incluso estadísticas globales sobre la información almacenada con el objetivo de
asistir en la toma de decisiones. La mayoría de sistemas comerciales de
gestión de bases de datos incluyen herramientas de ―informes avanzados ―,
―inteligencia de negocio‖ sistemas de información ejecutivos (EIS, Executive
información Sistemas) y otras, que pese su nombres variados intentan realizar un
94
procedimiento analítico de la información , más que el procesamiento

transaccional habitual realizado por las aplicaciones del día
Leccion 32.OLTP Y OLAP
Con las siglas OLPT Y OLAP se denominan dos tipos de procesamiento muy
diferentes:
 OLTP (ON-Line Tarnsational Processing) El procesamiento de

transacción en tiempo real constituye el trabajo primario en un sistema
de información Este trabajo consiste en realizar transacciones, es decir
actualizaciones y consultas a la base de datos con un objetivo
operacional: Hacer funcional las aplicaciones de la organización,
proporcionar información sobre el estado del sistema de información que
permita actualizarlo conforme va variando la realidad del contexto de la
organización
Ejemplo el caso de una empresa, la inserción de un nuevo cliente, el cambio

de sueldo de un empleado, el tramite de un pedido, el almacenamiento de una
venta, la impresión de una factura, la baja un producto, etc. Es el trabajo diario
y para el que inicialmente se ha diseñado las bases de datos.
 OLAP (On-Line analytical processing) El procesamiento analítico en tiempo

real engloba un conjunto de operaciones , exclusivamente de consulta, en
las que se requieren agregar y cruzar gran cantidad de información .El
objetivo de estas consultas es realizar informes y resúmenes, generalmente
para el apoyo en la toma de decisiones. Ejemplos de este tipo de trabajo
analítico puede ser resúmenes de ventas mensuales, los consumos
electrónicos por días, la espera media de los pacientes en cirugía digestiva
de un hospital, el producto cuyas ventas han incrementado en el último
trimestre, las llamadas por horas, etc. Este tipo de consultas suelen
95
emanarse de los departamentos de direcciones, logísticas o prospectiva y

requieren muchos recursos.
Una de las características de ambos procesamientos es que se pretende que

sean ―on-line‖ es decir, que sean relativamente ―instantáneos‖ y se puedan realizar
en cualquier momento (en tiempo real).
Leccion 33. Bases de datos de transacion
Un Almacén de datos es un conjunto de datos históricos, internos o externos, y

descriptivos de un contexto o área de estudio, que están integrados y organizados
de tal forma que permite aplicar eficientemente herramientas para resumir,
describir y analizar los datos con el fin de ayudar en la toma de decisiones
estratégicas.
La ventaja fundamental de un almacén de datos es su diseño específico y

superación de la base de datos transaccional.Un almacén de datos:
 Facilita el análisis de los datos en tiempo real (OLAP).
 No difiere el OLTP de las bases de datos originales.
A partir de ahora, por tanto, diferenciaremos claramente entre bases de datos

transaccionales (u operacionales) y almacenes de datos. Dicha diferencia,
además, se ha ido marcando más profundamente a medida que las tecnologías
propias de ambas bases de datos (y en especial la de almacenes de datos) se han
ido especializando. De hecho, hoy en día las diferencias son claras.
Como lo muestra en la Tabla 3. Las diferencias mostradas en la tabla, distinguen

claramente la manera de estructurar y diseñar almacenes de datos respecto a la
forma tradicional de hacerlo con bases de datos transaccionales.
96
BASES DE DATOS ALMACEN DE DATOS

TRANSCCIONALES
Propósito Operaciones diarias, Recuperación de

Soporte a las información, informes,
aplicaciones. análisis y minería de
datos.
Tipo de datos Datos de funcionamiento Datos útiles para el

de la organización análisis, la solarización
etc.
Características de los Datos de funcionamiento, Datos históricos, dato

datos cambiantes, internos, internos y externos, datos
incompletos. descriptivos .
Modelo de datos Datos normalizados Datos en estrella, en

copo de nieve,
parcialmente
desnormalizados y
multidireccionales
Número y tipo de Ciento/miles: aplicación, Decenas: directores,

usuarios operaciones, ejecutivos, analistas
administrador de base de (granjeros, mineros )
datos
Acceso SQL, lectura y escritura SQL y herramientas

propias (slice& dice, dril,
roll, pivot…..)lectura
97
Tabla 3 Diferencia entre bases de datos transaccional y almacenes de datos
Aunque ambas fuentes de datos (transaccional y almacén de datos) están

separadas, es importante destacar que gran parte de los datos que se incorporan
en un almacén de datos proviene de las bases de datos transaccional
Esto supone desarrollar una tecnología de volcado y mantenimiento de datos

desde la base de datos transaccional a almacén de datos.
Además el almacén de datos debe integrar datos externos, con lo que en realidad
debe estar actualizándose frecuentemente de diferentes fuentes. El almacén de
datos pasa hacer un integrador o recopilador de información de diferentes fuentes,
como se observa en la figura 20.
FIGURA 20 ALMACÉN DE DATOS COMO INTEGRACIÓN DE DIFERENTES

FUENTES DE DATOS.
La organización y el almacenamiento de esta información plantean cuestiones

técnicas, fundamentalmente sobre como diseñar el almacén de datos, como
cargarlo inicialmente, como mantenerlo y preservar su consistencia. No obstante,
98
son muchas más las ventajas de esta separación que sus inconvenientes; esta
separación facilita la incorporación de fuentes externa, que en tal caso, sería muy
difícil de encajar en las bases de datos.
Leccion 34. Arquitectura de los Almacenes de Datos
Un almacén de datos recoge, fundamentalmentedatos históricos, es decir, hechos

sobre el contexto en el que se desenvuelve la organización. Los hechos son, por
tanto el aspecto central de los almacenes de datos. Estas características
determinan en gran medida la manera de organizar los almacenes de datos.
Modelo Multidimensional
El modelado conceptual de los datos más extendido para los almacenes de datos
es el modelo multidimensional. Los datos se organizan en torno a los hechos, que
tienen unos atributos o medidas que pueden verse en mayor o menor detalle
según ciertas dimensiones por ejemplo, una gran cadena de supermercados
puede tener como hechos básicos las ventas. Cada venta tiene una información
importante: impuesto, cantidad, número delcliente, etc.y se puede ser más
detallada según los datos que se quieran agregar o se necesiten capturar para
estudiarlos
DATAMARTS
En algunos casos puede parecer intuitivo organizar la información en dimensiones;

el caso de las ventas es el ejemplo más ilustrativo. En general cierta información
99
es más fácilmente representantiva de esta forma, pero siempre se puede llegar a

una estructura de este tipo. Lo que no es posible, en general, es la representación
de todo el almacén de datos como un solo diagrama, ni siquiera jerárquico. Por
ejemplo, la información del personal de una empresa (empleados, departamento,
proyecto. etc.) es difícilmente integrable en el mismo modelo, las ventas incluso en
ámbitos más relacionales de una organización (por ejemplo ventas y producción)
esto tampoco es posible.
La idea general es que para cada proceso de la organización se va a construir una

estructura en estrella, por tanto el almacén de datos estará formado por muchas
estrellas (jerárquicas o no) formando una ―constelación―, por ejemplo aparte de
la estrella jerárquica para el proceso ventas, podríamos tener otra estrella para el
proceso personal. En este caso, los hechos podrían ser que un empleado ha
dedicado ciertos recursos en un proyecto durante un periodo determinado en un
departamento específico. Los hechos podrían llamarse ―participaciones―, las
medidas o atributos podrían ser ―horas de partición‖, ―número de particiones‖,
‖presupuesto‖, ―nivel de éxito del proyecto‖, etc. Las dimensiones podrían ser
tiempo (para representar el periodo en el que ha estado involucrado),
‖departamento‖ datamart (mercado de datos), lógicamente, cada datamart tendrá
unas medidas y unas dimensiones en tiempo, ya que el almacén de datos
representa información histórica y, por tanto, siempre es de interés ser capaz de
agregar por intervalos de diferente detalle .
Leccion 35. Explotación de un Almacen de Datos.
Para completar el modelo multidimensional se debedefiniruna serie de

operadores, sobre la estructura de operadores importantes asociados son:
 Drill: se trata de disgregar los datos (mayor nivel de detalle o desglose,

menos solarización) siguiendo los caminos de una o más dimensiones.
100
 Roll: se trata de agregar los datos (menor nivel de detalle o desglose,mas

sumisión o Consolidación) siguiendo los caminos de una o más
dimensiones.
 Slice –Dice: se selecciona y se proyectanlos datos.
 Pívot: se orienta las dimensiones
Fuente: http://es.scribd.com/doc/48897874/16/drill-down-y-roll-up
Drill Down y Roll Up
Una jerarquía es un conjunto de miembros de una dimensión, los cuales se

definen por su posición relativa con respecto a los otros miembros de la misma
dimensión, y forman en su totalidad una estructura de árbol. Partiendo de la raíz
del árbol, los miembros son progresivamente más detallados hasta llegar a las
hojas, donde se obtiene el mayor nivel de detalle. Por ejemplo, para la dimensión
de Organización Telefónica se puede establecer Área como raíz, luego, dentro de
cada Área existen muchos Internos, los que constituyen las hojas. Puede darse el
caso en que una dimensión no necesite jerarquizarse debido a que ninguno de sus
miembros posee una posición relativa con respecto a los otros miembros. Por
ejemplo, una dimensión Cliente que tiene como miembros nombre, sexo y fecha
de nacimiento, no necesita organizar estos miembros porque todos están al mismo
nivel de detalle, a menos que desee agruparlos por alguno de ellos para visualizar
los datos.
101
Existen principalmente dos esquemas para el modelo dimensional: el esquema

estrella (star), y el esquema copo de nieve (snowflake).
En el esquema estrella, cada modelo dimensional está compuesto de una tabla

central con una clave primaria compuesta, denominada tabla de hechos, y un
conjunto de tablas periféricas denominadas tablas de dimensiones.
.Cada una de las tablas de dimensiones tiene una clave primaria que corresponde
exactamente con uno de los componentes de la clave compuesta de la tabla de
hechos. Las tablas de hechos, además de sus campos clave, contienen una o más
medidas, indicadores o ―hechos‖. Las medidas más útiles en una tabla de hechos
son numéricas y aditivas
. La aditividad es crucial porque las aplicaciones Data Warehouse casi nunca

recuperan un solo registro de la tabla de hechos, sino que acceden a cientos,
miles o incluso millones de registros a la vez. Las tablas de dimensiones, por el
contrario, contienen información textual descriptiva.
Los atributos de las dimensiones se emplean como fuente de las restricciones en

las consultas al Data Warehouse. En el modelo estrella las dimensiones no se
normalizan. Con ello se logra minimizar el número de uniones y, por consiguiente,
102
incrementar el rendimiento de las consultas (una tabla de hechos está relacionada

con numerosas tablas de dimensiones).
103
Una variante del modelo en estrella es el modelo copo de nieve osnowflake.
En este modelado se normalizan las dimensiones reflejando las jerarquías en las

mismas y conservando lo esencial del modelo en estrella: las tablas de hechos. La
ventaja del modelo copo de nieve es eliminar la redundancia de datos y por lo
tanto ocupar menos espacio en disco. (En caso que se quiera hacer una
104
profundización del tema se recomienda hacerlo en línea en la fuente donde fue

tomado: http://es.scribd.com/doc/48897874/16/Drill-Down-y-Roll-Up)
En realidad un modelo de datos se compone de unas estructuras y unos

operadores sobre dichas estructuras. Se revisó el modelo multidimensional el cual
se basa en una en un conjunto de datamarts, que generalmente, son estructuras
de datos en estrella jerárquica.
Fuente: http://es.scribd.com/doc/48897874/16/Drill-Down-y-Roll-Up
La forma de representar la organización de los datos en un modelo dimensional es

a través de un cubo (el cual no necesariamente debe tener tres dimensiones). Por
ejemplo, se puede pensar en un cubo que posea como medida la duración de las
llamadas y como dimensiones Tiempo, Tipo de Llamada y Organización
Telefónica. La representación de este modelo se muestra en el cubo:
105
Cada porción del cubo es la medida a la que se hace referencia, y expresa la

duración de las llamadas de un tipo determinado efectuadas en un Área en un
mes. Las dimensiones están representadas por los ejes. Una consulta para el
cubo podría ser la duración de las llamadas salientes del mes de enero de 2004
discriminadas por Área. Los miembros de una dimensión pueden estar
organizados en una o más jerarquías
Una de las características del acceso a la información es la posibilidad de

representarla a diferentes niveles de agregación. Esto se logra mediante las
características conocidas como DrillDown y Roll Up. Estas son técnicas para
navegar a través de distintos niveles de detalle de una jerarquía de datos, desde
los de mayor nivel de agregación (también llamados datos sumarizados) hasta los
más detallados. Drill Down explora los hechos hacia los niveles más detallados de
106
la jerarquía de dimensiones, mientras que Roll Up explora los hechos

iterativamente hacia el nivel más alto de agregación.
En la siguiente figura se puede observar los datos que surgen a partir de aplicar
Drill Down sobre elmiembro Comercialización de la dimensión Organización
Telefónica del cubo de la Figura anterior teniendo la información detallada
podemos efectuar la operación Roll Up para llegar a lainformación resumida
Normalmente, los operadores se llamados operadores OLAP, operadores de

análisis de datos u operadores de almacén de datos, estos operadores
genéricos básicos son los que permiten realizar consultas, vistas o informes sobre
la estructura estrella, generalmente de forma grafica.
Estos operadores básicos permiten realizar las mismas consultas de proyección,

selección y agrupamiento que se puede hacer en SQL.en muchos casos de
107
hechos, se puede editar la consulta SQL correspondiente, aunque esta se haya

hecho gráficamente.
Por tanto, el primer paso para poder utilizar los operadores propios del modelo
multidimensional es definir una consulta. En realidad, como se vio en los
operadores Drill, roll, solice, dice y pivote, que son modificados o refinadores a
base consultas y solo pueden aplicarse sobre una consulta realizada
previamente.
No obstante, lo interesante empieza justamente cuando se intenta modificar el

informe (una consulta, al fin y al cabo).A veces, se quiere mayor nivel de detalle,
otras veces menos, o bien añadir o quitar alguna dimensión, o modificar el
informe en cualquier otro sentido.
Actividad de cierre Capitulo VII
1) Explique la relacion existente entre los almacenes de datos y las tecnicas

de mineria de datos y el soporte que proporcionan las tecnicas de mineria de
datos al manejo de la información empresarial.
2) Con base en lo expuesto en la lección 35 analice una empresa del entorno

(puede ser la misma de la actividad del capitulo anterior) en la cual le aplique
los cirterios de Drill Down y Roll Up, con el respectivo informe de la base de
datos y del diccionario de datos.
108
Capitulo VIII. Otros tipos de DataMart
Leccion 36. Rolap- Molap
Una de las razones para crear un almacén de datos separado de las bases de
datos operacionales es conseguir que el análisis se pueda realizar de una
manera eficiente. El hecho que la estructura anterior y los operadores vistos
permitan trabajar sencillamente y combinar dimensiones, detallar o agregar
infórmenos, etc, todo ello de manera gráfica, no asegura que esto sea eficiente.
Con el objetivo de obtener la eficiencia deseada, los sistemas de almacenes de

bases de datos pueden implementarse utilizando dos tipos de esquemas físicos.
 ROLAP (relational OLAP): Físicamente, el almacén de datos se construyen

sobre una base de datos relacional.
 MOLAP(multidimensional OLAP): Físicamente, el almacén de datos se

construye sobre estructuras basadas en matrices multidimensionales.
Las ventajas del ROLAP son, en primer lugar, que se puede utilizar directamente
en sistemas de gestión de bases de datos genéricos y herramientas asociadas:
(SQL,restricciones, disparadores, etc).En segundo lugar, la formación y el costo
necesario para su implementación es generalmente menor.Las ventajas de
MOLAP son su especializacion, la correspondencia entre el nivel lógico y físico.
Esto hace que MOLAP sea generalmente más eficiente, incluso aunque en el
caso de ROLAP se utilice ciertas técnicas de optimización.
No todos los sistemas, libros y manuales son consistentes en la diferencia

ROLAP/MOLAP que se produce a nivel físico o nivel lógico. En algunos textos se
109
habla que el sistema ROLAP representa los resultados de los informes/consultas

como tablas mientras que MOLAP lo representa como matrices.
Segun la definición (la de muchos autores) tanto ROLAP como MOLAP se

refieren a la implementación y son independientes de las herramientas del sistema
de almacenes de datos o el sistema OLAP. Por tanto un sistema puede tener una
representación de consultas relacional y estar basado en MOLAP o puede tener
una representación completamente multidimensional y estar basado en un OLAP.
Algunos ejemplos de sistema OLAP son Microstrategy, informe Metacube u oracle

Discovery. El primero, por ejemplo, tiene una interfaz completamente
multidimensional mientras que por debajo existe un sistema relación. Ejemplos de
sistemas MOLAP son el Oracle Expres o Hyperion Enterprise.
La ventaja de ROLAP es que puede utilizar tecnología y nomenclatura de los

sistemas de bases de datos relacional, esto tiene el riesgo que en algunos casos
se pueda mantener parte de las bases de datos transaccional (manteniendo
claves foraneas, claves primarias, conservado parte de la normalización, etc.). En
general, aun que esto puede ser cómodo inicialmente, no es conveniente a largo
plazo.De hecho, una de las maneras más eficientes de implementar un datamart
multidimensional, es mediante bases de datos relacionales es ignorar casi
completamente la estructura de los datos en las fuentes de origen.
Los sistemas OLAP se pueden acompañar de estructuras especiales: Índices de

mapa de bits, índices JOIN optimizadores de consultas, extensiones de SQL (por
ejemplo ―cube‖, etc), así como técnicas tan variadas como el pre calculo y el
almacenamiento de valores agregados que vayan a utilizarse frecuentemente
(totales por año, por producto, etc). Además, se puede desactivar los locks
delectura/escritura concurrente (ya que solo habrá lecturas), muchos índices
dinámicos se pueden sustituir por estáticos o por hashing (ya que las tablas no
van a crecer frecuentemente).
110
Todas estas extensiones y ajustes hacen que el sistema de gestión de bases

de datos se adapte mejor a su nuevo proposito ya que no es una base de datos
operacional sino un almacén de datos y asi proporcione la eficiencia necesaria.
Por lo contrario los sistemas MOLAP almacenan físicamente el dato estructurado

multidimensional de forma que la presentación externa e interna coincidan. Las
estructuras de datos utilizadas para ello son bastante específicas, lo que permite
rendimientos mayores que los ROLAP. En cambio, los sistemas MOLAP tienen
algunos inconvenientes.
 Se necesitan sistemas específicos. Esto supone un costo de Software

mayor que generalmente compromete la portabilidad, al no existir
estándares sobre MOLAP tan extendidos como los estándares del modelo
relacional.
 Al existir un gran acoplamiento entre la visión externa y la implementación,

los cambios de diseño del almacén de datos obligan a una estructuración
profunda del esquema físico y viceversa.
 Existe más de dos modelos de normalización que en las ROLAP. En

muchos casos los almacenes de datos MOLAP ocupan más espacio que
su correspondiente ROLAP.
Quizá la parte del diseño de almacén de datos es una de las areas mas abiertas y
donde existe menosconvergencia, las razones son múltiples pero,
fundamentalmente, se resume en que los almacenes de datos se han originado
principalmente desde ámbito industrial y no académico, el fin inicial del almacén
de datos era realizar OLAP eficiente, fundamentalmente en los niveles lógico y
físico.
Pasos para diseñar un almacén de datos:
1) Elegir para modelar un ―Proceso‖ o ―Dominio‖ de la organización sobre el

que se desee realizar informes complejos frecuentemente, análisis o
111
minería de datos. Por ejemplo, se puede hacer un datamart sobre pedidos,

ventas, facturación, etc.
2) Decidir el hecho central y el ―granulo‖(nivel de detalle) máximo que se va

a necesitar sobre el, por ejemplo,¿se necesita información horaria para el
tiempo?, ¿Se necesita saber las cantidad de cajas registradoras de un
supermercado o es dificiente el supermercado como unidad mínima?, etc.
En general, siempre hay que considerar gránulos finos por tuplas las que se
vayan a necesitar, a no ser que haya restricciones de tamaño importantes,
precisamente,el almacén de datos se crea entre o tras cosas, para poder
agregar datos eficientemente, por lo que un almacén de datos demasiado
detallado no compromete, en principio, la eficacia.
3) Identificar las dimensiones que caracterizan el ―dominio‖ y su jerarquía de

agregación, cuales son los atributos básicos de cada nivel. No se deben
incluir atributos descriptivos informativos, lo importante es ayudar en la
visualizacion.
4) Determinar y refinar las medidas y atributos necesarios para los hechos y

las dimensiones. Generalmente las medidas de los hechos son valores
numéricos agregables (totales, cuentas, medidas, etc) y suelen responder
a la pregunta ―cuanto‖. Revisar si toda la información que se requiere sobre
los hechos están representada en el almacén de datos.
Leccion 37. Almacen de Datos y Mineria de Datos
Fuente:
http://www.google.com.co/url?sa=t&rct=j&q=almac%C3%A9n%20de%20datos%20naci%C3%B3%
20hace%20m%C3%A1s%20de%20una%20d%C3%A9cada%20&source=web&cd=2&ved=0CFEQ
FjAB&url=http%3A%2F%2Facademica-
e.unavarra.es%2Fbitstream%2Fhandle%2F2454%2F1955%2F577139.pdf%3Fsequence%3D1&ei=
Avz9T_zxKejO2AWFv4XFDw&usg=AFQjCNFvuWyZ8zktuAkmTV85s9N4LuLw0w&cad=rja
112
El concepto de almacén de datos nació hace más de una década [Enmona 1992]
ligado al concepto de EIS (Executive information System), el sistema de
información ejecutivo de una organización. En realidad, cuando están cubiertas las
necesidades operacionales de las organizaciones se plantean herramientas
informáticas para asistir las necesidades estratégicas.
La definición original de almacén de datos es una ―colección de datos, orientada

un dominio, integrada, no volátil y variante en el tiempo para ayudar en las
decisiones de dirección‖. A raíz de esta definición, parecería que los almacenes de
datos son solo útiles en empresas o instituciones donde los altos cargos directivos
tengan que tomar decisiones. A partir de ahí, y de la difusión cada vez mayor de
las herramientas de business intelligence y OLAP, se puede pensar que los
almacenes de datos no se aplican en otros ámbitos: científicos, médicos,
ingenieriles, académicos, donde no se tratan con las variables y problemáticas
típicas de la organización de las empresas.
Al contrario, en realidad, los almacenes de datos pueden ser usados en diferentes

propositos, y pueden agilizar muchos procesos de análisis. Mas adelante se
documentan las aplicaciones y usos que se puede tener en un almacén de
datos: herramientas de consulta e informes, herramientas EIS (Enterprise
Information System), herramientas OLAP y herramientas de minería de datos.
La variedad de usos sugiere también la existencia de diferentes grupos de

usuarios: analistas, ejecutivos, investigadores, ingenieros de información,
estadistas, etc... Según el carácter de estos usuarios se les puede catalogar en
dos grandes grupos:
 ―Picapedreros‖ (o ―granjeros‖): Son aquellos que se dedicana realizar

informes periódicos, ver la evolución de los indicadores, controlar algún
tipo de valores anómalos, etc...
 ―Exploradores‖: Son los encargados de encontrar nuevos patrones

significativos utilizando técnicas OLAP o de minería de datos, la estructura
113
del almacén da datos y sus operadores facilita la obtención de diferentes

vistas de análisis o vistas minales.
Esta diferencia, y el hecho de que se catalogue como ―exploradores‖ a

aquellos que utilizan técnicas OLAP o minería de datos, no debe
desdibujar las grandes diferencias de un análisis clásico básicamente
basado en la agregación, la visualización y las técnica descriptivas o
estadísticas con un uso genuino de la minería de datos que transforma
losdatos en datos significativos, en realidad, se puede usar minería de
datos sobre un simple archivo de datos. Sin embargo, las ventajas de
organizar un almacén de datos se amortizan a mediano y largo plazo
especialmente cuando el análisis esta orientado a grandes volúmenes de
datos, aquellos que aumentan significativamente con el tiempo, los que
provienen de fuentes heterogéneas, los que se quieren cambiar de
maneras arbitrarias y no predefinidas; en gran medida una almacén da
datos también facilita la limpieza y transformación de datos (en especial
para generar ―vistas minales― en tiempo real). Es importante resaltar como
ya se hizo con anterioridad en el modulo, el proceso de minería de datos
debe ser realizado con la total claridad de lo que se quiere y sobre datos
que en lo posible puedan ser discretas si los proceso van a dar como
resultado una predicción.
MIDDLEWARE: Es un término genérico que se utiliza para referirse a todo tipo de

software de conectividad que ofrece servicios u operaciones que hacen posible el
funcionamiento de aplicaciones distribuidas sobre plataformas heterogéneas.
Estos servicios funcionan como una capa de abstracción de software distribuida,
que se sitúa entre las capas de aplicaciones y las capas inferiores (sistema
operativo y red). El middleware puede verse como una capa API, que sirve como
base a los programadores para que puedan desarrollar aplicaciones que trabajen
en diferentes entornos sin preocuparse de los protocolos de red y comunicaciones
114
en que se ejecutarán. De esta manera se ofrece una mejor relación

costo/rendimiento que pasa por el desarrollo de aplicaciones más complejas, en
menos tiempo.
La función del middleware en el contexto de los data warehouse es la de asegurar

la conectividad entre todos los componentes de la arquitectura de un almacén de
datos.
TRANSFORMACION DE ATRIBUTOS
Variedad de técnicas.
- Conversiones entre tipos de atributos.

- Añadir nuevos atributos sintéticos que representen la información de un
modo que sea adecuado para el método de aprendizaje. E.j: datos
relacionales, SVM.
- PCA (Análisis de Componentes Principales).
- Proyecciones aleatorias
Decentralizacion
- Algunos métodos sólo trabajan con atributos nominales.―Discretizar‖ valores
númericos en intervalos [DKS95].
- Hay métodos que pueden trabajar con valores numéricos, pero de un modo
que puede que no sea el más adecuado. Ej. asumen que siguen una
distribución normal.
- Clasificador Naïve Bayes.
- Métodos de clustering estadísticos.Algunos métodos son mucho más lentos
con atributos numéricos que son nominales y de ordenación.
115
BASADO EN 1R
Método de clasificación ―1R‖ [Hol93].

- Ordenar los valores del atributo.
- Límites de los intervalos: dónde hay cambio de clase.
- Excepción: tiene que haber un número mínimo de valores (6)de la clase
mayoritaria.
- Método global, se aplica previamente a todos los atributo continuos
MDLMinimum Descripción Length.

- Minimizar el tamaño de la ―teoría‖ más la información necesaria para
especificarlos datos dados con base en esa teoría.
- La ―teoría‖ es el punto de división. Comparacion y no división.
- Conocer los ejemplos pero no las clases.
- Si no se divide, se debe trasmitir la clase de cada ejemplo.
- Compresión.
- Si se divide, se debe codificar el punto de corte.lg[N - 1] bits, N es el
número de ejemplos, mas las clases por encima y por debajo del punto de
divison.
-
Leccion 38. Exploracion y seleccion. El contexto de la vista minable.
Pearson. De aquí te tomara un ejemplo parapoder abordar la visión practica.
116
Este ejercicio corresponde al libro Introduccion a la Mineria de Datos. José H. Orallo, Ma José
Ramirez Q y Cesar F Ramirez de Pearson (se documenta respetando los derechos de autor), ya
que es muy completo y servirá de mucho para el aprendizaje del área de estudio.
Una vez los datos están recopilados, integrados y limpios, todavía no estamos
listos (en muchos casos) para realizar una tarea de minería de datos. Es
necesario, además, realizar un reconocimiento o análisis exploratorio de datos con
el objetivo de reconocerlos mejor de cara a la tarea de minería de datos. Incluso
esta fase es imprescindible cuando se realiza minería de datos ―abierta‖, ya que
tenemos todo el volumen de datos pero hemos de determinar los datos a
seleccionar y las tareas a realizar sobre esos datos.
Este capítulo cubre un conjunto de técnicas diversas algunas técnicas simples del
análisis exploratorio de datos, técnicas de visualización previa, agrupamiento
exploratorio, técnicas de selección, ya sea horizontalmente, eliminando filas
(muestreo), o verticalmente, eliminando atributos, interfaces graficas, técnicas de
consulta, y agregación (ya sea más tradicionales al estilo de SQL, herramientas
OLAP o incluso lenguajes de consulta para minería de datos).
La salida o resultado de las técnicas presentadas aqui ya es una ―vista minable

con tarea asignada‖, o dicho de otra manera, una vista minable tapada (entradas,
salidas) con instrucciones sobre qué datos trabajar, qué tarea realizar y de qué
manera obtener el conocimiento.
El contexto de la vista minable
Imagínese que cae del cielo una base o almacén de datos con una nota: ‖extraiga
usted conocimiento de aquí‖. Aparte de la sorpresa natural de ver llover bases de
datos, que justificara al cambio climático, usted se preguntará, entre otras cosas,
lo siguiente:
 ¿Qué parte de los datos es pertinente analizar?
117
 ¿Qué tipo de conocimiento se desea extraer y cómo se debe presentar?

 ¿Qué conocimiento puede ser válido, novedoso e interesante?
 ¿Qué conocimiento previo me hace falta para realizar esta tarea?
Lógicamente, usted no será capaz de extraer conocimientos si no se le responde a

dichas preguntas. Del mismo modo, una herramienta de minería de datos, no
puede dirigir un conjunto de datos y producir algo razonable, si no se le orienta
adecuadamente. La razón fundamental del porqué esto, radica no solamente en la
capacidad actual de las herramientas de realizar algunas tareas de una manera
completamente automática, sino fundamentalmente, en que la extracción del
conocimiento viene a cubrir unas necesidades y expectativas, que deben
indicarse, en cierto modo de forma interactiva. Usted puede realizar la compra en
un supermercadopor internet, o la puede hacer a través de un tercero, pero en
ningún caso podrá realizar una compra si no indica lo que quiere comprar.
Por tanto, es necesario expresar y proporcionar las respuestas a las cuatro

preguntas anteriores, ya sea mediante lenguajes de minería de datos, o
interactivamente con herramientas especializadas o seleccionando aquellas
herramientas necesarias. Resulta en algunas ocasiones que incluso conociendo
los datos y el dominio del que provienen, responder a algunas de ellas no es
sencillo. En necesario, en muchos casos, explorar los datos, el contexto y los
usuarios de la información, de allí la importancia que el minero sea muy hábil en
detectar estos aspectos
Las cuatro preguntas anteriores son, en realidad, una manera de clasificar el

conjunto de preguntas que se podrían realizar, ya que en el fondo, son preguntas
que están interrelacionadas. Por ejemplo, si no se sabe el conocimiento que
puede ser útil no se puede decidir que parte de los datos lo pueden proporcionar.
Por el contrario, si no se selecciona un subconjunto de datos de manera
adecuada, no se puede garantizar la validez de los modelos extraídos y si
finalmente van a ser útiles o no para lo que se quiere obtener. Otro ejemplo
similar es determinar el método de minería de datos; observando los datos se
118
puede seleccionar el método más acertado. Solo al determinar el método se

puede saber si hay ciertos atributos que hacen cambiar o eliminar unos datos. De
modos diversos se interrelacionan estas preguntas acerca de qué, del dónde y del
cómo.
El proceso que lleva desde los datos a obtener el conocimiento del dominio y de
los usuarios de los cuatro aspectos anteriores, son necesarios para llevar a cabo
la fase propia de minería de datos.
No es solo necesario obtener la vista minable (una tabla con los atributos
relevantes) si no que debe ir acompañada de la tarea a realizar sobre ella y cómo
evaluarla, así como la forma de presentar el resultado final y, en su caso, el
conocimiento previo necesario. Ahora se tratará de extender las cuatro preguntas
anteriores
 Vista minable: ¿Qué parte de los datos es pertinente analizar? Una vista
minable [Hg et al. 1998] consiste en una vista en el sentido más clásico de
base de datos; una tabla. La mayoría de métodos de minería de datos, son
solo capaces de tratar una tabla en cada tarea. Por tanto, la vista minable
debe recoger toda (y solo) la información necesaria para realizar la tarea de
minería de datos.
 Tarea, método y presentación: ¿Qué tipo de conocimiento desea extraer

y como se debe presentar? Se trata de decir la tarea (clasificación,
regresión, agrupamiento, reglas de asociación, etc.), cuáles son las
entradas y salidas (en las tareas predictivas), con qué método, entre las
existentes para cada tarea (arboles de decisión, redes neurales, regresión
logística, etc.) y de qué manera se van a presentar o se van a navegar los
resultados (gráficamente, como un árbol, como un conjunto de reglas, etc.).
119
 Criterios de calidad: ¿Qué conocimiento puede ser válido, novedoso e

interesante? En muchos casos hay que establecer algunos criterios de
comprensibilidad de los modelos (numero de reglas máximo), criterios de
fiabilidad (basados en medidas como la confianza para las reglas de la
asociación, la precisión para la clasificación, el error cuadrático medio para
la regresión, etc.), criterios de utilidad (basados en medidas de cuanto son
aplicables, como el soporte, qué beneficios se obtienen, aportar matrices de
costos, etc.), y criterios de novedad o interés (basados en medidas más o
menos subjetivas).
 Conocimiento previo: ¿Qué conocimiento previo hace falta para realizar

esta tarea? Tanto a la hora de construir la vista minable final o para ayudar
al propio algoritmo de minería de datos, puede ser necesario establecer e
incluso expresar de una manera formal cierto conocimiento previo. Por
ejemplo, las jerarquías de conceptos o de dimensiones OLAP permiten
trabajar con los datos y generar atributos, existen funciones que pueden
realizarse por asociación, o al expresar los modelos, se pueden añadir otras
tablas como conocimiento previo o incluso se pueden añadir otros modelos
anteriores como apoyo para revisar o construir un modelo nuevo.
Por ejemplo, suponga que se ha recolectado la información sobre los

diagnósticos y formulas médicas de atención primaria de una zona sanitaria. El
objetivo es extraer conocimiento de estos datos. En primer lugar, antes incluso
de revisar los datos, se establecen una serie de entrevistas con los jefes de
servicio de atención primaria en la zona estudiada.
Entre las cosas que salen a la luz en las entrevistas en su preocupación

porque una cantidad de nuevos medicamentos han aparecido recientemente
con una serie de dolencias crónicas y la mayoría de médicos prescriben de una
manera aleatoria de entre los medicamentos generalmente efectivos, o como
mucho, siguiendo patrones globales de éxito de cada medicamento (prueba el
―a‖ antes que el ―b‖, etc.). Esto tiene como consecuencia que, en muchos
120
casos, a los pocos días el paciente vuelve a la consulta, y el médico le receta

otro medicamento, hasta que dan con el medicamento realmente efectivo y que
no muestre contraindicaciones no previstas. Entre las necesidades que
aparecen en las reuniones, por tanto, se encuentra la de realizar modelos que
determinen, según el paciente, qué medicamento prescribir primero, con el
objetivo de resolver cuanto antes el problema sanitario del paciente, evitar
nuevas visitas de los pacientes (reducción de visitas) y reducción de costos
farmacéuticos.
A partir de este ejemplo, se puede establecer los componentes de la siguiente

figura, Como se pueden estudiar varias patologías, si nos centramos en una
sola, tendremos que la vista minable va a formarse a partir de los diagnósticos
de dicha patología y los medicamentos prescritos.
Fuente: Introduccion a la Mineria de Datos. José H. Orallo, Ma José Ramirez Q y Cesar F

Ramirez. Pearson. Pag. 98.
El medicamento satisfactorio es el último prescrito, ya que, se supone, que si

no hay más registros del mismo paciente y patología, el último medicamento
fue bien medicado. Por tanto habrá que realizar un tipo de consulta que nos
seleccione el último medicamento prescrito a los pacientes de una patología
(excluyendo los de menos de un mes, para tener más perspectiva). Los
factores que vamos a incluir de los antecedentes son todos aquellos existentes
del historial del paciente: parámetros generales: edad, tensión…, análisis de
sangre, etc.
La tarea a realizar es una tarea de clasificación, ya sea completa o parcial (por

ejemplo se podría realizar un subconjunto de reglas de asociación que
ayudaran en los casos más claros). Debido a las características de los usuarios
121
(médicos) y a la existencia de comprensibilidad de los modelos (para su

validación facultativa), se decide que los patrones extraídos estarán
expresados en forma de arboles de decisión, ya que los médicos están
acostumbrados a seguir este tipo de arboles a la hora de hacer diagnósticos o
prescribir medicamentos.
Los criterios de calidad se establecen a partir de la situación anterior. En primer

lugar, el porcentaje de éxito acumulado es el criterio más importante. Es decir,
que el número medio de medicamentos recetados (o intentos) sea menor. Esto
está muy relacionado con la precisión del modelo, pero existen medidas que
ayudan a evaluar este tipo de problemas. También se incluirán matrices de
costos, con el objetivo de incluir también los costos de las visitas y de los
medicamentos. Adicionalmente se buscan modelos con pocas reglas y que se
puedan ampliar con parámetros sencillos de los pacientes, sin necesidad de
realizar pruebas caras o dolorosas, o pruebas que no se puedan realizar a
todos los pacientes, para determinar el mejor medicamento.
Finalmente, existe una gran cantidad de conocimiento previo, extraído

fundamentalmente del dominio y de las entrevistas de los especialistas. Por
ejemplo, del dominio se puede extraer que la zona sanitaria habitual del
paciente es fundamental a la hora de hacer la vista minable, ya que los
pacientes que vienen de otras zonas pueden realizar segunda visita en su zona
de origen (por estar de vacaciones o ir de urgencias) y por tanto el criterio de
considerar el ―no retorno‖ como éxito puede ser un error. El conocimiento
previo nos puede ayudar también en la transformación y selección de atributos
relevantes. Los arboles de decisión no aceptan conocimiento previo, pero otros
métodos sí que podrían beneficiarse.
En realidad no debe cundir el desanimo ante la Figura 5.1, el ejemplo y la

cantidad de aspectos a establecer. Lo que se intenta ilustrar es que obtener la
vista minable, la tarea, el método, el conocimiento previo necesario, etc., es un
proceso iterativo, que irá siendo más sencillo a medida que se conocen los
122
datos, el contexto, los usuarios y lógicamente, las técnicas de exploración y de

minería de datos. Como del último aspecto, vamos a comentar que se puede
hacer para conocer mejor los datos, el contexto de los usuarios.
Englobemos los conocimientos en los aspectos principales:
 Reconocimiento del dominio de los usuarios: debemos reconocer el

conocimiento que podría ser útil, además de intentar obtener las reglas
ya existentes, ya sea para utilizarlas como conocimiento previo como
para reemplazarlas por reglas y modelos mejores obtenidas por técnicas
de minería de datos. Es importante determinar las decisiones que se
toman frecuentemente y a partir de que modelos se toman, si estos
tienen una base solida o son simples reglas de negocio en la cabeza de
uno o más directivos. Es importante determinar quien usara el
conocimiento obtenido y qué tipo de presentación puede ser más
aconsejable.
 Reconocimiento y exploración de los datos: de los datos seguidos

transformando y seleccionando con el objetivo de obtener una ―vista
minable‖, lista ya para ser tratada por las herramientas de minería de
datos. A diferencia de las herramientas del capítulo anterior, las
herramientas de exploración y selección requieren saber las
expectativas y necesidades del dominio o, de una forma más concreta,
la tarea y el conocimiento previo pueden incluir más en estas
transformaciones y selecciones.
Reconocimiento del dominio y de los usuarios
Como hemos visto en el ejemplo anterior, para conocer que no se puede hacer
con unos ciertos datos es necesario conocer el dominio de los usuarios. Si
123
usted es el gerente o un directivo de una empresa o departamento que conoce

bien, probablemente no necesite realizar este reconocimiento. Pero si usted es
(o va a ser) un profesional de las tecnologías de la información, un estadístico
o un profesional de una asesoría que va a dedicarse a minería de datos de
varios clientes, usted será ajeno al dominio. Una de las primeras tareas a
realizar será, por tanto, conocer y reconocer el dominio de los usuarios.
El procedimiento más similar a este reconocimiento para minería de datos es el

establecimiento de reconocimientos realizado por un analista de software. A
diferencia del caso del software, en las entrevistas (o cuestionarios) no
buscaremos aquí casos de uso y escenarios de las operaciones mecánicas
clásicas de los sistemas software, sino que buscaremos los casos y usos y
escenarios de las tomas de decisión.
Para ello, realizamos preguntas del estilo: ¿Qué aspectos son cruciales en su
negocio? ¿Qué reglas o modelos de dirección están utilizando? ¿Se pueden
mejorar dichas reglas? Que base tienen dichas reglas? ¿Existen decisiones
que se toman de una manera arbitraria o basándose en reflexiones personales
no explicitas? ¿Existe documentación sobre decisiones anteriores? ¿Quiénes
toman las decisiones? ¿Qué decisiones son críticas? ¿Los modelos deben ser
comprendidos y validados por expertos? ¿Qué otros requerimientos
exigiríamos a los patrones extraídos? ¿Qué conocimiento previo suele utilizar
para sus decisiones? Y un largo etcétera de preguntas de este estilo. Algunas
de estas cuestiones también son útiles y se pueden realizar a la hora de
construir un almacén de datos o en el momento de integración, este
reconocimiento se puede establecer como una fase previa a la minería de
datos, en el que se establecen los requerimientos y objetivos de negocio.
Con una entrevista o cuestionario de este estilo se dará cuenta de que muchas
decisiones se realizan con reglas informales, subjetivas y, en muchos casos,
excesivamente simplistas o generalistas. Por ejemplo, la mayoría de
aseguradoras de vehículos utilizan reglas generales de estilo ―recargo por
124
menos de dos años el carné o por menos de veinticinco años‖, sin entrar en
otros aspectos que, personalizando, podrían dar mejores resultados (por
ejemplo por ser mujer, estudiante, no fumador, etc.). Muchas campañas de
publicidad se enfocan a grupos de población (―jóvenes‖, ―amas de casa‖,
―niños‖, etc.) cuya solidez puede dejar mucho que desear.
El resultado de este ―reconocimiento‖ puede resumirse en una documentación

u organizarse de una manera esquemática, estableciendo prioridades de
análisis, destacando aquellas reglas de decisión importantes, que pueden
mejorarse de manera significativa y para las cuales parece que disponemos de
datos.
En general, se van descubriendo mayores posibilidades a medida que se va

conociendo el dominio, sin este reconocimiento es posible establecer las
tareas, los métodos, los criterios de calidad, explorar los datos y el
conocimiento previo.
Reconocimiento y exploración de los datos
Además del reconocimiento del dominio, debemos reconocer los datos. Para
ello, lógicamente debemos conocer lo que significan y esto es posible, si quien
lo realiza conoce el dominio o los datos (ya sea porque son sus propios datos y
dominio o porque ha hecho el reconocimiento del dominio). El reconocimiento
de los datos por tanto viene guiado por el interés de las necesidades
establecidas en el reconocimiento de dominio. Sin éste, no se puede saber
que datos son relevantes ni que tareas pueden ser útiles.
El reconocimiento de datos se suele conocer con distintos nombres en ingles

(data survey, exploratory data analysis, data fishing…). De modo similar, en
castellano, también se puede utilizar términos diversos: exploración,
prospección…
125
No obstante, hay que distinguir que el término ―análisis exploratorio de datos‖

(exploratory data analysis, EDA), definido como ―una serie de técnicas para
investigar los datos para ver tendencias, patrones, errores y características‖
[Tukey 1977] tiene un enfoque diferente o más restrictivo al que vamos a ver
aquí para la minería de datos. Gran parte de lo que se realiza en EDA existe en
herramientas que no son de minería de datos, especialmente los Executive
Informacion Sistemas (EIS) y, lógicamente, en herramientas estadísticas
generales. En realidad, de nuevo no se puede marcar una línea de separación
entre EDA y minería de datos, aunque se podría decir que EDA tiene un
carácter más ―explicativo‖, de caracterización de los datos y no suele incluir
modelos complejos ni predictivos.
Muchos de los gráficos que hemos comentado se utilizan en este tipo de

análisis. Pero, además, las herramientas informativas de EDA permiten
interactuar con los gráficos. Por ejemplo, seleccionar un grupo que se ve en un
grafico de dispersión, hacer rotar un grafico tridimensional (en su proyección en
dos dimensiones)…
El objetivo de la exploración para la minería de datos es obtener una vista

minable, con una tarea asignada. Para ello, se pueden utilizar distintas técnicas
para obtener y retirar dicha vista: visualización, descripción, generalización,
agregación y selección. En los puntos siguientes veremos estas técnicas.
Todas ellas requieren, como hemos dicho anteriormente, conocer el dominio y
el significado de los datos.
Leccion 39. Exploración mediante visualización.
A lo largo del modulo se han documentado algunos tipos de tablas, como la

tabla de resumen de características, y algunas graficas, como los histogramas
y las graficas de distribución. Estas graficas, en general se centran en uno o
126
dos atributos, a lo sumo, y el objetivo principal era, como vimos, la limpieza de

datos. En este apartado veremos algunas graficas mas con un objetivo
diferente, intentar sugerir tareas de minería de datos o patrones que pueden
extraerse. Las graficas que vamos a ver en este apartado se pueden
caracterizar por dos aspectos: o bien son interactivas y permiten una
exploración activa, o bien son multidimensionales, con lo que permiten
observar muchos atributos a la vez.
Recientemente, ha aparecido el término ―minería de datos visual‖ (visual data

mining) [Wong 1999] con el significado de de una minería de datos que se
realizan manejando e interactuando con gráficos (otra interpretación es la del
uso de interfaces visuales para la minería de datos, en nuestra opinión el
concepto de ―minería de datos visual‖ es interesante como hibrido entre la
minería de datos y la visualización de datos más tradicional [Cleveland 1993],
pero, en general, no se puede hacer minería de datos solo con graficas.
Precisamente lo que caracteriza la minería de datos de técnicas anteriores o
de la perspectiva más clásica del análisis de datos es que los modelos son
extraídos por algoritmos y, por tanto, no son vistos o descubiertos visualmente
por el usuario (y posteriormente simplemente validados estadísticamente).Son
herramientas que son útiles en distintas fases y de distintas maneras y que se
verán a lo largo de la tematica.
Las técnicas de visualización de datos se utilizan fundamentalmente con dos

objetivos:
 Aprovechar la gran capacidad humana de ver patrones, anomalías y

tendencias a partir de imágenes y facilitar la comprensión de los datos.
 Ayudar al usuario a comprender más rápidamente patrones
descubiertos automáticamente por un sistema de KDD.
127
Estos dos objetivos marcan dos momentos diferentes del uso de la visualización
de dos dados (no excluyentes):
 Visualización previa (esta es la que normalmente recibe el nombre de

minería de datos visual): se utiliza para entender mejor los datos y sugerir
posibles patrones o qué tipo de herramientas de KDD utilizar. La
visualización previa se utiliza frecuentemente por picapedreros, para ver
tendencias y resúmenes de los datos, y por exploradores, para ver ―filones‖
que investigar.
 Visualización posterior al proceso de minería de datos: se utiliza para
mostrar los patrones y entendernos mejor. La visualización posterior se
utiliza frecuentemente para validar y mostrar a los expertos los resultados
de la extracción de conocimiento.
El primer tipo de visualización previa se trata de la visión multidimensional de las

herramientas OLAP. Aunque realmente no se muestran graficas, los datos sí que
se muestran de manera visual (al menos parcialmente) y se puede interactuar con
ellos, navegando por las dimensiones.
Existen otros tipos de visualizaciones más graficas donde podemos apoyarnos

para la preparación de datos. En general, las herramientas de minería de datos o
estadísticas no nos van a sugerir que grafica utilizar, con lo que en general se
requerirá de cierta experiencia y conocimiento de la herramienta para seleccionar
que grafico nos interesa utilizar entre las decenas de graficas que proporcionan los
sistemas actuales.
Por ejemplo, incluso las hojas de cálculo permiten representar gráficos

tridimensionales como los de la parte izquierda de la siguiente figura,lo que no
podemos hacer en muchos casos es interactuar con la grafica y obtener datos
derivados a partir de ella. Por ejemplo, algunas herramientas estadísticas o de
minería de datos, nos permiten desplazar un plano de corte sobre un eje de ir
128
viendo los cortes instantáneamente, como se ve en la parte derecha de la figura.

En este caso podría ser útil para discretizar un atributo (entre un valor menor o
mayor que el plano) para facilitar el agrupamiento. Por ejemplo, en la parte
derecha de la figura se ven dos grupos de una manera mucho más clara que en la
parte izquierda. Si esos dos grupos son los que realmente nos interesan podemos
pasar el corte (convirtiendo en un nuevo problema bidimensional, utilizando el
atributo discretizado como filtro) a un método de agrupamiento (en este caso
bastaría con un método lineal simple).

Ramirez. Pearson. Pag. 104. Interactuando con un grafico para obtener una vista mas
simplificada.
Diferentes sistemas de estadística o minería de datos, tales como Statistica o

Statistica Data Miner de StatSoft, SAS System o SAS Enterprise Miner, IBM
Intelligent Miner, disponen de tipos de graficas adecuadas para diferentes
propósitos, que se pueden navegar, rotar, modificar o combinar.
129
Leccion 40. Visualización Multidimensional
La representación grafica debe limitarse a las pantallas o al papel, que son

bidimensionales. La grafica de la izquierda de la figura anterior no es más que una
proyección de tres dimensiones en dos dimensiones, que se ayuda de la tonalidad
o del color (este sí que se puede considerar una tercera dimensión real) para que
sea más inteligible. Sin embargo, en muchas situaciones tenemos más de tres
dimensiones, lo que plantea grandes problemas de cara a la visualización.
La técnica de visualización de datos multidimensionales más conocida es la de

visualización de cordenadas paralelas [Inselberg &Dimsdale 1990]. Se mapea el
espacio k-dimensional en dos dimensiones mediante el uso de de k – ejes de
ordenadas (escalados linealmente) por uno de abscisas. Cada punto en el espacio
k-dimensional se hace corresponder a un línea poligonal (polígono abierto) dond
cada vértice de la línea poligonal intersecta los k ejes en el valor para la
dimensión. La siguiente figura muestra un espacio 6-dimensional representado a
asi.
130

Ramirez. Pearson. Pag. 105. Grafica de seis coordenadas paralelas con muchos ejemplos.
Aunque un gran numero de ejemplos convierte la grafica en una maraña, aun asi,
se pueden detectar patrones. Por ejemplo se puede verificar que los atributos 1 y
2 no están correlacionados, mientras que el 2 y 3 estan positivamente
correlacionados, el 3 y 4 estan inversamente correlacionados, asi como existe una
relación entre la magnitud de 4 y las categorías del atributo nominal 5. Los
atributos 5 y 6 tienen una correspondencia clara entre categorías (en realidad el
atributo 6 es dependiente del atributo 5). Un grafico similar es el grafico (survey
plot), donde se muestran todos los ejemplos ordenados y la amplitud de cada línea
se muestra se muestra el valor de cada atributo, este ultimo es mas apropiado
para valores numéricos.
En general si los datos no correlacionan (que suele ocurrir para la mayoría de

atributos) se ve una maraña de líneas. Otra cosa que suele suceder es que el
orden de las dimensiones (atributos) es muy significativo para saber si hay
relaciones. Por ejemplo en la grafica anterior no vemos si el atributo 6 y el 1 tiene
relación o no.
131
Incluso en el caso en que existan relaciones, un numero excesivo de ejemplos

puede hacer que los puntos se ―apiñen‖ o se tapen. Por ejemplo en la parte
derecha de la figura los valores nominales se montan unos sobre otros y se ven
solo cuatro líneas (aunque en realidad, hay decenas de ejemplos). Este problema
se conoce como overplotting. Esto se puede solucionar parcialmente con colores o
haciendo un muestreo (mostrando solo un subconjunto aleatorio de los ejemplos).
En los casos que existan muchos ejemplos con los mismos valores, podemos
incluir un grado de aleatoriedad en las magnitudes (esto se conoce como jitter)
para que unos puntos no aprezcan exacaament encima de otros. Este truco
permite ver la cardinalidad de ejemplos en cada sitio.
El grafico anterior se puede utilizar cuando hay pocos ejemplos. En la siguiente

figura se muestran las caracterisitcas de 12 pacientes con enfermedades
cardiovasculares: el nivel de tabaquismo, colesterol, tensión, obesidad,
alcoholismo, precedentes, estrés y riesgo estimado de enfermedades coronarias,
noirmalizaado de 0 a 10.
132

Ramirez. Pearson. Pag. 106. Grafica de ocho coordenadas paralelas con pocos ejemplos..
En este caso se puede realizar un seguimiento de cada ejemplo. Una variante de

este caso cuando hay pocos ejemplos es la representación radial o circular comos
emuestra a continuación.
133
Pearson. Pag. 106. Grafica radial de cinco dimensiones y cuatro ejemplos.
En realidad es similar al de coordenadas paralelas, con lo que no aporta mucho si

se usa de esta manera. Frecuentemente en lugar de mostrar todos los valores en
la radial, se muestran uno a uno, conlo que tenemos diferentes figuras para
comparar los ejemplos. Este es un uso mas ilustrativo como se muestra a
continuación:
Pearson. Pag. 106.Tres pacientes diferentes vistos mediante grafica radial.
134
Este tipo de representaciones con distintas formas que se da a diferentes objetos

puede llevarse más allá mediante el uso de representaciones iónicas, en las
cuales se utilizan figuras fáciles de reconocer con seres humanos (animales,
caras, casas, etc.) y cada dimensión representa una característica de la figura. Por
ejemplo, en el caso de los animales, un atributo puede representar el tamaño de la
cabeza, el otro el de las piernas, el del rabo, etc. Según sus partidarios, con este
tipo de representaciones iónicas uno puede, de un solo vistazo, darse cuenta del
tipo de individuo o grupo con el que estamos tratando. Lógicamente, cada
representación iónica requiere una cierta familiarización previa para ser efectiva.
Otra de las ventajas de las representaciones iónicas frente a las radiales es que se
pueden combinar mas convenientemente valores discretos y continuos. Por
ejemplo tener o no tener bigote puede utilizarse para un atributo binario, podemos
representar un atributo con cuatro valores con cuatro tipos de nariz, etc.
Sumarización, descripción, generalización y positivismo
La construcción de la vista minable es un proceso iterativo que pasa por conocer y

visualizar los datos, combinados de diferentes manera. Para esta combinación
podemos utilizar operadores de consultas de bases de datos y operadores OLAP.
Los datos con los se trabaja en minería de datos son, muy frecuentemente, datos
históricos que, por tanto, pueden agregarse a diferentes niveles de detalle
temporal. Si además, la estructura de los datos es multidimensional (por ejemplo
un datamart) existen campos de agregación, podemos obtener diferentes vistas
concatenando (juntando o enlazando) diferentes tablas y agregando al nivel que
deseemos.
Una pregunta que aparece generalmente en el entorno de la minería de datos es

la siguiente:‖si ya he decidido que tablas y atributos son relevantes, ¿Por qué
135
debo construir una única tabla derivada, denominada vista minable? ¿no es
suficiente con marcar dichos atributos y dejar que la herramienta de minería de
datos trabaje sobre las bases de datos?‖. Existen dos razones fundamentales para
contestar a esta pregunta. La primera es que dadas varias tablas, incluso aunque
tenga claves foraneas definidas, existen muchas maneras de concatenarlas, es
decir, de combinar la información que contienen. Por tanto, es más difícil definir
tareas concretas si no se clarifica exactamente la información sobre la que se van
a definir. La segunda razón es quizás más importante: la mayoría de métodos de
minería de datos solo tratan con una única tabla. Si bien es cierto que hay
herramientas de programación lógica inductiva y la minería de datos relacional, si
empiezan a ser capaces de trabajar con varias tablas, la mayoría de técnicas solo
son capaces de trabajar con representaciones del estilo atributo-valor, es decir,
una tabla.
Por tanto, debemos definir una consulta o vista minable. Para ello, las operaciones
necesarias son aquellas de un lenguaje relacional (como por ejemplo el SQL).
Concatenaciones (joins), selecciones, proyecciones, agrupamientos/agregaciones,
etc. La siguiente figura muestra precisamente la construcción de una vista minable
a partir de un conjunto de tablas. Aunque las tablas tiene una estructura
multidimensional y podamos apoyarnos en herramientas OLAP, en realidad las
operaciones necesarias son las típicas de una consulta SQL: concatenación,
selección, proyección y agrupamiento.
136
Pearson. Pag. 108. Selección de tablas, atributos, condiciones, y niveles de agregación para
obtener una vista minable.
Es quizá, la concatenación de tablas aquella que permite juntar en una tabla la

información proveniente de varias. Este proceso generalmente obtiene vistas
desnormalizadas, en las que por ejemplo, la tabla ciudad y país se funden en una
sola, donde aparece el nombre de la ciudad y del país. Este tipo de
desnormalizaciones contiene redundancia y por tanto patrones. Hay que ser
concientes de ellos, por que si excluyéramos todos los atributos para reglas de
asociación, por ejemplo, tendremospetrones redescubiertos del estilo de
dependencias funcionales como ―ciudad  país‖ o en el ejemplo anterior
―dia.nombre  laborable‖.
137
Pivotamiento
Una operación muy usual a las hora de preparar la vista minable se conoce
como pivotamiento y, forma parte de los operadores OLAP. La operación de
pivotamiento cambia filas por columnas y, por tanto, realiza un cambio
verdaderamente radical para una representación basada en pares ―atributo-
valor‖.
El ejemplo más clásico de pivotamiento es de la cesta de la compra. Supongamos

que los grandes almacenes guardan una gran tabla de cestas de la compra, donde
cada atributo indica si el producto se ha comprado o no. Existen unos 10000
productos en los atributos en los grandes almacenes y millones de cestas
semanales. El objetivo del análisis es ver que productos se compran
conjuntamente.
Lógicamente, los datos no caben en memoria, con lo que hay que ir trabajando en
disco. Para tener algo de fiabilidad en las reglas hay que mirar al menos la raíz
cuadrada de todas las cestas, eso obliga a seleccionar unas 1000 filas
(aleatoriamente) de la tabla para cada dos atributos que queramos evaluar.
Si este tipo de análisis se van a realizar frecuentemente, puede merecer la pena

cambiar filas columnas, como se muestra en la figura
#Cesta Prod1 Prod 2 Prod 3 ….. Prod

10000
1 SI NO NO ……. NO
2 NO NO NO …. SI
138
3 SI SI NO …. NO
4 SI NO NO …. NO
5 NO SI SI …. SI
….. ….. …. …. …. ….
10.000. NO NO SI …. SI
000
pivotaje
#Produ Cesta 1 Cesta Cesta ….. Cesta

cto 2 3 10.000.00
0
1 SI NO SI ……. NO
2 NO NO SI …. NO
3 NO NO NO …. SI
4 NO SI NO …. SI
5 SI SI NO …. NO
….. ….. …. …. …. ….
10.000. NO SI NO …. SI
000
Pearson. Pag. 111.Pivotamiento. Cambio de filas por columnas./* Este proceso se puede hacer
facilmente con una hoja de calculo y la función transponer*/
139
Ahora, para observar si dos productos están asociados es solo necesario dos
filas de la tabla y realizar, por ejemplo, un ―o exclusivo‖ entre las filas ,para ver
si están asociadas o no.
Selección de datos.
La selección de datos es algo más que decir qué tablas (o archivos) se van a
necesitar para la minería de datos y de qué manera concatenarlas. Esto podría
estar ya decidido, pero todavía no sabemos qué atributos/variables necesitamos y
cuantas instancias (ejemplos) van a ser necesarias. Dicho de otra manera, puede
ser que no todas las columnas, ni todas las filas sean necesarias. Dicho de otra
manera, puede ser que no todas las columnas, ni todas las filas sean necesarias.
El problema existente es precisamente que si seleccionamos como ―vista minable‖
todo aquello que pueda ser relevante podemos acabar con una vista minable de
cientos de columnas/atributos y millones de filas/registros.
El tamaño de una tabla como ésta, desborda la capacidad de muchas de las

técnicas de minería de datos. Hemos de ser capaces de ver si podemos obtener
primeros modelos (o incluso mejores modelos) con un subconjunto de las
instancias y de las variables.
La selección de datos no tiene únicamente como objetivo la reducción del tamaño

para obtener una minería de datos más rápida si no que, en muchos casos, puede
permitir mejorar el resultado (tanto en precisión o en costo, por ejemplo utilizando
muestreo estratificado o en comprensibilidad, por ejemplo utilizando reducción de
dimensionalidad).
El proceso de selección de datos muchas veces se engloba dentro de un concepto

más amplio, denominando reducción de datos (data reduction), aunque este
término también puede incluir la agregación (por ejemplo si pasamos de instancias
140
de cada día a instancias agregadas mensualmente), la generalización (por

ejemplo si reemplazamos el atributo ciudad por región, siguiendo por ejemplo la
jerarquía de alguna dimensión), o incluso la comprensión de datos (por ejemplo
eliminando datos redundantes).
En general, cuando tratamos con datos del estilo atributo-valor (es decir, una
tabla), hay dos tipos de selección aplicables: selección horizontal (muestreo),
donde se eliminan algunas filas (individuos) y selección vertical (reducción de
dimensionalidad), donde se eliminan características de todos los individuos.
Actividad de cierre Capitulo VIII
1) Cuáles son los objetivos o tareas que pretende realizar la minería de

datos.
2) Que son las reglas de asociación como tipo de conocimiento, ¿de una
definición de soporte y confianza y utilícelas para definir una regla de
asociación.
3) Describa un ejemplo de una regla de asociación entre jerarquías.
4) Que es la entropía y como se usa en la construcción de arboles de
decisión.
5) Describa las redes neuronales y los algoritmos genéticos como técnicas
para la minería de datos ¿Cuáles son las mayores dificultades al usar estas
técnicas.
6) Aplique el algoritmo A priori al siguiente conjunto de datos :
Id_trans Articulos_Compras
101 leche,pan ,huevos
102 leche, zumo
103 zumo, mantequilla
104 leche,pan, huevos
141
105 café, huevos
106 café
107 café, zumo
108 leche, pan, galletas, huevos
109 galletas, mantequillas
110 leche, pan
El conjunto de artículos es
{Leche, pan, galletas, huevos, matequilla, café, zumo,}.
Utilice 2 como valor mínimo de soporte.
7) Cuáles son los cinco tipos de conocimientos obtenidos a partir de la

minería de datos.
8) Cuáles son las dificultades de obtener las reglas de asociación en bases
de datos de gran tamaño.
9) En que se diferencia el agrupamiento de la clasificación.
10)Cuáles son las reglas de clasificación y como se relacionan con los arboles
de decisión.
142
Capitulo 9: Técnicas de Minería de Datos.
Leccion. 41. Redes Neuronales
Pearson. Pag. 327.
Una red neural es una técnica derivada de la investigación en inteligencia artificial

que utiliza la regresión generalizada y proporciona un método interactivo para
llevarla a cabo. Las redes neuronales usan un modelo de ajuste de curvas para
deducir una función a partir de un conjunto de muestras. Esta técnica proporciona
un modelo de aprendizaje; funciona mediante una muestra de prueba que utiliza
para la inferencia inicial y el aprendizaje. Con este tipo de método de aprendizaje,
es posible interpolar las respuestas a nuevas entradas a partir de las muestras
conocidas. Esta interpolación depende, sin embargo, del modelo de conocimiento
(representación interna del dominio del problema) desarrollado por el método de
aprendizaje.
Se puede hacer una clasificación amplía de las redes neurales en dos categorías:
redes supervisadas y redes no supervisadas. Los métodos adaptativos en los
que se intentan reducir el error de salida son métodos de aprendizaje
supervisado, mientras que los que desarrollan representaciones internas de
generar muestras en salida se denominan métodos de aprendizaje no
supervisado. Las redes neuronales realizan auto adaptaciones; es
decir,aprenden a partir de la información existente sobre un problema
determinado. Se ejecutan con efectividad en tareas de clasificación y se usan, por
tanto, en la minería de datos. Sin embargo, no están exentas de problemas. Aún
que aprenden, no proporcionan una buena representación de lo que han
aprendido.
143
Sus salidas son muy cuantitativas y difíciles de interpretar. Otra de sus

limitaciones es que las representaciones internas desarrolladas por las redes
neuronales no son únicas. Además, por lo General, las redes neuronales tienen
problemas con el modelado de datos de series temporales. A pesar de estos
inconvenientes, son muy populares y varios proveedores comerciales las utilizan
con frecuencia.
El Aprendizaje en las Redes Neuronales
Hemos afirmado que las RNA no necesitan volver a ser programadas al cambiar
de entorno.Esto no quiere decir que sucomportamientos no cambien con la
finalidad de adaptar al nuevo entorno. Estos cambios son debido a variaciones en
los pesos de la red.
Los cambios en los pesos de una red neural dan lugar al aprendizaje.Estos se
producen para modelar los cambios en el rendimiento de la sinapsis de las redes
neuronales reales. Se cree que nuestro aprendizaje se debe a cambios en el
rendimiento o eficiencia de la sinapsis, a través de las cuales se transmiten la
información entre las neuronas.
Hay dos tipos principales de aprendizaje en RNA:
 Aprendizaje supervisado. Con este tipo de aprendizaje, proporcionamos a la

red un conjunto de datos de entrada y la respuesta correcta. El conjunto de
datos de entrada es propagado hacia adelante hasta que la activación
alcanza las neuronas de la capa de salida. Entonces podemos comparar la
repuesta calculada por la red con aquella que se desea obtener, el valor
real, objetivo o ―blanco‖ (de target, en ingles). Entonces se ajustan los
pesos para asegurar que la red produzca de una manera más probable una
respuesta en el caso de que se vuelva a presentar el mismo o similar
144
patrón de entrada. Este tipo de aprendizaje será útil especialmente para las
tareas de regresión y clasificación.
 Aprendizaje no supervisado. Sólo se proporciona a la red un conjunto de

datos de entrada. La red debe auto-organizarse (es decir, auto enseñarse)
dependiendo de algún tipo de estructura existente en el conjunto de datos
de entrada. Típicamente está estructurada suele deberse a redundancia o
agrupamiento y reducción de dimensiones.
Al igual que otros paradigmas de la inteligencia artificial, la faceta más interesante

del aprendizaje no es solo la posibilidad de que patrones de entrada pueda ser
aprendidos, clasificados e identificados sino la capacidad de generalización que
posee. Es decir, mientras el aprendizaje tiene lugar en un conjunto de patrones de
entrenamiento, una propiedad importante de este, es que la red pueda generalizar
sus resultados en un conjunto de patrones de prueba los cuales no han sido vistos
durante el aprendizaje. Uno de los problemas a Tener en cuenta es el peligro de
sobre aprendizaje, denomina más técnicamente ―sobreajuste‖.
Apredizaje Supervisado En RNA
Para introducir este tipo de aprendizaje primero presentamos dos de las primeras
redes neurales que lo emplearon en su diseño y posteriormente mostraremos dos
de las redes neurales más usadas basadas en la utilización de éste.
145
Perceptron simple y Adaline
El perceptor simple fue inicialmente investigado por Rosenblatt en 1962

(Rosenblatt, 1962). El perceptor simple tiene una estructura de varios nodos o
neuronas de entrada y uno o más de salida. Un perceptor simple, por tanto, no
tiene capa oculta y así su estructura es como la red neural artificial de la Figura
anterior, pero sin ninguna capa oculta o intermedia. Asociado a un patrón de
entrada particular, xᵖ, tenemos una salida Οᴾ y un ―blanco‖ o salida correcta tᴾ. El
algoritmo tiene la siguiente forma:
1. La red comienza en un estado aleatorio. Los pesos entre neuronas

poseen valores pequeños y aleatorios (entre -1 y 1).
2. Seleccionar un vector de entrada, Xᴾ, a partir del conjunto de ejemplos
de entrenamiento.
3. Se propaga la activación hacia delante a través de los pesos en la red
para calcular la salida Οᴾ= W.Xᴾ.
4. Si Οᴾ=tᴾ (es decir, si la salida de la red es correcta) volver al paso 2.
146
5. En caso contrario el cambio de los pesos se realiza atendiendo a la

siguiente expresión: ∆Wᵢ=ηXᵢᴾ(tᴾ - Οᴾ) donde η es un numero pequeño
positivo conocido como coeficiente de aprendizaje. Volver al paso 2.
Lo que se hace, por tanto, es ajustar los pesos de una manera en la que las
salidas de la red, Οᴾ, se vayan haciendo cada vez mas semejantes al valor de los
blancos, tᴾ, a medida que cada entrada, Xᵨ, se va presentando a la red.
Otra red neuronal importante fue la Adaline (AD Aptative LINear Element),
concebida por Widrow y sus colaboradores en 1960 (Windows & Hoff 1960). Su
topología es idéntica al perceptor simple, es decir, no tiene capa oculta, pero la red
Adaline calcula sus salidas empleando la siguiente expresión:
Ο=ΣᵣWᵣXᵣ+Ө
Con la misma notación de antes. La diferencia entre esta red y el Perceptor es la

presencia o no de un umbral, Ө. El interés en esta red se debió parcialmente al
hecho de que se puede implementar fácilmente empleando un conjunto de
resistores e interruptores.
La suma del error cuadrático a partir del uso de esta red en todos los patrones de
entrenamiento viene dada por la siguiente expresión:
E = ΣᵨEᴾ = ¹₂ Σᵨ(tᵖ - oᵖ)²
Y el incremento de los pesos viene dado por su gradiente:
∆ᵨᵚᵣ= - ϒᵊᴱᵖəᵤᵤᵣ
Donde ϒ representa el coeficiente de aprendizaje. Esta regla se denomina Error

Cuadrático Medio (Least Mean Square error, LMS) o regla Delta o de Widrow –
Hoff.
Ahora, en el caso del modelo Adaline con una sola salida, o, tenemos:
147
əEᵖ‗ əEᵖ ə₀ ᵖ
əWᵣ ə₀ ᵖ əWᵖ
y debido a la linealidad de las unidades Adaline,
Por tanto,
∆ᵨWᵣ = ϒ(tᵖ-₀ ᵖ)xᵖᵣ
Nótese la similitud entre esta regla de aprendizaje y la del perceptor. Sin embargo,
esta regla tiene mayor aplicación ya que se puede usar tanto para neuronas
binarias como continuas, es decir, tanto para neuronas cuyas salidas son
solamente ceros y unos o aquellos cuya salida son números reales. Es una de las
reglas más potentes y se emplea como base de muchos métodos que utilizan
aprendizaje supervisado.
El perceptor simple y el modelo Adaline son reales sin capa intermedia y, por
tanto, si ignoramos las funciones de activación, son equivalentes a una función
discriminante lineal. Todo lo anterior no es sino un repaso de lo visto en el
curso de IA.
Perceptor Multicapa
Tanto el perceptor y el modelo Adaline son métodos potentes de aprendizaje

aunque hay algunas situaciones en las que no dan lugar a buenos resultados.
Estos casos se caracterizan por ser no linealmente separables. Hoy en día es
posible mostrar que muchos conjuntos de datos que no son linealmente
separables pueden ser modelos mediante el empleo del Perceptor Multicapa
148
(Multilayer Perceptor, MLP), es decir una red neural en forma de cascada, que
tiene una o más capas ocultas, como la vista en la Figura anterior.
Aunque esta potencialidad del MLP se descubrió pronto, se tardo bastante tiempo
en encontrar un método o regla de aprendizaje apropiada para construirlas a partir
de ejemplos. Esta regla parece que fue descubierta de manera independiente
varias veces, y no existe acuerdo de la fecha exacta ni de su descubridor, pero fue
popularizada principalmente por el Grupo PDP (Paralel Distributed Procesing)
[McClelland et al. 1986], bajo el nombre de Retro propagación o Programación
hacia atrás.
Respecto al uso de la red o de la activación, la activación se propaga en la red a

través desde los pesos desde la capa de entrada hacia la capa intermedia donde
se aplica alguna función de activación a las entradas que le llegan. Entonces la
activación se propaga a través de los pesos hacia la capa de salida.
Por tanto, si pensamos en el aprendizaje, hay que actualizar dos conjuntos de

pesos: aquellos entre la capa oculta o intermedia y la de salida, y aquellos entre la
capa de entrada y la capa intermedia. El error debido al primer conjunto de pesos
se calcula empleando el método de error cuadrático medio anteriormente descrito.
Entonces se propaga hacia atrás la parte del error debido a los errores que tienen
lugar en el segundo conjunto de pesos y se asigna el error proporcional a los
pesos que lo causan.
Podemos utilizar cualquier numero de capas ocultas que queramos ya que el

método es bastante general. Sin embargo, un factor a tener en cuenta es
normalmente el tiempo de entrenamiento, en cual puede ser excesivo para
arquitecturas con muchas capas. Además se ha demostrado que redes con una
única capa oculta son capaces de aproximar cualquier función continua (o incluso
cualquier función con solo un numero finito de discontinuidades), en el caso de
utilizar funciones de activación diferenciables (no lineales) en la capa oculta.
149
Sistemas, Aplicabilidad Y Recomendaciones De Uso
Hemos sugerido que el principal rasgo diferenciador en el campo de las redes

neuronales artificiales se encuentra entre aquellas redes que emplean aprendizaje
supervisado, aplicables, por tanto, a las tareas de clasificación y regresión, y
aquellas dedicadas al aprendizaje no supervisado, utilizables, fundamentalmente,
para el agrupamiento, la reducción de dimensional dad o la transformación de
atributos.
Para ponerse mano a la obra, existe infinidad de paquetes y herramientas

(muchas ellas gratuitas) para utilizar redes neuronales. Por ejemplo, un simulador
de redes neuronales muy conocido en el denominado SNNS (Simulador de Redes
Neuronales de Stuttgart) (http://www-ra.informatik.uni-tuebingen.de/SNNS/). Su
objetivo es la creación de un entorno eficiente y flexible que permita simular la
actuación de diferentes redes neuronales. También recomendamos la ―Toolbox‖
de redes neuronales de Matlab (http://www.mathworks.com/products/neuralnet/),
para el estudio, implementación y aplicación de diferentes arquitecturas
neuronales. Otras herramientas especificas de redes neuronales son
NeuralPlanner, NeuronalDiet o Easy NN (http://www.easynn.com/)
Respecto a las herramientas generales que incorporan técnicas de redes

neuronales, hemos comentado anteriormente, WEKA y Clementine. En realidad, la
mayoría de paquetes genéricos de minería de datos (suites), incorporan al menos
retropropagación y, muchos de ellos, como por ejemplo Clementine, también los
mapas de Kohonen (SOM) o los RBF.
Estos paquetes genéricos son recomendables para los principiantes en redes

neuronales, ya que permiten utilizar parámetros y topologías por defecto, con
resultados aceptables. Las herramientas específicas son más recomendables
cuando ya se tiene un mayor conocimiento y experiencia sobre redes neuronales y
150
se desea obtener todo su potencial, mediante una elección precisa de los

algoritmos, las topologías y los parámetros.
Para finalizar, se debe aclarar que lo presentado aqui es una introducción a toda
una disciplina, la de las redes neuronales, en la que se pueden encontrar muchas
más técnicas y variantes de las que se han presentado, que son, a nuestro
parecer, las más usuales y útiles en minería de datos. Para ampliar información
sobre redes neuronales artificiales, tanto como sacar el máximo partido de las
técnicas vistas aquí, como iniciarse en otras técnicas, se recomiendan los libros:
[Isasi & Galván 2003] y [Haykin 1998].
Leccion 42. Procesamiento analítico en linea
El análisis estadístico suele necesitar el agrupamiento de varios atributos.

Considérese una aplicación en que una tienda desea averiguar las prendas que
son más populares. Supóngase que las prendas están caracterizadas por su
nombre de artículo, color y su talla y que se tienen la relación de ventas asi:
Ventas (nombre_ artículo, color, talla, números). Supóngase que nombre_ artículo
pueda adoptar los valores (falda, vestido, camisa, pantalón) color puede adoptar
los valores (pequeña, mediana, grande).
Dará una relación utilizada para el análisis de datos; se puede identificar algunos
atributos de medida, ya que miden algun valor y pueden agregarse. Por ejemplo,
el atributo número de la relación ventas es un atributo de medida, ya que mide la
cantidad de unidades vendidas. A algunos de los demás atributos (o todos ellos)
de la relación se identifican cómo atributos de dimensión ya que definen las
dimensiones en las que se ven los atributos de medida y lo resúmenes de los
atributos de medida. En la relación ventas, nombre_ Articulo, color y talla son
atributos de dimension. (Una versión más realista de la relación ventas tendría
más dimensiones, como tiempo o lugar de venta, y más medidas como el valor
monetario de la venta).
151
Los datos que pueden modelarse como atributos de dimensión y como atributos
de medida se denominan datos multidimensionales.
Para analizar los datos multidimensionales que el administrador desee ver, están
dispuestos como se encuentran en la siguiente tabla ya que muestra las cifras de
diferentes combinaciones de nombre articulo y color. El valor de talla se especifica
en todas, lo que indica que los valores mostrados son un resumen para todos los
valores de talla.
La tabla es un ejemplo de tabulación cruzada, también se denomina tabla

dinámica. En General, las tabulaciones cruzadas son aquellas en las que los
valores de los atributos (por ejemplo, A) forman las cabeceras de las filas, los
valores que otra atributo (por ejemplo B ) formar las cabeceras de las columnas y
los valores de Celda se obtiene como sigue: cada celda puede identificarse como
(Ai,Bj), el Valor de la celda debe obtener por agregación de las tuplas con ese
Valor. En este ejemplo la agregación utilizada en la suma de los valores del
atributo numero, para todos los valores de talla, como se indica por talla: ―All‖ en la
tabla cruzada, en este ejemplo la tabulación cruzada también tiene una columna y
una fila adicionales que guardan los totales de las celdas que cada fila o columna.
La mayor parte de las tabulaciones tienen esa filas y columnas de resumen.
Las tabulaciones cruzadas son diferentes en la tabla relacionales que se puede

guardar en las bases de datos, ya que el número de columnas de la tabulación
cruzada depende de los datos. Una modificación en los valores de los datos puede
dar lugar a que se añadan mas columnas, lo que noresulta deseable para el
almacenamiento de los datos.
Nombre_articulo Color Talla Numero
Falda Oscuro All 8
Falda Pastel All 35
Falda Blanco All 10
152
Falda All Alla 53
Vestido Oscuro All 20
Vestido Pastel All 10
Vestido Blanco All 5
Vestido ALL All 35
Camisa Oscuro All 14
Camisa Pastel All 7
Camisa Blanco All 28
Camisa All All 49
Pantalón Oscuro All 20
Pantalón Pastel All 2
Pantalón Blanco All 5
Pantalón All All 27
All Oscuro All 62
All Pastel All 54
All Blanco All 48
All All All 164
Tabla.Representación relacional de los datos.
Deseable para el almacenamiento de los datos. No obstante, la vista de tabulación

cruzada y deseable para mostrársela a los usuarios. La presentación de las
tabulaciones cruzadas y valores resumen un formulario relacional con el número
153
fijo de columnas. La tabulación cruzada con columnas o filas resumen, puede

representar el valor especial de todos para presentar los subtotales. La norma
SQL: en 1999 utiliza realmente el Valor Null (nulo) en lugar de ―all‖ pero, para
evitar confusión con los valores nulos habituales, en el libros se seguiría utilizando
all.
Considérese las Tuplas (falda, all, all, 53) y (vestido, all, all, 35). Se han obtenido
heredando las Tuplas individuales con diferentes valores de color y talla, y
sustituyendo el valor de número por un agregadoes decir, una suma. El valor all
puede considerarse representante del conjunto de los valores del atributo. Las
Tuplas con el valor all para las dimensiones color y talla pueden obtenerse
mediante una agregación de las relaciones ventas, con una agrupación en la
columna nombre articulo. De manera parecida, se puede utilizar una agrupación
en el color y talla para conseguir las Tuplas con el valor all para nombre artículo, y
se puede utilizar una agrupación sin atributo alguno (que en SQL puede omitirse
simplemente) para obtener la tupla con el valor al para nombre artículo, color y
talla.
Leccion 43. WEB Mining
Pearson. Pag. 546.
En este apartado se describirá la minería web, es decir, el problema de extraer

información a partir de documentos de la web. Las técnicas de minería web
difieren significativamente de las técnicas vistas hasta ahora ya que la web es un
repositorio de gran tamaño donde los documentos contienen datos de muy diverso
tipo (texto, imágenes, audio, etc.) que son, por tanto, no estructurados o semi-
estructurados, a diferencia de las bases de datos. Además, los documentos son
hipertexto o hipermedia, al hacer referencias a otros documentos a través de
154
hipervínculos. Estos hipervínculos pueden ser recorridos o no por distintos

usuarios, según las secuencias de navegación por la web. Esta diversidad permite
minar la web basándose en tres conceptos: el contenido, la estructura y el uso.
Como veremos, la minería del contenido web reutiliza todas las técnicas de la
minería de textos y mucha de la recuperación de información. De hecho, la
minería de textos y de documentos de marcas englobada dentro de la minería de
contenido web. Se debe tener en cuenta las nociones básicas de las tres
modalidades (contenido, estructura y uso) e incluiremos descripciones y
referencias de algunas de las técnicas empleadas en cada una de ellas.
La World Wide Web es el repositorio más grande y ampliamente conocido de

hipertexto. Un documento hipertexto es una colección de caracteres (texto) que
puede contener, a través de los hipervínculos, referencias a otros documentos
distribuidos en la web. Estos documentos o páginas web están escritos en una
gran diversidad de idiomas y abarcan todos los tópicos del conocimiento humano.
La web ha experimentado un crecimiento exponencial desde su aparición en 1990.

El código inicial fue escrito por Berners-Lee en el Laboratorio de Física de Altas
Energías (CERN) en Suiza. Como él mismo afirmó: "el principal objetivo de la web
fue tener un espacio de información compartido a través del cual máquinas y
personas pudieran comunicarse". El interés era que se pudieran comunicar
máquinas y software de diferentes tipos. Para ello, desarrolló un identificador de
recursos universal (Uniform Resource Locator, URL) para poder referirse a
cualquier documento (u otro tipo de recurso) en el universo de información.
Asimismo, en lugar del protocolo de transferencia de archivos utilizado en ese
momento para el intercambio de información, creó a partir de él un protocolo de
transferencia de hipertexto (Hipertexto Transfer Protocolo, HTTP) más rápido que
el primero y un lenguaje de marcas para hipertexto (HyperText Markup Language,
HTML).
155
Actualmente, Internet (incluyendo dentro de este término también el correo

electrónico) es el medio más popular e interactivo de difundir información. Pero
esta situación hace que a menudo los usuarios tengamos una sobrecarga de
información. Según [Kosala & Blockeel 2000] algunos de los problemas con los
que nos encontramos cuando interactuamos con la web son:
 Encontrar información relevante: cuando un usuario utiliza servicios de

búsqueda para encontrar una información específica en la web,
normalmente introduce una pregunta con las palabras clave y obtiene como
respuesta una lista de páginas coordenadas según su similitud con la
pregunta. Sin embargo, estas herramientas de búsqueda tienen, por lo
general, una precisión bastante baja debido a la irrelevancia de muchos de
los resultados de la búsqueda. A esto se une su limitada memoria que las
hace incapaces de indexar toda la información disponible en la web, por lo
que se hace incluso más necesario encontrar la información relevante a la
pregunta.
 Crear nuevo conocimiento: la relevancia de la información obtenida en las
consultas a la web es un problema estrechamente relacionado con el de
crear nuevo conocimiento a partir de la información disponible en la web, es
decir, una vez obtenidos los datos tras el proceso de búsqueda
probablemente queramos extraer coincidencias, resúmenes, patrones,
regularidades y, al fin y al cabo, conocimiento a partir de estos datos.
Podemos decir, que si encontrar información en la web es un proceso
orientado a la recuperación, la obtención de conocimiento útil es un proceso
orientado a la minería de datos.
 Personalización de la información: a menudo se asocia este problema con
la presentación y el tipo de la información, ya que los diferentes usuarios
suelen tener gustos distintos a la hora de preferir ciertos contenidos y
presentaciones cuando interactúan con la web. Muy relacionado con este
problema está el de aprender de los usuarios, es decir, saber qué es lo que
los usuarios hacen y quieren. Esto permite personalizar la información
156
incluso para un usuario individual (diseño de portales web, de herramientas

software, filtros de correo, etc.).
La enorme cantidad de información disponible hace de la web un área fértil para la

minería de datos cuyas técnicas pueden resolver los problemas que acabamos de
mencionar. Para ello, la minería web se nutre de técnicas de otras áreas de
investigación como las bases de datos, la recuperación de información
(Información Retrieval, IR) [Salton & McGill 1983; Baeza-Yates & Ribeiro-Neto
1999], el procesamiento del lenguaje natural (Natural Language Procesan, NLP)
[Manning & Schütze 1999] y la inteligencia artificial [RusseU & Norvig 2002],
especialmente el aprendizaje automático.
Sin embargo, a diferencia de las bases de datos relacionales que poseen una
estructura bien definida, la web es poco estructurada por naturaleza. Esto significa
que muchas de las técnicas de minería de datos vistas hasta ahora no pueden
aplicarse directamente, deben modificarse o, incluso, deben definirse nuevas
técnicas. De hecho, tradicionalmente, la minería de datos se ha aplicado a las
bases de datos, ya que era un formato de fácil procesamiento por los
computadores, mientras que la información en la web reside en documentos
enfocados al consumo humano tales como páginas personales, publicitarias,
información general o catálogos de productos. Más aún, mucha de esta
información se presenta como un texto en lenguaje natural, o bien como
anotaciones HTML que estructuran la representación visual de las páginas web
pero que proporcionan una escasa idea acerca de su contenido. Otras formas de
estructurar la web incluyen ciertas convecciones lingüísticas y tipográficas, clases
de documentos semi-estructurados como XML (eXtensible Markup Language)
cada día de más uso para representar datos con cierta estructura, como los
catálogos o los índices y directorios web.
Otros datos de interés residen en los archivos .log, en los que los servidores
registran información sobre las visitas que se efectúan a la web, y en las bases de
datos que se generan a partir de otra información como, por ejemplo, la
157
proporcionada por las cookies. Existen algunas herramientas de análisis de la web

que pueden ser de utilidad al proporcionar respuestas a preguntas como ¿cuál es
el orden más habitual al visitar los enlaces de nuestras páginas?, ¿cuántos nuevos
visitantes tuvimos el mes pasado? ¿cuál es la media de visitas de un cliente?,
¿cuánto tiempo está un cliente en nuestras páginas? Estas herramientas analizan
y monitorizan el tráfico de la web y analizan los archivos log (normalmente
transformando los datos a un formato inteligible como resúmenes agregados o
grafos). En [Mena 1999] se incluye una comparación entre algunas de estas
herramientas.
Las herramientas de análisis y estadísticas de sitios web que se proporcionan

junto a los servidores web (frecuentemente mal etiquetadas bajo el término
"minería web") proporcionan vistas y resúmenes de los datos de un modo similar a
las herramientas clásicas de representación y solarización estadísticas y las
herramientas OLAP. Al igual que éstas, son buenas para generar informes
agregados o gráficas, lo cual puede ser de gran interés para diseñar, administrar y
manipular webs, pero no permiten realizar otras actividades, como la extracción de
patrones sobre el comportamiento de los usuarios, o bien estudiar la relevancia y
clasificación de páginas y documentos.
Las verdaderas herramientas de minería de datos pueden proporcionar al

administrador de la web información adicional para responder a cuestiones mucho
más sofisticadas, como, por ejemplo, ¿cuáles serían los visitantes más adecuados
para una nueva línea de productos?, ¿cuál es el perfil de mis visitantes?, ¿qué
organización del portal favorece las compras?, ¿qué páginas web fomentan el
abandono del sitio web? Si bien es cierto que estas cuestiones podrían
responderse con herramientas de análisis a base de tratar de definir criterios y
perfiles y ver cuándo se cumplen y cuándo no (siguiendo un método de prueba y
error), en un entorno tan dinámico como la web sería un proceso temporalmente
muy costoso (cuando no imposible) y susceptible de cometer errores. Sin
embargo, con herramientas de minería de datos, encontrar, por ejemplo, grupos
de clientes a partir de archivos log es casi inmediato usando técnicas de
158
agrupamiento, o categorizar documentos sobre ciertos temas utilizando técnicas

de clasificación, o determinar qué páginas llevan a comprar que producto
mediante reglas de asociación secuenciales, etc.
A continuación, definiremos el concepto de minería web, estudiaremos su relación

con otros conceptos relacionados y presentaremos una clasificación de la minería
web atendiendo al tipo de datos que se minan (el contenido, la estructura o el
uso).
Atizona [Atizona 1996] definió la minería web como el uso de técnicas de minería
de datos para descubrir y extraer información automáticamente desde el World
Wide Web.
El Proceso de Minería Web
La minería web puede descomponerse en las siguientes subáreas:
1. Descubrimiento de las fuentes: localizar los documentos y servicios en la

web.
2. Selección y pre-procesado de la información: extraer automáticamente
información específica desde las fuentes web descubiertas.
3. Generalización: descubrir patrones generales desde los sitios web
individuales así como desde múltiples sitios.
4. Análisis: validación y/o interpretación de los patrones minados.
La primera tarea hace referencia al proceso de recuperar los datos desde las
fuentes textuales de la web, tales como los correos y los boletines electrónicos, los
grupos de noticias, el texto en los documentos HTML (una vez procesadas las
etiquetas) o cualquier otro tipo de documento hipertexto (pdfs, Xml, etc.). El trabajo
de descubrir las fuentes se centra principalmente en el uso de índices de
documentos web. Esto ha dado lugar al desarrollo de una serie de herramientas
159
(los llamados buscadores) que recuperan documentos relevantes, usando

normalmente técnicas de recuperación basadas en palabras claves (una técnica
clásica de la IR). La lista de documentos recuperados suele priorizarse de acuerdo
a diferentes criterios de relevancia. Algunos de los índices más populares han sido
creados por robots web como Google (http://www.google.com/), Alta vista
(http://www.altavista.com/), Excite (que comercializa WebCrawler,
http://www.webcrawler.com/), Lycos (http://.www.lycos.co/), y Yahoo!
(http://www.yahoo.com/). Aunque en si estos buscadores no hacen actividades de
minería de datos, su funcionalidad puede extenderse para incluir otras actividades
del tipo minería.
La segunda tarea incluye cualquier proceso de selección y/o transformación de los

datos originales obtenidos en la etapa anterior. Para lo primero, existen algunos
sistemas de extracción de información, como por ejemplo Harvest [Brown et al.
1994], que es entre otras cosas capaz de encontrar el titulo y el autor de
documentos Latex, o FAQ-Finders [Hammond et al. 1995], que extrae las
repuestas a las preguntas más frecuentes (Frequently Asked Questions) a partir
de archivos FAQ disponibles en la web. La transformación de los datos
seleccionados comprende cualquier pre-procesamiento tanto los orientados a
eliminar las palabras de fin, las etiquetas, etc., como los destinados a obtener la
presentación deseada, por ejemplo en forma de frases, en lógica de primero
orden, etc.
La tercera etapa, la de generalización, es la etapa central de la minería web y es

en la que se realiza el proceso de minería en sí. Para ello, la minería web ha
adaptado técnicas de la minería de datos (corno las reglas de asociación, el
agrupamiento, etc.), de la IR (corno algunas técnicas para la categorización y la
clasificación de textos) y ha desarrollado algunas técnicas propias, corno por
ejemplo el análisis de caminos (web paths) usado para extraer secuencias de
patrones de navegación desde archivos log.
160
La última etapa se ocupa de desarrollar técnicas y herramientas que permitan el

consumo humano del conocimiento minado (a menudo éste no es directamente
utilizable por los analistas). Estas herramientas deben incorporar métodos
estadísticos (para manipular los patrones), de visualización (para facilitar su
análisis) así corno el conocimiento explícito que sobre el dominio del problema
posee el analista (para contrastar el conocimiento minado con el que se poseía
anteriormente sobre el problema). La tecnología de los agentes inteligentes podría
ser un buen medio para construir herramientas automáticas de este estilo.
Todas estas tareas recuerdan a las tareas que componen el proceso general de
extracción de conocimiento KDD ya visto con anterioridad. De hecho, la definición
de minería web es idéntica a la del proceso KDD salvo que aquí la fuente de los
datos es la web.
Lección 44. Disciplinas relacionadas
Además de el proceso de KDD, la minería web se asocia a los procesos de

recuperación de la información (IR, del inglés Información Retrieval) y de
extracción de la información (IE, del inglés Información Extraction), aunque no son
exactamente lo mismo. Algunas de las diferencias apuntadas en [Kosala &
Blockeel 2000] son:
 Minería web e IR: La IR tiene como objetivo principal el indexado de texto y

la búsqueda de documentos útiles en una colección, aunque actualmente la
investigación en IR incluye la modelización, la clasificación y categorización
de documentos, interfaces de usuario, visualización de datos filtrados, etc.
Es decir, la IR ([Saltan & McGill 1983; Baeza-Yates & Ribeiro-Neto 1999])
está interesada en seleccionar documentos relevantes. La tarea de la
minería web más relacionada es la de la clasificación y categorización de
documentos web, los cuales pueden usarse para la indexación.
161
 Minería web e IE: La lE tiene como objetivo principal la transformación de

una colección de documentos en información para que sea más fácilmente
comprendida y analizada. En otras palabras, la IE se centra en extraer
hechos relevantes desde documentos. Básicamente, existen dos tipos de
IE: desde textos no estructurados y desde datos semi-estructurados. Los
métodos clásicos de IE (por ejemplo, [Cardie 1997; Wilks 1997]) tratan con
textos (no estructurados) escritos en lenguaje natural y tienen su raíz en la
comunidad del procesamiento de lenguaje natural. Estos métodos se basan
en algún tipo de pre-procesado lingüístico, corno el análisis sintáctico, el
análisis semántica y el análisis del discurso. Con la creciente popularidad
de la web, se ha puesto de manifiesto que los sistemas clásicos de IE no
son apropiados para medios tan dinámicos y diversos como la web y que es
necesario sistemas estructurales que extraigan información desde
documentos semi-estructurados. Estos sistemas estructurales (por ejemplo,
[Muslea 1999; Kushmerick et al. 1997; Hsu & Dung 1998]) utilizan meta-
información, como las etiquetas HTML o los delimitadores. Para su
construcción se usan técnicas de minería de datos y de aprendizaje
automático, ya que construir los sistemas manualmente no es apropiado
para este medio.
Clasificación de la Minería Web
Generalmente, en la literatura clasifica la minería web en tres áreas de interés en

función de la parte de la web que se mina: minería del contenido, minería de la
estructura y minería del uso.
La minería del contenido de la web describe el descubrimiento de información útil

desde los contenidos textuales y gráficos de los documentos web, y tiene sus
orígenes en el procesamiento del lenguaje natural y en la recuperación de la
información, (tal y como hemos comentado en la sección anterior). Analiza, por
162
tanto, documentos, más que los enlaces entre ellos. Los contenidos de la web han
cambiado sustancialmente desde su origen. Al principio, Internet consistía en
diferentes tipos de servicios y fuentes de datos, casi todos textuales y estáticos.
Ahora, podemos encontrar una gran variedad de datos: librerías digitales
accesibles desde la web, las bases de datos de muchas empresas que ofrecen
electrónicamente sus negocios y servicios, aplicaciones y sistemas que están
siendo migrados a la web o emergen en este entorno. De hecho, algunos de los
datos en la web son ocultos ya que se generan dinámicamente o se obtienen
como respuesta a preguntas cuyos datos residen en bases de datos privadas.
Resumiendo, los contenidos en la web pueden ser de varios tipos: textual,
imágenes, audio, video, meta-datos e hipervínculos, y constan de datos no
estructurados (texto), datos muy poco estructurados (como en los documentos
HTML), datos semi-estructurados (como los documentos XML) y datos más
estructurados (como los contenidos en bases de datos generadas desde paginas
HTML). Sin embargo, como la mayoría del contenido corresponde a texto no
estructurado, esta es el área más investigada.
La minería de la estructura de la web trata de descubrir el modelo subyacente a la

estructura de enlaces de la web y analiza, fundamentalmente, la topología de los
hipervínculos (con o sin descripción de los enlaces). Este modelo puede usarse
para categorizar páginas web y es útil para generar información como la similitud y
relación entre diferentes sitios web, así como para detectar páginas autoridades y
páginas concentradores (que apuntan a páginas autoridades), estudiar topologías,
etc.
La minería de uso de la web es el proceso de analizar la información sobre los

accesos web disponibles en los servidores web. A diferencia de las minerías de
contenido y de estructura que usan datos reales sobre la web, la minería de uso
mina datos secundarios derivados de la interacción de los usuarios mientras
interactúan con la web. Estos datos incluyen los archivos de log de acceso al
servidor, log del navegador, log de los servidores proxy, perfiles de usuario, datos
de registros, sesiones o transacciones del usuario, cookies, preguntas del usuario,
163
pulsos del ratón y desplazamientos por las páginas, y en general cualquier otro
dato fruto de la interacción.
Dada la enorme cantidad de información disponible en la web y la gran diversidad

de la misma, uno de sus principales usos es el de buscar información. La principal
diferencia entre las técnicas de recuperación de información y las técnicas de
minería del contenido de la web es que las primeras ayudan a los usuarios a
encontrar documentos que satisfacen sus necesidades de información, mientras
que las segundas permiten descubrir, reconocer o derivar información nueva a
partir de uno o, generalmente, varios documentos.
La minería del contenido de la web ha sido principalmente aplicada para dos

objetivos que corresponden a dos puntos de vista diferentes:
 visión desde IR: para asistir, mejorar o filtrar la información que los
buscadores proporcionan a los usuarios a partir de los perfiles de los
mismos (los cuales a su vez pueden haber sido inferidos o bien solicitados).
Este objetivo también incluye los documentos que se reciben por correo,
por grupos de noticias u otros medios diferentes de la navegación.
 visión desde Bases de Datos: modelar e integrar los datos encontrados en
la web para permitir preguntas más sofisticadas que las búsquedas
basadas en palabras clave. Muchas de las aplicaciones tienen por tarea la
extracción de esquemas o la construcción de DataGuides ([Nestorov et al.
1998; Goldman & Widom 1999]), de las que hablaremos en la sección de
minería de marcado (21.3.4).
Los diferentes tipos de datos contenidos en la web han dado lugar a diferentes
técnicas de minería de datos para los diferentes formatos en los que éstos se
presentan. Así, la aplicación de técnicas de minería a textos no estructurados se
conoce como minería de textos (Text Mining), cuando se trata de texto semi-
estructurado (XML, HTML, etc.) recibe el nombre de minería del marcado (Markup
Mining), si se trata de datos multimedia hablamos de minería multimedia
(Multimedia Mining), finalmente, si sólo nos referimos a los enlaces entre
164
documentos o en el propio documento, pero sin tener en cuenta la estructura,

recibe el nombre de minería de hipertexto (Hipertexto Mining). De hecho, a los
documentos HTML, al ser sus marcas fundamentalmente de formato y no de
contenido, se les suele eliminar las marcas y se les trata como textos.
Mineria de la Estructura de la Web
Uno de los principales problemas cuando interactuamos con la web es encontrar

información interesante. Los buscadores basados en índices (como Google,
AltaVista, Yahoo!, Excite o InfoSeek) han sido unas de las primeras herramientas
con las que han contado los usuarios para buscar información en la web. Si bien
son útiles para usuarios experimentados o cuando se buscan páginas sobre un
tópico muy concreto, pueden no ser tan adecuadas para un concepto muy general
contenido en miles o millones de páginas, lo que obligaría al usuario a revisar un
excesivo número de páginas. Por lo tanto, a la hora de buscar tópicos en la web
cuyo resultado sea de un tamaño razonable para el ser humano, necesitamos
identificar las páginas web más significativas o definitivas (autoridades) en el
tópico. Esta noción de autoridad añade una segunda dimensión crucial a la noción
de relevancia: deseamos no solo localizar un conjunto de páginas relevantes sino
que además sean de una alta calidad. En segundo lugar, la web consta no solo de
páginas sino también de hipervínculos que conectan una página a otra. Estos
hipervínculos representan la intención por parte del autor de "incluir" la página
referenciada, lo cual puede ser de interés para inferir automáticamente la noción
de autoridad y hacernos una buena idea de la relevancia y calidad de los
contenidos de la web.
En el modelo más simple, el hipertexto se representa como un grafo (D, L) donde

D es el conjunto de páginas o documentos y L el conjunto de enlaces. Dado que la
teoría de las redes sociales estudia las propiedades relacionadas con la
conectividad y las distancias en grafos, recientemente se ha aplicado este tipo de
análisis y el análisis de citaciones al grafo de la web con el propósito de identificar
165
las paginas mas acertadas con relación a la pregunta del usuario ([Chakrabarti
2003]) recogiendo la idea intuitiva de que el documento mas citado o mas
referenciado es el más importante.
Leccion 45. Mineria de Textos
Pearson. Pag. 555.
El objetivo de la minería de textos es el descubrimiento de nueva información a

partir de colecciones de documentos de texto no estructurado. Por no estructurado
nos referimos a texto libre, generalmente en lenguaje natural aunque también
podría ser código fuente u otro tipo de información textual. La tarea de minería
más habitual sobre estos datos es la categorización, la clasificación y el
agrupamiento de los textos. Podemos decir que la categorización es la tarea que
identifica las categorías, temas, materias o conceptos presentes en los textos,
mientras que la clasificación es la tarea de asignar una clase o categoría a cada
documento. Existen en la literatura otras definiciones diferentes para la
categorización de textos, como la de [Dumais et al. 1998]: ―la asignación de textos
en lenguaje natural a una o más categorías predefinidas basadas en sus
contenidos‖. Otros autores tienden a ver la categorización como una parte de la
clasificación, por lo que categorización y clasificación se usan como sinónimos.
Nosotros aquí usaremos la siguiente taxonomía:
 Agrupamiento de documentos: para organizar los documentos entorno a

una jerarquía basándose en alguna medida de similitud.
166
 Identificación de categorías: extracción de términos significativos (es muy

parecido al análisis de relevancia de atributos y está relacionado con el
agrupamiento).
 Categorización: asignar una o más categorías a un documento (esta es la
que se usa en el resto del libro).
 Clasificación: asignar una (y solo una) clase a un documento.
 Asociaciones: generalmente entre conceptos más que entre palabras.
Una aproximación muy usual a la categorización, si se tienen pocas categorías,

digamos n, es convertir el problema en n problemas de clasificación binaria, en el
que cada clasificador (i) se limita a decir si el documento es de la clase (i) o no.
La minería automática de textos juega un papel importante en una amplia variedad

de tareas de manipulación de la información más dinámicas y personalizadas,
como en el orden en tiempo real del correo electrónico o archivos en jerarquías de
carpetas, en el filtro del correo electrónico, búsqueda estructurada y/o en los
navegadores web, identificación de tópicos para soportar operaciones de
procesamiento especificas a un tópico, catalogación de nuevos artículos y páginas
web y en los agentes de información personal.
En la minería de textos lo primero en realizar es representar el texto en algún

formato concreto que pueda ser adecuado para los algoritmos de aprendizaje.
Esto se realiza en dos pasos. El primero consiste en usar una representación más
abstracta, siendo las más habituales en IR las siguientes:
 Bolsas de palabras (bag of Word [Sahami et a1. 1996; Lagus et al. 1999]):
llamada también representación basada en vectores, ya que cada
documento se representa como un vector de dimensión J, siendo J el
numero de palabras y en donde cada palabra constituye una componente
del vector y representa una características, la cual puede ser booleana
(aparece o no en el documento) o basada en frecuencias (el número de
167
veces que ha aparecido en el documento). Esta representación ignora el

orden de aparición de las palabras en el texto y es una de las más
empleadas en el área de la IR.
 Frases ([Frank et al. 1999]): esta representación consiste simplemente en
considerar el documento como un conjunto de frases sintácticas, tal y como
se hace en el análisis del procesamiento de lenguaje natural. Esta
representación permite mantener el contexto en el que ocurre una palabra,
hecho que se pierde en la representación anterior.
 N-gramas ([Kargupta et al. 1997a]): permiten usar la información sobre la
posición de la palabra en el texto, ya que este se representa mediante
secuencias de palabras de longitud máxima n, llamadas n-gramas.
Permiten un mejor tratamiento de las frases negativas como ―…excepto...‖ o
―…pero no...‖ que de otra forma tomarían como relevantes las palabras que
les siguen.
 Representación relacional ([Cohen 1995b]): la representación usando lógica
de primer orden permite detectar patrones más complejos. Por ejemplo,
cada palabra se puede representar mediante un átomo de la forma wi(d,p),
el cual es cierto cuándo la palabra wi ocurre en el documento d en la
posición p.
 Categorías de conceptos ([Deerwester et al. 1990]): también llamado
Indexacion Semántica Latente (Latent Semantic Indexing) ya que tiene
como objetivo la reducción de la dimensión del vector de palabras inicial
reduciendo las palabras a su raíz morfológica, es decir, las palabras
―informando‖, ―información‖, ―informado" e "informador" se representarían
por su raíz ―informe" y solo esta palabra se usaría como componente del
vector. Esta reducción tiene que ser cuidadosa, ya que otras palabras
aparentemente con la misma raíz pueden no tener relación con el término.
En el ejemplo anterior, "informal" e ―informática" tienen poca relación.
Casi todas estas representaciones se enfrentan al problema del vocabulario

([Furnias et al. 1987]), es decir, tienen errores semánticos debido a la sinonimia
168
(diferentes palabras con el mismo significado), la quías-sinonimia (palabras

relacionadas con la misma materia, como declaración y comunicado), la polisemia
(palabras iguales con diferente significado), los lemas (palabras con el mismo
radical como descubrir y descubrimiento), etc. Aunque se han realizado algunos
estudios comparando las distintas representaciones (como por ejemplo [Scott &
Matwin 1999]), en general no se han encontrado diferencias sustanciales en
cuanto a las prestaciones de los algoritmos usando una u otra, aunque en un
problema especifico sí que pueden aparecer diferencias.
El segundo paso consiste en reducir el conjunto de características original

(reducción de la dimensionalidad en el área del reconocimiento de patrones), ya
que el conjunto de características que resultan de las representaciones descritas
puede ser de cientos de miles, algo inabordable para muchos de los algoritmos de
aprendizaje inductivos. La primera aproximación consiste en eliminar palabras con
poca semántica, como son los artículos, preposiciones y conjunciones. En
[Moulinier 1996] se describen dos maneras más elaboradas para reducir la
dimensionalidad del vector basadas en el ámbito y en la naturaleza del problema.
La reducción por ámbito tiene que ver con la universalidad del conjunto de
características, mientras que la reducción por naturaleza describe como se
seleccionan los atributos (por filtrado o por transformación.
Se han empleado un gran número de técnicas del aprendizaje automático y

estadísticas a la categorización de textos, incluyendo modelos de regresión
multivariante ([Yang & Chute 1994]), clasificadores del vecino más próximo ([Yang
1994]), modelos bayesianos ([Jocháis 1996; Lewis & Ringuette 1994]), arboles de
decisión ([Lewis & Ringuette 1994]), redes neuronales ([Schiitze et al. 1995]),
aprendizaje de reglas simbólicas ([Cohen 1995b]) Y maquinas de vectores soporte
([Jocháis 1998]).
Las tematicas de los últimos capítulos pueden ser profundizadas a criterio del
estudiante en la referencia citada del libro: Introduccion a la Mineria de Datos.
169
José H. Orallo, Ma José Ramirez Q y Cesar F Ramirez. De Pearson, el cual ha

sido una excelente fuente para la creación de este modulo, ya que ilustra de
manera adecuada cada uno de los ejemplos; a la vez se citan las paginas para
mayor entendimiento de aquellos estudiantes que quieran profundizar más,
respetando por completo los derechos de autor como se mencionó en la
introducción de este modulo.
170
ANEXOS
Oracle SQL Developer

Submitted by carlos on 30 April, 2008 - 23:55
 Bases de datos
 Bases de datos
 Oracle
 SQLServer
 MySQL
 gratuito
 herramientas
 IDE
 oracle SQL developer
Versión para impresión
Oracle SQL Developer es la herramienta gráfica gratuita que proporciona Oracle

para que no sea necesario utilizar herramientas de terceros (como el conocido
TOAD, o el PL/SQL Developer) para desarrollar, o simplemente para ejecutar
consultas o scripts SQL, tanto DML como DDL, sobre bases de datos Oracle.
La apariencia y funcionalidad es similar a la de otras herramientas de este tipo, por

lo que es una buena opción si no tenemos especial predilección por otras
herramientas.
Además en las últimas versiones ha incorporado mejoras como permitir conectar

con bases de datos no Oracle, como SQLServer, MySQL o Access. La conexión
con MySQL o SQLServer se realiza a través de JDBC, y de manera bastante
sencilla. Una vez establecida la conexión se pueden explorar los objetos de las
bases de datos como si se tratara de una de Oracle, y ejecutar sobre ellas
sentencias SQL, aunque en cuanto a funcionalidades más avanzadas como la
creación de estructuras este tipo de conexión estará mucho más limitada.
Se puede consultar más información o descargar la herramienta en

www.oracle.com/technology/software/products/sql/index.html
171
Conectar Oracle SQL Developer con MySQL
A modo de ejemplo comentaré los sencillos pasos que se pueden seguir para
poder utilizar SQL Developer con una BD MySQL:
 Descargar y descomprimir el driver JDBC para MySQL, que se puede

obtener en la zona de descargas de conectores de la web de MySQL.
 En el directorio generado localizar el archivo .jar, que es el binario que
contiene el conector. El nombre ha de ser algo así como 'mysql-connector-
java-...-bin.jar'. Para que lo tengáis aún más fácil adjunto la versión 5.1.7,
que es la que yo he utilizado ahora.
 En la opción de menú Herramientas, entrar en Preferencias.. y abrir las
opciones de Base de datos y seleccionar Controladores JDBC de Terceros.
Hacer click sobre el botón Agregar Entrada, y con el explorador de archivos
seleccionar el archivo .jar que hemos descargado.
172
 Después de esto, en la ventana que se abre al agregar conexiones os

debería aparecer una nueva pestaña MySQL que permite definir una
conexión con MySQL.
173
Conectar Oracle SQL Developer con SQL Server y Sybase
Comento también los pasos que se pueden seguir para poder utilizar SQL
Developer con una BD SQL Server o Sybase, aunque lo único que cambia es el
driver que se utiliza:
 Descargar y descomprimir el driver JDBC para SQL Server/ Sybase. El

proyecto open source jTDS proporciona un driver que sirve para ambas
bases de datos. Sólo hay que seleccionarlo de la sección de Download
contiene el conector. El nombre ha de ser algo así como 'jtds-... .jar'. Para
que lo tengáis aún más fácil adjunto la versión 1.2.3, que es la que yo he
utilizado ahora.
174
Servidor virtual con Pentaho configurado
Submitted by carlos on 7 October, 2008 - 14:18
 Business Intelligence
 Data warehouse
 OLAP
 Cuadro de mando
 Pentaho
 Tendencias tecnológicas
 Software libre
 centos
 Data warehouse
 Minería de datos
 centos
 imagen virtual
 instalacion
 Pentaho
 virtualbox
 vmware
175
Hemos preparado servidores virtuales con una instalación preconfigurada de

Pentaho, la conocida plataforma open source de Business Intelligence (Pentaho
BI PCI).
Podéis descargar libremente una máquina virtual preparada con el software de
virtualización Sun VirtualBox 2.0, y otra con VM ware server 2.0:
Descarga de maquina virtual para Virtual Box

Descarga de maquina virtual para VMware
(Paciencia con la descarga, los archivos son muy grandes)
La instalación de Pentaho
Se ha hecho una instalación de Pentaho BI Suite PCI, que es la instalación de

Pentaho que viene preconfigurada con la versión 1.7 GA (estable) de la suite, y
con una base de datos Hypersonic (HSQLDB) operativa, con datos de prueba para
que puedan ejecutarse los informes y 'aplicaciones' que podemos encontrar en el
portal de ejemplo que tenemos accesible al levantar el servidor.
Se puede utilizar esta instalación para probar la plataforma en tu propia

máquina/servidor explorando las opciones del portal, o incluso se puede usar
como base para construir un sistema propio de BI con Pentaho.
Sólo hay que crear una nueva máquina virtual con el software de virtualización y
hacer que arranque desde los archivos que hemos descargado. Se entra al
sistema con el usuario dataprix, contraseña dataprix.
Al arrancar la máquina ya levantamos el servidor de BI automáticamente, por lo

que lo único que hay que hacer para utilizar Pentaho es abrir el explorador Firefox,
que tiene como página de inicio la del portal. Los usuarios del portal ya tienen la
contraseña introducida, por lo que con dos clicks ya podremos comenzar a
explorar los informes.
176
De todas maneras, indico cómo se puede detener y levantar el servidor por si

alguien quiere hacerlo manualmente:
Para levantarlo:
1. Hacer doble click en el Icono Terminal del escritorio

2. En la ventana del terminal ejecutar los siguientes comandos:
$ cd pentaho-demo (directorio de la demo)
$ ./start-pentaho.sh (shell de arranque de la plataforma)
3. Esperar a que en el terminal aparezca el mensaje Pentaho BI server listo
4. Abrir el navegador Firefox (icono al lado de la opción de menú Sistema)
La url de acceso al portal es http://localhost:8080/pentaho
Para detener el servidor Pentaho, abriendo otro terminal:
$ cd pentaho-demo
$ ./stop-pentaho.sh
177
Las herramientas de Virtualización
VirtualBox
Virtual Box está disponible para Linux, OS X (Mac) y Windows, y dispone de una
edición gratuita de evaluación y uso personal, y otra Open Source sujeta a las
condiciones de la licencia GPL. De esta manera nuestra imagen podrá utilizarse
libremente en cualquier entorno, siempre que se respeten las condiciones de las
licencias.
Se instala con facilidad en cualquier entorno, y su funcionamiento es muy intuitivo,

pero adjunto el manual de usuario para quien no conozca la herramienta, o quiera
utilizar opciones avanzadas.
Para utilizar nuestro servidor virtual se pueden seguir estos sencillos pasos:
1. Instalar VirtualBox
2. Descargar el disco virtual desde Imagen virtual Pentaho VirtualBox
3. Descomprimirlo en el directorio de discos virtuales de VirtualBox,
normalmente se llama VDI
4. Ejecutar VirtualBox y crear una nueva máquina con el asistente de la
aplicación, escogiendo el tipo de Sistema Operativo Red Hat, 512 Mb de
memoria (esto es una sugerencia), y el disco virtual descargado como disco
de inicio.
5. Arrancar la máquina haciendo doble click sobre ella.
Agradecemos a Oscar Osta la preparación de la imagen virtual con la instalación

de CentOS que nos ha servido como base.
VMware
Seguramente es el software de virtualización más utilizado, y también dispone de

versiones que se pueden utilizar libremente, aunque no para todos los sistemas
operativos. Como hay varios productos de VMWare que permiten trabajar con la
máquina virtual que hemos preparado (VMware Player, VMware Server, VMware
Infrastructure..), os remitimos a la propia web de WMware para descargar
cualquiera de ellos o consultar la documentación.
De todas maneras, con la mayoría de estos productos la manera de proceder

sería muy similar:
1. Instalar un producto de VMWare que permita arrancar la máquina virtual
178
2. Descargar la maquina virtual desde Imagen virtual Pentaho VMware

3. Descomprimirla en el directorio de discos virtuales de VMware..,
normalmente My virtual machines, en la carpeta de documentos del
usuario.
4. Ejecutar VMware.. y agregar una nueva máquina al inventario
seleccionando de los archivos descargados el de extensión .vmx.
5. Arrancar la máquina haciendo doble click sobre ella.
El Sistema Operativo
Como Sistema Operativo base para la instalación de Pentaho se ha escogido

CentOS 5. Las razones también tienen que ver con el uso que se le pueda dar a
esta imagen. Este SO Linux está basado en el código fuente libre que utiliza Red
Hat Enterprise Linux y, a efectos prácticos, funciona de la misma manera que esta
conocida versión empresarial de Linux, y está orientado también a un uso
empresarial, pero es totalmente de libre distribución. Se puede utilizar hasta en un
entorno de producción, y la mayoría de la documentación y prácticas de RedHat
son aplicables a CentOS.
Se ha creado el usuario dataprix. El password tanto de este usuario como del

usuario root es también dataprix.
179
Esta es la instalación de Pentaho más básica, que está configurada para funcionar
en local y sobre Hypersonic, perfecta para evaluar las posibilidades de este
software Open Source de Business Intelligence, o para una primera toma de
contacto sin muchas complicaciones. También sirve como base para preparar
cosas más complejas, y espero en un futuro poder ir ampliando esta máquina
virtual con nuevas funcionalidades, configuraciones, pruebas o demos
interesantes.
Si alguien utiliza esta imagen como base para hacer algo interesante
agradeceremos que nos lo cuente, o que se ponga en contacto con nosotros si
quiere que alojemos su 'versión'. Igualmente cualquier comentario, duda, idea o
sugerencia será bienvenido en nuestro foro, en el tema Imagen Virtual con
Pentaho.
Oracle SQL Developer

Submitted by carlos on 30 April, 2008 - 23:55
180
 Bases de datos
 Bases de datos
 Oracle
 SQLServer
 MySQL
 gratuito
 herramientas
 IDE
 oracle SQL developer
Oracle SQL Developer es la herramienta gráfica gratuita que proporciona Oracle

para que no sea necesario utilizar herramientas de terceros (como el conocido
TOAD, o el PL/SQL Developer) para desarrollar, o simplemente para ejecutar
consultas o scripts SQL, tanto DML como DDL, sobre bases de datos Oracle.
La apariencia y funcionalidad es similar a la de otras herramientas de este tipo, por

lo que es una buena opción si no tenemos especial predilección por otras
herramientas.
Además en las últimas versiones ha incorporado mejoras como permitir conectar

con bases de datos no Oracle, como SQLServer, MySQL o Access. La conexión
con MySQL o SQLServer se realiza a través de JDBC, y de manera bastante
sencilla. Una vez establecida la conexión se pueden explorar los objetos de las
bases de datos como si se tratara de una de Oracle, y ejecutar sobre ellas
sentencias SQL, aunque en cuanto a funcionalidades más avanzadas como la
creación de estructuras este tipo de conexión estará mucho más limitada.
Se puede consultar más información o descargar la herramienta en

www.oracle.com/technology/software/products/sql/index.html
181
Conectar Oracle SQL Developer con MySQL
A modo de ejemplo comentaré los sencillos pasos que se pueden seguir para
poder utilizar SQL Developer con una BD MySQL:
 Descargar y descomprimir el driver JDBC para MySQL, que se puede

obtener en la zona de descargas de conectores de la web de MySQL.
contiene el conector. El nombre ha de ser algo así como 'mysql-connector-
java-...-bin.jar'. Para que lo tengáis aún más fácil adjunto la versión 5.1.7,
que es la que yo he utilizado ahora.
182

183
Conectar Oracle SQL Developer con SQL Server y Sybase
Comento también los pasos que se pueden seguir para poder utilizar SQL
Developer con una BD SQL Server o Sybase, aunque lo único que cambia es el
driver que se utiliza:
 Descargar y descomprimir el driver JDBC para SQL Server/ Sybase. El

proyecto open source jTDS proporciona un driver que sirve para ambas
bases de datos. Sólo hay que seleccionarlo de la sección de Download
contiene el conector. El nombre ha de ser algo así como 'jtds-... .jar'. Para
que lo tengáis aún más fácil adjunto la versión 1.2.3, que es la que yo he
utilizado ahora.
184
185
Conclusiones
 La minería de datos es un proceso que permite a un usuario extraer

conocimiento de sus datos y que pueden ser útiles para la toma de
decisiones.
 Debido a que en muchos casos los datos de entrada contienen diferentes

tipos de problemas, se ha creado el proceso KDD, el cual organiza de
forma esquemática cada una de las etapas necesarias para extraer
patrones de calidad. Este esquema incluye desde la selección y limpieza de
los datos hasta técnicas para la evaluación de patrones, donde la minería
de datos se ubica en el centro del proceso.
 La minería de datos es una herramienta muy poderosa, sin embargo, es

necesario tener un conocimiento sobre los datos, de tal forma que permita
seleccionar los mejores métodos para el proceso de minería.
186
BIBLIOGRAFIA
 Jose Hernandez Orralle-Jose Ramirez Quintana-Cesar Ferri Ramirez.

Pearson. Prentice Hall,Introduccion a la minería de datos
 Cesar Perez. Daniel Santín,Data Mining Soluciones con Enterprise
Miner.. Alfaomega- Rama.
 Jorge Enrique Rodriguez Rodriguez., Fundamentos de Mineria de
Datos. Jorge Enrique Rodriguez Rodriguez. Universidad Distrital
Francisco José de Caldas.
 Fundamentos de Sistemas de bases de datos (quinta edición)RAMEZ
ELMARS departamento de loscomputadores.
 Jose Manuel Diaz(Person Eddision Wesley)
 Ramez Elmars. Fundamentos de sistemas de bases de datos (quinta
edición) Departamento de Computadoras y aplicaciones.
 José Manuel Díaz. Introducción a la Minería de Datos(Pearson Eddison
Wesley).
 José Hernández Orralle- José Ramírez Quintana-Cesar Ferri Ramírez.
Introducción a la minería de datos.( Pearson. Prentice Hall).
 Pablo Valderrey Sanz. Extracción del conocimiento a partir del análisis
de datos. Ra-ma.
 Jhon Wiley Alan Simon and Sons. Data Warehouse, Data Mining and
OLAP. USA, 1997.
 Alex Berson, Stephen J. Smith. Data Warehouse, Data Mining and
OLAP. USA, 1997. Mc Graw Hill.
 María José Ramírez Quintana José Hernández Orallo. Extracción
Automática del Conocimiento en Bases de Datos e Ingeniería del
Software. España, 2003. UOC.
187
 IBM Press. IBM DB2 IntelligentMinerfor Data: Utilización del Visualizador

de Asociaciones. IBM Press, USA, 1999.
 Colin J. White. IBM Enterprise Analytics for the
Intelligent e-Business. IBM Press, USA, 2001.

 Otras referenciadas relacionadas a los largo del Modulo.
188

Mineria de Datos Electiva

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mineria de Datos Electiva

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD

Escuela de Ciencias Básicas Tecnología e Ingeniería

JOSE MIGUEL HERRAN SUAREZ

UNIVERSIDAD NACIONAL ABIERTA YA DISTANCIA – UNAD

PROGRAMA: INGENIERIA DE SISTEMAS

UNIDAD 1: MINERIA DE DATOS .................................................................................................................... 9

1.1. Capitulo I:Conceptos Fundamentales ............................................................................................... 9

1.2. Capitulo II KDD. ............................................................................................................................. 30

1.3 Capitulo III Reglas de Asociación usadas en Minería de Datos............................................................. 49

UNIDAD II PROCESO DE MINERIA DE DATOS. ............................................................................................ 67

2.1. CapituloIV: El Modelo de CRISP – DM. .................................................................................................. 67

Leccion 19. Modelado. ............................................................................................................................ 72

2.2 Capitulo V. Herramientas de Minería de Datos ...................................................................................... 75

2.3. Capitulo VI Ambientes de Trabajo en Grid ............................................................................................ 80

UNIDAD III. Contexto de la Mienría de Datos ............................................................................................. 89

Capitulo VII. Causas de aplicación de la Minería de Datos. ......................................................................... 89

Capitulo VIII. Otros tipos de DataMart ....................................................................................................... 109

Capitulo 9: Técnicas de Minería de Datos. ................................................................................................. 143

ANEXOS ................................................................................................................................................... 171

Oracle SQL Developer ................................................................................................................................. 171

La instalación de Pentaho .......................................................................................................................... 176

Las herramientas de Virtualización ............................................................................................................ 178

Oracle SQL Developer .............................................................................................................................. 180

Conectar Oracle SQL Developer con MySQL.......................................................................................... 182

Conclusiones ............................................................................................................................................ 186

BIBLIOGRAFIA .......................................................................................................................................... 187

1. Figura 1. Análisis de datos

Tabla 1: Ejemplos de aplicaciones de la minería de datos.

Tabla 2. Fases de modelo crips-dm.

Tabla 3 Diferencia entre bases de datos transaccional y almacenes de datos

Tabla 4.Tabulacion de ventas con nombre_articuloy color

Tabla 5. Representación relacional de los datos.

Tabla 6. Tabulacion cruzada de ventas con la jerarquia

Es así que esta situación ha fomentado el desarrollo de herramientas para el

de datos o (Data Mining), se define como un conjunto de técnicas y herramientas

El objetivó de la implementación de este modulo el cual vale tiene un peso de tres

La temática de la unidad uno es Mineria de Datos, la Unidad dos Preapración de

UNIDAD 1: MINERIA DE DATOS

1.1. Capitulo I:Conceptos Fundamentales

La minería de datos está relacionada con la subárea de la estadística denominada

Un algoritmo es escalable y el tiempo de ejecución crece (linealmente) en

La búsqueda de tendencias útiles en los conjuntos de datos es una definición

 Conjuntos de elementos frecuentes y reglas de asociación

Se introduce entonces varios tipos de datos nuevos, estos tipos de datos

Lección 1: Características de Mineria de Datos.

Historia de la Minería de Datos

Extracción de patrones de información (implícitos, no triviales, desconocidos y

También conocido por: Descubrimiento del conocimiento en bases de datos

Minería de datos NO es:

_ Procesamiento deductivo de consultas en BBDD

Muchas de las técnicas usadas en MD ya eran conocidas previamente, ¿a qué se

En los 90‘s convergen los siguientes factores:

 Los datos se están produciendo

La MD sólo tiene sentido cuando se dispone de grandes volúmenes de datos?

Ahora los datos se producen en grandes cantidades: scanners de venta, tarjetas

 El .log producido por Yahoo es de 10 GB cada hora.

 El .log de google es de 23 GB cada 33 minutos.

Para una documentación e ilustración más acorde, se acude a la URL

Fuente: Artículo Publicado en la url:

El estudio señala que un crecimiento masivo de servidores, archivos y gestión de

- 10 veces el número de servidores (virtuales y físicos).

- 50 veces la cantidad de información a gestionar.

- 75 veces el número de archivos o contenedores que encapsulan la información