Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MODULO
MINERIA DE DATOS
COD 201170
TUNJA. 2012
1
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
INDICE DE CONTENIDO
Contenido
INTRODUCCIÓN ........................................................................................................................................... 7
2
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
3
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Conectar Oracle SQL Developer con SQL Server y Sybase ..................................................................... 174
Servidor virtual con Pentaho configurado ............................................................................................. 175
4
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Listado de figuras
5
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Listado de tablas
6
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
INTRODUCCIÓN
Este modulo pretende y busca dar una visión general de lo que son las técnicas de
análisis de los datos y el proceso de Minería de Datos, basándose en una gran
recolección de información de variadas fuentes, paginas de internet, artículos
científicos, foros de desarrollo y en especial en los libros (la gran mayoría en
ingles)… todos ellos citados para respetar la propiedad intelectual y brindar al
estudiante los conceptos y las técnicas de la manera mas entendible; de manera
tal que al estudiar el modulo en la soledad de su propia disciplina logre adquirir los
conocimientos sin problemas y no provoce un desanimo ni una apatía al area de
estudio, a la vez se debe tener en cuenta que cada semestre se actualizará el
modulo por lo tanto es importante bajarlo del repositorio para una mayor
concordancia con el curso en la plataforma. El tema que concierne es muy
complejo y hay mucha tela de donde cortar, por lo que se pretende sentar las
bases para una profundización en las diferentes areas de aplicación, y a la vez se
recomienda hacer un repaso jucioso de las tematicas revisadas en Bases de
Datos, Análisis y Diseño de Sistemas, Inteligencia Artificial (Redes Neuronales) y
Probabilidad.
Durante el desarrollo tecnológico podemos ver como una de las herramientas que
han sido de gran utilidad dentro del campo del manejo de volúmenes de
información la Mineria de Datos se ha venido abriendo campo en los diferentes
ámbitos laborales como son las aplicaciones científicas, de negocios y medios de
información gracias a ella se puede ver como esta interactuando y almacenando
datos en la mayoría de los casos, estas organizaciones tienden a construir
conjuntos de datos centralizados o almacenes de datos (Data warehouse) que
reúnen toda la información de sus liares dispersas geográficamente.
7
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
8
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
9
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
La SQL /MM: data mining de la norma SQL: 1999 soporta cuatro tipos de modelos
de minería de datos:
Agrupaciones de registros
Arboles de regresión
Arboles de clasificación.
En conjunto estas clases y sus métodos ofrecen una interfaz normalizada para los
algoritmos de minería de datos que se pueden invocar desde cualquier sistema de
bases de datos SQL: en 1999. Los modelos de minería de datos se pueden
exportar en formato XML normalizado denominado lengua de marcas de
modelos predictivos (Predictive Model Markup Language, PMML); también se
pueden importar los modelos representados mediante PMML.
10
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
11
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
12
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Artículo de Reflexión. La información digital crece a mas del doble cada año.
http://www.muycomputerpro.com/2011/08/03/informacion-digital-crece-doble-anos/
ECM publicó recientemente los resultados del estudio de IDC Digital Universe,
Extracting Value from Chaos, en el que se llega a la conclusión de que la
información digital en el mundo crece más del doble cada dos años, llegando a la
colosal cifra de 1,8 zettabytes creados y replicados en 2011.
La tecnología y el dinero son los encargados de impulsar las fuerzas que residen
detrás de este incesante crecimiento. Las nuevas tecnologías para la utilización
sencilla de la información están reduciendo el coste a la hora de crear, capturar,
gestionar y almacenar la información: un sexto del coste en 2011 respecto a 2005.
Además, desde 2005 las inversiones anuales de las empresas en el Universo
Digital han aumentado un 50%, alcanzando unos 4.000 millones de dólares.
13
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
significa que en alguna parte del viaje del byte, desde su origen a su eliminación,
la información se almacenará o procesará en la nube. Tal vez hasta un 10%
permanecerá en la nube.
El estudio también señala que la sombra digital tiene mente propia: la cantidad de
información que crean los particulares (escribiendo documentos, haciendo
fotografías, descargando música, etc.) es mucho menor que la cantidad de
información creada sobre ellos mismos en el universo digital. Además, la
responsabilidad legal o de cualquier otra naturaleza es de las empresas: a pesar
de que el 75% de la información en el universo digital la generan particulares, las
empresas son legalmente responsables del 80% de esta información en algún
punto de su vida digital.
Por otra parte, las herramientas de inteligencia empresarial tratan cada vez más
con datos en tiempo real, tanto si se trata de cargar primas de seguros de
automóviles en función de dónde se conduce, de la distribución de la energía a
través de la red inteligente o de cambiar mensajes sobre la marcha según las
respuestas de las redes sociales.
http://www.muycomputerpro.com/2011/08/03/informacion-digital-crece-doble-anos/
14
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
15
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
16
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Fuente: Introduccion a la Mineria de Datos. José H. Orallo, Ma José Ramirez Q y Cesar F Ramirez.
Pearson.
17
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Weka (Waikato Environment for Knowledge Analysis - Entorno para Análisis del
Conocimiento de la Universidad de Waikato) es una plataforma de software para
aprendizaje automático y minería de datos escrito en Java y desarrollado en la
Universidad de Waikato. Weka es un software libre distribuido bajo licencia GNU-
GPL.
Las pautas identificadas por esas herramientas pueden ofrecer a los analistas de
datos una perspectiva útil e inesperada que posteriormente se puede investigar
con más detenimiento, quizás empleando otras herramientas de soporte a las
decisiones.
Además el análisis debe decidir los tipos de algoritmos de minería que se invocan,
aplicarlos a un conjunto bien escogido de muestra de datos y de variables (es
decir, Tuplas y atributos), resumir los resultados, aplicar otras herramientas de
ayuda a la toma de decisiones y de minería e iterar el proceso para poderlo
ejecutar de la manera mas optima. Cabe mencionar en este punto que lamineria
de datos es una técnica que aborda y que pretende analizar datos y a partir de
ellos lograr predecir un estado de una variable.
18
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
19
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
El análisis de minería de datos tiende a trabajar comenzando por los propios datos
y progresando hacia arriba, y las técnicas que producen los resultados más
precisos requieren, normalmente, grandes volúmenes de datos para poder ofrecer
una conclusión fiable.
La minería de datos puede reportar enormes beneficios a las empresas que hayan
hecho una inversión de significativa en tecnologías de almacén de datos. Aunque
la minería de datos es una tecnología relativamente nueva, ya se utilizan diversos
sectores. La tabla indica diversos ejemplos de aplicaciones de laminería de datos
en comercio al por menos/marketing, banca, seguros y medicina.
20
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Fuente: Autor
Banca
21
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Análisis de partes.
Predicción de los clientes que suscribe nuevas polizas.
Medicina
Objetivo General
22
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
El minero es, muchas veces un usuario final con poca o ninguna habilidad de
programación, facultado por barrenadoras de datos (formatos de registro de datos)
y otras poderosas herramientas indagatorias para efectuar preguntas y obtener
rápidamente respuestas.
23
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
a. Asociaciones.
b. Secuencias.
c. Clasificaciones.
d. Agrupamientos.
e. Pronósticos.
Si esto se hace con la formalidad adecuada (cuidando cuáles son las variables
controladas y cuáles experimentales), se obtiene un nuevo conocimiento.
Luego entonces, se valida esa hipótesis inspirada por los datos en los datos
mismos, será numéricamente significativa, pero experimentalmente inválida. De
ahí que la minería de datos debe presentar un enfoque exploratorio, y no
confirmador. Usar la minería de datos para confirmar las hipótesis formuladas
puede ser peligroso, pues se está haciendo una inferencia poco válida.
24
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
La minería de datos es una tecnología compuesta por etapas que integra varias
áreas y que no se debe confundir con un gran software. Durante el desarrollo de
un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa
que pueden ser estadísticas, de visualización de datos o de inteligencia artificial,
principalmente. Actualmente existen aplicaciones o herramientas comerciales de
minería de datos muy poderosas que contienen un sinfín de utilerías que facilitan
el desarrollo de un proyecto. Sin embargo, casi siempre acaban
complementándose con otra herramienta.
25
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Un reciente estudio del META GROUP sobre los proyectos de Data Warehouse
encontró que el 19% de los que contestaron están por encima del nivel de los 50
Gigabytes, mientras que el 59% espera alcanzarlo en el segundo trimestre de
1997. En algunas industrias, tales como ventas al por menor (retal), estos
números pueden ser aún mayores. MCI Telecommunications Corp. cuenta con
una base de datos de 3 terabytes + 1 terabyte de índices y overhead corriendo en
MVS sobre IBM SP2. La necesidad paralela de motores computacionales
mejorados puede ahora alcanzarse de forma más costo - efectiva con tecnología
de computadoras con multiprocesamiento paralelo. Los algoritmos de Data Mining
utilizan técnicas que han existido por lo menos desde hace 10 años, pero que sólo
han sido implementadas recientemente como herramientas maduras, confiables,
entendibles que consistentemente son más performantes que métodos
estadísticos clásicos.
26
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
27
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Se debe:
28
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Construir con una herramienta (ej. Cmaptools) una estructura que explique el
desarrollo de la planeación del punto anterior.
Nombre de la empresa
Objeto de la empresa
Actividades a
desarrollar
Descripcion de la Producto a
Nombre de la Etapa etapa Responsable entregar
29
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Sin embargo, dentro de estas enormes masas de datos existe una gran cantidad
de información oculta, de gran importancia estratégica, a la que no se puede
acceder por las técnicas clásicas de recuperación de la información.
Así el valor real de los datos reside en la información que se puede extraer de
ellos, información que ayude a tomar decisiones o mejorar nuestra comprensión
de los fenómenos que nos rodean. Hoy, más que nunca, los métodos analíticos
avanzados son el arma secreta de muchos negocios exitosos.
30
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
materia prima bruta. En el momento que el usuario les atribuye algún significado
especial pasan a convertirse en información. Cuando los especialistas elaboran o
encuentran un modelo, haciendo que la interpretación de la información y ese
modelo representen un valor agregado, entonces nos referimos al conocimiento.
En el desarrollo del proceso se analiza e ilustra la jerarquía que existe en una
base de datos entre los datos, información y conocimiento. Se observa igualmente
el volumen que presenta en cada nivel y el valor que los responsables de las
decisiones le dan en esa jerarquía. El área interna dentro del triángulo representa
los objetivos que se han propuesto. La separación del triángulo representa la
estrecha unión entre dato e información, no así entre la información y el
conocimiento.
31
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
tiempo hay un profundo interés por presentar los resultados de manera visual o al
menos de manera que su interpretación sea muy clara. Otro aspecto es que la
interacción humano-máquina deberá ser accesible, dinámica y colaboradora.
32
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Fuente: Introduccion a la Mineria de Datos. José H. Orallo, Ma José Ramirez Q y Cesar F Ramirez.
Pearson.
Figura 6: Proceso de KDD
Se estima que la extracción de patrones (minería) de los datos ocupa solo el 15%
al 20% del esfuerzo total del proceso de KDD.El proceso de descubrimiento de
conocimiento en bases de datos involucra varios pasos:
Determinar las fuentes de información: que pueden ser útiles, dónde conseguirlas
y como accederlas.
33
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
34
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Esto puede involucrar repetir el proceso, quizás con otros datos, otros algoritmos,
otras metas y otras estrategias. Este es un paso crucial en donde se requiere
tener conocimiento del dominio. La interpretación puede beneficiarse de procesos
de visualización, y sirve también para borrar patrones redundantes oirrelevantes.
35
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
El Preprocesamiento.
36
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
En la Figura 7 se observa que las primeras etapas del proceso KDD se dedican a
limpiar, preparar, seleccionar y formatear a los datos de acuerdo a los patrones a
buscar y el algoritmo de Minería de Datos a utilizar. A esta etapa se le conoce
como pre procesamiento.
En esta etapa los datos son preparados para el proceso de Minería de Datos.
Dicha etapa se divide en tres pasos básicos.
Selección y Limpieza
En el mundo real, existen muchas bases de datos que tienen diversos problemas,
como son valores faltantes, ruido (valores que por alguna causa no son correctos),
Inconsistencias (valores que no corresponden a los dominios de los atributos ó
que son contradictorios con otros datos de la misma BD), errores de captura,
errores en la fuente de información, errores provocados por los sistemas de
cómputo, entre otros. Estos problemas deben eliminarse antes de cualquier
proceso de minería de datos, ya que pueden afectar a la precisión de los
resultados o incluso, el algoritmo de minería puede construir patrones a partir de
un conjunto de datos incorrectos.
37
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Para estos casos, se deben de implementar una serie de estrategias que corrijan
tales problemas.
38
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Preparación de Datos
En esta etapa del proceso KDD se busca eliminar todos aquellos datos que no
serán relevantes para el proceso de minería de datos. Por ejemplo, considere la
imagen de la Figura 8 derecha), donde la tarea consiste en identificar
características específicas de las células que representan leucemia. En este caso,
toda la imagen como tal no nos interesa, sólo la región que delimita a la célula
(región de interés). Por tanto, es necesario extraer esta región del resto de la
imagen, a través de técnicas de segmentación.
Es importante mencionar que no todas las bases de datos requerirán aplicar cada
uno de los pasos mencionados en el proceso KDD. Por ejemplo, para la base de
datos representada por la tabla R, si todos los atributos son importantes y además,
39
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Transformación de Datos
40
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Estas propiedades se pueden utilizar como atributos de una tabla, donde cada
registro correspondería a una célula específica, así como se ilustra en la Figura 9.
41
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Para entender el alcance de la MD, hay que comprender qué tipo de tareas se
pueden realizar. Para ello, se identifican características comunes que sirven para
Agrupar las tareas de MD, que son:
Tipos de BD sobre las que se hace MD: aquí se identifica sobre qué tipos
de bases de datos se trabaja, como data warehouse, bases de datos
relacionales, espaciales, temporales, secuenciales, entre otras. Esto
permite identificar la estructura de los datos a trabajar.
42
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
43
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
45
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Por otro lado, un estudio de cartometría de flujo no es barato, lo que provoca que
en países en desarrollo como Colombia los estudios en ocasiones no se puedan
llevar a cabo. Por lo anterior surge la necesidad de desarrollar herramientas de
apoyo al diagnóstico médico que sean confiables y además, de bajo costo.
46
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Para lograrlo, se propuso una metodología basada en el proceso KDD, así como
se muestra en la Figura 11
47
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
intervienen los expertos, ya que una imagen puede contener diferentes tipos de
células donde no todas son representativas de la leucemia. Al mismo tiempo, los
expertos en el domino realizaron un proceso de clasificación, identificando el tipo y
subtipo de la muestra. Esta información fue de gran utilidad para el proceso de
minería de datos.
48
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
{Pluma} {Tinta}
Esta regla se debe leer de la manera siguiente: ―si en una transacción se compra
una pluma, es probable que también se compre tinta en esa transacción.‖ Es una
afirmación que describen las transacciones de la base de datos; la extrapolación a
transacciones futuras debe hacerse con cautela, como se analiza en las reglas de
asociación tiene la forma Izq. Der, donde tanto Izq. como Der. Son conjuntos
de elementos.
49
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Ejemplos de reglas
Basadas en un tipo de valor :
Compra (X,‘CD‘) y Compra (X,‘Reproductor de CD‘) => Compra
(X,‘Reproductor MP3‘)
50
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
51
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Clasificación y predicción:
Clasificación:
Método supervisado
Se compone de 2 etapas:
1. Construcción (Entrenamiento)
2. Poda (Pruning).
1. Overfitting
2. Objetivo del pruning
Función de splitting
Frena la construcción del árbol si:
_ No existen más atributos que analizar o
_ No existen más ejemplos que procesar o
_ Todos los ejemplos para un nodo determinado poseen igual clase Predicción:
_ Predice el valor para una variable continua
_ Modelos de funciones evaluadas continuas
_ Ejemplos:
_ Regresión lineal simple [Y= Bo. + B1*X]
_ Regresión lineal múltiple [Y= Bo. + B1*x1+ B2*x2 + … + Bn*Xn]
52
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
_ Entre otros
Agrupamiento (Clustering):
No supervisado
Tipo de acercamientos
_ Orientados al aprisionamiento:
_ K-means:
_ Relativamente eficiente
_ Necesita que se especifique el ‗k‘ (cantidad de grupos a armar o estudiar)
_ No es capaz de manejar ruido y outliers (Efecto similar a la media aritmética)
_ K-medoids Algoritms
_ No escalable
Tipo de acercamientos:
53
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Un usuario puede pedir todas las reglas de asociación que tengan un soporte
mínimo determinado (spin) y una confianza mínima (confmin), y sean desarrollado
varios algoritmos para hallar esas reglas de manera eficiente. Esos algoritmos
trabajan en dos etapas. En la primera etapa se calcula todos los lotes frecuentes
con el soporte mínimo especificando por el usuario. En la segunda etapa se
generan reglas empleando como datos los lotes frecuentes.
Una vez identificados los lotes frecuentes, la generación de todas las reglas
posibles con el soporte mínimo especificado por el usuario es sencilla.
54
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
porder identificar todos los lotes frecuentes y larelacion que cada una de ellas
tiene.
1.- Cada uno de los elementos en las posiciones de 0 a j-1 es menor o igual que a.
2.- Cada uno de los elementos en las posiciones j+1 a n-1 es mayor o igual que a.
x = [25 57 48 37 12 92 86 33]
55
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
x = [12 25 57 48 37 92 86 33]
x = 12 25 33 [37 48] 57 86 92
x = 12 25 33 37 48 57 86 92
El procedimiento es entonces.
56
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
/************************************
if(ho>lo)
mid=x[(lo+ho)/2];
while(l<h)
while((l<ho)&&(x[l]<mid)) ++l;
while((h>lo)&&(x[h]>mid)) --h;
if(l<=h)
57
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
t = x[l];
x[l] = x[h];
x[h] = t;
++l;
--h;
if(lo<h) quiksort(x,lo,h);
if(l<ho) quiksort(x,l,ho);
Leccion 13.Jerarquias.
58
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Es de anotar que el artículo en este caso es jugo, pero se debe tener en cuenta
que su ancestro es la categoría bebidas.
59
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Papelería Bebidas
60
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Las redes bayesianas son grafos que se pueden utilizar para escribir una clase de
estos modelos, con un nodo por variable o suceso y arcos entre los nodos para
61
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Comprar
Pensar en plumasplplu Comprar
instrumentos de mas plumas tinta
escritura Comprar
plumas
lápices
Fuente: http://www.mitecnologico.com/Main/ArbolesDeDecision
Un árbol de decisión sirve para modelar funciones discretas, en las que el objetivo
es determinar el valor combinado de un conjunto de variables, y basándose en el
valor de cada una de ellas, determinar la acción a ser tomada.
62
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
63
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Fuentes:
1. http://es.scribd.com/doc/57484779/Algoritmo-c45-Arboles-de-Decision
2. https://docs.google.com/a/unad.edu.co/viewer?a=v&q=cache:pr7QuqiJ4VgJ:su
bversion.assembla.com/svn/easy7550/material/apuntes/AlgoritmoC4.5%28200
5-II-
B%29.pdf+&hl=es&gl=co&pid=bl&srcid=ADGEESh_udX77m_hQeRfpIS7It_OD
oZ2LhuaxOEEijoBFgU-
m5gS5NWlf41aS0zbbrxKqRFn7NziFq6NMSzDOqDbUHeWpfYGw2yW1k7BWI
0cIyC9-
zf3OwWb2Zc3NFuXxajFfl1U9btp&sig=AHIEtbRQX530TyZ_qKL8fcQxYl-
ARFrbjA&pli=1
Algoritmo C4.5. : J.R. QUINLAN (1994): C4.5 para atributos continuos y discretos.
J.R. Quinlan propone una mejora, una extensión del algoritmo ID3, al que
denomina C4.5, estealgoritmo genera un árbol de decisión a partir de los datos
mediante participaciones realizadasrecursivamente. El árbol se construye
mediante la estrategia de profundidad primero (depth first).El algoritmo C4.5 utiliza
una técnica heurística conocida como proporción de ganancia (gainratio). Es una
medida basada en información que considera diferentes números y
diferentesprobabilidades de los resultados de las pruebas.El algoritmo considera
todas las pruebas posibles que pueden dividir el conjunto de datos y selecciona la
prueba que le haya generado la mayor ganancia de información. Para cada
atributodiscreto, se considera una prueba con n resultados, siendo n el número de
valores posibles quepuede tomar el atributo. Para cada atributo continuo, se
realiza una prueba binaria (1,0) sobrecada uno de los valores que toma el atributo
en los datos. En cada nodo, el sistema debe decidircual prueba escoge para dividir
los datos.Según Espino (2005) los tres tipos de pruebas posibles propuestas para
el C4.5 son:
64
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
- La prueba estándar para las variables discretas, con un resultado y una rama
para cada valor posible de la variable.
- Una prueba más compleja, basada en una variable discreta, en donde los valores
posiblesson asignados a un número variable de grupos con un resultado posible
para cada grupo, en lugar de para cada valor.
-Si una variable A tiene valores numéricos continuos, se realiza una prueba binaria
conresultados A<=Z y A>Z, para lo cual debe determinar el valor limite Z.Todas
estas pruebas se evalúan observando la ganancia resultante de la división de
datosqueproducen. Ha sido útil agregar una restricción adicional: para cualquier
división al menos dos delos subconjuntos C(i) debe contener un número razonable
de casos. Esta restricción, que evita lassubdivisiones casi triviales, es tenida en
cuenta solamente cuando el conjunto C es pequeño.
-Los arboles son menos frondosos, ya que cada hoja cubre una distribución de
clases nouna clase en particular.
-Es recursivo.
Los atributos o variables poseen características propias que las diferencian una de
las otras, existen algoritmos que solo se desarrollan para atributos en particular,
en el caso del algoritmoC4.5, los atributos para los cuales se desarrollo dicho
algoritmo son los siguientes
65
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Una medida alternativa que propuso Quinlan (1993) fue la gatin ratio (proporción
de ganancia)ganancia que usa el algoritmo C4.5 y que ha resultado un éxito.
Atributos con valores perdidos: En ciertos casos existen atributos de los cuales se
conoce su valor para algunos ejemplos, y para otros no. En estos casos lo más
común es estimar el valorbasándose en otros ejemplos de los que si se conoceel
valor. Normalmente se fija la atenciónen los demás ejemplos de ese mismo nodo.
Así, al ejemplo de valor desconocido se le da el valorque más aparezca en los
demás ejemplos.
1. El algoritmo de Quicksort.
2. El algoritmo C.45.
3. Redes Bayesianas
4. Arboles de decisión.
66
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
El tercer nivel especializa dichas tareas para situaciones específicas. Por ejemplo,
la tarea genérica puede ser la limpieza de los datos, y la tarea especializada sería
la limpieza de valores numéricos o de valores de categorías. El cuarto nivel es la
instancia de proceso, es decir, un registro de acciones, decisiones y resultados de
una ejecución real de un proyecto de minería de datos.
El modelo también analiza las relaciones entre las diferentes tareas de minería de
datos. Proporciona una secuencia idealizada de acciones que debe tener lugar
durante un proyecto de minería de datos; sin embargo, no trata de dar todas las
posibles rutas que puede seguirse para llevar a cabo esas tareas. En la tabla 2. Se
muestran las diferentes fases del modelo.
67
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Fase
Modelado evaluación
Evaluación
Implantación
Fuentes:
1. http://anibalgoicochea.com/2009/08/11/crisp-dm-una-metodologia-para-
proyectos-de-mineria-de-datos/
2. http://www.josebhuerta.com/datamining.htm
68
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Esta fase se centra en comprender los requisitos de objetivos del proyecto desde
la perspectiva del negocio, esta fase convierte el problema de negocio en una
definición del problema de minería de datos y prepara el plan preliminar para el
proyecto. Las principales tareas implicadas son: determinar los objetivos del
negocio, evaluar la situación, determinar el objetivo de la minería de datos y
generar un Plan de proyecto. En esta fase es muy importante ser explicitos en el
desarrollo de la Comprension del negocio pero a la vez ser muy acertados para
determinar las necesidades de información y todo lo referente al objeto de
negocio; aquí no hay limites ni menos criterios de actuación, todo lo determina y lo
aduce cada estudiante que hace el análisis, para ello se basa en diagramas
organizacionales, diagramas basados en UML, organigramas por objetivos y
funciones, etc, es decir todo aquello que puedan indicar e ilustrar el qué del
negocio. La documentación es muy importante para el buen desarrollo del modelo
CRISP- DM.
69
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Aquí se debe familiarizar con los datos teniendo presente los objetivos del
negocio, detallados en la etapa anterior, si e la etapa anterior no se fue suficiente
para poder documentar no se lograra aquí un buen resultado.
Esta fase incluye las tareas de recopilación inicial de los datos y preocupa de
establecer las principales características de estos. Dichas características incluyen
la estructura de datos, la calidad de los datos y la identificación de los posibles
conjuntos de interés de los datos. Las tareas incluidas en esta fase que se deben
documentar son:
- Integridad de los datos desde sus antecesores y para sus servidores. Vida
útil de la información y reusabilidad de datos.
Esta fase implica todas las actividades para construir el conjunto de datos final al
que puedan aplicar ese directamente las herramientas de modelado. Las tareas
que componen esta fase son:
- Selección de datos.
70
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Esta es una etapa crítica. En esta etapa se acondicionan los datos que luego van
a ―alimentar‖ el modelo o la herramienta de análisis. La salida de esta etapa es
uno o varios conjuntos de datos que serán utilizados por la etapa de modelado y
validación, para ello se recomienda realizar un informe donde describa los
conjuntos de datos generados en esta etapa. Las tareas que se deben ejecutar
son:
Decidir los datos a utilizar para el análisis. Los criterios deben incluir la relevancia
para el objetivo de minería de datos, calidad y restricciones, técnicas (volumen o
tipos dedatos).
– Test de Hipótesis ?
– Machine Lerning ?
71
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
• Entranamiento/Validación/Evaluación ?
Construir al modelado
Evaluar el modelo.
72
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Esta fase válida el modelo desde el punto de vista del análisis de los datos. El
modeló y las etapas seguidas durante el modelado se verifican dentro contexto de
la consecución de los objetivos de negocio.
La fase de implementación puede ser tan simple como generar un informe o tan
compleja como implementar procesos repetidos de minería de datos por toda la
empresa. El usuario de la empresa es quien se encarga normalmente de ejecutar
la fase de implementación. Los pasos correspondientes son dos. Planificación de
la implementación y producción del informe final y revisión del mismo.
73
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
74
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
75
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Weka contiene una colección del estado del arte de los algoritmos de aprendizaje
maquina y herramientas de preprocesamientode datos escritos en Java. Provee
un soporte extenso para el proceso completo de mineria datos, incluyendo la
preparación de los datos de entrada, la evaluación de los esquemas
reaprendizaje, la visualización de los datos de entrada y de los resultados del
aprendizaje.
76
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Leccion. 23 Rattle.
A través de una interfaz de usuario simple y lógica basada en Gnome puede ser
usado para realizar proyectos de minería de datos. Es posible también realizar
proyectos de minería de datos más especializados haciendo uso del lenguaje
estadístico de licencia libre.
Rapid Miner (más formalmente conocido como YALE) es una de las principales
herramientas para prototipo y minería de datos a nivel mundial de licencia pública.
Desarrollado puramente en Java, contiene una API para su fácil uso desde
programas de terceros. Ofrece una amplia variedad de diferentes algoritmos y
métodos los cuales pueden ser combinados de manera accesible y anidada
78
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Incluye todos los modulos de análisis de WEKA y los plugings adicionales que
79
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Las tareas que pueden ser ejecutadas usando Grid Weka incluyen: construir un
clasificador en una máquina remota, clásifica un conjunto de datos empleando un
clasificador previamente construido, probar un clasificador con un conjunto de
datos o empleando validación cruzada, etc. Está constituido de dos componentes
80
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Aún cuando el Grid Weka provee una manera de usar múltiples recursos para
ejecutar tareas de minería de datos de manera distribuida, éste fue diseñado para
trabajar dentro de un ambiente ad-hoc, el cual no constituye un Grid por sí mismo.
81
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
seguridad, etc.
Está basado en una visión amplia que se enfoca en soportar el proceso completo,
desde la captura hasta la visualización. Sin embargo, Discovery Net no está
82
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
pensado como una herramienta de uso directo, sino que necesita del trabajo
conjunto de desarrolladores y clientes para dirigir el proceso del descubrimiento
del conocimiento. La Figura 17. Muestra los componentes de la arquitectura.
83
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
84
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
85
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Las técnicas de visualización permiten mostrar los datos gráficamente para facilitar
una mejor comprensión de su significado. Las capacidades gráficas de las
herramientas van desde la elaboración de simples gráficas de dispersión hasta
representaciones multidimensionales complejas.
Uno de los desafíos para las organizaciones que pretendan aprovechar las
técnicas de minería de datos es identificar los datos más adecuados para
aplicarles estas técnicas. La minería de datos requiere una fuente de datos
unificada, independiente, limpia, integrada y auto-coherente. Un almacén de datos
está bien preparado para proporcionar los datos que la minería de datos requiere,
por las siguientes razones:
86
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
87
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Oracle OLAP y oracle data mining (ODM) son opciones para las bases de datos
montadas en oracle9i
Oracle permite realizar la minería de datos dentro las bases de datos, por razones
de presentaciones y estabilidad. Algunas de las capacidades de sus productos
son:
Detalles de asociaciones.
Hacer un estado del arte de las herramientas que actualmente se usan y una
verificación de que empresas han aplicado herramientas de Mineria de Datos y
cual de ellas ha servido para el apoyo a la toma de decisiones.
88
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
89
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Aplicaciones Actuales
Fuente: http://www.interacciones.com.ar/web-mining-en-el-diseno-de-sitios-web/
Una de las extensiones del data mining consiste en aplicar sus técnicas a
documentos y servicios del Web, lo que se llama web mining (minería de web)
(Koala y otros, 2000). Todos los que visitan un sitio en Internet dejan huellas
digitales (direcciones de IP, navegador, cokies, etc.) que los servidores
90
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
91
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
• El ochenta y cinco por ciento de los clientes que acceden a la página home de
productos y a la de noticias de la misma página acceden también a la página del
historial. Esto podría indicar que existe alguna noticia interesante de la empresa
que hace que los clientes se dirijan al historial de sucesos. Igualmente, este
resultado permitiría detectar la noticia sobresaliente y colocarla quizá en la página
principal de la empresa.
• El sesenta por ciento de los clientes que hicieron una compra en línea en la
página del producto 1 también compraron en la página del producto 4 después de
un mes. Esto indica que se podría recomendar en la página del producto 1
comprar el producto 4 y ahorrarse el costo de envío de este producto.
Los anteriores ejemplos ayudan a formar una pequeña idea de lo que se puede
obtener, sin embargo, en la realidad existen herramientas de mercado muy
poderosas con métodos variados y visualizaciones gráficas excelentes.
Text mining
Una aplicación muy popular del text mining es relatada en Hearst (1999).
93
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Para aplicar mejor estas técnicas avanzadas, éstas deben estar totalmente
integradas con el data warehouse así como con herramientas flexibles e
interactivas para el análisis de negocios. Varias herramientas de Data Mining
actualmente operan fuera del warehouse, requiriendo pasos para extraer, importar
y analizar los datos. Además, cuando nuevos conceptos requieren implementación
operacional, la integración con el warehouse simplifica la aplicación de los
resultados desde Data Mining. El Data warehouse analítico resultante puede ser
aplicado para mejorar procesos de negocios en toda la organización, en áreas
tales como manejo de campañas promocionales, detección de fraudes,
lanzamiento de nuevos productos, etc.
94
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Con las siglas OLPT Y OLAP se denominan dos tipos de procesamiento muy
diferentes:
95
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
96
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
97
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Además el almacén de datos debe integrar datos externos, con lo que en realidad
debe estar actualizándose frecuentemente de diferentes fuentes. El almacén de
datos pasa hacer un integrador o recopilador de información de diferentes fuentes,
como se observa en la figura 20.
98
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
son muchas más las ventajas de esta separación que sus inconvenientes; esta
separación facilita la incorporación de fuentes externa, que en tal caso, sería muy
difícil de encajar en las bases de datos.
Modelo Multidimensional
El modelado conceptual de los datos más extendido para los almacenes de datos
es el modelo multidimensional. Los datos se organizan en torno a los hechos, que
tienen unos atributos o medidas que pueden verse en mayor o menor detalle
según ciertas dimensiones por ejemplo, una gran cadena de supermercados
puede tener como hechos básicos las ventas. Cada venta tiene una información
importante: impuesto, cantidad, número delcliente, etc.y se puede ser más
detallada según los datos que se quieran agregar o se necesiten capturar para
estudiarlos
DATAMARTS
99
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
100
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Fuente: http://es.scribd.com/doc/48897874/16/drill-down-y-roll-up
101
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
.Cada una de las tablas de dimensiones tiene una clave primaria que corresponde
exactamente con uno de los componentes de la clave compuesta de la tabla de
hechos. Las tablas de hechos, además de sus campos clave, contienen una o más
medidas, indicadores o ―hechos‖. Las medidas más útiles en una tabla de hechos
son numéricas y aditivas
102
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
103
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
104
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Fuente: http://es.scribd.com/doc/48897874/16/Drill-Down-y-Roll-Up
105
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
106
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
En la siguiente figura se puede observar los datos que surgen a partir de aplicar
Drill Down sobre elmiembro Comercialización de la dimensión Organización
Telefónica del cubo de la Figura anterior teniendo la información detallada
podemos efectuar la operación Roll Up para llegar a lainformación resumida
107
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Por tanto, el primer paso para poder utilizar los operadores propios del modelo
multidimensional es definir una consulta. En realidad, como se vio en los
operadores Drill, roll, solice, dice y pivote, que son modificados o refinadores a
base consultas y solo pueden aplicarse sobre una consulta realizada
previamente.
108
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Una de las razones para crear un almacén de datos separado de las bases de
datos operacionales es conseguir que el análisis se pueda realizar de una
manera eficiente. El hecho que la estructura anterior y los operadores vistos
permitan trabajar sencillamente y combinar dimensiones, detallar o agregar
infórmenos, etc, todo ello de manera gráfica, no asegura que esto sea eficiente.
Las ventajas del ROLAP son, en primer lugar, que se puede utilizar directamente
en sistemas de gestión de bases de datos genéricos y herramientas asociadas:
(SQL,restricciones, disparadores, etc).En segundo lugar, la formación y el costo
necesario para su implementación es generalmente menor.Las ventajas de
MOLAP son su especializacion, la correspondencia entre el nivel lógico y físico.
Esto hace que MOLAP sea generalmente más eficiente, incluso aunque en el
caso de ROLAP se utilice ciertas técnicas de optimización.
109
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
110
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Quizá la parte del diseño de almacén de datos es una de las areas mas abiertas y
donde existe menosconvergencia, las razones son múltiples pero,
fundamentalmente, se resume en que los almacenes de datos se han originado
principalmente desde ámbito industrial y no académico, el fin inicial del almacén
de datos era realizar OLAP eficiente, fundamentalmente en los niveles lógico y
físico.
111
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Fuente:
http://www.google.com.co/url?sa=t&rct=j&q=almac%C3%A9n%20de%20datos%20naci%C3%B3%
20hace%20m%C3%A1s%20de%20una%20d%C3%A9cada%20&source=web&cd=2&ved=0CFEQ
FjAB&url=http%3A%2F%2Facademica-
e.unavarra.es%2Fbitstream%2Fhandle%2F2454%2F1955%2F577139.pdf%3Fsequence%3D1&ei=
Avz9T_zxKejO2AWFv4XFDw&usg=AFQjCNFvuWyZ8zktuAkmTV85s9N4LuLw0w&cad=rja
112
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
El concepto de almacén de datos nació hace más de una década [Enmona 1992]
ligado al concepto de EIS (Executive information System), el sistema de
información ejecutivo de una organización. En realidad, cuando están cubiertas las
necesidades operacionales de las organizaciones se plantean herramientas
informáticas para asistir las necesidades estratégicas.
113
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
114
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
TRANSFORMACION DE ATRIBUTOS
Variedad de técnicas.
Decentralizacion
- Algunos métodos sólo trabajan con atributos nominales.―Discretizar‖ valores
númericos en intervalos [DKS95].
- Hay métodos que pueden trabajar con valores numéricos, pero de un modo
que puede que no sea el más adecuado. Ej. asumen que siguen una
distribución normal.
- Clasificador Naïve Bayes.
- Métodos de clustering estadísticos.Algunos métodos son mucho más lentos
con atributos numéricos que son nominales y de ordenación.
115
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
BASADO EN 1R
Fuente: Introduccion a la Mineria de Datos. José H. Orallo, Ma José Ramirez Q y Cesar F Ramirez.
Pearson. De aquí te tomara un ejemplo parapoder abordar la visión practica.
116
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Este ejercicio corresponde al libro Introduccion a la Mineria de Datos. José H. Orallo, Ma José
Ramirez Q y Cesar F Ramirez de Pearson (se documenta respetando los derechos de autor), ya
que es muy completo y servirá de mucho para el aprendizaje del área de estudio.
Una vez los datos están recopilados, integrados y limpios, todavía no estamos
listos (en muchos casos) para realizar una tarea de minería de datos. Es
necesario, además, realizar un reconocimiento o análisis exploratorio de datos con
el objetivo de reconocerlos mejor de cara a la tarea de minería de datos. Incluso
esta fase es imprescindible cuando se realiza minería de datos ―abierta‖, ya que
tenemos todo el volumen de datos pero hemos de determinar los datos a
seleccionar y las tareas a realizar sobre esos datos.
Este capítulo cubre un conjunto de técnicas diversas algunas técnicas simples del
análisis exploratorio de datos, técnicas de visualización previa, agrupamiento
exploratorio, técnicas de selección, ya sea horizontalmente, eliminando filas
(muestreo), o verticalmente, eliminando atributos, interfaces graficas, técnicas de
consulta, y agregación (ya sea más tradicionales al estilo de SQL, herramientas
OLAP o incluso lenguajes de consulta para minería de datos).
Imagínese que cae del cielo una base o almacén de datos con una nota: ‖extraiga
usted conocimiento de aquí‖. Aparte de la sorpresa natural de ver llover bases de
datos, que justificara al cambio climático, usted se preguntará, entre otras cosas,
lo siguiente:
117
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
118
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
El proceso que lleva desde los datos a obtener el conocimiento del dominio y de
los usuarios de los cuatro aspectos anteriores, son necesarios para llevar a cabo
la fase propia de minería de datos.
No es solo necesario obtener la vista minable (una tabla con los atributos
relevantes) si no que debe ir acompañada de la tarea a realizar sobre ella y cómo
evaluarla, así como la forma de presentar el resultado final y, en su caso, el
conocimiento previo necesario. Ahora se tratará de extender las cuatro preguntas
anteriores
Vista minable: ¿Qué parte de los datos es pertinente analizar? Una vista
minable [Hg et al. 1998] consiste en una vista en el sentido más clásico de
base de datos; una tabla. La mayoría de métodos de minería de datos, son
solo capaces de tratar una tabla en cada tarea. Por tanto, la vista minable
debe recoger toda (y solo) la información necesaria para realizar la tarea de
minería de datos.
119
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
120
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
121
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
122
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Como hemos visto en el ejemplo anterior, para conocer que no se puede hacer
con unos ciertos datos es necesario conocer el dominio de los usuarios. Si
123
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Para ello, realizamos preguntas del estilo: ¿Qué aspectos son cruciales en su
negocio? ¿Qué reglas o modelos de dirección están utilizando? ¿Se pueden
mejorar dichas reglas? Que base tienen dichas reglas? ¿Existen decisiones
que se toman de una manera arbitraria o basándose en reflexiones personales
no explicitas? ¿Existe documentación sobre decisiones anteriores? ¿Quiénes
toman las decisiones? ¿Qué decisiones son críticas? ¿Los modelos deben ser
comprendidos y validados por expertos? ¿Qué otros requerimientos
exigiríamos a los patrones extraídos? ¿Qué conocimiento previo suele utilizar
para sus decisiones? Y un largo etcétera de preguntas de este estilo. Algunas
de estas cuestiones también son útiles y se pueden realizar a la hora de
construir un almacén de datos o en el momento de integración, este
reconocimiento se puede establecer como una fase previa a la minería de
datos, en el que se establecen los requerimientos y objetivos de negocio.
Con una entrevista o cuestionario de este estilo se dará cuenta de que muchas
decisiones se realizan con reglas informales, subjetivas y, en muchos casos,
excesivamente simplistas o generalistas. Por ejemplo, la mayoría de
aseguradoras de vehículos utilizan reglas generales de estilo ―recargo por
124
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
menos de dos años el carné o por menos de veinticinco años‖, sin entrar en
otros aspectos que, personalizando, podrían dar mejores resultados (por
ejemplo por ser mujer, estudiante, no fumador, etc.). Muchas campañas de
publicidad se enfocan a grupos de población (―jóvenes‖, ―amas de casa‖,
―niños‖, etc.) cuya solidez puede dejar mucho que desear.
Además del reconocimiento del dominio, debemos reconocer los datos. Para
ello, lógicamente debemos conocer lo que significan y esto es posible, si quien
lo realiza conoce el dominio o los datos (ya sea porque son sus propios datos y
dominio o porque ha hecho el reconocimiento del dominio). El reconocimiento
de los datos por tanto viene guiado por el interés de las necesidades
establecidas en el reconocimiento de dominio. Sin éste, no se puede saber
que datos son relevantes ni que tareas pueden ser útiles.
125
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
126
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
127
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Estos dos objetivos marcan dos momentos diferentes del uso de la visualización
de dos dados (no excluyentes):
128
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
129
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
130
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Aunque un gran numero de ejemplos convierte la grafica en una maraña, aun asi,
se pueden detectar patrones. Por ejemplo se puede verificar que los atributos 1 y
2 no están correlacionados, mientras que el 2 y 3 estan positivamente
correlacionados, el 3 y 4 estan inversamente correlacionados, asi como existe una
relación entre la magnitud de 4 y las categorías del atributo nominal 5. Los
atributos 5 y 6 tienen una correspondencia clara entre categorías (en realidad el
atributo 6 es dependiente del atributo 5). Un grafico similar es el grafico (survey
plot), donde se muestran todos los ejemplos ordenados y la amplitud de cada línea
se muestra se muestra el valor de cada atributo, este ultimo es mas apropiado
para valores numéricos.
131
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
132
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
133
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Fuente: Introduccion a la Mineria de Datos. José H. Orallo, Ma José Ramirez Q y Cesar F Ramirez.
Pearson. Pag. 106. Grafica radial de cinco dimensiones y cuatro ejemplos.
Fuente: Introduccion a la Mineria de Datos. José H. Orallo, Ma José Ramirez Q y Cesar F Ramirez.
Pearson. Pag. 106.Tres pacientes diferentes vistos mediante grafica radial.
134
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Otra de las ventajas de las representaciones iónicas frente a las radiales es que se
pueden combinar mas convenientemente valores discretos y continuos. Por
ejemplo tener o no tener bigote puede utilizarse para un atributo binario, podemos
representar un atributo con cuatro valores con cuatro tipos de nariz, etc.
135
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
debo construir una única tabla derivada, denominada vista minable? ¿no es
suficiente con marcar dichos atributos y dejar que la herramienta de minería de
datos trabaje sobre las bases de datos?‖. Existen dos razones fundamentales para
contestar a esta pregunta. La primera es que dadas varias tablas, incluso aunque
tenga claves foraneas definidas, existen muchas maneras de concatenarlas, es
decir, de combinar la información que contienen. Por tanto, es más difícil definir
tareas concretas si no se clarifica exactamente la información sobre la que se van
a definir. La segunda razón es quizás más importante: la mayoría de métodos de
minería de datos solo tratan con una única tabla. Si bien es cierto que hay
herramientas de programación lógica inductiva y la minería de datos relacional, si
empiezan a ser capaces de trabajar con varias tablas, la mayoría de técnicas solo
son capaces de trabajar con representaciones del estilo atributo-valor, es decir,
una tabla.
Por tanto, debemos definir una consulta o vista minable. Para ello, las operaciones
necesarias son aquellas de un lenguaje relacional (como por ejemplo el SQL).
Concatenaciones (joins), selecciones, proyecciones, agrupamientos/agregaciones,
etc. La siguiente figura muestra precisamente la construcción de una vista minable
a partir de un conjunto de tablas. Aunque las tablas tiene una estructura
multidimensional y podamos apoyarnos en herramientas OLAP, en realidad las
operaciones necesarias son las típicas de una consulta SQL: concatenación,
selección, proyección y agrupamiento.
136
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Fuente: Introduccion a la Mineria de Datos. José H. Orallo, Ma José Ramirez Q y Cesar F Ramirez.
Pearson. Pag. 108. Selección de tablas, atributos, condiciones, y niveles de agregación para
obtener una vista minable.
137
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Pivotamiento
Una operación muy usual a las hora de preparar la vista minable se conoce
como pivotamiento y, forma parte de los operadores OLAP. La operación de
pivotamiento cambia filas por columnas y, por tanto, realiza un cambio
verdaderamente radical para una representación basada en pares ―atributo-
valor‖.
Lógicamente, los datos no caben en memoria, con lo que hay que ir trabajando en
disco. Para tener algo de fiabilidad en las reglas hay que mirar al menos la raíz
cuadrada de todas las cestas, eso obliga a seleccionar unas 1000 filas
(aleatoriamente) de la tabla para cada dos atributos que queramos evaluar.
1 SI NO NO ……. NO
2 NO NO NO …. SI
138
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
3 SI SI NO …. NO
4 SI NO NO …. NO
5 NO SI SI …. SI
….. ….. …. …. …. ….
10.000. NO NO SI …. SI
000
pivotaje
1 SI NO SI ……. NO
2 NO NO SI …. NO
3 NO NO NO …. SI
4 NO SI NO …. SI
5 SI SI NO …. NO
….. ….. …. …. …. ….
10.000. NO SI NO …. SI
000
Fuente: Introduccion a la Mineria de Datos. José H. Orallo, Ma José Ramirez Q y Cesar F Ramirez.
Pearson. Pag. 111.Pivotamiento. Cambio de filas por columnas./* Este proceso se puede hacer
facilmente con una hoja de calculo y la función transponer*/
139
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Ahora, para observar si dos productos están asociados es solo necesario dos
filas de la tabla y realizar, por ejemplo, un ―o exclusivo‖ entre las filas ,para ver
si están asociadas o no.
Selección de datos.
La selección de datos es algo más que decir qué tablas (o archivos) se van a
necesitar para la minería de datos y de qué manera concatenarlas. Esto podría
estar ya decidido, pero todavía no sabemos qué atributos/variables necesitamos y
cuantas instancias (ejemplos) van a ser necesarias. Dicho de otra manera, puede
ser que no todas las columnas, ni todas las filas sean necesarias. Dicho de otra
manera, puede ser que no todas las columnas, ni todas las filas sean necesarias.
El problema existente es precisamente que si seleccionamos como ―vista minable‖
todo aquello que pueda ser relevante podemos acabar con una vista minable de
cientos de columnas/atributos y millones de filas/registros.
En general, cuando tratamos con datos del estilo atributo-valor (es decir, una
tabla), hay dos tipos de selección aplicables: selección horizontal (muestreo),
donde se eliminan algunas filas (individuos) y selección vertical (reducción de
dimensionalidad), donde se eliminan características de todos los individuos.
Id_trans Articulos_Compras
141
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
106 café
El conjunto de artículos es
142
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Fuente: Introduccion a la Mineria de Datos. José H. Orallo, Ma José Ramirez Q y Cesar F Ramirez.
Pearson. Pag. 327.
Se puede hacer una clasificación amplía de las redes neurales en dos categorías:
redes supervisadas y redes no supervisadas. Los métodos adaptativos en los
que se intentan reducir el error de salida son métodos de aprendizaje
supervisado, mientras que los que desarrollan representaciones internas de
generar muestras en salida se denominan métodos de aprendizaje no
supervisado. Las redes neuronales realizan auto adaptaciones; es
decir,aprenden a partir de la información existente sobre un problema
determinado. Se ejecutan con efectividad en tareas de clasificación y se usan, por
tanto, en la minería de datos. Sin embargo, no están exentas de problemas. Aún
que aprenden, no proporcionan una buena representación de lo que han
aprendido.
143
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Hemos afirmado que las RNA no necesitan volver a ser programadas al cambiar
de entorno.Esto no quiere decir que sucomportamientos no cambien con la
finalidad de adaptar al nuevo entorno. Estos cambios son debido a variaciones en
los pesos de la red.
Los cambios en los pesos de una red neural dan lugar al aprendizaje.Estos se
producen para modelar los cambios en el rendimiento de la sinapsis de las redes
neuronales reales. Se cree que nuestro aprendizaje se debe a cambios en el
rendimiento o eficiencia de la sinapsis, a través de las cuales se transmiten la
información entre las neuronas.
144
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
patrón de entrada. Este tipo de aprendizaje será útil especialmente para las
tareas de regresión y clasificación.
Para introducir este tipo de aprendizaje primero presentamos dos de las primeras
redes neurales que lo emplearon en su diseño y posteriormente mostraremos dos
de las redes neurales más usadas basadas en la utilización de éste.
145
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
146
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Lo que se hace, por tanto, es ajustar los pesos de una manera en la que las
salidas de la red, Οᴾ, se vayan haciendo cada vez mas semejantes al valor de los
blancos, tᴾ, a medida que cada entrada, Xᵨ, se va presentando a la red.
Otra red neuronal importante fue la Adaline (AD Aptative LINear Element),
concebida por Widrow y sus colaboradores en 1960 (Windows & Hoff 1960). Su
topología es idéntica al perceptor simple, es decir, no tiene capa oculta, pero la red
Adaline calcula sus salidas empleando la siguiente expresión:
Ο=ΣᵣWᵣXᵣ+Ө
La suma del error cuadrático a partir del uso de esta red en todos los patrones de
entrenamiento viene dada por la siguiente expresión:
∆ᵨᵚᵣ= - ϒᵊᴱᵖəᵤᵤᵣ
Ahora, en el caso del modelo Adaline con una sola salida, o, tenemos:
147
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
əEᵖ‗ əEᵖ ə₀ ᵖ
əWᵣ ə₀ ᵖ əWᵖ
Por tanto,
Nótese la similitud entre esta regla de aprendizaje y la del perceptor. Sin embargo,
esta regla tiene mayor aplicación ya que se puede usar tanto para neuronas
binarias como continuas, es decir, tanto para neuronas cuyas salidas son
solamente ceros y unos o aquellos cuya salida son números reales. Es una de las
reglas más potentes y se emplea como base de muchos métodos que utilizan
aprendizaje supervisado.
El perceptor simple y el modelo Adaline son reales sin capa intermedia y, por
tanto, si ignoramos las funciones de activación, son equivalentes a una función
discriminante lineal. Todo lo anterior no es sino un repaso de lo visto en el
curso de IA.
Perceptor Multicapa
148
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
(Multilayer Perceptor, MLP), es decir una red neural en forma de cascada, que
tiene una o más capas ocultas, como la vista en la Figura anterior.
Aunque esta potencialidad del MLP se descubrió pronto, se tardo bastante tiempo
en encontrar un método o regla de aprendizaje apropiada para construirlas a partir
de ejemplos. Esta regla parece que fue descubierta de manera independiente
varias veces, y no existe acuerdo de la fecha exacta ni de su descubridor, pero fue
popularizada principalmente por el Grupo PDP (Paralel Distributed Procesing)
[McClelland et al. 1986], bajo el nombre de Retro propagación o Programación
hacia atrás.
149
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
150
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Para finalizar, se debe aclarar que lo presentado aqui es una introducción a toda
una disciplina, la de las redes neuronales, en la que se pueden encontrar muchas
más técnicas y variantes de las que se han presentado, que son, a nuestro
parecer, las más usuales y útiles en minería de datos. Para ampliar información
sobre redes neuronales artificiales, tanto como sacar el máximo partido de las
técnicas vistas aquí, como iniciarse en otras técnicas, se recomiendan los libros:
[Isasi & Galván 2003] y [Haykin 1998].
Dará una relación utilizada para el análisis de datos; se puede identificar algunos
atributos de medida, ya que miden algun valor y pueden agregarse. Por ejemplo,
el atributo número de la relación ventas es un atributo de medida, ya que mide la
cantidad de unidades vendidas. A algunos de los demás atributos (o todos ellos)
de la relación se identifican cómo atributos de dimensión ya que definen las
dimensiones en las que se ven los atributos de medida y lo resúmenes de los
atributos de medida. En la relación ventas, nombre_ Articulo, color y talla son
atributos de dimension. (Una versión más realista de la relación ventas tendría
más dimensiones, como tiempo o lugar de venta, y más medidas como el valor
monetario de la venta).
151
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Los datos que pueden modelarse como atributos de dimensión y como atributos
de medida se denominan datos multidimensionales.
Para analizar los datos multidimensionales que el administrador desee ver, están
dispuestos como se encuentran en la siguiente tabla ya que muestra las cifras de
diferentes combinaciones de nombre articulo y color. El valor de talla se especifica
en todas, lo que indica que los valores mostrados son un resumen para todos los
valores de talla.
152
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
153
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Considérese las Tuplas (falda, all, all, 53) y (vestido, all, all, 35). Se han obtenido
heredando las Tuplas individuales con diferentes valores de color y talla, y
sustituyendo el valor de número por un agregadoes decir, una suma. El valor all
puede considerarse representante del conjunto de los valores del atributo. Las
Tuplas con el valor all para las dimensiones color y talla pueden obtenerse
mediante una agregación de las relaciones ventas, con una agrupación en la
columna nombre articulo. De manera parecida, se puede utilizar una agrupación
en el color y talla para conseguir las Tuplas con el valor all para nombre artículo, y
se puede utilizar una agrupación sin atributo alguno (que en SQL puede omitirse
simplemente) para obtener la tupla con el valor al para nombre artículo, color y
talla.
Fuente: Introduccion a la Mineria de Datos. José H. Orallo, Ma José Ramirez Q y Cesar F Ramirez.
Pearson. Pag. 546.
154
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Como veremos, la minería del contenido web reutiliza todas las técnicas de la
minería de textos y mucha de la recuperación de información. De hecho, la
minería de textos y de documentos de marcas englobada dentro de la minería de
contenido web. Se debe tener en cuenta las nociones básicas de las tres
modalidades (contenido, estructura y uso) e incluiremos descripciones y
referencias de algunas de las técnicas empleadas en cada una de ellas.
155
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
156
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Sin embargo, a diferencia de las bases de datos relacionales que poseen una
estructura bien definida, la web es poco estructurada por naturaleza. Esto significa
que muchas de las técnicas de minería de datos vistas hasta ahora no pueden
aplicarse directamente, deben modificarse o, incluso, deben definirse nuevas
técnicas. De hecho, tradicionalmente, la minería de datos se ha aplicado a las
bases de datos, ya que era un formato de fácil procesamiento por los
computadores, mientras que la información en la web reside en documentos
enfocados al consumo humano tales como páginas personales, publicitarias,
información general o catálogos de productos. Más aún, mucha de esta
información se presenta como un texto en lenguaje natural, o bien como
anotaciones HTML que estructuran la representación visual de las páginas web
pero que proporcionan una escasa idea acerca de su contenido. Otras formas de
estructurar la web incluyen ciertas convecciones lingüísticas y tipográficas, clases
de documentos semi-estructurados como XML (eXtensible Markup Language)
cada día de más uso para representar datos con cierta estructura, como los
catálogos o los índices y directorios web.
Otros datos de interés residen en los archivos .log, en los que los servidores
registran información sobre las visitas que se efectúan a la web, y en las bases de
datos que se generan a partir de otra información como, por ejemplo, la
157
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
158
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Atizona [Atizona 1996] definió la minería web como el uso de técnicas de minería
de datos para descubrir y extraer información automáticamente desde el World
Wide Web.
La primera tarea hace referencia al proceso de recuperar los datos desde las
fuentes textuales de la web, tales como los correos y los boletines electrónicos, los
grupos de noticias, el texto en los documentos HTML (una vez procesadas las
etiquetas) o cualquier otro tipo de documento hipertexto (pdfs, Xml, etc.). El trabajo
de descubrir las fuentes se centra principalmente en el uso de índices de
documentos web. Esto ha dado lugar al desarrollo de una serie de herramientas
159
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
160
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Todas estas tareas recuerdan a las tareas que componen el proceso general de
extracción de conocimiento KDD ya visto con anterioridad. De hecho, la definición
de minería web es idéntica a la del proceso KDD salvo que aquí la fuente de los
datos es la web.
161
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
162
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
tanto, documentos, más que los enlaces entre ellos. Los contenidos de la web han
cambiado sustancialmente desde su origen. Al principio, Internet consistía en
diferentes tipos de servicios y fuentes de datos, casi todos textuales y estáticos.
Ahora, podemos encontrar una gran variedad de datos: librerías digitales
accesibles desde la web, las bases de datos de muchas empresas que ofrecen
electrónicamente sus negocios y servicios, aplicaciones y sistemas que están
siendo migrados a la web o emergen en este entorno. De hecho, algunos de los
datos en la web son ocultos ya que se generan dinámicamente o se obtienen
como respuesta a preguntas cuyos datos residen en bases de datos privadas.
Resumiendo, los contenidos en la web pueden ser de varios tipos: textual,
imágenes, audio, video, meta-datos e hipervínculos, y constan de datos no
estructurados (texto), datos muy poco estructurados (como en los documentos
HTML), datos semi-estructurados (como los documentos XML) y datos más
estructurados (como los contenidos en bases de datos generadas desde paginas
HTML). Sin embargo, como la mayoría del contenido corresponde a texto no
estructurado, esta es el área más investigada.
163
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
pulsos del ratón y desplazamientos por las páginas, y en general cualquier otro
dato fruto de la interacción.
visión desde IR: para asistir, mejorar o filtrar la información que los
buscadores proporcionan a los usuarios a partir de los perfiles de los
mismos (los cuales a su vez pueden haber sido inferidos o bien solicitados).
Este objetivo también incluye los documentos que se reciben por correo,
por grupos de noticias u otros medios diferentes de la navegación.
visión desde Bases de Datos: modelar e integrar los datos encontrados en
la web para permitir preguntas más sofisticadas que las búsquedas
basadas en palabras clave. Muchas de las aplicaciones tienen por tarea la
extracción de esquemas o la construcción de DataGuides ([Nestorov et al.
1998; Goldman & Widom 1999]), de las que hablaremos en la sección de
minería de marcado (21.3.4).
Los diferentes tipos de datos contenidos en la web han dado lugar a diferentes
técnicas de minería de datos para los diferentes formatos en los que éstos se
presentan. Así, la aplicación de técnicas de minería a textos no estructurados se
conoce como minería de textos (Text Mining), cuando se trata de texto semi-
estructurado (XML, HTML, etc.) recibe el nombre de minería del marcado (Markup
Mining), si se trata de datos multimedia hablamos de minería multimedia
(Multimedia Mining), finalmente, si sólo nos referimos a los enlaces entre
164
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
165
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
las paginas mas acertadas con relación a la pregunta del usuario ([Chakrabarti
2003]) recogiendo la idea intuitiva de que el documento mas citado o mas
referenciado es el más importante.
Fuente: Introduccion a la Mineria de Datos. José H. Orallo, Ma José Ramirez Q y Cesar F Ramirez.
Pearson. Pag. 555.
166
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Bolsas de palabras (bag of Word [Sahami et a1. 1996; Lagus et al. 1999]):
llamada también representación basada en vectores, ya que cada
documento se representa como un vector de dimensión J, siendo J el
numero de palabras y en donde cada palabra constituye una componente
del vector y representa una características, la cual puede ser booleana
(aparece o no en el documento) o basada en frecuencias (el número de
167
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
168
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Las tematicas de los últimos capítulos pueden ser profundizadas a criterio del
estudiante en la referencia citada del libro: Introduccion a la Mineria de Datos.
169
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
170
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
ANEXOS
Bases de datos
Bases de datos
Oracle
SQLServer
MySQL
gratuito
herramientas
IDE
oracle SQL developer
171
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
A modo de ejemplo comentaré los sencillos pasos que se pueden seguir para
poder utilizar SQL Developer con una BD MySQL:
172
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
173
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Comento también los pasos que se pueden seguir para poder utilizar SQL
Developer con una BD SQL Server o Sybase, aunque lo único que cambia es el
driver que se utiliza:
174
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Business Intelligence
Data warehouse
OLAP
Cuadro de mando
Pentaho
Tendencias tecnológicas
Software libre
centos
Data warehouse
Minería de datos
centos
imagen virtual
instalacion
Pentaho
virtualbox
vmware
175
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
La instalación de Pentaho
Sólo hay que crear una nueva máquina virtual con el software de virtualización y
hacer que arranque desde los archivos que hemos descargado. Se entra al
sistema con el usuario dataprix, contraseña dataprix.
176
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Para levantarlo:
$ cd pentaho-demo
$ ./stop-pentaho.sh
177
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
VirtualBox
Virtual Box está disponible para Linux, OS X (Mac) y Windows, y dispone de una
edición gratuita de evaluación y uso personal, y otra Open Source sujeta a las
condiciones de la licencia GPL. De esta manera nuestra imagen podrá utilizarse
libremente en cualquier entorno, siempre que se respeten las condiciones de las
licencias.
Para utilizar nuestro servidor virtual se pueden seguir estos sencillos pasos:
1. Instalar VirtualBox
2. Descargar el disco virtual desde Imagen virtual Pentaho VirtualBox
3. Descomprimirlo en el directorio de discos virtuales de VirtualBox,
normalmente se llama VDI
4. Ejecutar VirtualBox y crear una nueva máquina con el asistente de la
aplicación, escogiendo el tipo de Sistema Operativo Red Hat, 512 Mb de
memoria (esto es una sugerencia), y el disco virtual descargado como disco
de inicio.
5. Arrancar la máquina haciendo doble click sobre ella.
VMware
178
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
El Sistema Operativo
179
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Esta es la instalación de Pentaho más básica, que está configurada para funcionar
en local y sobre Hypersonic, perfecta para evaluar las posibilidades de este
software Open Source de Business Intelligence, o para una primera toma de
contacto sin muchas complicaciones. También sirve como base para preparar
cosas más complejas, y espero en un futuro poder ir ampliando esta máquina
virtual con nuevas funcionalidades, configuraciones, pruebas o demos
interesantes.
Si alguien utiliza esta imagen como base para hacer algo interesante
agradeceremos que nos lo cuente, o que se ponga en contacto con nosotros si
quiere que alojemos su 'versión'. Igualmente cualquier comentario, duda, idea o
sugerencia será bienvenido en nuestro foro, en el tema Imagen Virtual con
Pentaho.
180
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Bases de datos
Bases de datos
Oracle
SQLServer
MySQL
gratuito
herramientas
IDE
oracle SQL developer
181
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
A modo de ejemplo comentaré los sencillos pasos que se pueden seguir para
poder utilizar SQL Developer con una BD MySQL:
182
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
183
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Comento también los pasos que se pueden seguir para poder utilizar SQL
Developer con una BD SQL Server o Sybase, aunque lo único que cambia es el
driver que se utiliza:
184
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
185
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
Conclusiones
186
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
BIBLIOGRAFIA
187
UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA – UNAD
Escuela de Ciencias Básicas Tecnología e Ingeniería
Curso Minería de Datos
188