Está en la página 1de 56

Exploración y Descubrimiento

de la Data
Introducción
• El proceso de extracción de conocimiento (KDD) está aquí y está
provocando cambios profundos en diversas industrias. Desde el punto
de vista tecnológico ya existen sectores empresariales que han adoptado de
forma masiva proyectos y productos.

• El análisis de todos los datos disponibles está convirtiéndose en un


elemento de disrupción.
Generación de datos

• Así como internet es un factor


de desintermediación que está
afectando a muchas cadenas
de valor, el análisis de
información en grandes
volúmenes, de diversas
fuentes, a gran velocidad y
con una flexibilidad sin
precedentes puede suponer
un factor diferencial para
aquellos que decidan
adoptarlo.

¿Qué sucede en nuestras


empresas?
Enfoque de Uso
Las primeras funtes de datos son
buscados internamente

La mayor parte de los esfuerzos están


dirigidos a extraer y analizar datos
internos.

Lo importante es lograr que esta


información sea usada para optimizar
nuestros procesos
TIPOS DE DATOS
La visión clásica de la tipificación de los datos; nos dice que existen los
datos estructurados (modelo de datos definido) y no estructurados (no
tienen modelo de datos definido)

Datos Estructurados Datos No Estructurados

Datos que tienen un Datos que no tienen un


modelo definido o modelo definido o que
provienen de un no están organizados
campo en un registro

Datos Semi
Estructurados

Presentan una
caracteristica entidad –
relación semi definida
TIPOS DE DATOS
PROCESO DE EXTRACCIÓN DE
CONOCIMIENTO (KDD)
• Paso 1: Integración y Recopilación.
• Paso 2: Selección, Limpieza y
Transformación.
• Paso 3: Minería de Datos.
• Paso 4: Evaluación e Interpretación
• Paso 5: Difusión y Uso
Paso 1: Integración y Recopilación

• Limitación de los Sistemas de proceso


transaccional en línea (OLTP)
• Proceso de integración de las bases de
datos
• OLAP (procesamiento analítico en línea)
vs Data Mining
Paso 1: Integración y Recopilación
OLAP Data Mining
• Procesamiento • Procesamiento
deductivo Inductivo
• Se obtiene información • Verificación de Patrones
Agregada hipotéticos

OLAP se utiliza para hechos que se necesita conocer, como los informes
regionales de ventas estratificados por el tipo de negocios, mientras que el DM
automático se basa en la necesidad de descubrir los factores que influyen en
estas ventas.
Paso 2: Selección, Limpieza y
Transformación
• Definición de los Outliers
• Datos Perdidos
• Selección de los datos adecuados
• Númerizar atributos
• Discretizar atributos continuos
Paso 3: Minería de Datos

• La importancia de construir un modelo


– Modelo Descriptivo
• Clustering
• Reglas de Asociación
• Correlación
– Modelos Predictivos
• Clasificación
• Regresiones
Modelos Predictivos – Clasificación

• La clasificación consiste en predecir una


determinada clase (categórica) para un
objeto
• Condición fundamental que las clases se
puedan separar
• Puede ser un conjunto de reglas, un árbol
de decisión, una red neuronal, entre otros.
Ejemplo – Flor de Iris

En este problema la dificultad


está en la separación entre
las clases versicolor y
virgínica.

Aplicaciones: Aprobación de
créditos, mercados,
enfermedades, etc
Definición del Problema

• Paso 1: Describir al objeto a través de un


conjunto de características (variables o
atributos) - Estilos de Vida.
Proceso de Aprendizaje

• Paso 2: Se debe validar las reglas


iniciales y modificar hasta lograr un
modelo adecuado
Riesgos del muestreo
Similar a los riesgos en Contraste de Hipótesis
a es el riesgo de encontrar una diferencia cuando realmente no existe.

b es el riesgo de no encontrar una diferencia cuando realmente existe.

Acción
Muestra no Rechazada Muestra Rechazada
Estado Natural Error Tipo I o riesgo del
Decisión productor
La muestra no Correcta a = P(Tipo I)
debería ser
rechazada

Error Tipo II o riesgo del


consumidor Decisión
La muestra debería Correcta
b = P(Tipo II)
ser rechazada
Paso 3:Evaluación de un Calificador
• Precisión o exactitud (s, ε)
• En ocasiones se debe considerar el costo de la clasificación
incorrecta
• Velocidad
• Tiempo necesario para la construcción del modelo
• Tiempo necesario para usar el modelo
• Robustez: capacidad para tratar con valores desconocidos
• Escalabilidad: Aumento del tiempo necesario (en
construcción y evaluación) con el tamaño de la BD
• Interpretabilidad: comprensibilidad del modelo obtenido
• Complejidad del modelo: Tamaño del árbol de clasificación,
número de reglas, antecedentes en las reglas.
Matriz de Confusión
• Dado un problema de clasificación con m clases, una matriz
de confusión es una matriz m x m en la que una entrada ci,j
indica el número de ejemplos que se han asignado a la clase
cj, cuando la clase correcta es ci

• Ejemplo: Para la BD Height, si suponemos que output1 es la


clasificación correcta y output2 es la que hace el clasificador,
la matriz de confusión es
Ejemplo
Ejemplo
Modelo ZeroR
• Todas las instancias se clasifican como pertenecientes a
la clase mayoritaria
• Se usa como modelo base para realizar comparaciones
(cualquier algoritmo debería al menos igualar su
rendimiento ( error ).
• Ejemplo: Con la BD Lentes de contacto
– Lentes=ninguna 15/24
– Lentes=blandas 5/24
– Lentes=duras 4/24
• Por tanto la regla sería: lentes=ninguna
• s = 0.625
• ε = 0.375
Modelo OneR
• Objetivo: crear un clasificador formado por reglas con
una única variable en el antecedente
• Se generan todas las reglas del tipo
– Si variable=valor entonces Clase = categoría
• También se utiliza como algoritmo para realizar
comparaciones
Clasificador del Vecino más
Cercano
• k-NN (k vecinos más cercanos) es uno de los clasificadores
más utilizados por su simplicidad.
• El proceso de aprendizaje de este clasificador consiste en
almacenar una tabla con los ejemplos disponibles, junto a la
clase asociada a cada uno de ellos.
• Ante un nuevo ejemplo a clasificar, se calcula su distancia
(usaremos la Euclídea) con respecto a los n ejemplos
existentes en la tabla, y se consideran los k más cercanos.
• El nuevo ejemplo se clasifica según la clase mayoritaria de
los k ejemplos más cercanos.
• El caso más sencillo es cuando k = 1 (1-NN).
Representación Gráfica
Ejemplo
• Dado el siguiente conjunto con 4 instancias, 3 atributos y 2
clases:
– x1: 0.4 0.8 0.2 positiva
– x2: 0.2 0.7 0.9 positiva
– x3: 0.9 0.8 0.9 negativa
– x4: 0.8 0.1 0.0 negativa
• Calculamos la distancia del ejemplo con todos los del
conjunto:
Árbol de Decisión
• Un árbol de decisión es un clasificador que en función de un
conjunto de atributos permite determinar a que clase
pertenece el caso objeto de estudio
• La estructura de un árbol de decisión es:
• Cada hoja es una categoría (clase) de la variable objeto de la
clasificación
• Cada nodo es un nodo de decisión que especifica una prueba
simple a realizar
• Los descendientes de cada nodo son los posibles resultados
de la prueba del nodo
Árbol de Decisión
• Decidir si se puede jugar al tenis dependiendo del tiempo que
hace, de la humedad y del viento. Un posible árbol de
decisión es:
Construcción del Árbol
• Algoritmo básico (algoritmo voraz)
– Se construye el árbol mediante la técnica divide y
vencerás aplicada de forma recursiva
– Al principio todos los ejemplos de entrenamiento están en
el nodo raíz
– Los atributos son categóricos (si son continuos, se
discretizan previamente)
– Los ejemplos se dividen recursivamente basándose en
atributos seleccionados
– Los atributos de test se seleccionan en base a una medida
heurística o estadística (por ejemplo, la ganancia de
información)
Construcción del Árbol
• Condiciones para terminar el particionamiento
– Todos los ejemplos para un nodo dado pertenecen a la misma
clase
– No quedan más atributos para seguir particionando. En este
caso se utiliza el voto de la mayoría para clasificar en el nodo
hoja
– No quedan ejemplos
Ejemplo
Ejemplo

• Si seleccionamos gastos como varibale


raíz
Ejemplo
Ejemplo
Ejemplo
Ejemplo
EJEMPLO
• Nivel Socio-económico
Modelos Predictivos – Regresión

• La principal diferencia con la clasificación


es que el valor a predecir es numérico
• La expresión más sencilla de una
regresión es:
Coeficiente de correlación
Una vez que los diagramas de dispersión se han usado para buscar correlaciones, un coeficiente
de correlación puede usarse para medir la fuerza de cualquier correlación.

El análisis de correlación pone una magnitud cuantificable en la relación gráfica del diagrama de
dispersión.

v Un coeficiente de correlación se usa para medir el grado de asociación linear


(correlación) entre conjuntos de datos continuos.
v El coeficiente de correlación se refiere como “r.”

v El rango posible de “r” es: +1 hasta -1


§ r = +1 Relación positiva perfecta
§ r= 0 No existe relación linear
§ r = -1 Relación negativa perfecta
(mientras el valor de r sea más alto, más fuerte será la correlación)

v El coeficiente de correlación (r):


§ Refleja el grado en el que los puntos de datos están agrupados firmemente.
§ A veces se le denomina coeficiente de variación de Pearson.
Interpretación del coeficiente de
correlación
Ejemplos de diagramas de dispersión y sus coeficientes de correlación
asociados:

Tiempo de ciclo de pago


Indica una fuerte correlación r = +0.06
r = - 0.98 positiva, así que el valor r es
Velocidad de respuesta

50
muy elevado. El r es un número
positivo para representar la
inclinación hacia arriba.
30
Interpretación: mientras haya
más representantes en una
30
central telefónica, mayor será el
10
tiempo de llamada. 100 110 120
100 110 120 N.º de representantes
N.º de representantes r = +0.96
50
Indica una fuerte correlación Indica que no existe
Tiempo de llamada

negativa, así que el valor r es muy correlación, así que el valor de r


elevado. El r es un número es muy bajo.
negativo para representar la
Interpretación: no existe
inclinación hacia abajo.
relación entre la cantidad de
Interpretación: mientras haya más representantes de una central
10
representantes en una central telefónica y el tiempo de ciclo de
100 110 120
telefónica disponibles, más rápido No. de recepcionistas reclamos.
será el tiempo de respuesta.
Análisis de la regresión lineal
v La regresión lineal desarrolla un modelo matemático para representar los datos
en un diagrama de dispersión
v Define la relación matemática entre dos variables
v Genera una línea de curva ajustada que cuantifica la relación entre X e Y
v Permite predecir el valor de Y con un valor de X dado
Residuales
v La ecuación de la regresión o de la línea es
representada de las siguiente manera:
y = b0 + b1 “multiplicado por” x1, donde
Línea
de curva
y = resultado ajustada
Y
x1 = un aporte
b1 = la inclinación de la línea (se eleva, o
cambia en Y por incremento de unidad en X)
b0 = el valor predicho de y cuando x1 = 0
X1
Regresión lineal
v El análisis de regresión tiene su propia medida para
la fuerza de la relación. Esta medida es el cuadrado
del coeficiente de correlación, y se le denomina
simplemente como “r-cuadrado” (R-sq).

v R-cuadrado es la medida de cuánta variación en el


resultado del proceso es tomada en cuenta en el
modelo. Otra maneara de verlo, es la medida de qué
tan bien la línea de regresión describe los datos. (Así,
mientras más se acerque al 100%, será mejor).

v Ya que es un valor cuadrado, puede ir desde 0 hasta


1 positivo. Y
§ Se define como la proporción de la variabilidad
en Y (el resultado) que se explica por la X ( el
aporte y/o el proceso).
X
§ El proceso de regresión crea una línea que
refleja mejor la relación entre el proceso o el
aporte (X) y el resultado (Y).
Ejemplo de la interpretación de la
regresión lineal
Teoría:

Velocidad de respuesta
v Un equipo quería ver si la cantidad de
representantes de centrales telefónicas
afectaba en la velocidad de respuesta.
Pasos tomados: Y
v Con sus datos realizaron en primer lugar un
diagrama de dispersión y obtuvieron un
valor-r.
v Después, realizaron un análisis de
regresión en un programa de software X1
estadístico para crear una línea de curva N.º de reps. de central telefónica
ajustada.
v Finalmente obtuvieron el valor R-sq y el
Interpretación:
valor P
§El número de representantes de la central telefónica afecta
Los resultados:
considerablemente en la velocidad de respuesta (95.4%
v R-sq = 95.4% de la variación en la velocidad de respuesta se explica con
la cantidad de representantes).
v Valor-p = 0.0
§Esto es X fundamental (ya que p < 0.05,se rechaza H0, y
se determina que Y cambia cuando X cambia)
Regresión múltiple
Y= f (X1, X2, X3, etc.)
v La regresión múltiple es el mismo concepto que la regresión lineal, pero es una
ecuación para mostrar la relación matemática entre varias X y una Y.
v La regresión múltiple se usa para seleccionar entre muchas X (variables de aporte y
del proceso) al mismo tiempo para encontrar la variable más importante que afectan a
Y (la variable del resultado). Esto permite seleccionar la mejor solución para la mejora.
Ecuación de regresión múltiple:

Y= b0 + b1 X1 + b2 X2 + b3 X3 + …etc.
Donde…
Y = variable de resultado
XS = variables predictivas (variables de aporte o del proceso)
b0 = intercepción (valor previsto de Y cuando cada X = 0)
b1 = inclinación de la relación lineal entre Y y X1,
o el cambio en Y por incremento de unidad en X1 que
sostienen todas las demás XS constantes
b2 = inclinación para X2
b3 = inclinación para X3
Ejemplo de regresión múltiple
Situación:
Un equipo que trabaja en una central
telefónica y enfocado en mejorar la
velocidad de respuesta deseaba
comprobar si la cantidad de llamadas Hoja de datos:
dirigidas al área de atención al cliente
Velocidad de Número de Número de
y la cantidad de preguntas sobre las respuesta llamadas preguntas
cuentas activas estaban (segundos) (por hora) (por hora)
correlacionadas con la velocidad de 21 503 45
respuesta.
24 654 52

Para esta situación, las variables 30 709 22

predictivas y de respuesta fueron:


16 598 16
Y = Velocidad de respuesta
X1 = cantidad de llamadas
X2 = cantidad de preguntas
Ejemplo de regresión múltiple
Resultados:
R-Sq = 94.3% La cantidad de
llamadas causa la
Valor-p para la cantidad de llamadas = 0.0
variación en la
Valor-P para la cantidad de preguntas = 0.785 velocidad de
respuesta
Interpretación:
v El valor R-sq indica que las variables de aporte en la regresión representan un
94.3% de la variación en velocidad de respuesta, sin embargo…
v Puesto que el valor-p de la cantidad de preguntas es mayor a 0.05 no influye en
la velocidad de respuesta
v Puesto que el valor-p de la cantidad de llamadas es menor que 0.05, sí influye
en la velocidad de respuesta y por consiguiente es una X fundamental.
Conclusión:
Debe ser la cantidad de llamadas lo que está creando toda la variación en la
velocidad de respuesta.
Riesgos del muestreo
Similar a los riesgos en Contraste de Hipótesis
a es el riesgo de encontrar una diferencia cuando realmente no existe.

b es el riesgo de no encontrar una diferencia cuando realmente existe.

Acción
Muestra no Rechazada Muestra Rechazada
Estado Natural Error Tipo I o riesgo del
Decisión productor
La muestra no Correcta a = P(Tipo I)
debería ser
rechazada

Error Tipo II o riesgo del


consumidor Decisión
La muestra debería Correcta
b = P(Tipo II)
ser rechazada
(2 Sample-Test) Tabla de Seleción del s 2
Tamaño de Muestra para Cada
Tratamiento
{
n = 2 ( Za / 2 + Z b )2 } 2
d
20% 20% 20% 20% 10% 10% 10% 10% 5% 5% 5% 5% 1% 1% 1% 1% a
d/ s 20% 10% 5% 1% 20% 10% 5% 1% 20% 10% 5% 1% 20% 10% 5% 1% b
0.1 902 1314 1713 2603 1237 1713 2164 3154 1570 2101 2599 3674 2336 2976 3563 4806
0.2 225 328 428 651 309 428 541 789 392 525 650 919 584 744 891 1202
0.3 100 146 190 289 137 190 240 350 174 233 289 408 260 331 396 534
0.4 56 82 107 163 77 107 135 197 98 131 162 230 146 186 223 300
0.5 36 53 69 104 49 69 87 126 63 84 104 147 93 119 143 192
0.6 25 36 48 72 34 48 60 88 44 58 72 102 65 83 99 134
0.7 18 27 35 53 25 35 44 64 32 43 53 75 48 61 73 98
0.8 14 21 27 41 19 27 34 49 25 33 41 57 36 46 56 75
0.9 11 16 21 32 15 21 27 39 19 26 32 45 29 37 44 59
1 9 13 17 26 12 17 22 32 16 21 26 37 23 30 36 48
1.1 7 11 14 22 10 14 18 26 13 17 21 30 19 25 29 40
1.2 6 9 12 18 9 12 15 22 11 15 18 26 16 21 25 33
1.3 5 8 10 15 7 10 13 19 9 12 15 22 14 18 21 28
1.4 5 7 9 13 6 9 11 16 8 11 13 19 12 15 18 25
1.5 4 6 8 12 5 8 10 14 7 9 12 16 10 13 16 21
1.6 4 5 7 10 5 7 8 12 6 8 10 14 9 12 14 19
1.7 3 5 6 9 4 6 7 11 5 7 9 13 8 10 12 17
1.8 3 4 5 8 4 5 7 10 5 6 8 11 7 9 11 15
1.9 2 4 5 7 3 5 6 9 4 6 7 10 6 8 10 13
2 2 3 4 7 3 4 5 8 4 5 6 9 6 7 9 12
Relación entre Delta/Sigma
y el Tamaño de la Muestra
a = .05 b = .1

10000

1000
Sample size

100

10

1
1

7
1

4
0.

0.

0.

1.

1.

1.

2.

2.

2.

3.

3.

3.
Delta/Sigma
NO SIEMPRE ES TAN
SENCILLO
Basados en el ejemplo, busquemos otro ejemplo para
poder predecir el nivel del flujo de calor.

X1 = Nivel de Insolación
X2 = Hora del día
X3 = Sur
X4 = Norte
X5 = Este
Y = Flujo de Calor

Use los datos para extraer las variables vitales del


proceso que pueden influir en el tratamiento del
agua.
Primer Gráfico de los Datos
Matrix Plot of HeatFlux, Insolation, East, South, North, Time
600 750 900 32 36 40 10.0 12.5 15.0
280

240
HeatFlux
200

900

750
Insolation

600
37.0

34.5
East
32.0

40

36 South

32
19.5

18.0
North
16.5

15.0

12.5 Time

10.0
200 240 280 32.0 34.5 37.0 16.5 18.0 19.5

¿Que relación entre variables puede


observar?
Flujo de Calor
Nuestro objetivo es ajustar una regresión de la forma:

Y = b0 + b1 X 1 + b2 X 2 + b3 X 3 + b4 X 4 + b5 X 5

Pasos a Seguir:

1. Analizar las variables X, que no deben ser consideradas en


el análisis
2. Análisis de Residuos
Resultados del análisis de
“TODAS” las variables
Regression Analysis

The regression equation is


HeatFlux = 325 + 0.0675 Insolation + 2.55 East + 3.80 South - 22.9
North + 2.42 Time

Analizar lo siguiente del resultado.


¿Debo de incluir todas las variables X en la ecuación?
¿El modelo es representativo?
¿Los residuales validan el modelo?
Resultados del análisis de
“TODAS” las variables
Predictor Coef SE Coef T P
Constant 325.44 96.13 3.39 0.003
Insolation 0.06753 0.02899 2.33 0.029
East 2.552 1.248 2.04 0.053
South 3.800 1.461 2.60 0.016
North -22.949 2.704 -8.49 0.000
Time 2.417 1.808 1.34 0.194
Resultados del análisis de las
variables “Relevantes”
The regression equation is
HeatFlux = 270 + 0.0516 Insolation + 2.95 East + 5.34 South - 21.1 North

Predictor Coef SE Coef T P


Constant 270.21 88.21 3.06 0.005
Insolation 0.05156 0.02685 1.92 0.067
East 2.951 1.232 2.40 0.025
South 5.3386 0.9151 5.83 0.000
North -21.119 2.369 -8.91 0.000

S = 8.16981 R-Sq = 89.1% R-Sq(adj) = 87.3%


Referencias
• Hernández, J., Ramírez, M.J. y Ferri, C. (2004). Cap. 1:
¿Qué es la minería de datos? Introducción de la Minería
de Datos, (pp. 3-18). España: Editorial Pearson..
• Hernández, J., Ramírez, M.J. y Ferri, C. (2004). Cap. 2:
El proceso de extracción de conocimiento. En
Introducción de la Minería de Datos, (pp. 19-39).
España: Editorial Pearson.

También podría gustarte