Está en la página 1de 42

Minería de Datos

Ing Giovanny S Vigo López


Proceso de MD Evaluación

Extracción de
Conocimiento

Conocimiento
Selección de
Datos
Características Modelo
Clasificador

BD
Preprocesado

Selección
Técnicas de Minería de Datos
• Los tipos de modelo estándar en la minería de datos
incluyen la regresión (regresión normal, para la
predicción, la regresión logística para la
clasificación), redes neuronales, y los árboles de
decisión, siendo estas técnicas las más conocidas
(Olson & Delen, 2008).
• De acuerdo a Maimon y Rokach (2010), las técnicas
de MD se clasifica:
Minería de
Datos

Verificación Descubrimiento

Predicción Descripción

Clasificación Regresión

Redes Redes Árboles de Máquina de Basado en


Neuronales Bayesianas Decisión Soporte Vectorial Instancia
• Los sistemas DM se desarrollan bajo lenguajes de
última generación basados en Inteligencia Artificial y
utilizan métodos matemáticos tales como:
– Redes Neuronales.
– Sistemas Expertos.
– Programación Genética.
– Árboles de Decisión.
Árboles de Decisión
• Son estructuras de forma de árbol que representan
conjuntos de decisiones. Estas decisiones generan
reglas para la clasificación de un conjunto de datos,
las cuales explican el comportamiento de una
variable con relación a otras, y pueden traducirse
fácilmente en reglas de negocio. Son utilizados con
finalidad predictiva y de clasificación. Por ejemplo,
los árboles de decisión pueden emplearse para:
– Optimizar respuestas de campañas.
– Identificar clientes potenciales.
– Realizar evaluación de riesgos.
Construcción de un Árbol de Decisión
• Variables:
– Clima
– Vive con sus Padres
– Situación Económica
• Resultado:
– Va al cine
– Se queda en casa
VIVE CON SUS SITUACION
CLIMA RESULTADO
PADRES ECONOMICA
CALOR SI BUENA CINE
VIENTO SI MALA CINE
LLUVIA NO BUENA CASA
CALOR SI MALA CASA
VIENTO NO MALA CASA
LLUVIA SI MALA CINE
VIENTO SI BUENA CINE
LLUVIA NO MALA CINE
• Identificando el primer nodo.
– Proporción del Resultado:
P(ValRes)=ValRes/#Res
– Entropía del Resultado:
H(Res)=-P(1°ValRes)*Log2P(1°ValRes)-P(2°ValRes)*Log2P(2°ValRes)-…
– Ganancia de Información de la Variable:
G(Var)=H(Res)-[(1°ValVar/Var)*H(Res:ValVar) +
(2°ValVar/Var)*H(Res:ValVar) + …]
• Identificando el primer nodo.
– Proporción del Resultado:
P(cine)=5/8 P(casa)=3/8
– Entropía del Resultado:
H(Res)=-P(cine)*Log2P(cine)-P(casa)*Log2P(casa)
H(Res)=-(5/8)*Log2(5/8)-(3/8)*Log2(3/8)
H(Res)=0.954434
– Ganancia de Información de la Variable:
G(Var)=H(Res)-[(1°ValVar/Var)*H(Res:ValVar) +
(2°ValVar/Var)*H(Res:ValVar) + …]
– Variable: Clima  G(Clima)
• Hallando la Entropía para cada valor de la variable:
• Calor: H(Res:Calor)=-P(Cine)*Log2P(Cine)-P(Casa)*Log2P(Casa)

VIVE CON SUS SITUACION


CLIMA RESULTADO
PADRES ECONOMICA
CALOR SI BUENA CINE
CALOR SI MALA CASA

• H(Res:Calor)=-(1/2)*Log2(1/2)-(1/2)*Log2(1/2) = 1
• Lluvia: H(Res:Lluvia)=-P(Cine)*Log2P(Cine)-P(Casa)*Log2P(Casa)
VIVE CON SUS SITUACION
CLIMA RESULTADO
PADRES ECONOMICA
LLUVIA NO BUENA CASA
LLUVIA SI MALA CINE
LLUVIA NO MALA CINE

• H(Res:Lluvia)=-(2/3)*Log2(2/3)-(1/3)*Log2(1/3) = 0.918296

• Viento: H(Res:Viento)=-P(Cine)*Log2P(Cine)-P(Casa)*Log2P(Casa)
VIVE CON SUS SITUACION
CLIMA RESULTADO
PADRES ECONOMICA
VIENTO SI MALA CINE
VIENTO NO MALA CASA
VIENTO SI BUENA CINE

• H(Res:Viento)=-(2/3)*Log2(2/3)-(1/3)*Log2(1/3) = 0.918296
• H(Res:Calor)= 1
• H(Res:Lluvia)= 0.918296
• H(Res:Viento)= 0.918296

• G(Clima)=H(Res)-[(Calor/Clima)*H(Res:Calor) +
(Lluvia/Clima)*H(Res:Lluvia) + (Lluvia/Clima)*H(Res:Lluvia) ]
• G(Clima)= 0.954434 -[(2/8)*1 + (3/8)*0.918296 + (3/8)*0.918296 ]
• G(Clima) = 0.015712
– Variable: Vive con sus padres  G(VPadres)
• Hallando la Entropía para cada valor de la variable:
• SI: H(Res:SI)=-P(Cine)*Log2P(Cine)-P(Casa)*Log2P(Casa)
VIVE CON SUS SITUACION
CLIMA RESULTADO
PADRES ECONOMICA
CALOR SI BUENA CINE
VIENTO SI MALA CINE
CALOR SI MALA CASA
LLUVIA SI MALA CINE
VIENTO SI BUENA CINE

• H(Res:SI)=-(4/5)*Log2(4/5)-(1/5)*Log2(1/5) = 0.721928
• NO: H(Res:NO)=-P(Cine)*Log2P(Cine)-P(Casa)*Log2P(Casa)
VIVE CON SUS SITUACION
CLIMA RESULTADO
PADRES ECONOMICA
LLUVIA NO BUENA CASA
VIENTO NO MALA CASA
LLUVIA NO MALA CINE

• H(Res:NO)=-(1/3)*Log2(1/3)-(2/3)*Log2(2/3) = 0.918296

• H(Res:SI)= 0.721928
• H(Res:NO) 0.918296

• G(VPadres)=H(Res)-[(SI/VPadres)*H(Res:SI) + (NO/VPadres)*H(Res:NO)
• G(VPadres)= 0.954434 -[(5/8)*0.721928 + (3/8)*0.918296]
• G(VPadres) = 0.158868
– Variable: Situación Económica G(SE)
• Hallando la Entropía para cada valor de la variable:
• Buena: H(Res:Buena)=-P(Cine)*Log2P(Cine)-P(Casa)*Log2P(Casa)
VIVE CON SUS SITUACION
CLIMA RESULTADO
PADRES ECONOMICA
CALOR SI BUENA CINE
LLUVIA NO BUENA CASA
VIENTO SI BUENA CINE

• H(Res:Buena)=-(2/3)*Log2(2/3)-(1/3)*Log2(1/3) = 0.918296
• Mala: H(Res:Mala)=-P(Cine)*Log2P(Cine)-P(Casa)*Log2P(Casa)
VIVE CON SUS SITUACION
CLIMA RESULTADO
PADRES ECONOMICA
VIENTO SI MALA CINE
CALOR SI MALA CASA
VIENTO NO MALA CASA
LLUVIA SI MALA CINE
LLUVIA NO MALA CINE

• H(Res:Mala)=-(3/5)*Log2(3/5)-(2/5)*Log2(2/5) = 0.970951

• H(Res:Buena)= 0.918296
• H(Res:Mala)= 0.970951

• G(SE)=H(Res)-[(Buena/SE)*H(Res:Buena) + (Mala/SE)*H(Res:Mala)
• G(SE)= 0.954434 -[(3/8)*0.918296 + (5/8)*0.970951]
• G(SE) = 0.003229
• G(Clima) = 0.015712
• G(VPadres) = 0.158868
• G(SE) = 0.003229

• Compara y se elige la de mayor ganancia: Vive con


sus padres
Vive con sus
Padres

SI NO

SITUACION
SITUACION CLIMA RESULTADO
CLIMA RESULTADO ECONOMICA
ECONOMICA
LLUVIA BUENA CASA
CALOR BUENA CINE
VIENTO MALA CASA
VIENTO MALA CINE
LLUVIA MALA CINE
CALOR MALA CASA
LLUVIA MALA CINE
VIENTO BUENA CINE
• Identificando el segundo nodo SI(VPadres).
– Proporción del Resultado:
P(cine)=4/5 P(casa)=1/5
– Entropía del Resultado:
H(Res)=-P(cine)*Log2P(cine)-P(casa)*Log2P(casa)
H(Res)=-(4/5)*Log2(4/5)-(1/5)*Log2(1/5)
H(Res)=0.721928
– Ganancia de Información de la Variable:
G(Var)=H(Res)-[(1°ValVar/Var)*H(Res:ValVar) +
(2°ValVar/Var)*H(Res:ValVar) + …]
– Variable: Clima  G(Clima)
• Hallando la Entropía para cada valor de la variable:
• Calor: H(Res:Calor)=-P(Cine)*Log2P(Cine)-P(Casa)*Log2P(Casa)
SITUACION
CLIMA RESULTADO
ECONOMICA
CALOR BUENA CINE
CALOR MALA CASA

• H(Res:Calor)=-(1/2)*Log2(1/2)-(1/2)*Log2(1/2) = 1
• Lluvia: H(Res:Lluvia)=-P(Cine)*Log2P(Cine)-P(Casa)*Log2P(Casa)
SITUACION
CLIMA RESULTADO
ECONOMICA
LLUVIA MALA CINE

• H(Res:Lluvia)=-(1)*Log2(1)-(0)*Log2(0) = 0

• Viento: H(Res:Viento)=-P(Cine)*Log2P(Cine)-P(Casa)*Log2P(Casa)
SITUACION
CLIMA RESULTADO
ECONOMICA
VIENTO MALA CINE
VIENTO BUENA CINE

• H(Res:Viento)=-(2/2)*Log2(2/2)-(0)*Log2(0) = 0
• H(Res:Calor)= 1
• H(Res:Lluvia)= 0
• H(Res:Viento)= 0

• G(Clima)=H(Res)-[(Calor/Clima)*H(Res:Calor) +
(Lluvia/Clima)*H(Res:Lluvia) + (Lluvia/Clima)*H(Res:Lluvia) ]
• G(Clima)= 0.721928-[(2/5)*1 + (1/5)*0 + (2/5)*0]
• G(Clima) = 0.321928
– Variable: Situación Económica G(SE)
• Hallando la Entropía para cada valor de la variable:
• Buena: H(Res:Buena)=-P(Cine)*Log2P(Cine)-P(Casa)*Log2P(Casa)
SITUACION
CLIMA RESULTADO
ECONOMICA
CALOR BUENA CINE
VIENTO BUENA CINE

• H(Res:Buena)=-(2/2)*Log2(2/2)-(0)*Log2(0)= 0
• Mala: H(Res:Mala)=-P(Cine)*Log2P(Cine)-P(Casa)*Log2P(Casa)

SITUACION
CLIMA RESULTADO
ECONOMICA
VIENTO MALA CINE
CALOR MALA CASA
LLUVIA MALA CINE

• H(Res:Mala)=-(2/3)*Log2(2/3)-(1/3)*Log2(1/3) = 0.918296

• H(Res:Buena)= 0
• H(Res:Mala)= 0.918296

• G(SE)=H(Res)-[(Buena/SE)*H(Res:Buena) + (Mala/SE)*H(Res:Mala)
• G(SE)= 0.721928-[(2/5)*0+ (3/5)*0.918296]
• G(SE) = 0.174190
• G(Clima) = 0.321928
• G(SE) = 0.174190

• Compara y se elige la de mayor ganancia: Clima


Vive con sus
Padres

SI NO

SITUACION
CLIMA RESULTADO
ECONOMICA
Clima LLUVIA BUENA CASA
VIENTO MALA CASA

Calor Viento LLUVIA MALA CINE

SITUACION SITUACION
ECONOMICA
RESULTADO Lluvia ECONOMICA
RESULTADO

BUENA CINE MALA CINE


MALA CASA BUENA CINE

SITUACION
RESULTADO
ECONOMICA
MALA CINE
• Identificando el tercer nodo Calor(Clima).
– Se observa que la única variable que queda es Situación Económica que
vendría a ser el tercer nodo.

– Asimismo se observa que solo hay una opción para cada valor de la variable
Situación económica, cerrando así este camino del árbol.
Vive con sus
Padres

SI NO

SITUACION
CLIMA RESULTADO
ECONOMICA
Clima LLUVIA BUENA CASA
VIENTO MALA CASA

Calor Viento LLUVIA MALA CINE

SITUACION
Situación Lluvia ECONOMICA
RESULTADO

Económica MALA CINE


BUENA CINE

Mala Buena
SITUACION
RESULTADO
ECONOMICA
MALA CINE
Casa Cine
• En los otros dos casos de valores de Clima, se
observa que hay un solo resultado, por lo que
también se concluyen ambos caminos del árbol.
Vive con sus
Padres

SI NO

SITUACION
CLIMA RESULTADO
ECONOMICA
Clima LLUVIA BUENA CASA
VIENTO MALA CASA

Calor Viento LLUVIA MALA CINE

SITUACION
Situación Lluvia ECONOMICA
RESULTADO

Económica MALA CINE


BUENA CINE

Mala Buena

Cine
Casa Cine
Vive con sus
Padres

SI NO

SITUACION
CLIMA RESULTADO
ECONOMICA
Clima LLUVIA BUENA CASA
VIENTO MALA CASA

Calor LLUVIA MALA CINE


Viento
Situación Lluvia
Económica
Cine
Mala Buena

Cine
Casa Cine
• Identificando el cuarto nodo NO(VPadres).
– Proporción del Resultado:
P(cine)=1/3 P(casa)=2/3
– Entropía del Resultado:
H(Res)=-P(cine)*Log2P(cine)-P(casa)*Log2P(casa)
H(Res)=-(1/3)*Log2(1/3)-(2/3)*Log2(2/3)
H(Res)=0.918296
– Ganancia de Información de la Variable:
G(Var)=H(Res)-[(1°ValVar/Var)*H(Res:ValVar) +
(2°ValVar/Var)*H(Res:ValVar) + …]
– Variable: Clima  G(Clima)
• Hallando la Entropía para cada valor de la variable:
• Lluvia: H(Res:Lluvia)=-P(Cine)*Log2P(Cine)-P(Casa)*Log2P(Casa)
SITUACION
CLIMA RESULTADO
ECONOMICA
LLUVIA BUENA CASA
LLUVIA MALA CINE

• H(Res:Lluvia)=-(1/2)*Log2(1/2)-(1/2)*Log2(1/2) = 1
• Viento: H(Res:Viento)=-P(Cine)*Log2P(Cine)-P(Casa)*Log2P(Casa)

SITUACION
CLIMA RESULTADO
ECONOMICA
VIENTO MALA CASA

• H(Res:Viento)=-(0)*Log2(0)-(1)*Log2(1) = 0

• H(Res:Lluvia)= 1
• H(Res:Viento)= 0

• G(Clima)=H(Res)-[ (Lluvia/Clima)*H(Res:Lluvia) +
(Viento/Clima)*H(Res:Viento) ]
• G(Clima)= 0.918296-[(2/3)*1 + (1/3)*0]
• G(Clima) = 0.251629
– Variable: Situación Económica G(SE)
• Hallando la Entropía para cada valor de la variable:
• Buena: H(Res:Buena)=-P(Cine)*Log2P(Cine)-P(Casa)*Log2P(Casa)

SITUACION
CLIMA RESULTADO
ECONOMICA
LLUVIA BUENA CASA

• H(Res:Buena)=-(0)*Log2(0)-(1)*Log2(1)= 0
• Mala: H(Res:Mala)=-P(Cine)*Log2P(Cine)-P(Casa)*Log2P(Casa)

SITUACION
CLIMA RESULTADO
ECONOMICA
VIENTO MALA CASA
LLUVIA MALA CINE

• H(Res:Mala)=-(1/2)*Log2(1/2)-(1/2)*Log2(1/2) = 1

• H(Res:Buena)= 0
• H(Res:Mala)= 1

• G(SE)=H(Res)-[(Buena/SE)*H(Res:Buena) + (Mala/SE)*H(Res:Mala)
• G(SE)= 0.918296-[(1/3)*0+ (2/3)*1]
• G(SE) = 0.251629
• G(Clima) = 0.251629
• G(SE) = 0.251629

• Compara y se elige la de mayor ganancia: En este


caso como son iguales se elige en forma aleatoria.
Vive con sus
Padres

SI NO

Situación
Clima
Económica

Calor Buena Mala


Viento
Situación Lluvia
Económica Clima
Cine Casa
Mala Buena
Lluvia Viento
Cine
Casa Cine

Cine Casa
Actividad
• Construye el árbol de decisión para la aprobación
del curso, considerando lo siguiente:
– Variables:
• Trabajos (Bien, Mal, No presento)
• Práctica Calificada (Aprueba, Desaprueba)
• Examen (Aprueba, Desaprueba, No presento)
• Asistencia (Cumple, no Cumple)
– Resultado:
• Aprueba
• Desaprueba
• Impedido

También podría gustarte