Está en la página 1de 27

Aprendizaje Supervisado: Técnicas de

clasificación

Priscila Valdiviezo, PhD.


Departamento de Ciencias de la Computación y
Electrónica
Contenidos Clase 4 – Semana 8

Unidad 4. Aprendizaje Supervisado: Técnicas de clasificación

 Introducción
 Clasificación: Qué es?
 Algoritmos de clasificación
 Árboles de decisión
 Ejemplo de un caso real
 Práctica en R
 Entregable 2

2
I
Introducción

•Aprendizaje supervisado
–Relación existen entre variables de entrada y una
de salida.

Algoritmo Es un gato
supervisado

Gato

3
Introducción

Algoritmo Es un gato
supervisado

4
Introdución

•Importancia
–Permiten a las empresas u organizaciones
comprender y prevenir resultados no deseados o
impulsar resultados deseados para lo que se está
tratando de predecir.
–Ayuda a la toma de decisiones empresariales.
•Ejemplo: Predicción de ventas
–Decir a un supermercado que tiene un alto riesgo de que los
clientes ya no compren sus productos, el supermercado puede
mejorar la calidad del productos, atención al cliente, mejorar
ofertas etc.

5
Introducción

•Tipos de aprendizaje supervisado


C l a s i f i c a c i ó n /Predicción

S pam S pam

S p am
S p am S pam

R e g r e s ió n

6
Clasificación: Qués es?

•Clasificación
–Proceso de predecir etiquetas de clases
discretas o categorías.
–Si solo tengo dos clases se denomina:
clasificación binaria.
–Si se tiene que predecir más de dos clases, se
llama multicategoria
–Ejemplos: clasificar un tumor como maligno o
benigno.

7
Clasificación: Qué es?
•Ejemplos
•Predecir si un determinado producto le va a gustar a un cliente basándonos en las
valoraciones que ese mismo cliente ha hecho de otros productos que sí le han
gustado.

•Predecir si a un cliente de un banco se le va a proporcionar un crédito basándose en


los datos correspondientes a los créditos concedidos (o no) a otros clientes con
anterioridad.

•Predecir si un mensaje de email es “spam” o es “legítimo”, basados en las


características de los mensajes (direcciones IP, relación texto/imágenes, ciertas
palabras, no tiene destinatarios, etc.).

•Predecir determinadas enfermedades, o predecir la efectividad de un determinado


tratamiento, etc.

8
Clasificación: Qué es?
•Entrenar el modelo con datos etiquetados
Etiqueta

Valores de categoría o clase


9
Clasificación: Qué es?
Etiqueta

outlook temperature humidity windy play


sunny 85 85 FALSE no
sunny 80 90 TRUE no
overcast 83 86 FALSE yes

Valores de categoría o clase


rainy 70 96 FALSE yes
rainy 68 80 FALSE yes
rainy 65 70 TRUE no
overcast 64 65 TRUE yes
sunny 72 95 FALSE no
sunny 69 70 FALSE yes
rainy 75 80 FALSE yes
sunny 75 70 TRUE yes
overcast 72 90 TRUE yes
overcast 81 75 FALSE yes
rainy 71 91 TRUE no

10
Algoritmos de clasificación

•Usan las caracteristicas aprendidas de los


datos de entrenamiento sobre datos nuevos no
vistos previamente para predecir sus etiquetas
de clase.
•Ejemplos:
–Árboles de decisión
–Regresión logística
–Máquinas de soporte vectorial

11
Árboles de decisión
• Modelos de predicción que sirven para
representar y categorizar una serie de
condiciones que suceden de forma
sucesiva, para la resolución de un
problema.
• Forma gráfica de representar los
eventos (sucesos) que pueden surgir
en un problema.
• Ayudan a tomar decisiones acertadas,
desde un punto de vista probabilístico,
ante un abanico de posibles
alternativas (decisiones).

12
Árboles de decisión

–Ejemplo

•Un banco desea predecir que personas de las que


solicitan un crédito no van a devolverlo.
•La entidad bancaria cuenta con una gran base de datos
correspondientes a los créditos concedidos (o no) a otros
clientes con anterioridad

13
Árboles de decisión

•Conjunto de datos
IDC Años Dólare Sueldo Casa Cuenta …. Devuelv
s propia s e
moros crédito
as
01 15 60000 2200 Si 2 No

02 2 30000 3500 Si 0 Si

03 9 15000 1500 Si 1 No

04 15 9000 1700 No 0 Si

05 10 18000 1900 No 0 No

.. .. .. .. .. .. .. ..

14
Árboles de decisión

Conocimiento obtenido: Cuentas


morosas

• SI (cuentas-morosas > 0) >0 =0

ENTONCES Devuelve- No devuelve Salario


credito = no crédito

• SI (cuentas-morosas = 0) > 2500


< 2500

Y ((salario > 2500) O Si


devuelve Años
(años > 10)) ENTONCES credito

devuelve-credito = si > 10

Si
devuelve
credito

15
Árboles de decisión

•Idea general en la predicción


–Utilizar un conjunto de datos disponibles, en forma
de tabla de atributos, para aprender un predictor
(clasificador o regresor), que sea capaz de predecir
la clase de datos NO VISTOS TODAVÍA.
–El predictor toma una entrada (los distintos valores
de los atributos que representan al dato) y devuelve
una salida (la clase o cantidad predicha para ese
dato)
Árboles de decisión
Ejemplo 2
• Predecir si una persona podría salir a jugar tenis de acuerdo a diferentes
aspectos (atributos) metereológicos como:
–Aspecto del cielo: soleado, lluvioso, cubierto
–Temperatura: medida en grados
–Humedad: en %
–Viento: {Si o No}

Clase: Jugar tenis {Si o No}

• Se trata de relacionar las condiciones del tiempo y la decisión de


salir o no a jugar
Árboles de decisión

Días que se ha podido jugar al tenis:


Ejemplo de un caso real

•Predicción del consumo de tabaco y alcohol


Pre-procesamiento
•478 sujetos (alcohol y tabaco)
•73 variables (sociodemográficas, de salud, y
psicosociales )
•Normalización: técnica basada en min-max
•Reducción de variables:
– 7 variables

19
Ejemplo de un caso real
Ejemplo de un caso real

• Un alumno universitario que tiene


antecedentes de consumo de un psicofármaco
se ve que tiene riesgo de perder el ciclo.
• Un alumno universitario que no tiene el
antecedente de consumo de fármacos, pero
presenta un compromiso vital bajo, más
obesidad IMC alto y mayor presencia de
personalidad de tipo A alta.
• Un alumno Varón universitario que no tiene el
antecedente de consumo de fármacos,
compromiso vital bajo, IMC alto y menor
presencia de personalidad de tipo A.
• Alumno universitario sin antecedentes de
psicofarmacos con compromiso vital alto, y alta
presencia de personalidad Tipo A.
Fuente: https://www.proquest.com/openview/9de510980caeaaebe4b1e415fa9a3b3e/1?pq-origsite=gscholar&cbl=1006393
Práctica en R

Árboles de decisión (CART): Classification


And Regression Trees.
• Técnica de aprendizaje supervisado.
• Tenemos una variable objetivo (dependiente) y
la idea es obtener una función que nos permita
predecir, a partir de variables predictoras
(independientes), el valor de la variable
objetivo para casos desconocidos.

22
Práctica en R

•1. Dividir el conjunto de datos en entrenamiento y


prueba:
–Método split: Se divide los datos entre
entrenamiento y prueba utilizando un porcentaje
de división establecido.
•2. Cargar el dataset procesado
•3. Seleccionar variables y establecer variable
objetivo
•4. Construir el modelo: Aplicar el algoritmo de
árboles de decisión usando la libreria “rpart” de R
23
Entregable 2: Modelado

Problemática

2.2 Detectar las


2.1 Determinar si un principales
paciente se recuperará causas de
o morirá. muerte, grupos
vulnerables, etc.

COVID-19

24
Entregable 2.1 – Experimentos con algoritmos de clasificación

Fecha de entrega: Jueves 9 de diciembre de 2021

–Seleccionar el algoritmo de predicción.


–Entrenar el algoritmo usando como variable objetivo “death” y
obtener las predicciones.
–Interpretar los resultados obtenidos del experimento.
–Evaluar el modelo con el conjunto de pruebas utilizando algunas
métricas estudiadas por ejemplo el cálculo del error, accuracy
(Exactitud), etc.

25
Referencias

Libreria rpart
https://cran.r-project.org/web/packages/rpart/rpart.pdf

Arboles de Decisión - Parte II


https://bookdown.org/content/2031/arboles-de-decisio
n-parte-ii.html

Arboles de decisión con R - Clasificación


https://rpubs.com/jboscomendoza/arboles_decision_c
lasificacion
26

También podría gustarte