Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Departamento de Informática
Universidad Técnica Federico Santa Marı́a
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 1 / 37
¡¡¡Cuidado!!!
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 2 / 37
Underfitting and Overfitting
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 3 / 37
Overfitting
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 4 / 37
Evitando el Overfitting
Opción 1
Opción 2
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 5 / 37
Evitando el Overfitting
Opción 3: Cross-Validation
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 6 / 37
Árboles de Decisión
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 7 / 37
Qué es un Árbol de Decisión?
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 8 / 37
Ejemplo de Árbol de Decisión
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 9 / 37
¿Cómo “Aprende” un Árbol?
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 10 / 37
Generar Regiones Homogéneas de divisiones binarias
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 11 / 37
Ejemplo
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 12 / 37
Un poco de terminologı́a
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 13 / 37
Elección de la División
Nleft Nright
IG(Dp , f ) = I(Dp ) − I(Dleft ) − I(Dright )
Np Np
donde
f es la caracterı́stica elegida para hacer la división.
Dp representa el conjunto de datos dentro del nodo padre.
Dleft y Dright representan los conjuntos resultantes después de hacer la división
asociado al nodo hijo de la izquierda y derecha, respectivamente.
Np es la cardinalidad del conjunto de datos dentro del nodo padre.
Nleft y Nright es la cardinalidad de los nodos hijos.
I(·) es una medida de impureza.
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 14 / 37
Medidas de Impureza
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 15 / 37
Ejemplo del Algoritmo
Target
Yes: 165
No: 138
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 16 / 37
Ejemplo del Algoritmo (usando la Impureza de Gini)
Target
(165 Yes - 138 No)
Sex = 0 Sex = 1
Yes No Yes No
114 24 93 72
2 2
114 24
I(Dleft ) = 1 − − ≈ 0,2873
114 + 24 114 + 24
2 2
93 72
I(Dright ) = 1 − − ≈ 0,4919
93 + 72 93 + 72
2 2
165 138
I(Dp ) = 1 − − ≈ 0,4960
165 + 138 165 + 138
138 165
IG(Dp , Sex) = 0,4960 − · 0,2873 − · 0,4919 ≈ 0,0973
303 303
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 17 / 37
Ejemplo del Algoritmo (usando la Impureza de Gini)
Target
(165 Yes - 138 No)
Fbs = 0 Fbs = 1
Yes No Yes No
22 116 23 142
2 2
22 116
I(Dleft ) = 1 − − ≈ 0,2680
22 + 116 22 + 116
2 2
23 142
I(Dright ) = 1 − − ≈ 0,2399
23 + 142 23 + 142
2 2
165 138
I(Dp ) = 1 − − ≈ 0,4960
165 + 138 165 + 138
138 165
IG(Dp , Fbs) = 0,4960 − · 0,2680 − · 0,2399 ≈ 0,2433
303 303
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 18 / 37
Ejemplo del Algoritmo (usando la Impureza de Gini)
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 19 / 37
Árboles de decisión para Regresión
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 20 / 37
Árboles de decisión para Regresión
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 21 / 37
Algunos Hiperparámetros del Árbol
max depth: Controla es el tamaño del árbol, calculado como el recorrido más
largo desde la raı́z hasta el último nodo.
min samples leaf: Controla el número mı́nimo de observaciones que debe
haber en un nodo para que pueda ser considerado un nodo hoja.
min samples split: Controla el número mı́nimo de observaciones que debe
haber en un nodo para que éste pueda ser dividido.
criterion: “gini” or “entropy”.
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 22 / 37
Ventajas
Los árboles presentan una rápida interpretación del proceso que genera los
resultados (especialmente si son árboles pequeños). Dado lo anterior, son
considerados modelos de caja blanca.
Como consecuencia de la forma que adopta el árbol, se suele considerar un
modelo más cercano a la toma de decisiones humana, dado que permite obtener
reglas de asociación por cada rama, siendo un modelo más atractivo en algunas
áreas de negocio.
Los árboles pueden manejar fácilmente variables cualitativas y cuantitativas.
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 23 / 37
Desventajas
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 24 / 37
Support Vector Machine
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 25 / 37
Separación lineal
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 26 / 37
Margen General/Especı́fico
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 27 / 37
Maximización del Margen
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 28 / 37
¿Por qué maximizar el margen?
Resistencia al ruido en los datos de entrada.
Resistencia al error en el cálculo de la función de clasificación.
Propiedades matemáticas que permiten acotar de manera razonable el error de
generalización.
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 29 / 37
¿Qué pasa si los datos no son linealmente separables?
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 30 / 37
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 31 / 37
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 32 / 37
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 33 / 37
El truco del Kernel
Trabajar con una función de kernel ofrece una solución para proyectar un
conjunto de datos dentro de un espacio de caracterı́stica altamente dimensional
que incrementa la posibilidad de encontrar un hiperplano separador.
El nuevo espacio de caracterı́stica puede ser infinito-dimensional (donde se
asegura la linealidad).
El mapeo al nuevo espacio de caracterı́stica es muy costoso y sobre todo
trabajar dentro de él. No obstante, existe un teorema que nos permite obtener
resultados de comparación dentro de aquel espacio, sin la necesidad de mapear
explı́citamente los datos.
Sólo se necesita el resultado del kernel, el cual corresponderá a la similaridad
entre dos datos.
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 34 / 37
Algunos Kernel
Kernel Lineal:
k(x, y) = x> · y
Kernel Polinomial:
k(x, y) = (x> · y + 1)p
Kernel Gaussiano:
k(x, y) = exp(−||x − y||2 /2σ2 )
Kernel Sigmoidal:
k(x, y) = tanh(cx> · y + θ)
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 35 / 37
ν-SVM
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 36 / 37
Preguntas?
elopez[at]inf.utfsm.cl
carlos.valle[at]upla.cl
LATEX
E. López, C. Valle (DI-UTFSM) Diplomado en Data Science - Modulo 4 21 de Octubre del 2020 37 / 37