Supervised Learning

Machine Learning
José W. Araujo B.
Noviembre2021
Regresión Lineal
Estimación MCO
El objetivo de la estimación por MCO es minimizar la sumatoria de los
errores estimados al cuadrado.
𝑚𝑖𝑛 ∑ 𝑢^ 2 ^𝛽=( 𝑋 ′ 𝑋 )− 1 (𝑋 ′ 𝑌 )
^ ^ 2
(
𝑣𝑎𝑟 ( 𝛽 )=𝜎 𝑋 𝑋
′
)−1
𝑠𝑢𝑗𝑒𝑡𝑜 𝑎{ ^𝛽 }
^′𝑢
𝑢 ^
^ 2=
𝜎
𝑛− 𝑘
Propiedades de un Estimador
• Insesgadez
𝐸 (^
𝛽 ) =𝛽
• Eficiencia
𝑣𝑎𝑟 ( ^𝛽 ) 𝑒𝑠𝑚í 𝑛𝑖𝑚𝑎
• Consitencia
Plim ( ^
𝛽 )= 𝛽
𝑛→ ∞
Propiedades de un Estimador
Bondad de ajuste
De la expresión:
^ )+𝑣𝑎𝑟 ( 𝑢)
𝑣𝑎𝑟 (𝑌 )=𝑣𝑎𝑟 ( 𝑌 ^
Tenemos que:
′
𝑌 𝑌 2
^′𝑌
𝑌 ^ 2 𝑢^ ′𝑢
^
−𝑌 = −𝑌 +
Que equivale a: 𝑛 𝑛 𝑛
Finalmente: 𝑆𝑇𝐶=𝑆𝐸𝐶+𝑆𝑅𝐶
𝑆𝐸𝐶 𝑆𝑅𝐶
𝑅2 = 𝑅2 =1−
𝑆𝑇𝐶 𝑆𝑇𝐶
Bondad de ajuste
El coeficiente de determinación es una función creciente al número de
variables.
Por tanto el beneficio de incluir variables adicionales es mejorar la

bondad de ajuste del modelo, sin embargo el incrementar el número
de variables tiene un costo, la pérdida de grados de libertad.
Por ello, el R cuadrado ajustado o corregido, es una medida mas

confiable de la bondad de ajuste de un modelo.
2 ( 𝑛 −1 ) 2
𝑅𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 = 1− (1− 𝑅 )
(𝑛−𝑘)
Bondad de ajuste
2 ( 𝑛 −1 ) 2
𝑅𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 = 1− (1− 𝑅 )
( 𝑛 −𝑘 )
Es importante tener en cuenta que:

𝑘 𝑅2 𝑅2𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 𝑏𝑒𝑛𝑒𝑓𝑖𝑐𝑖𝑜
𝑘 (𝑛 −𝑘) 𝑅2𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 𝑐𝑜𝑠𝑡𝑜
Si luego de incrementar el número de variables, se incrementa el R cuadrado ajustado, el beneficio es mayor

al costo, por lo tanto vale la pena incluir la variable adicional.
Regularization
Regularization
Concepto importante en Machine
Learning que lidia con el overfitting.
Mientras más complejo sea el modelo,

menor es el sesgo pero mayor la
varianza y viceversa.
Las técnicas de Regularización tratan de

elegir el modelo con la complejidad
óptima, teóricamente, minimizando el
error total.
Ridge Regression
Penaliza la función objetivo en función de la magnitud de los
coeficientes.
Si el parámetro lambda tiende a cero, Ridge Regression tiende a MCO.

Lasso Regression
Penaliza la función objetivo en función de la magnitud de los
coeficientes.
Si el parámetro lambda tiende a cero, Ridge Regression tiende a MCO.

Elastic Net
Es una combinación entre Ridge y Lasso.
Si alfa es cero, Elastic Net converge a Ridge.

Si alfa es uno, Elastic Net converge a Lasso.
Regresión Logística
Modelos de elección discreta
es una variable discreta, por ejemplo:

• El color del carro
• Incumplimiento de un pago
• Nivel de educación
• El sexo
es una variable discreta dicotómica.

o
=1 si es hombre.
o
=0 si es mujer.
Y Yˆ Estimación MCO
1 Dadas las características , ¿Cuál
es la probabilidad de que el
individuo sea hombre o mujer?
La estimación por MCO

tiene algunas
0 X limitaciones.
Variable original
Variable estimada
como probabilidad
Variable estimada
con un modelo lineal
Limitaciones MCO:
• La predicción de MCO no necesariamente esta en el intervalo de [0 -

1].
• Existencia de heterocedasticidad.
• Violación del supuesto de normalidad.
Sin embargo, es usual usar MCO para tener un

análisis rápido y sencillo de la causalidad de las
variables.
Probabilidad Condicional
• Recordando: En una regresión lineal.

• Dado que Y es una variable dicotómica, tenemos:

La contribución de Mc Fadden:
En este tipo de modelos se debe usar una curva cuyos valores
estén estrictamente dentro del intervalo [0 – 1].
Y
1 Yˆ Estimación propuesta
Curva con forma de S
0 X
PDF 1 CDF
0 0
𝐶𝐷 𝐹 ′ =𝑃𝐷𝐹
1 𝑍
1
2
[− 𝑍 ]
PROBIT f ( 𝑍 )= 𝑒 2 F ( 𝑍 )= ∫ 𝑓 ( 𝑍 ) 𝑑𝑍
√2 𝜋 −∞
𝑒𝑍 1
LOGIT g ( 𝑍 )= 2
G ( 𝑍 )= 𝑍
( 1+𝑒 𝑍 ) 1+𝑒
Impactos Marginales
• MCO
La interpretación de
los parámetros
• PROBIT estimados en los
modelos de elección
discreta no es la
misma que en MCO.
• LOGIT
Regresión Logistica
1
P ( 𝑌 =1 )= − 𝑋 𝛽 ++µ
1+𝑒
𝜕𝑌 𝑒− 𝑋 𝛽
= ∗ 𝛽𝑖
𝜕 𝑋𝑖 ( 1 +𝑒 − 𝑋 𝛽
)
2
𝜕𝑌
= 𝑃 ∗(1 − 𝑃 ) ∗ 𝛽𝑖
𝜕 𝑋𝑖
• El signo del β corresponde al signo del impacto marginal, este
debe ser consistente con la teoría económica.
• El impacto marginal no es constante, este varía para cada valor de
• El impacto marginal puede ser calculado ceterisparibus(Las toman
su valor promedio).
Ratio Odds (OR)
Se define:
𝑃 (𝑒𝑣𝑒𝑛𝑡𝑜 𝑎 𝑓𝑎𝑣𝑜𝑟 )
𝑂𝑅=
𝑃 (𝑒𝑣𝑒𝑛𝑡𝑜 𝑒𝑛𝑐𝑜𝑛𝑡𝑟𝑎)
Ejemplo:
EVENTO PROBABILIDAD
Ganar una apuesta 0.8 0.8
𝑂𝑅= =4
Perder una apuesta 0.2 0.2
Ratio Odds (OR)
Y original
Y estimada
Odds de Y
Ln(odds) de Y
Weight of Evidence (WOE)
Se define:
)
Ejemplo:
X=i Y=0 Y=1 P(X=i/Y=0) P(X=i/Y=1) WOE
A 2 1 0.4 0.33 -0.18
B 1 1 0.2 0.33 0.51
C 2 1 0.4 0.33 -0.18
TOTAL 5 3 1 1 -
Information Value (IV)
Se define:
IV
Ejemplo:
X=i Y=0 Y=1 P(X=i/Y=0) P(X=i/Y=1) WOE Dif. Prod.
A 2 1 0.4 0.33 -0.18 -0.067 0.0122
B 1 1 0.2 0.33 0.51 0.133 0.0681
C 2 1 0.4 0.33 -0.18 -0.067 0.0122
TOTAL 5 3 1 1 - - 0.0924 = IV
Tasa de aciertos
^ >𝑝 ∗
𝑝
• Si entonces ^ =1
𝑌
^ ≤𝑝∗
𝑝
• Si entonces ^ =0
𝑌
PREDICCIÓN
OBSERVADO
𝑛11+𝑛 00
+ ( % ) 𝐴𝑐𝑖𝑒𝑟𝑡𝑜𝑠=
𝑛
Poder de Discriminación
Punto de
corte
Buenos
Malos
SCORE
Error tipo II Error tipo I

Coste de oportunidad Riesgo de impago
Curva ROC
Calibración
Estimación
Real
Calibración
• Prueba Binomial
 /2
/2
/2 /2
Aceptación

LI R LI A LS A LS R
Estabilidad
• Poblacional Inicial
Actual
• Modelo
Estabilidad: Coeficientes
Inferencia
Test recursivos
Bootstrap
Aceptación
^𝛽
Estabilidad: Poblacional
base 𝑎1 𝑎2 𝑎3 𝑎4 𝑎5 𝑎6 𝑎7 𝑎8 𝑎9 𝑎10
muestra
𝑏1 𝑏2 𝑏3 𝑏4 𝑏5 𝑏6 𝑏7 𝑏8 𝑏9 𝑏10
𝑏𝑖
𝑃𝑆𝐼 =∑ ( 𝑏 𝑖 − 𝑎 𝑖 ) ln ⁡( )
𝑎𝑖
10% 25%
Máximo Verosimilitud
Estimación por MV
El objetivo de la estimación por MV es maximizar la función de
probabilidad conjunta, es decir maximizar la probabilidad de que una
muestra pertenezca a una distribución dada.
𝑚𝑎𝑥 ∑ 𝐹(𝑋/𝛽) ^𝛽=( 𝑋 ′ 𝑋 )− 1 (𝑋 ′ 𝑌 )
^ ^ (𝑋 𝑋)
𝑣𝑎𝑟 ( 𝛽 )=𝜎
2 ′ −1
^ ^ 2
𝑠𝑢𝑗𝑒𝑡𝑜 𝑎{ 𝛽 , 𝜎 }
^′𝑢
𝑢 ^
^ =
𝜎
2
𝑛
Supuestos MV
1. Se asume distribución a priori.
Es decir, la muestra ha sido extraída de una función de distribución
dada.
2. Cada elemento de la muestra se distribuye independientemente.

Procedimiento estimación MV
1. Una muestra ha sido extraída de una función de distribución .
2. Dado que los eventos son independientes, se construye la función
de distribución conjunta:
3. Tomando logaritmos:
4. Optimizamos:
5. Formamos la matriz Hessiana:
6. Formamos la matriz de información:
7. Finalmente, construimos la matriz de varianzas y covarianzas del

estimador:
Modelo Lineal General
Se supone que los errores siguen una distribución
normal y sus probabilidades de ocurrencia
independientes.
Función de probabilidad
conjunta
𝑚𝑎𝑥 ∑ 𝐹(𝑋/𝛽)
𝑢 𝑁 (0 , 𝜎 2)
( )
2
1 𝑢𝑖
1 −
𝑓 ( 𝑢𝑖 ) =
√2 𝜋 𝜎
𝑒
2 𝜎
^ ^ 2
𝑠𝑢𝑗𝑒𝑡𝑜 𝑎{ 𝛽 , 𝜎 }
Función de probabilidad
individual
Construyendo la función de probabilidad conjunta:
𝐹 (𝑢 1 , 𝑢2 , … , 𝑢𝑛 / ^ ^ 2)=f ( u 1) f ( u2 ) … f (un )
𝛽,𝜎
( ) ( )… ( )
2 2 2
1 𝑢1 1 𝑢2 1 𝑢𝑛
1 −
1 −
1 −
𝐿( ^ ^ 2 )=
𝛽,𝜎 𝑒 2 𝜎
𝑒 2 𝜎
𝑒 2 𝜎
√2 𝜋 𝜎 √2 𝜋 𝜎 √2 𝜋 𝜎
( )
2
1 ∑ 𝑢𝑖
1 −
𝐿( ^ ^ 2 )= 2 𝜎
𝛽,𝜎 𝑛 𝑛
𝑒
2 2 2
(2 𝜋 ) (𝜎 )
Tomando logaritmos:
^ n 𝑛 1
( 2
)
𝑙𝑛𝐿 𝛽, 𝜎 =− ln 2 π − ln ( 𝜎 ) −
^ ( ) 2
2∑ 𝑖
𝑢
2
2 2 2𝜎
Optimizando:
𝜕 𝑙𝑛𝐿
=0 ^𝛽=( 𝑋 ′ 𝑋 )− 1 (𝑋 ′ 𝑌 )
𝜕𝛽^
𝜕 𝑙𝑛𝐿 ^′𝑢
𝑢 ^
=0 ^ =
𝜎2
𝜕𝜎^ 2
𝑛
Construyendo la matriz Hessiana:
[ ]
𝜕2 𝑙𝑛𝐿 𝜕 2 𝑙𝑛𝐿
𝜕^
𝛽𝜕 ^𝛽′ 𝜕^
𝛽𝜕 𝜎 ^2
𝐻 (^ ^ 2 )=
𝛽 ,𝜎 2 2
𝜕 𝑙𝑛𝐿 𝜕 𝑙𝑛𝐿
^2𝜕 ^
𝜕𝜎 𝛽 𝜕𝜎^4
Resolviendo:
[ ]
′
𝑋 𝑋
− 2
0
𝜎
𝐻 (^ ^ 2 )=
𝛽 ,𝜎
𝑛
0 −
2𝜎4
Finalmente, se obtiene la matriz de varianzas y
covarianzas:
[ ]
−1
𝜎 (𝑋 𝑋)
2 ′
−1 0
𝑀𝑉𝐶 𝛽 , 𝜎 = 𝐼 𝛽 , 𝜎 ) = − 𝐸 [ 𝐻 ( ^ ^ 2 )] =
^ ^ 2 −1
( ^ 2
) ( ^ 𝛽 ,𝜎 2𝜎
4
0
Donde: 𝑛
2 𝜎4
𝑣𝑎𝑟 ( ^
𝛽 )=𝜎 ( 𝑋 𝑋 ) 𝑣𝑎𝑟 ( 𝜎
^ )=
2 ′ −1 2
𝑛
Cota de Cramer Rao:
La varianza de un estimador lineal insesgado de será
siempre por lo menos igual a .
1
𝑣𝑎𝑟 ( ^
𝛽 𝑀𝑉 ) ≥ − 2
𝜕 𝑙𝑛𝐿 ( 𝛽 )
𝐸[ ′
]
𝜕𝛽𝜕𝛽
Inferencia en MV
1. Test de Wald
Inferencia en MV
2. Test LR: Ratio de Verosimilitud
Inferencia en MV
3. Test LM: Multiplicadores de Lagrange
Donde el se obtiene:
i. Se extraen los residuos del modelo restringido.
ii. Se hace una regresión de los residuos en función de las variables explicativas y se
extrae el .
iii. Se construye el estadístico.
Naive Bayes
Naive Bayes
𝑃 ( X / 𝑌 ) ∗ 𝑃 (𝑌 )
• Teorema de Bayes 𝑃 ( Y / 𝑋 )=
𝑃 ( 𝑋)
Información conocida Información inferida
𝑃 ( Y)
𝑃(Y/ 𝑋)
𝑃(X/𝑌 )
Naive Bayes
• Se basa en el teorema de Bayes.
• Supuesto “Naive”: Independencia entre las características, dada una
clase.
Naive Bayes
• Dado el supuesto:
Naive Bayes
• La condición de optimización es:
Support Vector Machine
SVM
• Maximizar la distancia entre las categorías y la recta que las separa.
SVM
• Su función objetivo considera dos tipos de errores: Clasificación y
margen.
SVM
• Su función objetivo considera dos tipos de errores: Clasificación y
margen.
Árboles de Decisión
• Entropía
• Entropía
• Information Gain
• Entropía: Controla la partición de los datos.
• Information Gain: Cantidad de información ganada por una variable
debido a la observación de otra variable.
En las versiones más básicas, los árboles solo utilizaban variables

explicativas categóricas.
Random Forest
Random Forest
• Genera diversos árboles de decisión con submuestras, la regla de
decisión final toma el promedio de los árboles generados.
• Usualmente el tamaño de las submuestras es el mismo que el de la
muestra total.
• La ganancia de Random Forest, con respecto a los árboles de decisión
tradicionales, es mayor precisión y evita el overfitting.
Random Forest
XGBoost
XGBoost
• Al igual que RandomForest, se generan múltiples árboles de decisión
en base a submuestras.
• El criterio de optimización considera dos componentes: Trainning Loss
y Regularization.
• Trainning Loss: es la función objetivo, usualmente se utiliza la función objetivo
de MCO o de una regresión logística.
• Regularization: controla la complejidad del modelo.
XGBoost
• El criterio de optimización considera dos componentes: Trainning Loss
y Regularization.
XGBoost

Supervised Learning

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Supervised Learning

Cargado por

Copyright:

Formatos disponibles

Machine Learning

Por tanto el beneficio de incluir variables adicionales es mejorar la

Por ello, el R cuadrado ajustado o corregido, es una medida mas

Es importante tener en cuenta que:

𝑘 (𝑛 −𝑘) 𝑅2𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 𝑐𝑜𝑠𝑡𝑜

Si luego de incrementar el número de variables, se incrementa el R cuadrado ajustado, el beneficio es mayor

Mientras más complejo sea el modelo,

Las técnicas de Regularización tratan de

Si el parámetro lambda tiende a cero, Ridge Regression tiende a MCO.

Si el parámetro lambda tiende a cero, Ridge Regression tiende a MCO.

Si alfa es cero, Elastic Net converge a Ridge.

es una variable discreta, por ejemplo:

es una variable discreta dicotómica.

La estimación por MCO

• La predicción de MCO no necesariamente esta en el intervalo de [0 -

• Violación del supuesto de normalidad.

Sin embargo, es usual usar MCO para tener un

• Dado que Y es una variable dicotómica, tenemos:

Error tipo II Error tipo I

𝑚𝑎𝑥 ∑ 𝐹(𝑋/𝛽) ^𝛽=( 𝑋 ′ 𝑋 )− 1 (𝑋 ′ 𝑌 )

2. Cada elemento de la muestra se distribuye independientemente.

6. Formamos la matriz de información:

7. Finalmente, construimos la matriz de varianzas y covarianzas del

Información conocida Información inferida

En las versiones más básicas, los árboles solo utilizaban variables

También podría gustarte