Está en la página 1de 77

Machine Learning

José W. Araujo B.

Noviembre2021
Regresión Lineal
Estimación MCO
El objetivo de la estimación por MCO es minimizar la sumatoria de los
errores estimados al cuadrado.

𝑚𝑖𝑛 ∑ 𝑢^   2 ^𝛽=( 𝑋 ′ 𝑋 )− 1 (𝑋 ′ 𝑌 )

^ ^ 2
(
𝑣𝑎𝑟 ( 𝛽 )=𝜎 𝑋 𝑋

)−1

𝑠𝑢𝑗𝑒𝑡𝑜 𝑎{ ^𝛽 }
^′𝑢
𝑢 ^
^ 2=
𝜎
𝑛− 𝑘
Propiedades de un Estimador
• Insesgadez
𝐸 (^
𝛽 ) =𝛽

• Eficiencia
𝑣𝑎𝑟 ( ^𝛽 ) 𝑒𝑠𝑚í 𝑛𝑖𝑚𝑎
• Consitencia

Plim ( ^
𝛽 )= 𝛽  
𝑛→ ∞
Propiedades de un Estimador
Bondad de ajuste
De la expresión:
^ )+𝑣𝑎𝑟 ( 𝑢)
𝑣𝑎𝑟 (𝑌 )=𝑣𝑎𝑟 ( 𝑌 ^

Tenemos que:

𝑌 𝑌 2
^′𝑌
𝑌 ^ 2 𝑢^ ′𝑢
^
−𝑌 = −𝑌 +
Que equivale a: 𝑛 𝑛 𝑛

Finalmente: 𝑆𝑇𝐶=𝑆𝐸𝐶+𝑆𝑅𝐶

𝑆𝐸𝐶 𝑆𝑅𝐶
𝑅2 = 𝑅2 =1−
𝑆𝑇𝐶 𝑆𝑇𝐶
Bondad de ajuste
El coeficiente de determinación es una función creciente al número de
variables.

Por tanto el beneficio de incluir variables adicionales es mejorar la


bondad de ajuste del modelo, sin embargo el incrementar el número
de variables tiene un costo, la pérdida de grados de libertad.

Por ello, el R cuadrado ajustado o corregido, es una medida mas


confiable de la bondad de ajuste de un modelo.

2 ( 𝑛 −1 ) 2
𝑅𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 = 1− (1− 𝑅 )
(𝑛−𝑘)
Bondad de ajuste
2 ( 𝑛 −1 ) 2
𝑅𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 = 1− (1− 𝑅 )
( 𝑛 −𝑘 )

Es importante tener en cuenta que:


𝑘 𝑅2 𝑅2𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 𝑏𝑒𝑛𝑒𝑓𝑖𝑐𝑖𝑜

𝑘 (𝑛 −𝑘) 𝑅2𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 𝑐𝑜𝑠𝑡𝑜

Si luego de incrementar el número de variables, se incrementa el R cuadrado ajustado, el beneficio es mayor


al costo, por lo tanto vale la pena incluir la variable adicional.
Regularization
Regularization
Concepto importante en Machine
Learning que lidia con el overfitting.

Mientras más complejo sea el modelo,


menor es el sesgo pero mayor la
varianza y viceversa.

Las técnicas de Regularización tratan de


elegir el modelo con la complejidad
óptima, teóricamente, minimizando el
error total.
Ridge Regression
Penaliza la función objetivo en función de la magnitud de los
coeficientes.

Si el parámetro lambda tiende a cero, Ridge Regression tiende a MCO.


Lasso Regression
Penaliza la función objetivo en función de la magnitud de los
coeficientes.

Si el parámetro lambda tiende a cero, Ridge Regression tiende a MCO.


Elastic Net
Es una combinación entre Ridge y Lasso.

Si alfa es cero, Elastic Net converge a Ridge.


Si alfa es uno, Elastic Net converge a Lasso.
Regresión Logística
Modelos de elección discreta

es una variable discreta, por ejemplo:


• El color del carro
• Incumplimiento de un pago
• Nivel de educación
• El sexo
Modelos de elección discreta

es una variable discreta dicotómica.


o
=1 si es hombre.
o
=0 si es mujer.
Y Yˆ Estimación MCO
1 Dadas las características , ¿Cuál
es la probabilidad de que el
individuo sea hombre o mujer?

La estimación por MCO


tiene algunas
0 X limitaciones.
Modelos de elección discreta

Variable original

Variable estimada
como probabilidad

Variable estimada
con un modelo lineal
Modelos de elección discreta
Limitaciones MCO:

• La predicción de MCO no necesariamente esta en el intervalo de [0 -


1].

• Existencia de heterocedasticidad.

• Violación del supuesto de normalidad.

Sin embargo, es usual usar MCO para tener un


análisis rápido y sencillo de la causalidad de las
variables.
Modelos de elección discreta

Probabilidad Condicional
• Recordando: En una regresión lineal.

• Dado que Y es una variable dicotómica, tenemos:


Modelos de elección discreta

La contribución de Mc Fadden:
En este tipo de modelos se debe usar una curva cuyos valores
estén estrictamente dentro del intervalo [0 – 1].

Y
1 Yˆ Estimación propuesta
Curva con forma de S

0 X
Modelos de elección discreta
Modelos de elección discreta

PDF 1 CDF

0 0

𝐶𝐷 𝐹 ′ =𝑃𝐷𝐹
1 𝑍
1
2
[− 𝑍 ]
PROBIT f ( 𝑍 )= 𝑒 2 F ( 𝑍 )= ∫ 𝑓 ( 𝑍 ) 𝑑𝑍
√2 𝜋 −∞

𝑒𝑍 1
LOGIT g ( 𝑍 )= 2
G ( 𝑍 )= 𝑍
( 1+𝑒 𝑍 ) 1+𝑒
Modelos de elección discreta
Modelos de elección discreta
Modelos de elección discreta

Impactos Marginales
• MCO
La interpretación de
los parámetros
• PROBIT estimados en los
modelos de elección
discreta no es la
misma que en MCO.
• LOGIT
Regresión Logistica

1
P ( 𝑌 =1 )= − 𝑋 𝛽 ++µ
1+𝑒
𝜕𝑌 𝑒− 𝑋 𝛽
= ∗ 𝛽𝑖
𝜕 𝑋𝑖 ( 1 +𝑒 − 𝑋 𝛽
)
2

𝜕𝑌
= 𝑃 ∗(1 − 𝑃 ) ∗ 𝛽𝑖
𝜕 𝑋𝑖
• El signo del β corresponde al signo del impacto marginal, este
debe ser consistente con la teoría económica.
• El impacto marginal no es constante, este varía para cada valor de
• El impacto marginal puede ser calculado ceterisparibus(Las toman
su valor promedio).
Ratio Odds (OR)

Se define:
𝑃 (𝑒𝑣𝑒𝑛𝑡𝑜 𝑎 𝑓𝑎𝑣𝑜𝑟 )
𝑂𝑅=
𝑃 (𝑒𝑣𝑒𝑛𝑡𝑜 𝑒𝑛𝑐𝑜𝑛𝑡𝑟𝑎)

Ejemplo:
EVENTO PROBABILIDAD
Ganar una apuesta 0.8 0.8
𝑂𝑅= =4
Perder una apuesta 0.2 0.2
Ratio Odds (OR)

Y original

Y estimada

Odds de Y

Ln(odds) de Y
Weight of Evidence (WOE)
Se define:
)

Ejemplo:
X=i Y=0 Y=1 P(X=i/Y=0) P(X=i/Y=1) WOE
A 2 1 0.4 0.33 -0.18
B 1 1 0.2 0.33 0.51
C 2 1 0.4 0.33 -0.18
TOTAL 5 3 1 1 -
Information Value (IV)
Se define:
IV

Ejemplo:
X=i Y=0 Y=1 P(X=i/Y=0) P(X=i/Y=1) WOE Dif. Prod.
A 2 1 0.4 0.33 -0.18 -0.067 0.0122
B 1 1 0.2 0.33 0.51 0.133 0.0681
C 2 1 0.4 0.33 -0.18 -0.067 0.0122
TOTAL 5 3 1 1 - - 0.0924 = IV
Tasa de aciertos
^ >𝑝 ∗
𝑝
• Si entonces ^ =1
𝑌
^ ≤𝑝∗
𝑝
• Si entonces ^ =0
𝑌

PREDICCIÓN

OBSERVADO

𝑛11+𝑛 00
+ ( % ) 𝐴𝑐𝑖𝑒𝑟𝑡𝑜𝑠=
𝑛
Poder de Discriminación
Punto de
corte
Buenos

Malos

SCORE

Error tipo II Error tipo I


Coste de oportunidad Riesgo de impago
Curva ROC
Calibración

Estimación

Real
Calibración
• Prueba Binomial

 /2
/2
/2 /2

Aceptación

 
LI R LI A LS A LS R
Estabilidad

• Poblacional Inicial
Actual

• Modelo
Estabilidad: Coeficientes

Inferencia

Test recursivos

Bootstrap
Aceptación

^𝛽
Estabilidad: Poblacional
base 𝑎1 𝑎2 𝑎3 𝑎4 𝑎5 𝑎6 𝑎7 𝑎8 𝑎9 𝑎10

muestra
𝑏1 𝑏2 𝑏3 𝑏4 𝑏5 𝑏6 𝑏7 𝑏8 𝑏9 𝑏10

𝑏𝑖
𝑃𝑆𝐼 =∑ ( 𝑏 𝑖 − 𝑎 𝑖 ) ln ⁡( )
𝑎𝑖

10% 25%
Máximo Verosimilitud
Estimación por MV
El objetivo de la estimación por MV es maximizar la función de
probabilidad conjunta, es decir maximizar la probabilidad de que una
muestra pertenezca a una distribución dada.

𝑚𝑎𝑥 ∑ 𝐹(𝑋/𝛽)  ^𝛽=( 𝑋 ′ 𝑋 )− 1 (𝑋 ′ 𝑌 )

^ ^ (𝑋 𝑋)
𝑣𝑎𝑟 ( 𝛽 )=𝜎
2 ′ −1

^ ^ 2
𝑠𝑢𝑗𝑒𝑡𝑜 𝑎{ 𝛽 , 𝜎 }
^′𝑢
𝑢 ^
^ =
𝜎
2
𝑛
Supuestos MV
1. Se asume distribución a priori.
Es decir, la muestra ha sido extraída de una función de distribución
dada.

2. Cada elemento de la muestra se distribuye independientemente.


Procedimiento estimación MV
1. Una muestra ha sido extraída de una función de distribución .
2. Dado que los eventos son independientes, se construye la función
de distribución conjunta:
Procedimiento estimación MV
3. Tomando logaritmos:

4. Optimizamos:
Procedimiento estimación MV
5. Formamos la matriz Hessiana:

6. Formamos la matriz de información:

7. Finalmente, construimos la matriz de varianzas y covarianzas del


estimador:
Modelo Lineal General
Se supone que los errores siguen una distribución
normal y sus probabilidades de ocurrencia
independientes.
Función de probabilidad
conjunta

𝑚𝑎𝑥 ∑ 𝐹(𝑋/𝛽) 
𝑢 𝑁 (0 , 𝜎 2)

( )
2
1 𝑢𝑖
1 −
𝑓 ( 𝑢𝑖 ) =
√2 𝜋 𝜎
𝑒
2 𝜎
^ ^ 2
𝑠𝑢𝑗𝑒𝑡𝑜 𝑎{ 𝛽 , 𝜎 }
Función de probabilidad
individual
Modelo Lineal General
Construyendo la función de probabilidad conjunta:

𝐹 (𝑢 1 , 𝑢2 , … , 𝑢𝑛  / ^ ^ 2)=f ( u 1) f ( u2 ) … f (un )
𝛽,𝜎

( ) ( )… ( )
2 2 2
1 𝑢1 1 𝑢2 1 𝑢𝑛
1 −
1 −
1 −
𝐿( ^ ^ 2 )=
𝛽,𝜎 𝑒 2 𝜎
𝑒 2 𝜎
𝑒 2 𝜎

√2 𝜋 𝜎 √2 𝜋 𝜎 √2 𝜋 𝜎

( )
2
1 ∑ 𝑢𝑖
1 −
𝐿( ^ ^ 2 )= 2 𝜎
𝛽,𝜎 𝑛 𝑛
𝑒
2 2 2
(2 𝜋 ) (𝜎 )
Modelo Lineal General
Tomando logaritmos:

^ n 𝑛 1
( 2
)
𝑙𝑛𝐿 𝛽, 𝜎 =− ln 2 π − ln ( 𝜎 ) −
^ ( ) 2
2∑ 𝑖
𝑢
2
2 2 2𝜎
Optimizando:

𝜕 𝑙𝑛𝐿
=0 ^𝛽=( 𝑋 ′ 𝑋 )− 1 (𝑋 ′ 𝑌 )
𝜕𝛽^

𝜕 𝑙𝑛𝐿 ^′𝑢
𝑢 ^
=0 ^ =
𝜎2
𝜕𝜎^ 2
𝑛
Modelo Lineal General
Construyendo la matriz Hessiana:

[ ]
𝜕2 𝑙𝑛𝐿 𝜕 2 𝑙𝑛𝐿
𝜕^
𝛽𝜕 ^𝛽′ 𝜕^
𝛽𝜕 𝜎 ^2
𝐻 (^ ^ 2 )=
𝛽 ,𝜎 2 2
𝜕 𝑙𝑛𝐿 𝜕 𝑙𝑛𝐿
^2𝜕 ^
𝜕𝜎 𝛽 𝜕𝜎^4
Resolviendo:

[ ]

𝑋 𝑋
− 2
0
𝜎
𝐻 (^ ^ 2 )=
𝛽 ,𝜎
𝑛
0 −
2𝜎4
Modelo Lineal General
Finalmente, se obtiene la matriz de varianzas y
covarianzas:

[ ]
−1
𝜎 (𝑋 𝑋)
2 ′
−1 0
𝑀𝑉𝐶 𝛽 , 𝜎 = 𝐼 𝛽 , 𝜎 ) = − 𝐸 [ 𝐻 ( ^ ^ 2 )] =
^ ^ 2 −1
( ^ 2
) ( ^ 𝛽 ,𝜎 2𝜎
4
0
Donde: 𝑛

2 𝜎4
𝑣𝑎𝑟 ( ^
𝛽 )=𝜎 ( 𝑋 𝑋 ) 𝑣𝑎𝑟 ( 𝜎
^ )=
2 ′ −1 2
𝑛
Cota de Cramer Rao:
La varianza de un estimador lineal insesgado de será
siempre por lo menos igual a .

1
𝑣𝑎𝑟 ( ^
𝛽 𝑀𝑉 ) ≥ − 2
𝜕 𝑙𝑛𝐿 ( 𝛽 )
𝐸[ ′
]
𝜕𝛽𝜕𝛽
Inferencia en MV
1. Test de Wald
Inferencia en MV
2. Test LR: Ratio de Verosimilitud
Inferencia en MV
3. Test LM: Multiplicadores de Lagrange

Donde el se obtiene:
i. Se extraen los residuos del modelo restringido.
ii. Se hace una regresión de los residuos en función de las variables explicativas y se
extrae el .
iii. Se construye el estadístico.
Naive Bayes
Naive Bayes
𝑃 ( X / 𝑌 ) ∗ 𝑃 (𝑌 )
• Teorema de Bayes 𝑃 ( Y / 𝑋 )=
𝑃 ( 𝑋)

Información conocida Información inferida

𝑃 ( Y)
𝑃(Y/ 𝑋)
𝑃(X/𝑌 )
Naive Bayes
• Se basa en el teorema de Bayes.
• Supuesto “Naive”: Independencia entre las características, dada una
clase.
Naive Bayes
• Dado el supuesto:
Naive Bayes
• La condición de optimización es:
Support Vector Machine
SVM
• Maximizar la distancia entre las categorías y la recta que las separa.
SVM
• Su función objetivo considera dos tipos de errores: Clasificación y
margen.
SVM
• Su función objetivo considera dos tipos de errores: Clasificación y
margen.
Árboles de Decisión
Árboles de Decisión
Árboles de Decisión
Árboles de Decisión
• Entropía
Árboles de Decisión
• Entropía
Árboles de Decisión
• Information Gain
Árboles de Decisión
• Entropía: Controla la partición de los datos.
• Information Gain: Cantidad de información ganada por una variable
debido a la observación de otra variable.

En las versiones más básicas, los árboles solo utilizaban variables


explicativas categóricas.
Árboles de Decisión
Random Forest
Random Forest
• Genera diversos árboles de decisión con submuestras, la regla de
decisión final toma el promedio de los árboles generados.
• Usualmente el tamaño de las submuestras es el mismo que el de la
muestra total.
• La ganancia de Random Forest, con respecto a los árboles de decisión
tradicionales, es mayor precisión y evita el overfitting.
Random Forest
XGBoost
XGBoost
• Al igual que RandomForest, se generan múltiples árboles de decisión
en base a submuestras.
• El criterio de optimización considera dos componentes: Trainning Loss
y Regularization.
• Trainning Loss: es la función objetivo, usualmente se utiliza la función objetivo
de MCO o de una regresión logística.
• Regularization: controla la complejidad del modelo.
XGBoost
• El criterio de optimización considera dos componentes: Trainning Loss
y Regularization.
XGBoost

También podría gustarte