Documentos de Académico
Documentos de Profesional
Documentos de Cultura
José W. Araujo B.
Noviembre2021
Regresión Lineal
Estimación MCO
El objetivo de la estimación por MCO es minimizar la sumatoria de los
errores estimados al cuadrado.
𝑚𝑖𝑛 ∑ 𝑢^ 2 ^𝛽=( 𝑋 ′ 𝑋 )− 1 (𝑋 ′ 𝑌 )
^ ^ 2
(
𝑣𝑎𝑟 ( 𝛽 )=𝜎 𝑋 𝑋
′
)−1
𝑠𝑢𝑗𝑒𝑡𝑜 𝑎{ ^𝛽 }
^′𝑢
𝑢 ^
^ 2=
𝜎
𝑛− 𝑘
Propiedades de un Estimador
• Insesgadez
𝐸 (^
𝛽 ) =𝛽
• Eficiencia
𝑣𝑎𝑟 ( ^𝛽 ) 𝑒𝑠𝑚í 𝑛𝑖𝑚𝑎
• Consitencia
Plim ( ^
𝛽 )= 𝛽
𝑛→ ∞
Propiedades de un Estimador
Bondad de ajuste
De la expresión:
^ )+𝑣𝑎𝑟 ( 𝑢)
𝑣𝑎𝑟 (𝑌 )=𝑣𝑎𝑟 ( 𝑌 ^
Tenemos que:
′
𝑌 𝑌 2
^′𝑌
𝑌 ^ 2 𝑢^ ′𝑢
^
−𝑌 = −𝑌 +
Que equivale a: 𝑛 𝑛 𝑛
Finalmente: 𝑆𝑇𝐶=𝑆𝐸𝐶+𝑆𝑅𝐶
𝑆𝐸𝐶 𝑆𝑅𝐶
𝑅2 = 𝑅2 =1−
𝑆𝑇𝐶 𝑆𝑇𝐶
Bondad de ajuste
El coeficiente de determinación es una función creciente al número de
variables.
2 ( 𝑛 −1 ) 2
𝑅𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 = 1− (1− 𝑅 )
(𝑛−𝑘)
Bondad de ajuste
2 ( 𝑛 −1 ) 2
𝑅𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜 = 1− (1− 𝑅 )
( 𝑛 −𝑘 )
Variable original
Variable estimada
como probabilidad
Variable estimada
con un modelo lineal
Modelos de elección discreta
Limitaciones MCO:
• Existencia de heterocedasticidad.
Probabilidad Condicional
• Recordando: En una regresión lineal.
La contribución de Mc Fadden:
En este tipo de modelos se debe usar una curva cuyos valores
estén estrictamente dentro del intervalo [0 – 1].
Y
1 Yˆ Estimación propuesta
Curva con forma de S
0 X
Modelos de elección discreta
Modelos de elección discreta
PDF 1 CDF
0 0
𝐶𝐷 𝐹 ′ =𝑃𝐷𝐹
1 𝑍
1
2
[− 𝑍 ]
PROBIT f ( 𝑍 )= 𝑒 2 F ( 𝑍 )= ∫ 𝑓 ( 𝑍 ) 𝑑𝑍
√2 𝜋 −∞
𝑒𝑍 1
LOGIT g ( 𝑍 )= 2
G ( 𝑍 )= 𝑍
( 1+𝑒 𝑍 ) 1+𝑒
Modelos de elección discreta
Modelos de elección discreta
Modelos de elección discreta
Impactos Marginales
• MCO
La interpretación de
los parámetros
• PROBIT estimados en los
modelos de elección
discreta no es la
misma que en MCO.
• LOGIT
Regresión Logistica
1
P ( 𝑌 =1 )= − 𝑋 𝛽 ++µ
1+𝑒
𝜕𝑌 𝑒− 𝑋 𝛽
= ∗ 𝛽𝑖
𝜕 𝑋𝑖 ( 1 +𝑒 − 𝑋 𝛽
)
2
𝜕𝑌
= 𝑃 ∗(1 − 𝑃 ) ∗ 𝛽𝑖
𝜕 𝑋𝑖
• El signo del β corresponde al signo del impacto marginal, este
debe ser consistente con la teoría económica.
• El impacto marginal no es constante, este varía para cada valor de
• El impacto marginal puede ser calculado ceterisparibus(Las toman
su valor promedio).
Ratio Odds (OR)
Se define:
𝑃 (𝑒𝑣𝑒𝑛𝑡𝑜 𝑎 𝑓𝑎𝑣𝑜𝑟 )
𝑂𝑅=
𝑃 (𝑒𝑣𝑒𝑛𝑡𝑜 𝑒𝑛𝑐𝑜𝑛𝑡𝑟𝑎)
Ejemplo:
EVENTO PROBABILIDAD
Ganar una apuesta 0.8 0.8
𝑂𝑅= =4
Perder una apuesta 0.2 0.2
Ratio Odds (OR)
Y original
Y estimada
Odds de Y
Ln(odds) de Y
Weight of Evidence (WOE)
Se define:
)
Ejemplo:
X=i Y=0 Y=1 P(X=i/Y=0) P(X=i/Y=1) WOE
A 2 1 0.4 0.33 -0.18
B 1 1 0.2 0.33 0.51
C 2 1 0.4 0.33 -0.18
TOTAL 5 3 1 1 -
Information Value (IV)
Se define:
IV
Ejemplo:
X=i Y=0 Y=1 P(X=i/Y=0) P(X=i/Y=1) WOE Dif. Prod.
A 2 1 0.4 0.33 -0.18 -0.067 0.0122
B 1 1 0.2 0.33 0.51 0.133 0.0681
C 2 1 0.4 0.33 -0.18 -0.067 0.0122
TOTAL 5 3 1 1 - - 0.0924 = IV
Tasa de aciertos
^ >𝑝 ∗
𝑝
• Si entonces ^ =1
𝑌
^ ≤𝑝∗
𝑝
• Si entonces ^ =0
𝑌
PREDICCIÓN
OBSERVADO
𝑛11+𝑛 00
+ ( % ) 𝐴𝑐𝑖𝑒𝑟𝑡𝑜𝑠=
𝑛
Poder de Discriminación
Punto de
corte
Buenos
Malos
SCORE
Estimación
Real
Calibración
• Prueba Binomial
/2
/2
/2 /2
Aceptación
LI R LI A LS A LS R
Estabilidad
• Poblacional Inicial
Actual
• Modelo
Estabilidad: Coeficientes
Inferencia
Test recursivos
Bootstrap
Aceptación
^𝛽
Estabilidad: Poblacional
base 𝑎1 𝑎2 𝑎3 𝑎4 𝑎5 𝑎6 𝑎7 𝑎8 𝑎9 𝑎10
muestra
𝑏1 𝑏2 𝑏3 𝑏4 𝑏5 𝑏6 𝑏7 𝑏8 𝑏9 𝑏10
𝑏𝑖
𝑃𝑆𝐼 =∑ ( 𝑏 𝑖 − 𝑎 𝑖 ) ln ( )
𝑎𝑖
10% 25%
Máximo Verosimilitud
Estimación por MV
El objetivo de la estimación por MV es maximizar la función de
probabilidad conjunta, es decir maximizar la probabilidad de que una
muestra pertenezca a una distribución dada.
^ ^ (𝑋 𝑋)
𝑣𝑎𝑟 ( 𝛽 )=𝜎
2 ′ −1
^ ^ 2
𝑠𝑢𝑗𝑒𝑡𝑜 𝑎{ 𝛽 , 𝜎 }
^′𝑢
𝑢 ^
^ =
𝜎
2
𝑛
Supuestos MV
1. Se asume distribución a priori.
Es decir, la muestra ha sido extraída de una función de distribución
dada.
4. Optimizamos:
Procedimiento estimación MV
5. Formamos la matriz Hessiana:
𝑚𝑎𝑥 ∑ 𝐹(𝑋/𝛽)
𝑢 𝑁 (0 , 𝜎 2)
( )
2
1 𝑢𝑖
1 −
𝑓 ( 𝑢𝑖 ) =
√2 𝜋 𝜎
𝑒
2 𝜎
^ ^ 2
𝑠𝑢𝑗𝑒𝑡𝑜 𝑎{ 𝛽 , 𝜎 }
Función de probabilidad
individual
Modelo Lineal General
Construyendo la función de probabilidad conjunta:
𝐹 (𝑢 1 , 𝑢2 , … , 𝑢𝑛 / ^ ^ 2)=f ( u 1) f ( u2 ) … f (un )
𝛽,𝜎
( ) ( )… ( )
2 2 2
1 𝑢1 1 𝑢2 1 𝑢𝑛
1 −
1 −
1 −
𝐿( ^ ^ 2 )=
𝛽,𝜎 𝑒 2 𝜎
𝑒 2 𝜎
𝑒 2 𝜎
√2 𝜋 𝜎 √2 𝜋 𝜎 √2 𝜋 𝜎
( )
2
1 ∑ 𝑢𝑖
1 −
𝐿( ^ ^ 2 )= 2 𝜎
𝛽,𝜎 𝑛 𝑛
𝑒
2 2 2
(2 𝜋 ) (𝜎 )
Modelo Lineal General
Tomando logaritmos:
^ n 𝑛 1
( 2
)
𝑙𝑛𝐿 𝛽, 𝜎 =− ln 2 π − ln ( 𝜎 ) −
^ ( ) 2
2∑ 𝑖
𝑢
2
2 2 2𝜎
Optimizando:
𝜕 𝑙𝑛𝐿
=0 ^𝛽=( 𝑋 ′ 𝑋 )− 1 (𝑋 ′ 𝑌 )
𝜕𝛽^
𝜕 𝑙𝑛𝐿 ^′𝑢
𝑢 ^
=0 ^ =
𝜎2
𝜕𝜎^ 2
𝑛
Modelo Lineal General
Construyendo la matriz Hessiana:
[ ]
𝜕2 𝑙𝑛𝐿 𝜕 2 𝑙𝑛𝐿
𝜕^
𝛽𝜕 ^𝛽′ 𝜕^
𝛽𝜕 𝜎 ^2
𝐻 (^ ^ 2 )=
𝛽 ,𝜎 2 2
𝜕 𝑙𝑛𝐿 𝜕 𝑙𝑛𝐿
^2𝜕 ^
𝜕𝜎 𝛽 𝜕𝜎^4
Resolviendo:
[ ]
′
𝑋 𝑋
− 2
0
𝜎
𝐻 (^ ^ 2 )=
𝛽 ,𝜎
𝑛
0 −
2𝜎4
Modelo Lineal General
Finalmente, se obtiene la matriz de varianzas y
covarianzas:
[ ]
−1
𝜎 (𝑋 𝑋)
2 ′
−1 0
𝑀𝑉𝐶 𝛽 , 𝜎 = 𝐼 𝛽 , 𝜎 ) = − 𝐸 [ 𝐻 ( ^ ^ 2 )] =
^ ^ 2 −1
( ^ 2
) ( ^ 𝛽 ,𝜎 2𝜎
4
0
Donde: 𝑛
2 𝜎4
𝑣𝑎𝑟 ( ^
𝛽 )=𝜎 ( 𝑋 𝑋 ) 𝑣𝑎𝑟 ( 𝜎
^ )=
2 ′ −1 2
𝑛
Cota de Cramer Rao:
La varianza de un estimador lineal insesgado de será
siempre por lo menos igual a .
1
𝑣𝑎𝑟 ( ^
𝛽 𝑀𝑉 ) ≥ − 2
𝜕 𝑙𝑛𝐿 ( 𝛽 )
𝐸[ ′
]
𝜕𝛽𝜕𝛽
Inferencia en MV
1. Test de Wald
Inferencia en MV
2. Test LR: Ratio de Verosimilitud
Inferencia en MV
3. Test LM: Multiplicadores de Lagrange
Donde el se obtiene:
i. Se extraen los residuos del modelo restringido.
ii. Se hace una regresión de los residuos en función de las variables explicativas y se
extrae el .
iii. Se construye el estadístico.
Naive Bayes
Naive Bayes
𝑃 ( X / 𝑌 ) ∗ 𝑃 (𝑌 )
• Teorema de Bayes 𝑃 ( Y / 𝑋 )=
𝑃 ( 𝑋)
𝑃 ( Y)
𝑃(Y/ 𝑋)
𝑃(X/𝑌 )
Naive Bayes
• Se basa en el teorema de Bayes.
• Supuesto “Naive”: Independencia entre las características, dada una
clase.
Naive Bayes
• Dado el supuesto:
Naive Bayes
• La condición de optimización es:
Support Vector Machine
SVM
• Maximizar la distancia entre las categorías y la recta que las separa.
SVM
• Su función objetivo considera dos tipos de errores: Clasificación y
margen.
SVM
• Su función objetivo considera dos tipos de errores: Clasificación y
margen.
Árboles de Decisión
Árboles de Decisión
Árboles de Decisión
Árboles de Decisión
• Entropía
Árboles de Decisión
• Entropía
Árboles de Decisión
• Information Gain
Árboles de Decisión
• Entropía: Controla la partición de los datos.
• Information Gain: Cantidad de información ganada por una variable
debido a la observación de otra variable.