Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Programa: Especialización en
Estadı́stica
Primera Semana:Intro y Modelo de
Regresión
3 de mayo de 2021
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Table of contents
1 Máximas
2 Del Curso
3 Modelo de Regresión
Exploración
4 Trabajo en R
5 Conceptos y Desarrollos
6 Máxima Verosimilitud
7 Bondad de Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Del Curso
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Del Curso:
Objetivos:
z Enseñar el cómo.
z Sentar los rudimentos iniciales para que sigan
leyendo-creciendo.
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Temas a Trabajar
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Temas a Trabajar
Modelo de Regresión
Componentes Principales
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Modelo de Regresión
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Modelo de Regresión
Ejemplos:
El ingreso laboral (Y ) en función de la Educación (X1 ),
Experiencia (X2 ) y el Sexo (X3 ).
Consumo de combustible (Y ) de vehı́culo en función de la
Cilindraje (X1 ) y peso (X2 ) del vehı́culo.
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Componentes Principales
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Métodos de Clasificación
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
{I1 , I2 , . . . , In } → {G1 , G2 , . . . , Gk }
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
Modelo de Regresión
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
Modelo de Regresión
Contenido
1 Ajuste de un Modelo de Regresión - Aprendo Haciendo.
2 Conceptos y Desarrollos - Soporte Teórico.
3 Ajuste de un Modelo de Regresión - Fortalezco lo
Aprendido.
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
Modelo de Regresión
Modelo a Trabajar
Yj = β0 + β1 X1j + β2 X2j + . . . + βp Xpj + εj (1)
Componentes
1 Yj : Variable dependiente o a explicar.
2 X1j , X2j , . . . , Xpj : Variables independientes o co-variables.
3 β0 , β1 , . . . , βp : Parámetros a estimar.
4 εj : Término de Error.
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
Modelo de Regresión
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
Exploración
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
Exploración
Qué datos tengo?, Qué traen mis datos - Tipos de
Variables Aleatorias. Objetivo: Conocer o reconocer las
variables a trabajar.
Análisis Univariados: Tablas, Barplots e Histogramas.
Objetivo: Observar el comportamiento de las variables a
trabajar.
Análisis Bivariados: Asociación. Objetivo: Seleccionar las
variables que entrarán al modelo.
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
Trabajo en R
Data: Eficiencia en el uso del combustible en autos
populares. Nombre: Miles per Gallon (mpg), paquete
ggplot2.
Perı́odo: Años: 1999 y 2008.
Objetivo: Identificar las variables que modifican la
eficiencia en combustible de un auto.
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
Exploración
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
Identificando Variables
Variables a Explicar - Variables Dependientes.
Co–Variables - Variables Independientes.
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
Exploración
Análisis Univariados
Tablas.
Barplot.
Qué preguntas puedo hacer?
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
Diagramas de Barras
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
Exploración
Asociación
Scatter plot.
Coeficiente de Correlación.
Boxplot
Conclusiones: Variables a tener en cuenta.
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
Coeficiente de Correlación.
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
Asociación
Covarianza
Asumiendo que se observa (y1 , x1 ), (y2 , x2 ), . . . , (yn , xn ), la
covarianza entre Y y X, γXY , está dada por:
n
P
(yj − y n )(xj − xn )
j=1
γXY =
n−2
n n
1 P 1 P
Donde y n = n yj y x n = n xj .
j=1 j=1
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
Asociación
Covarianza
La covarianza es una medida de asociación cuya propiedad más
importante para éste curso es:
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
Asociación
Coeficiente de Correlación
Asumiendo que se observa (y1 , x1 ), (y2 , x2 ), . . . , (yn , xn ), el
coeficiente de correlación entre Y y X, ρXY , se define como:
γXY
ρXY =
SX SY
n n
1 1
Donde SY2 = (yj − y n )2 y SX2 = (xj − xn )2 .
P P
n−1 n−1
j=1 j=1
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
Coeficiente de Correlación
El Coeficiente de Correlación es una medida de asociación cuya
propiedad más importante para éste curso es:
−1 ≤ ρXY ≤ 1
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MVExplora
Ajuste
Exploración
Asociación
Modelos de Regresión Simple.
Yj = β0 + β1 X1j + εj (2)
Propósito
Hallar identificar (inicialmente) las covariables con asociación
estadı́sticamente significativa con la variable a explicar.
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Modelo de Regresión
Supuestos
Supuestos
1 E (εj ) = 0, los errores se mueven alrededor de cero.
2 E (ε2j ) = Var(εj ) = σ 2 , la varianza de los errores es
constante (Homocedasticidad). σ 2 es un parámetro más a
estimar.
3 Cov(εj εk ) = E (εj εk ) = 0, los residuales no son
correlacionados, i.e. un error no tiene información de los
demás.
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Modelo de Regresión
Supuestos
Supuestos
1 εj ∼ Normal: El Término de Error tiene distribución
normal.
2 De lo anterior εj ∼ Normal(0, σ 2 ).
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Estimación de Parámetros
Yj = β0 + β1 X1j + εj j = 1, 2, . . . , T (4)
Mı́nimos Cuadrados Ordinarios: Función objetivo, minimizar los
residuales. Lo que equivale a
T
X
mı́n S(β0 , β1 ) = mı́n ε2j .
β0 ,β1 β0 ,β1
j=1
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
β̂0 = Y − β̂1 X.
T
P
(Yj − Y )(X1j − X 1 )
j=1
β̂1 = T
.
)2
P
(X1j − X 1
j=1
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Yj = g(β, xj ) + εj = xTj β + εj , j = 1, 2, . . . , T
T
X
S(X, β) = ||Y − µ||2 = [Yj − g(β, xj )]2
j=1
T
X
= [Yj − xTj β]2 (6)
j=1
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Modelo de Regresión
Ahora se dice que un β̂ existe si minimiza S(X, β) y
lı́m |g(β, xj )| = ∞, ∀ xj
|β|→∞
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Modelo de Regresión
En el caso de regresión lineal g(β, xj ) = xTj β y por ende la
Ecuación (7) está dada por:
p
X
xTj Y = xTj xk β̂k . (8)
k=1
XT Y = XT Xβ̂. (9)
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Mı́nimos Cuadrados
En breve lo que debes recordar es:
Re-considerando el modelo
Yi = g(β, xi ) + i , i = 1, 2, . . . , T
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Mı́nimos Cuadrados
Bajo supuestos no muy complicadosa de cumplir (condiciones
de regularidad):
S(X,β)
β̂ y s2 = T −p son estimadores consistentes de β y σ 2 .
β̂ n es asintoticamente normal.
Si se asume i ∼ N (0, σ 2 ), entonces β̂ es el estimador de
máxima verosimilitud.
Si g(β, xi ) es una función diferenciable en β y β̂ es un
punto interior de Θ, entonces
∂ρ(X, β)
= 0p×1
∂β β=β̂
a
Seber & Wild (2003)
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Yi = xTi β + i , i = 1, 2, . . . , T
Y = Xβ + , ∼ (0, σ 2 In ). (10)
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
BY = BXβ + B.
Y∗ = X∗ β + η. (12)
Observa:
E η = E [B] = 0
Ση = E BT B T = BE T B T = σ 2 I
Es decir, el modelo en la Ecuación (12), cumple con los supuestos de
m.c.o.
De donde: −1 T −1 T T
β̂ M CG = XT∗ X∗ X∗ Y∗ = XT (B T B)X X (B B)Y.
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Máxima Verosimilitud
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Función de Verosimilitud
Asume se tiene X = (X1 , . . . , Xn ) variables aleatorias
independientes con Xj ∼ Pθ , donde Pθ tiene densidad pθ (·).
Entonces la densidad conjunta de X está dada por:
n
Y
fθ (x) = pθ (xj ) (13)
j=1
L(θ) = fθ (x)
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Máxima Verosimilitud
Dicho lo anterior en qué consiste el criterio de máxima
verosimilitud?, responder ésta pregunta es más sencillo en cinco
pasos,
Asume X proviene de un mecanismo aleatorio que se ubica
dentro de la familia P = {Pθ : θ ∈ Θ}.
Observé (pasado) x = (x1 , . . . , xn )
Y me pregunto: de cuál de todas las Pθ que pertenecen a P
proviene lo ya observado?
RTA: No lo sabemos.
Camino a seguir: optamos por pensar que los datos fueron
generados por aquella Pθ∗ talque L(θ) se maximiza sobre P.
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Máxima Verosimilitud
Lo anterior se instrumentaliza pensando en el estimador de θ,
θ̂(x) = θ̂, talque:
L(θ̂) = máx L(θ).
Pθ ∈P
Ejemplo:
Información (X = x|theta)
Parámetro 0 1 2
θ1 0.15 0.50 0.35
θ2 0.45 0.20 0.35
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Ejemplo
Asume X = (X1 , . . . , Xn ) ∼ N (θ, σ 2 ) con σ conocido,
Entonces:
1 θ − x̄n
L(θ) = ϕ ,
σ σ
Donde ϕ Pdenota la densidad de la normal estándar y
x̄n = n1 nj=1 xj
Un camino para hallar el máximo de L(θ) es visualizar lo
que sigue:
x̄n es fijo, es una constante, una vez se observa la muestra.
Pensar en el máximo L(θ) con respecto a θ es pensar en el
valor más alto de una densidad normal de media x̄n .
Del conocimiento de las densidades de la familia Gaussiana,
es simétrica alrededor de x̄n y unimodal-campana, se tiene
θ̂(x) = x̄n .
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Bondad de Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Bondad de Ajuste
Coeficiente de Determinación
Una vez estimados β0 , β1 , . . . , βp , se puede calcular ε̂j = yj − ŷj
donde
ŷj = β̂0 + β̂1 x1j + . . . + β̂p xpj .
Dado lo anterior el coeficiente de determinación R2 se calcula
como:
T
ε̂2j
P
j=1
R2 = 1 − T
.
y)2
P
(yj −
j=1
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Bondad de Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Y = Xβ + ε (15)
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Modelo de Regresión
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Estimador de MCO
Partiendo del modelo
Y = Xβ + ε (16)
β̂ M CO = (XT X)−1 XT Y
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Contraste de Hipótesis
Los resultados anteriores nos permiten realizar varios
Contrastes de Hipótesis, uno de los más usuales es
H0 : βj = 0 versus H1 : βj 6= 0
β̂j
tc = 1 .
2
γ̂jj
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
ε̂j
êj = p
σ̂ 1 − hjj
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
Observaciones Influyentes
Partiendo de la Matriz H = {hij }T ×T , El valor hjj es una
medida de la influencia del j − th observación. Y se tiene que el
promedio de hjj es
p+1
h=
T
De donde se tiene que una regla para detectar una observación
influyente es:
Si hjj > 3h entonces la observación j tiene una influencia
demasiado grande.
Se debe analizar.
CEAM Multivariate
Máximas Del Curso Regresión Aprendizaje Teorı́a MV Ajuste
CEAM Multivariate