Modelos Lineales

Modelos Lineales
JAVIER BELALCAZAR ARCINIEGAS

UNIVERSIDAD DISTRITAL
5 de mayo de 2018
Javier Belalcazar A. ML
Análisis de Correlación
Modelo para una variable respuesta continua (con variables
predictoras continuas o categóricos), lo habitual es acudir a
modelos de regresión que permitan predecir la primera en
función de las restantes variables observadas que estén
relacionadas con ella.
Sin embargo, previamente es conveniente llevar a cabo, aparte
de la inspección gráfica, un análisis de asociación.
Cuando las variables explicativas son de tipo continuo y se
estudia si las relaciones son de tipo lineal, dicho análisis se
denomina de correlación.
Cuando disponemos de una única variable predictora, la medida
de asociación lineal es el coeficiente de correlacióon simple.
cuando tenemos varios predictores, se trabaja con los
coeficientes de correlación parcial.
Análisis gráfico de asociación
Cuando se pretende modelar un banco de datos se aconseja

llevar a cabo una inspección gráfica de los mismos, con el fin de
descubrir de qué tipo son las relaciones entre las variables
disponibles, si las hay.
Los gráficos de asociación son de dos tipos:
1 Gráficos de dispersión: sirven para visualizar relaciones entre
dos variables continuas.
2 Gráficos de cajas: sirven para visualizar relaciones entre una

variable continua y un factor.
Ejemplo
1 Parece ser que el dinero gastado en la mantenimiento de una
flota de buses es mayor a medida que aumenta los años de uso
de cada bus. Para ratificar esta hipótesis se tienen los siguientes
datos:
Uso 4.5 4.5 4.5 4 4 4 5 5 5.5

Costo 619 1049 1033 495 723 681 890 1522 987
Uso 5 0.5 0.5 6 6 1 1 1
Costo 1194 163 182 764 1373 978 466 549
Ejemplo
Ejemplo
Análisis de Correlación
Supongamos que todas las variables involucradas son de

naturaleza continua. Una vez realizada la inspeccióon gráfica de
los datos con los correspondientes diagramas de dispersión,
debemos valorar más objetivamente si el tipo de asociación se
puede catalogar como lineal o no.
Un análisis de correlación nos permitirá cuantificar el grado de
asociación lineal entre variables, y en particular, entre las
variables explicativas continuas disponibles y la variable
respuesta de interés. Utilizaremos para ello el coeficiente de
correlación simple cuando sólo estamos interesados en relacionar
una variable explicativa con la respuesta.
Correlación lineal simple
Consideremos una variable respuesta continua y observada y una

variable explicativa continua x. Un análisis de correlación servirá
para poner de manifiesto si existe una relación de tipo lineal
entre ambas variables.
Se define el coeficiente de correlación (ρ) o r de Pearson como:
Cov (x, y )
ρ= p
Var (x)Var (y )
Cuando existe correlación lineal entre dos variables, este

coeficiente es útil para cuantificar el grado de asociación entre
ellas. El coeficiente de correlación de Pearson es una medida de
asociación lineal libre de escala, con valores comprendidos entre
-1 y 1.
Correlación lineal simple
Interpretación de ρ
r = 0, no existe correlación lineal
r = −1 ó r = 1, correlación lineal perfecta
r < 0 correlación negativa, ↑ x ⇒ ↓ y
r > 0 correlación positiva, ↑ x ⇒ ↑ y
Ejemplo. Investiguemos sobre la relación lineal entre el dinero

gastado en el mantenimiento de los buses y el tiempo de uso de
los mismos.
Contraste de Hipótesis
Cuando queremos contrastar si dos variables x e y están

relacionadas linealmente, planteamos el contraste:
H0 : ρ = 0
H1 : ρ 6= 0
Para resolver dicho contraste podemos utilizar un test t
denominado de correlación del producto de los momentos
de Pearson: r
n−2
rt = r ∼ tn−2
1 − r2
de modo que se rechazará H0 a favor de que ambas variables
estén relacionadas linealmente cuando:
| rt |> tn−2;1−α/2
Contraste de Hipótesis
Según el test, aceptamos la alternativa (H1 6= 0), lo cual implica

que rechazamos correlación nula a favor de reconocer una
relación lineal entre ambas variables.
Dado que la correlación es positiva, ¿podemos afirmar
estadı́sticamente (a un nivel de confianza del 99 %) que existe
una relación directa entre uso y costo, esto es, a mayor uso de
cada bus, mayores costos de manutenimiento?
Modelo de Regresión Lineal Simple RLS
Es un modelo lineal, a través del cual se quiere explicar

(predecir) una variable respuesta continua y a partir de una
variable explicativa también continua x. Se asume que existe una
relación lineal entre ellas.
El modelo de Regresión lineal Simple de y sobre x se formula
según:
y = β0 + β1 x + ξ
Estimación de la recta de regresión
Estimar la recta de regresión consiste en estimar los coeficientes

de β0 y β1 ara obtener la recta:
ŷ = βˆ0 + βˆ1 x
Disponemos de dos criterios básicos de estimación, que
proporcionan la misma solución. Utilizar uno u otro depende de
nuestros intereses estadı́sticos. Si tan sólo queremos determinar
la recta, basta con considerar el criterio de Mı́nimos
Cuadrados. Si además pretendemos utilizarla con fines
inferenciales o predictivos, hablaremos de que nuestra solución es
la Máxima verosimilitud.
Estimación de σ 2
La varianza σ 2 de los errores es una medida de la variabilidad

entre los puntos respecto a la media cuando el modelo RLS
describe adecuadamente la tendencia entre las variables y y x, o
lo que es lo mismo, de la dispersión de las observaciones respecto
de la recta de regresión. Es decir es una medida de bondad de
ajuste del modelo de regresión a los datos observados.
Cuando el modelo de regresión es bueno, es posible conseguir
una estimación de la varianza σ 2 a partir de la suma de
cuadrados residual SSE, también llamada suma de cuadrados
debida al error: X
SSE = (yi − yˆi )2
i
SSE da una medida de la desviación entre las observaciones yi y

las estimaciones que proporciona la recta de regresión yˆi .
En el modelo de regresión lineal simple se estiman 2 parámetros,
los grados de libertad asociados a SSE son n − 2.
Se define pues el cuadrado medio residual MSE, como un
estimador de σ 2 :
SSE
s 2 = MSE =
n−2
√
El error estándar residual está dado por: s = MSE
Ejemplo:
Variabilidad de errores en el ajuste para el ejemplo de buses.
¿Cuál es la variabilidad residual del modelo de regresión para los
datos de buses? Es posible reducir dicha variabilidad planteando
otro modelo de regresión basado en una transformación de los
datos originales?
IC - PH
Los intervalos de confianza al nivel (1 − α)100 % para β0 y β1 se

construyen a partir de la distribución t:
confint (vector)
Para contrastar hipótesis sobre los coeficientes de regresión:
H0 : βi = β∗
H1 : βi 6= β∗
Se rechaza H0 a nivel α cuando p − valor ≤ α
Si p − valor > α se dice que los datos no proporcionan
suficientes evidencias en contra de la hipótesis nula y ésta no se
puede rechazar.
IC - PH
Ejemplo:
Con el mejor modelo RLS obtenido hasta el momento para
predecir los costos en función del uso de los buses:
1 Construir intervalos de confianza al 99 % para β0 y β1 ¿Qué se
puede afirmar acerca de la de la relación entre dichas variables?
2 Concluir sobre los contrastes β0 = 0 y β1 = 0.
Coeficiente de Determinación
Debemos verificar que el modelo proporciona un buen ajuste a la

hora de explicar (predecir) la variable respuesta. La bondad del
ajuste la cuantificamos con el tanto por ciento de variabilidad
explicada por el modelo sobre la variable respuesta.
2
Sxy
R2 =
Sxx Syy
Puesto que 0 ≤ R 2 ≤ 1, un valor cercano a 1 implica que buena
parte de la varianza es explicada por la recta de regresión, y
R 2 ≈ 0 significa que prácticamente toda la variabilidad de los
datos queda sin explicar por la recta.
Anova
Construir la tabla de ANOVA o Análisis de la Varianza consiste

en:
1 Descomponer la variabilidad de los datos en la parte que es
explicada por el modelo y la parte que se deja sin explicar, es
decir, la variabilidad de los residuos.
2 Compararlas y valorar estadı́sticamente si la variabilidad
explicada por el modelo ajustado es suficientemente grande.
Contrastar la bondad del ajuste de la recta de regresión significa
resolver el contraste:
H0 :el modelo lineal NO explica bien la respuesta
H1 :el modelo lineal explica bien la respuesta
Anova
Lo anterior resulta equivalente a contrastar H0 : β1 = 0; vs H1 :

β1 6= 0, esto es, contrastar si la variable predictora x explica
suFIcientemente bien la variable respuesta y a través del modelo
lineal propuesto.
El estadı́stico de bondad de ajuste de la regresión está basado en
comparar la variabilidad explicada por el modelo con la que
queda sin explicar, que resulta tener una distribución F con 1 y
n − 2 grados de libertad cuando el modelo es correcto.

Modelos Lineales

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Modelos Lineales

Cargado por

Copyright:

Formatos disponibles

Modelos Lineales

JAVIER BELALCAZAR ARCINIEGAS

Cuando se pretende modelar un banco de datos se aconseja

2 Gráficos de cajas: sirven para visualizar relaciones entre una

Uso 4.5 4.5 4.5 4 4 4 5 5 5.5

Supongamos que todas las variables involucradas son de

Consideremos una variable respuesta continua y observada y una

Cuando existe correlación lineal entre dos variables, este

Ejemplo. Investiguemos sobre la relación lineal entre el dinero

Cuando queremos contrastar si dos variables x e y están

Según el test, aceptamos la alternativa (H1 6= 0), lo cual implica

Es un modelo lineal, a través del cual se quiere explicar

Estimar la recta de regresión consiste en estimar los coeficientes

La varianza σ 2 de los errores es una medida de la variabilidad

SSE da una medida de la desviación entre las observaciones yi y

Los intervalos de confianza al nivel (1 − α)100 % para β0 y β1 se

Debemos verificar que el modelo proporciona un buen ajuste a la

Construir la tabla de ANOVA o Análisis de la Varianza consiste

Lo anterior resulta equivalente a contrastar H0 : β1 = 0; vs H1 :

También podría gustarte