Está en la página 1de 21

Modelos Lineales

JAVIER BELALCAZAR ARCINIEGAS


UNIVERSIDAD DISTRITAL

5 de mayo de 2018

Javier Belalcazar A. ML
Análisis de Correlación
Modelo para una variable respuesta continua (con variables
predictoras continuas o categóricos), lo habitual es acudir a
modelos de regresión que permitan predecir la primera en
función de las restantes variables observadas que estén
relacionadas con ella.
Sin embargo, previamente es conveniente llevar a cabo, aparte
de la inspección gráfica, un análisis de asociación.
Cuando las variables explicativas son de tipo continuo y se
estudia si las relaciones son de tipo lineal, dicho análisis se
denomina de correlación.
Cuando disponemos de una única variable predictora, la medida
de asociación lineal es el coeficiente de correlacióon simple.
cuando tenemos varios predictores, se trabaja con los
coeficientes de correlación parcial.
Javier Belalcazar A. ML
Análisis gráfico de asociación

Cuando se pretende modelar un banco de datos se aconseja


llevar a cabo una inspección gráfica de los mismos, con el fin de
descubrir de qué tipo son las relaciones entre las variables
disponibles, si las hay.
Los gráficos de asociación son de dos tipos:
1 Gráficos de dispersión: sirven para visualizar relaciones entre
dos variables continuas.

2 Gráficos de cajas: sirven para visualizar relaciones entre una


variable continua y un factor.

Javier Belalcazar A. ML
Análisis gráfico de asociación

Ejemplo
1 Parece ser que el dinero gastado en la mantenimiento de una
flota de buses es mayor a medida que aumenta los años de uso
de cada bus. Para ratificar esta hipótesis se tienen los siguientes
datos:

Uso 4.5 4.5 4.5 4 4 4 5 5 5.5


Costo 619 1049 1033 495 723 681 890 1522 987
Uso 5 0.5 0.5 6 6 1 1 1
Costo 1194 163 182 764 1373 978 466 549

Javier Belalcazar A. ML
Análisis gráfico de asociación
Ejemplo

Javier Belalcazar A. ML
Análisis gráfico de asociación
Ejemplo

Javier Belalcazar A. ML
Análisis de Correlación

Supongamos que todas las variables involucradas son de


naturaleza continua. Una vez realizada la inspeccióon gráfica de
los datos con los correspondientes diagramas de dispersión,
debemos valorar más objetivamente si el tipo de asociación se
puede catalogar como lineal o no.
Un análisis de correlación nos permitirá cuantificar el grado de
asociación lineal entre variables, y en particular, entre las
variables explicativas continuas disponibles y la variable
respuesta de interés. Utilizaremos para ello el coeficiente de
correlación simple cuando sólo estamos interesados en relacionar
una variable explicativa con la respuesta.

Javier Belalcazar A. ML
Correlación lineal simple

Consideremos una variable respuesta continua y observada y una


variable explicativa continua x. Un análisis de correlación servirá
para poner de manifiesto si existe una relación de tipo lineal
entre ambas variables.
Se define el coeficiente de correlación (ρ) o r de Pearson como:

Cov (x, y )
ρ= p
Var (x)Var (y )

Cuando existe correlación lineal entre dos variables, este


coeficiente es útil para cuantificar el grado de asociación entre
ellas. El coeficiente de correlación de Pearson es una medida de
asociación lineal libre de escala, con valores comprendidos entre
-1 y 1.

Javier Belalcazar A. ML
Correlación lineal simple

Interpretación de ρ
r = 0, no existe correlación lineal
r = −1 ó r = 1, correlación lineal perfecta
r < 0 correlación negativa, ↑ x ⇒ ↓ y
r > 0 correlación positiva, ↑ x ⇒ ↑ y

Ejemplo. Investiguemos sobre la relación lineal entre el dinero


gastado en el mantenimiento de los buses y el tiempo de uso de
los mismos.

Javier Belalcazar A. ML
Contraste de Hipótesis

Cuando queremos contrastar si dos variables x e y están


relacionadas linealmente, planteamos el contraste:
H0 : ρ = 0
H1 : ρ 6= 0
Para resolver dicho contraste podemos utilizar un test t
denominado de correlación del producto de los momentos
de Pearson: r
n−2
rt = r ∼ tn−2
1 − r2
de modo que se rechazará H0 a favor de que ambas variables
estén relacionadas linealmente cuando:

| rt |> tn−2;1−α/2

Javier Belalcazar A. ML
Contraste de Hipótesis

Según el test, aceptamos la alternativa (H1 6= 0), lo cual implica


que rechazamos correlación nula a favor de reconocer una
relación lineal entre ambas variables.
Dado que la correlación es positiva, ¿podemos afirmar
estadı́sticamente (a un nivel de confianza del 99 %) que existe
una relación directa entre uso y costo, esto es, a mayor uso de
cada bus, mayores costos de manutenimiento?

Javier Belalcazar A. ML
Modelo de Regresión Lineal Simple RLS

Es un modelo lineal, a través del cual se quiere explicar


(predecir) una variable respuesta continua y a partir de una
variable explicativa también continua x. Se asume que existe una
relación lineal entre ellas.
El modelo de Regresión lineal Simple de y sobre x se formula
según:
y = β0 + β1 x + ξ

Javier Belalcazar A. ML
Estimación de la recta de regresión

Estimar la recta de regresión consiste en estimar los coeficientes


de β0 y β1 ara obtener la recta:

ŷ = βˆ0 + βˆ1 x
Disponemos de dos criterios básicos de estimación, que
proporcionan la misma solución. Utilizar uno u otro depende de
nuestros intereses estadı́sticos. Si tan sólo queremos determinar
la recta, basta con considerar el criterio de Mı́nimos
Cuadrados. Si además pretendemos utilizarla con fines
inferenciales o predictivos, hablaremos de que nuestra solución es
la Máxima verosimilitud.

Javier Belalcazar A. ML
Estimación de σ 2

La varianza σ 2 de los errores es una medida de la variabilidad


entre los puntos respecto a la media cuando el modelo RLS
describe adecuadamente la tendencia entre las variables y y x, o
lo que es lo mismo, de la dispersión de las observaciones respecto
de la recta de regresión. Es decir es una medida de bondad de
ajuste del modelo de regresión a los datos observados.
Cuando el modelo de regresión es bueno, es posible conseguir
una estimación de la varianza σ 2 a partir de la suma de
cuadrados residual SSE, también llamada suma de cuadrados
debida al error: X
SSE = (yi − yˆi )2
i

Javier Belalcazar A. ML
Estimación de σ 2

SSE da una medida de la desviación entre las observaciones yi y


las estimaciones que proporciona la recta de regresión yˆi .
En el modelo de regresión lineal simple se estiman 2 parámetros,
los grados de libertad asociados a SSE son n − 2.
Se define pues el cuadrado medio residual MSE, como un
estimador de σ 2 :
SSE
s 2 = MSE =
n−2

El error estándar residual está dado por: s = MSE

Javier Belalcazar A. ML
Estimación de σ 2

Ejemplo:
Variabilidad de errores en el ajuste para el ejemplo de buses.
¿Cuál es la variabilidad residual del modelo de regresión para los
datos de buses? Es posible reducir dicha variabilidad planteando
otro modelo de regresión basado en una transformación de los
datos originales?

Javier Belalcazar A. ML
IC - PH

Los intervalos de confianza al nivel (1 − α)100 % para β0 y β1 se


construyen a partir de la distribución t:
confint (vector)
Para contrastar hipótesis sobre los coeficientes de regresión:
H0 : βi = β∗
H1 : βi 6= β∗
Se rechaza H0 a nivel α cuando p − valor ≤ α
Si p − valor > α se dice que los datos no proporcionan
suficientes evidencias en contra de la hipótesis nula y ésta no se
puede rechazar.

Javier Belalcazar A. ML
IC - PH

Ejemplo:
Con el mejor modelo RLS obtenido hasta el momento para
predecir los costos en función del uso de los buses:
1 Construir intervalos de confianza al 99 % para β0 y β1 ¿Qué se
puede afirmar acerca de la de la relación entre dichas variables?
2 Concluir sobre los contrastes β0 = 0 y β1 = 0.

Javier Belalcazar A. ML
Coeficiente de Determinación

Debemos verificar que el modelo proporciona un buen ajuste a la


hora de explicar (predecir) la variable respuesta. La bondad del
ajuste la cuantificamos con el tanto por ciento de variabilidad
explicada por el modelo sobre la variable respuesta.
2
Sxy
R2 =
Sxx Syy
Puesto que 0 ≤ R 2 ≤ 1, un valor cercano a 1 implica que buena
parte de la varianza es explicada por la recta de regresión, y
R 2 ≈ 0 significa que prácticamente toda la variabilidad de los
datos queda sin explicar por la recta.

Javier Belalcazar A. ML
Anova

Construir la tabla de ANOVA o Análisis de la Varianza consiste


en:
1 Descomponer la variabilidad de los datos en la parte que es
explicada por el modelo y la parte que se deja sin explicar, es
decir, la variabilidad de los residuos.
2 Compararlas y valorar estadı́sticamente si la variabilidad
explicada por el modelo ajustado es suficientemente grande.
Contrastar la bondad del ajuste de la recta de regresión significa
resolver el contraste:
H0 :el modelo lineal NO explica bien la respuesta
H1 :el modelo lineal explica bien la respuesta

Javier Belalcazar A. ML
Anova

Lo anterior resulta equivalente a contrastar H0 : β1 = 0; vs H1 :


β1 6= 0, esto es, contrastar si la variable predictora x explica
suFIcientemente bien la variable respuesta y a través del modelo
lineal propuesto.
El estadı́stico de bondad de ajuste de la regresión está basado en
comparar la variabilidad explicada por el modelo con la que
queda sin explicar, que resulta tener una distribución F con 1 y
n − 2 grados de libertad cuando el modelo es correcto.

Javier Belalcazar A. ML

También podría gustarte