Está en la página 1de 16

Modelos lineales, parte 1

Modelos lineales, parte 1


Modelos estadísticos lineales

Definición

Un modelo estadístico lineal que relaciona una respuesta aleatoria Y con un conjunto
de variables independientes x1 , x2 , . . . , xk tiene la forma

Y = β0 + β1 x1 + β2 x2 + ... + βk xk + ε

donde β0 , β1 , β2 , . . . , βk son parámetros desconocidos, ε es una variable aleatoria y x1 ,


x2 , . . . , xk son constantes conocidas. Supondremos que E (ε) = 0 y, en consecuencia

E [Y ] = β0 + β1 x1 + β2 x2 + ... + βk xk

Modelos lineales, parte 1


Metodo de minimos cuadrados

Si se estiman los parámetros desconocidos, los estimadores serían βˆ0 y βˆ1 . Al calcular la
estimación, se tendría ŷ = βˆ0 + βˆ1 x . Por lo tanto por cada estimación se tendría un
error y − ŷ , y se puede calcular la suma cuadrada de los errores (SSE), que no es más
que

n
X
SSE = (yi − ŷi )2
i=1

Modelos lineales, parte 1


Metodo de minimos cuadrados

Si minimizamos esa cantidad, entonces los estimadores de mínimos cuadrados para el


modelo de regresión lineal simple

n n
Sxy X X
1 βˆ1 = donde Sxy = (xi − x̄ )(yi − ȳ ) y Sxx = (xi − x̄ )2 .
Sxx
i=1 i=1

2 βˆ0 = ȳ − βˆ1 x̄ .

Modelos lineales, parte 1


Metodo de mínimos cuadrados

Es fácil ver que

n n n
X 1 X X
Sxy = xi yi − xi yi
n
i=1 i=1 i=1

n n
!2
X 1 X
Sxx = xi2 − xi
n
i=1 i=1

Modelos lineales, parte 1


Los datos de la variable respuesta

Aunque no sea explicito, al realizar un modelo de regresión lineal estamos haciendo la


suposición de que los yi son independientes e idénticamente distribuidos. Esta
suposición no se puede hacer con frecuencia en datos temporales, donde se suele
cumplir que

Cov(yt , yt+k ) 6= 0

para tiempos t y t + k.

Modelos lineales, parte 1


Ejemplo

Las medianas de los precios de venta de casas nuevas para una sola familia durante un
período de ocho años se indican en la siguiente tabla. Sea Y la mediana de los precios
de venta y x el año (representado con números enteros, 1, 2, . . . , 8), ajuste el modelo
Y = β0 + β1 x + ε. ¿Qué se puede concluir de los resultados?

Año Mediana del precio de venta (x1000)


1972 (1) $27.6
1973 (2) $32.6
1974 (3) $35.9
1975 (4) $39.3
1976 (5) $44.2
1977 (6) $48.8
1978 (7) $55.7
1979 (8) $62.9

Modelos lineales, parte 1


Solución
Utilizaremos los estimadores mencionados anteriormente
x <- 1:8

y <- c(27.6, 32.6, 35.9, 39.3, 44.2, 48.8, 55.7, 62.9)

( sx <- sum(x) )

## [1] 36
( sy <- sum(y) )

## [1] 347
mx <- replicate( 8, mean(x) )

my <- replicate( 8, mean(y) )

( Sxx = sum( (x - mx)^2) )

## [1] 42
( Sxy = sum( (x - mx)*(y - my) ) )

## [1] 203.1
Modelos lineales, parte 1
Solución

Por lo tanto, usando los resultados anteriores, tenemos que

( beta1 <- Sxy/Sxx)

## [1] 4.835714

( beta0 <- mean(y) - beta1*mean(x) )

## [1] 21.61429

Por lo tanto el modelo lineal buscado es:

Y = 21.61 + 4.84x .

Modelos lineales, parte 1


Solución

Usando el modelo si se realizan las estimaciones correpondientes obtenemos que:

x yreal ymod Error


1972 (1) $27.6 26.44 -1.16
1973 (2) $32.6 31.27 -1.33
1974 (3) $35.9 36.10 0.20
1975 (4) $39.3 40.93 1.63
1976 (5) $44.2 45.76 1.56
1977 (6) $48.8 50.59 1.79
1978 (7) $55.7 55.42 -0.28
1979 (8) $62.9 60.25 -2.65

Si se calcula el promedio de los errores es 0.03, sin embargo si se utilizarán las


estimaciones con todos los decimales ese promedio de errores baja hasta orden de 10−15 .

Modelos lineales, parte 1


En R

En R se puede utilizar el comando lm para realizar el modelo lineal correspondiente.

modelo <- lm(y~x)


modelo

##
## Call:
## lm(formula = y ~ x)
##
## Coefficients:
## (Intercept) x
## 21.614 4.836

Modelos lineales, parte 1


Regresión lineal simple

Propiedades de los estimadores de mínimos cuadrados: regresión lineal simple.

1 Los estimadores de βˆ0 y βˆ1 son insesgados; es decir, E [β̂i ] = βi , para i = 0, 1.


X
xi2
2 V (βˆ0 ) = c00 σ2 , donde c00 = .
nSxx
1
3 V (βˆ1 ) = c11 σ 2 , donde c11 = .
Sxx
−x̄
4 Cov(βˆ0 , βˆ1 ) = c01 σ 2 , donde c01 = .
Sxx
SSE
5 Un estimador insesgado de σ 2 es S 2 = , donde SSE = Syy − βˆ1 Sxy y
P n−2
Syy = (yi − ȳ )2 .

Si, además, los valores de εi tienen una distribución normal


6 βˆ0 y βˆ1 tienen una distribución normal.
(n − 2)S 2
7 La variable aleatoria tiene distribución χ2 con n − 2 grados de libertad.
σ2
8 El estadístico S 2 es independiente de βˆ0 y βˆ1 .

Modelos lineales, parte 1


Ejemplo

Para los datos del ejercicio anterior calcule SSE y S 2 .


A veces es conveniente, desde el punto de vista del cálculo, contar con valores de x
separados simétricamente y a la misma distancia de cero. Estos valores de x se
pueden reescalar de forma conveniente sin pérdida de información en el análisis
estadístico. Codifique los valores de x mediante la fórmula:
x − 4.5
x∗ =
0.5
Y ajuste el modelo Y = β0∗ + β1∗ x ∗ + ε. Calcule SSE. Compare el valor de SSE
con el obtenido anteriormente.

Modelos lineales, parte 1


Solución

Calculamos Syy ,

( Syy <- sum( (y - mean(y))^2 ) )

## [1] 1000.675

luego

( SSE <- Syy - beta1*Sxy )

## [1] 18.54143

Y por lo tanto

( S2 <- SSE/(length(x) - 2) )

## [1] 3.090238

Modelos lineales, parte 1


Si reescalamos los valores de x , los nuevos valores serán

x <- c(-7, -5, -3, -1, 1, 3, 5, 7)

( sx <- sum(x) )

## [1] 0

mx = replicate(8, mean(x))

(Sxx <- sum((x - mx)^2) )

## [1] 168

(Sxy <- sum((x - mx)*(y - my)) )

## [1] 406.2

Modelos lineales, parte 1


por lo tanto

( beta1 <- Sxy/Sxx )

## [1] 2.417857

( beta0 <- mean(y) - beta1*mean(x) )

## [1] 43.375

Por lo tanto el modelo reescalado sería

Y = 43.38 + 2.42x ∗ .

( SSE <- Syy - beta1*Sxy )

## [1] 18.54143

Como podemos ver, el cambio no influye en la suma de los errores cuadrados.

Modelos lineales, parte 1

También podría gustarte