Está en la página 1de 18

UNIVERSIDAD AUTÓNOMA DE AGUASCALIENTES INFERENCIA ESTADÍSTICA

El Modelo de Regresión Lineal Simple

La Ecuación de regresión
Una de las situaciones más interesantes para el investigador, es poder establecer relaciones que
permitan predecir, una o más variables en términos de otras. Fue en el siglo XIX cuando Francis
Galton pudo establecer una relación entre las estaturas de padres e hijos primogénitos. Tomó una
muestra de 1000 familias y tomó las estaturas de los padres y los hijos y observó con asombro,
que en el caso de padres con estatura mayor, el primogénito tenía una estatura menor y
viceversa, a lo que el denominó se presentaba una “regresión” (retorno) de las estaturas de los
hijos a las de los padres

Formalmente, si tenemos la distribución conjunta de dos variables aleatorias X y Y y se sabe que


X toma el valor de x, el problema básico de regresión bivariada es determinar la media condicional
μY ∨x , es decir, el valor “promedio” de Y para el valor de X dado.

Si f(x,y) es el valor de la densidad conjunta de dos variables aleatorias X y Y en (x,y), entonces,


el problema de la regresión bivariada, es determinar la densidad condicional de Y dada X=x y
después la evaluación de la integral

μY ∨x =E [ Y |x ] = ∫ yf ( y∨x ) dy
−∞
La ecuación resultante recibe el nombre de ecuación de regresión de Y en X.

Ejemplo 1. Dadas las variables aleatorias X y Y que tienen la densidad conjunta

{
−x ( 1+ y )
xe x >0 , y >0
f ( x , y )=
0 en cualquier otra parte
Obtenga la ecuación de regresión de Y en X y trace la curva de regresión
Solución
f (x, y)
Sabemos que f ( y ∨x )=
g(x)

|∞0 =e
∞ ∞ ∞
g ( x )=∫ f ( x , y ) dy=∫ x e dy=−¿ ∫ −x e
−x ( 1+ y ) −x ( 1+ y ) − x (1 + y ) −x
dy =−¿ e ¿¿
−∞ 0 0

x e−x (1 + y ) −x ( 1+ y ) + x − xy 1
La densidad condicional f ( y ∨x )= =x e =x e Si denotamos por β= tenemos
e −x
x
−y
1 β
f ( y ∨x )= e (la densidad de una función exponencial!!!) por lo tanto
β
∞ ∞ −y
1
μY ∨x =E [ Y |x ] = ∫ yf ( y∨x ) dy=∫ y e β
dy=β
−∞ 0 β
La curva solicitada es la siguiente:

Carrera: ISC M.C. José de Jesús Jiménez Martínez


1
UNIVERSIDAD AUTÓNOMA DE AGUASCALIENTES INFERENCIA ESTADÍSTICA

Curva de regresión

10
8
6
y

4
1 x

2
0
0 1 2 3 4 5

Ejemplo 2. Si la densidad conjunta de X1, X2 y X3 está dada por

{
−x 3
f ( x 1 , x 2 , x3 ) = ( 1 2 )
x + x e 0< x 1, , x 2 <1 , x 3 >0
0 en cualquier otra parte
Obtenga la ecuación de regresión de X2, en X1 y X3
Solución
1
La densidad marginal conjunta de X1 y X3 está dada por g ( x 1 , x 3 )= ∫ ( x 1 + x 2) e− x d x 2=¿3

( 1
)
x 1 + e− x 0< x 1 , <1 , x 3> 0
2
3

Por lo tanto

1 1
f ( x1 , x2 , x3 ) 1
f ( x 1 , x2 , x3 ) 1
( x1 + x 2 ) e−x 3 1
x2 ( x
μ X ∨X , X =∫ x 2 f ( x2 ∨x1 , x3 ) d x 2=¿∫ x2 d x2 =¿∫ x2 d x2 =¿∫ x 2 d x 2=∫
g ( x1 , x3 ) g ( x1 , x3 )
( x + 12 ) e (x
2 1 3
0 0 0 0 − x3 0
1 1

Curva de regresión
0.66
0.64
0.62
f

0.60

x1 2 3 2x1  1
0.58
0.56

0.0 0.2 0.4 0.6 0.8 1.0

x1

Ejercicios:

Carrera: ISC M.C. José de Jesús Jiménez Martínez


2
UNIVERSIDAD AUTÓNOMA DE AGUASCALIENTES INFERENCIA ESTADÍSTICA

1. Dada la densidad conjunta f ( x , y )= {0 en cualquier


6 x 0< x< y <1
otra parte
obtenga μY ∨x y μ X ∨ y

{
2x
x >0 , y> 0
2. Dada la densidad conjunta f ( x , y )= ( 1+ x + xy )3 demuestre que
0 en cualquier otra parte
1
μY ∨x =1+ y que Var(Y|x) no existe
x

Regresión Lineal
La ecuación de regresión es lineal si es de la forma μY ∨x =β 0 + β 1 x , a los términos β0 y β1 se les llama
Coeficientes de regresión. Las ecuaciones de regresión lineal son de especial interés porque:
a) Se prestan a un tratamiento matemático más a fondo
b) Ofrece buenas aproximaciones a ecuaciones de regresión
c) En el caso de la distribución normal bivariada, las ecuaciones de regresión son de hecho
normales

Teorema 1:
σY
a) Si la regresión de Y en X es lineal, entonces μY ∨ X =μ Y + ρ ( x−μ X )
σX
σX
b) Si la regresión de X en Y es lineal, entonces μ X ∨Y =μ X + ρ ( y−μY )
σY
Demostración

a) Ya que μY ∨x =β 0 + β 1 x , se tiene que ∫ yf ( y∨x ) dy=β 0 + β 1 x … (A)
−∞
Multiplicando ambos lados por g(x):
∞ ∞ ∞

∬ yf ( y∨x ) g ( x ) dydx=β 0 ∫ g ( x ) dx + β 1 ∫ xg ( x ) dx =β 0+ β 1 μ X Ahora bien


−∞ −∞ −∞
∞ ∞ ∞
f (x, y)
∬ yf ( y∨x ) g ( x ) dydx=∬ y g ( x ) g ( x ) dydx =∬ yf ( x , y ) dydx=μY …( B)
−∞ −∞ −∞
De (A) y (B) se tiene que μY =β 0 + β 1 μ X …(1)

Si ahora multiplicamos (A) por xg(x) tenemos:


∞ ∞ ∞

∬ yxf ( y∨x ) g ( x ) dydx=β 0 ∫ xg ( x ) dx+ β 1 ∫ x 2 g ( x ) dx=β 0 μ X + β 1 E [X 2] Ahora bien


−∞ −∞ −∞
∞ ∞ ∞
f (x, y)
∬ yxf ( y∨x ) g ( x ) dydx=∬ yx g ( x ) g ( x ) dydx=∬ yxf ( x , y ) dydx=E [ XY ]por lo tanto
−∞ −∞ −∞

E [ XY ] =β 0 μ X + β 1 E [ X ] …(2)
2

Si de (1) y (2) despejamos B0, e igualamos las expresiones resultantes, tenemos que:
E[ X ]
2
E [ XY ]
μY −β 1 μ X = −β1 luego
μX μX

β1
E [ X2]
μX
−β 1 μ X =
E [ XY ]
μX
−μY ↔ β 1
[
E [ X 2]
μX
−μ X =
μX ]
E [ XY ]
−μ Y ↔

Carrera: ISC M.C. José de Jesús Jiménez Martínez


3
UNIVERSIDAD AUTÓNOMA DE AGUASCALIENTES INFERENCIA ESTADÍSTICA
E [ XY ] −μ X μY
COV [ XY ] ρ σ X σ Y ρ σ Y
β 1= = == Sustituyendo en (1) y despejando B0 tenemos:
E [ X ] −μ σX
2 2 2 2
σX X
σX
ρ σY ρσY ρ σY ρσY
β 0=μY − μ X ∴ μY ∨x =μ Y − μX + x=μY + ( x−μ X )
σX σX σX σX
Realice el inciso b) de tarea

NOTA Observe que si ρ=0 entonces μY ∨x no depende de X

Ejercicios:
3. Demuestre que si μY ∨x es lineal en x y VAR(Y|x) es constante, entonces VAR ( Y ∨x ) =σ 2Y ( 1−ρ2 )
σX
4. Pruebe que si la regresión de X en Y es lineal, entonces μ X ∨Y =μ X + ρ ( y−μY )
σY

El modelo de regresión lineal simple


La ecuación de regresión es lineal si es de la forma μY ∨x =β 0 + β 1 x , donde los coeficientes de
regresión β0 y β1 son los parámetros del modelo. El modelo se denomina lineal en términos de estos
parámetros y no en función de la o las variables independientes. Por ejemplo:
y=0+1X Modelo lineal
y=0+1X 2
Modelo lineal
X 2
y=0+1 1 +2 √
X 2 Modelo lineal.
3 3
1
y= β 0 + β X 1 + β 2 (−X 2 ) Modelo no lineal.

En la práctica hay muchos problemas donde un conjunto de datos pareados da la indicación de que la
recta es lineal, donde no conocemos la distribución conjunta de las variables aleatorias consideradas,
pero no obstante deseamos estimar los coeficientes de regresión β0 y β1 a partir de los datos de
muestra.

Los problemas de este tipo suelen manejarse por medio del método de mínimos cuadrados, un
método de ajuste de curvas sugerido originalmente a principios del siglo XIX por el matemático
francés Adrién Legendre

Método de mínimos cuadrados


Lo que se busca es minimizar los errores, luego si se tiene una muestra aleatoria de n pares
^
ordenados (X0,Y0), (X1,Y1),……, (Xn,Yn) y se supone que los estimadores de los parámetros son β 0 y
β^ 1 respectivamente, entonces el i-esimo valor estimado de Y, es decir, ^y i se expresa como
^y i= β^ 0 + ^β 1 x i i = 1,2,...,n.
Sea entonces i = yi -
ŷi , a i se le llama el i-ésimo residual; así las cosas, la suma de todos los errores
es igual a:
n n n n n n
1 n  n n

    y
i 1
i
i 1
i  yˆi    y1  yˆ i   yi  ny   yi  n   yi    yi   yi  0
i 1 i 1 i 1 i 1  n i 1  i 1 i 1

y buscaremos encontrar los errores por medio de los cuadrados de las diferencias y que éste sea
n n
mínimo, es decir, ∑ ε =∑ ( y i−^y i ) ≅ 0
2 2
i
i=1 i=1

Carrera: ISC M.C. José de Jesús Jiménez Martínez


4
UNIVERSIDAD AUTÓNOMA DE AGUASCALIENTES INFERENCIA ESTADÍSTICA

Este método consiste en minimizar la suma de los cuadrados de las diferencias, es decir, se obtiene
la derivada parcial para cada uno de los parámetros a estimar, cada parcial se iguala a cero y se
soluciona el sistema de ecuaciones correspondiente.
n

  y    1 x1   0
2
1 0
Sea la i 1
2
1  n n n
 
 i 0 1i
y     x 2
 2   yi   0   x
1 i ( 1)  2  yi   0  1 xi  
 0  0 i 1 i 1 i 1

n n n
 n n
 2 y1    0   1 xi   2 yi  2n 0  2 1  xi  0
 i 1 i 1 i 1  i 1 i 1
n n n n
1 1
Luego n β 0=∑ y i −β1 ∑ x i ↔ β 0= ∑ y i −β1 ∑ x i= y −β1 x ∴ ^β0 = y− β^ 1 x
i=1 i=1 n i=1 n i=1

[∑ ]
2 n n n n n n n
∂ε ∂
= ∑
∂ β1 ∂ β1 i=1
⌊ y i−( β 0+ β 1 xi ) ⌋ =−2 ∑ ⌊ y i−( β 0 + β 1 x i ) ⌋ x i=−2
2
y i x i−β o ∑ xi −β 1 ∑ x i =0 ↔ ^β1 ∑ x i2=∑ y
2

i=1 i =1 i=1 i=1 i=1 i=1

Por lo tanto, el modelo de regresión o la ecuación de mínimos cuadrados es de la forma: ^y = β^ 0 + β^ 1 x

n n

∑ xi y i−n xy ∑ ( x i−x ) ( y i− y )
Demuestre que la expresión ^β 1= n
i=1 i=1
= n

∑ xi2 −n x2 ∑ ( x i−x )2
i=1 i=1

Interpretación de los coeficientes de regresión


La pendiente ^β 1indica el cambio promedio en la variable de respuesta cuando la variable predictora
aumenta en una unidad adicional. Siempre tiene interpretación válida.

El intercepto ^β 0 indica el valor promedio de la variable de respuesta cuando la variable predictora vale
0. Sin embargo, carece de interpretación práctica si es irrazonable pensar que el rango de valores de
x incluye a cero.

Ejemplo: Consideremos los siguientes datos acerca del número de horas de estudio de 10 personas
para presentar un examen de francés y sus calificaciones obtenidas
Horas de Calificación en
estudio X la Prueba Y
4 31
9 58
10 65
14 73
4 37
7 44
12 60
22 91
1 21
17 84

Carrera: ISC M.C. José de Jesús Jiménez Martínez


5
UNIVERSIDAD AUTÓNOMA DE AGUASCALIENTES INFERENCIA ESTADÍSTICA
Obtenga la ecuación de regresión aplicando mínimos cuadrados
Solución
Antes que nada, lo recomendable es construir siempre un diagrama de dispersión, para darnos una idea de lo
que podríamos esperar

Horas de estudio y calificación en la prueba Se aprecia la evidencia de una relación lineal entre las
horas de estudio y la calificación de la prueba.
90

Encontremos el modelo de regresión aplicando el


método de mínimos cuadrados.
80
70

∑ ( x i−x ) ( y i− y ) 1305
60

^β 1= i=1 = =3.4707
cal

n
376
∑ ( xi −x )2
50

i =1
40

La calificación de la prueba incrementará en 3.47


puntos por cada hora de estudio adicional.
30

^β 0= y − ^β 1 x=56.4−3.4707∗10=21.693
20

5 10 15 20 Se tendrá una calificación del 21.69 puntos si no se le


dedica ni una hora de estudio.
horas

El modelo obtenido o la ecuación de regresión


estimada es: ^y =21.693+ 3.4707 x

Propiedades de los estimadores de mínimos cuadrados


El modelo muestral de regresión escrito en términos de los n pares de datos, y i =β 0 + β 1 x i +ε i con
i = 1,2,...,n, tiene asociada una componente ε i asociada al error aleatorio, por tanto es una variable;
supongamos además que:
a) E [ ε i ]=0Los errores tienen promedio cero
b) V [ ε i ]=σ Los errores tienen varianza σ 2desconocida
2

c) COV ( ε i , ε j )=0 i≠j Los errores no están correlacionados

Luego:
E [ y i ]=E [ β 0 + β 1 x i+ ε i ]=β 0 + β 1 x i
V [ y i ] =V [ β 0+ β1 xi + ε i ]=V [ ε i ] =σ 2

Con estos elementos podemos ver algunas propiedades, como:


a) E [ ^β 1 ]=β 1
2
σ
V [ ^β 1 ]= n
b)
∑ ( x i−x )2
i=1

c) E [ ^β 0 ]=β 0

Carrera: ISC M.C. José de Jesús Jiménez Martínez


6
UNIVERSIDAD AUTÓNOMA DE AGUASCALIENTES INFERENCIA ESTADÍSTICA

[ ]
1 x2
V [ ^β 0 ]=σ
2
+
d) n n

∑ ( x i−x )2
i=1
Prueba
n n n n

∑ ( x i−x ) ( y i− y ) ∑ ( xi −x ) y i− y ∑ ( x i− x ) ∑ ( x i−x ) y i
a) Observe que ^β1 =
i=1 i =1 i=1
n
= n
= i=1n , entonces :
∑ ( x i−x ) 2
∑ ( xi −x ) 2
∑ ( x i−x ) 2

i=1 i =1 i=1
n n

∑ ( x i−x ) E[ y ¿¿ i] ∑ ( x i−x ) ¿ E [β 0 + β 1 x i ¿ ] n n

[ ]
n
i=1
n
= i=1 n
=β 0 ∑ ( x i−x ) ¿+ β 1 ∑ ( x i−x ) x i
∑ ( x i−x ) y i ∑ ( xi −x ) 2
∑ ( x i−x )2 i=1 i=1
β1∑
E [ ^β 1 ]=E
i=1 i=1 i=1 i=
n
= n
= n

∑ ( x i−x )2 ∑ ( x i−x )2 ∑
i=1 i=1 i=
n n
Pruebe que ∑ ( xi −x ) x i=∑ ( x i− x )
2

[ ][
i=1 i=1
n n

∑ ( x i−x ) y i ∑ ( x i−x )2 σ
2
b) V [ ^β 1 ]=V V [ y i ]=
i=1 i=1
=

]
n n 2 n

∑ ( xi −x ) 2
∑ ( xi −x ) 2
∑ ( xi −x )2
i=1 i=1 i =1

[ ]
n n n
1 1 1
c) E [ ^β 0 ]=E [ y− ^β 1 x ]=E ∑ y i− β^ 1 x = ∑ E [ y i ] −β 1 x = ∑ E [ β 0+ β1 x i ] −β 1 x=¿
n i=1 n i=1 n i=1
β 0 + β 1 x−β 1 x =β 0

[ ]
2 2 2 2
σ σ σ 1 x
V [ ^β 0 ]=V [ y − ^β1 x ]=V [ y ] + V [ β^ 1 x ]= + x V [ ^β1 ] = + x
2 2 2
=σ +
d) n n n
n n

∑ ( x i−x ) 2
∑ ( x i−x )2
i=1 i=1

Debemos probar que cov( y , ^


β1 ¿=0
^β =∑ c y donde c =¿ ( i )
n
x −x
1 i i i n
¿
Sea . Luego cov(
∑ ( xi −x )
i=1 2

i =1

( ) ()
n
n n n
1 c
y , ^β1 ¿=cov ∑ y i , ∑ c i y i =∑ ∑ i cov ( y i , y j ) =0 i≠ j ya que la muestra es aleatoria.
n i=1 i=1 i=1 j=1 n

∴ cov ( y , β^ 1 ) =0.

Se observa que σ 2es desconocida y para completar el análisis requerimos encontrar un estimador de
la varianza. ¿cómo le hacemos? En el modelo utilizamos ^y ipara estimar E[ y i ¿ entonces es natural
n
tomar una estimación de σ 2 en términos de ∑ ( y i−^y i ) =SCE=Suma de Cuadrados del error
2

i=1

Carrera: ISC M.C. José de Jesús Jiménez Martínez


7
UNIVERSIDAD AUTÓNOMA DE AGUASCALIENTES INFERENCIA ESTADÍSTICA
2 2 1
Pruebe que σ^ =s = SCE es un estimador insesgado de σ 2
n−2

Inferencia en un Modelo de Regresión Lineal Simple


2 2 1
σ^ =s = SCE también se denomina el cuadrado medio del error, o cuadrado medio residual. La
n−2
raíz cuadrada de σ^ 2 se llama Error estándar de la regresión. Como σ^ 2depende de la suma de
cuadrados de los residuales, cualquier violación sobre los supuestos de los errores del modelo,
pueden dañar seriamente la utilidad de σ^ 2 como estimador de σ 2. Se dice también que σ^ 2es un
estimador dependiente del modelo. De nuestros resultados del curso de inferencia estadística,
( n−2 ) σ^ 2 2
sabemos que 2
X n−2
σ

El método de mínimos cuadrados se puede aplicar para estimar los parámetros en un modelo de
regresión lineal, independientemente de la distribución de los errores. Con los mínimos cuadrados se
obtienen los mejores estimadores lineales insesgados de los parámetros. Sin embargo, para
desarrollar pruebas de hipótesis e intervalos de confianza debemos suponer que los errores tienen
una distribución conocida.

El nuevo supuesto es entonces, que los errores tienen distribución normal con media cero y varianza
2
σ . Entonces, ¿qué pasa con los estimadores de los parámetros del modelo de regresión lineal?

Análisis de regresión normal


Bajo el supuesto de que cada ε i N ( 0 , σ 2 )entonces y i N ( β0 + β 1 xi , σ ) Para encontrar entonces los
2

estimadores de β 0 , β 1 , y σ 2 debemos aplicar el método de máxima verosimilitud.


( ) Como la única varianza es la correspondiente a y , denotaremos a
2
−1 yi − ( β 0+ β1 x i )
Sea f ( y i∨xi ) = 1 2 σY
e i
2 π σY
σ como σ Y .

Ahora diferenciaremos parcialmente la función de verosimilitud (mejor su logaritmo, que es más fácil)
con respecto a β 0 , β 1 , y σ, igualamos las expresiones a cero y después resolvemos el sistema de
ecuaciones resultantes.

La función de logverosimilitud es de la forma:


n
n 1 2
lnL=−nlnσ − ln2 π− 2 ∑ [ y i −( β 0+ β1 x i) ] . Derivando parcialmente, tenemos:
2 2 σ i=1
n n n n n n
∂lnL 1 1 1
= 2 ∑ [ y i −( β 0+ β1 x i) ]=0 ↔ ∑ β 0=∑ y i−β 1 ∑ x i ↔ β0 = ∑ y i−β 1 ∑ x i ↔
∂ β 0 σ i=1 i=1 i=1 i=1 n i=1 n i=1
^β 0= y − ^β 1 x
n n n n n n n n
∂lnL 1
= 2 ∑ [ y i −( β 0+ β1 x i) ] x i=0↔ β^ 1 ∑ x i =∑ y i xi − β^ o ∑ x i=∑ xi y i−( y− β^ 1 x ) ∑ x i=∑ x i yi − y ∑ xi + β^ 1 x ∑
2
∂ β 1 σ i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 i
n

∑ x i y i −n xy
[ ]
n n
^β 1 ∑ xi −n x =∑ x i y i−n xy ∴ β^ 1= i=1n
2 2

i=1 i=1
∑ x i2−n x 2
i=1

Carrera: ISC M.C. José de Jesús Jiménez Martínez


8
UNIVERSIDAD AUTÓNOMA DE AGUASCALIENTES INFERENCIA ESTADÍSTICA
n
∂lnL −n 1 2
= + 3 ∑ [ y i−( β0 + β 1 x i ) ] =0 Reemplazando β 0 y β 1 por ^β oy ^β 1 respectivamente:
∂σ σ σ i=1


n n
∂lnL 2 1 2

∂σ
[ ]
=−n σ 2+ ∑ y i−( ^βo + β^ 1 xi ) =0 ↔ σ^ = ∑ y i−( ^β o + ^β 1 x i )
i=1 n i=1
[ ]
Este resultado es importantísimo, ya que podemos establecer que:

( )
^β N β , σ2
1 1 n
a)
∑ ( x i−x )2
i=1

( [ ])
2
^β N β , σ 2 1 + x
o 0
b) n n

∑ ( x i−x )2
i=1

( n−2 ) σ^ 2 2
c) X n−2
σ2
Observe que los estimadores de los coeficientes de regresión son los mismos que los obtenidos a
través del método de mínimos cuadrados. El estimador obtenido de la varianza, es una estimador
2 2 1
sesgado. El estimador insesgado es σ^ =s = SCE .
n−2
Los estimadores de máxima verosimilitud tienen mejores propiedades que los estimadores de
mínimos cuadrados:
a) Son insesgados, incluyendo σ^ 2 que es asintóticamente insesgado
b) Tienen varianza mínima
c) Son consistentes
d) Son suficientes

Inferencia para los coeficientes de regresión

Prueba de hipótesis para β 1


Suponga que se desea probar la hipótesis de que la pendiente es igual a una constante, por ejemplo
Ho: β1= β10
a β 10 .Las hipótesis correspondientes son : y como conocemos la distribución de ^β 1
Ha : β 1 ≠ β 10
β^ 1−β 10
Z 0= N ( 0 , 1)


2
entonces el estadístico σ .
n

∑ ( x i−x ) 2

i=1

Carrera: ISC M.C. José de Jesús Jiménez Martínez


9
UNIVERSIDAD AUTÓNOMA DE AGUASCALIENTES INFERENCIA ESTADÍSTICA
2
Sin embargo al desconocer σ , la distribución correspondiente es:
^β −β
1 10


2
σ
n

Z
∑ ( xi −x ) 2 ^β −β el denominador del estadístico t0 se llama error estándar
i =1 1 10
t 0= = =

√ √ √
2
X n−2 ( n−2 ) σ^ 2 σ^
2

2 n
n−2 σ ( n−2 )
∑ ( x i−x )2
i=1
estimado o error estándar de la pendiente y se denota


n

∑ ( y i−^y i )2

√ ( )
σ^
2
1
se ( β^ 1 ) = n
= i=1
n
.
n−2
∑ ( x i−x ) 2
∑ ( xi −x ) 2

i=1 i=1

Ho se rechaza si |t 0|>t α ,n−2


2
Ho : β 1=0
En particular, si lo que se desea probar es la hipótesis , se está probando la significancia de
Ha: β 1 ≠ 0
la regresión, es decir, el no rechazar Ho implica que no hay relación lineal entre X y Y. En cambio, si
se rechaza Ho, esto indica que x sí tiene valor para explicar la variabilidad de Y. Y el estadístico de

1
prueba es
se ( β^ 1 )
Intervalo de confianza para β 1
La amplitud de un intervalo de confianza es una medida de la calidad general de la recta de
regresión. Si los errores se distribuyen en forma normal e independiente, entonces la distribución de
^β1 −β1
muestreo de t n−2. Luego, un intervalo de confianza de 100(1-α)% para la pendiente β 1 es de
se ( ^β ) 1
^
( ^ ^
2
^
la forma β 1−t α ,n−2 se ( β 1) , β 1 +t α , n−2 se ( β 1 ) =( 1−α ) %
2
)
Si hubiera que tomar muestras repetidas del mismo tamaño a los mismos valores de xi, y formar
intervalos de confianza de 100(1-α)% de la pendiente para cada muestra, entonces el 100(1-α)% de
esos intervalos contendrán el verdadero valor de β 1.

Ejercicios:
a) Siguiendo el procedimiento empleado para la pendiente, establezca la hipótesis estadística para
la ordenada al origen β 0 ,el estadístico de prueba y el intervalo de confianza al 100(1- α)%. ¿qué
representa que β 0=0 ?

( n−2 ) σ^ 2 2
b) Pruebe que si 2
X n−2, el intervalo de confianza de 100(1- α)% para σ 2 es
σ

Carrera: ISC M.C. José de Jesús Jiménez Martínez


10
UNIVERSIDAD AUTÓNOMA DE AGUASCALIENTES INFERENCIA ESTADÍSTICA

( )
( n−2 ) σ^ 2 2 ( n−2 ) σ^ 2
2
≤σ ≤ 2 = (1−α ) %
Xα X α
,n−2 1− ,n−2
2 2

Ejemplo: Considerando los datos del número de horas de estudio de 10 personas para presentar un
examen de francés y sus calificaciones obtenidas:
a) Encuentre la estimación de σ 2
b) Verifique que β 1es significativa, es decir, β 1 ≠ 0
c) ¿el coeficiente de la ordenada al origen es diferente de cero?, compruébelo.
d) Obtenga un intervalo de confianza para β 1 del 96% e interprételo
e) Calcule el intervalo de confianza del 96% para β 0e interprételo
f) ¿cuál es el intervalo de confianza para σ 2 del 96%? Interprételo.
Solución
Para la estimación de la varianza debemos encontrar la suma de cuadrados de los errores y para encontrar
esta suma, debemos de obtener la estimación para cada valor de x, y para la obtener dicha estimación
debemos contar primero con la ecuación de regresión estimada. Los cálculos y valores necesarios, ya se
incluyen en la siguiente tabla:
Horas Calif. ^y i εi 2
εi
i
estudio X prueba Y

1 4 31 -6 -25.4 152.4 36 35.576 -4.576 20.935


2 9 58 -1 1.6 -1.6 1 52.929 5.071 25.712
3 10 65 0 8.6 0.0 0 56.400 8.600 73.960
4 14 73 4 16.6 66.4 16 70.283 2.717 7.382
5 4 37 -6 -19.4 116.4 36 35.576 1.424 2.029
6 7 44 -3 -12.4 37.2 9 45.988 -1.988 3.951
7 12 60 2 3.6 7.2 4 63.341 -3.341 11.166
8 22 91 12 34.6 415.2 144 98.049 -7.049 49.688
9 1 21 -9 -35.4 318.6 81 25.163 -4.163 17.333
10 17 84 7 27.6 193.2 49 80.695 3.305 10.922
Prom 10.0 56.4 Sumas 0.000 1305.0 376 564.000 0.000 223.078

Carrera: ISC M.C. José de Jesús Jiménez Martínez


11
UNIVERSIDAD AUTÓNOMA DE AGUASCALIENTES INFERENCIA ESTADÍSTICA
Estimación de los coeficientes de regresión
^β =3.470 y ^β = y − ^β x=21.693 Gráfica de dispersión entre horas de estudio y la ca-
1 0 1 lificación de la prueba
100
El modelo obtenido o la ecuación de regresión
f(x) = 3.47074468085106 x + 21.6925531914894
estimada es: ^y =21.693+ 3.4707 x 90
80
Con este modelo se encuentra la estimación para
70
cada valor de x, es decir, se obtiene ^y i para cada xi
60
2 1 223.078 50
^ =
a) σ SCE= =27.885
n−2 8 40
Ho: β 1=0
b) Se desea probar 30
Ha: β 1 ≠ 0
20

1
t cal= =12.745ya que 10
se ( β^ ) 1 0


0 5 10 15 20 25


2
σ^ 27.885
s e ( ^β1 ) = = =0.272
n
376
∑ ( xi −x ) 2

i=1
t crit =2.449
Como t cal=12.745>2.449=t crit se rechaza Ho. Es
decir, existe relación lineal entre el número de horas
de estudio y la calificación de la prueba

c) Se desea probar
Ho: β 0 =0
Ha: β 0 ≠ 0
d) ( ^β −t 1 α
2
,n−2
se ( ^β 1) , β^ 1 +t α
2
, n−2 )
se ( β^ 1 ) =( 1−α ) %

^β ( 3.470−2.449∗0.272 , 3.470+2.449∗0.272 )=96 %


0
t cal= =6.791 ya que (2.804,4.138)=96%
se ( β )
^
0 Si se toman 100 muestras, en el 96% de los casos, el valor

√[ ]√
verdadero de la pendiente se encuentra entre (2.804,4.138)
1
s e ( ^β 0) = σ^ 2 +
n n
x2

∑ ( xi −x ) 2
= 27.885 [ 1 100
+
10 376e) ](^β −t
=3.194
0 α
2
,n−2
se ( ^β 0 ) , ^β 0+t α
2
,n−2
se ( ^β 0 ) =( 1−α ) %
)
i=1 ( 21.693−2.449∗3.194 , 3.470+2.449∗0.272 )=96 %
(13.869,29.516)=96%
Además t crit =2.449
Si se toman 100 muestras, en el 96% de los casos, el valor
Como t cal=6.791>2.449=t crit se rechaza Ho. Es verdadero de β 0 se encuentra entre (13.869,29.516)
decir, la ordenada al origen, no pasa por el punto

( )
(0,0) ( n−2 ) σ^ 2 2 ( n−2 ) σ^ 2
f) X 2 ≤σ ≤ 2 = (1−α ) %
α X α
,n−2 1− ,n−2
2 2

( 8∗27.885
16.1708
,
2.5366 )
8∗27.885
=96 % ↔ ( 13.795 , 87.942 )=96 % .
Si se toman 100 muestras, en el 96% de los casos, el valor
verdadero de la varianza se encuentra entre (13.869,29.516)

Análisis de varianza
Se descompondrá la variación total de Y en dos partes, una que se deba a la relación lineal de Y con
X y otra a causas no controlables. Lo ideal es que gran parte de la variación de Y se explique por su
relación lineal con X.

Carrera: ISC M.C. José de Jesús Jiménez Martínez


12
UNIVERSIDAD AUTÓNOMA DE AGUASCALIENTES INFERENCIA ESTADÍSTICA
Considérese la expresión y i− y =( ^y i− y ) + ( y i−^y i ) … I .

Si elevamos al cuadrado ambos lados de la ecuación y sumamos para las n observaciones tenemos
que:
n n n

∑ ( y i− y )2=∑ [ ( ^y i− y ) +( y i−^y i ) ] =∑ [ ( ^y i− y )2 +2 ( ^y i− y ) ( y i −^y i ) +( y i− ^y i )2 ] =¿ ¿


2

i=1 i =1 i=1
n n n

∑ ( ^y i− y )2 +2 ∑ ( ^y i− y ) ( y i− ^y i) +∑ ( y i− ^y i )2…II
i=1 i=1 i=1

Observe que:
n n n n n
2 ∑ ( ^y i− y ) ( y i −^y i )=2 ∑ ^y i ( y i−^y i )−2 y ∑ ( y i− ^y i ) =2 ∑ ^y i ε i−2 y ∑ ε i=0
i=1 i=1 i=1 i =1 i=1

n
Pruebe que ∑ ^yi ε i =0
i=1

n n n
Por tanto II, puede expresarse como: ∑ ( y i− y )2=∑ ( ^y i− y )2 +∑ ( y i −^y i )2
i=1 i =1 i=1
SCT =SCR+SCE

SCT mide la variabilidad total en las observaciones


SCR mide la variabilidad en las observaciones yi explicada por la línea de regresión y
SCE mide la variación residual que queda sin explicar por la línea de regresión

Pruebe que la SCR= ^β 1 SCX


2

La cantidad de grados de libertad se determinan como sigue:


Grados de libertad (SCT) = n-1 se perdió un grado por considerar un valor estimado y
Grados de libertad (SCR) = 1, ya que queda determinada por ^β 1
Grados de libertad (SCE) = n-2 porque se tienen dos restricciones como resultado de estimar ^β 1 y ^β 0.

Carrera: ISC M.C. José de Jesús Jiménez Martínez


13
UNIVERSIDAD AUTÓNOMA DE AGUASCALIENTES INFERENCIA ESTADÍSTICA
n

a) Si definimos
∑ ( y i− y )2 note que CMT, de manera natural, es un estimador de la
CMT = i=1
( n−1 )
n n

varianza y entonces
∑ ( y i− y ) 2 ( n−1 ) ∑ ( yi − y )2
( n−1 ) CMT
i=1 i=1
2
= 2
= 2
X 2n−1
σ ( n−1 ) σ σ
n

b) Si definimos
∑ ( ^y i− y )2 . Note que E [ SCR ] =E [ β^ 2 SCX ]=SCX E [ β^ 2 ]=SCX ¿, entonces
CMR= i=1 1 1
1
n n

∑ ( ^y i− y ) 2 1 ∑ ( ^y i− y )
2

1CMR
i=1 i=1 2
2
= 2
= 2
X1
σ 1σ σ
n

c) De manera similar si definimos


∑ ( y i− y )2 Recuerde que E [ CME ] =E [ σ^ 2 ]=σ 2, entonces
i=1
CME=
( n−2 )
n n

∑ ( y i− ^y i )2 ( n−2 ) ∑ ( y i − y )2
( n−2 ) CME 2
i=1 i=1
2
= 2
= X n−2
σ ( n−2 ) σ σ2

Si probamos la hipótesis Ho : β 1=0 y suponemos de hecho, que es cierta, entonces E [ CMR ] =σ 2.


Observe que tanto CME como CMR estiman a la varianza. Además sabemos que el cociente de los
cuadrados medios independientes tienen distribución F, en particular SCR y SCE son independientes
SCR
1 CMR
(ya lo vimos, ¿porqué?) luego F= = F =Fcrit .
SCE CME α ,1 , n−2
n−2
Luego podemos establecer la regla de decisión: rechazar Ho si Fcal > Fcrit

En resumen, otra prueba para verificar la relación lineal entre la variable dependiente con la variable
Ho : β 1=0
independiente, es a través del análisis de varianza.
Ha: β 1 ≠ 0

Tabla de Análisis de varianza (ANOVA)


Fuente de Suma de Grados de Cuadrados Valor Valor crítico
variación cuadrados libertad medios calculado
Regresión SCR 1 SCR CMR F crit =F α ,1 ,n−2
CMR= F cal=
1 CME
Error SCE n-2 SCE
CME=
n−2
Total SCT n-1

Criterio de decisión: Se rechaza Ho si F cal> F crit

Carrera: ISC M.C. José de Jesús Jiménez Martínez


14
UNIVERSIDAD AUTÓNOMA DE AGUASCALIENTES INFERENCIA ESTADÍSTICA
n

∑ ( ^y i − y )2
2 i=1
La cantidad r = n es la proporción de la variación explicada por el regresor x. A r 2 se le
∑ ( y i − y )2
i=1
llama Coeficiente de determinación.

Note que 0 ≤ r 2 ≤ 1 ¿Por qué? Los valores de r 2 cercanos a 1 indican que la mayor parte de la
variabilidad de y está explicada por el modelo de regresión. Por tal motivo se dice que r 2 es una
medida de la bondad de ajuste del modelo
a) Si r 2 ≥ 0.9 el modelo puede predecir
b) Si 0.7 ≤ r 2 <0.9 el modelo puede explicar
c) Si 0.5 ≤ r 2 <0.7 el modelo es poco confiable,
d) Si 0¿ r 2 <0.5 búsquese otro modelo

Pruebe que r =√ r 2. El coeficiente de correlación es la raíz cuadrada del coeficiente de regresión


Ejemplo: Realice la prueba de análisis de varianza y calcule el coeficiente de determinación del
ejemplo de las horas de estudio y la calificación de la prueba, realice el análisis correspondiente.
Solución
Completando los datos de la tabla, es decir, agregando las componentes de la SCT y de la SCR tenemos:
^y i εi εi
2 2
i
Horas Calif. ( y i− y ) ( ^y i− y )
2

estudio X prueba Y

1 4 31 35.576 -4.576 20.935 645.16 433.658


2 9 58 52.929 5.071 25.712 2.56 12.046
3 10 65 56.400 8.600 73.960 73.96 0.000
4 14 73 70.283 2.717 7.382 275.56 192.737
5 4 37 35.576 1.424 2.029 376.36 433.658
6 7 44 45.988 -1.988 3.951 153.76 108.415
7 12 60 63.341 -3.341 11.166 12.96 48.184
8 22 91 98.049 -7.049 49.688 1197.16 1734.634
9 1 21 25.163 -4.163 17.333 1253.16 975.732
10 17 84 80.695 3.305 10.922 761.76 590.257
Prom 10.0 56.4 564.000 0.000 223.078 4752.40 4529.322

Se prueba la significancia del modelo


Ho : β 1=0
Ha: β 1 ≠ 0
Análisis de Varianza
Fuente de Suma de Grados de Cuadrados Valor calculado Valor crítico
variación cuadrado libertad medios
s
Regresión 4529.322 1 CMR=4529.322 4529.322 F crit =F 0.05,1,8=5.12
F cal= =162.429
27.885
Error 223.078 8 CME=27.885
Total 4752.40 9

Carrera: ISC M.C. José de Jesús Jiménez Martínez


15
UNIVERSIDAD AUTÓNOMA DE AGUASCALIENTES INFERENCIA ESTADÍSTICA
Como F cal=162.429>5.12=F crit se rechaza Ho, es decir, hay relación lineal entre las horas de estudio y las
calificaciones en la prueba

∑ ( ^y i − y )2 4529.322
r 2= i=1 = =0.9351 El modelo explica el 93.51% de la variación de Y. Dado el valor de r 2, el
n
4752.40
∑ ( y i − y )2
i=1
modelo puede ayudarnos incluso a predecir calificaciones de la prueba para horas de estudio distintas a los
datos de la muestra

Inferencia sobre la respuesta media y predicción sobre nuevas observaciones

Inferencia sobre la respuesta media


Además de encontrar una estimación puntual de ^μY ∨x = ^y 0= ^β o + ^β 1 x 0 la media de Y para un valor
0

dado de xo (valor medio de las Y para un valor x0 dado) es útil obtener un intervalo de confianza de
este parámetro, para ello observe que

[ ]
2
1 ( x 0 −x )
2 2
σ σ
V [ ^μY ∨x ]=V [ ^y 0 ] =V [ β^ o + β^ 1 x 0 ] =V [ y− ^β 1 x + ^β 1 x 0 ] =V [ y+ ^β1 ( x 0−x ) ] = +
2
( x0 −x ) =σ 2 +
0
n SCX n SCX
.
Como ^β o y β^ 1 se distribuyen normalmente, entonces ^y 0 también se distribuye normal con media
^β + ^β x y varianza estimada …
o 1 0
n

∑ ( y i− y ) 2
^ [ ^μY ∨x ]= σ^ 2
V 0 [ 1 ( x 0−x ) i=1
n
+
SCX
= ] ( n−2 ) [ 1 ( x 0−x )
+
n SCX ]
En este caso al aplicar el procedimiento de estandarización y la división entre σ^ 2 / σ 2 se llega a la
variable aleatoria t:
^μY ∨x −μY ∨ x
t n−2= 0 0

√[
σ^ 2
1 ( x 0−x )
+
n SCX ]
Por tanto un intervalo de confianza del100(1-α)% de ^μY ∨x es:

( √ √
0

])
n n

∑ 2
∑ 2

[ ] [
( y i− y ) 2 ( y i− y ) 2
i=1 1 ( x 0−x ) i=1 1 ( x 0−x )
^y 0 −t α + , ^y 0 +t α + =( 1−α ) %
2
, n−2 ( n−2 ) n SCX 2
, n−2 ( n−2 ) n SCX
El ancho del intervalo de confianza aumenta a medida que aumenta|x 0−x| esto indica mientras más
alejado se encuentre xo de la media, la calidad de la estimación es menor.

Predicción sobre nuevas observaciones


Una aplicación importante del modelo es predecir nuevas observaciones. Si xo es el valor de interés
de la variable regresora entonces ^y 0= ^βo + β^ 1 x 0 es el estimador puntual del nuevo valor de la
respuesta y 0 . Observe que se trata de la estimación de un valor individual. Como sabemos, se tiene

Carrera: ISC M.C. José de Jesús Jiménez Martínez


16
UNIVERSIDAD AUTÓNOMA DE AGUASCALIENTES INFERENCIA ESTADÍSTICA
mayor probabilidad en la estimación de un valor futuro si se respalda en un intervalo. El intervalo se
denomina Intervalo de predicción para la observación futura y 0

Sea entonces Y = y 0−^y 0, luego E ( Y )=E ( y 0−^y 0 )= y 0− y 0=0 y además

[ ] [ ]
2 2
1 ( x 0 −x ) 1 ( x 0−x ) , porque la observación
V ( Y )=V [ y 0− ^y 0 ] =V [ y 0 ] +V [ ^y 0 ]=σ +σ
2 2 2
+ =σ 1+ +
n SCX n SCX
futura y 0 es independiente de ^y 0

Como ^β o y β^ 1 se distribuyen normalmente, entonces y 0− ^y 0 también se distribuye normal con media


cero y varianza estimada …
n

∑( y i− y )2
[ ] [ ]
2 2
^ 2 1 ( x0 −x ) 1 ( x 0−x )
^
V ( Y )=σ 1+ + = i=1 1+ +
n SCX ( n−2 ) n SCX
En este caso al aplicar el procedimiento de estandarización y la división entre σ^ 2 / σ 2 se llega a la
variable aleatoria t:
Y^ ¿ x −Y ¿ x
t n−2= 0 0

√[ ]
2
1 ( x 0−x )
σ^ 1+ +
2
n SCX

En consecuencia, un intervalo de predicción del 100(1-α)% para una observación futura en xo es:

( √ √ ])
n n

∑ ( y i− y ) 2
∑ 2

[ ] [
2 ( y i− y ) 2
i=1 1 ( x0 −x ) i=1 1 ( x 0−x )
^y 0 −t α 1+ + , ^y 0 +t α 1+ + =( 1−α ) %
2
, n−2 ( n−2 ) n SCX 2
, n−2 ( n−2 ) n SCX
Este intervalo es más ancho que el de confianza en xo porque depende tanto del error del modelo
ajustado como del error asociado a observaciones futuras.

Ejemplo:
a) Obtenga un intervalo de confianza del 95%para estimar la calificación en la prueba si se estudia
en promedio 10 horas.
b) Obtenga un intervalo de predicción del 95%para estimar la calificación en la prueba si se estudia
23 horas
Solución
a) ^y 0=21.693+ 3.741∗( 10 )=56.4 t 0.0025,8 =2.306 x=10

( √ [ ])
2
223.078 1 ( 10−10 ) ( 52.549,60 .251 )=95 %
56.4 ± 2.306 + =95 %
8 10 376
La calificación promedio esperada cuando se estudia 10 horas será de 52.5 a 60.25, en el
95% de las veces
b) ^y 0=21.693+ 3.741∗( 23 ) =101.52 t 0.0025,8=2.306 x=23

( √ [ ])
2
223.078 1 ( 23−10 ) ( 86.36,116 .7 ) =95 %
101.52 ±2.306 1+ + =95 %
8 10 376
La calificación que se sacará una persona cuando estudia 23 horas para la prueba puede ser
de 86.36 a 100, con una seguridad del 95%

Carrera: ISC M.C. José de Jesús Jiménez Martínez


17
UNIVERSIDAD AUTÓNOMA DE AGUASCALIENTES INFERENCIA ESTADÍSTICA

Carrera: ISC M.C. José de Jesús Jiménez Martínez


18

También podría gustarte