ISC INF EST Parte 2

UNIVERSIDAD AUTÓNOMA DE AGUASCALIENTES INFERENCIA ESTADÍSTICA
El Modelo de Regresión Lineal Simple
La Ecuación de regresión
Una de las situaciones más interesantes para el investigador, es poder establecer relaciones que
permitan predecir, una o más variables en términos de otras. Fue en el siglo XIX cuando Francis
Galton pudo establecer una relación entre las estaturas de padres e hijos primogénitos. Tomó una
muestra de 1000 familias y tomó las estaturas de los padres y los hijos y observó con asombro,
que en el caso de padres con estatura mayor, el primogénito tenía una estatura menor y
viceversa, a lo que el denominó se presentaba una “regresión” (retorno) de las estaturas de los
hijos a las de los padres
Formalmente, si tenemos la distribución conjunta de dos variables aleatorias X y Y y se sabe que

X toma el valor de x, el problema básico de regresión bivariada es determinar la media condicional
μY ∨x , es decir, el valor “promedio” de Y para el valor de X dado.
Si f(x,y) es el valor de la densidad conjunta de dos variables aleatorias X y Y en (x,y), entonces,

el problema de la regresión bivariada, es determinar la densidad condicional de Y dada X=x y
después la evaluación de la integral
∞
μY ∨x =E [ Y |x ] = ∫ yf ( y∨x ) dy
−∞
La ecuación resultante recibe el nombre de ecuación de regresión de Y en X.
Ejemplo 1. Dadas las variables aleatorias X y Y que tienen la densidad conjunta
{
−x ( 1+ y )
xe x >0 , y >0
f ( x , y )=
0 en cualquier otra parte
Obtenga la ecuación de regresión de Y en X y trace la curva de regresión
Solución
f (x, y)
Sabemos que f ( y ∨x )=
g(x)
|∞0 =e
∞ ∞ ∞
g ( x )=∫ f ( x , y ) dy=∫ x e dy=−¿ ∫ −x e
−x ( 1+ y ) −x ( 1+ y ) − x (1 + y ) −x
dy =−¿ e ¿¿
−∞ 0 0
x e−x (1 + y ) −x ( 1+ y ) + x − xy 1
La densidad condicional f ( y ∨x )= =x e =x e Si denotamos por β= tenemos
e −x
x
−y
1 β
f ( y ∨x )= e (la densidad de una función exponencial!!!) por lo tanto
β
∞ ∞ −y
1
μY ∨x =E [ Y |x ] = ∫ yf ( y∨x ) dy=∫ y e β
dy=β
−∞ 0 β
La curva solicitada es la siguiente:
Carrera: ISC M.C. José de Jesús Jiménez Martínez

1
Curva de regresión
10
8
6
y
4
1 x
2
0
0 1 2 3 4 5
Ejemplo 2. Si la densidad conjunta de X1, X2 y X3 está dada por
{
−x 3
f ( x 1 , x 2 , x3 ) = ( 1 2 )
x + x e 0< x 1, , x 2 <1 , x 3 >0
Obtenga la ecuación de regresión de X2, en X1 y X3
Solución
1
La densidad marginal conjunta de X1 y X3 está dada por g ( x 1 , x 3 )= ∫ ( x 1 + x 2) e− x d x 2=¿3
( 1
)
x 1 + e− x 0< x 1 , <1 , x 3> 0
2
3
Por lo tanto
1 1
f ( x1 , x2 , x3 ) 1
f ( x 1 , x2 , x3 ) 1
( x1 + x 2 ) e−x 3 1
x2 ( x
μ X ∨X , X =∫ x 2 f ( x2 ∨x1 , x3 ) d x 2=¿∫ x2 d x2 =¿∫ x2 d x2 =¿∫ x 2 d x 2=∫
g ( x1 , x3 ) g ( x1 , x3 )
( x + 12 ) e (x
2 1 3
0 0 0 0 − x3 0
1 1
Curva de regresión
0.66
0.64
0.62
f
0.60
x1 2 3 2x1  1
0.58
0.56
0.0 0.2 0.4 0.6 0.8 1.0
x1
Ejercicios:

2
1. Dada la densidad conjunta f ( x , y )= {0 en cualquier

6 x 0< x< y <1
otra parte
obtenga μY ∨x y μ X ∨ y
{
2x
x >0 , y> 0
2. Dada la densidad conjunta f ( x , y )= ( 1+ x + xy )3 demuestre que
1
μY ∨x =1+ y que Var(Y|x) no existe
x
Regresión Lineal
La ecuación de regresión es lineal si es de la forma μY ∨x =β 0 + β 1 x , a los términos β0 y β1 se les llama
Coeficientes de regresión. Las ecuaciones de regresión lineal son de especial interés porque:
a) Se prestan a un tratamiento matemático más a fondo
b) Ofrece buenas aproximaciones a ecuaciones de regresión
c) En el caso de la distribución normal bivariada, las ecuaciones de regresión son de hecho
normales
Teorema 1:
σY
a) Si la regresión de Y en X es lineal, entonces μY ∨ X =μ Y + ρ ( x−μ X )
σX
σX
b) Si la regresión de X en Y es lineal, entonces μ X ∨Y =μ X + ρ ( y−μY )
σY
Demostración
∞
a) Ya que μY ∨x =β 0 + β 1 x , se tiene que ∫ yf ( y∨x ) dy=β 0 + β 1 x … (A)
−∞
Multiplicando ambos lados por g(x):
∞ ∞ ∞
∬ yf ( y∨x ) g ( x ) dydx=β 0 ∫ g ( x ) dx + β 1 ∫ xg ( x ) dx =β 0+ β 1 μ X Ahora bien

−∞ −∞ −∞
∞ ∞ ∞
f (x, y)
∬ yf ( y∨x ) g ( x ) dydx=∬ y g ( x ) g ( x ) dydx =∬ yf ( x , y ) dydx=μY …( B)
−∞ −∞ −∞
De (A) y (B) se tiene que μY =β 0 + β 1 μ X …(1)
Si ahora multiplicamos (A) por xg(x) tenemos:

∞ ∞ ∞
∬ yxf ( y∨x ) g ( x ) dydx=β 0 ∫ xg ( x ) dx+ β 1 ∫ x 2 g ( x ) dx=β 0 μ X + β 1 E [X 2] Ahora bien

−∞ −∞ −∞
∞ ∞ ∞
f (x, y)
∬ yxf ( y∨x ) g ( x ) dydx=∬ yx g ( x ) g ( x ) dydx=∬ yxf ( x , y ) dydx=E [ XY ]por lo tanto
−∞ −∞ −∞
E [ XY ] =β 0 μ X + β 1 E [ X ] …(2)
2
Si de (1) y (2) despejamos B0, e igualamos las expresiones resultantes, tenemos que:
E[ X ]
2
E [ XY ]
μY −β 1 μ X = −β1 luego
μX μX
β1
E [ X2]
μX
−β 1 μ X =
E [ XY ]
μX
−μY ↔ β 1
[
E [ X 2]
μX
−μ X =
μX ]
E [ XY ]
−μ Y ↔

3
E [ XY ] −μ X μY
COV [ XY ] ρ σ X σ Y ρ σ Y
β 1= = == Sustituyendo en (1) y despejando B0 tenemos:
E [ X ] −μ σX
2 2 2 2
σX X
σX
ρ σY ρσY ρ σY ρσY
β 0=μY − μ X ∴ μY ∨x =μ Y − μX + x=μY + ( x−μ X )
σX σX σX σX
Realice el inciso b) de tarea
NOTA Observe que si ρ=0 entonces μY ∨x no depende de X
Ejercicios:
3. Demuestre que si μY ∨x es lineal en x y VAR(Y|x) es constante, entonces VAR ( Y ∨x ) =σ 2Y ( 1−ρ2 )
σX
4. Pruebe que si la regresión de X en Y es lineal, entonces μ X ∨Y =μ X + ρ ( y−μY )
σY
El modelo de regresión lineal simple

La ecuación de regresión es lineal si es de la forma μY ∨x =β 0 + β 1 x , donde los coeficientes de
regresión β0 y β1 son los parámetros del modelo. El modelo se denomina lineal en términos de estos
parámetros y no en función de la o las variables independientes. Por ejemplo:
y=0+1X Modelo lineal
y=0+1X 2
Modelo lineal
X 2
y=0+1 1 +2 √
X 2 Modelo lineal.
3 3
1
y= β 0 + β X 1 + β 2 (−X 2 ) Modelo no lineal.
En la práctica hay muchos problemas donde un conjunto de datos pareados da la indicación de que la
recta es lineal, donde no conocemos la distribución conjunta de las variables aleatorias consideradas,
pero no obstante deseamos estimar los coeficientes de regresión β0 y β1 a partir de los datos de
muestra.
Los problemas de este tipo suelen manejarse por medio del método de mínimos cuadrados, un
método de ajuste de curvas sugerido originalmente a principios del siglo XIX por el matemático
francés Adrién Legendre
Método de mínimos cuadrados

Lo que se busca es minimizar los errores, luego si se tiene una muestra aleatoria de n pares
^
ordenados (X0,Y0), (X1,Y1),……, (Xn,Yn) y se supone que los estimadores de los parámetros son β 0 y
β^ 1 respectivamente, entonces el i-esimo valor estimado de Y, es decir, ^y i se expresa como
^y i= β^ 0 + ^β 1 x i i = 1,2,...,n.
Sea entonces i = yi -
ŷi , a i se le llama el i-ésimo residual; así las cosas, la suma de todos los errores
es igual a:
n n n n n n
1 n  n n
    y
i 1
i
i 1
i  yˆi    y1  yˆ i   yi  ny   yi  n   yi    yi   yi  0
i 1 i 1 i 1 i 1  n i 1  i 1 i 1
y buscaremos encontrar los errores por medio de los cuadrados de las diferencias y que éste sea
n n
mínimo, es decir, ∑ ε =∑ ( y i−^y i ) ≅ 0
2 2
i
i=1 i=1

4
Este método consiste en minimizar la suma de los cuadrados de las diferencias, es decir, se obtiene
la derivada parcial para cada uno de los parámetros a estimar, cada parcial se iguala a cero y se
soluciona el sistema de ecuaciones correspondiente.
n
  y    1 x1   0
2
1 0
Sea la i 1
2
1  n n n
 
 i 0 1i
y     x 2
 2   yi   0   x
1 i ( 1)  2  yi   0  1 xi  
 0  0 i 1 i 1 i 1
n n n
 n n
 2 y1    0   1 xi   2 yi  2n 0  2 1  xi  0
 i 1 i 1 i 1  i 1 i 1
n n n n
1 1
Luego n β 0=∑ y i −β1 ∑ x i ↔ β 0= ∑ y i −β1 ∑ x i= y −β1 x ∴ ^β0 = y− β^ 1 x
i=1 i=1 n i=1 n i=1
[∑ ]
2 n n n n n n n
∂ε ∂
= ∑
∂ β1 ∂ β1 i=1
⌊ y i−( β 0+ β 1 xi ) ⌋ =−2 ∑ ⌊ y i−( β 0 + β 1 x i ) ⌋ x i=−2
2
y i x i−β o ∑ xi −β 1 ∑ x i =0 ↔ ^β1 ∑ x i2=∑ y
2
i=1 i =1 i=1 i=1 i=1 i=1
Por lo tanto, el modelo de regresión o la ecuación de mínimos cuadrados es de la forma: ^y = β^ 0 + β^ 1 x
n n
∑ xi y i−n xy ∑ ( x i−x ) ( y i− y )
Demuestre que la expresión ^β 1= n
i=1 i=1
= n
∑ xi2 −n x2 ∑ ( x i−x )2
i=1 i=1
Interpretación de los coeficientes de regresión

La pendiente ^β 1indica el cambio promedio en la variable de respuesta cuando la variable predictora
aumenta en una unidad adicional. Siempre tiene interpretación válida.
El intercepto ^β 0 indica el valor promedio de la variable de respuesta cuando la variable predictora vale
0. Sin embargo, carece de interpretación práctica si es irrazonable pensar que el rango de valores de
x incluye a cero.
Ejemplo: Consideremos los siguientes datos acerca del número de horas de estudio de 10 personas
para presentar un examen de francés y sus calificaciones obtenidas
Horas de Calificación en
estudio X la Prueba Y
4 31
9 58
10 65
14 73
4 37
7 44
12 60
22 91
1 21
17 84

5
Obtenga la ecuación de regresión aplicando mínimos cuadrados
Solución
Antes que nada, lo recomendable es construir siempre un diagrama de dispersión, para darnos una idea de lo
que podríamos esperar
Horas de estudio y calificación en la prueba Se aprecia la evidencia de una relación lineal entre las
horas de estudio y la calificación de la prueba.
90
Encontremos el modelo de regresión aplicando el

método de mínimos cuadrados.
80
70
∑ ( x i−x ) ( y i− y ) 1305
60
^β 1= i=1 = =3.4707
cal
n
376
∑ ( xi −x )2
50
i =1
40
La calificación de la prueba incrementará en 3.47

puntos por cada hora de estudio adicional.
30
^β 0= y − ^β 1 x=56.4−3.4707∗10=21.693
20
5 10 15 20 Se tendrá una calificación del 21.69 puntos si no se le

dedica ni una hora de estudio.
horas
El modelo obtenido o la ecuación de regresión

estimada es: ^y =21.693+ 3.4707 x
Propiedades de los estimadores de mínimos cuadrados

El modelo muestral de regresión escrito en términos de los n pares de datos, y i =β 0 + β 1 x i +ε i con
i = 1,2,...,n, tiene asociada una componente ε i asociada al error aleatorio, por tanto es una variable;
supongamos además que:
a) E [ ε i ]=0Los errores tienen promedio cero
b) V [ ε i ]=σ Los errores tienen varianza σ 2desconocida
2
c) COV ( ε i , ε j )=0 i≠j Los errores no están correlacionados
Luego:
E [ y i ]=E [ β 0 + β 1 x i+ ε i ]=β 0 + β 1 x i
V [ y i ] =V [ β 0+ β1 xi + ε i ]=V [ ε i ] =σ 2
Con estos elementos podemos ver algunas propiedades, como:

a) E [ ^β 1 ]=β 1
2
σ
V [ ^β 1 ]= n
b)
∑ ( x i−x )2
i=1
c) E [ ^β 0 ]=β 0

6
[ ]
1 x2
V [ ^β 0 ]=σ
2
+
d) n n
∑ ( x i−x )2
i=1
Prueba
n n n n
∑ ( x i−x ) ( y i− y ) ∑ ( xi −x ) y i− y ∑ ( x i− x ) ∑ ( x i−x ) y i
a) Observe que ^β1 =
i=1 i =1 i=1
n
= n
= i=1n , entonces :
∑ ( x i−x ) 2
∑ ( xi −x ) 2
∑ ( x i−x ) 2
i=1 i =1 i=1
n n
∑ ( x i−x ) E[ y ¿¿ i] ∑ ( x i−x ) ¿ E [β 0 + β 1 x i ¿ ] n n
[ ]
n
i=1
n
= i=1 n
=β 0 ∑ ( x i−x ) ¿+ β 1 ∑ ( x i−x ) x i
∑ ( x i−x ) y i ∑ ( xi −x ) 2
∑ ( x i−x )2 i=1 i=1
β1∑
E [ ^β 1 ]=E
i=1 i=1 i=1 i=
n
= n
= n
∑ ( x i−x )2 ∑ ( x i−x )2 ∑
i=1 i=1 i=
n n
Pruebe que ∑ ( xi −x ) x i=∑ ( x i− x )
2
[ ][
i=1 i=1
n n
∑ ( x i−x ) y i ∑ ( x i−x )2 σ
2
b) V [ ^β 1 ]=V V [ y i ]=
i=1 i=1
=
]
n n 2 n
∑ ( xi −x ) 2
∑ ( xi −x ) 2
∑ ( xi −x )2
i=1 i=1 i =1
[ ]
n n n
1 1 1
c) E [ ^β 0 ]=E [ y− ^β 1 x ]=E ∑ y i− β^ 1 x = ∑ E [ y i ] −β 1 x = ∑ E [ β 0+ β1 x i ] −β 1 x=¿
n i=1 n i=1 n i=1
β 0 + β 1 x−β 1 x =β 0
[ ]
2 2 2 2
σ σ σ 1 x
V [ ^β 0 ]=V [ y − ^β1 x ]=V [ y ] + V [ β^ 1 x ]= + x V [ ^β1 ] = + x
2 2 2
=σ +
d) n n n
n n
∑ ( x i−x ) 2
∑ ( x i−x )2
i=1 i=1
Debemos probar que cov( y , ^

β1 ¿=0
^β =∑ c y donde c =¿ ( i )
n
x −x
1 i i i n
¿
Sea . Luego cov(
∑ ( xi −x )
i=1 2
i =1
( ) ()
n
n n n
1 c
y , ^β1 ¿=cov ∑ y i , ∑ c i y i =∑ ∑ i cov ( y i , y j ) =0 i≠ j ya que la muestra es aleatoria.
n i=1 i=1 i=1 j=1 n
∴ cov ( y , β^ 1 ) =0.
Se observa que σ 2es desconocida y para completar el análisis requerimos encontrar un estimador de
la varianza. ¿cómo le hacemos? En el modelo utilizamos ^y ipara estimar E[ y i ¿ entonces es natural
n
tomar una estimación de σ 2 en términos de ∑ ( y i−^y i ) =SCE=Suma de Cuadrados del error
2
i=1

7
2 2 1
Pruebe que σ^ =s = SCE es un estimador insesgado de σ 2
n−2
Inferencia en un Modelo de Regresión Lineal Simple

2 2 1
σ^ =s = SCE también se denomina el cuadrado medio del error, o cuadrado medio residual. La
n−2
raíz cuadrada de σ^ 2 se llama Error estándar de la regresión. Como σ^ 2depende de la suma de
cuadrados de los residuales, cualquier violación sobre los supuestos de los errores del modelo,
pueden dañar seriamente la utilidad de σ^ 2 como estimador de σ 2. Se dice también que σ^ 2es un
estimador dependiente del modelo. De nuestros resultados del curso de inferencia estadística,
( n−2 ) σ^ 2 2
sabemos que 2
X n−2
σ
El método de mínimos cuadrados se puede aplicar para estimar los parámetros en un modelo de
regresión lineal, independientemente de la distribución de los errores. Con los mínimos cuadrados se
obtienen los mejores estimadores lineales insesgados de los parámetros. Sin embargo, para
desarrollar pruebas de hipótesis e intervalos de confianza debemos suponer que los errores tienen
una distribución conocida.
El nuevo supuesto es entonces, que los errores tienen distribución normal con media cero y varianza
2
σ . Entonces, ¿qué pasa con los estimadores de los parámetros del modelo de regresión lineal?
Análisis de regresión normal

Bajo el supuesto de que cada ε i N ( 0 , σ 2 )entonces y i N ( β0 + β 1 xi , σ ) Para encontrar entonces los
2
estimadores de β 0 , β 1 , y σ 2 debemos aplicar el método de máxima verosimilitud.

( ) Como la única varianza es la correspondiente a y , denotaremos a
2
−1 yi − ( β 0+ β1 x i )
Sea f ( y i∨xi ) = 1 2 σY
e i
2 π σY
σ como σ Y .
Ahora diferenciaremos parcialmente la función de verosimilitud (mejor su logaritmo, que es más fácil)
con respecto a β 0 , β 1 , y σ, igualamos las expresiones a cero y después resolvemos el sistema de
ecuaciones resultantes.
La función de logverosimilitud es de la forma:

n
n 1 2
lnL=−nlnσ − ln2 π− 2 ∑ [ y i −( β 0+ β1 x i) ] . Derivando parcialmente, tenemos:
2 2 σ i=1
n n n n n n
∂lnL 1 1 1
= 2 ∑ [ y i −( β 0+ β1 x i) ]=0 ↔ ∑ β 0=∑ y i−β 1 ∑ x i ↔ β0 = ∑ y i−β 1 ∑ x i ↔
∂ β 0 σ i=1 i=1 i=1 i=1 n i=1 n i=1
^β 0= y − ^β 1 x
n n n n n n n n
∂lnL 1
= 2 ∑ [ y i −( β 0+ β1 x i) ] x i=0↔ β^ 1 ∑ x i =∑ y i xi − β^ o ∑ x i=∑ xi y i−( y− β^ 1 x ) ∑ x i=∑ x i yi − y ∑ xi + β^ 1 x ∑
2
∂ β 1 σ i=1 i=1 i=1 i=1 i=1 i=1 i=1 i=1 i
n
∑ x i y i −n xy
[ ]
n n
^β 1 ∑ xi −n x =∑ x i y i−n xy ∴ β^ 1= i=1n
2 2
i=1 i=1
∑ x i2−n x 2
i=1

8
n
∂lnL −n 1 2
= + 3 ∑ [ y i−( β0 + β 1 x i ) ] =0 Reemplazando β 0 y β 1 por ^β oy ^β 1 respectivamente:
∂σ σ σ i=1
√
n n
∂lnL 2 1 2
∂σ
[ ]
=−n σ 2+ ∑ y i−( ^βo + β^ 1 xi ) =0 ↔ σ^ = ∑ y i−( ^β o + ^β 1 x i )
i=1 n i=1
[ ]
Este resultado es importantísimo, ya que podemos establecer que:
( )
^β N β , σ2
1 1 n
a)
∑ ( x i−x )2
i=1
( [ ])
2
^β N β , σ 2 1 + x
o 0
b) n n
∑ ( x i−x )2
i=1
( n−2 ) σ^ 2 2
c) X n−2
σ2
Observe que los estimadores de los coeficientes de regresión son los mismos que los obtenidos a
través del método de mínimos cuadrados. El estimador obtenido de la varianza, es una estimador
2 2 1
sesgado. El estimador insesgado es σ^ =s = SCE .
n−2
Los estimadores de máxima verosimilitud tienen mejores propiedades que los estimadores de
mínimos cuadrados:
a) Son insesgados, incluyendo σ^ 2 que es asintóticamente insesgado
b) Tienen varianza mínima
c) Son consistentes
d) Son suficientes
Inferencia para los coeficientes de regresión
Prueba de hipótesis para β 1

Suponga que se desea probar la hipótesis de que la pendiente es igual a una constante, por ejemplo
Ho: β1= β10
a β 10 .Las hipótesis correspondientes son : y como conocemos la distribución de ^β 1
Ha : β 1 ≠ β 10
β^ 1−β 10
Z 0= N ( 0 , 1)
√
2
entonces el estadístico σ .
n
∑ ( x i−x ) 2
i=1

9
2
Sin embargo al desconocer σ , la distribución correspondiente es:
^β −β
1 10
√
2
σ
n
Z
∑ ( xi −x ) 2 ^β −β el denominador del estadístico t0 se llama error estándar
i =1 1 10
t 0= = =
√ √ √
2
X n−2 ( n−2 ) σ^ 2 σ^
2
2 n
n−2 σ ( n−2 )
∑ ( x i−x )2
i=1
estimado o error estándar de la pendiente y se denota
√
n
∑ ( y i−^y i )2
√ ( )
σ^
2
1
se ( β^ 1 ) = n
= i=1
n
.
n−2
∑ ( x i−x ) 2
∑ ( xi −x ) 2
i=1 i=1
Ho se rechaza si |t 0|>t α ,n−2

2
Ho : β 1=0
En particular, si lo que se desea probar es la hipótesis , se está probando la significancia de
Ha: β 1 ≠ 0
la regresión, es decir, el no rechazar Ho implica que no hay relación lineal entre X y Y. En cambio, si
se rechaza Ho, esto indica que x sí tiene valor para explicar la variabilidad de Y. Y el estadístico de
^β
1
prueba es
se ( β^ 1 )
Intervalo de confianza para β 1
La amplitud de un intervalo de confianza es una medida de la calidad general de la recta de
regresión. Si los errores se distribuyen en forma normal e independiente, entonces la distribución de
^β1 −β1
muestreo de t n−2. Luego, un intervalo de confianza de 100(1-α)% para la pendiente β 1 es de
se ( ^β ) 1
^
( ^ ^
2
^
la forma β 1−t α ,n−2 se ( β 1) , β 1 +t α , n−2 se ( β 1 ) =( 1−α ) %
2
)
Si hubiera que tomar muestras repetidas del mismo tamaño a los mismos valores de xi, y formar
intervalos de confianza de 100(1-α)% de la pendiente para cada muestra, entonces el 100(1-α)% de
esos intervalos contendrán el verdadero valor de β 1.
Ejercicios:
a) Siguiendo el procedimiento empleado para la pendiente, establezca la hipótesis estadística para
la ordenada al origen β 0 ,el estadístico de prueba y el intervalo de confianza al 100(1- α)%. ¿qué
representa que β 0=0 ?
( n−2 ) σ^ 2 2
b) Pruebe que si 2
X n−2, el intervalo de confianza de 100(1- α)% para σ 2 es
σ

10
( )
( n−2 ) σ^ 2 2 ( n−2 ) σ^ 2
2
≤σ ≤ 2 = (1−α ) %
Xα X α
,n−2 1− ,n−2
2 2
Ejemplo: Considerando los datos del número de horas de estudio de 10 personas para presentar un
examen de francés y sus calificaciones obtenidas:
a) Encuentre la estimación de σ 2
b) Verifique que β 1es significativa, es decir, β 1 ≠ 0
c) ¿el coeficiente de la ordenada al origen es diferente de cero?, compruébelo.
d) Obtenga un intervalo de confianza para β 1 del 96% e interprételo
e) Calcule el intervalo de confianza del 96% para β 0e interprételo
f) ¿cuál es el intervalo de confianza para σ 2 del 96%? Interprételo.
Solución
Para la estimación de la varianza debemos encontrar la suma de cuadrados de los errores y para encontrar
esta suma, debemos de obtener la estimación para cada valor de x, y para la obtener dicha estimación
debemos contar primero con la ecuación de regresión estimada. Los cálculos y valores necesarios, ya se
incluyen en la siguiente tabla:
Horas Calif. ^y i εi 2
εi
i
estudio X prueba Y
1 4 31 -6 -25.4 152.4 36 35.576 -4.576 20.935

2 9 58 -1 1.6 -1.6 1 52.929 5.071 25.712
3 10 65 0 8.6 0.0 0 56.400 8.600 73.960
4 14 73 4 16.6 66.4 16 70.283 2.717 7.382
5 4 37 -6 -19.4 116.4 36 35.576 1.424 2.029
6 7 44 -3 -12.4 37.2 9 45.988 -1.988 3.951
7 12 60 2 3.6 7.2 4 63.341 -3.341 11.166
8 22 91 12 34.6 415.2 144 98.049 -7.049 49.688
9 1 21 -9 -35.4 318.6 81 25.163 -4.163 17.333
10 17 84 7 27.6 193.2 49 80.695 3.305 10.922
Prom 10.0 56.4 Sumas 0.000 1305.0 376 564.000 0.000 223.078

11
Estimación de los coeficientes de regresión
^β =3.470 y ^β = y − ^β x=21.693 Gráfica de dispersión entre horas de estudio y la ca-
1 0 1 lificación de la prueba
100
El modelo obtenido o la ecuación de regresión
f(x) = 3.47074468085106 x + 21.6925531914894
estimada es: ^y =21.693+ 3.4707 x 90
80
Con este modelo se encuentra la estimación para
70
cada valor de x, es decir, se obtiene ^y i para cada xi
60
2 1 223.078 50
^ =
a) σ SCE= =27.885
n−2 8 40
Ho: β 1=0
b) Se desea probar 30
Ha: β 1 ≠ 0
20
^β
1
t cal= =12.745ya que 10
se ( β^ ) 1 0
√
0 5 10 15 20 25
√
2
σ^ 27.885
s e ( ^β1 ) = = =0.272
n
376
∑ ( xi −x ) 2
i=1
t crit =2.449
Como t cal=12.745>2.449=t crit se rechaza Ho. Es
decir, existe relación lineal entre el número de horas
de estudio y la calificación de la prueba
c) Se desea probar
Ho: β 0 =0
Ha: β 0 ≠ 0
d) ( ^β −t 1 α
2
,n−2
se ( ^β 1) , β^ 1 +t α
2
, n−2 )
se ( β^ 1 ) =( 1−α ) %
^β ( 3.470−2.449∗0.272 , 3.470+2.449∗0.272 )=96 %

0
t cal= =6.791 ya que (2.804,4.138)=96%
se ( β )
^
0 Si se toman 100 muestras, en el 96% de los casos, el valor
√[ ]√
verdadero de la pendiente se encuentra entre (2.804,4.138)
1
s e ( ^β 0) = σ^ 2 +
n n
x2
∑ ( xi −x ) 2
= 27.885 [ 1 100
+
10 376e) ](^β −t
=3.194
0 α
2
,n−2
se ( ^β 0 ) , ^β 0+t α
2
,n−2
se ( ^β 0 ) =( 1−α ) %
)
i=1 ( 21.693−2.449∗3.194 , 3.470+2.449∗0.272 )=96 %
(13.869,29.516)=96%
Además t crit =2.449
Si se toman 100 muestras, en el 96% de los casos, el valor
Como t cal=6.791>2.449=t crit se rechaza Ho. Es verdadero de β 0 se encuentra entre (13.869,29.516)
decir, la ordenada al origen, no pasa por el punto
( )
(0,0) ( n−2 ) σ^ 2 2 ( n−2 ) σ^ 2
f) X 2 ≤σ ≤ 2 = (1−α ) %
α X α
,n−2 1− ,n−2
2 2
( 8∗27.885
16.1708
,
2.5366 )
8∗27.885
=96 % ↔ ( 13.795 , 87.942 )=96 % .
Si se toman 100 muestras, en el 96% de los casos, el valor
verdadero de la varianza se encuentra entre (13.869,29.516)
Análisis de varianza
Se descompondrá la variación total de Y en dos partes, una que se deba a la relación lineal de Y con
X y otra a causas no controlables. Lo ideal es que gran parte de la variación de Y se explique por su
relación lineal con X.

12
Considérese la expresión y i− y =( ^y i− y ) + ( y i−^y i ) … I .
Si elevamos al cuadrado ambos lados de la ecuación y sumamos para las n observaciones tenemos
que:
n n n
∑ ( y i− y )2=∑ [ ( ^y i− y ) +( y i−^y i ) ] =∑ [ ( ^y i− y )2 +2 ( ^y i− y ) ( y i −^y i ) +( y i− ^y i )2 ] =¿ ¿

2
i=1 i =1 i=1
n n n
∑ ( ^y i− y )2 +2 ∑ ( ^y i− y ) ( y i− ^y i) +∑ ( y i− ^y i )2…II
i=1 i=1 i=1
Observe que:
n n n n n
2 ∑ ( ^y i− y ) ( y i −^y i )=2 ∑ ^y i ( y i−^y i )−2 y ∑ ( y i− ^y i ) =2 ∑ ^y i ε i−2 y ∑ ε i=0
i=1 i=1 i=1 i =1 i=1
n
Pruebe que ∑ ^yi ε i =0
i=1
n n n
Por tanto II, puede expresarse como: ∑ ( y i− y )2=∑ ( ^y i− y )2 +∑ ( y i −^y i )2
i=1 i =1 i=1
SCT =SCR+SCE
SCT mide la variabilidad total en las observaciones

SCR mide la variabilidad en las observaciones yi explicada por la línea de regresión y
SCE mide la variación residual que queda sin explicar por la línea de regresión
Pruebe que la SCR= ^β 1 SCX

2
La cantidad de grados de libertad se determinan como sigue:

Grados de libertad (SCT) = n-1 se perdió un grado por considerar un valor estimado y
Grados de libertad (SCR) = 1, ya que queda determinada por ^β 1
Grados de libertad (SCE) = n-2 porque se tienen dos restricciones como resultado de estimar ^β 1 y ^β 0.

13
n
a) Si definimos
∑ ( y i− y )2 note que CMT, de manera natural, es un estimador de la
CMT = i=1
( n−1 )
n n
varianza y entonces
∑ ( y i− y ) 2 ( n−1 ) ∑ ( yi − y )2
( n−1 ) CMT
i=1 i=1
2
= 2
= 2
X 2n−1
σ ( n−1 ) σ σ
n
b) Si definimos
∑ ( ^y i− y )2 . Note que E [ SCR ] =E [ β^ 2 SCX ]=SCX E [ β^ 2 ]=SCX ¿, entonces
CMR= i=1 1 1
1
n n
∑ ( ^y i− y ) 2 1 ∑ ( ^y i− y )
2
1CMR
i=1 i=1 2
2
= 2
= 2
X1
σ 1σ σ
n
c) De manera similar si definimos

∑ ( y i− y )2 Recuerde que E [ CME ] =E [ σ^ 2 ]=σ 2, entonces
i=1
CME=
( n−2 )
n n
∑ ( y i− ^y i )2 ( n−2 ) ∑ ( y i − y )2
( n−2 ) CME 2
i=1 i=1
2
= 2
= X n−2
σ ( n−2 ) σ σ2
Si probamos la hipótesis Ho : β 1=0 y suponemos de hecho, que es cierta, entonces E [ CMR ] =σ 2.

Observe que tanto CME como CMR estiman a la varianza. Además sabemos que el cociente de los
cuadrados medios independientes tienen distribución F, en particular SCR y SCE son independientes
SCR
1 CMR
(ya lo vimos, ¿porqué?) luego F= = F =Fcrit .
SCE CME α ,1 , n−2
n−2
Luego podemos establecer la regla de decisión: rechazar Ho si Fcal > Fcrit
En resumen, otra prueba para verificar la relación lineal entre la variable dependiente con la variable
Ho : β 1=0
independiente, es a través del análisis de varianza.
Ha: β 1 ≠ 0
Tabla de Análisis de varianza (ANOVA)

Fuente de Suma de Grados de Cuadrados Valor Valor crítico
variación cuadrados libertad medios calculado
Regresión SCR 1 SCR CMR F crit =F α ,1 ,n−2
CMR= F cal=
1 CME
Error SCE n-2 SCE
CME=
n−2
Total SCT n-1
Criterio de decisión: Se rechaza Ho si F cal> F crit

14
n
∑ ( ^y i − y )2
2 i=1
La cantidad r = n es la proporción de la variación explicada por el regresor x. A r 2 se le
∑ ( y i − y )2
i=1
llama Coeficiente de determinación.
Note que 0 ≤ r 2 ≤ 1 ¿Por qué? Los valores de r 2 cercanos a 1 indican que la mayor parte de la
variabilidad de y está explicada por el modelo de regresión. Por tal motivo se dice que r 2 es una
medida de la bondad de ajuste del modelo
a) Si r 2 ≥ 0.9 el modelo puede predecir
b) Si 0.7 ≤ r 2 <0.9 el modelo puede explicar
c) Si 0.5 ≤ r 2 <0.7 el modelo es poco confiable,
d) Si 0¿ r 2 <0.5 búsquese otro modelo
Pruebe que r =√ r 2. El coeficiente de correlación es la raíz cuadrada del coeficiente de regresión

Ejemplo: Realice la prueba de análisis de varianza y calcule el coeficiente de determinación del
ejemplo de las horas de estudio y la calificación de la prueba, realice el análisis correspondiente.
Solución
Completando los datos de la tabla, es decir, agregando las componentes de la SCT y de la SCR tenemos:
^y i εi εi
2 2
i
Horas Calif. ( y i− y ) ( ^y i− y )
2
estudio X prueba Y
1 4 31 35.576 -4.576 20.935 645.16 433.658

2 9 58 52.929 5.071 25.712 2.56 12.046
3 10 65 56.400 8.600 73.960 73.96 0.000
4 14 73 70.283 2.717 7.382 275.56 192.737
5 4 37 35.576 1.424 2.029 376.36 433.658
6 7 44 45.988 -1.988 3.951 153.76 108.415
7 12 60 63.341 -3.341 11.166 12.96 48.184
8 22 91 98.049 -7.049 49.688 1197.16 1734.634
9 1 21 25.163 -4.163 17.333 1253.16 975.732
10 17 84 80.695 3.305 10.922 761.76 590.257
Prom 10.0 56.4 564.000 0.000 223.078 4752.40 4529.322
Se prueba la significancia del modelo

Ho : β 1=0
Ha: β 1 ≠ 0
Análisis de Varianza
Fuente de Suma de Grados de Cuadrados Valor calculado Valor crítico
variación cuadrado libertad medios
s
Regresión 4529.322 1 CMR=4529.322 4529.322 F crit =F 0.05,1,8=5.12
F cal= =162.429
27.885
Error 223.078 8 CME=27.885
Total 4752.40 9

15
Como F cal=162.429>5.12=F crit se rechaza Ho, es decir, hay relación lineal entre las horas de estudio y las
calificaciones en la prueba
∑ ( ^y i − y )2 4529.322
r 2= i=1 = =0.9351 El modelo explica el 93.51% de la variación de Y. Dado el valor de r 2, el
n
4752.40
∑ ( y i − y )2
i=1
modelo puede ayudarnos incluso a predecir calificaciones de la prueba para horas de estudio distintas a los
datos de la muestra
Inferencia sobre la respuesta media y predicción sobre nuevas observaciones
Inferencia sobre la respuesta media

Además de encontrar una estimación puntual de ^μY ∨x = ^y 0= ^β o + ^β 1 x 0 la media de Y para un valor
0
dado de xo (valor medio de las Y para un valor x0 dado) es útil obtener un intervalo de confianza de
este parámetro, para ello observe que
[ ]
2
1 ( x 0 −x )
2 2
σ σ
V [ ^μY ∨x ]=V [ ^y 0 ] =V [ β^ o + β^ 1 x 0 ] =V [ y− ^β 1 x + ^β 1 x 0 ] =V [ y+ ^β1 ( x 0−x ) ] = +
2
( x0 −x ) =σ 2 +
0
n SCX n SCX
.
Como ^β o y β^ 1 se distribuyen normalmente, entonces ^y 0 también se distribuye normal con media
^β + ^β x y varianza estimada …
o 1 0
n
∑ ( y i− y ) 2
^ [ ^μY ∨x ]= σ^ 2
V 0 [ 1 ( x 0−x ) i=1
n
+
SCX
= ] ( n−2 ) [ 1 ( x 0−x )
+
n SCX ]
En este caso al aplicar el procedimiento de estandarización y la división entre σ^ 2 / σ 2 se llega a la
variable aleatoria t:
^μY ∨x −μY ∨ x
t n−2= 0 0
√[
σ^ 2
1 ( x 0−x )
+
n SCX ]
Por tanto un intervalo de confianza del100(1-α)% de ^μY ∨x es:
( √ √
0
])
n n
∑ 2
∑ 2
[ ] [
( y i− y ) 2 ( y i− y ) 2
i=1 1 ( x 0−x ) i=1 1 ( x 0−x )
^y 0 −t α + , ^y 0 +t α + =( 1−α ) %
2
, n−2 ( n−2 ) n SCX 2
, n−2 ( n−2 ) n SCX
El ancho del intervalo de confianza aumenta a medida que aumenta|x 0−x| esto indica mientras más
alejado se encuentre xo de la media, la calidad de la estimación es menor.
Predicción sobre nuevas observaciones

Una aplicación importante del modelo es predecir nuevas observaciones. Si xo es el valor de interés
de la variable regresora entonces ^y 0= ^βo + β^ 1 x 0 es el estimador puntual del nuevo valor de la
respuesta y 0 . Observe que se trata de la estimación de un valor individual. Como sabemos, se tiene

16
mayor probabilidad en la estimación de un valor futuro si se respalda en un intervalo. El intervalo se
denomina Intervalo de predicción para la observación futura y 0
Sea entonces Y = y 0−^y 0, luego E ( Y )=E ( y 0−^y 0 )= y 0− y 0=0 y además
[ ] [ ]
2 2
1 ( x 0 −x ) 1 ( x 0−x ) , porque la observación
V ( Y )=V [ y 0− ^y 0 ] =V [ y 0 ] +V [ ^y 0 ]=σ +σ
2 2 2
+ =σ 1+ +
n SCX n SCX
futura y 0 es independiente de ^y 0
Como ^β o y β^ 1 se distribuyen normalmente, entonces y 0− ^y 0 también se distribuye normal con media

cero y varianza estimada …
n
∑( y i− y )2
[ ] [ ]
2 2
^ 2 1 ( x0 −x ) 1 ( x 0−x )
^
V ( Y )=σ 1+ + = i=1 1+ +
n SCX ( n−2 ) n SCX
En este caso al aplicar el procedimiento de estandarización y la división entre σ^ 2 / σ 2 se llega a la
variable aleatoria t:
Y^ ¿ x −Y ¿ x
t n−2= 0 0
√[ ]
2
1 ( x 0−x )
σ^ 1+ +
2
n SCX
En consecuencia, un intervalo de predicción del 100(1-α)% para una observación futura en xo es:
( √ √ ])
n n
∑ ( y i− y ) 2
∑ 2
[ ] [
2 ( y i− y ) 2
i=1 1 ( x0 −x ) i=1 1 ( x 0−x )
^y 0 −t α 1+ + , ^y 0 +t α 1+ + =( 1−α ) %
2
, n−2 ( n−2 ) n SCX 2
, n−2 ( n−2 ) n SCX
Este intervalo es más ancho que el de confianza en xo porque depende tanto del error del modelo
ajustado como del error asociado a observaciones futuras.
Ejemplo:
a) Obtenga un intervalo de confianza del 95%para estimar la calificación en la prueba si se estudia
en promedio 10 horas.
b) Obtenga un intervalo de predicción del 95%para estimar la calificación en la prueba si se estudia
23 horas
Solución
a) ^y 0=21.693+ 3.741∗( 10 )=56.4 t 0.0025,8 =2.306 x=10
( √ [ ])
2
223.078 1 ( 10−10 ) ( 52.549,60 .251 )=95 %
56.4 ± 2.306 + =95 %
8 10 376
La calificación promedio esperada cuando se estudia 10 horas será de 52.5 a 60.25, en el
95% de las veces
b) ^y 0=21.693+ 3.741∗( 23 ) =101.52 t 0.0025,8=2.306 x=23
( √ [ ])
2
223.078 1 ( 23−10 ) ( 86.36,116 .7 ) =95 %
101.52 ±2.306 1+ + =95 %
8 10 376
La calificación que se sacará una persona cuando estudia 23 horas para la prueba puede ser
de 86.36 a 100, con una seguridad del 95%

17

18

ISC INF EST Parte 2

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ISC INF EST Parte 2

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD AUTÓNOMA DE AGUASCALIENTES INFERENCIA ESTADÍSTICA

El Modelo de Regresión Lineal Simple

Formalmente, si tenemos la distribución conjunta de dos variables aleatorias X y Y y se sabe que

Si f(x,y) es el valor de la densidad conjunta de dos variables aleatorias X y Y en (x,y), entonces,

Ejemplo 1. Dadas las variables aleatorias X y Y que tienen la densidad conjunta

Carrera: ISC M.C. José de Jesús Jiménez Martínez

Ejemplo 2. Si la densidad conjunta de X1, X2 y X3 está dada por

0.0 0.2 0.4 0.6 0.8 1.0

Carrera: ISC M.C. José de Jesús Jiménez Martínez

1. Dada la densidad conjunta f ( x , y )= {0 en cualquier

∬ yf ( y∨x ) g ( x ) dydx=β 0 ∫ g ( x ) dx + β 1 ∫ xg ( x ) dx =β 0+ β 1 μ X Ahora bien

Si ahora multiplicamos (A) por xg(x) tenemos:

∬ yxf ( y∨x ) g ( x ) dydx=β 0 ∫ xg ( x ) dx+ β 1 ∫ x 2 g ( x ) dx=β 0 μ X + β 1 E [X 2] Ahora bien

Carrera: ISC M.C. José de Jesús Jiménez Martínez

NOTA Observe que si ρ=0 entonces μY ∨x no depende de X

El modelo de regresión lineal simple

Método de mínimos cuadrados

Carrera: ISC M.C. José de Jesús Jiménez Martínez

i=1 i =1 i=1 i=1 i=1 i=1

Por lo tanto, el modelo de regresión o la ecuación de mínimos cuadrados es de la forma: ^y = β^ 0 + β^ 1 x

Interpretación de los coeficientes de regresión

Carrera: ISC M.C. José de Jesús Jiménez Martínez

Encontremos el modelo de regresión aplicando el

La calificación de la prueba incrementará en 3.47

5 10 15 20 Se tendrá una calificación del 21.69 puntos si no se le

El modelo obtenido o la ecuación de regresión

Propiedades de los estimadores de mínimos cuadrados

c) COV ( ε i , ε j )=0 i≠j Los errores no están correlacionados

Con estos elementos podemos ver algunas propiedades, como:

Carrera: ISC M.C. José de Jesús Jiménez Martínez

Debemos probar que cov( y , ^

Carrera: ISC M.C. José de Jesús Jiménez Martínez

Inferencia en un Modelo de Regresión Lineal Simple

Análisis de regresión normal

estimadores de β 0 , β 1 , y σ 2 debemos aplicar el método de máxima verosimilitud.

La función de logverosimilitud es de la forma:

Carrera: ISC M.C. José de Jesús Jiménez Martínez

Inferencia para los coeficientes de regresión

Prueba de hipótesis para β 1

Carrera: ISC M.C. José de Jesús Jiménez Martínez

Ho se rechaza si |t 0|>t α ,n−2

Carrera: ISC M.C. José de Jesús Jiménez Martínez

1 4 31 -6 -25.4 152.4 36 35.576 -4.576 20.935

Carrera: ISC M.C. José de Jesús Jiménez Martínez

^β ( 3.470−2.449∗0.272 , 3.470+2.449∗0.272 )=96 %

Carrera: ISC M.C. José de Jesús Jiménez Martínez

∑ ( y i− y )2=∑ [ ( ^y i− y ) +( y i−^y i ) ] =∑ [ ( ^y i− y )2 +2 ( ^y i− y ) ( y i −^y i ) +( y i− ^y i )2 ] =¿ ¿

SCT mide la variabilidad total en las observaciones

Pruebe que la SCR= ^β 1 SCX

La cantidad de grados de libertad se determinan como sigue:

Carrera: ISC M.C. José de Jesús Jiménez Martínez

c) De manera similar si definimos

Si probamos la hipótesis Ho : β 1=0 y suponemos de hecho, que es cierta, entonces E [ CMR ] =σ 2.

Tabla de Análisis de varianza (ANOVA)

Criterio de decisión: Se rechaza Ho si F cal> F crit

Carrera: ISC M.C. José de Jesús Jiménez Martínez

Pruebe que r =√ r 2. El coeficiente de correlación es la raíz cuadrada del coeficiente de regresión

1 4 31 35.576 -4.576 20.935 645.16 433.658

Se prueba la significancia del modelo

Carrera: ISC M.C. José de Jesús Jiménez Martínez

Inferencia sobre la respuesta media y predicción sobre nuevas observaciones

Inferencia sobre la respuesta media

Predicción sobre nuevas observaciones

Carrera: ISC M.C. José de Jesús Jiménez Martínez