Está en la página 1de 111

Regresión lineal simple

Fernando Madera Martı́nez


Ignacio Osuna Vergara

Departamento de Matemáticas y Estadı́sticas


Universidad de Córdoba

16 de julio de 2020

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 1 / 111


Tabla de contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
Propiedades de los estimadores de mı́nimos cuadrados
2 Pruebas de hipótesis en la regresión lineal simple
Hipótesis parciales
Hipótesis general (Análisis de varianza)
3 Intervalos de confianza
Intervalos de confianza para βb0 y βb1
Intervalos de confianza para la respuesta media
4 Predicción de nuevas observaciones
5 Prueba de falta de ajuste
6 Coeficiente de determinación R2
7 Correlación
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 2 / 111
Introducción

Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
Propiedades de los estimadores de mı́nimos cuadrados
2 Pruebas de hipótesis en la regresión lineal simple
Hipótesis parciales
Hipótesis general (Análisis de varianza)
3 Intervalos de confianza
Intervalos de confianza para βb0 y βb1
Intervalos de confianza para la respuesta media
4 Predicción de nuevas observaciones
5 Prueba de falta de ajuste
6 Coeficiente de determinación R2
7 Correlación
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 3 / 111
Introducción

Introducción

El análisis de regresión es un conjunto de técnicas estadı́sticas que


son usadas para establecer una relación entre una variable cuantitativa
llamada variable dependiente y una o más variables independientes
llamadas variables predictoras.

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 4 / 111


Introducción

Introducción

La ecuación que representa la relación es llamada el modelo de re-


gresión. Algunos ejemplos de modelos de regresión son:
a) La variable de respuesta puede ser la tasa de divorcio en tanto
que una variable predictora puede ser el nivel de ingreso familiar.
b) El precio de una casa puede ser la variable dependiente mientras
que el área, el número de cuartos, el número de baños, o los
años de antiguedad de la casa pueden ser usadas como variables
predictoras.

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 5 / 111


Introducción

Usos del análisis de regresión

Predicción
El objetivo aquı́ es pronosticar valores de la variable de respuesta
para valores futuros de la variables predictoras, es decir para va-
lores más allá de rango de valores de las variables predictoras en
la muestra de entrenamiento.
Descripción
La idea es establecer una ecuación lineal que describa la relación
entre la variable dependiente y las variables predictoras.
Control
Se busca controlar el comportamiento o variación de la variable
de respuesta de acuerdo a los valores que asumen las variables
predictoras. Por ejemplo, cuántas horas deberı́a estudiar como
mı́nimo para sacar 90 puntos o más en un examen.
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 6 / 111
Modelo de regresión Generalidades

Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
Propiedades de los estimadores de mı́nimos cuadrados
2 Pruebas de hipótesis en la regresión lineal simple
Hipótesis parciales
Hipótesis general (Análisis de varianza)
3 Intervalos de confianza
Intervalos de confianza para βb0 y βb1
Intervalos de confianza para la respuesta media
4 Predicción de nuevas observaciones
5 Prueba de falta de ajuste
6 Coeficiente de determinación R2
7 Correlación
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 7 / 111
Modelo de regresión Generalidades

El modelo de Regresión Lineal simple


Para ilustrar el concepto, considére los datos de la siguiente tabla, que consisten
en un proceso de control de calidad donde se obtiene una muestra aleatoria de 8
frascos de un reactivo (en mg) (X) y su correspondiente grado de pureza (Y ).

xi yi
85 2.3
65 1.2
73 1.5
90 1.9
82 1.8
80 2.0
68 1.3
88 2.1

El modelo de regresión lineal supone que la variable aleatoria Y se relaciona con


x por la siguiente relación lineal

E (Y |x) = β0 + β1 x

A la pendiente (β1 ) y a la ordenada (β0 ) se les llama los coeficientes de regresión

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 8 / 111


Modelo de regresión Generalidades

El modelo de Regresión Lineal simple

Lo anterior se puede generalizar mediante un modelo lineal proba-


bilı́stico el cuál supone que el valor esperado de Y es función lineal
de x, pero que el valor real de Y para un valor fijo de x se determina
mediante la función de valor medio (el modelo lineal) más un término
de error aleatorio representado por ε.

Y = β0 + β1 x + ε

El componente aleatorio ε determina las propiedades de la variable


aleatoria Y , y se supone que su distribución es tal que E (ε) = 0 y
V (ε) = σ 2

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 9 / 111


Modelo de regresión Generalidades

El modelo de Regresión Lineal simple

Propiedades
Valor esperado

E (Y ) = E (β0 + β1 x + ε) = β0 + β1 x + E (ε) = β0 + β1 x

Varianza

V (Y ) = V (β0 + β1 x + ε) = V (β0 + β1 x) + V (ε) = 0 + σ 2 = σ 2

El verdadero modelo de regresión poblacional µY |x = β0 + β1 x , que


generalmente es desconocido, es una recta de valores medios, es decir,
la altura de la recta de regresión en cualquier valor de x es el valor
esperado de Y para dicho valor de x.
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 10 / 111
Modelo de regresión Generalidades

El modelo de Regresión Lineal simple

Propiedades
La pendiente β1 representa el cambio en la respuesta promedio de Y para un
cambió unitario en x.
La ordenada β0 representa la respuesta promedio de Y cuando el valor de x
es igual a cero.
La variabilidad de Y en el valor particular de x está determinada por la
varianza del error σ 2 .
Existe una distribución de valores de Y para cada x.
La varianza de la distribución es la misma en cada x.

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 11 / 111


Modelo de regresión Generalidades

El modelo de Regresión Lineal simple

Figura: Observaciones individuales alrededor de la verdadera recta de


regresión.
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 12 / 111
Modelo de regresión Estimación por mı́nimos cuadrados

Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
Propiedades de los estimadores de mı́nimos cuadrados
2 Pruebas de hipótesis en la regresión lineal simple
Hipótesis parciales
Hipótesis general (Análisis de varianza)
3 Intervalos de confianza
Intervalos de confianza para βb0 y βb1
Intervalos de confianza para la respuesta media
4 Predicción de nuevas observaciones
5 Prueba de falta de ajuste
6 Coeficiente de determinación R2
7 Correlación
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 13 / 111
Modelo de regresión Estimación por mı́nimos cuadrados

Estimación por mı́nimos cuadrados


Suponga que se tienen n pares de observaciones (x1 , y1 ) , (x2 , y2 ) , . . . , (xn , yn ).
La siguiente figura muestra el gráfico de dispersión para los datos de cantidad de
reactivo - Grado de pureza, y una posible recta de regresión estimada.

Figura: Desviaciones de los datos del modelo de regresión estimado.

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 14 / 111


Modelo de regresión Estimación por mı́nimos cuadrados

Estimación por mı́nimos cuadrados

Las estimaciones de β0 y β1 deberán de alguna manera dar como


resultado la recta de “mejor ajuste” para los datos. Karl Gauss propuso
estimar los parámetros β0 y β1 mediante la minimización de la suma
de cuadrados de las desviaciones (εi ) del modelo; a este método se le
conoce como el método de mı́nimos cuadrados.

Usando la ecuación del modelo lineal probabilı́stico, las n observaciones


de la muestra pueden expresarse como

yi = β0 + β1 xi + εi , i = 1, 2, . . . , n

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 15 / 111


Modelo de regresión Estimación por mı́nimos cuadrados

Estimación por mı́nimos cuadrados


La suma de cuadrados de las desviaciones de las observaciones a la
recta de regresión es
n
X n
X n
X
2
L= ε2i = [yi − E (Yi )] = (yi − β0 − β1 xi )2
i=1 i=1 i=1

Los estimadores de mı́nimos cuadrados de β0 y β1 , denotados por βb0


y βb1 deben satisfacer

n
∂L X 
= −2 yi − βb0 − βb1 xi = 0
∂β0 i=1
n 
∂L X 
= −2 yi − β0 − β1 xi xi = 0
b b
∂β1 i=1
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 16 / 111
Modelo de regresión Estimación por mı́nimos cuadrados

Estimación por mı́nimos cuadrados

Al simplificar las dos ecuaciones se obtiene


n
X n
X
nβb0 + βb1 xi = yi
i=1 i=1
n
X Xn Xn
βb0 xi + βb1 x2i = xi yi
i=1 i=1 i=1

A estas ecuaciones se les llama ecuaciones normales de mı́nimos


cuadrados. Al resolverlas se obtienen los estimadores mı́nimos cua-
drados βb0 y βb1 .

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 17 / 111


Modelo de regresión Estimación por mı́nimos cuadrados

Estimación por mı́nimos cuadrados

Definición
Los estimadores mı́nimos cuadrados de la ordenada al origen y
lapendiente del modelo de regresión lineal simple son

βb0 = y − βb1 x
( ni=1 xi ) ( ni=1 yi )
P P
Pn
i=1 xi yi −
Pn
n xi yi − nxy Sxy
βb1 = Pn 2 = Pi=1
n 2 2 =
Pn 2 ( i=1 xi ) i=1 xi − nx Sxx
i=1 xi −
n
Pn Pn
yi xi
donde y = i=1 y x = i=1
n n

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 18 / 111


Modelo de regresión Estimación por mı́nimos cuadrados

Estimación por mı́nimos cuadrados

De acuerdo con lo anterior, la recta de regresión ajustada es

ybi = βb0 + βb1 xi

Note que par de observaciones satisface la relación

yi = βb0 + βb1 xi + ei , i = 1, 2, . . . , n

donde a ei = yi − ybi se le llama residual y describe el error del ajuste


en el modelo para la observación i.

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 19 / 111


Modelo de regresión Estimación por mı́nimos cuadrados

Regresión lineal simple

Ejemplo 1
Considere los datos de la cantidad de reactivo y el nivel de pureza en
la página 8. Se estimará el modelo de regresión para estos datos.

De la siguiente tabla de tienes los siguientes cálculos:


8
X 8
X
n=8 xi = 631 yi = 14,1 x = 78,875 y = 1,7625
i=1 i=1
8
X 8
X 8
X
x2i = 50371 yi2 = 25,93 xi yi = 1134,8
i=1 i=1 i=1

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 20 / 111


Modelo de regresión Estimación por mı́nimos cuadrados

Regresión lineal simple

Observación Cantidad de Grado de pu-


reactivo reza x2 y2 xy
i x y
1 85 2,3 7225 5,29 195,5
2 65 1,2 4225 1,44 78
3 73 1,5 5329 2,25 109,5
4 90 1,9 8100 3,61 171
5 82 1,8 6724 3,24 147,6
6 80 2 6400 4 160
7 68 1,3 4624 1,69 88,4
8 88 2,1 7744 4,41 184,8
Total 631 14.1 50371 25.93 1134.8

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 21 / 111


Modelo de regresión Estimación por mı́nimos cuadrados

Regresión lineal simple

n
X
Sxy = xi yi − nxy = 1134,8 − 8 (78,875) (1,7625) = 22,6625
i=1
n
X
Sxx = x2i − nx2 = 50371 − 8 (78,875)2 = 600,875
i=1

Con los cáculos anteriores, las estimaciones de mı́nimos cuadrados de la


pendiente y la ordenada al origen son
Sxy 22,6625
βb1 = = = 0,0377
Sxx 600,875
y
βb0 = y − βb1 x = 1,7625 − 0,0377 (78,875) = −1,2111

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 22 / 111


Modelo de regresión Estimación por mı́nimos cuadrados

Regresión lineal simple


El modelo de regresión lineal simple ajustado es

ybi = −1,2111 + 0,0377xi

G.de pureza = −1,2111 + 0,0377 (C.Reactivo)

Figura: Recta de regresión ajustada

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 23 / 111


Modelo de regresión Estimación por mı́nimos cuadrados

Regresión lineal simple

Interpretación
El valor 0,0377 de la pendiente indica que si la candidad de reac-
tivo se incrementa en una unidad, se consigue un incremento del
grado de pureza en 0,0377 unidades.
El valor -1,2111 de la ordenada indica que cuando la cantidad de
reactivo es nula, se estima que el grado de pureza del frasco es
de -1.2111. Este valor puede o no tener sentido dependiento de
la situación.
Para un contenido de reactivo de 75 mg, el grado de pureza de
frasco se estima en 1,6164. Este valor puede interpretarse como
la verdadera pureza promedio cuando x = 75 mg.

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 24 / 111


Modelo de regresión Estimación por mı́nimos cuadrados

Ejemplo 2
En un artı́culo de Concrete Research (“Caracterı́sticas del concreto cerca de la
superficie: Permeabilidad intrı́nseca” Vol 41), se presentaron los datos sobre la
resistencia a la compresión x y la permeabilidad intrı́nseca y de varias mezclas y
curados de concreto. Las cantidades resumidas son:
yi2 = 23530 x2i = 157,42
P P P P P
n = 14 yi = 572 xi = 43 xi yi = 1697,80

a) Calcule las estimaciones de mı́nimos cuadrados de la pendiente y la ordenada


al origen.
b) Use la ecuación de la recta ajustada para estimar la permeabilidad que se
observarı́a cuando la resistencia a la compresión es x = 4,3
c) Dé una estimación puntual de la permeabilidad media cuando la resistencia
a la compresión es x = 3,7
d) Suponga que el valor observado de la permeabilidad para x = 3,7 es y = 46,1.
Calcule el valor del residuo correspondiente.

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 25 / 111


Modelo de regresión Estimación por mı́nimos cuadrados

Regresión lineal simple

Solución
43 572
x= = 3,07 y y=
= 40,86
14 14
n
( ni=1 xi ) ( ni=1 yi )
P P
X (43) (572)
Sxy = x i yi − = 1697,80 − = −59,06
n 14
i=1

n
( ni=1 xi )2 432
X P
Sxx = x2i − = 29,29 − = 25,35
n 14
i=1

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 26 / 111


Modelo de regresión Estimación por mı́nimos cuadrados

Regresión lineal simple

a) Los estimadores de mı́nimos cuadrados para βb1 y βb0 son

Sxy −59,06
βb1 = = = −2,33
Sxx 25,35
y
βb0 = y − βb1 x = 40,86 − (−2,33) (3,07) = 48,01
El modelo estimado es

ybi = 48,01 − 2,33xi

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 27 / 111


Modelo de regresión Estimación por mı́nimos cuadrados

Regresión lineal simple

b) La estimación de la permeabilidad para x = 4,3 es

yb = 48,01 − 2,33 (4,3) = 37,99

c) Para una resistencia a la compresión de x = 3,7, la


permeabilidad media estimada es de 39.39

yb = 48,01 − 2,33 (3,7) = 39,39

d) Suponiendo que el valor observado es y = 46,1, el valor del


residual serı́a

e = y − yb = 46,1 − 39,39 = 6,71

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 28 / 111


Modelo de regresión Propiedades de los estimadores de mı́nimos cuadrados

Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
Propiedades de los estimadores de mı́nimos cuadrados
2 Pruebas de hipótesis en la regresión lineal simple
Hipótesis parciales
Hipótesis general (Análisis de varianza)
3 Intervalos de confianza
Intervalos de confianza para βb0 y βb1
Intervalos de confianza para la respuesta media
4 Predicción de nuevas observaciones
5 Prueba de falta de ajuste
6 Coeficiente de determinación R2
7 Correlación
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 29 / 111
Modelo de regresión Propiedades de los estimadores de mı́nimos cuadrados

Propiedades de los estimadores

Recordar
Se ha supuesto que los errores εi en el modelo Yi = β0 + β1 xi + εi son
variables aleatorias no correlacionadas con media cero y varianza σ 2 .
Se estudiarán las propiedades de sesgo y varianza de los estimadores
mı́nimos cuadrados βb0 y βb1 .

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 30 / 111


Modelo de regresión Propiedades de los estimadores de mı́nimos cuadrados

Valor esperado de βb1


A partir de las propiedadesdel modelo de regresión, pág 11; tenemos que E (Yi ) =
β0 + β1 xi y además E Y = β0 + β1 x.
Puesto que x no es una variable aleatoria se tiene que

 Pn 
i=1 xi yi − nxy

E β1 = E Pn
b
2 2
i=1 xi − nx
Pn
xi E (yi ) − nxE (y)
= i=1Pn 2 2
i=1 xi − nx
Pn
xi (β0 + β1 xi ) − nx (β0 + β1 x)
= i=1 Pn 2 2
i=1 xi − nx
Pn Pn
β0 i=1 xi + β1 i=1 x2i − nβ0 x − nβ1 x2
= Pn 2 2
i=1 xi − nx
Pn
x2 − nx2

β1
= Pn i=1 2 i 2
i=1 xi − nx
= β1
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 31 / 111
Modelo de regresión Propiedades de los estimadores de mı́nimos cuadrados

Valor esperado de βb0

   
E βb0 = E y − βb1 x
 
= E (y) − E βb1 x
= β0 + β1 x − β1 x
= β0

Conclusiones
βb0 es un estimador insesgado para β0
βb1 es un estimador insesgado para β1

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 32 / 111


Modelo de regresión Propiedades de los estimadores de mı́nimos cuadrados

Propiedades de los estimadores

Varianza de βb0
La varianza de βb0 esta dada por
2
 
 
2 1 x
V βb0 = σ +
n Sxx

Varianza de βb1
La varianza de βb1 esta dada por
  σ2
V βb1 =
Sxx

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 33 / 111


Modelo de regresión Propiedades de los estimadores de mı́nimos cuadrados


Estimación de la varianza de los errores σ 2
La varianza del error, representada por σ 2 es desconocida y debe ser estimada
usando los residuales ei = yi − ybi . Ası́, la suma de cuadrados de los residuales
es
X n Xn
2
SCE = e2i = (yi − ybi )
i=1 i=1

Se puede demostrar que el valor esperado de SCE es

E (SCE) = (n − 2) σ 2

Definición
Un estimador insesgado de σ 2 es
SCE
b2 =
σ
n−2

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 34 / 111


Modelo de regresión Propiedades de los estimadores de mı́nimos cuadrados


Estimación de la varianza de los errores σ 2

Otra forma de calcular la SCE es

SCE = Syy − βb1 Sxy

con n n
yi2 − ny 2
P P
Sxy = xi yi − nxy y Syy =
i=1 i=1

Suma de cuadrados total


Se le llama suma de cuadrados total SCT a la expresión
n
X
SCT = Syy = yi2 − ny 2
i=1

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 35 / 111


Modelo de regresión Propiedades de los estimadores de mı́nimos cuadrados


Estimación de la varianza de los errores σ 2

Otra formula alternativa para el cálculo de σb2 es


" n n n
#
2 1 X
2
X X
σ
b = y − βb0 yi − βb1 xi y i
n − 2 i=1 i i=1 i=1

Para cálculos más exactos es recomendable trabajar con mı́nimo cuatro


cifras decimales

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 36 / 111


Modelo de regresión Propiedades de los estimadores de mı́nimos cuadrados


Estimación de la varianza de los errores σ 2

Ejemplo 3
La estimación de la varianza de los errores para los datos de la cantidad
de reactivo (ejemplo 1) es la siguiente
n
X
Syy = yi2 − n (y)2 = 25,93 − 8 (1,7625)2 = 1,0788
i=1

1
b2 =
σ [1,0788 − 0,0377 (22,6625)] = 0,0374
6

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 37 / 111


Modelo de regresión Propiedades de los estimadores de mı́nimos cuadrados

Error estándar de los estimadores

Definición
En el modelo de regresión lineal simple, el error estándar estimado
de la pendiente es s
  b2
σ
ee βb1 =
Sxx
el error estándar estimado de la ordenada al origen es
s 
x2

 
2
1
ee β0 = σ
b b +
n Sxx

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 38 / 111


Modelo de regresión Propiedades de los estimadores de mı́nimos cuadrados

Error estándar de los estimadores

Ejemplo 4
b2 = 0,0374
Para los datos de la cantidad de reactivo (ejemplo 1) se tiene σ
Sxx = 600,875 x = 78,875

Error estándar de βb1


  r 0,0374
ee βb1 = = 0,0079
600,875

Error estándar de βb0


s
1 78,8752
   
ee βb0 = 0,0374 + = 0,626
8 600,875

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 39 / 111


Pruebas de hipótesis en la regresión lineal simple

Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
Propiedades de los estimadores de mı́nimos cuadrados
2 Pruebas de hipótesis en la regresión lineal simple
Hipótesis parciales
Hipótesis general (Análisis de varianza)
3 Intervalos de confianza
Intervalos de confianza para βb0 y βb1
Intervalos de confianza para la respuesta media
4 Predicción de nuevas observaciones
5 Prueba de falta de ajuste
6 Coeficiente de determinación R2
7 Correlación
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 40 / 111
Pruebas de hipótesis en la regresión lineal simple Hipótesis parciales

Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
Propiedades de los estimadores de mı́nimos cuadrados
2 Pruebas de hipótesis en la regresión lineal simple
Hipótesis parciales
Hipótesis general (Análisis de varianza)
3 Intervalos de confianza
Intervalos de confianza para βb0 y βb1
Intervalos de confianza para la respuesta media
4 Predicción de nuevas observaciones
5 Prueba de falta de ajuste
6 Coeficiente de determinación R2
7 Correlación
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 41 / 111
Pruebas de hipótesis en la regresión lineal simple Hipótesis parciales

Hipótesis para βb1

Suponga que se quiere la hipótesis de que la pendiente es igual a un


valor particular β10 , las hipótesis son
(
H0 : β1 = β10
H1 : β1 6= β10

Generalmente el interés es probar la hipótesis de que β1 = 0 ya


que si no se puede rechazar H0 significa que no existe relación
lineal entre la variable respuesta y y la variable explicativa x.
Para realizar las pruebas de hipótesis se asume que
εi ∼ N (0, σ 2 ) y por lo tanto Yi ∼ N (β0 + β1 xi , σ 2 )

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 42 / 111


Pruebas de hipótesis en la regresión lineal simple Hipótesis parciales

Hipótesis para βb1

b2 /Sxx
βb1 tiene distribución normal con media β1 y varianza σ

b2
 
σ
β1 ∼ N β1 ,
b
Sxx

b2 /σ 2 tiene distribución chi-cuadrado con


El estadı́stico (n − 2) σ
n − 2 grados de libertad

b2
(n − 2) σ
∼ χ2n−2
σ2

b2 .
βb1 es independiente de σ

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 43 / 111


Pruebas de hipótesis en la regresión lineal simple Hipótesis parciales

Hipótesis para βb1, uso de la prueba t

Estadı́stico de prueba
Como resultado de las propiedades anteriores, el estadı́stico

βb1 − β10
T0 = p
σ 2 /Sxx

tiene una distribución t − student con n − 2 grados de libertad


asumiendo que la hipótesis nula H0 : β1 = β10 es cierta.

Criterio de rechazo
Con un nivel de significancia predefinido α, se rechazará H0 si
|T0 | > t(α/2,n−2)

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 44 / 111


Pruebas de hipótesis en la regresión lineal simple Hipótesis parciales

Hipótesis para βb0

Para probar la hipótesis acerca de la ordenada del origen se usa un


procedimiento similar. Suponga que se quiere la hipótesis
(
H0 : β0 = β00
H1 : β0 6= β00

Cuando la hipótesis nula es β0 = 0 y no se puede rechazar, signi-


fica que la recta de regresión pasa por el origen y se podrı́a usar
un modelo sin intercepto.
Para realizar las pruebas de hipótesis se asume que
εi ∼ N (0, σ 2 ) y por lo tanto Yi ∼ N (β0 + β1 xi , σ 2 )

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 45 / 111


Pruebas de hipótesis en la regresión lineal simple Hipótesis parciales

Hipótesis para βb0

βb0  tiene distribución normal con media β0 y varianza


σ 2 1/n + x2 /Sxx


x2
  
2 1
βb0 ∼ N β0 , σ +
n Sxx
b2 .
βb0 es independiente de σ

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 46 / 111


Pruebas de hipótesis en la regresión lineal simple Hipótesis parciales

Hipótesis para βb0, uso de la prueba t

Estadı́stico de prueba
Como resultado de las propiedades anteriores, el estadı́stico

βb0 − β00
T0 = s
x2
 
2
1
σ +
n Sxx

tiene una distribución t − student con n − 2 grados de libertad asumiendo


que la hipótesis nula H0 : β0 = β00 es cierta.

Criterio de rechazo
Con un nivel de significancia predefinido α, se rechazará H0 si
|T0 | > t(α/2,n−2)
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 47 / 111
Pruebas de hipótesis en la regresión lineal simple Hipótesis parciales

Pruebas de hipótesis en la regresión lineal simple


Ejemplo 5
Se verificará la significancia del parámetro β0 para los datos de la cantidad de
reactivo del ejemplo 1.
Hipótesis. (
H0 : β0 = 0
H1 : β0 6= 0

Nivel de significancia predeterminado α = 0,01


Estadı́stico de prueba.
De los ejemplos 1 y 4 se tiene  
βb0 = −1,2111, n = 8 y ee βb0 = 0,626

βb0 − β00 −1,2111 − 0


T0 = s = = −1,9347

1 x 2
 0,626
σ2 +
n Sxx
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 48 / 111
Pruebas de hipótesis en la regresión lineal simple Hipótesis parciales

Pruebas de hipótesis en la regresión lineal simple

Ejemplo 5
Valor crı́tico para α = 0,01

t(α/2,n−2) = t(0,005;6) = 3,71

Decisión
|T0 | = 1,9347 < 3,71, por lo tanto no se puede rechazar H0 .

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 49 / 111


Pruebas de hipótesis en la regresión lineal simple Hipótesis parciales

Pruebas de hipótesis en la regresión lineal simple

Ejemplo 5
Se verificará la significancia del parámetro β1 .
Hipótesis. (
H0 : β1 = 0
H1 : β1 6= 0

Nivel de significancia predeterminado α = 0,01


Estadı́stico de prueba.
De los ejemplos 1 y 4 se tiene  
βb1 = 0,0377, n = 8 y ee βb1 = 0,0079

βb1 − β10 0,0377 − 0


T0 = p = = 4,7722
2
σ /Sxx 0,0079

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 50 / 111


Pruebas de hipótesis en la regresión lineal simple Hipótesis parciales

Pruebas de hipótesis en la regresión lineal simple

Ejemplo 5
Valor crı́tico para α = 0,01

t(α/2,n−2) = t(0,005;6) = 3,71

Decisión
|T0 | = 4,7722 > 3,71, por lo tanto se debe rechazar H0 .

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 51 / 111


Pruebas de hipótesis en la regresión lineal simple Hipótesis general (Análisis de varianza)

Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
Propiedades de los estimadores de mı́nimos cuadrados
2 Pruebas de hipótesis en la regresión lineal simple
Hipótesis parciales
Hipótesis general (Análisis de varianza)
3 Intervalos de confianza
Intervalos de confianza para βb0 y βb1
Intervalos de confianza para la respuesta media
4 Predicción de nuevas observaciones
5 Prueba de falta de ajuste
6 Coeficiente de determinación R2
7 Correlación
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 52 / 111
Pruebas de hipótesis en la regresión lineal simple Hipótesis general (Análisis de varianza)

Análisis de varianza

El análisis de varianza es un método que se usa para probar la significancia de la


regresión. Para el modelo de regresión lineal simple, equivale a probar la hipótesis
(
H0 : β1 = 0
H1 : β1 6= 0

Se basa en la partición de la suma de cuadrados total SCT de la siguiente manera


Identidad del análisis de varianza
n
X n
X n
X
2 2 2
(yi − y) = yi − y) +
(b (yi − ybi )
i=1 i=1 i=1
| {z } | {z } | {z }
SCT SCR SCE

El término SCR se conoce como la suma de cuadrados de la regresión.

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 53 / 111


Pruebas de hipótesis en la regresión lineal simple Hipótesis general (Análisis de varianza)

Análisis de varianza

Identidad del análisis de varianza


Lo anterior es equivalente a

Syy = βb1 Sxy + SCE


|{z} | {z }
SCT SCR

Observación
La SCT tiene n − 1 grados de libertad, SCR tiene 1 grado de
libertad y la SCE tiene n − 2 grados de libertad. Además
SCE/σ 2 ∼ χ2n−2
SCR/σ 2 ∼ χ21

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 54 / 111


Pruebas de hipótesis en la regresión lineal simple Hipótesis general (Análisis de varianza)

Análisis de varianza

Estadı́stico de prueba
Con base en las propiedades anteriores, el estadı́stico

SCR/1 CM R
F0 = =
SCE/ (n − 2) CM E

tiene distribución F(1,n−2)

Criterio de rechazo
Para un nivel de significancia predeterminado α. Se rechazará la
hipótesis nula H0 si F0 > f(α,1,n−2)

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 55 / 111


Pruebas de hipótesis en la regresión lineal simple Hipótesis general (Análisis de varianza)

Análisis de varianza

Tabla ANAVA
Los cálculos del análisis de varianza se resumen en una tabla como la
que sigue
Fuente de Grados de Sumas de Cuadrados
variación libertad cuadrados medios F
Regresión 1 SCR = βb1 Sxy SCR/1 CM R/CM E
Error n−2 SCE = SCT − SCR SCE/ (n − 2)
Total n−1 SCT = Syy

Cuadrados medios
CM R = SCR/1 se conoce como el cuadrado medio de la regresión.
CM E = SCE/ (n − 2) se conoce como el cuadrado medio del error.
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 56 / 111
Pruebas de hipótesis en la regresión lineal simple Hipótesis general (Análisis de varianza)

Ejemplo 6
Significancia de la regresión para los datos de la cantidad de reactivo del
ejemplo 1, usando análisis de varianza.
De los ejemplos 1, 3 y 4 se tiene
βb1 = 0,0377, n = 8 Syy = 1,0788 y Sxy = 22,6625

Sumas de cuadrados
SCT = Syy = 1,0788

SCR = βb1 Sxy = (0,0377) (22,6625) = 0,8544

SCE = SCT − SCR = 1,0788 − 0,8544 = 0,2244

Cuadrados medios

CM R = SCR/1 = 0,8544 CM E = 0,2244/6 = 0,0374


Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 57 / 111
Pruebas de hipótesis en la regresión lineal simple Hipótesis general (Análisis de varianza)

Análisis de varianza

Estadı́stico de prueba

F0 = CM R/CM E = 0,8544/0,0374 = 22,8449

Valor crı́tico: f(α,1,n−2) = f(0,01;1;6) = 13,745


Tabla ANAVA
Fuente de Grados de Sumas de Cuadrados
variación libertad cuadrados medios F
Regresión 1 0,8544 0,8544 22,8449
Error 6 0,2244 0,0374
Total 7 1,0788

Conclusión
De estos resultados se concluye que β1 es difernete de cero, pues
22,8449 > 13,745

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 58 / 111


Intervalos de confianza

Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
Propiedades de los estimadores de mı́nimos cuadrados
2 Pruebas de hipótesis en la regresión lineal simple
Hipótesis parciales
Hipótesis general (Análisis de varianza)
3 Intervalos de confianza
Intervalos de confianza para βb0 y βb1
Intervalos de confianza para la respuesta media
4 Predicción de nuevas observaciones
5 Prueba de falta de ajuste
6 Coeficiente de determinación R2
7 Correlación
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 59 / 111
Intervalos de confianza Intervalos de confianza para β
b0 y β
b1

Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
Propiedades de los estimadores de mı́nimos cuadrados
2 Pruebas de hipótesis en la regresión lineal simple
Hipótesis parciales
Hipótesis general (Análisis de varianza)
3 Intervalos de confianza
Intervalos de confianza para βb0 y βb1
Intervalos de confianza para la respuesta media
4 Predicción de nuevas observaciones
5 Prueba de falta de ajuste
6 Coeficiente de determinación R2
7 Correlación
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 60 / 111
Intervalos de confianza Intervalos de confianza para β
b0 y β
b1

Intervalos de confianza para βb0 y βb1

Si los términos del error εi , del modelo de regresión tienen una


distribución normal e independiente, entonces

βb − β1 βb0 − β0
p1 y p
σ 2 /Sxx σ 2 [1/n + x2 /Sxx ]
tienen ambos una distribución t con n − 2 grados de libertad. Esto
conduce a la definición de los intervalos de confianza del
100 (1 − α) % para βb0 y βb1 .

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 61 / 111


Intervalos de confianza Intervalos de confianza para β
b0 y β
b1

Intervalos de confianza para βb0 y βb1

Definición
Bajo el supuesto de que las observaciones tienen una distribución normal e inde-
pendiente, un intervalo de confianza del 100 (1 − α) % para βb1 en el modelo
de regresión lineal simple es
s s
b2
σ b2
σ
βb1 − t( α ,n−2) ≤ β1 ≤ βb1 + t( α ,n−2)
2 Sxx 2 Sxx
| {z } | {z }
ee(β
b1 ) ee(β
b1 )

De manera similar, un intervalo de confianza del 100 (1 − α) % para βb0 es


s s 
x2 x2
  
1 1
βb0 − t( α ,n−2) b2
σ + ≤ β0 ≤ βb0 + t( α ,n−2) σb2 +
2 n Sxx 2 n Sxx
| {z } | {z }
ee(β
b0 ) ee(β
b0 )

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 62 / 111


Intervalos de confianza Intervalos de confianza para β
b0 y β
b1

Ejemplo 8
Intervalos de confianza del 99 % para la ordenada y la pendiente del modelo
estimado usando los datos de la cantidad de reactivo.
De los ejemplos 1, 4 y5 se tiene  
βb1 = 0,0377, ee βb1 = 0,0079, βb0 = −1,2111, ee βb0 = 0,626,
t(α/2,n−2) = t(0,005,6) = 3,71

Intervalo para βb1


0,0377 − 3,71 (0,0079) ≤ β1 ≤ 0,0377 + 3,71 (0,0079)
0,0084 ≤ β1 ≤ 0,067

Intervalo para βb0


−1,2111 − 3,71 (0,626) ≤ β0 ≤ −1,2111 + 3,71 (0,626)
−3,5336 ≤ β0 ≤ 1,1114
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 63 / 111
Intervalos de confianza Intervalos de confianza para la respuesta media

Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
Propiedades de los estimadores de mı́nimos cuadrados
2 Pruebas de hipótesis en la regresión lineal simple
Hipótesis parciales
Hipótesis general (Análisis de varianza)
3 Intervalos de confianza
Intervalos de confianza para βb0 y βb1
Intervalos de confianza para la respuesta media
4 Predicción de nuevas observaciones
5 Prueba de falta de ajuste
6 Coeficiente de determinación R2
7 Correlación
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 64 / 111
Intervalos de confianza Intervalos de confianza para la respuesta media

Intervalos de confianza para la respuesta media

Una estimación de la respuesta media para un valor especı́fico de x,


digamos x0 , es
µ
bY |x=x0 = βb0 + βb1 x0

Puesto que βb0 y βb1 son estimadores insesgados de β0 y β1 , enton-


ces µbY |x0 es un estimador insesgado de la verdadera respuesta media
µY |x=x0 . Y su varianza es
" #
2
1 (x 0 − x)
bY |x=x0 = σ 2

V µ +
n Sxx

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 65 / 111


Intervalos de confianza Intervalos de confianza para la respuesta media

Intervalos de confianza para la respuesta media


Puesto que βb0 y βb1 tienen ambos una distribución normal, eso implica que µY |x=x0
b2 como estimador de σ 2 , se puede demostrar que
también es normal, y si se usa σ
bY |x − µY |x0
µ
v " 0 #
(x0 − x)2
u
u
tσ 2
1
b +
n Sxx

tiene una distribución t con n − 2 grados de libertad.

Definición
un intervalo de confianza del 100 (1 − α) % para la respuesta media cuando
x = x0 , denotado por µ
bY |x=x0 , es
v " # v " #
2
(x0 − x)2
u u
u
2
1 (x 0 − x) u
2
1
bY |x0 −t( α ,n−2) σ
µ t b + ≤ µY |x0 ≤ µ
bY |x0 +t( α ,n−2) σ
t b +
2 n Sxx 2 n Sxx
| {z } | {z }
   
ee µbY |x ee µbY |x
0 0

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 66 / 111


Intervalos de confianza Intervalos de confianza para la respuesta media

Ejemplo 9
Se construye un intervalo del 95 % para la respuesta media usando
los datos del ejemplo 1.
El modelo estimado para este ejemplo es

bY |x=x0 = −1,2111 + 0,0377x0


µ

Suponga que hay interés en predecir el grado de pureza cuando


la cantidad de reactivo es x = 78. Entonces

bY |x=78 = −1,2111 + 0,0377 (78) = 1,7295


µ

Para α = 0,05
t( α ,n−2) = t(0,025;6) = 2,45
2

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 67 / 111


Intervalos de confianza Intervalos de confianza para la respuesta media

Intervalos de confianza para la respuesta media

Error estandar de la respuesta media


b2 = 0,0374, n = 8, x = 78,785 y Sxx = 600,875.
Sabemos que σ
v " #
2
u
 u 1 (78 − 78,785)
ee µ
bY |x=78 = 0,0374
t + = 0,0687
8 600,875

Intervalo para µY |x=78


1,7295 − 2,45 (0,0678) ≤ µY |x=78 ≤ 1,7295 + 2,45 (0,0678)
1,5612 ≤ µY |x=78 ≤ 1,8978

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 68 / 111


Intervalos de confianza Intervalos de confianza para la respuesta media

Intervalos de confianza para la respuesta media

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 69 / 111


Predicción de nuevas observaciones

Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
Propiedades de los estimadores de mı́nimos cuadrados
2 Pruebas de hipótesis en la regresión lineal simple
Hipótesis parciales
Hipótesis general (Análisis de varianza)
3 Intervalos de confianza
Intervalos de confianza para βb0 y βb1
Intervalos de confianza para la respuesta media
4 Predicción de nuevas observaciones
5 Prueba de falta de ajuste
6 Coeficiente de determinación R2
7 Correlación
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 70 / 111
Predicción de nuevas observaciones

Predicción de nuevas observaciones

En los modelos de regresión se pueden hacer predicciones para futuros


valores de la variable respuesta Y . Si xf es el valor de interés de la
variable de regresión, entonces el estimador puntual del valor futuro de la
respuesta Yf es
Ybf = βb0 + βb1 xf

La nueva observación es independiente de las usadas para el modelo de


regresión

Sea Yf una observación futura para x = xf . Entonces el error de


predicción
Ψ = Yf − Ybf
es una variable aleatoria con distribución normal.
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 71 / 111
Predicción de nuevas observaciones

Predicción de nuevas observaciones

La media de la variable de Ψ es cero y la varianza esta dada por


" #
2
1 (x f − x)
V (Ψ) = σ 2 1 + +
n Sxx

b2 para estimar σ 2 , se
Como Yf y Ybf son independientes, al usar σ
puede demostrar que

Yf − Ybf
s
2
 
1 (xf −x)
b2
σ 1+ n
+ Sxx

tiene distribución t con n − 2Regresión


grados
Fernando Madera (fermadera85@gmail.com) de libertad.
lineal simple 72 / 111
Predicción de nuevas observaciones

Predicción de nuevas observaciones

Definición
un intervalo de predicción del 100 (1 − α) % para la observación futura yf
cuando x = xf , esta dado por
v " v "
u 2 # u 2 #
u 1 x f − x u 1 xf − x
ybf − t( α ,n−2) σ
t b2 1 + + ≤ yf ≤ ybf + t( α ,n−2) tσb2 1 + +
2 n Sxx 2 n Sxx
| {z } | {z }
ee(Y
bf ) ee(Y
bf )

El valor ybf se calcula a partir del modelo de regresión ybf = βb0 + βb1 xf .

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 73 / 111


Predicción de nuevas observaciones

Predicción de nuevas observaciones

Ejemplo 10
Se construye un intervalo de predicción del 95 % para el grado de
pureza cuando la cantidad de reactivo es xf = 85
El valor futuro estimado es

ybf = −1,2111 + 0,0377 (85) = 1,9934

Para α = 0,05
t( α ,n−2) = t(0,025;6) = 2,45
2

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 74 / 111


Predicción de nuevas observaciones

Predicción de nuevas observaciones

Error estandar de la observación futura estimada


Sabemos que σ b2 = 0,0374, n = 6, x = 78,875 y Sxx = 600,875.
v " #
2
u
u 1 (85 − 78,875)
yf ) = 0,0374 1 + +
ee (b t = 0,2107
6 600,875

Intervalo de predicción para yf


1,9934 − 2,45 (0,2107) ≤ yf ≤ 1,9934 + 2,45 (0,2107)
1,4772 ≤ yf ≤ 2,5096

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 75 / 111


Predicción de nuevas observaciones

Predicción de nuevas observaciones

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 76 / 111


Prueba de falta de ajuste

Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
Propiedades de los estimadores de mı́nimos cuadrados
2 Pruebas de hipótesis en la regresión lineal simple
Hipótesis parciales
Hipótesis general (Análisis de varianza)
3 Intervalos de confianza
Intervalos de confianza para βb0 y βb1
Intervalos de confianza para la respuesta media
4 Predicción de nuevas observaciones
5 Prueba de falta de ajuste
6 Coeficiente de determinación R2
7 Correlación
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 77 / 111
Prueba de falta de ajuste

Prueba de falta de ajuste

Los datos algunas veces tienen la caracterı́stica que el conjunto de valores x0 s


correspondientes a varios y 0 s son los mismos, como ocurre con los datos de la
sigueinte tabla
x y x y
4,0 27,5 5,0 32,3
4,0 25,0 5,0 30,9
4,0 28,5 5,0 31,3
4,5 31,4 5,5 33,6
4,5 25,2 5,5 34,6
4,5 29,7 5,5 33,5

estos se conocen datos con medidas x0 s repetidas, y su presencia provee una


partición de la SCE en dos términos, uno de los cuales representa el error puro,
es decir
SCE = SCEp + SCEf a

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 78 / 111


Prueba de falta de ajuste

Prueba de falta de ajuste

SCEp se conoce como la suma de cuadrados del error puro, y tiene


n − r grados de libertad, siendo r el número de grupos o x0 s distintos.
la SCEp proporciona una estimación para σ 2 que no depende del modelo
ajustado.
SCEf a se conoce como la suma de cuadrados del error por falta de
ajuste, y tiene r − 2 grados de libertad.

La suma de cuadrados del error puro es una suma ponderada de las varianzas de
los grupos, donde las ponderaciones son el número de observaciones menos uno y
se calcula mediante
r
X
SCEp = (n1 − 1) S12 + (n2 − 1) S22 + · · · + (nr − 1) Sr2 = (ni − 1) Si2
| {z } | {z } | {z }
i=1
Syy grupo 1 Syy grupo 2 Syy grupo r

donde Si2 y ni son la varianza de las y 0 s y el número de observaciones del grupo i


Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 79 / 111
Prueba de falta de ajuste

Prueba de falta de ajuste

SCEf a
La SCEf a se calcula por diferencia

SCEf a = SCE − SCEp

Cuadrados medios
CM Ep = SCEp / (n − r) es el cuadrado medio del error puro.
CM Ef a = SCEf a / (r − 2) es el cuadrado medio del error por falta de ajuste.

Estadı́stico de prueba
El cociente
CM Ef a
F0 (F A) =
CM Ep
tiene distibución F con r − 2 y n − r grados de libertad.
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 80 / 111
Prueba de falta de ajuste

Prueba de falta de ajuste

Hipótesis
Las hipótesis para este caso son
(
H0 : El modelo de regresión lineal simple es correcto
H1 : El modelo de regresión lineal simple no es correcto

Criterio de rechazo
Se compara F0 (F A) calculado con f(α,r−2,n−2) y se rechaza H0 si
F0 (F A) > f(α,r−2,n−2)
El rechazo de la hipótesis nula indica que el modelo es inadecuado porque
proporciona una estimación de σ 2 que está muy alejada de la estimación que se
obtiene independiente del modelo.

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 81 / 111


Prueba de falta de ajuste

Prueba de falta de ajuste

Tabla ANAVA
Los cálculos del análisis de varianza se resumen en una tabla como la
que sigue
Fuente de Grados de Sumas de Cuadrados
variación libertad cuadrados medios F
Regresión 1 SCR CM R CM R/CM E
Error n−2 SCE CM E
fa r−2 SCEf a CM Ef a CM Ef a /CM Ep
p n−r SCEp CM Ep
Total n−1 SCT

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 82 / 111


Prueba de falta de ajuste

Prueba de falta de ajuste

Ejemplo 11
Para los datos de la tabla de la página 78, se usa el procedimiento visto anterior-
mente para contruir la tabla ANAVA común, la cual es
Fuente de Grados de Sumas de Cuadrados
variación libertad cuadrados medios F
Regresión 1 82,36 82,36817 28,054
Error 10 29,36 2,93610
Total 11 111,72

Para realizar la partición de la sua de cuadrados del error debemos calcular las
varianzas para cada valor de x.
Realizados los cálculos tenemos S12 = 3,25, S22 = 10,2633, S32 = 0,520, S42 = 0,37
y la suma de cuadrados del error puro es

SCEp = 2 × 3,25 + 2 × 10,2633 + 2 × 0,520 + 2 × 0,37 = 28,8066

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 83 / 111


Prueba de falta de ajuste

Prueba de falta de ajuste

Ejemplo 11
La suma de cuadrados del error por falta de ajuste es

SCEf a = SCE − SCEp = 29,36 − 28,8066 = 0,5534

Fuente de Grados de Sumas de Cuadrados


variación libertad cuadrados medios F
Regresión 1 82,36 82,36817 28,054
Error 10 29,36 2,93610
fa 2 0,5534 0,276 0,076
p 8 28,8066 3,600
Total 11 111,72

obsérvese que el valor de F0 (F A) no es significante por lo tanto concluimos que


el modelo es apropiado.

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 84 / 111


Coeficiente de determinación R2

Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
Propiedades de los estimadores de mı́nimos cuadrados
2 Pruebas de hipótesis en la regresión lineal simple
Hipótesis parciales
Hipótesis general (Análisis de varianza)
3 Intervalos de confianza
Intervalos de confianza para βb0 y βb1
Intervalos de confianza para la respuesta media
4 Predicción de nuevas observaciones
5 Prueba de falta de ajuste
6 Coeficiente de determinación R2
7 Correlación
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 85 / 111
Coeficiente de determinación R2

Coeficiente de determinación R2

R2 Otra formula
A la cantidad
2
Sxy
2 SCR SCE R2 =
R = =1− Sxx Syy
SCT SCT
se le llama coeficiente de determinación

Caracterı́sticas y propiedades
Se usa para juzgar la adecuación de un modelo de regresión.
0 ≤ R2 ≤ 1
El valor de R2 indica la proporción de variabilidad de los datos que está
explicada o que es considerada por el modelo de regresión.

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 86 / 111


Coeficiente de determinación R2

Coeficiente de determinación R2

Ejemplo 12
Para el ejemplo de la cantidad de ractivo
SCR = 0,8544 y SCT = 1,0788
SCR 0,8544
R2 = = = 0,7919
SCT 1,0788

es decir que el modelo de regresión ajustado, explica el 79,19 % de la


variabilidad de los datos.

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 87 / 111


Coeficiente de determinación R2

Coeficiente de determinación R2

Ejemplo 13
Para los datos del ejemplo 2, se tiene que Sxy = −59,06, Sxx = 25,35
y Syy = 159,7143
2
Sxy (−59,06)2
R2 = = = 0,8615
Sxx Syy 25,35 × 159,7143
es decir que el modelo de regresión ajustado, explica el 86,15 % de la
variabilidad de los datos.

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 88 / 111


Correlación

Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
Propiedades de los estimadores de mı́nimos cuadrados
2 Pruebas de hipótesis en la regresión lineal simple
Hipótesis parciales
Hipótesis general (Análisis de varianza)
3 Intervalos de confianza
Intervalos de confianza para βb0 y βb1
Intervalos de confianza para la respuesta media
4 Predicción de nuevas observaciones
5 Prueba de falta de ajuste
6 Coeficiente de determinación R2
7 Correlación
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 89 / 111
Correlación Coeficiente de correlación de Pearson

Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
Propiedades de los estimadores de mı́nimos cuadrados
2 Pruebas de hipótesis en la regresión lineal simple
Hipótesis parciales
Hipótesis general (Análisis de varianza)
3 Intervalos de confianza
Intervalos de confianza para βb0 y βb1
Intervalos de confianza para la respuesta media
4 Predicción de nuevas observaciones
5 Prueba de falta de ajuste
6 Coeficiente de determinación R2
7 Correlación
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 90 / 111
Correlación Coeficiente de correlación de Pearson

Coeficiente de correlación de Pearson

Una cantidad estrechamente relacionada con R2 pero conceptualmente


muy diferente es el coeficiente de correlación, el cual es una medida
del grado de asociación entre dos variables. Se calcula a partir de
n
P
xi yi − nxy
i=1 Sxy
rxy =rn rn =√ p
Sxx Syy
xi − nx2 yi − ny 2
P 2 P 2
i=1 i=1

que se conoce como coeficiente de correlación muestral.


Note además que
R2 = rxy
2

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 91 / 111


Correlación Coeficiente de correlación de Pearson

Coeficiente de correlación de Pearson

Puede tener signo positivo o negativo, según el signo del término


en el numerador, el cual mide la covarianza muestral de dos
variables.
Cae entre los lı́mites de −1 y 1; es decir, −1 ≤ rxy ≤ 1.
Es simétrico por naturaleza; es decir, rxy = ryx
Si X y Y son estadı́sticamente independientes, el coeficiente de
correlación entre ellas es cero; pero si rxy = 0, esto no significa
que las dos variables sean independientes. En otras palabras, una
correlación igual a cero no necesariamente implica
independencia. Ver figura h)

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 92 / 111


Correlación Coeficiente de correlación de Pearson

Coeficiente de correlación de Pearson


Es una medida de asociación lineal o dependencia lineal
solamente; su uso en la descripción de relaciones no lineales no
tiene significado. Ası́, en la figura h), Y = X 2 es una relación
exacta y a pesar de ello rxy es cero.

Patrones de correlación

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 93 / 111


Correlación Coeficiente de correlación de Pearson

Patrones de correlación

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 94 / 111


Correlación Coeficiente de correlación de Pearson

Coeficiente de correlación de Pearson

Ejemplo
Para los datos del ejemplo 2, se tiene que
Sxy = −59,06, Sxx = 25,35 y Syy = 159,7143
Sxy −59,06
rxy = √ p =√ √ = −0,9282
Sxx Syy 25,35 159,7143
Note que
2
rxy = (−0,9282)2 = 0,8615 = R2

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 95 / 111


Correlación Coeficiente de correlación de Pearson

Coeficiente de correlación de Spearman

Es una versión no paramétrica del coeficiente de correlación de Pearson,


que se basa en los rangos de los datos. Resulta apropiado para los
datos que no satisfagan el supuesto de normalidad, o bien para datos
ordinales. El signo del coeficiente indica la dirección de la relación y
el valor absoluto del coeficiente de correlación indica la fuerza de la
relación entre las variables. Se calcula como
n
d2i
P
6
i=1
rs = 1 − , −1 ≤ rs ≤ 1
n (n2 − 1)
donde di es la diferencia entre el orden obtenido en el caso i − ésimo
en ambas series.

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 96 / 111


Correlación Coeficiente de correlación de Pearson

Coeficiente de correlación de Spearman


Al observar el número de sucursales (X) y los costos mensuales (Y )
en comunicación telefónica con la casa central, en millones de $ para
10 empresas se encontró:

x y
Número de Costos de
sucursales comunicación
3 2
5 3
3 5
2 4
4 6
1 2
5 5
2 1
6 3
3 5

Calcularemos el corficiente de correlación de Spearman para los datos


anteriores.
Fernando Madera (fermadera85@gmail.com)
Regresión lineal simple 97 / 111
Correlación Coeficiente de correlación de Pearson

Coeficiente de correlación de Spearman


Datos ornados de enor a mayor
x 1 2 2 3 3 3 4 5 5 6
y 1 2 2 3 3 4 5 5 5 6

x y Rango de x Rango de y Diferencia (di ) d2i


3 2 5,0 2,5 2,5 6,25
5 3 8,5 4,5 4,0 16,00
3 5 5,0 8,0 -3,0 9,00
2 4 2,5 6,0 -3,5 12,25
4 6 7,0 10,0 -3,0 9,00
1 2 1,0 2,5 -1,5 2,25
5 5 8,5 8,0 0,5 0,25
2 1 2,5 1,0 1,5 2,25
6 3 10,0 4,5 5,5 30,25
3 5 5,0 8,0 -3,0 9,00
96,50
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 98 / 111
Correlación Coeficiente de correlación de Pearson

Coeficiente de correlación de Pearson

n
d2i
P
6
i=1 6(96, 50)
rs = 1 − =1− = 0,4152
n (n2 − 1) 10(102 − 1)
rs = 0,4152

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 99 / 111


Ejercicios

Tabla de Contenido
1 Modelo de regresión
Generalidades
Estimación por mı́nimos cuadrados
Propiedades de los estimadores de mı́nimos cuadrados
2 Pruebas de hipótesis en la regresión lineal simple
Hipótesis parciales
Hipótesis general (Análisis de varianza)
3 Intervalos de confianza
Intervalos de confianza para βb0 y βb1
Intervalos de confianza para la respuesta media
4 Predicción de nuevas observaciones
5 Prueba de falta de ajuste
6 Coeficiente de determinación R2
7 Correlación
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 100 / 111
Ejercicios

Ejercicios

1) ¿Cuál es el propósito general del análisis de regresión?


2) En el análisis de regresión intervienen dos tipos de variables: las
independientes y las dependientes. Explique con sus palabras y a través de
ejemplos, las caracterı́sticas de estos dos tipos de variables.
3) Con respecto a los intervalos de confianza para la recta y los intervalos de
predicción, señale cómo se obtienen y para qué se aplica cada uno de ellos.

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 101 / 111


Ejercicios

Ejercicios

4) Considere el modelo de regresión lineal simple, yi = β0 + β1 xi + ei ; con


i = 1, 2, . . . , n, y suponiendo que para estimar los parámetros se utilizaron
un total de 10 observaciones, es decir, n = 10, conteste las siguientes
preguntas:
a) Suponga que hay una buena relación lineal entre las variables X y Y ;
construya un diagrama de dispersión hipotético que refleje esta relación.
b) Sobre el diagrama de dispersión anterior, ajuste a ?ojo? la mejor lı́nea
recta que describa la relación observada.
c) Explique el significado de los dos parámetros del modelo (β0 y β1 ).
d) Escriba las expresiones que estiman a los dos parámetros del modelo.
e) ¿Cuáles son las suposiciones que se hacen sobre los errores (ei )?

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 102 / 111


Ejercicios

Ejercicios
5) En un proceso de extracción se estudia la relación entre tiempo de
extracción y rendimiento. Los datos obtenidos se muestran en la siguiente
tabla.
Tiempo (minutos) 10 15 20 8 12 13 15 12 14 20 19 18
Rendimiento ( %) 64 81.7 76.2 68.5 66.6 77.9 82.2 74.2 70 76 83.2 85.3

a) ¿En este problema cuál variable se considera independiente y cuál de-


pendiente?.
b) Mediante un diagrama de dispersión analice la relación entre estas dos
variables. ¿Qué tipo de relación observa y cuáles son algunos hechos
especiales?.
c) Haga un análisis de regresión (ajuste una lı́nea recta a estos datos,
aplique pruebas de hipótesis y verifique residuos).
d) ¿La calidad del ajuste es satisfactoria? Argumente.
e) Destaque el valor de la pendiente de la recta e interprételo en términos
prácticos.
f) Estime el rendimiento promedio que se espera a un tiempo de extracción
de 25 minutos y obtenga un intervalo de confianza para esta estimación.
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 103 / 111
Ejercicios

Ejercicios

6) En un artı́culo de Wear se presentaron los datos del desgaste por rosamiento


del acero dulce y la viscosidad del aceite. Los datos representativos con x =
viscosidad del aceite y y = volumen del desgaste 10−4 mm , son:


y 240 181 193 155 172 110 113 75 94


x 1,6 9,4 15,5 20,0 22,0 35,5 43,0 40,5 33,0

a) Construya un diagrama de dispersión de los datos. ¿Parece plau-


sible un modelo de regresión lineal simple?
b) Ajuste el modelo de regresión lineal simple usando mı́nimos cua-
drados.
c) Prediga el desgaste por rozamiento cuando la viscosidad es x =
30.
d) Obtenga el valor ajustado de y cuando x = 22,0 y calccule el
residual correspondiente.

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 104 / 111


Ejercicios

Ejercicios
7) Al observar el número de sucursales (X) y los costos mensuales (Y ) en
comunicación telefónica con la casa central, en millones de $ para 10
empresas se encontró:
x y
Número de Costos de
sucursales comunicación
3 2
5 3
3 5
2 4
4 6
1 2
5 5
2 1
6 3
3 5

Apoyándose en la información anterior, ajuste la resta que muestre la


relación de los costos en función del número de sucursales y estime los
costos de una empresa con 10 sucursales.
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 105 / 111
Ejercicios

Ejercicios
8) En una industria se desea investigar cómo influye la temperatura (◦ C) en la
presión del vapor de B-trimetilboro, los datos obtenidos para tal propósito
se muestran en la siguiente tabla.

a) Construya un diagrama de dispersión e interprételo.


b) Ajuste una lı́nea recta y observe la calidad de ajuste.
c) Interpréte el valor de la pendiente en términos prácticos.
e) Construya la tabla ANAVA para el modelo, concluya.
f) Calcule un intervalo de confianza para los parámetros de regresión.
Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 106 / 111
Ejercicios

Ejercicios

9) Un investigador en psicologı́a experimental lleva a cabo un experimento con


10 animales de laboratorio (de la misma edad y peso). Les administra un
fármaco, midiendo el tiempo en horas (X) y la concentración del fármaco
en mg (Y ). Se obtienen los siguientes datos:

Aplicar lo visto en el capı́tulo

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 107 / 111


Ejercicios

Ejercicios

10) En un proceso de control de calidad, se obtiene una muestra aleatoria de 8


frascos de un reactivo (en mg) y su correspondiente grado de pureza.

Aplicar lo visto en el capı́tulo

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 108 / 111


Ejercicios

Ejercicios

11) Se realiza un experimento para determinar la concentración de una droga


determinada (X) en una solución, y se lee la fluorescencia producida (Y ) al
agregar ácido bórico. Se obtienen los siguientes resultados:

Aplicar lo visto en el capı́tulo

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 109 / 111


Ejercicios

Ejercicios

12) A 10 candidatos a ingresar en un programa de doctorado, se les aplica en la


Facultad de Psicologı́a una prueba de personalidad (X) y un examen
general de conocimientos (Y ), con las siguientes puntuaciones:

Aplicar lo visto en el capı́tulo

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 110 / 111


Bibliografı́a

Bibliografı́a

1 Webster, A. (2000). Estadı́stica aplicada a los negocios y la


economı́a. Bradley University.
2 MONTGOMERY, Douglas C.; RUNGER, George C.; MEDAL,
Edmundo G. Urbina. Probabilidad y estadı́stica aplicadas a la
ingenierı́a. McGraw Hill, 1996.
3 RONALD E. WALPOLE, R. (Novena edición, 2012).
Probabilidad y estadı́stica para ingenierı́a y ciencias. PEARSON
EDUCACIÓN, México.

Fernando Madera (fermadera85@gmail.com) Regresión lineal simple 111 / 111

También podría gustarte