Unidad 2. Regresion Lineal Simple

Estadística II
Unidad 2. Regresión lineal simple
Licenciatura en Matemáticas
Estadística II
4° semestre
Clave:
05142421/06142421
Universidad Abierta y a Distancia de México
Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas
1
Estadística II
Índice
Unidad 2. Regresión lineal simple 3
Presentación de la unidad 3
Propósitos de la unidad 3
Competencia específica 4
2.1. Planteamiento del problema 4
Actividad 1. Conceptos básicos 6
2.2. Supuestos del modelo 6
2.3. Estimación de los parámetros 9
2.3.1. Estimación por mínimos cuadrados ................................................................................................ 9
2.3.2. Teorema de Gauss Markov ............................................................................................................ 13
2.3.3. Máxima Verosimilitud ................................................................................................................... 13
2.4. Intervalos de confianza 15
2.5. Intervalo de predicción 17
2.6. Pruebas de hipótesis 18
2.7. Análisis de varianza 20
Actividad 2. Ajuste de una regresión lineal simple 22
2.8. Coeficiente de determinación 22
2.9. Análisis de residuales 23
Actividad 3. Comprobación de supuestos en el análisis de regresión lineal simple 27
2.10. Transformaciones estabilizadoras de varianza 27
Evidencia de aprendizaje. Ajuste de un análisis de regresión lineal 27
Autorreflexiones ¡Error! Marcador no de
Cierre de la unidad 28
Para saber más 28
Fuentes de consulta 28
2
Estadística II
Presentación de la unidad
El análisis de regresión es una técnica estadística que se utiliza para estudiar las relaciones de
dependencia entre variables.
Se puede usar la regresión para responder a preguntas como:
La relación entre los gastos en publicidad y las ventas de una empresa, el cambio en el nivel de
colesterol cuando una persona cambia sus hábitos alimenticios, y si esto sucede ¿los cambios
observados también dependen de factores como: sexo, edad o cantidad de ejercicio que realiza
la persona?
Se puede observar que en el primer caso los gastos en publicidad implican un cambio en los
gastos en ventas.
En el segundo caso, cambiar los hábitos alimenticios implica un cambio en el nivel de colesterol.
Se observa que hay dos tipos de variables:
 𝑥: La variable independiente, predictora o regresora

 𝑦: la variable dependiente o variable respuesta
El objetivo del análisis de regresión será entender cómo cambia 𝑦 a medida de que 𝑥 va
tomando cada uno de los valores posibles dentro de su rango.
Propósitos de la unidad
Mediante el estudio de esta unidad podrás:
 Diferenciar entre una variable dependiente y una

variable independiente.
 Construir una recta de regresión lineal simple.
 Comprobar los supuestos del modelo de regresión

lineal simple.
Propósitos de la unidad
3
Estadística II
Competencia específica
Ajustar modelos de dos variables correlacionadas para

predecir resultados de una población mediante el análisis de
regresión lineal simple
Competencia específica
2.1. Planteamiento del problema
Describir cada uno de los valores que toma 𝑦 de forma exacta a partir de la relación que x e y
tienen es muy difícil, poco práctico y poco realista. Sin embargo, si se ven las cosas en términos
de distribuciones, es decir, si nuestro interés se centra en determinar cómo cambia la
distribución de y a medida que x varía, las cosas cambian, entonces se puede utilizar la
esperanza condicional para explicar la relación de dependencia que existe. Ésta se define de la
siguiente forma:
E(y|X = x)…(2.1)
La ecuación 2.1 se lee como: “El promedio de los valores de y al fijar X = x”
Supone que en promedio lo valores y al fijar X = x están descritos por una recta. Formalmente
se escribe como:
𝐸(𝑦|𝑋 = 𝑥) = 𝛽0 + 𝛽1 ∗ 𝑥…(2.2)
Donde 𝛽0 es la ordenada al origen y 𝛽1 es la pendiente de la recta. Se acostumbra a escribir la

ecuación (2.2) únicamente como:
𝑦 = 𝛽0 + 𝛽1 ∗ 𝑥…(2.3)
Ahora bien, aunque exista una relación lineal los datos no caen exactamente sobre una recta ya
que existen causas externas que en ocasiones no se pueden medir por lo que se debe de tomar
en cuenta un error aleatorio (𝜀𝑖 ) que será calculado como la diferencia entre el valor observado
y el valor de predicción, es decir:
4
Estadística II
𝜀 = 𝑦 − (𝛽0 + 𝛽1 ∗ 𝑥)…(2.4)
Se supone que los errores tienen 𝐸(𝜀) = 0 y 𝑉𝑎𝑟(𝜀) = 𝜎 2 desconocida, además se suele
suponer que los errores no están correlacionados o que tienen alguna distribución simétrica, por
ejemplo, Normal. Así un modelo más plausible para los datos es:
𝑦 = 𝛽0 + 𝛽1 ∗ 𝑥 + 𝜀…(2.3)
La ecuación (2.3) se le llama Modelo de Regresión Lineal Simple. A los parámetros. 𝛽0 y 𝛽1

se suele llamar coeficientes de regresión. La pendiente 𝛽1 representa el cambio en la media
de la distribución de 𝑦 producido por un cambio unitario en 𝑥 . Si el rango de valores incluye a
𝑥 = 0, entonces la ordenada al origen 𝛽0, es la media de la distribución de la respuesta 𝑦
cuando 𝑥 = 0 y en este caso no tiene interpretación.
Ejemplo 1
Un médico registra los niveles de colesterol de 25 pacientes después de un cambio en su

dieta. El médico cree que el nivel de colesterol se relaciona con la dieta ingerida por los
pacientes, en particular con la cantidad de calorías que se ingieren diariamente. Las 25
observaciones se representan en una gráfica llamada Diagrama de dispersión y tiene como
objetivo identificar la relación entre el nivel de colesterol y la cantidad de calorías ingeridas.
Gráfica 2.1.a Diagrama de dispersión
5
Estadística II
En la Gráfica 2.1.a se observa con claridad que hay una relación lineal entre la variable 𝑥 e 𝑦.
La Grafica 2.1.b (siguiente gráfica) muestra la relación lineal mediante una línea recta.
Gráfica 2.1.b Relación lineal mediante una línea recta
Se puede ajustar el modelo: 𝑦 = 𝛽0 + 𝛽1 ∗ 𝑥
Con la variable regresora 𝑥 como la cantidad de calorías ingeridas en un día y la variable

regresora 𝑦 el nivel de colesterol del paciente.
Actividad 1. Conceptos básicos
Propósito
Identificar las características principales de un modelo de regresión lineal, a través de la

siguiente pregunta que responderás dentro del foro.
2.2. Supuestos del modelo
Se llama modelo lineal porque los parámetros están linealizados. Por ejemplo:
𝑦 = 𝑐 ∗ 𝑥 𝛽 …(2.4)
6
Estadística II
No es lineal en los parámetros ya que 𝛽 es un exponente. En este caso se puede aplicar un

logaritmo y construir un modelo lineal
ln 𝑦 = ln 𝑐 + 𝛽 ∗ ln 𝑥
Sea
𝑦 ′ = ln 𝑦, 𝛽0 = ln 𝑦 y 𝑥 ′ = ln 𝑥
Entonces se tiene un nuevo modelo lineal:
𝑦 ′ = 𝛽0 + 𝑥 ′ ∗ 𝛽1
al que ya se le puede aplicar un ajuste de regresión lineal.
Algunas transformaciones comunes para linealizar los parámetros son:
Ecuación del
Nombre del modelo Transformación Modelo Linealizado
Modelo
Exponencial 𝑦 = 𝛽0 ∗ 𝑒 𝛽1 ∗𝑥 𝑦 ′ = ln 𝑦 𝑥′ = 𝑥 𝑦′ = ln 𝛽0 ∗ 𝛽1 ∗ 𝑥’
Doblemente
𝑦 = 𝛽0 ∗ 𝑥 𝛽1 𝑦′ = 𝑦 𝑥 ′ = ln 𝑥 𝑦′ = 𝛽0 + 𝛽1 ∗ 𝑥’
Logarítmico
Hiperbólico 𝑦 = 𝛽0 ∗ 𝛽1⁄𝑥 𝑦′ = 𝑦 𝑥 ′ = 1⁄𝑥 𝑦′ = 𝛽0 + 𝛽1 ∗ 𝑥′
Inverso 𝑦 = 1⁄(𝛽0 + 𝛽1 ∗ 𝑥) 𝑦 ′ = 1⁄𝑦 𝑥′ = 𝑥 𝑦′ = 𝛽0 + 𝛽1 ∗ 𝑥′
Para predecir el valor de 𝑦 usando el modelo linealizado hay que aplicar la inversa de la
transformación correspondiente al mismo.
De modo que el modelo no necesariamente es lineal en 𝑥 , de hecho, la variable regresora

puede ser cualquier transformación como 𝑒 𝑥 ó 𝑠𝑒𝑛(𝑥). En la figura 2.2.a la variable 𝑥 sí es
lineal con respecto a 𝑦, aunque se pueden obtener comportamientos no lineales como el de la
figura 2.2.b donde la variable ln 𝑥 no es lineal con respecto a 𝑦, pero los parámetros 𝛽0 y 𝛽1 lo
son.
7
Estadística II
Figura 2.2.a
Figura 2.2.b
8
Estadística II
2.3. Estimación de los parámetros
2.3.1. Estimación por mínimos cuadrados
Supóngase que se tienen 𝑛 pares de datos, los cuales se obtuvieron de manera experimental,
𝑃1 (𝑥1 , 𝑦1 ), 𝑃2 (𝑥2 , 𝑦2 ), … , 𝑃𝑛 (𝑥𝑛 , 𝑦𝑛 )…(2.5)
Donde la variable 𝑦 es una función de 𝑥 . Un examen de los puntos (2.5) en el plano 𝑥𝑦

sugiere una relación lineal por lo que se contar con los estimadores 𝛽̂0 y 𝛽̂1 . El valor de la
variable 𝑦 puede expresarse como:
𝑦𝑖 = 𝛽̂0 + 𝛽̂1 ∗ 𝑥𝑖 + 𝜀𝑖 𝑖 = 1,2, … , 𝑛 (2.6)
Se considera que la ecuación (2.3) es un modelo poblacional de regresión, mientras que la

ecuación (2.5) es un modelo muestral de regresión, escrito en términos de los 𝑛 pares de
datos (𝑥𝑖 , 𝑦𝑖 ). Los parámetros 𝛽0 y 𝛽1 son desconocidos y lineales y deben estimarse con los
datos de la muestra. De acuerdo con el modelo (2.6) un estimador de 𝑦𝑖 tendría la siguiente
expresión:
𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 ∗ 𝑥𝑖 𝑖 = 1,2, … , 𝑛 (2.7)
A partir de (2.6) y (2.7) es posible concluir que:
𝜀̂𝑖 = 𝑦𝑖 − 𝑦̂𝑖 (2.8)
Donde 𝜀̂𝑖 es un estimador del error y se denomina residuo. Geométricamente 𝜀̂𝑖 mide la
distancia vertical desde el punto 𝑃𝑖 (𝑥𝑖 , 𝑦𝑖 ) a la recta ajustada 𝑦
̂ como se muestra en la figura
2.3ª.
Figura 2.3.a Ilustración de los residuales
9
Estadística II
Lo que se quiere es que la suma de los cuadrados de las diferencias entre las observaciones 𝑦𝑖
e𝑦̂𝑖 sea mínima. Como criterio de optimización se tomará aquel procedimiento de estimación
que minimice la suma de cuadrados de los residuos:
𝑛 𝑛
2 2
𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 𝑆𝑆𝐸(𝛽) = ∑ 𝜀̂𝑖 = ∑(𝑦𝑖 − [𝛽̂0 + 𝛽̂1 ∗ 𝑥𝑖 ])
𝑖=1 𝑖=1
A 𝑆𝑆𝐸(𝛽) se le conoce como la suma de cuadrados de los errores y al procedimiento como el

Principio de Mínimos Cuadrados.
Para lograr la minimización de 𝑆𝑆𝐸(𝛽) se toma el criterio de la primera derivada. Los

estimadores por mínimos cuadrados deben satisfacer:
𝑛
𝜕 𝑆𝑆𝐸(𝛽)
= −2 ∑ 𝑦𝑖 − [𝛽̂0 + 𝛽̂1 ∗ 𝑥𝑖 ] = 0
𝜕 𝛽̂0 𝑖=1
𝑛
𝜕 𝑆𝑆𝐸(𝛽)
= −2 ∑(𝑦𝑖 − [𝛽̂0 + 𝛽̂1 ∗ 𝑥𝑖 ]) ∗ 𝑥𝑖 = 0
𝜕 𝛽̂1 𝑖=1
Simplificando se obtienen las ecuaciones normales de mínimos cuadrados:
𝑛 ∗ 𝛽̂0 + 𝛽̂1 ∗ ∑𝑛𝑖=1 𝑥𝑖 = ∑𝑛𝑖=1 𝑦̂𝑖 (2.9)
𝛽̂0 ∗ ∑𝑛𝑖=1 𝑥𝑖 + 𝛽̂1 ∗ ∑𝑛𝑖=1 𝑥𝑖 2 = ∑𝑛𝑖=1 𝑦𝑖 ∗ 𝑥𝑖 (2.10)
Despejando se obtiene que los estimadores por mínimos cuadrados son:
𝛽̂0 = 𝑦̅ − 𝛽̂1 ∗ 𝑥̅ (2.11)
𝑛
∑ 𝑦𝑖 ∗𝑥𝑖 −𝑛∗𝑦̅∗𝑥̅
𝛽̂1 = 𝑖=1
∑ 𝑛 2 2
(2.10)
𝑖=𝑖 𝑥𝑖 −𝑛∗𝑥̅
10
Estadística II
Ejemplo 1
Una empresa que genera energía eléctrica está interesada en desarrollar un modelo que
relacione la demanda en horas pico (𝑦𝑖 , en kw) con el consumo mensual total de energía
durante el mes (𝑥𝑖 , en kwh). Los datos de 50 consumidores residenciales se muestran en la
tabla:
Cliente x y Cliente x y Cliente x y

1 802 5.91 18 3308 8.35 35 1304 6.72
2 888 7.00 19 1263 3.90 36 2614 11.30
3 1865 8.10 20 2183 7.89 37 1551 2.70
4 3510 11.53 21 1450 4.10 38 1775 3.64
5 1338 2.00 22 3515 8.67 39 1248 4.73
6 1054 9.36 23 474 3.14 40 3454 9.50
7 392 1.88 24 1623 3.29 41 3396 11.35
8 2126 6.36 25 1048 3.50 42 1322 6.85
9 1659 3.70 26 3352 6.56 43 3547 12.23
10 457 3.56 27 3252 9.45 44 1711 5.21
11 3035 10.67 28 1874 5.71 45 1588 3.25
12 1764 5.28 29 652 4.12 46 1216 4.43
13 2105 7.43 30 2499 5.00 47 3430 13.29
14 2972 7.98 31 2178 4.78 48 1741 9.33
15 1021 5.00 32 2758 8.33 49 3096 14.94
16 1466 4.20 33 3026 10.00 50 457 0.99
17 807 6.88 34 391 2.51
El gráfico de dispersión se muestra a continuación:
11
Estadística II
Se observa que los datos aparentemente siguen un comportamiento lineal por lo que se
procede a ajustar un modelo de regresión lineal simple por mínimos cuadrados.
Para estimar los parámetros del modelo se calculan primero:
50 𝑛
𝑥̅ = 1911.14, 𝑦̅ = 6.532, ∑ 𝑦𝑖 ∗ 𝑥𝑖 = 745525.2, ∑ 𝑥𝑖 2 = 231523963

𝑖=1 𝑖=1
Según las ecuaciones (2.11) y (2.10)
745525.2−(50∗1911.14∗6.532)
𝛽̂1 = 2)
= 0.002481
231523963−(50∗1911.14
𝛽̂0 = 6.532 − (0.002481 ∗ 1911.14) = 1.789559
El ajuste por mínimos cuadrados es:
𝑦̂ = 1.789559 + 0.002481 ∗ 𝑥
La pendiente es positiva lo que dice que el consumo de energía afecta de manera positiva la
demanda de energía y por cada unidad de consumo de energía la demanda crece en 0.002481.
La siguiente figura muestra la gráfica de dispersión junto con la recta de regresión ajustada por
mínimos cuadrados.
12
Estadística II
Supón que se quiere conocer la demanda de energía cuando el consumo fue de 2500 kwh
(𝑥0 ). Este dato no se encontraba con los datos originales, pero se puede utilizar la recta de
regresión y predecir la nueva observación de 𝑦 que se denotará por 𝑦
̂0
𝑦̂0 = 1.789559 + 0.002481 ∗ 2500

𝑦̂0 = 7.992059
Por lo tanto con un consumo de energía de 2500 kwh se espera una demanda de 7.992050 kw.
2.3.2. Teorema de Gauss Markov
Un resultado importante acerca de la calidad de los estimadores por mínimo cuadrados 𝛽̂0 y 𝛽̂1
es el Teorema de Gauss Markov, que establece que para el modelo de regresión lineal (2.6)
con las hipótesis 𝐸(𝜀) = 0 y 𝐸𝑎𝑟(𝜀) = 𝜎 2 y con errores no correlacionados, los estimadores por
mínimos cuadrados son insesgados y tienen varianza mínima en comparación con todos los
demás estimadores insesgados que sean combinaciones lineales de las 𝑦𝑖 .
2.3.3. Máxima Verosimilitud
Bajo la hipótesis de que 𝜀𝑖 ~𝑁(0, 𝜎 2 ) se tiene que 𝑦𝑖 = 𝛽0 + 𝛽1 ∗ 𝑥𝑖 + 𝜀𝑖 también tiene

distribución normal
𝑦𝑖 ~𝑁(𝛽0 + 𝛽1 ∗ 𝑥𝑖 , 𝜎 2 )
La función de verosimilitud para 𝑦 es la siguiente:
𝑛
2
1 (𝑦𝑖 − 𝛽0 − 𝛽1 ∗ 𝑥𝑖 )2
ℒ(𝛽0 , 𝛽1 , 𝜎 , 𝑦) = ∏ 𝑒𝑥𝑝 {− }
√2 ∗ 𝜋 ∗ 𝜎 2 2 ∗ 𝜎2
𝑖=1
De donde:
𝑛
2 2 )𝑛/2
(𝑦𝑖 − 𝛽0 − 𝛽1 ∗ 𝑥𝑖 )2
ℒ(𝛽0 , 𝛽1 , 𝜎 , 𝑦) = (2 ∗ 𝜋 ∗ 𝜎 𝑒𝑥𝑝 {− ∑ }
2 ∗ 𝜎2
𝑖=1
13
Estadística II
Aplicando la función logaritmo se tiene:
𝑛
𝑛 1
ln ℒ(𝛽0 , 𝛽1 , 𝜎 , 𝑦) = − ln(2 ∗ 𝜋 ∗ 𝜎 2 ) −
2
∑(𝑦𝑖 − 𝛽0 − 𝛽1 ∗ 𝑥𝑖 )2
2 2 ∗ 𝜎2
𝑖=1
Para encontrar los estimadores máximo verosímil se aplican las derivadas parciales a la función
ln ℒ(𝛽0 , 𝛽1 , 𝜎 2 , 𝑦) y se obtiene:
𝑛
𝜕 ln ℒ
= ∑(𝑦𝑖 − 𝛽0 − 𝛽1 ∗ 𝑥𝑖 ) = 0
𝜕 𝛽0
𝑖=1
⇒ 𝑛 ∗ 𝛽0 + 𝛽1 ∗ ∑𝑛𝑖=1 𝑥𝑖 = ∑𝑛𝑖=1 𝑦𝑖 (2.11)
𝑛
𝜕 ln ℒ
= ∑(𝑦𝑖 − 𝛽0 − 𝛽1 ∗ 𝑥𝑖 ) ∗ 𝑥𝑖 = 0
𝜕 𝛽1
𝑖=1
⇒ 𝛽̂0 ∗ ∑𝑛𝑖=1 𝑥𝑖 + 𝛽̂1 ∗ ∑𝑛𝑖=1 𝑥𝑖 2 = ∑𝑛𝑖=1 𝑦𝑖 ∗ 𝑥𝑖 (2.12)

𝑛
𝜕 ln ℒ (𝑦𝑖 − 𝛽0 − 𝛽1 ∗ 𝑥𝑖 )2 𝑛
=∑ − =0
𝜕 𝜎2 𝜎3 𝜎
𝑖=1
Observe que las ecuaciones (2.11) y (2.12) coinciden con las ecuaciones normales. Por lo
tanto, los estimadores máximo verosímil y los estimadores de mínimos cuadrados son los
mismos.
La varianza del error, 𝜎 2 , es un parámetro adicional desconocido, cuyo estimador máximo

verosímil es:
2
2
∑𝑛𝑖=1(𝑦𝑖 − 𝛽̂0 − 𝛽̂1 ∗ 𝑥𝑖 )
𝜎̂ =
𝑛
2
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 ∑𝑛𝑖=1 𝑒𝑖 2
𝜎̂ = =
𝑛 𝑛
14
Estadística II
Este estimador no es insesgado. Sin embargo, es posible construir un estimado insesgado

como:
2
∑𝑛𝑖=1 𝑒𝑖 2 2
𝜎̂ = ~ 𝜒(𝑛−2)
𝑛−2
𝑛
A la cantidad ∑𝑖=1 𝑒𝑖 2 se llama cuadrado medio residual (MSE).La raíz cuadrada de 𝜎 ̂ 2 se
le conoce como: error estándar de la regresión y tiene las mismas unidades que la variable
de respuesta.
2.4. Intervalos de confianza
Como los estimadores 𝛽̂0 y 𝛽̂1 pueden expresarse como combinaciones lineales de variables
normales, entonces se concluye que ambos también se distribuyen normalmente:
1 𝑥̅ 2
𝛽̂0 ~ 𝑁 (𝛽0 , 𝜎 2 ∗ [ + ])
𝑛 𝑆𝑥𝑥
𝜎2
𝛽̂1 ~ 𝑁 (𝛽1 , )
𝑆𝑥𝑥
Donde:
𝑆𝑥𝑥 = ∑(𝑥𝑖 − 𝑥̅ )2
𝑖=1
Recuerda que si se tienen dos variables aleatorias 𝑊 y 𝑉 independientes tal que:
2
𝑊~𝑁(0,1) y 𝑉~𝜒(𝑟)
Entonces la estadística 𝑇 se distribuye 𝑡 𝑆𝑡𝑢𝑑𝑒𝑛𝑡 con 𝑟 grados de libertad
𝑊
𝑇= ~ 𝑡(𝑟)
𝑉
√
𝑟
15
Estadística II
Regresando a nuestro tema la estadística
𝛽̂0 − 𝛽0
𝑧= ~𝑁(0,1)
1 𝑥̅ 2
√𝜎 2 ∗ [𝑛 + ]
𝑆𝑥𝑥
En la mayoría de las situaciones σ2 es un parámetro desconocido. Si se sustituye por su

estimador insesgado, se obtiene:
̂0 −𝛽0
𝛽
𝑡0 = 1 ̅2
𝑥
~𝑡𝑛−2 (2.13)
√𝑀𝑆𝐸∗[ + ]
𝑛 𝑆𝑥𝑥
Con lo que se procede a obtener un intervalo del 1 − 𝛼% para β0 :
1 𝑥̅ 2 1 𝑥̅ 2
(𝛽̂0 − 𝑡𝛼,𝑛−2 ∗ √𝑀𝑆𝐸 ∗ [ + ] ≤ 𝛽0 ≤ 𝛽̂0 + 𝑡𝛼,𝑛−2 ∗ √𝑀𝑆𝐸 ∗ [ + ])
2 𝑛 𝑆𝑥𝑥 2 𝑛 𝑆𝑥𝑥
El cuantil de una distribución t Student lo puedes encontrar en la pestaña Material de apoyo.
De la misma manera se construye un intervalo para la pendiente β1 al 1 − 𝛼% como:
𝑀𝑆𝐸 𝑀𝑆𝐸
(β̂1 − 𝑡𝛼,𝑛−2 ∗ √ ≤ β1 ≤ β̂1 + 𝑡𝛼,𝑛−2 ∗ √ )
2 Sxx 2 Sxx
Y un intervalo del 1 − 𝛼% de confianza para 𝜎 2 es:
(𝑛 − 2) ∗ 𝑀𝑆𝐸 (𝑛 − 2) ∗ 𝑀𝑆𝐸
( ≤ 𝜎2 ≤ )
𝜒𝛼2,𝑛−2 2
𝜒1− 𝛼
,𝑛−2
2 2
Ejemplo 1
Con los datos del consumo de energía de la sección 2.3 se calculan los intervalos a 95% de
̂ 0 , β̂1 y 𝜎̂ 2 . Se tienen los siguientes resultados:
confianza para β
16
Estadística II
x̅ 2 = 3′ 652,456.1 Sxx = 48′ 901,158 ∑ni=1(yi − ŷi )2 = 214.619323 MSE = 4.47123589
𝑡0.05,50−2 = 𝑡0.025,48 = 2.0106

2
Procedimiento
1.789559 − 2.0106 ∗ 0.6506796 ≤ β0 ≤ 1.789559 + 2.0106 ∗ 0.6506796

0.481302595 ≤ 𝛽0 ≤ 4.698900986
0.002481 − 2.0106 ∗ 0.000302381 ≤ β1 ≤ 0.002481 + 2.0106 ∗ 0.000302381

0.001873033 ≤ β1 ≤ 0.003088967
2 2
Para el intervalo de 𝜎 2 se necesita el cuantil 𝜒0.05 = 𝜒0.025,48 buscando en la tabla de la
,50−2
2
Ji-cuadrada se observa que no se encuentra el cuantil exacto con 48 grados de libertad, así que se
2 2
toma el cuantil más próximo, en este caso es 𝜒0.025,40 = 59.342 y 𝜒0.975,40 = 24.433
48 ∗ 4.47123589 48 ∗ 4.47123589
≤ 𝜎2 ≤
59.342 24.433
3.616651326 ≤ 𝜎 2 ≤ 8.7839939
Ésos son los intervalos a 95% de confianza, se observa que ninguno cruza por el 0, así que se
puede suponer que los estimadores son significativos para el modelo.
2.5. Intervalo de predicción
Es importante poder dar una referencia sobre la validez de las nuevas predicciones, es por ello
que un intervalo de confianza es de utilidad.
Un intervalo del 1 − 𝛼% de confianza es:
1 (𝑥0 − 𝑥̅ )2 1 (𝑥0 − 𝑥̅ )2
(𝑦̂0 − 𝑡𝛼,𝑛−2 ∗ √𝑀𝑆𝐸 ∗ [1 + + ] ≤ 𝑦0 ≤ 𝑦̂0 + 𝑡𝛼,𝑛−2 ∗ √𝑀𝑆𝐸 ∗ [1 + + ])
2 𝑛 𝑆𝑥𝑥 2 𝑛 𝑆𝑥𝑥
17
Estadística II
Ejemplo 1
Con los datos del consumo de energía de la sección 2.3 se calcula el intervalo de confianza a
95% de confianza para la nueva observación 𝑦̂0 = 7.992059 cuando 𝑥0 = 2500
7.992059 − 2.0106 ∗ 2.1429806 ≤ 𝑦0 ≤ 7.992059 + 2.0106 ∗ 2.1429806

3.683382154 ≤ 𝑦0 ≤ 12.30073585
El intervalo es de gran amplitud, debido a que el intervalo de predicción depende tanto del error
del modelo ajustado como del error asociado con observaciones futuras.
2.6. Pruebas de hipótesis
Las mismas estadísticas (2.13) permiten probar hipótesis relativas a β0 de la forma:
Hipótesis
𝐻0 : β0 = 0 𝑣𝑠 𝐻1 : β0 ≠ 0
Estadística de prueba
𝛽̂0 − 𝛽0
𝑡0 =
1 𝑥̅ 2
√𝑀𝑆𝐸 ∗ [𝑛 + 𝑆𝑥𝑥
]
Regla de decisión
Rechaza 𝐻0 si |𝑡0 | > 𝑡𝛼⁄2,𝑛−2 . En caso de que 𝐻0 no se rechace, significa que el parámetro
β0 no es significativo para el modelo, en tal caso, se puede omitir.
Al proceder con β1 como se hizo con β0 se tiene un resultado semejante:
Hipótesis:
𝐻0 : β1 = 0 𝑣𝑠 𝐻1 : β1 ≠ 0
𝛽̂1 − 𝛽1
𝑡0 =
𝑀𝑆𝐸
√S
xx
18
Estadística II
Regla de decisión
Rechaza 𝐻0 si |𝑡0 | > 𝑡𝛼⁄2,𝑛−2 . Esta hipótesis se relaciona con la significancia de la

regresión. Existe correlación entre 𝑥 e 𝑦 en caso de no rechazar 𝐻0 . En cambio, no hay
correlación entre la variable regresora y respuesta si 𝐻0 no se rechaza. Entonces, el mejor
estimador para cualquier 𝑥 es 𝑦
̅ ó la relación no es lineal. Por lo tanto, sino se rechaza 𝐻0 ,
equivale a decir que no hay relación lineal entre 𝑥 e 𝑦. Véase la figura 2.6a
Figura 2.6a
Ejemplo 1
Con los datos del consumo de energía de la sección 2.3 se prueban las hipótesis de los
parámetros con un nivel de significancia 𝛼 = 0.05.
Hipótesis
𝐻0 : β0 = 0 𝑣𝑠 𝐻1 : β0 ≠ 0
1.789559 − 0
𝑡0 = = 2.7503
1 3′ 652,456.1
√4.47123589 ∗ [ + ]
50 48′ 901,158
19
Estadística II
Regla de decisión
Rechaza 𝐻0 si |𝑡0 | > 𝑡0.025,48 . Como 2.7503 > 2.0106 se rechaza 𝐻0 y por lo tanto β0 es
significativo para el modelo.
Ahora se prueba la significancia de la regresión
Hipótesis:
𝐻0 : β1 = 0 𝑣𝑠 𝐻1 : β1 ≠ 0
0.002481 − 0
𝑡0 = = 6649
4.47123589
√ 48′ 901,158
Regla de decisión
Rechaza 𝐻0 si |𝑡0 | > 𝑡0.025,48 . Como 6649 > 2.0106 se rechaza 𝐻0 y por lo tanto β1 es
significativo para el modelo.
2.7. Análisis de varianza
Otra forma de comprobar la significancia de la regresión es mediante un análisis de varianza

que se basa en la partición de la variable respuesta. Se tiene que:
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 = ∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2 + ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 (2.14)

Donde:
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 Es la suma de cuadrados del total. Mide la variabilidad total en las
observaciones (𝑆𝑆𝑇)
∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2 Es la suma de cuadrados de la regresión (𝑆𝑆𝑅) y mide la variabilidad

explicada por la línea de regresión
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 Es la suma de cuadrados del error (𝑆𝑆𝐸) y es la cantidad que queda sin
explicar por la línea de regresión
20
Estadística II
De manera simbólica se escribe la ecuación (2.14) como:
𝑆𝑆𝑇 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸
Para probar la significancia de la regresión, es decir, la hipótesis:
𝐻0 : β1 = 0 𝑣𝑠 𝐻1 : β1 ≠ 0
Se utiliza el estadístico de prueba
𝑆𝑆𝑅 ⁄1 𝑀𝑆𝑅
𝐹0 = =
𝑆𝑆𝐸 ⁄(𝑛 − 2) 𝑀𝑆𝐸
La estadística 𝐹0 se expresa como el cociente de la suma de cuadrados “explicada” entre la

suma de cuadrados “no explicada” divididas a su vez entre sus respectivos grados de libertad
(1, 𝑛 − 2) y tiene una distribución 𝐹1,𝑛−2 , que es una distribución 𝐹 con 1 y 𝑛 − 2 grados de
libertad. La tabla de los cuantiles puedes encontrarla en la sección Material de apoyo.
Cuando las sumas de cuadrados se dividen entre sus grados de libertad se obtienen 𝑀𝑆𝑅 y
𝑀𝑆𝐸 , cuadrado medio de la regresión y cuadrado medio del error respectivamente.
Los valores se presentan desagregados en una tabla de Análisis de Varianza (ANOVA)
Tabla de Análisis de varianza

Fuente de Suma de Grados de Cuadrado
𝑭𝟎
variación cuadrados libertad medio
Regresión 𝑆𝑆𝑅 1 𝑀𝑆𝑅 𝑀𝑆𝑅/𝑀𝑆𝐸
Error 𝑆𝑆𝐸 𝑛−2 𝑀𝑆𝐸
Total 𝑆𝑆𝑇 𝑛−1
Se rechaza 𝐻0 a nivel de significancia 𝛼 si:
𝐹0 > 𝐹1−𝛼,1,𝑛−2
Ejemplo 1
Se probará la significancia de la regresión al nivel de significancia 𝛼 = 0.05 para el ejemplo

del consumo de energía de la sección 2.3.
21
Estadística II
Tabla de Análisis de varianza

Fuente de Suma de Grados de Cuadrado
𝑭𝟎
variación cuadrados libertad medio
Regresión 301.00432 1 301.00432 67.3201613
Error 214.619323 48 4.471235895
Total 515.7382 49
Hipótesis
𝐻0 : β1 = 0 𝑣𝑠 𝐻1 : β1 ≠ 0
Regla de decisión:
Se debe buscar en tablas el cuantil de una 𝐹0.95,1,48 , como no se encuentra, se busca con
los grados de libertad más próximos
𝐹0.95,1,50 = 4.034
Dado que 67.3201613 > 4.034 se rechaza 𝐻0 , por lo tanto existe evidencia estadística para
suponer que β1 ≠ 0.
Actividad 2. Ajuste de una regresión lineal simple
Propósitos.
Resolver un problema de regresión lineal simple, así como construir su gráfica, ajustarla
mediante mínimos cuadrados, calcular el estadístico, construir tablas de análisis de varianza
y prueba.
2.8. Coeficiente de determinación
La cantidad
𝑆𝑆𝐸
𝑅2 = 1 −
𝑆𝑆𝑇
22
Estadística II
se llama coeficiente de determinación. Como 𝑆𝑆𝑇 es una medida de variabilidad de 𝑦 sin

considerar el efecto de la variable regresora 𝑥 y 𝑆𝑆𝐸 es una media de la variabilidad de 𝑦 que
queda después de haber tenido en consideración a 𝑥 , 𝑅2 se llama con frecuencia, la
proporción de la variación explicada por el regresor 𝑥.
Ya que 0 ≤ 𝑆𝑆𝐸 ≤ 𝑆𝑆𝑇, entonces la estadística tiene un rango de 0 ≤ 𝑅 2 ≤ 1 . Los valores

cercanos a 1 implican que la mayor parte de la variabilidad de 𝑦 está explicada por el modelo
de regresión, esto es lo deseable cuando se ajusta un modelo de regresión.
El estadístico 𝑅 2 se debe usar con precaución, porque siempre es posible conseguir que 𝑅 2
sea grande agregando términos suficientes al modelo. Por ejemplo, si no hay puntos repetidos
(más de un valor de 𝑦 con el mismo valor de 𝑥 ), un polinomio de grado 𝑛 − 1 producirá un
2
𝑛 puntos de datos. Cuando hay puntos repetidos, 𝑅2
ajuste “perfecto”, con 𝑅 = 1, de los
nunca puede ser exactamente igual a1, porque el modelo no puede explicar la variabilidad
relacionada con el error “puro”.
Ejemplo 1
Nuevamente se toman los resultados de la sección 2.3 se tiene:
214.619323
𝑅2 = 1 − = 0.5838599
515.7382
Por lo tanto la variabilidad explicada por el modelo es de 58.39%. En realidad, el ajuste no es

muy bueno, se ha visto en las secciones anteriores que se acepta la significancia de la
regresión, es decir, β1 ≠ 0, así que la demanda de energía es explicada por el consumo
mensual. Es posible que existan otras variables que estén afectando el consumo, que no se
mida y por eso no se esté explicando una mayor variabilidad.
2.9. Análisis de residuales
Para lograr hacer inferencia en el análisis de regresión (intervalos de confianza, prueba de

hipótesis, ANOVA) se ha necesitado el supuesto distribucional y éste se consigue del hecho de
que los errores (ε) tienen una distribución normal con media 0 y varianza constante σ2 y no
están correlacionados entre ellos.
23
Estadística II
Es importante hacer un chequeo de estos supuestos para que los resultados tengan validez
𝑛
estadística. No se verifica el supuesto 𝐸(ε̂𝑖 ) = 0, porque por construcción ∑𝑖=1 ε
̂𝑖 = 0.
Los errores (𝛆) tienen una distribución normal
Pequeñas desviaciones respecto a la hipótesis de normalidad no afectan mucho al modelo,

pero una no normalidad grande es potencialmente más seria, porque la inferencia estadística a
través de los estadísticos 𝑡 ó 𝐹 y los intervalos de confianza y de predicción dependen del
supuesto de normalidad. Un método sencillo para comprobar el supuesto es observar un
histograma de los residuos y esperar a que tome la forma de una campana. También existen las
pruebas no paramétricas como la Kolmogorov-Smirnov, la prueba Ji-cuadrada de bondad y
ajuste y la prueba Anderson-Darling que se estudiaron en la unidad 1.
Varianza constante 𝛔𝟐
Este supuesto se conoce como homocedasticidad y es el hecho de que la dispersión de la

desviación estándar de los errores es la misma no importando que la curva crezca. Si este
supuesto no se cumple entonces los estimadores dejan de ser de varianza mínima entre todos
los estimadores lineales, que es lo que garantiza el Teorema de Gauss-Markov.
Para verificar este supuesto se construye una gráfica de los residuos ε ̂𝑖 en función de los
valores correspondientes ŷ 𝑖 . Si la gráfica se parece a la de la figura 2.9a, indica que los
residuos se pueden encerrar en una banda horizontal, entonces no hay defectos obvios del
modelo. Las gráficas de ε̂𝑖 en función de ŷ𝑖 que se parezcan a cualquiera de los patrones de
las partes 2.90b a 2.9d son síntomas de deficiencias del modelo.
Figura 2.9
24
Estadística II
Residuos no correlacionados
Para poder observar si los residuos son no correlacionados se realiza una gráfica de los
residuos en secuencia temporal para tener una idea si los errores en un período se
correlacionan con los de otros períodos. Si este supuesto no se cumple, los estimadores
pierden la eficiencia, también existe la posibilidad de que se sobre-estime el 𝑅 2 y de que las
pruebas 𝑡 y 𝐹 dejen de ser validas, si se aplica, es probable que conduzcan a conclusiones
erróneas. Se debe tener cuidado al realizar este tipo de gráficas ya que cuando las
observaciones tienen cierto orden en particular, por ejemplo, si los datos fueron tomados en el
tiempo, si esto ocurre, entonces se pueden obtener gráficas diferentes para diferentes órdenes.
La correlación entre los errores del modelo en distintos períodos se llama autocorrelación. Una
gráfica como la figura a) indica una correlación de los residuos, mientras que la figura b)
muestra no correlación de los mismos, esto último es lo que se desea.
Ejemplo 1
Para los datos del consumo de energía. Se procede hacer un análisis gráfico
Gráficamente la distribución de los residuos no aparenta ser la de una normal, pero se observa
25
Estadística II
centrada alrededor del cero.
No se observa un patrón de los ε

̂𝑖 en función de ŷ𝑖 . Por lo que se considera que no se viola el
supuesto de varianza constante.
En la gráfica de tiempo con los residuos no se observa ningún patrón. Se considera que los
residuos no se encuentran correlacionados.
26
Estadística II
Actividad 3. Comprobación de supuestos en el análisis de regresión lineal

simple
Propósito
Comprobar supuestos en el análisis de regresión lineal simple.
2.10. Transformaciones estabilizadoras de varianza
El supuesto de varianza constante es el más difícil de conseguir. En estos casos es útil realizar
transformaciones ya sea a la variable regresora o a la variable respuesta como puede ser
elevar a una potencia o una transformación como un seno o un logaritmo.
Debes tener cuidado al realizar una transformación, puedes lograr el mejor modelo
matemáticamente, pero no obtener una buena interpretación acerca de la relación entre 𝑥 e 𝑦.
A veces se puede recurrir a la experiencia o a consideraciones teóricas para sugerir la

transformación adecuada, el problema es que la mayoría de las veces no se cuenta con esta
información.
Algunas transformaciones sugeridas son las siguientes:
Relación entre 𝝈𝟐 y 𝑬(𝒚) Transformación

2 ′
𝜎 ∝ 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 𝑦 = 𝑦 (sin transformación)
𝑦 ′ = √𝑦 (es común cuando los datos son de tipo
𝜎2 ∝ 𝐸(𝑦)
Poisson, es decir, conteos)
2
𝑦 ′ = 𝑠𝑖𝑛−1 √𝑦 (se utiliza cuando los datos
𝜎 ∝ 𝐸(𝑦)[1 − 𝐸(𝑦)]
provienen de una binomial 0 ≤ 𝑦𝑖 ≤ 1)
𝜎2 ∝ [𝐸(𝑦)]2 𝑦 ′ = ln 𝑦
𝜎2 ∝ [𝐸(𝑦)]3 𝑦 ′ = 𝑦 −1⁄2
𝜎2 ∝ [𝐸(𝑦)]4 𝑦 ′ = 𝑦 −1
El símbolo ∝ se lee “proporcional”
Evidencia de aprendizaje. Ajuste de un análisis de regresión lineal
27
Estadística II
Propósito
Aplicar los conocimientos adquiridos durante la unidad, empleando los métodos de regresión
lineal.
Cierre de la unidad
Durante la unidad 2 has aprendido como relacionar mediante un modelo matemático dos
variables que están correlacionadas. Además el modelo de regresión lineal simple tiene
propiedades estadísticas deseables ya que al estimar los parámetros mediante el método de
mínimos cuadrados se obtienen aquellos estimadores que son los de mínima varianza, es decir,
los mejores estimadores. Si a esto se le añade el supuesto distribucional de normalidad se
puede hacer inferencia sobre los estimadores y sobre observaciones futuras, pues el plus de
ajustar un modelo matemático es que se pueda predecir nuevos datos.
En la Unidad 3 no sólo se relacionan dos variables, se involucrarán más de dos variables

regresoras.
Para saber más
Te sugiero la siguiente liga donde encontrarás los códigos en R para ajustar un modelo de
regresión lineal.
Robert, I. K. (2012). Web log message. Recuperado de:

http://www.statmethods.net/stats/regression.html
Fuentes de consulta
 Montgomery, D. C., Peck, E. A. y Vinning, G. G. (2001). Introduction to Linear Regression

Analysis (3a ed.). New York: John Wiley and Sons.
 Neter, J., Wasserman, W. y Kunter, M.H. (1990) Applied Linear Statistical Models (3a ed.).
Boston: Irwin.
28

Unidad 2. Regresion Lineal Simple

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Unidad 2. Regresion Lineal Simple

Cargado por

Copyright:

Formatos disponibles

Estadística II

Unidad 2. Regresión lineal simple

Unidad 2. Regresión lineal simple

Universidad Abierta y a Distancia de México

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

2.1. Planteamiento del problema 4

Actividad 1. Conceptos básicos 6

2.2. Supuestos del modelo 6

2.3. Estimación de los parámetros 9

2.3.1. Estimación por mínimos cuadrados ................................................................................................ 9

2.3.2. Teorema de Gauss Markov ............................................................................................................ 13

2.3.3. Máxima Verosimilitud ................................................................................................................... 13

2.4. Intervalos de confianza 15

2.5. Intervalo de predicción 17

2.6. Pruebas de hipótesis 18

2.7. Análisis de varianza 20

Actividad 2. Ajuste de una regresión lineal simple 22

2.8. Coeficiente de determinación 22

2.9. Análisis de residuales 23

Actividad 3. Comprobación de supuestos en el análisis de regresión lineal simple 27

2.10. Transformaciones estabilizadoras de varianza 27

Evidencia de aprendizaje. Ajuste de un análisis de regresión lineal 27

Autorreflexiones ¡Error! Marcador no de

Para saber más 28

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

Unidad 2. Regresión lineal simple

Se puede usar la regresión para responder a preguntas como:

Se observa que hay dos tipos de variables:

 𝑥: La variable independiente, predictora o regresora

Mediante el estudio de esta unidad podrás:

 Diferenciar entre una variable dependiente y una

 Construir una recta de regresión lineal simple.

 Comprobar los supuestos del modelo de regresión

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

Ajustar modelos de dos variables correlacionadas para

2.1. Planteamiento del problema

La ecuación 2.1 se lee como: “El promedio de los valores de y al fijar X = x”

Donde 𝛽0 es la ordenada al origen y 𝛽1 es la pendiente de la recta. Se acostumbra a escribir la

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

La ecuación (2.3) se le llama Modelo de Regresión Lineal Simple. A los parámetros. 𝛽0 y 𝛽1

Un médico registra los niveles de colesterol de 25 pacientes después de un cambio en su

Gráfica 2.1.a Diagrama de dispersión

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

Gráfica 2.1.b Relación lineal mediante una línea recta

Se puede ajustar el modelo: 𝑦 = 𝛽0 + 𝛽1 ∗ 𝑥

Con la variable regresora 𝑥 como la cantidad de calorías ingeridas en un día y la variable

Actividad 1. Conceptos básicos

Identificar las características principales de un modelo de regresión lineal, a través de la

2.2. Supuestos del modelo

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

No es lineal en los parámetros ya que 𝛽 es un exponente. En este caso se puede aplicar un

Entonces se tiene un nuevo modelo lineal:

al que ya se le puede aplicar un ajuste de regresión lineal.

Algunas transformaciones comunes para linealizar los parámetros son:

De modo que el modelo no necesariamente es lineal en 𝑥 , de hecho, la variable regresora

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

2.3. Estimación de los parámetros

2.3.1. Estimación por mínimos cuadrados

𝑃1 (𝑥1 , 𝑦1 ), 𝑃2 (𝑥2 , 𝑦2 ), … , 𝑃𝑛 (𝑥𝑛 , 𝑦𝑛 )…(2.5)

Donde la variable 𝑦 es una función de 𝑥 . Un examen de los puntos (2.5) en el plano 𝑥𝑦

𝑦𝑖 = 𝛽̂0 + 𝛽̂1 ∗ 𝑥𝑖 + 𝜀𝑖 𝑖 = 1,2, … , 𝑛 (2.6)

Se considera que la ecuación (2.3) es un modelo poblacional de regresión, mientras que la

𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 ∗ 𝑥𝑖 𝑖 = 1,2, … , 𝑛 (2.7)