Está en la página 1de 28

Estadística II

Unidad 2. Regresión lineal simple

Licenciatura en Matemáticas

Estadística II

4° semestre

Unidad 2. Regresión lineal simple

Clave:
05142421/06142421

Universidad Abierta y a Distancia de México

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

1
Estadística II
Unidad 2. Regresión lineal simple

Índice
Unidad 2. Regresión lineal simple 3

Presentación de la unidad 3

Propósitos de la unidad 3

Competencia específica 4

2.1. Planteamiento del problema 4

Actividad 1. Conceptos básicos 6

2.2. Supuestos del modelo 6

2.3. Estimación de los parámetros 9

2.3.1. Estimación por mínimos cuadrados ................................................................................................ 9

2.3.2. Teorema de Gauss Markov ............................................................................................................ 13

2.3.3. Máxima Verosimilitud ................................................................................................................... 13

2.4. Intervalos de confianza 15

2.5. Intervalo de predicción 17

2.6. Pruebas de hipótesis 18

2.7. Análisis de varianza 20

Actividad 2. Ajuste de una regresión lineal simple 22

2.8. Coeficiente de determinación 22

2.9. Análisis de residuales 23

Actividad 3. Comprobación de supuestos en el análisis de regresión lineal simple 27

2.10. Transformaciones estabilizadoras de varianza 27

Evidencia de aprendizaje. Ajuste de un análisis de regresión lineal 27

Autorreflexiones ¡Error! Marcador no de

Cierre de la unidad 28

Para saber más 28

Fuentes de consulta 28

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

2
Estadística II
Unidad 2. Regresión lineal simple

Unidad 2. Regresión lineal simple

Presentación de la unidad

El análisis de regresión es una técnica estadística que se utiliza para estudiar las relaciones de
dependencia entre variables.

Se puede usar la regresión para responder a preguntas como:

La relación entre los gastos en publicidad y las ventas de una empresa, el cambio en el nivel de
colesterol cuando una persona cambia sus hábitos alimenticios, y si esto sucede ¿los cambios
observados también dependen de factores como: sexo, edad o cantidad de ejercicio que realiza
la persona?

Se puede observar que en el primer caso los gastos en publicidad implican un cambio en los
gastos en ventas.

En el segundo caso, cambiar los hábitos alimenticios implica un cambio en el nivel de colesterol.

Se observa que hay dos tipos de variables:

 𝑥: La variable independiente, predictora o regresora


 𝑦: la variable dependiente o variable respuesta

El objetivo del análisis de regresión será entender cómo cambia 𝑦 a medida de que 𝑥 va
tomando cada uno de los valores posibles dentro de su rango.

Propósitos de la unidad

Mediante el estudio de esta unidad podrás:

 Diferenciar entre una variable dependiente y una


variable independiente.

 Construir una recta de regresión lineal simple.

 Comprobar los supuestos del modelo de regresión


lineal simple.
Propósitos de la unidad

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

3
Estadística II
Unidad 2. Regresión lineal simple

Competencia específica

Ajustar modelos de dos variables correlacionadas para


predecir resultados de una población mediante el análisis de
regresión lineal simple

Competencia específica

2.1. Planteamiento del problema

Describir cada uno de los valores que toma 𝑦 de forma exacta a partir de la relación que x e y
tienen es muy difícil, poco práctico y poco realista. Sin embargo, si se ven las cosas en términos
de distribuciones, es decir, si nuestro interés se centra en determinar cómo cambia la
distribución de y a medida que x varía, las cosas cambian, entonces se puede utilizar la
esperanza condicional para explicar la relación de dependencia que existe. Ésta se define de la
siguiente forma:

E(y|X = x)…(2.1)

La ecuación 2.1 se lee como: “El promedio de los valores de y al fijar X = x”

Supone que en promedio lo valores y al fijar X = x están descritos por una recta. Formalmente
se escribe como:

𝐸(𝑦|𝑋 = 𝑥) = 𝛽0 + 𝛽1 ∗ 𝑥…(2.2)

Donde 𝛽0 es la ordenada al origen y 𝛽1 es la pendiente de la recta. Se acostumbra a escribir la


ecuación (2.2) únicamente como:

𝑦 = 𝛽0 + 𝛽1 ∗ 𝑥…(2.3)

Ahora bien, aunque exista una relación lineal los datos no caen exactamente sobre una recta ya
que existen causas externas que en ocasiones no se pueden medir por lo que se debe de tomar
en cuenta un error aleatorio (𝜀𝑖 ) que será calculado como la diferencia entre el valor observado
y el valor de predicción, es decir:

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

4
Estadística II
Unidad 2. Regresión lineal simple

𝜀 = 𝑦 − (𝛽0 + 𝛽1 ∗ 𝑥)…(2.4)

Se supone que los errores tienen 𝐸(𝜀) = 0 y 𝑉𝑎𝑟(𝜀) = 𝜎 2 desconocida, además se suele
suponer que los errores no están correlacionados o que tienen alguna distribución simétrica, por
ejemplo, Normal. Así un modelo más plausible para los datos es:

𝑦 = 𝛽0 + 𝛽1 ∗ 𝑥 + 𝜀…(2.3)

La ecuación (2.3) se le llama Modelo de Regresión Lineal Simple. A los parámetros. 𝛽0 y 𝛽1


se suele llamar coeficientes de regresión. La pendiente 𝛽1 representa el cambio en la media
de la distribución de 𝑦 producido por un cambio unitario en 𝑥 . Si el rango de valores incluye a
𝑥 = 0, entonces la ordenada al origen 𝛽0, es la media de la distribución de la respuesta 𝑦
cuando 𝑥 = 0 y en este caso no tiene interpretación.

Ejemplo 1

Un médico registra los niveles de colesterol de 25 pacientes después de un cambio en su


dieta. El médico cree que el nivel de colesterol se relaciona con la dieta ingerida por los
pacientes, en particular con la cantidad de calorías que se ingieren diariamente. Las 25
observaciones se representan en una gráfica llamada Diagrama de dispersión y tiene como
objetivo identificar la relación entre el nivel de colesterol y la cantidad de calorías ingeridas.

Gráfica 2.1.a Diagrama de dispersión

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

5
Estadística II
Unidad 2. Regresión lineal simple

En la Gráfica 2.1.a se observa con claridad que hay una relación lineal entre la variable 𝑥 e 𝑦.
La Grafica 2.1.b (siguiente gráfica) muestra la relación lineal mediante una línea recta.

Gráfica 2.1.b Relación lineal mediante una línea recta

Se puede ajustar el modelo: 𝑦 = 𝛽0 + 𝛽1 ∗ 𝑥

Con la variable regresora 𝑥 como la cantidad de calorías ingeridas en un día y la variable


regresora 𝑦 el nivel de colesterol del paciente.

Actividad 1. Conceptos básicos

Propósito

Identificar las características principales de un modelo de regresión lineal, a través de la


siguiente pregunta que responderás dentro del foro.

2.2. Supuestos del modelo

Se llama modelo lineal porque los parámetros están linealizados. Por ejemplo:

𝑦 = 𝑐 ∗ 𝑥 𝛽 …(2.4)

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

6
Estadística II
Unidad 2. Regresión lineal simple

No es lineal en los parámetros ya que 𝛽 es un exponente. En este caso se puede aplicar un


logaritmo y construir un modelo lineal

ln 𝑦 = ln 𝑐 + 𝛽 ∗ ln 𝑥
Sea

𝑦 ′ = ln 𝑦, 𝛽0 = ln 𝑦 y 𝑥 ′ = ln 𝑥

Entonces se tiene un nuevo modelo lineal:

𝑦 ′ = 𝛽0 + 𝑥 ′ ∗ 𝛽1

al que ya se le puede aplicar un ajuste de regresión lineal.

Algunas transformaciones comunes para linealizar los parámetros son:

Ecuación del
Nombre del modelo Transformación Modelo Linealizado
Modelo

Exponencial 𝑦 = 𝛽0 ∗ 𝑒 𝛽1 ∗𝑥 𝑦 ′ = ln 𝑦 𝑥′ = 𝑥 𝑦′ = ln 𝛽0 ∗ 𝛽1 ∗ 𝑥’
Doblemente
𝑦 = 𝛽0 ∗ 𝑥 𝛽1 𝑦′ = 𝑦 𝑥 ′ = ln 𝑥 𝑦′ = 𝛽0 + 𝛽1 ∗ 𝑥’
Logarítmico
Hiperbólico 𝑦 = 𝛽0 ∗ 𝛽1⁄𝑥 𝑦′ = 𝑦 𝑥 ′ = 1⁄𝑥 𝑦′ = 𝛽0 + 𝛽1 ∗ 𝑥′
Inverso 𝑦 = 1⁄(𝛽0 + 𝛽1 ∗ 𝑥) 𝑦 ′ = 1⁄𝑦 𝑥′ = 𝑥 𝑦′ = 𝛽0 + 𝛽1 ∗ 𝑥′

Para predecir el valor de 𝑦 usando el modelo linealizado hay que aplicar la inversa de la
transformación correspondiente al mismo.

De modo que el modelo no necesariamente es lineal en 𝑥 , de hecho, la variable regresora


puede ser cualquier transformación como 𝑒 𝑥 ó 𝑠𝑒𝑛(𝑥). En la figura 2.2.a la variable 𝑥 sí es
lineal con respecto a 𝑦, aunque se pueden obtener comportamientos no lineales como el de la
figura 2.2.b donde la variable ln 𝑥 no es lineal con respecto a 𝑦, pero los parámetros 𝛽0 y 𝛽1 lo
son.

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

7
Estadística II
Unidad 2. Regresión lineal simple

Figura 2.2.a

Figura 2.2.b

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

8
Estadística II
Unidad 2. Regresión lineal simple

2.3. Estimación de los parámetros

2.3.1. Estimación por mínimos cuadrados

Supóngase que se tienen 𝑛 pares de datos, los cuales se obtuvieron de manera experimental,

𝑃1 (𝑥1 , 𝑦1 ), 𝑃2 (𝑥2 , 𝑦2 ), … , 𝑃𝑛 (𝑥𝑛 , 𝑦𝑛 )…(2.5)

Donde la variable 𝑦 es una función de 𝑥 . Un examen de los puntos (2.5) en el plano 𝑥𝑦


sugiere una relación lineal por lo que se contar con los estimadores 𝛽̂0 y 𝛽̂1 . El valor de la
variable 𝑦 puede expresarse como:

𝑦𝑖 = 𝛽̂0 + 𝛽̂1 ∗ 𝑥𝑖 + 𝜀𝑖 𝑖 = 1,2, … , 𝑛 (2.6)

Se considera que la ecuación (2.3) es un modelo poblacional de regresión, mientras que la


ecuación (2.5) es un modelo muestral de regresión, escrito en términos de los 𝑛 pares de
datos (𝑥𝑖 , 𝑦𝑖 ). Los parámetros 𝛽0 y 𝛽1 son desconocidos y lineales y deben estimarse con los
datos de la muestra. De acuerdo con el modelo (2.6) un estimador de 𝑦𝑖 tendría la siguiente
expresión:

𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 ∗ 𝑥𝑖 𝑖 = 1,2, … , 𝑛 (2.7)

A partir de (2.6) y (2.7) es posible concluir que:

𝜀̂𝑖 = 𝑦𝑖 − 𝑦̂𝑖 (2.8)

Donde 𝜀̂𝑖 es un estimador del error y se denomina residuo. Geométricamente 𝜀̂𝑖 mide la
distancia vertical desde el punto 𝑃𝑖 (𝑥𝑖 , 𝑦𝑖 ) a la recta ajustada 𝑦
̂ como se muestra en la figura
2.3ª.

Figura 2.3.a Ilustración de los residuales

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

9
Estadística II
Unidad 2. Regresión lineal simple

Lo que se quiere es que la suma de los cuadrados de las diferencias entre las observaciones 𝑦𝑖
e𝑦̂𝑖 sea mínima. Como criterio de optimización se tomará aquel procedimiento de estimación
que minimice la suma de cuadrados de los residuos:

𝑛 𝑛
2 2
𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑎𝑟 𝑆𝑆𝐸(𝛽) = ∑ 𝜀̂𝑖 = ∑(𝑦𝑖 − [𝛽̂0 + 𝛽̂1 ∗ 𝑥𝑖 ])
𝑖=1 𝑖=1

A 𝑆𝑆𝐸(𝛽) se le conoce como la suma de cuadrados de los errores y al procedimiento como el


Principio de Mínimos Cuadrados.

Para lograr la minimización de 𝑆𝑆𝐸(𝛽) se toma el criterio de la primera derivada. Los


estimadores por mínimos cuadrados deben satisfacer:

𝑛
𝜕 𝑆𝑆𝐸(𝛽)
= −2 ∑ 𝑦𝑖 − [𝛽̂0 + 𝛽̂1 ∗ 𝑥𝑖 ] = 0
𝜕 𝛽̂0 𝑖=1

𝑛
𝜕 𝑆𝑆𝐸(𝛽)
= −2 ∑(𝑦𝑖 − [𝛽̂0 + 𝛽̂1 ∗ 𝑥𝑖 ]) ∗ 𝑥𝑖 = 0
𝜕 𝛽̂1 𝑖=1

Simplificando se obtienen las ecuaciones normales de mínimos cuadrados:

𝑛 ∗ 𝛽̂0 + 𝛽̂1 ∗ ∑𝑛𝑖=1 𝑥𝑖 = ∑𝑛𝑖=1 𝑦̂𝑖 (2.9)

𝛽̂0 ∗ ∑𝑛𝑖=1 𝑥𝑖 + 𝛽̂1 ∗ ∑𝑛𝑖=1 𝑥𝑖 2 = ∑𝑛𝑖=1 𝑦𝑖 ∗ 𝑥𝑖 (2.10)

Despejando se obtiene que los estimadores por mínimos cuadrados son:

𝛽̂0 = 𝑦̅ − 𝛽̂1 ∗ 𝑥̅ (2.11)

𝑛
∑ 𝑦𝑖 ∗𝑥𝑖 −𝑛∗𝑦̅∗𝑥̅
𝛽̂1 = 𝑖=1
∑ 𝑛 2 2
(2.10)
𝑖=𝑖 𝑥𝑖 −𝑛∗𝑥̅

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

10
Estadística II
Unidad 2. Regresión lineal simple

Ejemplo 1

Una empresa que genera energía eléctrica está interesada en desarrollar un modelo que
relacione la demanda en horas pico (𝑦𝑖 , en kw) con el consumo mensual total de energía
durante el mes (𝑥𝑖 , en kwh). Los datos de 50 consumidores residenciales se muestran en la
tabla:

Cliente x y Cliente x y Cliente x y


1 802 5.91 18 3308 8.35 35 1304 6.72
2 888 7.00 19 1263 3.90 36 2614 11.30
3 1865 8.10 20 2183 7.89 37 1551 2.70
4 3510 11.53 21 1450 4.10 38 1775 3.64
5 1338 2.00 22 3515 8.67 39 1248 4.73
6 1054 9.36 23 474 3.14 40 3454 9.50
7 392 1.88 24 1623 3.29 41 3396 11.35
8 2126 6.36 25 1048 3.50 42 1322 6.85
9 1659 3.70 26 3352 6.56 43 3547 12.23
10 457 3.56 27 3252 9.45 44 1711 5.21
11 3035 10.67 28 1874 5.71 45 1588 3.25
12 1764 5.28 29 652 4.12 46 1216 4.43
13 2105 7.43 30 2499 5.00 47 3430 13.29
14 2972 7.98 31 2178 4.78 48 1741 9.33
15 1021 5.00 32 2758 8.33 49 3096 14.94
16 1466 4.20 33 3026 10.00 50 457 0.99
17 807 6.88 34 391 2.51

El gráfico de dispersión se muestra a continuación:

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

11
Estadística II
Unidad 2. Regresión lineal simple

Se observa que los datos aparentemente siguen un comportamiento lineal por lo que se
procede a ajustar un modelo de regresión lineal simple por mínimos cuadrados.

Para estimar los parámetros del modelo se calculan primero:

50 𝑛

𝑥̅ = 1911.14, 𝑦̅ = 6.532, ∑ 𝑦𝑖 ∗ 𝑥𝑖 = 745525.2, ∑ 𝑥𝑖 2 = 231523963


𝑖=1 𝑖=1

Según las ecuaciones (2.11) y (2.10)

745525.2−(50∗1911.14∗6.532)
𝛽̂1 = 2)
= 0.002481
231523963−(50∗1911.14

𝛽̂0 = 6.532 − (0.002481 ∗ 1911.14) = 1.789559

El ajuste por mínimos cuadrados es:

𝑦̂ = 1.789559 + 0.002481 ∗ 𝑥

La pendiente es positiva lo que dice que el consumo de energía afecta de manera positiva la
demanda de energía y por cada unidad de consumo de energía la demanda crece en 0.002481.

La siguiente figura muestra la gráfica de dispersión junto con la recta de regresión ajustada por
mínimos cuadrados.

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

12
Estadística II
Unidad 2. Regresión lineal simple

Supón que se quiere conocer la demanda de energía cuando el consumo fue de 2500 kwh
(𝑥0 ). Este dato no se encontraba con los datos originales, pero se puede utilizar la recta de
regresión y predecir la nueva observación de 𝑦 que se denotará por 𝑦
̂0

𝑦̂0 = 1.789559 + 0.002481 ∗ 2500


𝑦̂0 = 7.992059

Por lo tanto con un consumo de energía de 2500 kwh se espera una demanda de 7.992050 kw.

2.3.2. Teorema de Gauss Markov

Un resultado importante acerca de la calidad de los estimadores por mínimo cuadrados 𝛽̂0 y 𝛽̂1
es el Teorema de Gauss Markov, que establece que para el modelo de regresión lineal (2.6)
con las hipótesis 𝐸(𝜀) = 0 y 𝐸𝑎𝑟(𝜀) = 𝜎 2 y con errores no correlacionados, los estimadores por
mínimos cuadrados son insesgados y tienen varianza mínima en comparación con todos los
demás estimadores insesgados que sean combinaciones lineales de las 𝑦𝑖 .

2.3.3. Máxima Verosimilitud

Bajo la hipótesis de que 𝜀𝑖 ~𝑁(0, 𝜎 2 ) se tiene que 𝑦𝑖 = 𝛽0 + 𝛽1 ∗ 𝑥𝑖 + 𝜀𝑖 también tiene


distribución normal

𝑦𝑖 ~𝑁(𝛽0 + 𝛽1 ∗ 𝑥𝑖 , 𝜎 2 )

La función de verosimilitud para 𝑦 es la siguiente:

𝑛
2
1 (𝑦𝑖 − 𝛽0 − 𝛽1 ∗ 𝑥𝑖 )2
ℒ(𝛽0 , 𝛽1 , 𝜎 , 𝑦) = ∏ 𝑒𝑥𝑝 {− }
√2 ∗ 𝜋 ∗ 𝜎 2 2 ∗ 𝜎2
𝑖=1

De donde:
𝑛
2 2 )𝑛/2
(𝑦𝑖 − 𝛽0 − 𝛽1 ∗ 𝑥𝑖 )2
ℒ(𝛽0 , 𝛽1 , 𝜎 , 𝑦) = (2 ∗ 𝜋 ∗ 𝜎 𝑒𝑥𝑝 {− ∑ }
2 ∗ 𝜎2
𝑖=1

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

13
Estadística II
Unidad 2. Regresión lineal simple

Aplicando la función logaritmo se tiene:

𝑛
𝑛 1
ln ℒ(𝛽0 , 𝛽1 , 𝜎 , 𝑦) = − ln(2 ∗ 𝜋 ∗ 𝜎 2 ) −
2
∑(𝑦𝑖 − 𝛽0 − 𝛽1 ∗ 𝑥𝑖 )2
2 2 ∗ 𝜎2
𝑖=1

Para encontrar los estimadores máximo verosímil se aplican las derivadas parciales a la función
ln ℒ(𝛽0 , 𝛽1 , 𝜎 2 , 𝑦) y se obtiene:

𝑛
𝜕 ln ℒ
= ∑(𝑦𝑖 − 𝛽0 − 𝛽1 ∗ 𝑥𝑖 ) = 0
𝜕 𝛽0
𝑖=1

⇒ 𝑛 ∗ 𝛽0 + 𝛽1 ∗ ∑𝑛𝑖=1 𝑥𝑖 = ∑𝑛𝑖=1 𝑦𝑖 (2.11)

𝑛
𝜕 ln ℒ
= ∑(𝑦𝑖 − 𝛽0 − 𝛽1 ∗ 𝑥𝑖 ) ∗ 𝑥𝑖 = 0
𝜕 𝛽1
𝑖=1

⇒ 𝛽̂0 ∗ ∑𝑛𝑖=1 𝑥𝑖 + 𝛽̂1 ∗ ∑𝑛𝑖=1 𝑥𝑖 2 = ∑𝑛𝑖=1 𝑦𝑖 ∗ 𝑥𝑖 (2.12)


𝑛
𝜕 ln ℒ (𝑦𝑖 − 𝛽0 − 𝛽1 ∗ 𝑥𝑖 )2 𝑛
=∑ − =0
𝜕 𝜎2 𝜎3 𝜎
𝑖=1

Observe que las ecuaciones (2.11) y (2.12) coinciden con las ecuaciones normales. Por lo
tanto, los estimadores máximo verosímil y los estimadores de mínimos cuadrados son los
mismos.

La varianza del error, 𝜎 2 , es un parámetro adicional desconocido, cuyo estimador máximo


verosímil es:

2
2
∑𝑛𝑖=1(𝑦𝑖 − 𝛽̂0 − 𝛽̂1 ∗ 𝑥𝑖 )
𝜎̂ =
𝑛

2
∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 ∑𝑛𝑖=1 𝑒𝑖 2
𝜎̂ = =
𝑛 𝑛

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

14
Estadística II
Unidad 2. Regresión lineal simple

Este estimador no es insesgado. Sin embargo, es posible construir un estimado insesgado


como:

2
∑𝑛𝑖=1 𝑒𝑖 2 2
𝜎̂ = ~ 𝜒(𝑛−2)
𝑛−2

𝑛
A la cantidad ∑𝑖=1 𝑒𝑖 2 se llama cuadrado medio residual (MSE).La raíz cuadrada de 𝜎 ̂ 2 se
le conoce como: error estándar de la regresión y tiene las mismas unidades que la variable
de respuesta.

2.4. Intervalos de confianza

Como los estimadores 𝛽̂0 y 𝛽̂1 pueden expresarse como combinaciones lineales de variables
normales, entonces se concluye que ambos también se distribuyen normalmente:

1 𝑥̅ 2
𝛽̂0 ~ 𝑁 (𝛽0 , 𝜎 2 ∗ [ + ])
𝑛 𝑆𝑥𝑥

𝜎2
𝛽̂1 ~ 𝑁 (𝛽1 , )
𝑆𝑥𝑥

Donde:

𝑆𝑥𝑥 = ∑(𝑥𝑖 − 𝑥̅ )2
𝑖=1

Recuerda que si se tienen dos variables aleatorias 𝑊 y 𝑉 independientes tal que:

2
𝑊~𝑁(0,1) y 𝑉~𝜒(𝑟)

Entonces la estadística 𝑇 se distribuye 𝑡 𝑆𝑡𝑢𝑑𝑒𝑛𝑡 con 𝑟 grados de libertad

𝑊
𝑇= ~ 𝑡(𝑟)
𝑉

𝑟

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

15
Estadística II
Unidad 2. Regresión lineal simple

Regresando a nuestro tema la estadística

𝛽̂0 − 𝛽0
𝑧= ~𝑁(0,1)
1 𝑥̅ 2
√𝜎 2 ∗ [𝑛 + ]
𝑆𝑥𝑥

En la mayoría de las situaciones σ2 es un parámetro desconocido. Si se sustituye por su


estimador insesgado, se obtiene:

̂0 −𝛽0
𝛽
𝑡0 = 1 ̅2
𝑥
~𝑡𝑛−2 (2.13)
√𝑀𝑆𝐸∗[ + ]
𝑛 𝑆𝑥𝑥

Con lo que se procede a obtener un intervalo del 1 − 𝛼% para β0 :

1 𝑥̅ 2 1 𝑥̅ 2
(𝛽̂0 − 𝑡𝛼,𝑛−2 ∗ √𝑀𝑆𝐸 ∗ [ + ] ≤ 𝛽0 ≤ 𝛽̂0 + 𝑡𝛼,𝑛−2 ∗ √𝑀𝑆𝐸 ∗ [ + ])
2 𝑛 𝑆𝑥𝑥 2 𝑛 𝑆𝑥𝑥

El cuantil de una distribución t Student lo puedes encontrar en la pestaña Material de apoyo.

De la misma manera se construye un intervalo para la pendiente β1 al 1 − 𝛼% como:

𝑀𝑆𝐸 𝑀𝑆𝐸
(β̂1 − 𝑡𝛼,𝑛−2 ∗ √ ≤ β1 ≤ β̂1 + 𝑡𝛼,𝑛−2 ∗ √ )
2 Sxx 2 Sxx

Y un intervalo del 1 − 𝛼% de confianza para 𝜎 2 es:

(𝑛 − 2) ∗ 𝑀𝑆𝐸 (𝑛 − 2) ∗ 𝑀𝑆𝐸
( ≤ 𝜎2 ≤ )
𝜒𝛼2,𝑛−2 2
𝜒1− 𝛼
,𝑛−2
2 2

Ejemplo 1

Con los datos del consumo de energía de la sección 2.3 se calculan los intervalos a 95% de
̂ 0 , β̂1 y 𝜎̂ 2 . Se tienen los siguientes resultados:
confianza para β

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

16
Estadística II
Unidad 2. Regresión lineal simple

x̅ 2 = 3′ 652,456.1 Sxx = 48′ 901,158 ∑ni=1(yi − ŷi )2 = 214.619323 MSE = 4.47123589

𝑡0.05,50−2 = 𝑡0.025,48 = 2.0106


2
Procedimiento

1.789559 − 2.0106 ∗ 0.6506796 ≤ β0 ≤ 1.789559 + 2.0106 ∗ 0.6506796


0.481302595 ≤ 𝛽0 ≤ 4.698900986

0.002481 − 2.0106 ∗ 0.000302381 ≤ β1 ≤ 0.002481 + 2.0106 ∗ 0.000302381


0.001873033 ≤ β1 ≤ 0.003088967

2 2
Para el intervalo de 𝜎 2 se necesita el cuantil 𝜒0.05 = 𝜒0.025,48 buscando en la tabla de la
,50−2
2
Ji-cuadrada se observa que no se encuentra el cuantil exacto con 48 grados de libertad, así que se
2 2
toma el cuantil más próximo, en este caso es 𝜒0.025,40 = 59.342 y 𝜒0.975,40 = 24.433

48 ∗ 4.47123589 48 ∗ 4.47123589
≤ 𝜎2 ≤
59.342 24.433

3.616651326 ≤ 𝜎 2 ≤ 8.7839939

Ésos son los intervalos a 95% de confianza, se observa que ninguno cruza por el 0, así que se
puede suponer que los estimadores son significativos para el modelo.

2.5. Intervalo de predicción

Es importante poder dar una referencia sobre la validez de las nuevas predicciones, es por ello
que un intervalo de confianza es de utilidad.

Un intervalo del 1 − 𝛼% de confianza es:

1 (𝑥0 − 𝑥̅ )2 1 (𝑥0 − 𝑥̅ )2
(𝑦̂0 − 𝑡𝛼,𝑛−2 ∗ √𝑀𝑆𝐸 ∗ [1 + + ] ≤ 𝑦0 ≤ 𝑦̂0 + 𝑡𝛼,𝑛−2 ∗ √𝑀𝑆𝐸 ∗ [1 + + ])
2 𝑛 𝑆𝑥𝑥 2 𝑛 𝑆𝑥𝑥

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

17
Estadística II
Unidad 2. Regresión lineal simple

Ejemplo 1

Con los datos del consumo de energía de la sección 2.3 se calcula el intervalo de confianza a
95% de confianza para la nueva observación 𝑦̂0 = 7.992059 cuando 𝑥0 = 2500

7.992059 − 2.0106 ∗ 2.1429806 ≤ 𝑦0 ≤ 7.992059 + 2.0106 ∗ 2.1429806


3.683382154 ≤ 𝑦0 ≤ 12.30073585

El intervalo es de gran amplitud, debido a que el intervalo de predicción depende tanto del error
del modelo ajustado como del error asociado con observaciones futuras.

2.6. Pruebas de hipótesis

Las mismas estadísticas (2.13) permiten probar hipótesis relativas a β0 de la forma:

Hipótesis

𝐻0 : β0 = 0 𝑣𝑠 𝐻1 : β0 ≠ 0

Estadística de prueba

𝛽̂0 − 𝛽0
𝑡0 =
1 𝑥̅ 2
√𝑀𝑆𝐸 ∗ [𝑛 + 𝑆𝑥𝑥
]
Regla de decisión

Rechaza 𝐻0 si |𝑡0 | > 𝑡𝛼⁄2,𝑛−2 . En caso de que 𝐻0 no se rechace, significa que el parámetro
β0 no es significativo para el modelo, en tal caso, se puede omitir.

Al proceder con β1 como se hizo con β0 se tiene un resultado semejante:

Hipótesis:

𝐻0 : β1 = 0 𝑣𝑠 𝐻1 : β1 ≠ 0

Estadística de prueba

𝛽̂1 − 𝛽1
𝑡0 =
𝑀𝑆𝐸
√S
xx

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

18
Estadística II
Unidad 2. Regresión lineal simple

Regla de decisión

Rechaza 𝐻0 si |𝑡0 | > 𝑡𝛼⁄2,𝑛−2 . Esta hipótesis se relaciona con la significancia de la


regresión. Existe correlación entre 𝑥 e 𝑦 en caso de no rechazar 𝐻0 . En cambio, no hay
correlación entre la variable regresora y respuesta si 𝐻0 no se rechaza. Entonces, el mejor
estimador para cualquier 𝑥 es 𝑦
̅ ó la relación no es lineal. Por lo tanto, sino se rechaza 𝐻0 ,
equivale a decir que no hay relación lineal entre 𝑥 e 𝑦. Véase la figura 2.6a

Figura 2.6a

Ejemplo 1

Con los datos del consumo de energía de la sección 2.3 se prueban las hipótesis de los
parámetros con un nivel de significancia 𝛼 = 0.05.

Hipótesis
𝐻0 : β0 = 0 𝑣𝑠 𝐻1 : β0 ≠ 0

Estadística de prueba

1.789559 − 0
𝑡0 = = 2.7503
1 3′ 652,456.1
√4.47123589 ∗ [ + ]
50 48′ 901,158

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

19
Estadística II
Unidad 2. Regresión lineal simple

Regla de decisión

Rechaza 𝐻0 si |𝑡0 | > 𝑡0.025,48 . Como 2.7503 > 2.0106 se rechaza 𝐻0 y por lo tanto β0 es
significativo para el modelo.

Ahora se prueba la significancia de la regresión

Hipótesis:

𝐻0 : β1 = 0 𝑣𝑠 𝐻1 : β1 ≠ 0

Estadística de prueba

0.002481 − 0
𝑡0 = = 6649
4.47123589
√ 48′ 901,158

Regla de decisión

Rechaza 𝐻0 si |𝑡0 | > 𝑡0.025,48 . Como 6649 > 2.0106 se rechaza 𝐻0 y por lo tanto β1 es
significativo para el modelo.

2.7. Análisis de varianza

Otra forma de comprobar la significancia de la regresión es mediante un análisis de varianza


que se basa en la partición de la variable respuesta. Se tiene que:

∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 = ∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2 + ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 (2.14)


Donde:

∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅)2 Es la suma de cuadrados del total. Mide la variabilidad total en las
observaciones (𝑆𝑆𝑇)

∑𝑛𝑖=1(𝑦̂𝑖 − 𝑦̅)2 Es la suma de cuadrados de la regresión (𝑆𝑆𝑅) y mide la variabilidad


explicada por la línea de regresión

∑𝑛𝑖=1(𝑦𝑖 − 𝑦̂𝑖 )2 Es la suma de cuadrados del error (𝑆𝑆𝐸) y es la cantidad que queda sin
explicar por la línea de regresión

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

20
Estadística II
Unidad 2. Regresión lineal simple

De manera simbólica se escribe la ecuación (2.14) como:

𝑆𝑆𝑇 = 𝑆𝑆𝑅 + 𝑆𝑆𝐸

Para probar la significancia de la regresión, es decir, la hipótesis:

𝐻0 : β1 = 0 𝑣𝑠 𝐻1 : β1 ≠ 0

Se utiliza el estadístico de prueba

𝑆𝑆𝑅 ⁄1 𝑀𝑆𝑅
𝐹0 = =
𝑆𝑆𝐸 ⁄(𝑛 − 2) 𝑀𝑆𝐸

La estadística 𝐹0 se expresa como el cociente de la suma de cuadrados “explicada” entre la


suma de cuadrados “no explicada” divididas a su vez entre sus respectivos grados de libertad
(1, 𝑛 − 2) y tiene una distribución 𝐹1,𝑛−2 , que es una distribución 𝐹 con 1 y 𝑛 − 2 grados de
libertad. La tabla de los cuantiles puedes encontrarla en la sección Material de apoyo.

Cuando las sumas de cuadrados se dividen entre sus grados de libertad se obtienen 𝑀𝑆𝑅 y
𝑀𝑆𝐸 , cuadrado medio de la regresión y cuadrado medio del error respectivamente.

Los valores se presentan desagregados en una tabla de Análisis de Varianza (ANOVA)

Tabla de Análisis de varianza


Fuente de Suma de Grados de Cuadrado
𝑭𝟎
variación cuadrados libertad medio
Regresión 𝑆𝑆𝑅 1 𝑀𝑆𝑅 𝑀𝑆𝑅/𝑀𝑆𝐸
Error 𝑆𝑆𝐸 𝑛−2 𝑀𝑆𝐸
Total 𝑆𝑆𝑇 𝑛−1

Se rechaza 𝐻0 a nivel de significancia 𝛼 si:

𝐹0 > 𝐹1−𝛼,1,𝑛−2

Ejemplo 1

Se probará la significancia de la regresión al nivel de significancia 𝛼 = 0.05 para el ejemplo


del consumo de energía de la sección 2.3.

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

21
Estadística II
Unidad 2. Regresión lineal simple

Tabla de Análisis de varianza


Fuente de Suma de Grados de Cuadrado
𝑭𝟎
variación cuadrados libertad medio
Regresión 301.00432 1 301.00432 67.3201613
Error 214.619323 48 4.471235895
Total 515.7382 49

Hipótesis

𝐻0 : β1 = 0 𝑣𝑠 𝐻1 : β1 ≠ 0

Regla de decisión:

Se debe buscar en tablas el cuantil de una 𝐹0.95,1,48 , como no se encuentra, se busca con
los grados de libertad más próximos

𝐹0.95,1,50 = 4.034

Dado que 67.3201613 > 4.034 se rechaza 𝐻0 , por lo tanto existe evidencia estadística para
suponer que β1 ≠ 0.

Actividad 2. Ajuste de una regresión lineal simple

Propósitos.

Resolver un problema de regresión lineal simple, así como construir su gráfica, ajustarla
mediante mínimos cuadrados, calcular el estadístico, construir tablas de análisis de varianza
y prueba.

2.8. Coeficiente de determinación

La cantidad

𝑆𝑆𝐸
𝑅2 = 1 −
𝑆𝑆𝑇

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

22
Estadística II
Unidad 2. Regresión lineal simple

se llama coeficiente de determinación. Como 𝑆𝑆𝑇 es una medida de variabilidad de 𝑦 sin


considerar el efecto de la variable regresora 𝑥 y 𝑆𝑆𝐸 es una media de la variabilidad de 𝑦 que
queda después de haber tenido en consideración a 𝑥 , 𝑅2 se llama con frecuencia, la
proporción de la variación explicada por el regresor 𝑥.

Ya que 0 ≤ 𝑆𝑆𝐸 ≤ 𝑆𝑆𝑇, entonces la estadística tiene un rango de 0 ≤ 𝑅 2 ≤ 1 . Los valores


cercanos a 1 implican que la mayor parte de la variabilidad de 𝑦 está explicada por el modelo
de regresión, esto es lo deseable cuando se ajusta un modelo de regresión.

El estadístico 𝑅 2 se debe usar con precaución, porque siempre es posible conseguir que 𝑅 2
sea grande agregando términos suficientes al modelo. Por ejemplo, si no hay puntos repetidos
(más de un valor de 𝑦 con el mismo valor de 𝑥 ), un polinomio de grado 𝑛 − 1 producirá un
2
𝑛 puntos de datos. Cuando hay puntos repetidos, 𝑅2
ajuste “perfecto”, con 𝑅 = 1, de los
nunca puede ser exactamente igual a1, porque el modelo no puede explicar la variabilidad
relacionada con el error “puro”.

Ejemplo 1

Nuevamente se toman los resultados de la sección 2.3 se tiene:

214.619323
𝑅2 = 1 − = 0.5838599
515.7382

Por lo tanto la variabilidad explicada por el modelo es de 58.39%. En realidad, el ajuste no es


muy bueno, se ha visto en las secciones anteriores que se acepta la significancia de la
regresión, es decir, β1 ≠ 0, así que la demanda de energía es explicada por el consumo
mensual. Es posible que existan otras variables que estén afectando el consumo, que no se
mida y por eso no se esté explicando una mayor variabilidad.

2.9. Análisis de residuales

Para lograr hacer inferencia en el análisis de regresión (intervalos de confianza, prueba de


hipótesis, ANOVA) se ha necesitado el supuesto distribucional y éste se consigue del hecho de
que los errores (ε) tienen una distribución normal con media 0 y varianza constante σ2 y no
están correlacionados entre ellos.

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

23
Estadística II
Unidad 2. Regresión lineal simple

Es importante hacer un chequeo de estos supuestos para que los resultados tengan validez
𝑛
estadística. No se verifica el supuesto 𝐸(ε̂𝑖 ) = 0, porque por construcción ∑𝑖=1 ε
̂𝑖 = 0.

Los errores (𝛆) tienen una distribución normal

Pequeñas desviaciones respecto a la hipótesis de normalidad no afectan mucho al modelo,


pero una no normalidad grande es potencialmente más seria, porque la inferencia estadística a
través de los estadísticos 𝑡 ó 𝐹 y los intervalos de confianza y de predicción dependen del
supuesto de normalidad. Un método sencillo para comprobar el supuesto es observar un
histograma de los residuos y esperar a que tome la forma de una campana. También existen las
pruebas no paramétricas como la Kolmogorov-Smirnov, la prueba Ji-cuadrada de bondad y
ajuste y la prueba Anderson-Darling que se estudiaron en la unidad 1.

Varianza constante 𝛔𝟐

Este supuesto se conoce como homocedasticidad y es el hecho de que la dispersión de la


desviación estándar de los errores es la misma no importando que la curva crezca. Si este
supuesto no se cumple entonces los estimadores dejan de ser de varianza mínima entre todos
los estimadores lineales, que es lo que garantiza el Teorema de Gauss-Markov.

Para verificar este supuesto se construye una gráfica de los residuos ε ̂𝑖 en función de los
valores correspondientes ŷ 𝑖 . Si la gráfica se parece a la de la figura 2.9a, indica que los
residuos se pueden encerrar en una banda horizontal, entonces no hay defectos obvios del
modelo. Las gráficas de ε̂𝑖 en función de ŷ𝑖 que se parezcan a cualquiera de los patrones de
las partes 2.90b a 2.9d son síntomas de deficiencias del modelo.

Figura 2.9

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

24
Estadística II
Unidad 2. Regresión lineal simple

Residuos no correlacionados

Para poder observar si los residuos son no correlacionados se realiza una gráfica de los
residuos en secuencia temporal para tener una idea si los errores en un período se
correlacionan con los de otros períodos. Si este supuesto no se cumple, los estimadores
pierden la eficiencia, también existe la posibilidad de que se sobre-estime el 𝑅 2 y de que las
pruebas 𝑡 y 𝐹 dejen de ser validas, si se aplica, es probable que conduzcan a conclusiones
erróneas. Se debe tener cuidado al realizar este tipo de gráficas ya que cuando las
observaciones tienen cierto orden en particular, por ejemplo, si los datos fueron tomados en el
tiempo, si esto ocurre, entonces se pueden obtener gráficas diferentes para diferentes órdenes.

La correlación entre los errores del modelo en distintos períodos se llama autocorrelación. Una
gráfica como la figura a) indica una correlación de los residuos, mientras que la figura b)
muestra no correlación de los mismos, esto último es lo que se desea.

Ejemplo 1

Para los datos del consumo de energía. Se procede hacer un análisis gráfico

Gráficamente la distribución de los residuos no aparenta ser la de una normal, pero se observa

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

25
Estadística II
Unidad 2. Regresión lineal simple

centrada alrededor del cero.

No se observa un patrón de los ε


̂𝑖 en función de ŷ𝑖 . Por lo que se considera que no se viola el
supuesto de varianza constante.

En la gráfica de tiempo con los residuos no se observa ningún patrón. Se considera que los
residuos no se encuentran correlacionados.

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

26
Estadística II
Unidad 2. Regresión lineal simple

Actividad 3. Comprobación de supuestos en el análisis de regresión lineal


simple

Propósito

Comprobar supuestos en el análisis de regresión lineal simple.

2.10. Transformaciones estabilizadoras de varianza

El supuesto de varianza constante es el más difícil de conseguir. En estos casos es útil realizar
transformaciones ya sea a la variable regresora o a la variable respuesta como puede ser
elevar a una potencia o una transformación como un seno o un logaritmo.

Debes tener cuidado al realizar una transformación, puedes lograr el mejor modelo
matemáticamente, pero no obtener una buena interpretación acerca de la relación entre 𝑥 e 𝑦.

A veces se puede recurrir a la experiencia o a consideraciones teóricas para sugerir la


transformación adecuada, el problema es que la mayoría de las veces no se cuenta con esta
información.

Algunas transformaciones sugeridas son las siguientes:

Relación entre 𝝈𝟐 y 𝑬(𝒚) Transformación


2 ′
𝜎 ∝ 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒 𝑦 = 𝑦 (sin transformación)
𝑦 ′ = √𝑦 (es común cuando los datos son de tipo
𝜎2 ∝ 𝐸(𝑦)
Poisson, es decir, conteos)

2
𝑦 ′ = 𝑠𝑖𝑛−1 √𝑦 (se utiliza cuando los datos
𝜎 ∝ 𝐸(𝑦)[1 − 𝐸(𝑦)]
provienen de una binomial 0 ≤ 𝑦𝑖 ≤ 1)
𝜎2 ∝ [𝐸(𝑦)]2 𝑦 ′ = ln 𝑦
𝜎2 ∝ [𝐸(𝑦)]3 𝑦 ′ = 𝑦 −1⁄2
𝜎2 ∝ [𝐸(𝑦)]4 𝑦 ′ = 𝑦 −1

El símbolo ∝ se lee “proporcional”

Evidencia de aprendizaje. Ajuste de un análisis de regresión lineal

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

27
Estadística II
Unidad 2. Regresión lineal simple

Propósito

Aplicar los conocimientos adquiridos durante la unidad, empleando los métodos de regresión
lineal.

Cierre de la unidad

Durante la unidad 2 has aprendido como relacionar mediante un modelo matemático dos
variables que están correlacionadas. Además el modelo de regresión lineal simple tiene
propiedades estadísticas deseables ya que al estimar los parámetros mediante el método de
mínimos cuadrados se obtienen aquellos estimadores que son los de mínima varianza, es decir,
los mejores estimadores. Si a esto se le añade el supuesto distribucional de normalidad se
puede hacer inferencia sobre los estimadores y sobre observaciones futuras, pues el plus de
ajustar un modelo matemático es que se pueda predecir nuevos datos.

En la Unidad 3 no sólo se relacionan dos variables, se involucrarán más de dos variables


regresoras.

Para saber más

Te sugiero la siguiente liga donde encontrarás los códigos en R para ajustar un modelo de
regresión lineal.

Robert, I. K. (2012). Web log message. Recuperado de:


http://www.statmethods.net/stats/regression.html

Fuentes de consulta

 Montgomery, D. C., Peck, E. A. y Vinning, G. G. (2001). Introduction to Linear Regression


Analysis (3a ed.). New York: John Wiley and Sons.

 Neter, J., Wasserman, W. y Kunter, M.H. (1990) Applied Linear Statistical Models (3a ed.).
Boston: Irwin.

Ciencias exactas, Ingenierías y tecnologías | Licenciatura en Matemáticas

28

También podría gustarte