Documentos de Académico
Documentos de Profesional
Documentos de Cultura
REGRESIÓN LINEAL
Una vez que hemos calculado la covarianza y el coeficiente de correlación de debe ajustar
el modelo de regresión lineal.
El análisis de regresión busca desarrollar un modelo estadístico que pueda predecir los
valores de una variable dependiente y basados en los valores de una variable
independiente o explicativa x.
Recta de regresión
Nota: El error estocástico se debe tomar como la influencia que muchas variables
omitidas tienen sobre Y; cada una de estas influencias tiene un efecto individualmente
muy pequeño.
Dado que la recta verdadera de regresión de la población seguirá siendo desconocida (al
igual que la mayoría de los parámetros), lo mejor que se puede hacer es estimarla
mediante el modelo:
Y = b + mX + ε
Prof. Gustavo Rueda Estadística II
Como algunas de las observaciones caen por encima de la recta y otras por debajo de ella,
ε es una variable aleatoria; sin embargo, se supone que el término de error tendrá un
valor medio de cero y una varianza σ2 (desconocida) por lo que el modelo para estimar la
relación entre Y y X mediante la recta de regresión será:
Ŷ = b + mX
La recta de regresión deberá reflejar con la mayor exactitud posible la relación entre las
variables dependiente e independiente y además deberá ajustarse a los puntos, mejor
que ninguna otra recta que se pudiera trazar. Es decir, se deberá buscar la recta de ajuste
óptimo.
Se llama método de los mínimos cuadrados porque da lugar a una recta que hace
mínimos los cuadrados de las distancias verticales desde cada punto de una observación
a la recta.
Para entender el significado del método debemos recordar que Yi es un valor observado
real de la variable Y, mientras que Ŷ es un valor de la recta predicho por la ecuación.
Ŷ = b + mX
A pesar de que una de las aplicaciones del modelo de regresión es predecir, prever o
proyectar el valor de la variable dependiente, es una falsa interpretación suponer a priori
que exista una relación de causa-efecto entre las dos variables. Por esta razón es
importante que se consideren las relaciones encontradas por la regresión, como
relaciones de asociación pero no necesariamente de causa y efecto.
Prof. Gustavo Rueda Estadística II
1. El término error es una variable aleatoria que sigue una distribución normal.
2. Dos errores cualesquiera son independientes entre sí (a menos que se manejen datos
de series temporales, porque muchas series temporales varían de forma cíclica.)
3. Todos los errores tienen la misma varianza (a menos que se usen datos transversales.)
4. Las medias de los valores de Y están todas en una recta.
EJEMPLO 1:
b
Prof. Gustavo Rueda Estadística II
m
Prof. Gustavo Rueda Estadística II
Ŷ = b + mX = 18,9476 + 1,1842 X
Los valores en la recta los denominamos Ŷ, y a los valores de los puntos los llamamos Y.
Las distancias (Ŷ-Y) serán los errores.
Es decir, medida de dispersión de los valores observados, Y, con respecto a los valores
que se derivados de la recta de regresión, Ŷ.
Se
Se = √ ∑(Y – Ŷ)2
n-2
Prof. Gustavo Rueda Estadística II
Ejemplo 1 (Continuación):
Se
Se
Prof. Gustavo Rueda Estadística II
Explicación del Se
De forma análoga a la utilización que hacíamos del error estándar del estimador (media
muestral por ejemplo) para construir intervalos de confianza alrededor del parámetro
poblacional, μ, el error estándar Se de la estimación realizada mediante la recta de
regresión nos permitirá construir intervalos de confianza alrededor del valor poblacional
de la estimación.
Ŷ = 18,9476 + 1,1842 X
Si en cambio se desea una confianza del 95%, entonces el intervalo de predicción será:
Ŷ = 42,63
Ŷ ± tα/2(n – 2) Se
√ 1
n
+
(X0 – X̅ )2
∑(Xi – X̅)2
n = 10
tα/2(n – 2) = tα/2(8) = 2,31
Se = 10,18
X0 = 20 llamadas
(1 – α) = 95%
Grados de libertad = n – 2 = 10 – 2 = 8
Prof. Gustavo Rueda Estadística II
E 10 -12 144
√
F 10 -12 144
Ŷ ± tα/2(n – 2) Se 1 (X0 – X̅ )2
G 20 -2 4 +
n ∑(Xi – X̅)2
H 20 -2 4
I 20 -2 4
J 30 8 64
220 760
50,2595
Prof. Gustavo Rueda Estadística II
Prof. Gustavo Rueda Estadística II
Prof. Gustavo Rueda Estadística II
Prof. Gustavo Rueda Estadística II
Prof. Gustavo Rueda Estadística II
Por si mismos estos valores tienen muy poco que pueda interpretarse pero a partir de ellos
podemos encontrar otros valores que son de utilidad para interpretar la ecuación de
regresión.
El Coeficiente de determinación
Prof. Gustavo Rueda Estadística II