Regresión Lineal Clase 2

Prof.
Gustavo Rueda Estadística II

Prof. Gustavo Rueda Estadística II
REGRESIÓN LINEAL
Una vez que hemos calculado la covarianza y el coeficiente de correlación de debe ajustar
el modelo de regresión lineal.
El análisis de regresión busca desarrollar un modelo estadístico que pueda predecir los
valores de una variable dependiente y basados en los valores de una variable
independiente o explicativa x.
Recta de regresión
Un modelo que refleja esta variación es:

Y = b + mX + ε
Donde b y m son el componente determinístico y ε es el componente aleatorio.
Dos de las causas que se proponen para la presencia de ɛ son:

1. El error de medición (por ejemplo, imprecisiones de presupuesto).
2. El error estocástico (esto se origina porque los fenómenos biológicos y sociales son
irrepetibles). Aunque no hubiese error de medición, la continua repetición de un
experimento en donde se empleara por ejemplo, exactamente la misma cantidad de
alimento para pollos, no se obtendría el mismo peso para todos los pollos; esas
diferencias son impredecibles.
Nota: El error estocástico se debe tomar como la influencia que muchas variables
omitidas tienen sobre Y; cada una de estas influencias tiene un efecto individualmente
muy pequeño.
El modelo anterior representa la relación poblacional según la cual Y es regresiva en

función de X, b y m son los parámetros y ε es un término aleatorio de error ideado para
recoger la variación por encima y por debajo de la recta de regresión debida a todos los
demás factores no incluidos en el modelo.
El componente aleatorio ε puede ser negativo o positivo en función de si el valor de Y

para un valor de X dado, se encuentra por debajo o por encima de la recta de regresión. Al
componente aleatorio también se le llama término de distorsión, porque “distorsiona” la
relación determinista entre X e Y.
Dado que la recta verdadera de regresión de la población seguirá siendo desconocida (al
igual que la mayoría de los parámetros), lo mejor que se puede hacer es estimarla
mediante el modelo:
Y = b + mX + ε
Los valores b y m son estimaciones de los parámetros poblacionales corte en las

ordenadas y pendiente de la recta; se denominan, respectivamente, constante de
regresión y coeficiente de regresión. El término ε, es el componente del error, el cual es
necesario porque no todas las observaciones de Y y X están en línea recta.
Como algunas de las observaciones caen por encima de la recta y otras por debajo de ella,
ε es una variable aleatoria; sin embargo, se supone que el término de error tendrá un
valor medio de cero y una varianza σ2 (desconocida) por lo que el modelo para estimar la
relación entre Y y X mediante la recta de regresión será:
Ŷ = b + mX
En donde, m es la pendiente de la recta y representa qué tanto cada cambio de unidad de

la variable independiente X, cambia la variable dependiente Y.
Ŷ se lee y sombrero o techo, y representa el valor pronosticado de la variable Y para un

valor seleccionado de X.
b es la ordenada en el origen, es el valor estimado de Y cuando X es igual a cero (0).
X es cualquier valor seleccionado de la variable independiente.

Para calcular la recta de regresión lineal usaremos el Método de Mínimos Cuadrados.
La recta de regresión deberá reflejar con la mayor exactitud posible la relación entre las
variables dependiente e independiente y además deberá ajustarse a los puntos, mejor
que ninguna otra recta que se pudiera trazar. Es decir, se deberá buscar la recta de ajuste
óptimo.
Se llama método de los mínimos cuadrados porque da lugar a una recta que hace
mínimos los cuadrados de las distancias verticales desde cada punto de una observación
a la recta.
Para entender el significado del método debemos recordar que Yi es un valor observado
real de la variable Y, mientras que Ŷ es un valor de la recta predicho por la ecuación.
Σ (Yi - Ŷ)2 = min.

min. es el número más pequeño que se puede
obtener si se suman estas desviaciones
verticales elevadas al cuadrado entre los
puntos y la recta. La diferencia Yi - Ŷ se llama
residuo o error.
Los coeficientes m y b se obtienen mediante las expresiones:
Ŷ = b + mX
A pesar de que una de las aplicaciones del modelo de regresión es predecir, prever o
proyectar el valor de la variable dependiente, es una falsa interpretación suponer a priori
que exista una relación de causa-efecto entre las dos variables. Por esta razón es
importante que se consideren las relaciones encontradas por la regresión, como
relaciones de asociación pero no necesariamente de causa y efecto.
Hipótesis en el método de mínimos cuadrados
1. El término error es una variable aleatoria que sigue una distribución normal.
2. Dos errores cualesquiera son independientes entre sí (a menos que se manejen datos
de series temporales, porque muchas series temporales varían de forma cíclica.)
3. Todos los errores tienen la misma varianza (a menos que se usen datos transversales.)
4. Las medias de los valores de Y están todas en una recta.
EJEMPLO 1:
Ajustar un modelo de regresión lineal

para la siguiente situación:
Llamadas y Copiadoras Vendidas por
10 representantes
Se calculará la ordenada en el origen o punto de corte (b) con el eje Y:
b
Se calculará la pendiente de la recta de regresión o coeficiente de regresión (m):
m
Finalmente la ecuación de regresión es:
Ŷ = b + mX = 18,9476 + 1,1842 X
¿Cuántas copiadoras venderá quien realice 20 llamadas?
Ŷ = b + mX = 18,9476 + 1,1842 (20) = 42,63 copiadoras

Errores después de ajustar la recta
Los valores en la recta los denominamos Ŷ, y a los valores de los puntos los llamamos Y.
Las distancias (Ŷ-Y) serán los errores.
Ŷ son los valores estimados

Y son los valores de cada punto
Error Estándar de la Estimación
El error típico de la estimación es una medida de la cantidad media en que las

observaciones reales de Y varían en torno a los predichos por el modelo.
Es decir, medida de dispersión de los valores observados, Y, con respecto a los valores
que se derivados de la recta de regresión, Ŷ.
Se
O también se puede expresar así:
Se = √ ∑(Y – Ŷ)2
n-2
Ejemplo 1 (Continuación):
Se calculará del error estándar de la estimación
Se
Se
Explicación del Se
En promedio, las desviaciones entre el valor estimado (pronosticado) Y’ y el valor

obtenido en la muestra, Y será igual al error estándar de la estimación. En este caso, en
promedio, la variación de copiadoras vendidas será de +/- 10,18 copiadoras.
De forma análoga a la utilización que hacíamos del error estándar del estimador (media
muestral por ejemplo) para construir intervalos de confianza alrededor del parámetro
poblacional, μ, el error estándar Se de la estimación realizada mediante la recta de
regresión nos permitirá construir intervalos de confianza alrededor del valor poblacional
de la estimación.
Si los valores de y están normalmente distribuidos, se e

tiene que: e
e
Si se quisiera usar cualquier número para la construcción de intervalos de predicción

aproximados, bastaría con consultar una tabla de valores de la distribución normal para
determinar la probabilidad correspondiente.
En el ejemplo que venimos desarrollando la ecuación de ajuste para predecir es:
Ŷ = 18,9476 + 1,1842 X
De acuerdo al cálculo del error estándar de la estimación se obtuvo Se = 10,18 y como

para una confianza del 68,27% el intervalo de predicción aproximado es Ŷ ± 1Se, para 20
llamadas, se obtiene:
Ŷ - 1Se = 42,63 – 10,18 = 32,45 copiadoras
Ŷ + 1Se = 42,63 + 10,18 = 52,81 copiadoras
Si en cambio se desea una confianza del 95%, entonces el intervalo de predicción será:
Ŷ ± 1,96Se = 42,63 ± 1,96 (10,18)
Se dirá, que para 20 llamadas, la cantidad de fotocopiadoras vendidas estará

comprendidas entre 22,68 y 62,58 con una confianza del 95%.
Es importante recordar, que en contenidos previos, referidos al tema de la estimación, que

los intervalos de predicción de la distribución normal se utilizan solo para muestras grandes,
es decir, con n ≥ 30. En el ejemplo que se ha estado considerando n = 10, es decir, un
tamaño de muestra pequeño y las conclusiones obtenidas pudieran ser no precisas. Sin
embargo, la metodología utilizada presenta el esquema de aplicación para los intervalos de
predicción con muestras grandes (n ≥ 30).
En general, se puede calcular el error estándar de la estimación exacto para la construcción

del intervalo de predicción para los casos de muestras pequeñas (n < 30), y utilizando la
distribución t - student:
Ŷ = 42,63
Ŷ ± tα/2(n – 2) Se
√ 1
n
+
(X0 – X̅ )2
∑(Xi – X̅)2
n = 10
tα/2(n – 2) = tα/2(8) = 2,31
Se = 10,18
X0 = 20 llamadas
(1 – α) = 95%
Grados de libertad = n – 2 = 10 – 2 = 8
X (Xi - X̅) (Xi – X̅)2 X̅ = 22

A 20 -2 4
B 40 18 324 ∑(Xi – X̅ )2 = 760

C 20 -2 4
(X0 – X̅)2 = 4
D 30 8 64
E 10 -12 144
√
F 10 -12 144
Ŷ ± tα/2(n – 2) Se 1 (X0 – X̅ )2
G 20 -2 4 +
n ∑(Xi – X̅)2
H 20 -2 4
I 20 -2 4
J 30 8 64
220 760
Con una confianza del 95%:
42,63 ± 2,31 (10,18)

√ 1
10
+
4
760
= (42,63 ± 7,6295)
35
50,2595
Por si mismos estos valores tienen muy poco que pueda interpretarse pero a partir de ellos
podemos encontrar otros valores que son de utilidad para interpretar la ecuación de
regresión.
El Coeficiente de determinación
El Coeficiente de Correlación y el Coeficiente de Determinación
En el caso de una relación lineal entre dos variables el Coeficiente de Determinación y el

Coeficiente de Correlación permiten tener medidas de la intensidad de una relación.
El R2 da una medida entre 0 y 1, mientras que r da una medida entre -1 y 1.
El Coeficiente de Determinación R2 puede calcularse elevando al cuadrado el Coeficiente

de Correlación r. A su vez, el Coeficiente de Correlación r se puede calcular si conocemos
el Coeficiente de Determinación calculando la Raíz cuadrada de R2.

Regresión Lineal Clase 2

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Regresión Lineal Clase 2

Cargado por

Copyright:

Formatos disponibles

Prof.

Gustavo Rueda Estadística II

Un modelo que refleja esta variación es:

Dos de las causas que se proponen para la presencia de ɛ son:

El modelo anterior representa la relación poblacional según la cual Y es regresiva en

El componente aleatorio ε puede ser negativo o positivo en función de si el valor de Y

Los valores b y m son estimaciones de los parámetros poblacionales corte en las

En donde, m es la pendiente de la recta y representa qué tanto cada cambio de unidad de

Ŷ se lee y sombrero o techo, y representa el valor pronosticado de la variable Y para un

b es la ordenada en el origen, es el valor estimado de Y cuando X es igual a cero (0).

X es cualquier valor seleccionado de la variable independiente.

Para calcular la recta de regresión lineal usaremos el Método de Mínimos Cuadrados.

Σ (Yi - Ŷ)2 = min.

Los coeficientes m y b se obtienen mediante las expresiones:

Hipótesis en el método de mínimos cuadrados

Ajustar un modelo de regresión lineal

Se calculará la ordenada en el origen o punto de corte (b) con el eje Y:

Se calculará la pendiente de la recta de regresión o coeficiente de regresión (m):

Finalmente la ecuación de regresión es:

¿Cuántas copiadoras venderá quien realice 20 llamadas?

Ŷ = b + mX = 18,9476 + 1,1842 (20) = 42,63 copiadoras

Errores después de ajustar la recta

Ŷ son los valores estimados

Error Estándar de la Estimación

El error típico de la estimación es una medida de la cantidad media en que las

O también se puede expresar así:

Se calculará del error estándar de la estimación

En promedio, las desviaciones entre el valor estimado (pronosticado) Y’ y el valor

Si los valores de y están normalmente distribuidos, se e

Si se quisiera usar cualquier número para la construcción de intervalos de predicción

En el ejemplo que venimos desarrollando la ecuación de ajuste para predecir es:

De acuerdo al cálculo del error estándar de la estimación se obtuvo Se = 10,18 y como

Ŷ - 1Se = 42,63 – 10,18 = 32,45 copiadoras

Ŷ + 1Se = 42,63 + 10,18 = 52,81 copiadoras

Ŷ ± 1,96Se = 42,63 ± 1,96 (10,18)

Se dirá, que para 20 llamadas, la cantidad de fotocopiadoras vendidas estará

Es importante recordar, que en contenidos previos, referidos al tema de la estimación, que

En general, se puede calcular el error estándar de la estimación exacto para la construcción

X (Xi - X̅) (Xi – X̅)2 X̅ = 22

B 40 18 324 ∑(Xi – X̅ )2 = 760

Con una confianza del 95%:

42,63 ± 2,31 (10,18)

El Coeficiente de Correlación y el Coeficiente de Determinación

En el caso de una relación lineal entre dos variables el Coeficiente de Determinación y el

El R2 da una medida entre 0 y 1, mientras que r da una medida entre -1 y 1.

El Coeficiente de Determinación R2 puede calcularse elevando al cuadrado el Coeficiente

También podría gustarte