Está en la página 1de 24

Prof.

Gustavo Rueda Estadística II


Prof. Gustavo Rueda Estadística II

REGRESIÓN LINEAL

Una vez que hemos calculado la covarianza y el coeficiente de correlación de debe ajustar
el modelo de regresión lineal.
El análisis de regresión busca desarrollar un modelo estadístico que pueda predecir los
valores de una variable dependiente y basados en los valores de una variable
independiente o explicativa x.

Recta de regresión

Un modelo que refleja esta variación es:


Y = b + mX + ε
Donde b y m son el componente determinístico y ε es el componente aleatorio.

Dos de las causas que se proponen para la presencia de ɛ son:


1. El error de medición (por ejemplo, imprecisiones de presupuesto).
2. El error estocástico (esto se origina porque los fenómenos biológicos y sociales son
irrepetibles). Aunque no hubiese error de medición, la continua repetición de un
experimento en donde se empleara por ejemplo, exactamente la misma cantidad de
alimento para pollos, no se obtendría el mismo peso para todos los pollos; esas
diferencias son impredecibles.
Prof. Gustavo Rueda Estadística II

Nota: El error estocástico se debe tomar como la influencia que muchas variables
omitidas tienen sobre Y; cada una de estas influencias tiene un efecto individualmente
muy pequeño.

El modelo anterior representa la relación poblacional según la cual Y es regresiva en


función de X, b y m son los parámetros y ε es un término aleatorio de error ideado para
recoger la variación por encima y por debajo de la recta de regresión debida a todos los
demás factores no incluidos en el modelo.

El componente aleatorio ε puede ser negativo o positivo en función de si el valor de Y


para un valor de X dado, se encuentra por debajo o por encima de la recta de regresión. Al
componente aleatorio también se le llama término de distorsión, porque “distorsiona” la
relación determinista entre X e Y.

Dado que la recta verdadera de regresión de la población seguirá siendo desconocida (al
igual que la mayoría de los parámetros), lo mejor que se puede hacer es estimarla
mediante el modelo:

Y = b + mX + ε
Prof. Gustavo Rueda Estadística II

Los valores b y m son estimaciones de los parámetros poblacionales corte en las


ordenadas y pendiente de la recta; se denominan, respectivamente, constante de
regresión y coeficiente de regresión. El término ε, es el componente del error, el cual es
necesario porque no todas las observaciones de Y y X están en línea recta.

Como algunas de las observaciones caen por encima de la recta y otras por debajo de ella,
ε es una variable aleatoria; sin embargo, se supone que el término de error tendrá un
valor medio de cero y una varianza σ2 (desconocida) por lo que el modelo para estimar la
relación entre Y y X mediante la recta de regresión será:

Ŷ = b + mX

En donde, m es la pendiente de la recta y representa qué tanto cada cambio de unidad de


la variable independiente X, cambia la variable dependiente Y.

Ŷ se lee y sombrero o techo, y representa el valor pronosticado de la variable Y para un


valor seleccionado de X.

b es la ordenada en el origen, es el valor estimado de Y cuando X es igual a cero (0).

X es cualquier valor seleccionado de la variable independiente.


Prof. Gustavo Rueda Estadística II

Para calcular la recta de regresión lineal usaremos el Método de Mínimos Cuadrados.

La recta de regresión deberá reflejar con la mayor exactitud posible la relación entre las
variables dependiente e independiente y además deberá ajustarse a los puntos, mejor
que ninguna otra recta que se pudiera trazar. Es decir, se deberá buscar la recta de ajuste
óptimo.

Se llama método de los mínimos cuadrados porque da lugar a una recta que hace
mínimos los cuadrados de las distancias verticales desde cada punto de una observación
a la recta.
Para entender el significado del método debemos recordar que Yi es un valor observado
real de la variable Y, mientras que Ŷ es un valor de la recta predicho por la ecuación.

Σ (Yi - Ŷ)2 = min.


min. es el número más pequeño que se puede
obtener si se suman estas desviaciones
verticales elevadas al cuadrado entre los
puntos y la recta. La diferencia Yi - Ŷ se llama
residuo o error.
Prof. Gustavo Rueda Estadística II

Los coeficientes m y b se obtienen mediante las expresiones:

Ŷ = b + mX

A pesar de que una de las aplicaciones del modelo de regresión es predecir, prever o
proyectar el valor de la variable dependiente, es una falsa interpretación suponer a priori
que exista una relación de causa-efecto entre las dos variables. Por esta razón es
importante que se consideren las relaciones encontradas por la regresión, como
relaciones de asociación pero no necesariamente de causa y efecto.
Prof. Gustavo Rueda Estadística II

Hipótesis en el método de mínimos cuadrados

1. El término error es una variable aleatoria que sigue una distribución normal.
2. Dos errores cualesquiera son independientes entre sí (a menos que se manejen datos
de series temporales, porque muchas series temporales varían de forma cíclica.)
3. Todos los errores tienen la misma varianza (a menos que se usen datos transversales.)
4. Las medias de los valores de Y están todas en una recta.

EJEMPLO 1:

Ajustar un modelo de regresión lineal


para la siguiente situación:
Llamadas y Copiadoras Vendidas por
10 representantes
Prof. Gustavo Rueda Estadística II
Prof. Gustavo Rueda Estadística II

Se calculará la ordenada en el origen o punto de corte (b) con el eje Y:

b
Prof. Gustavo Rueda Estadística II

Se calculará la pendiente de la recta de regresión o coeficiente de regresión (m):

m
Prof. Gustavo Rueda Estadística II

Finalmente la ecuación de regresión es:

Ŷ = b + mX = 18,9476 + 1,1842 X

¿Cuántas copiadoras venderá quien realice 20 llamadas?

Ŷ = b + mX = 18,9476 + 1,1842 (20) = 42,63 copiadoras


Prof. Gustavo Rueda Estadística II

Errores después de ajustar la recta

Los valores en la recta los denominamos Ŷ, y a los valores de los puntos los llamamos Y.
Las distancias (Ŷ-Y) serán los errores.

Ŷ son los valores estimados


Y son los valores de cada punto
Prof. Gustavo Rueda Estadística II

Error Estándar de la Estimación

El error típico de la estimación es una medida de la cantidad media en que las


observaciones reales de Y varían en torno a los predichos por el modelo.

Es decir, medida de dispersión de los valores observados, Y, con respecto a los valores
que se derivados de la recta de regresión, Ŷ.

Se

O también se puede expresar así:

Se = √ ∑(Y – Ŷ)2
n-2
Prof. Gustavo Rueda Estadística II

Ejemplo 1 (Continuación):

Se calculará del error estándar de la estimación

Se

Se
Prof. Gustavo Rueda Estadística II

Explicación del Se

En promedio, las desviaciones entre el valor estimado (pronosticado) Y’ y el valor


obtenido en la muestra, Y será igual al error estándar de la estimación. En este caso, en
promedio, la variación de copiadoras vendidas será de +/- 10,18 copiadoras.

De forma análoga a la utilización que hacíamos del error estándar del estimador (media
muestral por ejemplo) para construir intervalos de confianza alrededor del parámetro
poblacional, μ, el error estándar Se de la estimación realizada mediante la recta de
regresión nos permitirá construir intervalos de confianza alrededor del valor poblacional
de la estimación.

Si los valores de y están normalmente distribuidos, se e


tiene que: e
e
Prof. Gustavo Rueda Estadística II

Si se quisiera usar cualquier número para la construcción de intervalos de predicción


aproximados, bastaría con consultar una tabla de valores de la distribución normal para
determinar la probabilidad correspondiente.

En el ejemplo que venimos desarrollando la ecuación de ajuste para predecir es:

Ŷ = 18,9476 + 1,1842 X

De acuerdo al cálculo del error estándar de la estimación se obtuvo Se = 10,18 y como


para una confianza del 68,27% el intervalo de predicción aproximado es Ŷ ± 1Se, para 20
llamadas, se obtiene:

Ŷ - 1Se = 42,63 – 10,18 = 32,45 copiadoras

Ŷ + 1Se = 42,63 + 10,18 = 52,81 copiadoras

Si en cambio se desea una confianza del 95%, entonces el intervalo de predicción será:

Ŷ ± 1,96Se = 42,63 ± 1,96 (10,18)

Se dirá, que para 20 llamadas, la cantidad de fotocopiadoras vendidas estará


comprendidas entre 22,68 y 62,58 con una confianza del 95%.
Prof. Gustavo Rueda Estadística II

Es importante recordar, que en contenidos previos, referidos al tema de la estimación, que


los intervalos de predicción de la distribución normal se utilizan solo para muestras grandes,
es decir, con n ≥ 30. En el ejemplo que se ha estado considerando n = 10, es decir, un
tamaño de muestra pequeño y las conclusiones obtenidas pudieran ser no precisas. Sin
embargo, la metodología utilizada presenta el esquema de aplicación para los intervalos de
predicción con muestras grandes (n ≥ 30).

En general, se puede calcular el error estándar de la estimación exacto para la construcción


del intervalo de predicción para los casos de muestras pequeñas (n < 30), y utilizando la
distribución t - student:

Ŷ = 42,63
Ŷ ± tα/2(n – 2) Se
√ 1
n
+
(X0 – X̅ )2
∑(Xi – X̅)2

n = 10
tα/2(n – 2) = tα/2(8) = 2,31
Se = 10,18
X0 = 20 llamadas
(1 – α) = 95%
Grados de libertad = n – 2 = 10 – 2 = 8
Prof. Gustavo Rueda Estadística II

X (Xi - X̅) (Xi – X̅)2 X̅ = 22


A 20 -2 4

B 40 18 324 ∑(Xi – X̅ )2 = 760


C 20 -2 4
(X0 – X̅)2 = 4
D 30 8 64

E 10 -12 144


F 10 -12 144
Ŷ ± tα/2(n – 2) Se 1 (X0 – X̅ )2
G 20 -2 4 +
n ∑(Xi – X̅)2
H 20 -2 4

I 20 -2 4

J 30 8 64

220 760

Con una confianza del 95%:

42,63 ± 2,31 (10,18)


√ 1
10
+
4
760
= (42,63 ± 7,6295)
35

50,2595
Prof. Gustavo Rueda Estadística II
Prof. Gustavo Rueda Estadística II
Prof. Gustavo Rueda Estadística II
Prof. Gustavo Rueda Estadística II
Prof. Gustavo Rueda Estadística II

Por si mismos estos valores tienen muy poco que pueda interpretarse pero a partir de ellos
podemos encontrar otros valores que son de utilidad para interpretar la ecuación de
regresión.

El Coeficiente de determinación
Prof. Gustavo Rueda Estadística II

El Coeficiente de Correlación y el Coeficiente de Determinación

En el caso de una relación lineal entre dos variables el Coeficiente de Determinación y el


Coeficiente de Correlación permiten tener medidas de la intensidad de una relación.

El R2 da una medida entre 0 y 1, mientras que r da una medida entre -1 y 1.

El Coeficiente de Determinación R2 puede calcularse elevando al cuadrado el Coeficiente


de Correlación r. A su vez, el Coeficiente de Correlación r se puede calcular si conocemos
el Coeficiente de Determinación calculando la Raíz cuadrada de R2.

También podría gustarte