Está en la página 1de 29

REGRESIÓN LINEAL SIMPLE

ESTADÍSTICA II
Plan de clases
• Organizador previo
• Caso práctico
Inicio • Logro esperado

• Análisis de la regresión lineal simple.


• Validación del modelo de regresión lineal simple.
Construcción • Verificación de los supuestos.

• Síntesis
• Metacognición
Cierre • Actividad de aprendizaje
REGRESIÓN

Regresión Lineal Simple


Regresión Lineal Múltiple

Regresión Logística Binaria


Caso práctico
El gerente de una agencia de alquiler de limusinas que opera en Lima Metropolitana quiere
determinar si el tiempo, en minutos, que llevaría transportar pasajeros desde varios lugares
al aeropuerto del Callao durante las horas no pico está explicado por la distancia recorrida,
en kilómetros. Se seleccionó una muestra aleatoria de 12 viajes durante un día en particular
en las horas no pico, con los siguientes resultados:
Distancia
10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7
en km.
Tiempo en
19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19
minutos

Estime el tiempo de transportar pasajeros desde varios lugares al aeropuerto del Callao si la
distancia recorrida es de 19.3 km.

¿El tipo que presentan las variables de estudio son cuantitativas?, ¿En este caso,
se puede decir que una variable está en función de la otra?
Logro esperado

Realiza la regresión lineal simple, en la resolución de


problemas contextualizados, aplicando criterios estadísticos así
como software estadístico, para luego interpretar los
resultados obtenidos.
Definiciones básicas
VARIABLE INDEPENDIENTE
La variable independiente proporciona la base para la estimación. También, se conoce como la variable
predictora o regresora y se simboliza por la letra X.

VARIABLE DEPENDIENTE
Es la variable que se desea estimar o pronosticar; también puede ser descrita como el resultado de un
valor conocido de la variable independiente. La variable dependiente es aleatoria, es decir por cada valor
dado de la variable independiente, existen muchos valores para la variable dependiente. También, se
conoce como la variable respuesta y se simboliza por la letra Y.

RESIDUAL i-ésimo (ei)


Diferencia que existe entre el valor observado de la variable dependiente y el valor pronosticado
empleando la ecuación de regresión estimada; para la observación i-ésima, ei = 𝒚𝒊 − 𝒚𝒊 .

ANÁLISIS RESIDUAL
Es la herramienta principal para determinar si el modelo de regresión empleado es apropiado.
ANÁLISIS DE REGRESIÓN LINEAL
Es un técnica que sirve para pronosticar o estimar el valor esperado de la variable
dependiente, en base a lo que ocurre o lo que sucede con las variables independientes (o
regresoras) x1, x2,...., xp.
En el caso de dos variables, se cumple la siguiente función de regresión:

Y = 0 + 1X+ i → se llama: Ecuación de Regresión Lineal Simple

CARACTERÍSTICAS DE LA REGRESIÓN LINEAL SIMPLE


 La variable X es determinística y es observada con la mejor precisión posible.
 La variable Y es aleatoria.
 Los errores, i, son variables aleatorias con media 0 y varianza 2 constantes .
 Los errores i y j (i,j=1…,n) son independientes entre si.
ESTIMACIÓN DEL MODELO DE REGRESIÓN LINEAL SIMPLE
Principio del Método de Mínimos Cuadrados (MMC): Determina una ecuación de regresión
al minimizar la suma de los cuadrados de las distancias verticales entre los valores reales de
Y y los valores pronosticado de Y.
Haciendo uso del MMC el modelo de regresión lineal simple es estimado por la ecuación:
𝒀 = 𝒃𝟎 + 𝒃𝟏 𝑿

Los estimadores b0 y b1 son obtenidos de la


minimización de las suma de cuadrados de los
residuales o errores. Así;
𝑛 2 𝑛 𝑛
𝑚𝑖𝑛 𝑖=1 𝑒𝑖 = min 𝑖=1( 𝑌𝑖 − 𝑌𝑖 )2 = min 𝑖=1 𝑌𝑖 − 𝑏0 + 𝑏1 𝑋𝑖 2
ESTIMACIÓN DEL MODELO DE REGRESIÓN LINEAL SIMPLE
Sacando la derivada parcial de la suma de cuadrados de residuales, respecto al primer
estimador b0 y b1, resulta que:
n

SP  x, y   x y  nxy
i i
b1  
i 1
b0  y  b1 x
SC  x  n

 x  nx
i 1
2
i
2

Donde:
b1: Coeficiente de regresión estimado (pendiente)
b0: Constante del modelo de regresión lineal. (intercepto)

Interpretación de los estimadores:


bo: Indica el valor promedio de la variable de respuesta Y cuando X es cero.
b1: Indica el cambio promedio en la variable de respuesta Y cuando X se incrementa en
una unidad.
Ejercicio resuelto 1
El gerente de una agencia de alquiler de limusinas que opera en Lima Metropolitana quiere
determinar si el tiempo, en minutos, que llevaría transportar pasajeros desde varios lugares
al aeropuerto del Callao durante las horas no pico está explicado por la distancia recorrida,
en kilómetros. Se seleccionó una muestra aleatoria de 12 viajes durante un día en particular
en las horas no pico, con los siguientes resultados:
Distancia
10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7
en km.
Tiempo en
19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19
minutos

a. Determine el modelo de regresión lineal simple. Interprete el coeficiente de regresión


lineal estimado.
b. Estime el tiempo de transportar pasajeros desde varios lugares al aeropuerto del Callao
si la distancia recorrida es de 19.3 km.
Solución:
Sean las variables:
X = Distancia recorrida
Y = Tiempo de transportar pasajeros

Con el uso de la calculadora se obtuvo la siguiente información:


n n n n n

x
i 1
i  216.9;  xi  4267.63;  yi  357.44;  y i  11454.729;  xi yi  6968.012
i 1
2

i 1 i 1
2

i 1

Además: 216.9 357.44


x  18.075; y   29.787
12 12
a) El modelo estimado de regresión lineal es:
n

SP  x, y  x y i i  nxy
6968.012  12 18.075  29.787 
b1   i 1
  1.461
SC  x  n
4267.63  12 18.075 
2

 i
x 2

i 1
 nx 2

b0  y  b1 x  29.787  1.46118.075   3.375


 Y  3.375  1.461X Interpretación del coeficiente de regresión lineal estimado:
b1 = 1.461: Por cada kilómetro de distancia recorrida, el
tiempo promedio de transportar pasajeros aumenta en
1.461 minutos.
b) Se tiene: X0 = 19.3 kms, entonces:
Y  3.375  1.461X 0  3.375  1.46119.3  31.572 minutos
ENFOQUE DEL ANÁLISIS DE VARIANZA PARA LA PRUEBA DE
SIGNIFICANCIA DE LA REGRESIÓN
i. Planteamiento de hipótesis:
H0: El modelo de regresión lineal simple no es significativo. 𝛽1 = 0
H1: EL modelo de regresión lineal simple es significativo. 𝛽1 ≠ 0
ii. Nivel de significancia: 𝛼 (0.01, 0.05, 0.10, etc)
iii. Estadístico de prueba: 𝐹𝑐𝑎𝑙 (ANOVA)
SCTotal: Suma de cuadrados del total.
𝐧
Fuente de Grados de Suma de
Cuadrados medios Fcal 𝐒𝐂𝐓𝐨𝐭𝐚𝐥 = 𝐲𝐢𝟐 − 𝐧𝐲 𝟐 = 𝐒𝐂(𝐲)
variación libertad cuadrados
Regresión 1 SCReg CMR = SCReg/1 𝐢=𝟏
Fcal = SCReg: Suma de cuadrados de la regresión.
Error n–2 SCE CME = SCE/(n – 2) CMR/CME
𝐒𝐂𝐑𝐞𝐠 = 𝐛𝟏 × 𝐒𝐏(𝐱, 𝐲)
Total n–1 SCTotal SCE: Suma de cuadrados del error.
SCE = SCTotal – SCReg
iv. Valor crítico: FT = F(1, n-2, α)
v. Decisión y conclusion: Si: Fc > F(1, n-2, α), se rechaza H0 y se acepta H1.
MEDIDAS DE BONDAD DE AJUSTE
a. Error Estándar de la Estimación: Es una medida b. Coeficiente de determinación: Mide la variación total
de variabilidad alrededor de la línea de regresión. en Y explicada por el modelo de regresión o indica en
Su fórmula esta dado por: que porcentaje la variable independiente explica a la
variable respuesta. Su fórmula esta dado por:
n n n

y 2
i  b0  yi  b1  yi .xi
R 2SC Re g
Se  i 1 i 1 i 1
 CME
n2 SCTotal
Propiedad: 0 < R2 ≤ 1

INTERVALO DE CONFIANZA PARA LA


RESPUESTA PROMEDIO
Un intervalo de confianza del 100(1-α)% para el valor medio de todos los valores Y dado
que X = X0 está dado por: 2
1 ( x0  x)
IC (  y / x0 )  (b0  b1 x0 )  t n  2,1  S e  
2 n SC ( x)
Del ejercicio resuelto 1
c. Con un nivel de significancia de 5%, ¿se puede afirmar que el modelo de regresión es significativo?
d. Calcule e interprete el coeficiente de determinación.
e. Con un nivel de confianza del 95%, estime el tiempo promedio de transportar pasajeros si la distancia
recorrida es de 19.3 km.
SOLUCIÓN:

c. Se pide:
Planteamiento de hipótesis:
Calculando:
H0: El modelo de regresión lineal no es significativo.
SCTotal = 11454.729 − 12 29.787 2 = 807.545
H1: El modelo de regresión lineal es significativo.
SCReg = 1.461(507.2117) = 741.036
Nivel de significancia: α = 0.05
SCE = 807.545 – 741.036 = 66.509
Estadístico de prueba: Fcal = 111.42
Fuente de Grados de Suma de Cuadrados Valor crítico: F(1,10,0.05) = 4.965
Fcal
variación libertad cuadrados medios Decisión y conclusión: Como Fcal = 111.42 > Fcrítico =
Regresión 1 741.036 741.036 4.965 , se rechaza H0. Con un nivel de significancia de
111.42
Error 10 66.509 6.651 5%, existe evidencia estadística para afirmar que el
modelo de regresión lineal es significativo.
Total 11 807.545
d. Se pide:
SC Re g 741.036
R 2
  0.918
SCTotal 807.545
La variación total del tiempo de transportar pasajeros desde el aeropuerto del Callao
explicada por el modelo de regresión lineal es 91.8%

e. Se pide: 1 ( x0  x) 2
IC (  y / x0 )  (b0  b1 x0 )  t n  2,1  S e  
2 n SC ( x)

Donde:
b0 + b1X0 = 3.375 + 1.461(19.3)=31.5723
t(10,0.975) = 2.228 1 (19.3  18.075) 2
 y / x0  31.5723  2.228  2.579  
𝑆𝑒 = 6.651 = 2.579 12 347.1625
𝑆𝐶 𝑋 = 347.1625 (SESIÓN 1)  y / x  29.8711;33.2735
0
SUPOSICIONES DEL MODELO
En un análisis de regresión se empieza por hacer una suposición acerca del modelo apropiado para la
relación entre las variables dependientes e independientes. En el caso de la regresión lineal simple, se
supone que el modelo de regresión es: Y = 0 + 1X+ i

Después empleando el método de mínimos cuadrados se obtienen los valores de b0 y b1, que son las
estimaciones de los parámetros 0 y 1, respectivamente, del modelo. Así se llega la ecuación de
regresión estimada: 𝒀 = 𝒃𝟎 + 𝒃𝟏 𝑿

Como se vio, el valor del coeficiente de determinación (R2) es una medida de la bondad de ajuste de la
ecuación de regresión estimada. Sin embargo, aun cuando se obtenga un valor grande para R2, la
ecuación de regresión estimada no debe ser usada hasta que se realice un análisis para determinar si el
modelo empleado es adecuado. Un paso importante para ver si el modelo empleado es adecuado es
probar la significancia de la relación. Las pruebas de significancia en el análisis de regresión están basadas
en las suposiciones siguientes acerca del término del error i.
RESIDUAL DE LA OBSERVACIÓN 𝒊
El residual de la observación 𝑖 es la diferencia entre el valor observado de la variable
dependiente (𝑦𝑖 ) y el valor estimado de la variable dependiente (𝑦𝑖 ), así: 𝜺𝒊 = 𝒚𝒊 − 𝒚𝒊

SUPOSICIONES ACERCA DEL TÉRMINO DEL ERROR EN EL ANÁLISIS DE


REGRESIÓN
• El término del error  es una variable aleatoria cuya media, o valor esperado, es cero; es
decir, E() = 0.
Implicación: β0 y β1 son constantes, por lo tanto E(β0)=β0 y E(β1)=β1; así, para un valor
dado de x, el valor esperado de y es:
E(y) = β0 + β1x → Ecuación de regresión lineal simple
• La varianza de , que se denota σ2, es la misma para todos los valores de x.
Implicación: La varianza de y respecto a la recta de regresión es igual a σ2 y es la misma
para todos los valores de x.
• Los valores de  son independientes.
Implicación: El valor de  correspondiente a un determinado valor de x no está
relacionado con el valor de  correspondiente a ningún otro valor de x; por lo tanto, el
valor de y correspondiente a un determinado valor de x no está relacionado con el valor
de y de ningún otro valor de x.
• El término del error  es una variable aleatoria distribuida normalmente.
Implicación: como y es función lineal de , también y es una variable aleatoria distribuida
normalmente.

Observación:
Estas suposiciones son la base teórica para las pruebas T y F que se usan para determinar
si la relación entre X e Y es significativa; y para las estimaciones, mediante intervalos de
confianza y de predicción. Si las suposiciones acerca del término del error  son dudosas,
puede ser que las pruebas de hipótesis acerca de la significancia de la relación de
regresión y los resultados de la estimación por intervalo no sean correctos.
CONTRASTE DE HIPÓTESIS PARA LA VERIFICACIÓN DE SUPUESTOS
Prueba de Jarque Bera
Prueba de normalidad de los errores
Una de las pruebas estadísticas más conocidas, aunque no la única, es el test de Jarque-Bera, que pretende
determinar si una determinada distribución de probabilidad se asemeja a una normal, y lo hace mediante el
estudio de la asimetría y la curtosis.
Podemos utilizar este test para ver comprobar el supuesto de normalidad en los errores del modelo.
Prueba de hipótesis:
Planteamiento de las hipótesis:
H0: Los residuales siguen una distribución Normal.
H1: Los residuales no siguen una distribución Normal.
Nivel de significancia: α (0.01, 0.05, 0.10, etc.)
Estadístico de prueba:
𝐴2 𝑘−3 2
𝐽𝐵 = 𝑛 +
6 24
Donde: A: Coeficiente de asimetría de los residuales y k: Coeficiente de curtosis de los residuales.
*Regla de decisión: Si p-valor < α, se rechaza H0, caso contrario no se rechaza H0.
Prueba de Durbin – Watson (D)
Prueba de independencia (no autocorrelación) de los errores
Decisión:
Para un nivel de significancia: α
Estadístico de prueba: D (reporte de Minitab)

La autocorrelación significa que los errores de las 𝑒𝑡 − 𝑒𝑡−1 2


observaciones adyacentes están correlacionados. Si los 𝐷=
𝑒𝑡2
errores están correlacionados, entonces la regresión de
los mínimos cuadrados puede subestimar el error
estándar de los coeficientes.  Si D > DU, no existe correlación;
El estadístico de Durbin-Watson (D) está condicionado  si D < DL, existe una correlación positiva;
según el orden de las observaciones (filas). El estadístico  si D se encuentra entre los dos límites, la prueba no es
de Durbin-Watson determina si la correlación entre los concluyente.
términos de error adyacentes es o no es igual a cero.
Donde: DU y DL se ubican en la tabla de Durbin Watson con:
k = # variables independientes y
n = tamaño de la muestra.
Del ejercicio resuelto 1
f. Verifique los supuestos en un análisis de regresión lineal simple. Use un α = 0.05

Prueba Jarque Bera


Estadístico* GL Valor p*
JB 4.58 2 0.101
* Estos valores fueron adaptados para el reporte dado

Prueba Durbin Watson

Estadístico
D 1.71293
Normalidad:
Prueba de hipótesis:
Planteamiento de las hipótesis:
H0: Los residuales siguen una distribución Normal.
H1: Los residuales no siguen una distribución Normal.
Nivel de significancia: α = 0.05
Estadístico de prueba: JB = 3.53
Decisión: Como p-valor = 0.101 > α = 0.05, no se rechaza H0.
Conclusión: Al 5% de significancia, se puede afirmar que los residuales siguen una distribución normal.

Decisión:
Para: α = 0.05
Estadístico de prueba: D = 1.713
Valor crítico: DL(k=1; n=12) = 0.971; DU(k=1; n=12) =1.331.
Decisión: Como D = 1.713 > DU = 1.331, no existe correlación entre los residuales (los errores son
independientes)
Síntesis

Con el método de MCO se estiman los coeficientes


Regresión lineal

Modelo de regresión para el modelo de regresión.


lineal estimado
simple

Mediante el estadístico F-Fisher calculado de una


Análisis de varianza se verifica si el modelo de
Significancia del modelo regresión lineal es significativo.

Porcentaje de la variabilidad total de Y explicada por


Medidas de bondad de el modelo de regresión lineal o por la variable
ajuste independiente.
Metacognición

 ¿Qué semejanzas se puede encontrar entre el coeficiente V


de Cramer y el coeficiente de Pearson?

 Para datos categóricos, ¿se puede calcular el coeficiente de


correlación de Pearson?
Actividad de aprendizaje
1. El gerente de una empresa dedicada a la compra-venta de vehículos usados, desea verificar si el precio de venta de
este tipo de vehículos (miles de dólares) está explicado por el recorrido acumulado (decenas de miles de
kilómetros). Con este fin, se hace un estudio basado en una muestra aleatoria de vehículos vendidos durante el
año 2017 y se obtuvo la siguiente información:

9 9 9

 i
x
i 1
 96.4;  i
y  61.83;
i 1
 i  1033.52;
x 2

i 1
9 9

y
i 1
2
i
 424.8009;  xi yi  662.113
i 1

Asumiendo que se cumplan los supuestos en un análisis de regresión lineal, se pide:


a) Determine el modelo de regresión lineal simple
b) Interprete el coeficiente de regresión estimado.
c) Con un nivel de significancia del 5%, ¿se puede afirmar que el modelo de regresión lineal simple es significativo?
d) Calcule e interprete el coeficiente de determinación.
Actividad de aprendizaje
2. El director de escuela de una universidad afirma que los estudiantes universitarios que aprenden más rápido tienen
mejores calificaciones y por lo tanto mejores oportunidades de obtener buenos empleos después de graduarse.
Suponga que resultados que se presentan a continuación representan las calificaciones promedio (entre cero y diez
puntos) de 15 recién graduados y sus correspondientes salarios iniciales (en miles de soles):

Calificación
2.95 3.2 3.4 3.6 3.2 2.85 3.1 2.85 3.05 2.7 2.75 3.1 3.15 2.95 2.75
Promedio
Salario Inicial 18.5 20 21.1 22.4 21.2 15 18 18.8 15.7 14.4 15.5 17.2 19 17.2 16.8

Además, se obtuvo los siguientes resultados analizados en minitab:

Prueba Jarque Bera


Estadístico* GL Valor p*
JB 6.36 2 0.042

Prueba Durbin Watson

Estadístico
D 2.40488
Se pide:
a) Verifique el cumplimiento de los supuestos. Use un α = 0.025.
b) Determine la recta de regresión lineal simple que permita estimar el salario inicial de los recién
graduados en función de la calificación promedio. Interprete el coeficiente de regresión estimado.
c) Estime el salario inicial del recién graduado si tuvo una calificación promedio 3.8 puntos.
d) Con un nivel de significancia del 2.5%, ¿se puede afirmar que el modelo de regresión lineal simple es
significativo?
e) ¿Qué porcentaje de variabilidad total del salario inicial es explicado por la calificación promedio?
f) Con un nivel de confianza del 97.5%, estime el salario promedio inicial del recién graduado si tuvo una
calificación promedio 3.8 puntos.
Referencias Bibliográficas

1. Anderson, S. (2010) Estadística para Administración y Economía. Cengage


Learning 8va. Edición. México.

2. Montesinos, L., Llanos, K., Cerna, E., Pajuelo, S. y Coaquira, F. (2017)


Estadística Descriptiva e Inferencial. Fondo Editorial USIL 1° Edición. Lima,
Perú.

También podría gustarte