Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Sesin 1. Regresin Lineal Simple
Sesin 1. Regresin Lineal Simple
ESTADÍSTICA II
Plan de clases
• Organizador previo
• Caso práctico
Inicio • Logro esperado
• Síntesis
• Metacognición
Cierre • Actividad de aprendizaje
REGRESIÓN
Estime el tiempo de transportar pasajeros desde varios lugares al aeropuerto del Callao si la
distancia recorrida es de 19.3 km.
¿El tipo que presentan las variables de estudio son cuantitativas?, ¿En este caso,
se puede decir que una variable está en función de la otra?
Logro esperado
VARIABLE DEPENDIENTE
Es la variable que se desea estimar o pronosticar; también puede ser descrita como el resultado de un
valor conocido de la variable independiente. La variable dependiente es aleatoria, es decir por cada valor
dado de la variable independiente, existen muchos valores para la variable dependiente. También, se
conoce como la variable respuesta y se simboliza por la letra Y.
ANÁLISIS RESIDUAL
Es la herramienta principal para determinar si el modelo de regresión empleado es apropiado.
ANÁLISIS DE REGRESIÓN LINEAL
Es un técnica que sirve para pronosticar o estimar el valor esperado de la variable
dependiente, en base a lo que ocurre o lo que sucede con las variables independientes (o
regresoras) x1, x2,...., xp.
En el caso de dos variables, se cumple la siguiente función de regresión:
SP x, y x y nxy
i i
b1
i 1
b0 y b1 x
SC x n
x nx
i 1
2
i
2
Donde:
b1: Coeficiente de regresión estimado (pendiente)
b0: Constante del modelo de regresión lineal. (intercepto)
x
i 1
i 216.9; xi 4267.63; yi 357.44; y i 11454.729; xi yi 6968.012
i 1
2
i 1 i 1
2
i 1
SP x, y x y i i nxy
6968.012 12 18.075 29.787
b1 i 1
1.461
SC x n
4267.63 12 18.075
2
i
x 2
i 1
nx 2
y 2
i b0 yi b1 yi .xi
R 2SC Re g
Se i 1 i 1 i 1
CME
n2 SCTotal
Propiedad: 0 < R2 ≤ 1
c. Se pide:
Planteamiento de hipótesis:
Calculando:
H0: El modelo de regresión lineal no es significativo.
SCTotal = 11454.729 − 12 29.787 2 = 807.545
H1: El modelo de regresión lineal es significativo.
SCReg = 1.461(507.2117) = 741.036
Nivel de significancia: α = 0.05
SCE = 807.545 – 741.036 = 66.509
Estadístico de prueba: Fcal = 111.42
Fuente de Grados de Suma de Cuadrados Valor crítico: F(1,10,0.05) = 4.965
Fcal
variación libertad cuadrados medios Decisión y conclusión: Como Fcal = 111.42 > Fcrítico =
Regresión 1 741.036 741.036 4.965 , se rechaza H0. Con un nivel de significancia de
111.42
Error 10 66.509 6.651 5%, existe evidencia estadística para afirmar que el
modelo de regresión lineal es significativo.
Total 11 807.545
d. Se pide:
SC Re g 741.036
R 2
0.918
SCTotal 807.545
La variación total del tiempo de transportar pasajeros desde el aeropuerto del Callao
explicada por el modelo de regresión lineal es 91.8%
e. Se pide: 1 ( x0 x) 2
IC ( y / x0 ) (b0 b1 x0 ) t n 2,1 S e
2 n SC ( x)
Donde:
b0 + b1X0 = 3.375 + 1.461(19.3)=31.5723
t(10,0.975) = 2.228 1 (19.3 18.075) 2
y / x0 31.5723 2.228 2.579
𝑆𝑒 = 6.651 = 2.579 12 347.1625
𝑆𝐶 𝑋 = 347.1625 (SESIÓN 1) y / x 29.8711;33.2735
0
SUPOSICIONES DEL MODELO
En un análisis de regresión se empieza por hacer una suposición acerca del modelo apropiado para la
relación entre las variables dependientes e independientes. En el caso de la regresión lineal simple, se
supone que el modelo de regresión es: Y = 0 + 1X+ i
Después empleando el método de mínimos cuadrados se obtienen los valores de b0 y b1, que son las
estimaciones de los parámetros 0 y 1, respectivamente, del modelo. Así se llega la ecuación de
regresión estimada: 𝒀 = 𝒃𝟎 + 𝒃𝟏 𝑿
Como se vio, el valor del coeficiente de determinación (R2) es una medida de la bondad de ajuste de la
ecuación de regresión estimada. Sin embargo, aun cuando se obtenga un valor grande para R2, la
ecuación de regresión estimada no debe ser usada hasta que se realice un análisis para determinar si el
modelo empleado es adecuado. Un paso importante para ver si el modelo empleado es adecuado es
probar la significancia de la relación. Las pruebas de significancia en el análisis de regresión están basadas
en las suposiciones siguientes acerca del término del error i.
RESIDUAL DE LA OBSERVACIÓN 𝒊
El residual de la observación 𝑖 es la diferencia entre el valor observado de la variable
dependiente (𝑦𝑖 ) y el valor estimado de la variable dependiente (𝑦𝑖 ), así: 𝜺𝒊 = 𝒚𝒊 − 𝒚𝒊
Observación:
Estas suposiciones son la base teórica para las pruebas T y F que se usan para determinar
si la relación entre X e Y es significativa; y para las estimaciones, mediante intervalos de
confianza y de predicción. Si las suposiciones acerca del término del error son dudosas,
puede ser que las pruebas de hipótesis acerca de la significancia de la relación de
regresión y los resultados de la estimación por intervalo no sean correctos.
CONTRASTE DE HIPÓTESIS PARA LA VERIFICACIÓN DE SUPUESTOS
Prueba de Jarque Bera
Prueba de normalidad de los errores
Una de las pruebas estadísticas más conocidas, aunque no la única, es el test de Jarque-Bera, que pretende
determinar si una determinada distribución de probabilidad se asemeja a una normal, y lo hace mediante el
estudio de la asimetría y la curtosis.
Podemos utilizar este test para ver comprobar el supuesto de normalidad en los errores del modelo.
Prueba de hipótesis:
Planteamiento de las hipótesis:
H0: Los residuales siguen una distribución Normal.
H1: Los residuales no siguen una distribución Normal.
Nivel de significancia: α (0.01, 0.05, 0.10, etc.)
Estadístico de prueba:
𝐴2 𝑘−3 2
𝐽𝐵 = 𝑛 +
6 24
Donde: A: Coeficiente de asimetría de los residuales y k: Coeficiente de curtosis de los residuales.
*Regla de decisión: Si p-valor < α, se rechaza H0, caso contrario no se rechaza H0.
Prueba de Durbin – Watson (D)
Prueba de independencia (no autocorrelación) de los errores
Decisión:
Para un nivel de significancia: α
Estadístico de prueba: D (reporte de Minitab)
Estadístico
D 1.71293
Normalidad:
Prueba de hipótesis:
Planteamiento de las hipótesis:
H0: Los residuales siguen una distribución Normal.
H1: Los residuales no siguen una distribución Normal.
Nivel de significancia: α = 0.05
Estadístico de prueba: JB = 3.53
Decisión: Como p-valor = 0.101 > α = 0.05, no se rechaza H0.
Conclusión: Al 5% de significancia, se puede afirmar que los residuales siguen una distribución normal.
Decisión:
Para: α = 0.05
Estadístico de prueba: D = 1.713
Valor crítico: DL(k=1; n=12) = 0.971; DU(k=1; n=12) =1.331.
Decisión: Como D = 1.713 > DU = 1.331, no existe correlación entre los residuales (los errores son
independientes)
Síntesis
9 9 9
i
x
i 1
96.4; i
y 61.83;
i 1
i 1033.52;
x 2
i 1
9 9
y
i 1
2
i
424.8009; xi yi 662.113
i 1
Calificación
2.95 3.2 3.4 3.6 3.2 2.85 3.1 2.85 3.05 2.7 2.75 3.1 3.15 2.95 2.75
Promedio
Salario Inicial 18.5 20 21.1 22.4 21.2 15 18 18.8 15.7 14.4 15.5 17.2 19 17.2 16.8
Estadístico
D 2.40488
Se pide:
a) Verifique el cumplimiento de los supuestos. Use un α = 0.025.
b) Determine la recta de regresión lineal simple que permita estimar el salario inicial de los recién
graduados en función de la calificación promedio. Interprete el coeficiente de regresión estimado.
c) Estime el salario inicial del recién graduado si tuvo una calificación promedio 3.8 puntos.
d) Con un nivel de significancia del 2.5%, ¿se puede afirmar que el modelo de regresión lineal simple es
significativo?
e) ¿Qué porcentaje de variabilidad total del salario inicial es explicado por la calificación promedio?
f) Con un nivel de confianza del 97.5%, estime el salario promedio inicial del recién graduado si tuvo una
calificación promedio 3.8 puntos.
Referencias Bibliográficas