Documentos de Académico
Documentos de Profesional
Documentos de Cultura
SEMANA 7
• Retroalimentación.
• Autoevaluación
Cierre
Motivación
El Director de la Institución Educativa La Libertad le gustaría determinar el
tiempo que llevaría transportar Docentes desde varios lugares a la Institución
Educativa durante las horas pico. Se seleccionó una muestra aleatoria de 12
docentes durante un día en particular en las horas pico, con los siguientes
resultados:
Distancia en
km. 10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7
Tiempo en
minutos 19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19
Aplica la técnica de
regresión lineal simple Analiza el
en problemas comportamie Aplica la regresión
contextualizados nto de dos lineal simple en
utilizando el software variables problemas
estadístico Excel. cuantitativas contextualizados.
Realiza pruebas de
hipótesis para verificar los
supuestos mediante los
errores.
I. Video de Introducción
I. Definiciones básicas
VARIABLE DEPENDIENTE
Es la variable que se desea estimar o pronosticar; también puede ser descrita como el resultado de un
valor conocido de la variable independiente. La variable dependiente es aleatoria, es decir por cada valor
dado de la variable independiente, existen muchos valores para la variable dependiente. También, se
conoce como la variable respuesta. Se denota por la letra Y.
VARIABLE INDEPENDIENTE
La variable independiente proporciona la base para la estimación. Es la variable predictora o
regresora. Se denota por la letra X.
RESIDUAL iésimo
Diferencia que existe entre el valor observado de la variable dependiente y el valor pronosticado
empleando la ecuación de regresión estimada; para la observación iésima, el residual iésimo es .
ANÁLISIS RESIDUAL
Es la herramienta principal para determinar si el modelo de regresión empleado es apropiado.
Diagrama de dispersión
• La covarianza se mide como el valor que se espera de los productos de las desviaciones
de dos variables aleatorias respecto a sus correspondientes medias. Una varianza es
un caso especial de covarianza.
Cálculo de la covarianza
𝒏
∑ ( 𝒙𝒊 − 𝒙 ) ( 𝒚 𝒊 − 𝒚 )
𝒊=𝟏
𝑪𝒐𝒗 ( 𝒙 , 𝒚 ) =
𝒏− 𝟏
Donde:
: Tamaño de la muestra.
Interpretación de la covarianza
• Si Cov(x,y) > 0, hay dependencia directa (positiva), es decir a grandes valores de X corresponden
grandes valores de Y.
• Si Cov(x,y) = 0, Una covarianza (0) se interpreta como la no existencia de una relación lineal entre las
dos variables estudiadas.
• Si Cov(x,y) < 0, hay dependencia inversa o negativa es decir, a grandes valores de X corresponden
pequeños valores de Y.
III. Coeficiente de correlación de Pearson (r)
Mide el grado de asociación entre dos variables cuantitativas relacionadas linealmente.
Se calcula mediante la siguiente fórmula:
Sx: Desviación estándar de la variable x.
Donde:
𝑐𝑜𝑣 ( 𝑥 , 𝑦 ) Sy: Desviación estándar de la variable y.
𝑟=
√ √
𝑠𝑥 𝑠𝑦 𝑛 𝑛
∑ ( 𝑥𝑖 − 𝑥 ) 2
∑ ( 𝑦 𝑖 − 𝑦 )2
𝑖=1 𝑖 =1
𝑠𝑥 = ; 𝑠 𝑦=
𝑛 −1 𝑛− 1
• La covarianza es una medida de la variación común a dos variables y, por tanto, una
medida del grado y tipo de su relación.
• El análisis de varianza sirve para comparar si los valores de un grupos de datos son
diferentes significativamente a los valores de otro u otros grupos de datos.
Ejercicio resuelto 1
El Director de la Institución Educativa La Libertad le gustaría determinar el
tiempo que llevaría transportar Docentes desde varios lugares a la Institución
Educativa durante las horas pico. Se seleccionó una muestra aleatoria de 12
docentes durante un día en particular en las horas pico, con los siguientes
resultados:
Viaje 1 2 3 4 5 6 7 8 9 10 11 12
Distancia en km.
(X) 10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7
Tiempo en
minutos (Y) 19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19
Tiempo de transporte
35
30
25
20
15
10
7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
Distancia en kilómetros
Viaje X Y XY X2 Y2 Donde:
1 10.3 19.71 203 106.1 388.5
2 11.6 18.15 210.5 134.6 329.4
3 12.1 21.88 264.7 146.4 478.7
4 14.3 24.21 346.2 204.5 586.1
5 15.7 27.08 425.2 246.5 733.3
6 16.1 22.96 369.7 259.2 527.2
7 18.4 29.38 540.6 338.6 863.2
8 20.2 37.24 752.2 408 1387
9 21.8 36.84 803.1 475.2 1357
10 24.3 40.59 986.3 590.5 1648
11 25.4 41.21 1047 645.2 1698
12 26.7 38.19 1020 712.9 1458
Total 216.9 357.4 6968 4268 11455
Solución
b) Determine la dirección de la relación entre las variables.
𝑛
∑ ( 𝑥 𝑖 − 𝑥 )( 𝑦 𝑖 − 𝑦 )
Se calcula la Covarianza; para ello, se necesita:𝐶𝑜𝑣 ( 𝑥 , 𝑦 )= 𝑖=1
𝑛 −1
Calculando:
Reemplazando:
Por lo tanto, Cov(x,y) > 0, hay dependencia directa (positiva); es decir, a mayor distancia
corresponden mayores tiempo de transportar a pasajeros desde el aeropuerto del Callao.
Solución
a) Determine el grado de relación entre las variables.
𝑐𝑜𝑣 ( 𝑥 , 𝑦 )
Se calcula el coeficiente de correlación; para ello, se necesita:𝑟 =
𝑠𝑥 𝑠𝑦
Calculando:
𝐶𝑜𝑣(𝑥 , 𝑦) 46.117
Reemplazando: 𝑟= = =0.958
𝑆𝑥 𝑆 𝑦 (5.618)(8.569)
Donde:
b1: Coeficiente de regresión estimado, se Interpretación de los valores estimados:
calcula de la siguiente manera:
bo: Indica el valor promedio de la variable de
respuesta Y cuando X es cero.
b0: Constante del modelo de regresión
lineal, se calcula de la siguiente manera: b1: Indica el cambio promedio en la variable de
respuesta Y cuando X se incrementa en una
𝑏0 = 𝑦 − 𝑏1 𝑥
unidad.
Ejemplo 2
Para determinar la relación entre las (X) horas en redes sociales y el (Y) rendimiento de
un test académico, se tomo una muestra de 6 alumnos y se obtuvieron los siguientes
resultados:
𝒏
= = =38625 =13879 ∑ 𝒙 𝒊 𝒚 𝒊=¿𝟐𝟐𝟒𝟎𝟎 ¿
𝒊=𝟏
= 38625 – 6 (79.17)2 =1020.517
𝒏
𝑺𝑪 ( 𝒚 ) =∑ 𝒚 − 𝒏 𝒚 =𝟏𝟑𝟖𝟕𝟗 −𝟔 ( 𝟒𝟕.𝟖𝟑 ) =𝟏𝟓𝟏.𝟎𝟐𝟓
𝟐 𝟐 𝟐
𝒊
𝒊=𝟏
Donde: b1 = -0.314: Si se aumenta las horas en redes sociales en una hora, el rendimiento
de un test disminuirá en 0.314 puntos.
b) Calcule el coeficiente de determinación e interpretarlo.
− 320.771
𝑏1= =−0.314
1020.517
= -0.314*(-320.771)= 100.722
= SCTotal
𝒏
𝑺𝑪 ( 𝒚 ) =∑ 𝒚 − 𝒏 𝒚 =𝟏𝟑𝟖𝟕𝟗 −𝟔 ( 𝟒𝟕.𝟖𝟑 ) =𝟏𝟓𝟏. 𝟎𝟐𝟓
𝟐 𝟐 𝟐
𝒊
𝒊=𝟏
= 0.67
Por lo tanto, la variabilidad del rendimiento del test es explicado por el modelo regresión lineal
en un 67%.
c) Utilice el modelo de regresión desarrollado para predecir el rendimiento den un test, para las horas en redes
sociales de 120 horas.
Nota 5 6 7 3 5 8 4 9
Horas de estudio 7 10 9 4 8 10 5 14
Horas de TV 7 6 2 11 9 3 9 5
a) Representa gráficamente los diagramas correspondientes a nota-estudio y nota-
TV.
b) ¿Se observa correlación entre las variables estudiadas? ¿De qué tipo? ¿En qué
caso estimas que es más fuerte?
c) hallar el coeficiente de correlación de nota-estudio y nota-TV. ¿Qué puede
deducirse con más precisión conociendo la nota que obtuvo una persona en el
examen: el tiempo que dedicó al estudio o el que dedicó a ver la televisión?
d) Hallar las rectas de regresión correspondientes y estima para un alumno que
sacó un 2 en el examen: Las horas que estudió y las horas que vio la TV.
Ejercicio Propuesto 2
En la tabla siguiente se muestran las puntuaciones de 5 niños en las variables
X (cociente intelectual) e Y (calificaciones en una prueba de matemáticas)
Niño X Y
A 92’50 0’50
B 77’50 3’50
C 100’00 5’00
D 107’50 6’50
E 122’50 9’50