Está en la página 1de 26

Estadística

SEMANA 7

Msc. Dennis Gabriela Alvaron Robles


1
Plan de clases
• Motivación.
• Competencias
Inicio • Conocimiento previo.

• Coeficiente de correlación de Pearson.


• Modelo de regresión lineal simple.
Construcción

• Retroalimentación.
• Autoevaluación
Cierre
Motivación
El Director de la Institución Educativa La Libertad le gustaría determinar el
tiempo que llevaría transportar Docentes desde varios lugares a la Institución
Educativa durante las horas pico. Se seleccionó una muestra aleatoria de 12
docentes durante un día en particular en las horas pico, con los siguientes
resultados:

Distancia en
km. 10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7
Tiempo en
minutos 19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19

Determine un modelo de regresión lineal simple del tiempo de transportar


docentes en función de la distancia recorrida.

¿El tiempo dependerá de la distancia? O la ¿distancia del Tiempo?


Competencias
Interpreta el coeficiente de
correlación de Pearson para
dos variables cuantitativas en
problemas contextualizados.

Aplica la técnica de
regresión lineal simple Analiza el
en problemas comportamie Aplica la regresión
contextualizados nto de dos lineal simple en
utilizando el software variables problemas
estadístico Excel. cuantitativas contextualizados.

Realiza pruebas de
hipótesis para verificar los
supuestos mediante los
errores.
I. Video de Introducción
I. Definiciones básicas
VARIABLE DEPENDIENTE
Es la variable que se desea estimar o pronosticar; también puede ser descrita como el resultado de un
valor conocido de la variable independiente. La variable dependiente es aleatoria, es decir por cada valor
dado de la variable independiente, existen muchos valores para la variable dependiente. También, se
conoce como la variable respuesta. Se denota por la letra Y.
 
VARIABLE INDEPENDIENTE
La variable independiente proporciona la base para la estimación. Es la variable predictora o
regresora. Se denota por la letra X.

RESIDUAL iésimo
Diferencia que existe entre el valor observado de la variable dependiente y el valor pronosticado
empleando la ecuación de regresión estimada; para la observación iésima, el residual iésimo es .

ANÁLISIS RESIDUAL
Es la herramienta principal para determinar si el modelo de regresión empleado es apropiado.
Diagrama de dispersión

• El diagrama de dispersión representa el grado


de (intensidad) y naturaleza (forma) de la
relación entre las variables X e Y, si es que
existe.

• En el eje de las abscisas se representa los


valores de la variable independiente (X).

• En el eje de la ordenada los valores de la


variable dependiente (Y).
II. Covarianza
• Una medida del grado en que dos variables aleatorias se mueven en la misma
dirección o en direcciones opuestas la una respecto a la otra.

• En otras palabras, si dos variables aleatorias generalmente se mueven en la misma


dirección se dirá que tienen una covarianza positiva. Si tienden a moverse en
direcciones opuestas, se dirá que tienen una covarianza negativa.

• La covarianza se mide como el valor que se espera de los productos de las desviaciones
de dos variables aleatorias respecto a sus correspondientes medias. Una varianza es
un caso especial de covarianza.
Cálculo de la covarianza
𝒏

∑ ( 𝒙𝒊 − 𝒙 ) ( 𝒚 𝒊 − 𝒚 )
𝒊=𝟏
𝑪𝒐𝒗 ( 𝒙 , 𝒚 ) =
𝒏− 𝟏

Donde:

: Tamaño de la muestra.

Interpretación de la covarianza
• Si Cov(x,y) > 0, hay dependencia directa (positiva), es decir a grandes valores de X corresponden
grandes valores de Y.
• Si Cov(x,y) = 0, Una covarianza (0) se interpreta como la no existencia de una relación lineal entre las
dos variables estudiadas.
• Si Cov(x,y) < 0, hay dependencia inversa o negativa es decir, a grandes valores de X corresponden
pequeños valores de Y.
III. Coeficiente de correlación de Pearson (r)
Mide el grado de asociación entre dos variables cuantitativas relacionadas linealmente.
Se calcula mediante la siguiente fórmula:
Sx: Desviación estándar de la variable x.
Donde:
𝑐𝑜𝑣 ( 𝑥 , 𝑦 ) Sy: Desviación estándar de la variable y.
𝑟=

√ √
𝑠𝑥 𝑠𝑦 𝑛 𝑛

∑ ( 𝑥𝑖 − 𝑥 ) 2
∑ ( 𝑦 𝑖 − 𝑦 )2
𝑖=1 𝑖 =1
𝑠𝑥 = ;     𝑠 𝑦=
𝑛 −1 𝑛− 1

También, se puede calcular


como:
𝑆𝑃 (𝑥 , 𝑦 )
𝑟= SC(x): Suma de cuadrados de los valores de x
√ 𝑆𝐶(𝑥 )× √ 𝑆𝐶 (𝑦 )
Donde:
SP(x,y): Suma de productos de los valores de x e y SC(y): Suma de cuadrados de los valores de y
Por propiedad, el coeficiente de correlación de Pearson se encuentra entre:

Esto es; si:


R La relación entre las variables es perfecta e inversa.
R No existe relación entre las variables
R La relación entre las variables es perfecta y directa.
Interpretación del Coeficiente de correlación de Pearson
Si el valor del coeficiente de correlación estaría entre -1 y 1, se interpretaría de la siguiente
manera:
Relación entre Correlación y Covarianza

• La correlación indica la fuerza y dirección de la asociación entre dos variables


aleatorias en forma de relación lineal. Dos variables cuantitativas están
correlacionadas cuando los valores de una de ellas varían con respecto a los valores
de la otra.

• La covarianza es una medida de la variación común a dos variables y, por tanto, una
medida del grado y tipo de su relación.

• El análisis de varianza sirve para comparar si los valores de un grupos de datos son
diferentes significativamente a los valores de otro u otros grupos de datos.
Ejercicio resuelto 1
El Director de la Institución Educativa La Libertad le gustaría determinar el
tiempo que llevaría transportar Docentes desde varios lugares a la Institución
Educativa durante las horas pico. Se seleccionó una muestra aleatoria de 12
docentes durante un día en particular en las horas pico, con los siguientes
resultados:
Viaje 1 2 3 4 5 6 7 8 9 10 11 12
Distancia en km.
(X) 10.3 11.6 12.1 14.3 15.7 16.1 18.4 20.2 21.8 24.3 25.4 26.7
Tiempo en
minutos (Y) 19.71 18.15 21.88 24.21 27.08 22.96 29.38 37.24 36.84 40.59 41.21 38.19

a) Interprete el diagrama de dispersión.


b) Determine la dirección de la relación entre las variables.
c) Determine el grado de relación entre las variables.
a) Interprete el diagrama de dispersión.

Diagrama de dispersión entre la distancia y el tiempo de


45
transporte
40

Tiempo de transporte
35

30

25

20

15

10
7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28

Distancia en kilómetros

Se observa una tendencia creciente (positiva), a mayor distancia, mayor es


el tiempo de transporte.
Solución
Calculando las sumatorias respectivas para las variables:

Viaje X Y XY X2 Y2 Donde:
1 10.3 19.71 203 106.1 388.5
2 11.6 18.15 210.5 134.6 329.4
3 12.1 21.88 264.7 146.4 478.7
4 14.3 24.21 346.2 204.5 586.1
5 15.7 27.08 425.2 246.5 733.3
6 16.1 22.96 369.7 259.2 527.2
7 18.4 29.38 540.6 338.6 863.2
8 20.2 37.24 752.2 408 1387
9 21.8 36.84 803.1 475.2 1357
10 24.3 40.59 986.3 590.5 1648
11 25.4 41.21 1047 645.2 1698
12 26.7 38.19 1020 712.9 1458
Total 216.9 357.4 6968 4268 11455
Solución
b) Determine la dirección de la relación entre las variables.
𝑛

∑ ( 𝑥 𝑖 − 𝑥 )( 𝑦 𝑖 − 𝑦 )
Se calcula la Covarianza; para ello, se necesita:𝐶𝑜𝑣 ( 𝑥 , 𝑦 )= 𝑖=1
𝑛 −1

Calculando:

Reemplazando:

Por lo tanto, Cov(x,y) > 0, hay dependencia directa (positiva); es decir, a mayor distancia
corresponden mayores tiempo de transportar a pasajeros desde el aeropuerto del Callao.
Solución
a) Determine el grado de relación entre las variables.
𝑐𝑜𝑣 ( 𝑥 , 𝑦 )
Se calcula el coeficiente de correlación; para ello, se necesita:𝑟 =
𝑠𝑥 𝑠𝑦

Calculando:

𝐶𝑜𝑣(𝑥 , 𝑦) 46.117
Reemplazando: 𝑟= = =0.958
𝑆𝑥 𝑆 𝑦 (5.618)(8.569)

Existe muy buena relación entre la distancia recorrida y el tiempo de transporte.


IV. Análisis de Regresión Lineal Simple
Es un técnica que sirve para pronosticar o estimar el valor esperado de la variable
dependiente, en base a lo que ocurre o lo que sucede con las variables independientes (o
regresoras) x1, x2,...., xp.

En el caso de dos variables, se cumple la siguiente función de regresión:

Y = 0 + 1X+ i → se llama: Regresión Lineal Simple

Características de la regresión lineal simple


 La variable X es determinística y es observada con la mejor precisión posible.
 La variable Y es aleatoria.
 Los errores, ei, son variables aleatorias con media 0 y varianza 2 constantes .
 Los errores ei y ej (i,j=1…,n) son independientes entre si.
Estimación del Modelo de Regresión Lineal Simple
Principio del Método de Mínimos Cuadrados (MMC):
Determina una ecuación de regresión al minimizar la suma de los
cuadrados de las distancias verticales entre los valores reales de Y y
los valores pronosticado de Y.
Haciendo uso del MMC el modelo de regresión lineal simple
es estimado por la ecuación:

Donde:
b1: Coeficiente de regresión estimado, se Interpretación de los valores estimados:
calcula de la siguiente manera:
bo: Indica el valor promedio de la variable de
respuesta Y cuando X es cero.
b0: Constante del modelo de regresión
lineal, se calcula de la siguiente manera: b1: Indica el cambio promedio en la variable de
respuesta Y cuando X se incrementa en una
𝑏0 = 𝑦 − 𝑏1 𝑥
unidad.
Ejemplo 2
Para determinar la relación entre las (X) horas en redes sociales y el (Y) rendimiento de
un test académico, se tomo una muestra de 6 alumnos y se obtuvieron los siguientes
resultados:

X: horas en redes sociales (h) 60 70 75 80 90 100


Y: Rendimiento (Puntaje de 100 55 45 52 50 45 40
Puntos)

a) Halle la ecuación de regresión e interpretar sus coeficientes.


b) Calcule el coeficiente de determinación e interpretarlo.
c) Utilice el modelo de regresión desarrollado para predecir el rendimiento
den un test, para las horas en redes sociales de 120 horas.
a) Halle la ecuación de regresión e interpretar sus coeficientes.

𝒏
= = =38625 =13879 ∑ 𝒙 𝒊 𝒚 𝒊=¿𝟐𝟐𝟒𝟎𝟎 ¿
𝒊=𝟏
= 38625 – 6 (79.17)2 =1020.517
𝒏
𝑺𝑪 ( 𝒚 ) =∑ 𝒚 − 𝒏 𝒚 =𝟏𝟑𝟖𝟕𝟗 −𝟔 ( 𝟒𝟕.𝟖𝟑 ) =𝟏𝟓𝟏.𝟎𝟐𝟓
𝟐 𝟐 𝟐
𝒊
𝒊=𝟏

= 22400 – 6(79.17*47.83)= -320.771

− 320.771 = 47.833 – (– 0.31*79.167 )=72.691


𝑏1= =−0.314
1020.517
La ecuación de regresión es: Y = 72.691 - 0.314 X

Donde: b1 = -0.314: Si se aumenta las horas en redes sociales en una hora, el rendimiento
de un test disminuirá en 0.314 puntos.
b) Calcule el coeficiente de determinación e interpretarlo.

= 22400 – 6(79.17*47.833)= -320.771

− 320.771
𝑏1= =−0.314
1020.517
= -0.314*(-320.771)= 100.722

= SCTotal
𝒏
𝑺𝑪 ( 𝒚 ) =∑ 𝒚 − 𝒏 𝒚 =𝟏𝟑𝟖𝟕𝟗 −𝟔 ( 𝟒𝟕.𝟖𝟑 ) =𝟏𝟓𝟏. 𝟎𝟐𝟓
𝟐 𝟐 𝟐
𝒊
𝒊=𝟏

= 0.67

Por lo tanto, la variabilidad del rendimiento del test es explicado por el modelo regresión lineal
en un 67%.
c) Utilice el modelo de regresión desarrollado para predecir el rendimiento den un test, para las horas en redes
sociales de 120 horas.

Dato: = X = 120 km/h

Estimando el rendimiento del test:

𝒀 = 72.691 −𝟎.𝟑𝟏𝟒(𝟏𝟐𝟎)=𝟑𝟓.𝟎11 puntos de rendimiento


Ejercicio Propuesto 01
La tabla siguiente muestra las notas obtenidas por 8 alumnos en un examen,
las horas de estudio dedicadas a su preparación y las horas que vieron la
televisión los días previos al examen.

Nota 5 6 7 3 5 8 4 9
Horas de estudio 7 10 9 4 8 10 5 14
Horas de TV 7 6 2 11 9 3 9 5
a) Representa gráficamente los diagramas correspondientes a nota-estudio y nota-
TV.
b) ¿Se observa correlación entre las variables estudiadas? ¿De qué tipo? ¿En qué
caso estimas que es más fuerte?
c) hallar el coeficiente de correlación de nota-estudio y nota-TV. ¿Qué puede
deducirse con más precisión conociendo la nota que obtuvo una persona en el
examen: el tiempo que dedicó al estudio o el que dedicó a ver la televisión?
d) Hallar las rectas de regresión correspondientes y estima para un alumno que
sacó un 2 en el examen: Las horas que estudió y las horas que vio la TV.
Ejercicio Propuesto 2
En la tabla siguiente se muestran las puntuaciones de 5 niños en las variables
X (cociente intelectual) e Y (calificaciones en una prueba de matemáticas)

Niño X Y
A 92’50 0’50
B 77’50 3’50
C 100’00 5’00
D 107’50 6’50
E 122’50 9’50

a) Representa gráficamente los diagramas correspondientes.


b) Hallar la covarianza entre las variables X e Y
c) hallar el coeficiente de correlación
d) Hallar la recta de regresión correspondiente e interprete los coeficientes.
Referencias Bibliográficas

1. Devore, J. (2008) Probabilidad y Estadística para Ingeniería y


Ciencias. Cengage Learning 7ma. Edición. México.

2. Mendehall, W. (2010) Introducción a la Probabilidad y


Estadística. Cengage Learning 13a Edición. México.

También podría gustarte