Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Probabilidades y Estadística
Otoño 2022
Profesor: Javier Olivas Linares
UNIDAD I:ESTADÍSTICA DESCRIPTIVA UNIVARIADA Y BIVARIADA.
¿Qué veremos hoy
Covarianza
𝑛 𝑛
𝑖=1 𝑥𝑖 − 𝑋 𝑦𝑖 − 𝑌 𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛 ∙ 𝑋 ∙ 𝑌 𝑆𝑋𝑌
𝐶𝑜𝑣 𝑋, 𝑌 = = =
𝑛 𝑛 𝑛
La covarianza depende del producto de las dos unidades de medida de las variables en estudio.
Una covarianza positiva indica que si aumenta los valores de una variables también aumenta los valores de
la otra. Una covarianza negativa indica que si aumentan los valores de una variable disminuyen los valores
de la otra.
Covarianza
Ejemplo: Se desea estudiar si el nivel en sangre de estradiol tiene relación lineal con la edad de las mujeres, con el
objetivo de predecir y modificar su nivel farmacológicamente en edades que lo necesiten. Para ello, se considera una
muestra de 10 mujeres de las que se ha tomado su edad (en años) y su nivel de estradiol (en pg/ml):
Nivel de
Edad (años) estradiol(Pg/ml)
14,3 193,7
21,2 195,2
25,7 185,3
35,2 152,7
38,2 120,7
41,8 88,3
47,2 75,2
51,3 47,5
54,5 25,1
62,7 24,2
Calcular e interpretar la covarianza entre la edad y el nivel de estradiol de las mujeres.
Covarianza
Continuación del ejemplo:
X: Edad Y: Nivel de estradiol XY
14,3 193,7 2769,91
21,2 195,2 4138,24
25,7 185,3 4762,21
35,2 152,7 5375,04
38,2 120,7 4610,74
41,8 88,3 3690,94
47,2 75,2 3549,44
51,3 47,5 2436,75
54,5 25,1 1367,95
62,7 24,2 1517,34
Sumatorias 392,1 1107,9 34218,56
10 392,1 1107,9
Se calcula: 𝑖=1 𝑥𝑖 𝑦𝑖 = 34218 𝑋 = 10 = 39,21 𝑌 = 10 = 110,79
34218−10∙39,21∙110,79
Por lo que Cov(X, Y) = = −922,2759
10
Como el resultado es negativo significa que mientras la edad de la mujer es mayor, el nivel de estradiol es menor.
Correlación lineal: Es el nivel de relación lineal que existe entre dos variables, es decir cuánto
afecta una a la otra linealmente. Para medir la correlación lineal entre las variables X e Y existe el
coeficiente de correlación lineal de Pearson que se denota: 𝜌𝑋𝑌
Supongamos se toma una muestra de n pares ordenados mediante la realización conjunta de ambas
variables:
𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , …, 𝑥𝑛 , 𝑦𝑛
• Si 𝑟𝑋𝑌 = 1 significa que existe una perfecta asociación lineal y directa entre las variables X e Y
Ejemplo de gráfico de dispersión:
• Si 𝑟𝑋𝑌 ≈ 1 significa que existe una fuerte asociación lineal y directa entre las variables X e Y
Ejemplo de gráfico de dispersión:
Interpretación de 𝑟𝑋𝑌
• Si 𝑟𝑋𝑌 ≈ −1 significa que existe una fuerte asociación lineal e inversa entre las variables X e Y
Ejemplo de gráfico de dispersión:
• Si 𝑟𝑋𝑌 = −1 significa que existe asociación lineal perfecta e inversa entre las variables X e Y
Ejemplo de gráfico de dispersión:
Interpretación de 𝑟𝑋𝑌
• Si 𝑟𝑋𝑌 ≈ 0 significa que hay una muy débil asociación lineal o no existe asociación lineal entre las
variables X e Y. Se pueden dar dos casos:
Caso 1: No existe ningún tipo de relación entre las variables, es decir el gráfico corresponde a una
nube de puntos.
Ejemplo de gráfico de dispersión:
Calcular el coeficiente de correlación lineal de Pearson entre la edad y el nivel de estradiol. Complemente el resultado
con un diagrama de dispersión.
Continuación ejemplo de correlación: Se establece que la edad es la variable X (Independiente) y el nivel
de estradiol es la variable dependiente (Y). Se completa la tabla calculando los valores necesarios para
aplicar la fórmula.
X: Edad Y: Nivel de estradiol XY X^2 Y^2
14,3 193,7 2769,91 204,49 37519,69
21,2 195,2 4138,24 449,44 38103,04
25,7 185,3 4762,21 660,49 34336,09
35,2 152,7 5375,04 1239,04 23317,29
𝑋 = 39,21 38,2 120,7 4610,74 1459,24 14568,49
𝑌 = 110,79 41,8 88,3 3690,94 1747,24 7796,89
47,2 75,2 3549,44 2227,84 5655,04
51,3 47,5 2436,75 2631,69 2256,25
54,5 25,1 1367,95 2970,25 630,01
62,7 24,2 1517,34 3931,29 585,64
Sumatorias 392,1 1107,9 34218,56 17521,01 164768,43
𝑆𝑌𝑌 = 𝑛
𝑖=1 𝑦𝑖
2
− 𝑛𝑌 2 = 164768,43 − 10 ∙ 110,79 2 = 42024,189
Continuación ejemplo de correlación:
𝑛
𝑆𝑋𝑌 = −9222,199
−9222,199
𝑟= = −0,9709
2146,769 ∙ 42024,189
Es un valor cercano a −1, lo cual significa que hay una fuerte asociación lineal inversa entre nivel de
estradiol y edad de las mujeres.
Modelo de regresión lineal:
Para hacer una estimación del modelo de regresión lineal simple buscaremos la ecuación de una recta de la forma:
𝑦 = 𝛽0 + 𝛽1 𝑥
de modo que esta recta se ajuste al conjunto de puntos en el diagrama de dispersión, tal como se muestra en la figura.
Tal que los 𝑒𝑖 son los errores de estimación. El modelo es mejor mientras más pequeños sean los valores de 𝑒𝑖 .
Para encontrar esta recta estimada se calculan los valores estimados de los parámetros:
𝑆𝑋𝑌
β1 =
𝑆𝑋𝑋
β0 = 𝑦 − β1 ∙ 𝑥
INTERPRETACIÓN
y = β0 + β1 𝑥
β1 : Representa el cambio promedio que experimenta la variable dependiente y, por cada unidad de cambio
que experimenta la variable independiente x". Es la pendiente de la recta ajustada.
β0 : Es el valor basal de la variable dependiente y" (el valor basal se obtiene para y, cuando 𝑥 = 0).
Ejemplo: Volviendo a los datos del ejemplo de los niveles de estradiol y edades de las mujeres. Determinar:
a) Los valores de los parámetros estimados y escribir el modelo (ecuación) de regresión.
b) Interpretar los valores de los parámetros de acuerdo al contexto del problema.
c) Graficar la recta de regresión ajustada en el diagrama de dispersión.
d) Estimar el nivel de estradiol para una mujer de 60 años.
e) Según el modelo, qué edad tendrá una mujer con un nivel de estradiol de 100 Pg/ml.
𝑆 −9222,199
a) β1 = 𝑆𝑋𝑌 = 2146,769
= −4,2959
𝑋𝑋
β0 = 279,232 Una mujer con 0 años de edad (recién nacida), según este modelo , se espera que su nivel
de estradiol sea 279,232Pg/ml.
250
c)
200
Nivel de estradiol (Pg/ml)
150
100
50
0
0 10 20 30 40 50 60 70
Edad (años)
d) 𝑦 60 = 279,232 − 4,2959 ∙ 60 = 21,478
Se espera que una mujer de 60 años tenga un nivel de estradiol de 21,478 Pg/ml
2 2
rXY ∙ 100% 0 ≤ rXY ≤ 100%
Ejemplo: Calcular e interpretar el coeficiente de determinación para el conjunto de datos de los niveles de estradiol
de las mujeres versus sus edades.