Está en la página 1de 19

+

Probabilidades y Estadística
Otoño 2022
Profesor: Javier Olivas Linares
UNIDAD I:ESTADÍSTICA DESCRIPTIVA UNIVARIADA Y BIVARIADA.
¿Qué veremos hoy
Covarianza

La covarianza es una medida de dispersión conjunta de dos variables aleatorias cuantitativas. Es la


sumatoria de los productos cruzados de las desviaciones de las variables respecto a sus promedios. La
covarianza entre X e Y se denota Cov(X, Y)

𝑛 𝑛
𝑖=1 𝑥𝑖 − 𝑋 𝑦𝑖 − 𝑌 𝑖=1 𝑥𝑖 𝑦𝑖 − 𝑛 ∙ 𝑋 ∙ 𝑌 𝑆𝑋𝑌
𝐶𝑜𝑣 𝑋, 𝑌 = = =
𝑛 𝑛 𝑛

La covarianza depende del producto de las dos unidades de medida de las variables en estudio.
Una covarianza positiva indica que si aumenta los valores de una variables también aumenta los valores de
la otra. Una covarianza negativa indica que si aumentan los valores de una variable disminuyen los valores
de la otra.
Covarianza

Ejemplo: Se desea estudiar si el nivel en sangre de estradiol tiene relación lineal con la edad de las mujeres, con el
objetivo de predecir y modificar su nivel farmacológicamente en edades que lo necesiten. Para ello, se considera una
muestra de 10 mujeres de las que se ha tomado su edad (en años) y su nivel de estradiol (en pg/ml):

Nivel de
Edad (años) estradiol(Pg/ml)
14,3 193,7
21,2 195,2
25,7 185,3
35,2 152,7
38,2 120,7
41,8 88,3
47,2 75,2
51,3 47,5
54,5 25,1
62,7 24,2
Calcular e interpretar la covarianza entre la edad y el nivel de estradiol de las mujeres.
Covarianza
Continuación del ejemplo:
X: Edad Y: Nivel de estradiol XY
14,3 193,7 2769,91
21,2 195,2 4138,24
25,7 185,3 4762,21
35,2 152,7 5375,04
38,2 120,7 4610,74
41,8 88,3 3690,94
47,2 75,2 3549,44
51,3 47,5 2436,75
54,5 25,1 1367,95
62,7 24,2 1517,34
Sumatorias 392,1 1107,9 34218,56

10 392,1 1107,9
Se calcula: 𝑖=1 𝑥𝑖 𝑦𝑖 = 34218 𝑋 = 10 = 39,21 𝑌 = 10 = 110,79
34218−10∙39,21∙110,79
Por lo que Cov(X, Y) = = −922,2759
10
Como el resultado es negativo significa que mientras la edad de la mujer es mayor, el nivel de estradiol es menor.
Correlación lineal: Es el nivel de relación lineal que existe entre dos variables, es decir cuánto
afecta una a la otra linealmente. Para medir la correlación lineal entre las variables X e Y existe el
coeficiente de correlación lineal de Pearson que se denota: 𝜌𝑋𝑌

Este coeficiente se obtiene por siguiente expresión:


𝐶𝑜𝑣(𝑋, 𝑌) 𝜎𝑋𝑌
𝜌𝑋𝑌 = =
𝑣𝑎𝑟 𝑋 𝑉𝑎𝑟(𝑌) 𝜎𝑋 ∙ 𝜎𝑌

Supongamos se toma una muestra de n pares ordenados mediante la realización conjunta de ambas
variables:
𝑥1 , 𝑦1 , 𝑥2 , 𝑦2 , …, 𝑥𝑛 , 𝑦𝑛

Utilizando estos valores se puede estimar 𝜌𝑋𝑌 mediante la expresión:


𝑛
𝑖=1 𝑥𝑖 𝑦𝑖 −𝑛∙𝑋∙𝑌 𝑆𝑋𝑌
𝑟𝑋𝑌 = =
𝑛 2 𝑛 𝑆𝑋𝑋 ∙ 𝑆𝑌𝑌
𝑖=1 𝑥𝑖 − 𝑛𝑋 2 𝑖=1 𝑦𝑖
2 − 𝑛𝑌 2
Interpretación de 𝑟𝑋𝑌

• Si 𝑟𝑋𝑌 = 1 significa que existe una perfecta asociación lineal y directa entre las variables X e Y
Ejemplo de gráfico de dispersión:

• Si 𝑟𝑋𝑌 ≈ 1 significa que existe una fuerte asociación lineal y directa entre las variables X e Y
Ejemplo de gráfico de dispersión:
Interpretación de 𝑟𝑋𝑌

• Si 𝑟𝑋𝑌 ≈ −1 significa que existe una fuerte asociación lineal e inversa entre las variables X e Y
Ejemplo de gráfico de dispersión:

• Si 𝑟𝑋𝑌 = −1 significa que existe asociación lineal perfecta e inversa entre las variables X e Y
Ejemplo de gráfico de dispersión:
Interpretación de 𝑟𝑋𝑌

• Si 𝑟𝑋𝑌 ≈ 0 significa que hay una muy débil asociación lineal o no existe asociación lineal entre las
variables X e Y. Se pueden dar dos casos:
Caso 1: No existe ningún tipo de relación entre las variables, es decir el gráfico corresponde a una
nube de puntos.
Ejemplo de gráfico de dispersión:

Caso 2: Existe relación entre las variables, pero no es lineal


Ejemplo de gráfico de dispersión
Ejemplo: Utilizando los datos del ejemplo de los niveles de estradiol y edades de las mujeres.
Nivel de
Edad (años) estradiol(Pg/ml)
14,3 193,7
21,2 195,2
25,7 185,3
35,2 152,7
38,2 120,7
41,8 88,3
47,2 75,2
51,3 47,5
54,5 25,1
62,7 24,2

Calcular el coeficiente de correlación lineal de Pearson entre la edad y el nivel de estradiol. Complemente el resultado
con un diagrama de dispersión.
Continuación ejemplo de correlación: Se establece que la edad es la variable X (Independiente) y el nivel
de estradiol es la variable dependiente (Y). Se completa la tabla calculando los valores necesarios para
aplicar la fórmula.
X: Edad Y: Nivel de estradiol XY X^2 Y^2
14,3 193,7 2769,91 204,49 37519,69
21,2 195,2 4138,24 449,44 38103,04
25,7 185,3 4762,21 660,49 34336,09
35,2 152,7 5375,04 1239,04 23317,29
𝑋 = 39,21 38,2 120,7 4610,74 1459,24 14568,49
𝑌 = 110,79 41,8 88,3 3690,94 1747,24 7796,89
47,2 75,2 3549,44 2227,84 5655,04
51,3 47,5 2436,75 2631,69 2256,25
54,5 25,1 1367,95 2970,25 630,01
62,7 24,2 1517,34 3931,29 585,64
Sumatorias 392,1 1107,9 34218,56 17521,01 164768,43

𝑆𝑋𝑋 = 𝑥𝑖 2 − 𝑛𝑋 2 = 17521,01 − 10 ∙ 39,212 = 2146,769


𝑖=1

𝑆𝑌𝑌 = 𝑛
𝑖=1 𝑦𝑖
2
− 𝑛𝑌 2 = 164768,43 − 10 ∙ 110,79 2 = 42024,189
Continuación ejemplo de correlación:
𝑛

𝑆𝑋𝑌 = 𝑥𝑖 𝑦𝑖 − 𝑛 ∙ 𝑋 ∙ 𝑌 = 34218,56 − 10 ∙ 39,21 ∙ 110,79


𝑖=1

𝑆𝑋𝑌 = −9222,199

Por lo que el coeficiente de correlación de Pearson estimado es:

−9222,199
𝑟= = −0,9709
2146,769 ∙ 42024,189

Es un valor cercano a −1, lo cual significa que hay una fuerte asociación lineal inversa entre nivel de
estradiol y edad de las mujeres.
Modelo de regresión lineal:

Para hacer una estimación del modelo de regresión lineal simple buscaremos la ecuación de una recta de la forma:
𝑦 = 𝛽0 + 𝛽1 𝑥

de modo que esta recta se ajuste al conjunto de puntos en el diagrama de dispersión, tal como se muestra en la figura.

Tal que los 𝑒𝑖 son los errores de estimación. El modelo es mejor mientras más pequeños sean los valores de 𝑒𝑖 .
Para encontrar esta recta estimada se calculan los valores estimados de los parámetros:

𝑆𝑋𝑌
β1 =
𝑆𝑋𝑋

β0 = 𝑦 − β1 ∙ 𝑥
INTERPRETACIÓN

y = β0 + β1 𝑥

β1 : Representa el cambio promedio que experimenta la variable dependiente y, por cada unidad de cambio
que experimenta la variable independiente x". Es la pendiente de la recta ajustada.

β0 : Es el valor basal de la variable dependiente y" (el valor basal se obtiene para y, cuando 𝑥 = 0).
Ejemplo: Volviendo a los datos del ejemplo de los niveles de estradiol y edades de las mujeres. Determinar:
a) Los valores de los parámetros estimados y escribir el modelo (ecuación) de regresión.
b) Interpretar los valores de los parámetros de acuerdo al contexto del problema.
c) Graficar la recta de regresión ajustada en el diagrama de dispersión.
d) Estimar el nivel de estradiol para una mujer de 60 años.
e) Según el modelo, qué edad tendrá una mujer con un nivel de estradiol de 100 Pg/ml.

𝑆 −9222,199
a) β1 = 𝑆𝑋𝑌 = 2146,769
= −4,2959
𝑋𝑋

β0 = 𝑦 − β1 ∙ 𝑥 = 110,79 − −4,2959 ∙ 39,21 = 279,232


𝒚 = 279,232 − 4,2959𝑥 Modelo de regresión
Continuación del ejemplo:
b) β1 = −4,2959 Por cada año más que tenga una mujer, su nivel de estradiol se estima que disminuye
4,2949 Pg/ml.

β0 = 279,232 Una mujer con 0 años de edad (recién nacida), según este modelo , se espera que su nivel
de estradiol sea 279,232Pg/ml.
250
c)
200
Nivel de estradiol (Pg/ml)

150

100

50

0
0 10 20 30 40 50 60 70
Edad (años)
d) 𝑦 60 = 279,232 − 4,2959 ∙ 60 = 21,478

Se espera que una mujer de 60 años tenga un nivel de estradiol de 21,478 Pg/ml

e) 100 = 279,232 − 4,2959 ∙ 𝑥


𝑥 = 41,72
Para que una mujer tenga un nivel de estradiol de 100 Pg/ml se estima que su edad sea de 41,72 años
COEFICIENTE DE DETERMINACIÓN: Este coeficiente calcula el nivel de ajuste de un modelo de regresión lineal
simple, es decir, indica que porcentaje de la variabilidad que experimenta la variable dependiente “y” es aplicada
por el modelo ajustado.

2 2
rXY ∙ 100% 0 ≤ rXY ≤ 100%

Observación: Se calcula simplemente elevando al cuadrado el coeficiente de correlación de Pearson.

Ejemplo: Calcular e interpretar el coeficiente de determinación para el conjunto de datos de los niveles de estradiol
de las mujeres versus sus edades.

r 2 = −0,9709 2 ∙ 100% = 94,26%


Observación: el coeficiente de determinación es siempre un valor positivo.
Interpretación: La variabilidad del nivel de estradiol de las mujeres es explicada en un 94,26% a través de la edad.

También podría gustarte