Está en la página 1de 16

Procesado de Información

Biológica
Sesión 7
Mónica Rojas Martínez

××
Universidad El Bosque
× o
oo
××
× o
o o Contenido
› Covarianza
› Correlación
› Interpretación
› Aplicaciones
××
× o
o o Covarianza
› Análogamente a la varianza, la covarianza es un medida de la
variabilidad conjunta de 2 variables x, y.
› Se define como:
∑ 𝑥 𝜇 𝑦 𝜇
𝐶𝑂𝑉 𝑠
𝑛 1

Donde x, y representan dos variables, 𝜇 y 𝜇 representan la


media las distribuciones x, y y n es el número total de muestras
Nota: Fijarse que la varianza es un caso especial de la
covarianza donde x = y
𝑥 𝜇 𝑦 𝜇 tiene el mismo signo sii x y y caen al mismo
lado de sus medias (i.e. varían en la misma dirección)
××
× o
o o Covarianza- Interpretación
› Si tenemos dos variables x, y con las relaciones mostradas:
y y y

x x x
Covarianza Covarianza Covarianza
positiva cercana a 0 negativa
××
× o
o o Covarianza- Interpretación
› Covarianza positiva: Si la variable x aumenta, la variable y
aumenta. Esto es valores grandes de una variable indican
valores grandes de la otra variable
› Covarianza negativa: Si la variable x aumenta, y
disminuye. Esto es valores grandes de una variable
indican valores pequeños de la otra variable
› Covarianza cercana a 0: No hay relación lineal entre las
dos variables. Se dice que las variables son
independientes
 La covarianza es una medida de la dependencia entre
dos variables
××
× o
o o Covarianza. Ejemplo
› Calcular la covarianza de x y y con
x = [2 4 6 12] x = [200 400 600 120]
y = [10 14 12 18] y = [90 70 300 150]

COV = 13.33 COV = 14233


××
× o
o o Covarianza- Interpretación
› La covarianza permite saber si hay una relación positiva,
negativa o nula en las variables
› Debido a la magnitud propia de las variables, la covarianza
no puede indicar que tan fuerte es la relación entre dichas
variables
××
× o
o o Correlación
› Es una medida de la “fuerza” de la relación entre dos
variables medida de la dependencia lineal
› Este concepto es de alguna manera análoga a la
correlación entre señales: a mayor correlación, mayor
similitud
› Se estima a través del coeficiente de correlación.
Comúnmente, el coeficiente de correlación de Pearson
××
× o
o o Coeficiente de correlación de Pearson
› Para dos variables x, y, el coeficiente de correlación de
Pearson (r) se define como

𝑠
𝑟
𝜎 𝜎
Donde, sxy es la covarianza de x y y, y 𝜎 , 𝜎 representan la
desviación estándar de x y y respectivamente
××
× o
o o Correlación- Interpretación
› Las correlación entre las variables dependen de la
covarianza (numerador):
y y y

x x x
Correlación Correlación Correlación
positiva cercana a 0 negativa

› Las desviaciones estándar en el denominador permiten


normalizar la medida!
××
× o
o o Correlación de Pearson- Propiedades
› Varía entre -1 y 1
› 1 indica una relación positiva muy fuerte entre las dos
variables (todos los puntos caen en una recta) pendiente?
› -1 indica una relación negativa muy fuerte entre las dos
variables pendiente?
› 0 indica que no hay relación entre las variables (como en
la covarianza) pendiente?
› Es simétrica  rxy = ryx
› Es invariante ante cambios en la localización (~media) y
de escala (~rango) Por qué?
××
× o
o o Coeficiente de correlación de Pearson
› Alternativamente se puede expresar en forma compacta como

∑ 𝑥 𝜇 𝑦 𝜇
𝑟
∑ 𝑥 𝜇 ∑ 𝑦 𝜇

∑ 𝑥𝑦 𝜇 𝜇
𝑟
∑ 𝑥 𝑛𝜇 ∑ 𝑦 𝑛𝜇

𝑛 ∑ 𝑥𝑦 ∑𝑥 ∑𝑦
𝑟
𝑛∑𝑥 ∑𝑥 𝑛∑𝑦 ∑𝑦
Donde x, y representan dos variables, 𝜇 y 𝜇 representan la media las distribuciones
x, y y n es el número total de muestras
××
× o
o o Cómo interpretar r
r
+.70 o superior Una relación positiva muy fuerte
+.40 a +.69 Relación positiva fuerte
+.30 a +.39 Relación positiva moderada
+.20 a +.29 Relación positiva débil
+.01 a +.19 Relación despreciable o sin relación
0 Sin relación
-.01 a -.19 Relación despreciable o sin relación
-.20 a -.29 Relación negativa débil
-.30 a -.39 Relación negativa moderada
-.40 a -.69 Relación negativa fuerte
-.70 o superior Una relación negativa muy fuerte

Nota: Esto es una guía arbitraria!


××
× o
Correlación. Ejemplo
o o
› Calcular el coeficiente de correlación de x y y con
x = [2 4 6 12] x = [120 200 400 600]
y = [10 14 12 18] y = [150 90 70 300]

COV = 13.33 COV = 14233


r = 0.9035 r = 0.6360
××
× o
o o Aplicaciones
› Análisis de las relaciones entre poblaciones, tratamientos,
etc.
› Preselección de características con el fin de eliminar
correlaciones para evitar el sobreajuste
› Para hacer una estimación del error de la regresión
› para hacer una selección de las variables que mejor
predicen
××
× o
o o Aplicaciones
› Análisis de las relaciones entre poblaciones, tratamientos,
etc.
› Lo podemos utilizar como una medida del error
› Para seleccionar las características de entrada del modelo
con el fin de mejorar la predicción
› “Descartar” posibles correlaciones entre las variables de
entrada e impedir que el modelo se sobreajuste

También podría gustarte