Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MINERÍA DE DATOS
APLICADA A REDES ELÉCTRICAS
Análisis Multivariante
Medidas de Centralización: El vector de medias
La Matriz de Varianzas y Covarianzas
Varianza Generalizada
Varianza Efectiva
Distancias: Distancia de Mahalanobis
Correlaciones
Generalización de Coeficientes: Asimetría y Kurtosis
3
Análisis Multivariante
El vector de medias:
con
Análisis Multivariante
Matriz deVarianzas y Covarianzas:
Varianza: Variabilidad respecto a la Media
Covarianza: Relación lineal entre dos variables (Si
cov(x,y) = 0 Variables linealmente
independientes)
Semidefinida
Positiva
5
Análisis Multivariante
Matriz deVarianzas y Covarianzas:
Matriz de Datos Centrados:
Idempotente
rg(P) = n - 1
Varianza:
Varianza Corregida:
6
Análisis Multivariante
Variables Redundantes:
Si entonces S tiene un Valor propio igual a
CERO y w es su Vector Propio asociado. En este caso, una
variable es combinación lineal exacta de las otras; por tanto, se
puede eliminar esta variable rg (S ) h p
Los Vec. Pr. asociados a s nulos indican la composición de las
variables redundantes (r = # Vp nulos).
Análisis Multivariante
Medidas Globales de Variabilidad:
Varianza Total:
Varianza Media:
Análisis Multivariante
Medidas Globales de Variabilidad:
Varianza Generalizada:
Análisis Multivariante
Medidas Globales de Variabilidad:
Varianza Efectiva: VE S
1/ p
DE S
1/2 p
Desviación Efectiva:
S 17x17
es de 1.61x107 km2
Mayores autovalores: 2.0872x107, 1.6351x106
Menor autovalor: 0.1495
Varianza generalizada: VG = |S| = 3.683 x1042
ESTANDARIZACIÓN
11
Análisis Multivariante
• Distancia
Dados dos puntos xi, xj pertenecientes a , se establece una
p
Análisis Multivariante
• Distancia de Minkowski: Es una familia de Métricas
Casos particulares:
- Distancia Euclídea o en L2 (r = 2):
- Distancia L1 (r = 1):
Análisis Multivariante
• Distancia de Mahalanobis:
Se define la distancia de Mahalanobis entre un punto y su
vector de medias por:
s12
r
s1s2
14
Análisis Multivariante
• Distancia Promedio:
Medida global de la variabilidad respecto a la media de
una variable vectorial, promediando las distancias entre
los puntos y la media.
Variabilidad Total:
Variabilidad Media:
15
Dependencia Lineal
• Dependencia por pares de variables: Matriz de Correlación
s jk
Coeficiente de correlación lineal o simple: rjk
s j sk
Es invariante ante transformaciones lineales
RD 1/2
SD 1/2
D diag S
Correlación entre variables 16
1.000 0.065 -0.185 -0.023 -0.043 0.401 0.379 0.041 -0.053 -0.029 -0.081
1.000 0.288 0.980 0.957 0.436 0.358 0.884 0.958 0.405 0.920
1.000 0.256 0.241 0.067 0.025 0.147 0.214 0.176 0.220
1.000 0.972 0.285 0.223 0.872 0.989 0.372 0.947
1.000 0.282 0.245 0.878 0.971 0.337 0.966
1.000 0.852 0.484 0.262 0.230 0.249
1.000 0.510 0.230 0.245 0.215
Dependencia Lineal
• Dependencia de cada variable y el resto: Regresión Múltiple
Dependencia Lineal
• Dependencia de cada variable y el resto: Regresión Múltiple
VT VE VNE
- Coeficiente de determinación o de correlación múltiple
al cuadrado
R 2j .1,
VE
1
VNE
1
sr2 j
sr2 j
i
e 2
,p
VT VT s 2j n
Dependencia Lineal
• Dependencia directa entre pares: Correlaciones Parciales
P 1 DS
1 1/2
S DS
1
1 1/2
diag
Dependencia Lineal
• Coeficiente de Dependencia – |R|
D Rp 1 Rp
1/ p 1
Coeficiente Dependencia Efectiva:
21
Coeficientes Multivariantes
• Distancia de Mahalanobis al cuadrado para cada par de
elementos muestrales 2
dij xi x j ' S
1
x x
i j