Está en la página 1de 21

1

MINERÍA DE DATOS
APLICADA A REDES ELÉCTRICAS

ANÁLISIS DE DATOS MULTIVARIANTES


Descripción de Datos Multivariantes
VARIABILIDAD Y DEPENDENCIA LINEAL
Dr.-Ing. Jaime Cepeda
Mayo 2023
1
2

Análisis Multivariante
 Medidas de Centralización: El vector de medias
 La Matriz de Varianzas y Covarianzas
 Varianza Generalizada
 Varianza Efectiva
 Distancias: Distancia de Mahalanobis
 Correlaciones
 Generalización de Coeficientes: Asimetría y Kurtosis
3

Análisis Multivariante
 El vector de medias:

con

Debido a que x se encuentra en el centro de los datos,


se tiene que:
4

Análisis Multivariante
 Matriz deVarianzas y Covarianzas:
Varianza: Variabilidad respecto a la Media
Covarianza: Relación lineal entre dos variables (Si
cov(x,y) = 0  Variables linealmente
independientes)

Semidefinida
Positiva
5

Análisis Multivariante
 Matriz deVarianzas y Covarianzas:
Matriz de Datos Centrados:
Idempotente

rg(P) = n - 1

Varianza:

Varianza Corregida:
6

Análisis Multivariante
 Variables Redundantes:
Si entonces S tiene un Valor propio igual a
CERO y w es su Vector Propio asociado. En este caso, una
variable es combinación lineal exacta de las otras; por tanto, se
puede eliminar esta variable rg (S )  h  p
Los Vec. Pr. asociados a s nulos indican la composición de las
variables redundantes (r = # Vp nulos).

Base ortonormal rg ( X )  rg ( X ' X )  rg (S )  h


7

Análisis Multivariante
 Medidas Globales de Variabilidad:

Varianza Total:

Varianza Media:

- Son una medida de la variabilidad del conjunto de variables


- Estas dos no consideran la dependencia que pueda existir entre
las variables
8

Análisis Multivariante
 Medidas Globales de Variabilidad:

Varianza Generalizada:

Desviación Típica Generalizada: VG  S


1/2

- Es una medida del área (para p = 2), volumen (para p = 3) o hipervolumen


(para p > 3) ocupado por el conjunto de datos.
- Está bien definida, ya que el determinante de la matriz de varianzas y
covarianzas es siempre no negativo.
- Un inconveniente es que no sirve para comparar conjuntos de datos con distinto
número de variables.
9

Análisis Multivariante
 Medidas Globales de Variabilidad:

Varianza Efectiva: VE  S
1/ p

DE  S
1/2 p
Desviación Efectiva:

- Es una Medida Global deVariabilidad (media geométrica)


- Media Geométrica < Media Aritmética  VE  s 2

- Sirve para comparar conjuntos de datos con distinto número de variables.


10

Ejemplo: Variabilidad de los Datos


Valores numéricos muy altos. El más alto es la varianza
de la Longitud de Líneas de Baja Tensión (V13), la cual

S 17x17
es de 1.61x107 km2
Mayores autovalores: 2.0872x107, 1.6351x106
Menor autovalor: 0.1495
Varianza generalizada: VG = |S| = 3.683 x1042

La influencia de las unidades provoca valores altos de varianzas y covarianzas


en variables que no necesariamente tienen alta variabilidad, por lo que no
permite reflejar el comportamiento real de los datos.

ESTANDARIZACIÓN
11

Análisis Multivariante
• Distancia
Dados dos puntos xi, xj pertenecientes a  , se establece una
p

distancia, o una métrica, cuando se define una función con las


propiedades siguientes:
a) d :  p  p   , es decir, dados dos puntos en el
espacio de dimensión p su distancia con esta función es un número no
negativo, d(xi, xj) ≥ 0
b) d(xi, xi) = 0 ∀i, d entre un elemento y sí mismo es cero
c) d(xi, xj) = d(xj, xi), es una función simétrica en sus argumentos
d) d(xi, xj) ≤ d(xi, xp) + d(xp, xj), debe verificar que si se tienen tres
puntos, la suma de las longitudes de dos lados cualesquiera del
triángulo formado por los tres puntos debe siempre ser mayor que el
tercer lado (propiedad triangular)
12

Análisis Multivariante
• Distancia de Minkowski: Es una familia de Métricas

Casos particulares:
- Distancia Euclídea o en L2 (r = 2):

- Distancia L1 (r = 1):

- Estas distancias dependen de las unidades de medida. Una forma de


evitar esto es dividir cada variable por un término que elimine el
efecto de la escala  Familia de Métricas Euclideas Ponderadas :
dij   xi  x j  ' M  x  x 
1/2
1
i j
13

Análisis Multivariante
• Distancia de Mahalanobis:
Se define la distancia de Mahalanobis entre un punto y su
vector de medias por:

La distancia de Mahalanobis (al cuadrado) entre dos puntos


(x1, y1), (x2, y2) puede escribirse:

s12
r
s1s2
14

Análisis Multivariante
• Distancia Promedio:
Medida global de la variabilidad respecto a la media de
una variable vectorial, promediando las distancias entre
los puntos y la media.

Variabilidad Total:

Variabilidad Media:
15

Dependencia Lineal
• Dependencia por pares de variables: Matriz de Correlación

s jk
Coeficiente de correlación lineal o simple: rjk 
s j sk
Es invariante ante transformaciones lineales

Matriz de Correlación: 1 r12 r1 p 


Semidefinida Positiva  
R 
 rp1 rp 2 1 

RD 1/2
SD 1/2
D  diag  S 
Correlación entre variables 16

V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17


1.000 0.882 0.808 -0.172 0.833 -0.536 0.125 0.975 0.334 0.936 0.909 0.493 0.378 0.829 0.889 0.352 0.843
1.000 0.983 -0.016 0.989 -0.716 -0.038 0.955 0.201 0.981 0.982 0.274 0.258 0.899 0.993 0.371 0.979
1.000 0.042 0.999 -0.739 -0.118 0.903 0.142 0.956 0.949 0.173 0.178 0.891 0.986 0.321 0.967
1.000 0.033 -0.048 0.037 -0.121 -0.377 -0.106 0.003 -0.054 0.006 0.166 -0.035 -0.528 0.061
1.000 -0.733 -0.095 0.920 0.158 0.967 0.961 0.194 0.192 0.897 0.992 0.329 0.971
1.000 0.258 -0.646 -0.118 -0.696 -0.683 -0.018 -0.027 -0.597 -0.723 -0.317 -0.682

1.000 0.065 -0.185 -0.023 -0.043 0.401 0.379 0.041 -0.053 -0.029 -0.081

1.000 0.288 0.980 0.957 0.436 0.358 0.884 0.958 0.405 0.920
1.000 0.256 0.241 0.067 0.025 0.147 0.214 0.176 0.220
1.000 0.972 0.285 0.223 0.872 0.989 0.372 0.947
1.000 0.282 0.245 0.878 0.971 0.337 0.966
1.000 0.852 0.484 0.262 0.230 0.249
1.000 0.510 0.230 0.245 0.215

ALTA 1.000 0.904 0.246 0.889


1.000 0.351 0.970
CORRELACIÓN 1.000 0.305
1.000
17

Dependencia Lineal
• Dependencia de cada variable y el resto: Regresión Múltiple

yˆi  y  ˆ1  xi1  x1    ˆ p  xip  x p  i  1, ,n


Predictor Lineal
- Variabilidad Total o Inicial de los Datos:
VT    yi  y 
2

- Variabilidad Explicada por la Regresión:


VE    yˆi  y 
2

- Variabilidad Residual o No Explicada por la Regresión:


VNE   ei
2
18

Dependencia Lineal
• Dependencia de cada variable y el resto: Regresión Múltiple

VT  VE  VNE
- Coeficiente de determinación o de correlación múltiple
al cuadrado

R 2j .1, 
VE
 1
VNE
 1
sr2  j 
sr2  j  
 i
e 2

,p
VT VT s 2j n

R  1   diag  S   diag  S 


1
2 1
j
19

Dependencia Lineal
• Dependencia directa entre pares: Correlaciones Parciales

- Coeficiente de correlación parcial:

- Matriz de Correlaciones Parciales:

P   1 DS 
1 1/2
S DS
1

1 1/2
diag

Donde D  S 1  es la matriz diagonal obtenida seleccionando los


elementos diagonales de la matriz S 1 y el término  1 indica diag

que cambiamos el signo de todos los elementos de la matriz


menos de los elementos diagonales que serán la unidad.
20

Dependencia Lineal
• Coeficiente de Dependencia – |R|

1. Variables Incorreladas  R es diagonal y |R|= 1

2. Si  combinaciones lineales  |R|= 0

3. En el caso general: Rp  1  Rp2.1 p 1 1  R 2


p 1.1 p  2  1  R 
2
2.1

Media Geométrica de la proporción de variabilidad explicada


1/  p 1
por todas las regresiones anteriores  Rp

D  Rp   1  Rp
1/  p 1
Coeficiente Dependencia Efectiva:
21

Coeficientes Multivariantes
• Distancia de Mahalanobis al cuadrado para cada par de
elementos muestrales 2
dij   xi  x j  ' S
1
x  x 
i j

• Se define además: gij   xi  x  ' S 1  x j  x 


• Coeficiente de Asimetría Multivariante
n n
1
Ap  2
n
 g
i 1 j 1
3
ij

• Coeficiente de Kurtosis Multivariante 1 n 2


K p   gii
n i 1

También podría gustarte