Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ANALISIS EXPLORATORIO DE
DATOS MULTIVARIANTES
Resmenes numricos
Grficos multivariantes
Distancias estadsticas
Outliers multivariantes
Tipo
i
de
d d
datos
Univariantes
Multivariantes
Bivariantes
Multivariantes
Dicotmicos o binarios
Cualitativos o
categricos
Nominales
Politmicos
Tipo de datos
Cuantitativos
Ordinales o
semicuantitativos
Discretos o discontinuos
Continuos
Medidas de dispersin
tpica,
rango,
varianza, desviacin
rango intercuartlico, MEDA
Medidas de forma
Coeficiente de asimetra
Coeficiente de curtosis o apuntamiento
Medidas de asociacin
150
100
50
Diagrama de barras
Diagrama de sectores
p estadsticos
Mapas
Serie temporal
g
Histograma
Grficos probabilsticos
Barras de error
Box-plot
Box
plot
Greatly
A lot
Something
Little
Nothing
120,00
130,56
Datos cuantitativos
100,00
1351,35
80,00
538,46
60,00
40,00
363,6464
363
126,67
110,51
20,00
0,00
clorofila
Di
Diagrama
d
de b
barras mltiple
lti l
Box-plot mltiple
Diagrama de dispersin
Matriz de diagramas de dispersin
Grficos de estrellas y caras
Ana Justel - 2011
Datos cuantitativos
MATRIZ DE DATOS
Los DATOS consisten en observaciones de n individuos en los
que se miden p caractersticas o variables,
variables las mismas en todos.
Los datos se disponen ordenadamente en la MATRIZ DE DATOS
X (nxp)
Variables en columnas
x1 p
x2 p
xnp
In
ndividuos
s en filas
s
x11 x12
x21 x22
X
x
n1 xn 2
Cuestiones importantes
sobre la organizacin
de los datos:
p
g
El formato debe ser compatible con los requerimientos del
software que se vaya a usar para el anlisis.
EXCEL admite casi cualquier organizacin posible.
posible El problema
est en cmo analizamos los datos con EXCEL!
El Editor
Editor de Datos del SPSS
SPSS almacena los datos en una
matriz que siempre tiene las variables en las columnas. Cada
fila contiene la informacin completa disponible sobre un
individuo.
individuo
Cuando hay datos faltantes (missing data):
Se interpola el valor faltante.
Se elimina la variable para todos los individuos.
Se excluye del anlisis al individuo.
Medida de la variable 6 en
el crocodrilo 3
Ana Justel - 2011
CO
SO2
NOX
P10
O3
0,52
0 87
0,87
0,35
1,14
0,79
0,65
0,86
0,49
0,36
0,76
0,48
0,49
0,57
0,50
0,69
0 59
0,59
0,50
0,60
0,35
10,67
13 37
13,37
7,58
13,4
12,66
10,99
6,65
7,66
11,03
9,71
8,46
9,59
11,2
13,55
10,95
11 55
11,55
14,71
10,91
0,7
91,43
157 76
157,76
37,47
166,81
135,1
96,57
186,72
63,35
66,87
161,1
72,42
106,28
143,47
49,89
114,09
72 49
72,49
117,57
170,42
41,31
36,66
72 75
72,75
35,03
55,45
51,55
51,72
50,85
35,33
35,63
43,5
38,85
36,85
44,42
64,8
61,54
38 75
38,75
30,7
83,31
29,16
15,92
17 08
17,08
19,55
14,96
13,5
9,43
10,97
18,18
9,54
9,73
7,6
1,64
10,97
9,47
8,93
11 46
11,46
4,65
7,37
17,18
l d
C
d
en lla P
Pennsula
de G
Gasp,
Canada.
La muestra contiene 50 lirios de cada una de
las ttres
es especies
especies: iris
i is setosa
setosa, iris
i is versicolor
e sicolo e
iris virginica.
virginica Para cada flor se mire el anco y
el largo del ptalo y el spalo, en
centrmetros.
La matriz de
datos es 150x4
Ana Justel - 2011
10
11
x1
x2
X
x
p
x j es la media muestral
de la variable Xj:
1 n
x j xij
n i 1
Es un vector de dimensin p x 1.
Media de la variable x2
Media de la variable x1
12
s11 s12
s21 s22
S
s
p1 s p 2
s1 p
s2 p
s pp
s jj es la varianza muestral
de la variable Xj:
1 n
s jj s ( xij x j )2
n i 1
2
j
s jk
S contiene las varianzas en la
diagonal y todas las covarianzas
en el resto de los elementos
(medidas de asociacin lineal
entre dos variables).
es la covarianza muestral
entre las variables Xj y Xk:
1 n
s jk ( xij x j )( xik xk )
n i 1
13
1 r12
r21 1
R
r
p1 rp 2
r1 p
r2 p
rjk
es la correlacin muestral
entre las variables Xj y Xk:
rjjk
s jk
s j sk
14
15
Ejemplo:: Lirios
Ejemplo
16
17
Ejemplo:
j
p
Gases contaminantes (p
(pollution.txt))
18
19
Media
20
1. Ordenar la muestra
2. Calcular la mediana, el
primer y el tercer cuartil
3. Calcular el rango
intercuartlico
21
12,50
10,00
7,50
5,00
2,50
0,00
clorofila
120,00
130,56
100,00
1351,35
80,00
538,46
60,00
40,00
363,64
126 67
126,67
110,51
20,00
0,00
Si utilizamos la mediana y el
rango intercuartlico pasan a
ser especies indicadoras
clorofila
22
Box--plot
Box
mltiple
p
p
Se usa para comparar:
Una variable
bl en grupos d
diferentes.
f
Varias variables solo cuando las unidades de medida
son compatibles
compatibles .
Ejemplo:
j
p
Impacto
p
humano en los suelos antrticos ((Tejedo
j
et al. 2005))
23
Box--p
Box
plot mltiple
p
Ejemplo: Prediccin
meteorolgica
Prediccin meteorolgica:
En cada diagrama de cajas
mltiple se muestra para una
caracterstica meteorolgica,
las predicciones con distintos
modelos (individuos) en
distintos das (variables)
Ana Justel - 2011
24
Box--p
Box
plot mltiple
p
Ejemplo: Prediccin meteorolgica
25
Box--p
Box
plot mltiple
p
Ejemplo: Concentracin de nitratos por uso del suelo y alcantarillado.
26
Diagrama
g
de dispersin
p
(
(scatterplot
scatterplot)
p )
Ilustra sobre cmo es la relacin entre dos variables (la forma y la
fuerza de la relacin)
relacin). Los datos son pares de medidas para cada
individuo.
Relacin lineal
0.4
Ph
hytoplankto
on-Inferred
d
Adj.Chlo
orophyll
0.3
R = 0.69
0.2
0.1
0.0
-0.1
-0.2
-0.3
-0.4
-0.5
0.5
1.5
2.5
27
Diagrama
g
de dispersin
p
(
(scatterplot
scatterplot)
p )
El inters principal se centra en analizar si la relacin es lineal o
p
una estructura de grupos
g p
curva,, si los datos presentan
separados, o si la variabilidad es o no constante a lo largo de
todo el rango de valores.
28
Diagrama
g
de dispersin
p
(
(scatterplot)
p )
Para ms de dos dimensiones:
Scatterplot 3-dimensional
Matriz de diagramas de
dispersin
29
X
X11
Use level
Resistance to compre
X2
X
X33
Apparent density
30
31
32
Grfico de estrellas
Cada individuo se representa en una estrella, con tantos rayos o
ejes como variables queramos representar.
Cada eje representa el valor de la variable re-escalada de manera
independiente entre variables. Para re-escalar se utilizan todos los
datos. En todas las estrellas se usa siempre el mismo eje para
representar la misma variable.
El eje j en la estrella del individuo
i depende de xij (en valor
absoluto o relativo)
Composicin de aguas
baslticas.
33
Grfico de estrellas
Ejemplo: Medidas de crneos de cocodrilos
MEDIAS POR ESPECIES
34
Grfico de estrellas
Ejemplo: Lirios
35
Grfico de estrellas
Ejemplo: Produccin de investigacin por disciplinas en pases.
36
Variables en
1.- Tamao de la cara,
1.
2.- Forma de la cara,
3.- Tamao de la nariz,
4.boca,
4 Posicin de la boca
5.- Tamao de la sonrisa
6.- Grosor de la boca,
7 Posicin
7.P i i d
de llos ojos,
j
8.- Separacin de los ojos,
9.- Inclinacin de los ojos,
10.- Tamao de los ojos
11.- Forma de los ojos
Ana Justel - 2011
37
38
39
Distancias estadsticas
Distancia euclidea
p
2
(
x
x
)
ij kj
d E ( xi , xk )
j 1
Di t
Distancia
i de
d Minkowski
Mi k
ki
r
dCB ( xi , xk ) xij xkj
j 1
1/ r
Distancia de Mahalanobis
d M ( xi , xk ) ( xi xk )' S 1 ( xi xk )
Ana Justel - 2011
40
Distancias estadsticas
Intuitivamente es la distancia ms
natural, la lnea recta!.
dE(A,0)
(A 0)=d
dE (B,0)
(B 0)
Ana Justel - 2011
41
Distancias estadsticas
Para resolver este problema podemos estandarizar los datos por
columnas para evitar el efecto de la escala
escala. A continuacin se calcula
la distancia eucldea.
2
xijj xkjj
d SE ( xi , xk )
s
j 1
j
dE(Astnd,0) = dE (Bstnd,0)
Ana Justel - 2011
42
Distancias estadsticas
Distancia de Mahalanobis
1
d M ( x, x ) ( x x )'
) S (x x)
Consiste en sustituir la matriz D que slo tiene informacin de
las varianzas por la matriz S de varianzas-covarianzas
Geomtricamente equivale a girar la
nube de puntos hasta eliminar las
g calcular la
correlaciones y luego
distancia para los datos estandarizados
43
44
45
46
Es un valor
poco realista?
47
Deteccin de outliers
En datos univariantes
univariantes:: Se asume que
los datos vienen de una normal y,
para comprobar si un dato es outlier
se calcula su valor tipificado
eliminndolo del clculo de la media y
la desviacin tpica. El dato ser un
candidato
dd
a outlier
l
si obtenemos
b
un
valor fuera del rango [-2,2].
En datos multivariantes:
multivariantes Los outliers
pueden ser por una combinacin
inusual de los valores de varias
variables. Para comprobar si un dato
es outlier se calcula la distancia de
Mahalanobis del dato al centro del
grupo formado por el resto de los
datos.
Ana Justel - 2011
-2
Dato tipificado