Está en la página 1de 48

TEMA 1:

ANALISIS EXPLORATORIO DE
DATOS MULTIVARIANTES
Resmenes numricos
Grficos multivariantes
Distancias estadsticas
Outliers multivariantes

Ana Justel - 2011

Anlisis exploratorio de datos multivariantes


Matriz de datos.
Vector de medias y matriz de covarianzas.
Representacin grfica de datos multivariantes.
Distancias estadsticas
Datos atpicos multivariantes.

Ana Justel - 2011

Tipo
i
de
d d
datos

Univariantes
Multivariantes

Bivariantes
Multivariantes

Dicotmicos o binarios
Cualitativos o
categricos

Nominales
Politmicos

Tipo de datos
Cuantitativos

Ordinales o
semicuantitativos

Discretos o discontinuos
Continuos

Ana Justel - 2011

Resmenes nmricos de los datos


Para datos categricos o discretos:
Tabla de frecuencias
Para datos cuantitativos:
cuantitativos:
Medidas de posicin

media, mediana, moda, media recortada

Medidas de dispersin

tpica,

rango,
varianza, desviacin
rango intercuartlico, MEDA

Medidas de forma

Coeficiente de asimetra
Coeficiente de curtosis o apuntamiento

Medidas de asociacin

Coeficiente de correlacin de Pearson

Ana Justel - 2011

Resumenes grficos de los datos.


250
200

Para datos univariantes:


univariantes:

150
100
50

Diagrama de barras
Diagrama de sectores
p estadsticos
Mapas
Serie temporal
g
Histograma
Grficos probabilsticos
Barras de error
Box-plot
Box
plot

Greatly

A lot

Something

Little

Nothing

Datos categricos o discretos

120,00

130,56

Datos cuantitativos

100,00

1351,35
80,00

538,46
60,00

40,00

363,6464
363
126,67
110,51
20,00

Para datos multivariantes:


multivariantes:

0,00
clorofila

Casos ponderados por ncelulas

Di
Diagrama
d
de b
barras mltiple
lti l

Datos categricos o discretos

Box-plot mltiple
Diagrama de dispersin
Matriz de diagramas de dispersin
Grficos de estrellas y caras
Ana Justel - 2011

Datos cuantitativos

MATRIZ DE DATOS
Los DATOS consisten en observaciones de n individuos en los
que se miden p caractersticas o variables,
variables las mismas en todos.
Los datos se disponen ordenadamente en la MATRIZ DE DATOS

X (nxp)

Variables en columnas

x1 p

x2 p

xnp

In
ndividuos
s en filas
s

x11 x12

x21 x22
X

x
n1 xn 2

xij es el valor de la variable j para el individuo i


Ana Justel - 2011

Cuestiones importantes
sobre la organizacin
de los datos:
p
g
El formato debe ser compatible con los requerimientos del
software que se vaya a usar para el anlisis.
EXCEL admite casi cualquier organizacin posible.
posible El problema
est en cmo analizamos los datos con EXCEL!
El Editor
Editor de Datos del SPSS
SPSS almacena los datos en una
matriz que siempre tiene las variables en las columnas. Cada
fila contiene la informacin completa disponible sobre un
individuo.
individuo
Cuando hay datos faltantes (missing data):
Se interpola el valor faltante.
Se elimina la variable para todos los individuos.
Se excluye del anlisis al individuo.

Ana Justel - 2011

Ejemplo: Medidas de crneos de cocodrilos (alligator.txt)


Valores de 11 medidas fsicas en un ejemplar de cada especie:

La matriz de datos es 44x11

Medida de la variable 6 en
el crocodrilo 3
Ana Justel - 2011

Ejemplo: Calidad del aire en la ciudad de Madrid


Para establecer un Ranking de calidad del aire por distritos en la
ciudad de Madrid disponemos de la informacin registrada en 19
estaciones de medicin atmosfrica, que proporcionan datos de C0,
SO2, NOX, P10 y O3.
12-5-09 9:00
PLAZA DEL CARMEN
PLAZA ESPAA
BARRIO DEL PILAR
MARAON
MARQUES DE SALAMANCA
ESCUELAS AGUIRRE
LUCA DE TENA
CUATRO CAMINOS
AVDA. RAMON Y CAJAL
MANUEL BECERRA
VALLECAS
PLAZA FERNANDEZ LADREDA
ARTURO SORIA
GRAL.RICARDOS
P EXTREMADURA
MORATALAZ
ISAAC PERAL
P PONTONES
SANTA EUGENIA

Ana Justel - 2011

CO

SO2

NOX

P10

O3

(mg/m3) (g/m3) (g/m3) (g/m3) (g/m3)

0,52
0 87
0,87
0,35
1,14
0,79
0,65
0,86
0,49
0,36
0,76
0,48
0,49
0,57
0,50
0,69
0 59
0,59
0,50
0,60
0,35

10,67
13 37
13,37
7,58
13,4
12,66
10,99
6,65
7,66
11,03
9,71
8,46
9,59
11,2
13,55
10,95
11 55
11,55
14,71
10,91
0,7

91,43
157 76
157,76
37,47
166,81
135,1
96,57
186,72
63,35
66,87
161,1
72,42
106,28
143,47
49,89
114,09
72 49
72,49
117,57
170,42
41,31

36,66
72 75
72,75
35,03
55,45
51,55
51,72
50,85
35,33
35,63
43,5
38,85
36,85
44,42
64,8
61,54
38 75
38,75
30,7
83,31
29,16

15,92
17 08
17,08
19,55
14,96
13,5
9,43
10,97
18,18
9,54
9,73
7,6
1,64
10,97
9,47
8,93
11 46
11,46
4,65
7,37
17,18

Ejemplo: Lirios (iris.txt)


En 1936, el bilogo y estadstico Sir R.A. Fisher, recopila los datos
de 150 lirios para cuantificar la variacin geografica de estas flores

l d
C
d
en lla P
Pennsula
de G
Gasp,
Canada.
La muestra contiene 50 lirios de cada una de
las ttres
es especies
especies: iris
i is setosa
setosa, iris
i is versicolor
e sicolo e
iris virginica.
virginica Para cada flor se mire el anco y
el largo del ptalo y el spalo, en
centrmetros.

La matriz de
datos es 150x4
Ana Justel - 2011

10

Anlisis exploratorio de datos multivariantes


Matriz de datos.
Vector de medias y matriz de covarianzas.

Ana Justel - 2011

11

Resumen numrico de datos multivariantes


multivariantes:: Posicin
VECTOR DE MEDIAS MUESTRAL:

x1

x2
X


x
p

x j es la media muestral
de la variable Xj:

1 n
x j xij
n i 1

Es un vector de dimensin p x 1.
Media de la variable x2

El vector de medias muestral es


el centro de la nube de puntos en
dimensin p.
p

Media de la variable x1

Ana Justel - 2011

12

Resumen numrico de datos multivariantes


multivariantes:: Dispersin y forma
MATRIZ DE COVARIANZAS:

s11 s12

s21 s22
S

s
p1 s p 2

s1 p

s2 p

s pp

s jj es la varianza muestral
de la variable Xj:

1 n
s jj s ( xij x j )2
n i 1
2
j

s jk
S contiene las varianzas en la
diagonal y todas las covarianzas
en el resto de los elementos
(medidas de asociacin lineal
entre dos variables).

es la covarianza muestral
entre las variables Xj y Xk:

1 n
s jk ( xij x j )( xik xk )
n i 1

S es siempre una matriz cuadrada y simtrica p x p


Ana Justel - 2011

13

Resumen numrico de datos multivariantes


multivariantes:: Dispersin y forma
La covarianza depende de las unidades de medida. Para medir el
grado de asociacin lineal entre dos variables,
variables es ms habitual
usar el coeficiente de correlacin de Pearson y la MATRIZ DE
CORRELACIONES R:

1 r12

r21 1
R

r
p1 rp 2

r1 p

r2 p

rjk

es la correlacin muestral
entre las variables Xj y Xk:

rjjk

s jk
s j sk

El coeficiente de correlacin no depende de las unidades de medida.


medida
Toma valores entre -1 y 1.
El signo indica si la relacin es positiva o negativa.
Ana Justel - 2011

14

Resumen numrico de datos multivariantes


multivariantes:: Dispersin y forma
Ejemplo: Ocho conjuntos de datos con coeficiente de correlacin
et al.,, 1983).
r = 0.70 (Chambers
(
)
A

Ana Justel - 2011

15

Ejemplo:: Lirios
Ejemplo

Matrices de COVARIANZA y CORRELACIN:

Ana Justel - 2011

16

Ejemplo: Salida de SPSS para descriptivos multivariantes

Ana Justel - 2011

17

Ejemplo:
j
p
Gases contaminantes (p
(pollution.txt))

Ana Justel - 2011

18

Anlisis exploratorio de datos multivariantes


Matriz de datos.
Vector de medias y matriz de covarianzas.
Representacin grfica de datos multivariantes.
Herramientas grficas que nos ayudan a estudiar las
relaciones entre variables (forma, fuerza, etc.), a
identificar grupos, y detectar outliers.

Ana Justel - 2011

19

Resumen grfico de DATOS UNIVARIANTES


Barras de error
Media + 2 desviaciones tpicas
o
+ 2 errores t
tpicos
i
((s/n)
/ )

Media

95% de los datos

Media - 2 desviaciones tpicas


o
- 2 errores tpicos (s/n)
La desviacin tpica es muy sensible a los datos atpicos
Siempre es un grfico simtrico
Es una buena herramienta cuando los datos son normales
Ana Justel - 2011

20

Resumen grfico de DATOS UNIVARIANTES


Diagrama de cajas o Boxplot

1. Ordenar la muestra
2. Calcular la mediana, el
primer y el tercer cuartil
3. Calcular el rango
intercuartlico

Ana Justel - 2011

21

Resumen grfico de DATOS UNIVARIANTES


BoxBox-plot o barra de error ?
UTILIZACIN DEL FITOPLACTON COMO INDICADOR BIOLGICO PARA LA EVALUACIN
DE LA EUTROFIZACIN EN LOS EMBALSES ESPAOLES
C. NUO, C. DE HOYOS, A. JUSTEL

12,50

ptimos y rangos de tolerancia


de especies fitoplactnicas

En la mayor parte de los casos la


barra de error y el box-plot dan
el mismo resultado

10,00

7,50

5,00

2,50

0,00
clorofila

Casos ponderados por ncelulas

120,00

130,56
100,00

1351,35
80,00

538,46
60,00

Algunas especies no son


consideradas
id
d
iindicadoras
di d
debido al amplio rango de
tolerancia (barra de error)

40,00

363,64
126 67
126,67
110,51
20,00

0,00

Si utilizamos la mediana y el
rango intercuartlico pasan a
ser especies indicadoras

clorofila

Casos ponderados por ncelulas

Ana Justel - 2011

22

Box--plot
Box
mltiple
p
p
Se usa para comparar:
Una variable
bl en grupos d
diferentes.
f
Varias variables solo cuando las unidades de medida
son compatibles
compatibles .
Ejemplo:
j
p
Impacto
p
humano en los suelos antrticos ((Tejedo
j
et al. 2005))

Ana Justel - 2011

23

Box--p
Box
plot mltiple
p
Ejemplo: Prediccin
meteorolgica

Prediccin meteorolgica:
En cada diagrama de cajas
mltiple se muestra para una
caracterstica meteorolgica,
las predicciones con distintos
modelos (individuos) en
distintos das (variables)
Ana Justel - 2011

24

Box--p
Box
plot mltiple
p
Ejemplo: Prediccin meteorolgica

Ana Justel - 2011

25

Box--p
Box
plot mltiple
p
Ejemplo: Concentracin de nitratos por uso del suelo y alcantarillado.

Ana Justel - 2011

26

Diagrama
g
de dispersin
p
(
(scatterplot
scatterplot)
p )
Ilustra sobre cmo es la relacin entre dos variables (la forma y la
fuerza de la relacin)
relacin). Los datos son pares de medidas para cada
individuo.
Relacin lineal
0.4

Ph
hytoplankto
on-Inferred
d
Adj.Chlo
orophyll

0.3

R = 0.69

0.2
0.1
0.0
-0.1
-0.2
-0.3
-0.4
-0.5

0.5

1.5

2.5

Log Chlorophyll (g/l)

Ana Justel - 2011

27

Diagrama
g
de dispersin
p
(
(scatterplot
scatterplot)
p )
El inters principal se centra en analizar si la relacin es lineal o
p
una estructura de grupos
g p
curva,, si los datos presentan
separados, o si la variabilidad es o no constante a lo largo de
todo el rango de valores.

Ana Justel - 2011

28

Diagrama
g
de dispersin
p
(
(scatterplot)
p )
Para ms de dos dimensiones:
Scatterplot 3-dimensional

Matriz de diagramas de
dispersin

Datos de calidad de aguas


Impacto humano en los suelos
antrticos (Tejedo et al. 2005)

Ana Justel - 2011

29

Matriz de diagramas de dispersin


Se construye una cuadrcula con tantas filas y columnas como variables.
En la diagonal se da informacin de cada una de las variables.
En el resto de casillas se construyen los grficos de dispersin entre
todos los pares de variables.
Todos los grficos de la misma FILA
comparten la misma variable en el
EJE VERTICAL (la que se indique
en la
l diagonal)
di gon l)
Todos los grficos de la misma
COLUMNA comparten la misma
variable en el EJE HORIZONTAL (la

X
X11

Use level

Resistance to compre

X2

que se indique en la diagonal)


Informa de cmo son las relaciones
entre variables, pero slo dos a dos,
no se puede saber como son todas
las relaciones.
L matriz
La
t i es simtrica,
i t i
la
l diagonal
di
l es como un espejo.
j
Ana Justel - 2011

X
X33

Apparent density

30

Matriz de diagramas de dispersin


Ejemplo: Lirios

Ana Justel - 2011

31

Matriz de diagramas de dispersin


Ejemplo: Lirios

Ana Justel - 2011

32

Grfico de estrellas
Cada individuo se representa en una estrella, con tantos rayos o
ejes como variables queramos representar.
Cada eje representa el valor de la variable re-escalada de manera
independiente entre variables. Para re-escalar se utilizan todos los
datos. En todas las estrellas se usa siempre el mismo eje para
representar la misma variable.
El eje j en la estrella del individuo
i depende de xij (en valor
absoluto o relativo)

Composicin de aguas
baslticas.

Para facilitar la inspeccin


visuall que nos permita
distinguir entre individuos, se
suelen representar
p
caractersticas similares en
rayos prximos.
Ana Justel - 2011

33

Grfico de estrellas
Ejemplo: Medidas de crneos de cocodrilos
MEDIAS POR ESPECIES

Conclusin: Hay cocodrilos grandes y pequeos de todas las especies,


as que el tamao no sirve para distinguir unas especies de otras.
otras
Usando todas las medidas de los crneos a la vez parece que
podremos distinguir bastante bien si un cocodrilo es de la especies cn y
cp o de las op y am
am, pero no podremos distinguir bien entre las cuatro.
cuatro
Ana Justel - 2011

34

Grfico de estrellas
Ejemplo: Lirios

Ana Justel - 2011

35

Grfico de estrellas
Ejemplo: Produccin de investigacin por disciplinas en pases.

Ana Justel - 2011

36

Grfico de caras de Chernoff


Es como un grfico de estrellas, pero cada individuo ahora se
representa en una CARA y las variables en los rasgos fsicos.

Variables en
1.- Tamao de la cara,
1.
2.- Forma de la cara,
3.- Tamao de la nariz,
4.boca,
4 Posicin de la boca
5.- Tamao de la sonrisa
6.- Grosor de la boca,
7 Posicin
7.P i i d
de llos ojos,
j
8.- Separacin de los ojos,
9.- Inclinacin de los ojos,
10.- Tamao de los ojos
11.- Forma de los ojos
Ana Justel - 2011

37

Grfico de caras de Chernoff


Ejemplo: Produccin de investigacin por disciplinas en pases.

Ana Justel - 2011

38

Anlisis exploratorio de datos multivariantes


Matriz de datos.
Vector de medias y matriz de covarianzas.
Representacin grfica de datos multivariantes.
Distancias estadsticas.

Ana Justel - 2011

39

Distancias estadsticas
Distancia euclidea
p

2
(
x

x
)
ij kj

d E ( xi , xk )

j 1

Distancia de Manhattan (o city block)


p

dCB ( xi , xk ) xij xkj


j 1

Di t
Distancia
i de
d Minkowski
Mi k
ki

r
dCB ( xi , xk ) xij xkj
j 1

1/ r

Distancia de Mahalanobis

d M ( xi , xk ) ( xi xk )' S 1 ( xi xk )
Ana Justel - 2011

40

Distancias estadsticas

Intuitivamente es la distancia ms
natural, la lnea recta!.

Problema de la distancia eucldea:


No tiene en cuenta la variabilidad
dE(A,0)=dE (B,0)

dE(A,0)
(A 0)=d
dE (B,0)
(B 0)
Ana Justel - 2011

41

Distancias estadsticas
Para resolver este problema podemos estandarizar los datos por
columnas para evitar el efecto de la escala
escala. A continuacin se calcula
la distancia eucldea.
2

xijj xkjj

d SE ( xi , xk )
s

j 1
j

Problema de la distancia eucldea:


No tiene en cuenta la correlacin
dE(Astnd,0) > dE (Bstnd,0)

dE(Astnd,0) = dE (Bstnd,0)
Ana Justel - 2011

42

Distancias estadsticas
Distancia de Mahalanobis
1

d M ( x, x ) ( x x )'
) S (x x)
Consiste en sustituir la matriz D que slo tiene informacin de
las varianzas por la matriz S de varianzas-covarianzas
Geomtricamente equivale a girar la
nube de puntos hasta eliminar las
g calcular la
correlaciones y luego
distancia para los datos estandarizados

dM(A,0) > dM (B,0)

La distancia de Mahalanobis es adimensional


Es la distancia ms estadstica, la que
tiene en cuenta la relacin estadstica
entre las variables.

Ana Justel - 2011

43

Anlisis exploratorio de datos multivariantes


Matriz de datos.
Vector de medias y matriz de covarianzas.
Representacin grfica de datos multivariantes.
Distancias estadsticas.
Datos atpicos multivariantes.

Ana Justel - 2011

44

Outliers (datos atpicos)


Los outliers son observaciones con valores muy diferentes del
resto de los datos de la muestra.
o Errores de medida o registro.
o Observaciones procedentes de una poblacin diferente de
l de
la
d la
l mayora
d
de llos d
datos
o Un caso raro de una poblacin en la que se pueden dar
j
aunque
q
con baja
j p
probabilidad.
valores alejados
Cuando aparecen outliers:
1 Verificar que no se ha cometido ningn error obvio en la
1.
transcripcin, en la posicin de los decimales, etc.
2. Si es posible, procesar de nuevo la muestra en el laboratorio.
3 Tomar logaritmos o hacer alguna otra transformacin que
3.
simetrice los datos.
4. Utilizar procedimientos resistentes a los outliers (medianas
en lugar
l
de
d medias,
di
test
t t de
d rangos en lugar
l
de
d test
t t t,
t etc.)
t )
Los outliers no se deben descartar por el slo hecho de que
parezcan datos raros.
raros
Ana Justel - 2011

45

Los outliers no se deben descartar por el slo hecho de que


parezcan datos raros.
Los outliers en la historia del agujero
ozono
agujero de la capa de ozono
de la Antrtida:
Durante aproximadamente 10 aos antes del
descubrimiento del agujero en 1985 por Farman,
Farman
Gardiner y Shanklin a partir de observaciones in
situ, los satlites estuvieron registrando los datos
d ozono en la
de
l Antrtida.
A t tid Cmo
C
ffue posible
ibl que
no detectaran el agujero?
Las concentraciones de ozono registradas por los
satlites eran tan bajas que el software los
consideraba como valores extremos imposibles,
imposibles ,
y los descartaba!!!. As, todos estos datos
inusuales no fueron vistos ni estudiados por los
cientficos mientras el agujero segua creciendo
cientficos,
creciendo.
Si se eliminan los outliers, el riesgo al que nos enfrentamos es
al de que solo veamos lo que esperamos ver.
Ana Justel - 2011

46

Deteccin de errores en los datos


Examinar los estadsticos de resumen (n, media, min, max,
etc ) y comprobar que no hay nada irregular
etc.)
irregular .
Dnde estn
los datos?

Es un valor
poco realista?

Actuacin: corregir los errores en los datos en bruto.


bruto

Ana Justel - 2011

47

Deteccin de outliers
En datos univariantes
univariantes:: Se asume que
los datos vienen de una normal y,
para comprobar si un dato es outlier
se calcula su valor tipificado
eliminndolo del clculo de la media y
la desviacin tpica. El dato ser un
candidato
dd
a outlier
l
si obtenemos
b
un
valor fuera del rango [-2,2].
En datos multivariantes:
multivariantes Los outliers
pueden ser por una combinacin
inusual de los valores de varias
variables. Para comprobar si un dato
es outlier se calcula la distancia de
Mahalanobis del dato al centro del
grupo formado por el resto de los
datos.
Ana Justel - 2011

-2

Dato tipificado

También podría gustarte