Está en la página 1de 53

Anlisis multivariante.

Curso 2012-2013
Mster en Tcnicas Estadsticas
Beatriz Pateiro Lpez
Introduccin al anlisis multivariante
Considero que el cerebro de cada cual es como una pequea pieza vaca que vamos
amueblando con elementos de nuestra eleccin. Un necio echa mano de cuanto
encuentra a su paso, no encuentra cabida o, en el mejor de los casos, se halla tan
revuelto con las dems cosas que resulta difcil dar con l. El operario hbil selecciona
con sumo cuidado el contenido de ese vaso disponible que es su cabeza. Slo de
herramientas tiles se compondr su arsenal, pero stas sern abundantes y estarn
en perfecto estado. Constituye un grave error el suponer que las paredes de la
pequea habitacin son elsticas o capaces de dilatarse indenidamente. A partir de
cierto punto, cada nuevo dato aadido desplaza necesariamente a otro que ya
poseamos. Resulta por tanto de inestimable importancia vigilar que los hechos intiles
no arrebaten espacio a los tiles.
Sherlock Holmes en Estudio en Escarlata
Tomado del libro Multivariate Statistics: Exercises and Solutions de Hrdle y Hlvka
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
1 Introduccin
2 Notacin de vectores y matrices
3 Vectores aleatorios
Vector de medias y matriz de covarianzas
Vector de medias y matrices de covarianzas para subconjuntos de
variables
Combinaciones lineales de variables
4 Representacin de datos multivariantes
Visualizacin de datos multivariantes
Vector de medias y matriz de covarianzas muestrales
Media y covarianza muestrales para subconjuntos de variables
Combinaciones lineales de variables
5 Distancias estadsticas
Distancia eucldea
Distancia eucldea estandarizada por columnas
Distancia de Mahalanobis
Estandarizacin
6 Anexo: Principales funciones de R para operar con matrices
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Introduccin
Son muchas las situaciones reales en las que necesitamos tener en cuenta varias
variables de forma simultnea.
Podemos pensar en problemas sencillos en todas las disciplinas en los que
necesitemos analizar datos de distintas variables o caractersticas medidas sobre
los individuos de una muestra.
En algunas ocasiones puede resultar adecuado estudiar cada una de las variables
de inters de forma individual. Sin embargo, en general las variables estn
relacionadas entre s de tal manera que los anlisis individuales proporcionan
poca informacin sobre la estructura del conjunto de datos.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Introduccin
Ejemplo
Un estudio pretende analizar diferentes medidas corporales
del gorrin pantanero carileonado (Ammodramus
caudacutus), una especie de ave que habita en humedales
de Norteamrica. Se seleccionan como variables del estudio
el sexo, el tamao de las alas, la longitud del tarso, el
tamao de la cabeza y el peso.
Ejemplo
Para llevar a cabo un estudio sobre lateralidad y aprendizaje se realiz un cuestionario
a 237 estudiantes de Estadstica de la Universidad de Adelaida. Entre las variables
recogidas hay variables cualitativas (como el sexo, mano con la que escribe, etc.) y
variables cuantitativas (anchura de la mano con la que escribe, anchura de la mano
con la que no escribe, etc.)
Ejemplo
El conjunto de datos de iris de Fishers es un conjunto de datos clsico que recoge la
medida en cm. de las variables longitud y anchura de spalo y longitud y anchura de
ptalo para ores de tres especies diferentes de iris (iris setosa, versicolor y virginica).
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Introduccin
Ejemplo
Un estudio pretende analizar diferentes medidas corporales
del gorrin pantanero carileonado (Ammodramus
caudacutus), una especie de ave que habita en humedales
de Norteamrica. Se seleccionan como variables del estudio
el sexo, el tamao de las alas, la longitud del tarso, el
tamao de la cabeza y el peso.
Ejemplo
Para llevar a cabo un estudio sobre lateralidad y aprendizaje se realiz un cuestionario
a 237 estudiantes de Estadstica de la Universidad de Adelaida. Entre las variables
recogidas hay variables cualitativas (como el sexo, mano con la que escribe, etc.) y
variables cuantitativas (anchura de la mano con la que escribe, anchura de la mano
con la que no escribe, etc.)
Ejemplo
El conjunto de datos de iris de Fishers es un conjunto de datos clsico que recoge la
medida en cm. de las variables longitud y anchura de spalo y longitud y anchura de
ptalo para ores de tres especies diferentes de iris (iris setosa, versicolor y virginica).
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Introduccin
Ejemplo
Un estudio pretende analizar diferentes medidas corporales
del gorrin pantanero carileonado (Ammodramus
caudacutus), una especie de ave que habita en humedales
de Norteamrica. Se seleccionan como variables del estudio
el sexo, el tamao de las alas, la longitud del tarso, el
tamao de la cabeza y el peso.
Ejemplo
Para llevar a cabo un estudio sobre lateralidad y aprendizaje se realiz un cuestionario
a 237 estudiantes de Estadstica de la Universidad de Adelaida. Entre las variables
recogidas hay variables cualitativas (como el sexo, mano con la que escribe, etc.) y
variables cuantitativas (anchura de la mano con la que escribe, anchura de la mano
con la que no escribe, etc.)
Ejemplo
El conjunto de datos de iris de Fishers es un conjunto de datos clsico que recoge la
medida en cm. de las variables longitud y anchura de spalo y longitud y anchura de
ptalo para ores de tres especies diferentes de iris (iris setosa, versicolor y virginica).
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Introduccin
Se puede denir el anlisis multivariante como el conjunto de mtodos
estadsticos que permiten analizar datos que surgen cuando se miden distintas
variables en cada uno de los individuos de una o varias muestras.
Las tcnicas de anlisis multivariante incluyen tanto mtodos puramente
descriptivos que tienen por objetivo extraer informacin de los datos disponibles,
como mtodos de inferencia.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Introduccin
Algunos de los mtodos de anlisis multivariante que podemos llevar a cabo
cuando disponemos de medidas de un conjunto de variables:
Contrastar la hiptesis de que las medias de las variables analizadas tienen un
valor especco (Inferencia sobre la media en poblaciones multivariantes).
Contrastar la hiptesis de que las variables son incorreladas y tienen varianza
comn (Inferencia sobre la matriz de covarianzas).
Representar la informacin mediante un nmero menor de variables construidas
como combinaciones lineales de las originales y que expliquen la mayor parte de
la variabilidad original (Anlisis de componentes principales).
Encontrar un modelo que nos permita predecir un grupo de variables del conjunto
original a partir de otro grupo de variables (Modelos de regresin multivariante).
Comparar las medias de las variables en dos poblaciones (Test de Hotelling).
Comparar las medias de las variables en ms de dos poblaciones (MANOVA).
Si los individuos pertenecen a diferentes grupos, encontrar la combinacin lineal
de las variables que mejor separe dichos grupos (Anlisis discriminante).
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Introduccin
Algunos de los mtodos de anlisis multivariante que podemos llevar a cabo
cuando disponemos de medidas de un conjunto de variables:
Contrastar la hiptesis de que las medias de las variables analizadas tienen un
valor especco (Inferencia sobre la media en poblaciones multivariantes).
Contrastar la hiptesis de que las variables son incorreladas y tienen varianza
comn (Inferencia sobre la matriz de covarianzas).
Representar la informacin mediante un nmero menor de variables construidas
como combinaciones lineales de las originales y que expliquen la mayor parte de
la variabilidad original (Anlisis de componentes principales).
Encontrar un modelo que nos permita predecir un grupo de variables del conjunto
original a partir de otro grupo de variables (Modelos de regresin multivariante).
Comparar las medias de las variables en dos poblaciones (Test de Hotelling).
Comparar las medias de las variables en ms de dos poblaciones (MANOVA).
Si los individuos pertenecen a diferentes grupos, encontrar la combinacin lineal
de las variables que mejor separe dichos grupos (Anlisis discriminante).
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Introduccin
Algunos de los mtodos de anlisis multivariante que podemos llevar a cabo
cuando disponemos de medidas de un conjunto de variables:
Contrastar la hiptesis de que las medias de las variables analizadas tienen un
valor especco (Inferencia sobre la media en poblaciones multivariantes).
Contrastar la hiptesis de que las variables son incorreladas y tienen varianza
comn (Inferencia sobre la matriz de covarianzas).
Representar la informacin mediante un nmero menor de variables construidas
como combinaciones lineales de las originales y que expliquen la mayor parte de
la variabilidad original (Anlisis de componentes principales).
Encontrar un modelo que nos permita predecir un grupo de variables del conjunto
original a partir de otro grupo de variables (Modelos de regresin multivariante).
Comparar las medias de las variables en dos poblaciones (Test de Hotelling).
Comparar las medias de las variables en ms de dos poblaciones (MANOVA).
Si los individuos pertenecen a diferentes grupos, encontrar la combinacin lineal
de las variables que mejor separe dichos grupos (Anlisis discriminante).
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Introduccin
Algunos de los mtodos de anlisis multivariante que podemos llevar a cabo
cuando disponemos de medidas de un conjunto de variables:
Contrastar la hiptesis de que las medias de las variables analizadas tienen un
valor especco (Inferencia sobre la media en poblaciones multivariantes).
Contrastar la hiptesis de que las variables son incorreladas y tienen varianza
comn (Inferencia sobre la matriz de covarianzas).
Representar la informacin mediante un nmero menor de variables construidas
como combinaciones lineales de las originales y que expliquen la mayor parte de
la variabilidad original (Anlisis de componentes principales).
Encontrar un modelo que nos permita predecir un grupo de variables del conjunto
original a partir de otro grupo de variables (Modelos de regresin multivariante).
Comparar las medias de las variables en dos poblaciones (Test de Hotelling).
Comparar las medias de las variables en ms de dos poblaciones (MANOVA).
Si los individuos pertenecen a diferentes grupos, encontrar la combinacin lineal
de las variables que mejor separe dichos grupos (Anlisis discriminante).
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Introduccin
Algunos de los mtodos de anlisis multivariante que podemos llevar a cabo
cuando disponemos de medidas de un conjunto de variables:
Contrastar la hiptesis de que las medias de las variables analizadas tienen un
valor especco (Inferencia sobre la media en poblaciones multivariantes).
Contrastar la hiptesis de que las variables son incorreladas y tienen varianza
comn (Inferencia sobre la matriz de covarianzas).
Representar la informacin mediante un nmero menor de variables construidas
como combinaciones lineales de las originales y que expliquen la mayor parte de
la variabilidad original (Anlisis de componentes principales).
Encontrar un modelo que nos permita predecir un grupo de variables del conjunto
original a partir de otro grupo de variables (Modelos de regresin multivariante).
Comparar las medias de las variables en dos poblaciones (Test de Hotelling).
Comparar las medias de las variables en ms de dos poblaciones (MANOVA).
Si los individuos pertenecen a diferentes grupos, encontrar la combinacin lineal
de las variables que mejor separe dichos grupos (Anlisis discriminante).
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Introduccin
Algunos de los mtodos de anlisis multivariante que podemos llevar a cabo
cuando disponemos de medidas de un conjunto de variables:
Contrastar la hiptesis de que las medias de las variables analizadas tienen un
valor especco (Inferencia sobre la media en poblaciones multivariantes).
Contrastar la hiptesis de que las variables son incorreladas y tienen varianza
comn (Inferencia sobre la matriz de covarianzas).
Representar la informacin mediante un nmero menor de variables construidas
como combinaciones lineales de las originales y que expliquen la mayor parte de
la variabilidad original (Anlisis de componentes principales).
Encontrar un modelo que nos permita predecir un grupo de variables del conjunto
original a partir de otro grupo de variables (Modelos de regresin multivariante).
Comparar las medias de las variables en dos poblaciones (Test de Hotelling).
Comparar las medias de las variables en ms de dos poblaciones (MANOVA).
Si los individuos pertenecen a diferentes grupos, encontrar la combinacin lineal
de las variables que mejor separe dichos grupos (Anlisis discriminante).
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Introduccin
Algunos de los mtodos de anlisis multivariante que podemos llevar a cabo
cuando disponemos de medidas de un conjunto de variables:
Contrastar la hiptesis de que las medias de las variables analizadas tienen un
valor especco (Inferencia sobre la media en poblaciones multivariantes).
Contrastar la hiptesis de que las variables son incorreladas y tienen varianza
comn (Inferencia sobre la matriz de covarianzas).
Representar la informacin mediante un nmero menor de variables construidas
como combinaciones lineales de las originales y que expliquen la mayor parte de
la variabilidad original (Anlisis de componentes principales).
Encontrar un modelo que nos permita predecir un grupo de variables del conjunto
original a partir de otro grupo de variables (Modelos de regresin multivariante).
Comparar las medias de las variables en dos poblaciones (Test de Hotelling).
Comparar las medias de las variables en ms de dos poblaciones (MANOVA).
Si los individuos pertenecen a diferentes grupos, encontrar la combinacin lineal
de las variables que mejor separe dichos grupos (Anlisis discriminante).
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Notacin de vectores y matrices
Representamos el vector x R
d
como el vector columna d 1
x =
_
_
_
_
x
1
x
2
.
.
.
x
d
_
_
_
_
.
El vector d 1 con todas sus componentes iguales a uno se denotar como 1
d
.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Notacin de vectores y matrices
Representamos la matriz A = (a
ij
) de tamao m n como
A =
_
_
_
_
a
11
a
12
. . . a
1n
a
21
a
22
. . . a
2n
.
.
.
.
.
.
.
.
.
.
.
.
a
m1
a
m2
. . . a
mn
_
_
_
_
.
La traspuesta de A se denota A

.
Si A es una matriz cuadrada, su determinante se denota |A| y su traza tr(A).
Si A es no singular (|A| =0), su inversa se denota como A
1
.
La matriz n n con elementos d
1
, . . . , d
n
en la diagonal y ceros fuera de ella se
denota diag(d
1
, . . . , d
n
).
La matriz identidad n n se denota I
n
.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Si quiero leer algo ms sobre... lgebra matricial
Bellman, R.
Introduction to Matrix Analysis.
Classics in Applied Mathematics. SIAM. 1997.
Muchos libros de anlisis multivariante incluyen algn captulo o anexo con la
recopilacin de los principales resultados de lgebra matricial que se necesitan en un
curso de anlisis multivariante. Algunos ejemplos:
Mardia, K.V. and Kent, J.T. and Bibby, J.M.
Multivariate analysis. (Apndice A)
Probability and mathematical statistics. Academic Press. 1979.
Johnson, R.A. and Wichern, D.W.
Applied Multivariate Statistical Analysis (Captulo 2)
Pearson Prentice Hall. 2007 (Sexta edicin).
Carroll, J.D. and Green, P.E. and Chaturvedi, A.
Mathematical Tools for Applied Multivariate Analysis
1
Academic Press. 1997
1
Presenta conceptos y resultados de vectores y matrices desde un punto de vista geomtrico
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Vectores aleatorios
Un vector aleatorio d-dimensional x R
d
es una coleccin de variables aleatorias
x = (x
1
, . . . , x
d
)

medidas simultneamente sobre el mismo individuo.


Ejemplo
En el estudio del gorrin pantanero carileonado (Ammodramus caudacutus), podemos
considerar el vector aleatorio 5-dimensional x = (x
1
, . . . , x
5
)

, siendo:
x
1
= Sexo.
x
2
= Tamao del ala.
x
3
= Longitud del tarso.
x
4
= Tamao de cabeza.
x
5
= Peso.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Vector de medias y matriz de covarianzas de vectores aleatorios
Las medidas ms importantes de las distribuciones de probabilidad de vectores
aleatorios son el vector de medias y la matriz de covarianzas .
Dado un vector aleatorio d-dimensional x R
d
, se dene el vector de medias como
=E(x) =
_
_
_
E(x
1
)
.
.
.
E(x
d
)
_
_
_
.
Es decir, el vector de medias es el vector cuyas componentes son las
esperanzas, o medias, de las componentes del vector aleatorio.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Vector de medias y matriz de covarianzas de vectores aleatorios
Dado un vector aleatorio x R
d
con vector de medias , se dene la matriz de
covarianzas como
Cov(x, x) =E((x )(x )

).
La matriz de covarianzas es una matriz de dimensin d d, simtrica y
semidenida positiva.
En cada entrada (j, k) se tiene la covarianza entre las variables x
j
y x
k
,
Cov(x
j
, x
k
) =
jk
=E((x
j
E(x
j
))(x
k
E(x
k
))).
En resumen,
=
_
_
_
_
Var(x
1
) Cov(x
1
, x
2
) . . . Cov(x
1
, x
d
)
Cov(x
2
, x
1
) Var(x
2
) . . . Cov(x
2
, x
d
)
.
.
.
.
.
.
.
.
.
.
.
.
Cov(x
d
, x
1
) Cov(x
d
, x
2
) . . . Var(x
d
)
_
_
_
_
=
_
_
_
_
_

2
1

12
. . .
1d

21

2
2
. . .
2d
.
.
.
.
.
.
.
.
.
.
.
.

d1

d2
. . .
2
d
_
_
_
_
_
.
Ejercicio
Puedes tambin demostrar como ejercicio que puede ser expresada como
=E(xx

.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Vector de medias y matriz de covarianzas de vectores aleatorios
La correlacin entre las variables x
i
y x
j
se calcula como

ij
=

ij

j
.
La matriz de correlaciones ser por lo tanto
=
_
_
_
_
1
12
. . .
1d

21
1 . . .
2d
.
.
.
.
.
.
.
.
.
.
.
.

d1

d2
. . . 1
_
_
_
_
.
Se verica
=D
1

D
1

siendo D

la matriz diagonal de orden d construida colocando en la diagonal


principal las desviaciones tpicas de las variables, es decir, D

=diag(
1
, . . . ,
d
).
Equivalentemente,
=D

.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Medias y covarianza para subconjuntos de variables
En algunas ocasiones podemos estar interesados en dos o ms subconjuntos de
variables medidas sobre las mismas unidades muestrales.
Ejemplo
Un estudio sobre diabetes analiza diferentes variables de inters sobre pacientes que
no presentan la enfermedad. Las variables de mayor relevancia para el estudio son:
x
1
= Intolerancia a la glucosa
x
2
= Respuesta de la insulina a la glucosa oral
x
3
= Resistencia de la insulina
Se recogen igualmente otras dos variables de menor relevancia:
y
1
= Peso relativo
y
2
= Glucemia basal
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Media y covarianza para subconjuntos de variables
Supongamos, como en el ejemplo, que tenemos dividido el vector aleatorio
original en dos subvectores y y x con p y q variables, respectivamente.
Tendremos entonces la siguiente particin del vector de medias:
E
_
y
x
_
=
_
E(y)
E(x)
_
=
_

y

x
_
y de la matriz de covarianzas
Cov
_
y
x
_
= =
_

yy

yx

xy

xx
_
.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Combinaciones lineales de variables
Con frecuencia estamos interesados en combinaciones lineales de las variables de
estudio x
1
, . . . , x
d
.
Sean a
1
, . . . , a
d
constantes y consideremos la combinacin lineal
z =a
1
x
1
+ . . . +a
d
x
d
=a

x.
donde a

= (a
1
, . . . , a
d
)

.
Para la combinacin lineal z =a

x se tiene que E(z) =a

E(x) y Var(z) =a

a.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Combinaciones lineales de variables
De forma ms general, si consideramos k combinaciones lineales
z =
_
_
_
_
z
1
z
2
.
.
.
z
k
_
_
_
_
=
_
_
_
_
a
11
x
1
+ . . . +a
1d
x
d
a
21
x
1
+ . . . +a
2d
x
d
.
.
.
a
k1
x
1
+ . . . +a
kd
x
d
_
_
_
_
=
_
_
_
_
_
a

1
x
a

2
x
.
.
.
a

k
x
_
_
_
_
_
=Ax,
entonces E(z) =AE(x) y
z
=AA

.
Para la transformacin ms general z =Ax +b, se tiene E(z) =AE(x) +b y

z
=AA

.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Representacin de datos multivariantes
Supongamos que hemos observado d variables en un conjunto de n elementos.
Cada una de estas d variables es una variable univariante y el conjunto de las d
variables constituye un vector aleatorio.
Los valores del vector aleatorio en cada uno de los n elementos pueden
representarse mediante una matriz de datos X de tamao n d.
X =
_
_
_
_
x
11
x
12
. . . x
1d
x
21
x
22
. . . x
2d
.
.
.
.
.
.
.
.
.
.
.
.
x
n1
x
n2
. . . x
nd
_
_
_
_
=
_
_
_
_
_
x

1
x

2
.
.
.
x

n
_
_
_
_
_
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Representacin de datos multivariantes
Ejemplo
Se analizaron las variables del estudio del gorrin pantanero carileonado en una
muestra de 979 gorriones de dicha especie.
Los datos se encuentran recogidos en el chero gorrion.txt y se pueden leer en R
como se muestra a continuacin.
> gorrion <- read.table("gorrion.txt", header = TRUE)
> gorrion
El conjunto de datos se puede representar mediante una matriz de 979 las (nmero
de individuos en la muestra) y 5 columnas (nmero de variables).
> class(gorrion)
[1] "data.frame"
> dim(gorrion)
[1] 979 5
El objeto utilizado en R para almacenar datos de este tipo es un data.frame.
Podremos editar los datos fcilmente utilizando el comando fix o edit.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Representacin de datos multivariantes
Ejemplo
El conjunto de datos survey (librera MASS) corresponde a un cuestionario que se
realiz a 237 estudiantes de Estadstica de la Universidad de Adelaida. Entre las
variables recogidas hay variables cualitativas (como el sexo, mano con la que escribe,
etc.) y variables cuantitativas (anchura de la mano con la que escribe, anchura de la
mano con la que no escribe, etc.)
> library(MASS)
> data(survey)
> survey
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Visualizacin de datos multivariantes
Uno de los problemas con que nos encontramos a la hora de establecer mtodos
grcos para describir datos multivariantes es nuestro propio sistema de
percepcin visual.
Los grcos de dispersin en dos dimensiones son fciles de entender.
Somos tambin capaces de interpretar grcos de dispersin en tres dimensiones.
Sin embargo, cuando la dimensin es mayor necesitamos otros procedimientos
para visualizar los datos.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Visualizacin de datos multivariantes
Ejemplo
Diagrama de dispersin para los datos de tamao del ala (Wingcrd), longitud de tarso
(Tarsus) y tamao de la cabeza (Head) de gorrin. La funcin scatterplot3d de la
librera scatterplot3d R permite realizar grcos de dispersin en 3D.
> library(scatterplot3d)
> scatterplot3d(gorrion[, 2:4], color = 4, main = "Diagrama de dispersin 3D")
Tambin se pueden crear diagramas de dispersin en 3D interactivos usando al funcin
plot3d de la librera rgl, como se indica a continuacin
> library(rgl)
> plot3d(gorrion[, 2:4], col = 4)
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Visualizacin de datos multivariantes
Una forma de representar datos multivariantes es mediante matrices de
diagramas de dispersin.
Ejemplo
Representaciones de matrices de diagramas de dispersin para los datos de gorrin
mediante funciones de R.
> pairs(gorrion[, 2:5])
> library(car)
> scatterplotMatrix(gorrion[, 2:5], groups = gorrion[, 1], col = 3:4,
diagonal = "histogram", smooth = FALSE, reg.line = FALSE)
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Visualizacin de datos multivariantes
Cuando en un conjunto de datos tenemos diferentes variables categricas, puede
ser interesante visualizar las relaciones entre pares de variables teniendo en
cuenta los distintos factores de las variables categricas. Podemos en este caso
representar grcos de dispersin condicionales.
Ejemplo
Grco de dispersin condicional para los datos survey. La funcin coplot nos permite
visualizar la relacin entre el ancho de la mano con la que se escribe (variable Wr.Hnd)
y el ancho de la mano con la que no se escribe (variable NW.Hnd), en funcin del sexo
(variable Sex) y de la lateralidad (variable W.Hnd) del individuo.
> coplot(Wr.Hnd ~ NW.Hnd | Sex
*
W.Hnd, data = na.omit(survey))
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Visualizacin de datos multivariantes
Otra herramienta utilizada para representar datos multivariantes son los grcos
de estrellas.
Cada individuo se representa en una estrella, con tantos rayos o ejes como
variables queramos representar.
Cada eje representa el valor de la variable re-escalada de manera independiente
entre variables.
Ejemplo
Grco de estrellas para los datos iris obtenido con la funcin stars de R. Cada
estrella representa una or.
> data(iris)
> stars(iris[, 1:4], col.stars = iris$Species, key.loc = c(20, 1))
Ejercicio
Visualiza e interpreta los datos contenidos en el chero crimesState.txt, sobre la tasa
de delitos en los diferentes estados de EEUU. En la ayuda de la funcin stars
encontrars como presentar el resultado en diferentes formatos.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Visualizacin de datos multivariantes
Tambin es comn representar datos multivariantes mediante grcos de caras
de Chernoff.
2
El grco de caras de Chernoff es como un grco de estrellas, pero cada
individuo ahora se representa en una cara y las variables en los rasgos fsicos
(altura y anchura de la cara, forma de la cara, altura y anchura de la boca, curva
de la sonrisa, altura y anchura de ojos, ...)
Ejemplo
Grcos de caras de Chernoff para un subconjunto de los datos iris obtenido con la
funcin faces de la librera aplpack de R. Cada cara representa una or. Elegimos 4
ores de cada una de las especies (setosa, versicolor, virginica).
> library(aplpack)
> faces(iris[c(1:4, 51:54, 101:104), 1:4], face.type = 0)
2
Chernoff, H. (1973). The Use of Faces to Represent Points in K-Dimensional Space Graphically.
Journal of the American Statistical Association 68, 361368.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Si quiero leer algo ms sobre... visualizacin de datos
Yau, N.
Visualize This: The FlowingData Guide to Design, Visualization, and Statistics.
Wiley. 2011.
Hrdle, W.K. and Simar, L.
Applied Multivariate Statistical Analysis. (Captulo 1)
Springer. 2012 (Tercera edicin).
Sarkar, D.
Lattice: Multivariate Data Visualization with R
Springer. Series Use R!. 2008
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Vector de medias y matriz de covarianzas muestrales
Supongamos que disponemos de una muestra aleatoria x
1
, . . . , x
n
de un vector
aleatorio en R
d
con media y matriz de covarianzas .
Anlogo al caso univariante, calcularemos el vector de medias muestral como
x =
1
n
n

i=1
x
i
=
1
n
X

1
n
.
Ejercicio
Demuestra que si x
1
, . . . , x
n
es una m.a.s. de un vector aleatorio en R
d
con media y
matriz de covarianzas , entonces:
E(x) = .
Demuestra tambin que
Cov(x, x) =

n
.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Vector de medias y matriz de covarianzas muestrales
Supongamos que disponemos de una muestra aleatoria x
1
, . . . , x
n
de un vector
aleatorio en R
d
con media y matriz de covarianzas .
Anlogo al caso univariante, calcularemos el vector de medias muestral como
x =
1
n
n

i=1
x
i
=
1
n
X

1
n
.
Ejemplo
Ver funciones de R para operar con matrices
Trabajaremos con variables numricas del estudio del gorrin pantanero carileonado.
> gmed <- gorrion[, 2:5]
Calculamos el vector de medias muestral a partir de la matriz de observaciones.
Podemos hacerlo de varias maneras. A travs de la funcin summary.
> summary(gmed)
A travs de la funcin apply.
> apply(gmed, 2, mean)
A travs de la matriz de observaciones.
> n <- dim(gmed)[1]
> un <- matrix(1, nr = n, nc = 1)
> t(gmed) %
*
% un/n
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Vector de medias y matriz de covarianzas muestrales
La matriz de covarianzas se estimar mediante
S =
1
n
n

i=1
(x
i
x) (x
i
x)

.
Contiene en la diagonal las varianzas muestrales y fuera de la diagonal las
covarianzas muestrales entre los distintos pares de variables. Es decir
S =
_
_
_
_
_
s
2
1
s
12
. . . s
1d
s
21
s
2
2
. . . s
2d
.
.
.
.
.
.
.
.
.
.
.
.
s
d1
s
d2
. . . s
2
d
_
_
_
_
_
,
siendo
s
jk
=
1
n
n

i=1
(x
ij
x
j
)(x
ik
x
k
)
Ejercicio
Demuestra que si x
1
, . . . , x
n
es una m.a.s. de un vector aleatorio en R
d
con media y
matriz de covarianzas , entonces:
E(S) =
(n 1)
n
.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Vector de medias y matriz de covarianzas muestrales
La matriz de correlaciones muestral R se obtendr dividiendo las covarianzas
muestrales por las desviaciones tpicas de cada par de variables. Es decir,
R =
_
_
_
_
1 r
12
. . . r
1d
r
21
1 . . . r
2d
.
.
.
.
.
.
.
.
.
.
.
.
r
d1
r
d2
. . . 1
_
_
_
_
,
siendo
r
jk
=
s
jk
s
j
s
k
.
De forma anloga al caso poblacional,
R =D
1
S
SD
1
S
siendo ahora D
S
la matriz diagonal de orden d construida colocando en la diagonal
principal las desviaciones tpicas muestrales de las variables, es decir,
D
S
=diag(s
1
, . . . , s
d
).
Equivalentemente,
S =D
S
RD
S
.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Vector de medias y matriz de covarianzas muestrales
Ejemplo
Ver funciones de R para operar con matrices
Volvemos al conjunto de datos de iris. Calculamos, para la especie setosa, el vector de
medias muestral, la matriz de covarianzas muestral y la matriz de correlaciones
muestral. Debemos tener en cuenta que R calcula la matriz de covarianzas muestral
corregida
1
n 1
n

i=1
(x
i
x) (x
i
x)

.
> setosa <- iris[iris$Species == "setosa", 1:4]
> colMeans(setosa)
> cov(setosa) # Matriz de covarianzas muestral corregida
> cor(setosa) # Matriz de correlaciones muestral
Comprobamos que la matriz de correlaciones muestral tambin se puede calcular
como R =D
1
S
SD
1
S
> desviaciones <- apply(setosa, 2, sd)
> Dinv <- solve(diag(desviaciones))
> Dinv %
*
% cov(setosa) %
*
% Dinv
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Media y covarianza muestrales para subconjuntos de variables
Las propiedades que hemos visto a nivel poblacional se trasladan directamente al
vector de medias y matriz de covarianzas muestrales
Cada observacin en la muestra se podr particionar de la siguiente manera:
_
y
i
x
i
_
=
_
_
_
_
_
_
_
_
_
_
y
i1
.
.
.
y
ip
x
i1
.
.
.
x
iq
_
_
_
_
_
_
_
_
_
_
, i =1, . . . , n.
Para la muestra de n observaciones, el vector de medias muestral y la matriz de
covarianzas muestrales tendrn el siguiente aspecto:
_
y
x
_
=
_
_
_
_
_
_
_
_
_
_
y
1
.
.
.
y
p
x
1
.
.
.
x
q
_
_
_
_
_
_
_
_
_
_
, S =
_
S
yy
S
yx
S
xy
S
xx
_
.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Medias y covarianza muestrales para subconjuntos de variables
Ejemplo
Los datos del estudio sobre diabetes se encuentran en el chero diabetes.txt.
> diab <- read.table("diabetes.txt", header = TRUE)
> head(diab)
y1 y2 x1 x2 x3
1 0.81 80 356 124 55
2 0.95 97 289 117 76
3 0.94 105 319 143 105
...
> colMeans(diab)
y1 y2 x1 x2 x3
0.9178261 90.4130435 340.8260870 171.3695652 97.7826087
> cov(diab)
y1 y2 | x1 x2 x3
y1 0.01618184 0.216029 | 0.7871691 -0.2138454 2.189072
y2 0.21602899 70.558937 | 26.2289855 -23.9560386 -20.841546
----------------------------------------------------------------
x1 0.78716908 26.228986 | 1106.4135266 396.7323671 108.383575
x2 -0.21384541 -23.956039 | 396.7323671 2381.8826087 1142.637681
x3 2.18907246 -20.841546 | 108.3835749 1142.6376812 2136.396135
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Combinaciones lineales de variables
Consideremos ahora el anlogo muestral a las combinaciones lineales de
variables vistas a nivel poblacional.
Ejemplo
Para el ejemplo del estudio sobre diabetes consideramos las siguientes
transformaciones lineales:
z
1
=x
1
+2x
2
x3
z
2
=y
1
+4y
2
En primer lugar calculamos z
1
, z
2
, s
2
z
1
, s
2
z
2
y s
z
1
z
2
a partir de los datos transformados
> attach(diab)
> z1 <- x1 + 2
*
x2 - x3
> z2 <- y1 + 4
*
y2
> mean(z1)
> mean(z2)
> var(z1)
> var(z2)
> cov(z1, z2)
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Combinaciones lineales de variables
Si aplicamos la transformacin a todos los elementos de la muestra, es decir, si
hacemos z
i
=Ax
i
+b para i =1, . . . , n, entonces z =Ax +b y S
z
=ASA

.
Ejemplo
De otro modo, podemos escribir
z =
_
z
1
z
2
_
=
_
0 0 1 2 3
1 4 0 0 0
_
_
_
_
_
y
1
y
2
x
1
x
2
x
3
_
_
_
_
=A
_
_
_
_
y
1
y
2
x
1
x
2
x
3
_
_
_
_
,
Teniendo en cuenta las propiedades de las transformaciones lineales discutidas
anteriormente, se tiene tambin:
> A <- rbind(c(0, 0, 1, 2, -1), c(1, 4, 0, 0, 0))
> A %
*
% cov(diab) %
*
% t(A) % Matriz de covarianza muestral de (z1,z2)
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Repaso de los contenidos
Ejercicio
El chero huesos.txt contiene datos de la medida de un determinado hueso en 20
individuos a cuatro edades diferentes. Concretamente:
y
1
= Longitud del hueso a los 8 aos
y
2
= Longitud del hueso a los 8 aos y medio
y
3
= Longitud del hueso a los 9 aos
y
4
= Longitud del hueso a los 9 aos y medio
1. Importa los datos en R y realiza grcos que te permitan entender las variables de
estudio y la posible relacin entre ellas.
2. Para el vector y = (y
1
, y
2
, y
3
, y
4
)

y calcula y, S y R.
3. Dene las variables v =y
1
+2y
2
+y
3
3y
4
y w = 2y
1
+3y
2
y
3
+2y
4
. Calcula v,
w, s
2
v
, s
2
w
y s
vw
. Utiliza las propiedades de las combinaciones lineales de variables.
4. Considera el vector aleatorio z = (z
1
, z
2
, z
3
)

, siendo
z
1
=2y
1
+3y
2
y
3
+4y
4
z
2
= 2y
1
y
2
+4y
3
2y
4
z
3
=3y
1
2y
2
y
3
+3y
4
Calcula z, S
z
y R
z
. Utiliza las propiedades de las combinaciones lineales de
variables.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Distancias estadsticas
El concepto de distancia entre objetos o individuos observados permite interpretar
geomtricamente muchas tcnicas de anlisis multivariante.
En el caso unidimensional, la distancia entre dos puntos x e y se mide de manera
natural mediante la distancia eucldea |x y|.
Cuando disponemos de una variable vectorial, cada dato es un punto en R
d
. A
partir de ahora sean x
i
= (x
i1
, . . . , x
id
)

y x
k
= (x
k1
, . . . , x
kd
)

las observaciones de
dos individuos i, k obtenidas al medir el vector d-dimensional (x
1
, . . . , x
d
)

.
58 60 62 64 66 68 70
1
7
0
1
7
2
1
7
4
1
7
6
1
7
8
1
8
0
Peso en kg.
E
s
t
a
t
u
r
a

e
n

c
m
.
q
C
A
B
Datos de peso y estatura de 300 mujeres con edades comprendidas entre 30 y 40 aos. En rojo se muestra la media.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Distancia eucldea
Se dene la distancia eucldea entre x
i
y x
k
como
d
E
(x
i
, x
k
) =
_
_
_
_
d

j=1
(x
ij
x
kj
)
2
La distancia eucldea es la ms utilizada pero depende de las unidades de medida
de las variables (no es invariante ante cambios de escala) y presupone que las
variables son incorrelacionadas y de varianza unidad.
58 60 62 64 66 68 70
1
7
0
1
7
2
1
7
4
1
7
6
1
7
8
1
8
0
Peso en kg.
E
s
t
a
t
u
r
a

e
n

c
m
.
q
C
A
B
Datos de peso y estatura de 300 mujeres con edades comprendidas
entre 30 y 40 aos. En rojo se muestra la media.
La distancia eucldea de la mujer A a la media es la misma que la
distancia eucldea de la mujer B a la media y que la distancia eucldea de
la mujer C a la media.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Distancia eucldea estandarizada por columnas
Una manera de evitar el problema de que la distancia dependa de las unidades de
medida de las variables, consiste en dividir cada variable por un trmino que
elimine el efecto de la escala.
Se dene la distancia eucldea estandarizada por columnas entre x
i
y x
k
como
d
Est
(x
i
, x
k
) =
_
_
_
_
d

j=1
_
x
ij
x
kj

j
_
2
Tiene como inconvenientes que presupone que las variables son
incorrelacionadas.
58 60 62 64 66 68 70
1
7
0
1
7
2
1
7
4
1
7
6
1
7
8
1
8
0
Peso en kg.
E
s
t
a
t
u
r
a

e
n

c
m
.
q
C
A
B Datos de peso y estatura de 300 mujeres con edades comprendidas
entre 30 y 40 aos. En rojo se muestra la media.
La distancia eucldea estandarizada por columnas de la mujer A a la
media es mayor que la distancia eucldea estandarizada por columnas de
las mujeres B y C a la media. Aun as, la distancia eucldea estandarizada
por columnas de las mujeres B y C a la media es la misma.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Distancia de Mahalanobis
Se dene la distancia de Mahalanobis entre x
i
y x
k
como
d
M
(x
i
, x
k
) =
_
(x
i
x
k
)

1
(x
i
x
k
)
Es invariante ante cambios de escala y tiene en cuenta las correlaciones entre las
variables.
Adems d
M
d
E
cuando =I
d
y d
M
d
Est
cuando =diag(
2
1
, . . . ,
2
d
)
En caso de que la matriz de covarianzas sea desconocida se calcula
d
M
(x
i
, x
k
) =
_
(x
i
x
k
)

S
1
(x
i
x
k
).
58 60 62 64 66 68 70
1
7
0
1
7
2
1
7
4
1
7
6
1
7
8
1
8
0
Peso en kg.
E
s
t
a
t
u
r
a

e
n

c
m
.
q
C
A
B
Datos de peso y estatura de 300 mujeres con edades comprendidas
entre 30 y 40 aos. En rojo se muestra la media.
La distancia de Mahalanobis de la mujer A a la media es mayor que la
distancia de Mahalanobis de la mujer B a la media, que a su vez es
mayor que la distancia de Mahalanobis de la mujer C a la media.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Estandarizacin
Una transformacin lineal que tiene un inters especial es la estandarizacin.
La estandarizacin (o tipicacin) de una variable aleatoria se consigue restando
la media y dividiendo por la desviacin tpica (raz cuadrada de la varianza). De
esta manera se consigue que la nueva variable transformada tenga media cero y
varianza uno.
La estandarizacin multivariante se obtiene as:
y =
1/2
(x )
donde denota el vector de medias, es la matriz de covarianzas y
1/2
es una
matriz d d que se obtiene a partir de los autovalores y autovectores de de la
siguiente manera:

1/2
= (v
1
, . . . , v
d
)
_
_
_
1/
_

1
0
.
.
.
0 1/
_

d
_
_
_
_
_
_
v

1
.
.
.
v

d
_
_
_
siendo v
1
, . . . , v
d
una base ortonormal de autovectores de y
1
, . . . ,
d
sus
autovalores asociados.
El vector estandarizado y tiene media cero y matriz de covarianzas I
d
.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Repaso de los contenidos
Ejercicio
El chero mujeres.txt contiene los datos de peso y estatura de mujeres con edades
comprendidas entre 30 y 40 aos.
1. Importa los datos en R y represntalos mediante un diagrama de dispersin.
2. Suponemos que los datos de peso y estatura proceden de una distribucin normal
bivariante de media = (65, 175)

y matriz de covarianzas = (
ij
), siendo

11
=3.3,
22
=0.5,
12
=0.7. Representa en rojo el vector de medias.
3. Se aaden al estudio los datos de tres nuevas mujeres. La mujer A pesa 63 kg. y
mide 180 cm. La mujer B pesa 60 kg. y mide 177 cm. La mujer C pesa 70 kg. y
mide 177 cm. Guarda los datos en tres vectores y representa en azul la posicin
de las tres mujeres.
4. Calcula la distancia eucldea de las tres mujeres a la media.
5. Calcula distancia estandarizada por columnas de las tres mujeres a la media.
6. Calcula distancia de Mahalanobis de las tres mujeres a la media. Puedes utilizar la
funcin de R mahalanobis o programar directamente la funcin y comprobar que
obtienes el mismo resultado. Representa los datos estandarizados
1/2
(x ) y
comprueba que la distancia de Mahalanobis coincide con la distancia eucldea de
los datos tras haberles aplicado la estandarizacin multivariante.
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante
Principales funciones de R para operar con matrices
matrix Denicin de matrices en R
t(A) Matriz traspuesta
A
*
B Multiplicacin de matrices elemento a elemento
A %
*
% B Producto matricial
A %o% B Producto exterior
crossprod(A,B) Producto A

B
crossprod(A) Producto A

A
diag(x) Si x es un vector, crea una matriz diagonal con los elementos de x en la diagonal
diag(A) Si A es una matriz, devuelve la diagonal de A
diag(k) Si k es un escalar, devuelve la matriz Identidad de dimensin k
solve(A, b) Devuelve el vector x, solucin de Ax =b
solve(A) Inversa de la matriz A
y <- eigen(A) Clculo de autovalores y autovectores de A
y$val son los autovalores de A
y$vec son los autovectores de A
U <- chol(A) Descomposicin de Choleski de A.
Devuelve una matriz triangular superior U tal que U

U=A .
cbind(A,B,...) Combina matrices o vectores horizontamente
rbind(A,B,...) Combina matrices o vectores verticalmente
rowMeans(A) Vector de medias por las
rowSums(A) Vector de suma de las
colMeans(A) Vector de medias por columnas
colSums(A) Vector de suma de columnas
apply(A,1,fun) Aplica la funcin fun a cada la de la matriz A
apply(A,2,fun) Aplica la funcin fun a cada columna de la matriz A
Mster en Tcnicas Estadsticas. Beatriz Pateiro Lpez Anlisis multivariante. Introduccin al anlisis multivariante

También podría gustarte