Está en la página 1de 30

=1.

712

Curso de Análisis Multivariado


Especialización en Estadı́stica Aplicada
Clase 1

Profesor Juan Carlos Rubriche


jcrubrichec@libertadores.edu.co

Departamento de Ciencias Básicas


Fundación Universitaria Los Libertadores
ASPECTOS BÁSICOS DEL ANÁLISIS MULTIVARIADO

I La investigación cientı́fica es un proceso iterativo de


aprendizaje
I Los objetivos relacionados con la explicación de un fenómeno
fı́sico o social deben ser especificados y probados por medio de
la consecución y el análisis de los datos
I A su vez, el análisis de los datos generalmente sugerirá
modificaciones a la explicación del fenómeno: se agregarán o
suprimirán variables
I La complejidad de la mayorı́a de los fenómenos exigen que el
investigador recoja información sobre muchas variables
diferentes
I El Análisis de datos multivariados proporciona al investigador
métodos para analizar esta clase de datos
I Métodos de reducción de datos
Tratan de obtener representaciones de los datos en forma tan
simple como sea posible, sin sacrificar información.
I Métodos de ordenamiento y agrupación
Tratan de crear grupos de objetos o de variables que sean
similares.
Alternativamente, tratan de generar reglas para clasificar
objetos dentro de grupos bien definidos.
I Métodos para investigar las relaciones de dependencia
entre las variables, pues generalmente las relaciones entre las
variables son de interés.
I Métodos de predicción
Establecidas las relaciones de las variables, se trata de predecir
los valores de una o más variables sobre las base de las
observaciones de las demás variables.
I Construcción y pruebas de hipótesis
Tratan de validar supuestos o reforzar convicciones a priori
LOS DATOS Y SU ORGANIZACIÓN

Tipos de datos: Los datos recolectados pueden ser generados por:


I Experimentación: a través del diseño experimental
I Observación: se recoge la información existente
Presentación de los datos: su objetivo es facilitar el análisis
I Tablas
I Arreglos matriciales
I Medidas resúmenes o descriptivas
I Gráficos
Tablas

Sea xij el valor que toma la j-ésima variable sobre el i-ésimo objeto
(o individuo o unidad experimental). Si se toman n mediciones
sobre p variables de interés, el conjunto de datos puede ser
presentado como

Objeto Var 1 Var 2 ··· Var j ··· Var p


1 x11 x12 ··· x1j ··· x1p
2 x21 x22 ··· x2j ··· x2p
.. .. .. .. .. .. ..
. . . . . . .
i xi1 xi2 ··· xij ··· xip
.. .. .. .. .. .. ..
. . . . . . .
n xn1 xn2 ··· xnj ··· xnp
Arreglos matriciales

Los datos también pueden ser presentados usando arreglos


matriciales:
 
x11 x12 ··· x1j ··· x1p
x21 x22
 ··· x2j ··· x2p 
 .. .. .. .. .. .. 
 . . . . . . 
X =  
x
 i1 x i2 ··· xij ··· xip 
 .. .. .. .. .. .. 
 . . . . . . 
xn1 xn2 ··· xnj ··· xnp
Estadı́sticas descriptivas

I Los conjuntos de datos generalmente son voluminosos.


I Esto es un serio obstáculo para extraer información relevante
visualmente.
I Mucha de la información contenida en X puede ser evaluada
por medio de medidas que describen cuantitativamente ciertas
caracterı́sticas de los datos como: localización, dispersión, y
correlación.
La media aritmética o media muestral: es una medida de
localización. Para los datos de la j-ésima variable se define como
n
1X
x̄j = xij
n
i=1

La varianza muestral: Es una medida de dispersión. Para los


datos de la j-ésima variable se define como
n
1 X
sj2 = sjj = (xij − x̄j )2
n−1
i=1

La desviación estándar muestral: Es otra medida de dispersión.


Tiene la ventaja de que posee las mismas unidades de medición de
los datos. Para los datos de la j-ésima variable se define como
q
sj = sj2
Covarianza muestral: es una medida de asociación lineal entre los
datos de dos variables. Para los datos de la j-ésima y k-ésima
variable se define como
n
1 X
sjk = (xij − x̄j )(xik − x̄k )
n−1
i=1

Interpretación:
I sjk > 0 indica una asociación lineal positiva entre los datos de
las variables
I sjk < 0 indica una asociación lineal negativa entre los datos de
las variables
I sjk = 0 indica que no hay una asociación lineal entre los datos
de las variables
Correlación muestral: Es otra medida de asociación lineal. Para
los datos de la j-ésima y k-ésima variable se define como
sjk
rjk = √
sjj skk
A diferencia de la covarianza muestral, que no indica cuál es la
fortaleza de la relación lineal, la correlación está acotada entre -1 y
1.
Propiedades de rjk

1. −1 ≤ rjk ≤ 1
I rjk = 1 indica que hay una asociación lineal positiva y perfecta
entre los datos de las variables. Los datos caen sobre una lı́nea
recta de pendiente positiva.
I 0 < rjk < 1 indica que hay una asociación lineal positiva
imperfecta entre los datos de las variables. Los datos caen
alrededor de una lı́nea recta de pendiente positiva.
I rjk = −1 indica que hay una asociación lineal negativa y
perfecta entre los datos de las variables. Los datos caen sobre
una lı́nea recta de pendiente negativa.
I −1 < rjk < 0 indica que hay una asociación lineal negativa
imperfecta entre los datos de las variables. Los datos caen
alrededor de una lı́nea recta de pendiente negativa.
I rjk = 0 indica que no hay una asociación lineal entre los datos
de las variables.
2. Considere las versiones estandarizadas de las variables xj y xk
xij −x̄j ik −x̄k
x√
zj = √
sii y zk = skk

Entonces rjk es la covarianza muestral entre zj y zk .


3. Considere las transformaciones

yj = axj + b
yk = cxk + d

Entonces la correlación muestral entre xj y xk es la misma que


la que hay entre yj y yk , dado que a y c tengan el mismo
signo.
4. sjk y rjk solamente informan sobre la existencia o no de una
asociación lineal.
5. sjk y rjk son muy sensibles a la existencia de datos atı́picos
(outliers). Cuando existen observaciones sospechosas, es
recomendable calcularlas con y sin dichas observaciones.
ARREGLOS BASADOS EN ESTADÍSTICAS DESCRIPTIVAS

Para las medias muestrales: El vector de media muestral se


define como
 
x̄1
x̄2 
x̄ =  . 
 
 .. 
x̄p
Para las varianzas y covarianzas muestrales: La matriz de
varianza y covarianzas muestral, o matriz de covarianzas muestral,
se define como
 
s11 s12 · · · s1p
s12 s22 · · · s2p 
S = .
 
.. .. .. 
 .. . . . 
s1p s2p · · · spp
S es una matriz simétrica.
Para las correlaciones muestrales: La matriz de correlaciones
muestral se define como
 
1 r12 · · · r1p
r12 1 · · · r2p 
R= .
 
.. .. .. 
 .. . . . 
r1p r2p · · · 1

R es una matriz simétrica.


Ejemplo: Contenido de mineral en huesos

núm. dradio radio dhumero humero dcubito cubito


1 1.103 1.052 2.139 2.238 .873 .872
2 .842 .859 1.873 1.741 .590 .744
3 .925 .873 1.887 1.809 .767 .713
4 .857 .744 1.739 1.547 .706 .674
5 .795 .809 1.734 1.715 .549 .654
6 .787 .779 1.509 1.474 .782 .571
7 .933 .880 1.695 1.656 .737 .803
8 .799 .851 1.740 1.777 .618 .682
9 .945 .876 1.811 1.759 .853 .777
10 .921 .906 1.954 2.009 .823 .765
11 .792 .825 1.624 1.657 .686 .668
12 .815 .751 2.204 1.846 .678 .546
13 .755 .724 1.508 1.458 .662 .595
14 .880 .866 1.786 1.811 .810 .819
15 .900 .838 1.902 1.606 .723 .677
16 .764 .757 1.743 1.794 .586 .541
17 .733 .748 1.863 1.869 .672 .752
18 .932 .898 2.028 2.032 .836 .805
19 .856 .786 1.390 1.324 .578 .610
20 .890 .950 2.187 2.087 .758 .718
21 .688 .532 1.650 1.378 .533 .482
22 .940 .850 2.334 2.225 .757 .731
23 .493 .616 1.037 1.268 .546 .615
24 .835 .752 1.509 1.422 .618 .664
25 .915 .936 1.971 1.869 .869 .868
R-práctica

# Vector de medias
mean(datos)

# Matriz de covarianzas
cov(datos)

# Matriz de correlaciones
cor(datos)
Gráficos

Los gráficos son ayudas importantes en el análisis de los datos.


Aunque es imposible graficar simultáneamente los valores de todas
las variables en el análisis y estudiar su configuración, los gráficos
de las variables individuales y de pares de variables son muy
informativos.
I Gráficos para variables individuales: Sirven para conocer las
distribuciones marginales de los datos para cada variable.
Entre ellos se encuentran: Gráfico de puntos, diagrama de
caja, histogramas.
I Gráficos para cada par de variables: Son utilizados para
estudiar la distribución de los datos para 2 variables. Dan
indicaciones sobre la orientación de los datos en el plano
cartesiano y la asociación que hay entre ellos. Son llamados
diagramas de dispersión.
I Gráficos para tres variables: Diagramas de dispersión
tridimensionales
Son utilizados para estudiar los aspectos tridimensionales de
los datos. Generalmente estos gráficos permiten rotación.
I Matrices de dispersión o múltiples diagramas de dispersión:
Presentan conjuntamente todos los diagramas de dispersión
de los datos para cada par variables. Se pueden construir
varias clases de matrices de dispersión, dependiendo del
contenido en su diagonal.
Representaciones pictóricas de datos multivariados:
Son imágenes que representan los valores de tres o más variables
medidas para cada individuo, objeto o unidad experimental. A
diferencia de los gráficos anteriores, no están diseñadas para
transmitir información numérica absoluta. En general, su objetivo
es ayudar a reconocer o observaciones similares.

Cuando se usan estos gráficos, se recomienda que todas las


variables estén medidas en la misma escala. Si no es ası́, se deben
emplear los datos estandarizados.
Gráficos de estrellas

Suponga que los datos consisten de observaciones sobre p ≥ 2


variables. Se obtienen de la siguiente manera. En dos dimensiones
se construyen cı́rculos de radio fijo con p rayos igualmente
espaciados emanando del centro del cı́rculo. Las longitudes de los
rayos representan los valores de las variables.
Curvas de Andrews

Es un método potente para identificar agrupamientos de


observaciones. Las curvas de Andrews son las componentes de
Fourier de los datos y el resultado para cada observación es una
onda formada por funciones seno y coseno de sus componentes. Se
construyen de la siguiente forma:
A cada observación (xi1 , xi2 , · · · , xip ) se le asigna una función
definida por:

xi1
fi (t) = √ + xi2 sin(t) + xi3 cos(t) + xi4 sin(2t) + xi5 cos(2t) + · · ·
2
donde −π < t < π.
Caras de Chernoff

Es otra forma efectiva de agrupar datos multivariados,


particularmente para un procesamiento de la memoria de largo
plazo. Fueron introducidas por Chernoff (1973), quien usa varias
caracterı́sticas de la cara para representar los datos de las variables,
tales como: longitud de la nariz, tamaño de los ojos, forma de los
ojos, ancho de la boca, entre otras.
R-práctica

# gráfico de puntos
stripchart(X1, method=”stack”)
# histograma
hist(X1)
# gráfico de caja boxplot(X1)
# matriz de dispersión
# pegado de las variables en la matriz X
X< −as.matrix(cbind(X1, X2, ...,Xp))
pairs(X)
# gráfico de estrellas
# estandarización de las variables
# pegado de las variables estandarizadas en la matriz Xs
Xs< −as.matrix(cbind(X1s, X2s, ..., Xps))
# los nombres de las observaciones son colocadas en el vector obs
obs=as.vector(X*)
stars(Xs, labels = obs, key.loc=c(10,1.8))
# invocar la librerı́a aplpack para los gráficos de caras
library(aplpack)
gráficos de caras
faces(Xs, labels = obs)

También podría gustarte