Clase00 Analisis Multivariado 2

=1.
712
Curso de Análisis Multivariado

Especialización en Estadı́stica Aplicada
Clase 1
Profesor Juan Carlos Rubriche

jcrubrichec@libertadores.edu.co
Departamento de Ciencias Básicas

Fundación Universitaria Los Libertadores
ASPECTOS BÁSICOS DEL ANÁLISIS MULTIVARIADO
I La investigación cientı́fica es un proceso iterativo de

aprendizaje
I Los objetivos relacionados con la explicación de un fenómeno
fı́sico o social deben ser especificados y probados por medio de
la consecución y el análisis de los datos
I A su vez, el análisis de los datos generalmente sugerirá
modificaciones a la explicación del fenómeno: se agregarán o
suprimirán variables
I La complejidad de la mayorı́a de los fenómenos exigen que el
investigador recoja información sobre muchas variables
diferentes
I El Análisis de datos multivariados proporciona al investigador
métodos para analizar esta clase de datos
I Métodos de reducción de datos
Tratan de obtener representaciones de los datos en forma tan
simple como sea posible, sin sacrificar información.
I Métodos de ordenamiento y agrupación
Tratan de crear grupos de objetos o de variables que sean
similares.
Alternativamente, tratan de generar reglas para clasificar
objetos dentro de grupos bien definidos.
I Métodos para investigar las relaciones de dependencia
entre las variables, pues generalmente las relaciones entre las
variables son de interés.
I Métodos de predicción
Establecidas las relaciones de las variables, se trata de predecir
los valores de una o más variables sobre las base de las
observaciones de las demás variables.
I Construcción y pruebas de hipótesis
Tratan de validar supuestos o reforzar convicciones a priori
LOS DATOS Y SU ORGANIZACIÓN
Tipos de datos: Los datos recolectados pueden ser generados por:

I Experimentación: a través del diseño experimental
I Observación: se recoge la información existente
Presentación de los datos: su objetivo es facilitar el análisis
I Tablas
I Arreglos matriciales
I Medidas resúmenes o descriptivas
I Gráficos
Tablas
Sea xij el valor que toma la j-ésima variable sobre el i-ésimo objeto
(o individuo o unidad experimental). Si se toman n mediciones
sobre p variables de interés, el conjunto de datos puede ser
presentado como
Objeto Var 1 Var 2 ··· Var j ··· Var p

1 x11 x12 ··· x1j ··· x1p
2 x21 x22 ··· x2j ··· x2p
.. .. .. .. .. .. ..
. . . . . . .
i xi1 xi2 ··· xij ··· xip
.. .. .. .. .. .. ..
. . . . . . .
n xn1 xn2 ··· xnj ··· xnp
Arreglos matriciales
Los datos también pueden ser presentados usando arreglos

matriciales:
 
x11 x12 ··· x1j ··· x1p
x21 x22
 ··· x2j ··· x2p 
 .. .. .. .. .. .. 
 . . . . . . 
X =  
x
 i1 x i2 ··· xij ··· xip 
 .. .. .. .. .. .. 
 . . . . . . 
xn1 xn2 ··· xnj ··· xnp
Estadı́sticas descriptivas
I Los conjuntos de datos generalmente son voluminosos.

I Esto es un serio obstáculo para extraer información relevante
visualmente.
I Mucha de la información contenida en X puede ser evaluada
por medio de medidas que describen cuantitativamente ciertas
caracterı́sticas de los datos como: localización, dispersión, y
correlación.
La media aritmética o media muestral: es una medida de
localización. Para los datos de la j-ésima variable se define como
n
1X
x̄j = xij
n
i=1
La varianza muestral: Es una medida de dispersión. Para los

datos de la j-ésima variable se define como
n
1 X
sj2 = sjj = (xij − x̄j )2
n−1
i=1
La desviación estándar muestral: Es otra medida de dispersión.

Tiene la ventaja de que posee las mismas unidades de medición de
los datos. Para los datos de la j-ésima variable se define como
q
sj = sj2
Covarianza muestral: es una medida de asociación lineal entre los
datos de dos variables. Para los datos de la j-ésima y k-ésima
variable se define como
n
1 X
sjk = (xij − x̄j )(xik − x̄k )
n−1
i=1
Interpretación:
I sjk > 0 indica una asociación lineal positiva entre los datos de
las variables
I sjk < 0 indica una asociación lineal negativa entre los datos de
las variables
I sjk = 0 indica que no hay una asociación lineal entre los datos
de las variables
Correlación muestral: Es otra medida de asociación lineal. Para
los datos de la j-ésima y k-ésima variable se define como
sjk
rjk = √
sjj skk
A diferencia de la covarianza muestral, que no indica cuál es la
fortaleza de la relación lineal, la correlación está acotada entre -1 y
1.
Propiedades de rjk
1. −1 ≤ rjk ≤ 1
I rjk = 1 indica que hay una asociación lineal positiva y perfecta
entre los datos de las variables. Los datos caen sobre una lı́nea
recta de pendiente positiva.
I 0 < rjk < 1 indica que hay una asociación lineal positiva
imperfecta entre los datos de las variables. Los datos caen
alrededor de una lı́nea recta de pendiente positiva.
I rjk = −1 indica que hay una asociación lineal negativa y
perfecta entre los datos de las variables. Los datos caen sobre
una lı́nea recta de pendiente negativa.
I −1 < rjk < 0 indica que hay una asociación lineal negativa
imperfecta entre los datos de las variables. Los datos caen
alrededor de una lı́nea recta de pendiente negativa.
I rjk = 0 indica que no hay una asociación lineal entre los datos
de las variables.
2. Considere las versiones estandarizadas de las variables xj y xk
xij −x̄j ik −x̄k
x√
zj = √
sii y zk = skk
Entonces rjk es la covarianza muestral entre zj y zk .

3. Considere las transformaciones
yj = axj + b
yk = cxk + d
Entonces la correlación muestral entre xj y xk es la misma que

la que hay entre yj y yk , dado que a y c tengan el mismo
signo.
4. sjk y rjk solamente informan sobre la existencia o no de una
asociación lineal.
5. sjk y rjk son muy sensibles a la existencia de datos atı́picos
(outliers). Cuando existen observaciones sospechosas, es
recomendable calcularlas con y sin dichas observaciones.
ARREGLOS BASADOS EN ESTADÍSTICAS DESCRIPTIVAS
Para las medias muestrales: El vector de media muestral se

define como
 
x̄1
x̄2 
x̄ =  . 
 
 .. 
x̄p
Para las varianzas y covarianzas muestrales: La matriz de
varianza y covarianzas muestral, o matriz de covarianzas muestral,
se define como
 
s11 s12 · · · s1p
s12 s22 · · · s2p 
S = .
 
.. .. .. 
 .. . . . 
s1p s2p · · · spp
S es una matriz simétrica.
Para las correlaciones muestrales: La matriz de correlaciones
muestral se define como
 
1 r12 · · · r1p
r12 1 · · · r2p 
R= .
 
.. .. .. 
 .. . . . 
r1p r2p · · · 1
R es una matriz simétrica.

Ejemplo: Contenido de mineral en huesos
núm. dradio radio dhumero humero dcubito cubito

1 1.103 1.052 2.139 2.238 .873 .872
2 .842 .859 1.873 1.741 .590 .744
3 .925 .873 1.887 1.809 .767 .713
4 .857 .744 1.739 1.547 .706 .674
5 .795 .809 1.734 1.715 .549 .654
6 .787 .779 1.509 1.474 .782 .571
7 .933 .880 1.695 1.656 .737 .803
8 .799 .851 1.740 1.777 .618 .682
9 .945 .876 1.811 1.759 .853 .777
10 .921 .906 1.954 2.009 .823 .765
11 .792 .825 1.624 1.657 .686 .668
12 .815 .751 2.204 1.846 .678 .546
13 .755 .724 1.508 1.458 .662 .595
14 .880 .866 1.786 1.811 .810 .819
15 .900 .838 1.902 1.606 .723 .677
16 .764 .757 1.743 1.794 .586 .541
17 .733 .748 1.863 1.869 .672 .752
18 .932 .898 2.028 2.032 .836 .805
19 .856 .786 1.390 1.324 .578 .610
20 .890 .950 2.187 2.087 .758 .718
21 .688 .532 1.650 1.378 .533 .482
22 .940 .850 2.334 2.225 .757 .731
23 .493 .616 1.037 1.268 .546 .615
24 .835 .752 1.509 1.422 .618 .664
25 .915 .936 1.971 1.869 .869 .868
R-práctica
# Vector de medias
mean(datos)
# Matriz de covarianzas
cov(datos)
# Matriz de correlaciones
cor(datos)
Gráficos
Los gráficos son ayudas importantes en el análisis de los datos.

Aunque es imposible graficar simultáneamente los valores de todas
las variables en el análisis y estudiar su configuración, los gráficos
de las variables individuales y de pares de variables son muy
informativos.
I Gráficos para variables individuales: Sirven para conocer las
distribuciones marginales de los datos para cada variable.
Entre ellos se encuentran: Gráfico de puntos, diagrama de
caja, histogramas.
I Gráficos para cada par de variables: Son utilizados para
estudiar la distribución de los datos para 2 variables. Dan
indicaciones sobre la orientación de los datos en el plano
cartesiano y la asociación que hay entre ellos. Son llamados
diagramas de dispersión.
I Gráficos para tres variables: Diagramas de dispersión
tridimensionales
Son utilizados para estudiar los aspectos tridimensionales de
los datos. Generalmente estos gráficos permiten rotación.
I Matrices de dispersión o múltiples diagramas de dispersión:
Presentan conjuntamente todos los diagramas de dispersión
de los datos para cada par variables. Se pueden construir
varias clases de matrices de dispersión, dependiendo del
contenido en su diagonal.
Representaciones pictóricas de datos multivariados:
Son imágenes que representan los valores de tres o más variables
medidas para cada individuo, objeto o unidad experimental. A
diferencia de los gráficos anteriores, no están diseñadas para
transmitir información numérica absoluta. En general, su objetivo
es ayudar a reconocer o observaciones similares.
Cuando se usan estos gráficos, se recomienda que todas las

variables estén medidas en la misma escala. Si no es ası́, se deben
emplear los datos estandarizados.
Gráficos de estrellas
Suponga que los datos consisten de observaciones sobre p ≥ 2

variables. Se obtienen de la siguiente manera. En dos dimensiones
se construyen cı́rculos de radio fijo con p rayos igualmente
espaciados emanando del centro del cı́rculo. Las longitudes de los
rayos representan los valores de las variables.
Curvas de Andrews
Es un método potente para identificar agrupamientos de

observaciones. Las curvas de Andrews son las componentes de
Fourier de los datos y el resultado para cada observación es una
onda formada por funciones seno y coseno de sus componentes. Se
construyen de la siguiente forma:
A cada observación (xi1 , xi2 , · · · , xip ) se le asigna una función
definida por:
xi1
fi (t) = √ + xi2 sin(t) + xi3 cos(t) + xi4 sin(2t) + xi5 cos(2t) + · · ·
2
donde −π < t < π.
Caras de Chernoff
Es otra forma efectiva de agrupar datos multivariados,

particularmente para un procesamiento de la memoria de largo
plazo. Fueron introducidas por Chernoff (1973), quien usa varias
caracterı́sticas de la cara para representar los datos de las variables,
tales como: longitud de la nariz, tamaño de los ojos, forma de los
ojos, ancho de la boca, entre otras.
R-práctica
# gráfico de puntos
stripchart(X1, method=”stack”)
# histograma
hist(X1)
# gráfico de caja boxplot(X1)
# matriz de dispersión
# pegado de las variables en la matriz X
X< −as.matrix(cbind(X1, X2, ...,Xp))
pairs(X)
# gráfico de estrellas
# estandarización de las variables
# pegado de las variables estandarizadas en la matriz Xs
Xs< −as.matrix(cbind(X1s, X2s, ..., Xps))
# los nombres de las observaciones son colocadas en el vector obs
obs=as.vector(X*)
stars(Xs, labels = obs, key.loc=c(10,1.8))
# invocar la librerı́a aplpack para los gráficos de caras
library(aplpack)
gráficos de caras
faces(Xs, labels = obs)

Clase00 Analisis Multivariado 2

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Clase00 Analisis Multivariado 2

Cargado por

Copyright:

Formatos disponibles

=1.

Curso de Análisis Multivariado

Profesor Juan Carlos Rubriche

Departamento de Ciencias Básicas

I La investigación cientı́fica es un proceso iterativo de

Tipos de datos: Los datos recolectados pueden ser generados por:

Objeto Var 1 Var 2 ··· Var j ··· Var p

Los datos también pueden ser presentados usando arreglos

I Los conjuntos de datos generalmente son voluminosos.

La varianza muestral: Es una medida de dispersión. Para los

La desviación estándar muestral: Es otra medida de dispersión.

Entonces rjk es la covarianza muestral entre zj y zk .

Entonces la correlación muestral entre xj y xk es la misma que

Para las medias muestrales: El vector de media muestral se

R es una matriz simétrica.

núm. dradio radio dhumero humero dcubito cubito

Los gráficos son ayudas importantes en el análisis de los datos.

Cuando se usan estos gráficos, se recomienda que todas las

Suponga que los datos consisten de observaciones sobre p ≥ 2

Es un método potente para identificar agrupamientos de

Es otra forma efectiva de agrupar datos multivariados,

También podría gustarte