Está en la página 1de 56

Anlisis multivariado 2

Componentes Principales.
Anlisis de correspondencias.
Anlisis de escalamiento
multidimensional no-mtrico y mtrico.

Gran parte de los mtodos multivariados


se basan en la reduccin de matrices a
partir del principio de correlacin entre las
variables originales, ms que su
semejanza o disimilitud.
Las nuevas variables son seleccionadas
de acuerdo de la cantidad de varianza
explicada y ordenadas de mayor a menor.
Estas nuevas variables son denominadas
coordenadas o componentes principales,
ya que condensan la informacin original
en un conjunto menor de dimensiones.

Componentes principales

Que son los componentes principales


Objetivos
Funcionamiento
Aplicacin
Anlisis de los resultados
Ejemplo
Ventajas/desventajas
Conclusiones

Los componentes principales son un mtodo de


anlisis multivariado que permite reducir la
dimensionalidad de conjuntos de datos
cuantitativos continuos o cuantitativos discretos
luego de ser sujetos a una transformacin.
Permite visualizar patrones
Genera nuevas variables independientes entre
s (ortogonales)
Estas nuevas variables pueden ser utilizadas en
nuevos anlisis o utilizarse para describir las
tendencias generales de variacin en los datos.

Los datos pueden estar descriptos por gran


nmero de dimensiones -variables- que a su vez
pueden presentar distintos niveles de correlacin
entre s.
Esto dificulta la bsqueda e interpretacin de
patrones.

El objetivo de los Componentes principales es reducir este


conjunto de variables interrelacionadas a un nuevo grupo de
variables ortogonales entre s, denominadas Componentes
Principales

Variables
originales
correlacionadas
entre s

Nuevas
variables
resultantes
de la
combinacin
lineal
No
relacionadas
entre s

La varianza de cada nueva variable o


componente es una medida de la cantidad
de informacin contenida en cada una de
ellas.
Los componentes se ordenan de orden
decreciente en funcin de esta varianza,
tal que los primeros explican los patrones
generales y los ltimos la variacin
residual.
Esto permite tambin, filtrar variacin
aleatoria, el ruido en los datos.

Caractersticas de las matrices para


anlisis
Matriz de covariancia:
El anlisis utilizando esta matriz dar ms peso a
las variables con mayor varianza
Las variables deben estar en las mismas unidades
Matriz de correlacin:
Las variables estn tal que poseen una media de 0
y un una desviacin tpica de 1
Las variables pueden estar en distintas unidades
Todas las variables poseern el mismo peso
durante el anlisis

La eleccin de la matriz de varianzacovarianza o correlacin para estimar los


componentes principales posee gran peso
en los resultados, especialmente
si
existen diferencias notables de escala en
alguna/s de las variables empleadas.
Por ello puede ser conveniente el
tratamiento previo de los datos, o el
empleo de una matriz de correlacin en el
caso de que la dispersin y la escala de
las variables sea muy diferente.

Matriz de varianzacovarianza y correlacin I

Matriz de varianzacovarianza y correlacin 2


V1

V1

V2

V3

C1

2200

10

C2

2000

10

2.5

C3

1900

2.3

C4

1800

Variable con
alta varianza

V2

V3

V1

29167

141.67

71.667

V2

141.67 0.91667

0.35

V3

71.667

0 V1

0.35 0.17667

V2

V3

V1

0.8664 0.99838

V2

0.8664

0 0.86973

V3

0.99838 0.86973

La eleccin del primer componente principal,


resultante de la combinacin lineal entre las
variables originales se basa en la mxima varianza.
El primer componente se traza a lo largo del eje de
mayor variacin y sirve de base para los
componentes subsiguientes.
El segundo componente tiene que explicar
variacin independiente al primero, por lo que se
traza en direccin independiente ste, esto es a
90. Lo mismo se hace con el tercero
(independiente al segundo) y con los componentes
subsiguientes.
Por ello se dice que las variables son ortogonales
entre s

Ejemplo
rotacin PC

Resultados:
Eigenvalor o Autovalor/valor propio
Un autovalor o eingenvalue (valor propio),
es un vector que representa la nueva
variable que parte de la transformacin
lineal las anteriores.
La suma de los autovalores es igual a la
traza de la matriz (trace) y equivale a la
varianza total.

Eigenvalor del
Componente 2

Eigenvalor del Componente 1

Eigenfaces:
http://www.cl.cam.ac.u
k/research/dtg/attarchi
ve/facedatabase.html

El autovalor resulta de la suma de las varianzas de


la matriz de varianza-covarianza, tal que si
sumsemos los elementos de la diagonal de esta
matriz (las varianzas), el resultado es el mismo que
al sumar los autovalores de cada componente.

Scores/puntajes
Los puntajes representan el valor de los
casos transformados/pesados en relacin
a los componentes principales.
Es el valor de cada caso en el contexto de
cada uno de los componentes
Se interpreta como en un grfico de
dispersin ordinario.

Scores

Loadings/pesos
Los pesos son el coeficiente de correlacin
entre las variables originales y cada uno de los
componentes.
Indican la importancia relativa de cada variable
en la construccin del componente en
independencia de las dems.
El cuadrado de los pesos es equivalente al R2 y
muestra el porcentaje de variacin que explica
la variable original en el contexto de cada
componente.

Biplot

El biplot tiene la funcin de representar la


relacin entre las variables originales y los
componentes principales.
El biplot es la proyeccin en forma de un
vector sobre el plano (superficie delimitada por
dos componentes) de las variables originales.
Al igual que en la regresin, la direccin del
vector es la de mxima variacin y en relacin
al incremento de la variable proyectada, sobre
los ejes de los componentes.
El largo del vector es una medida de la
importancia (correlacin) entre la variable
original y los componentes.

Biplot

Validacin: Retencin de los


componentes
El criterio ms lgico es retener
el
nmero
mnimo
de
componentes que expliquen un
porcentaje
de
variacin
determinado, en general entre
el 90% u 80% del total.

En ltima instancia depende en


gran medida de la pregunta del
investigador as como del tipo
de dato analizado.

80
70
Eigenvalue %

Otro criterio es retener los


componentes con un autovalor
igual o mayor a 1.

90

60
50
40
30
20
10
0
0

2
Component

Ejemplo
Matriz de proporcin de instrumentos de
distintos loci a lo largo de Patagonia
Objetivo: Buscar tendencias generales en
los datos

Discusin
El anlisis de componentes principales permite
reducir la dimensionalidad de una matriz de
datos continuos.
Parte de una matriz de varianzas-covarianzas o
de correlacin. La eleccin de una u otra es
fundamental y depende del tipo de datos y de su
variacin.
Su efectividad es mayor cuanto mayor
correlacin exista entre stos.
El resultado es un conjunto de nuevas variables
independientes entre si.

Anlisis de Correspondencias

Que es el anlisis de Correspondencias


Objetivos
Funcionamiento
Aplicacin
Anlisis de los resultados
Ejemplo
Discusin

Objetivos
Representar variables y casos en un
mismo espacio bidimensional en donde se
represente la mxima correlacin posible
entre ellas, tal como se presenta en la
matriz original que toma la forma de una
tabla de contingencia.

Que es el Anlisis de
Correspondencia
Es una tcnica multivariada que
busca
asociar
variables
categricas (conteos) dispuestas
en tablas multidimensionales
Permite representarlas junto a los
casos que stas describen en un
espacio de coordenadas reducido.
Tiene una aplicacin amplia en
ecologa ya que permite asociar
directamente
frecuencia
de
especies con los ambientes de los
que proceden

J. P Benzecri

Funcionamiento: La tabla de
contingencia
En una tabla de contingencia, si dos valores son
independientes entre s, la frecuencia observada
en cada celda solamente depende de los totales
de las celdas y las columnas.
Se estima la distancia entre la frecuencia
observada en cada celda y la esperada bajo la
H0.
Por ltimo se calcula la distancia de Chi2 entre
las frecunecias observadas y las esperadas
para contrastar la hiptesis de indepedencia.

Clculo de distancias y reduccion de


las dimensiones originales
Los valores resultantes en cada celda son
estandarizados al convertirse en valores de Chi2
Cuanto ms altos son los valores, ms fuerte es la
relacin entre ellos y representan de esta manera,
una medida de distancia
La matriz resultante de este proceso es similar a
una matriz de varianza-covarianza.
A partir de estas distancias de Chi2 se obtienen los
autovalores para cada nuevo eje y el porcentaje de
la varianza explicado por cada uno de ellos.

Por lo tanto la reduccin de dimensiones en la


ltima etapa de anlisis es similar al anlisis
de componentes principales sobre la matriz de
covarianzas

De esta manera se obtiene un espacio


reducido en donde los primeros ejes captan la
mayor proporcin de variacin.

En este espacio los objetos estn


estandarizados y representan pesos de
variables y casos que pueden representarse
juntos

La proximidad indica dependencia-relacin

Matriz de distancias y clculo los ejes


principales
De manera similar al procedimiento de Chi2
se estima una frecuencia esperada. En este
caso, distancia entre las proporciones
observadas en cada celda se compara de a
pares y se pondera por la proporcin
promedio estimada para cada variable.
Posteriormente se estima la raz cuadrada de
cada uno, lo que obtiene valores
normalizados, sta normalizacin permite
operar de manera anloga una matriz de
correlacin.

Al igual que en el anlisis de componentes


principales, los autovalores son calculados, uno
para cada nueva dimensin.
En el espacio de coordenadas, cada sitio u
objeto se grafica en funcin de su distancia al
centro de la distribucin o centroide. Al igual que
en otros procedimientos aqullos valores ms
influyentes son lo que tienden a alejarse del
centro

Validacin 1
El relay plot (o grfico de relevos) permite
explorar aporte de cada variable en relacin a
los casos. El largo de las barras horizontales, es
una medida de la abundancia relativa de cada
variable y de su peso en el ordenamiento
(donde los casos se ordenan segn los
pesos/scores).
El grfico es de mayor utilidad cuando los casos
estn en columnas y variables en filas, ya que si
se cuenta con un nmero grande de variables,
pueden analizarse gradientes de abundancia a
lo largo de sitios ordenados en sentido espacial,
longitudinal o temporal.

Validacin 2
Asimismo,
los
anlisis
de
correspondencias pueden complementar
test de independencia (empleando Chi2)
sobre tablas de contingencia ya que
emplea la misma mtrica.
Sin embargo, no obtener un estadstico
significativo en la tabla de contingencia no
implica que el anlisis de correspondencia
no siga siendo til a nivel descriptivo

Ejemplo
Datos de artefactos distribuido en 5
unidades domsticas, presentados por
Shennan (1992), donde se relevaron tres
variables.
Objetivo:
Relacionar
las
unidades
domsticas con los artefactos relevados:
Hay diferencias en su frecuencia ?

Frecuencia

Proporcin

Relay
plot

Si estimramos un valor de chi2 para la tabla


de contingencia, obtendramos el valor de
significacin que evala la distribucin en
relacin a un modelo de independencia, as
como de la correlacin entre la frecuencias de
la tabla (V de Cramer) bajo la misma hiptesis.

Discusin
El anlisis de correspondencia tiene como
funcin
analizar
tablas
de
frecuencias
multivariadas.
Permite representar en un espacio de
dimensiones
reducidas
las
relaciones
principales entre casos y variables.
Es sensible a valores en muy baja frecuencia
Puede presentar soluciones graficas difciles de
analizar efecto herradura. Alternativa: anlisis
de correspondencia sin tendencia o detrended
correspondence analysis.

Escalamiento multidimensional no
mtrico (MDS o NMDS)

Que es el escalamiento multidimensional


Objetivos
Funcionamiento
Aplicacin
Anlisis de los resultados
Ejemplo
Discusin

El anlisis multidimensional se origina en


los estudios de psiconomtra entre los
aos 20 y 60.
El fin era encontrar factores latentes,
intenciones
elementos
subjetivos
subyacentes a partir de elementos
observados. Actitudes o comportamiento.
Se desarroll especialmente a partir de la
paricin de los mtodos computacionales
que permitieon estudios interados.

Joseph Kruskal

El MDS busca las mejores posiciones de n objetos en un


espacio de k dimensiones que se asemejen ms a las
posiciones de los objetos segn sus distancias originales.
Los objetos son reescalados, pero intentando mantener
la relacin original entre ellos
Es iterativo, pues repite el anlisis con posiciones
diferentes hasta alcanzar el mejor arreglo.
No supone que existan relaciones lineales entre las
variables. Utiliza el orden de distancias (ranked
distances) como criterio principal, por eso se le llama nomtrico.
Puede emplearse con matrices de datos cualitativos o
cuantitativos.

Permite utilizar casi cualquier medida de distancia,


acorde a la naturaleza de las variables empleadas
Como es iterativo cada corrida puede resultar en
ordenaciones un tanto diferentes.
Requiere tiempo computacional, particularmente
con muchos datos (aunque ya esto no es un
asunto tan importante).
Es posible que encuentre una solucin subptima
(pero las capacidades de computacin actual
reducen esta limitacin).

Pasos del MDS


Estimar la matriz de distancias
Obtener una configuracin inicial de n dimensiones
Realiza una regresin entre los individuos en cada una
de estas dimensiones, estas distancias son
denominadas disparidades y buscan representar lo
mejor posible las distancias originales.
El ajuste entre las distancias de la configuracin y las
nuevas disparidades es medido mediante la formula del
estrs. (stress), basada en la suma de las diferencias
entre estas configuraciones

La regresin empleada es monotnica y dentro


de este contexto lo importante es el
ordenamiento de los datos en relacin a sus
distancias
El proceso es interado, ya que se repite hasta
que no se puede reducir ms el estrs.
Esta ltima configuracin es la que posee un
mejor ajuste en un menor nmero de
dimensiones, usualmente dos.
Un estrs cercano a 0 y no mayor a 2.5 indica
un buen ajuste.
Otras medidas alternativas, como R2, pueden
emplearse para estimar la bondad de ajuste del
modelo estimado en relacin a las distancias
originales

El ajuste puede visualizarse a travs del grfico de


Sheppard entre las distancias observadas y las
estimadas. De forma ideal los puntos se deben ajustar a
una lnea recta (ajuste perfecto)

Ejemplo 1

Ejemplo 2

Medidas de ajuste

Pocas dimensiones y
ajuste perfecto.
La primera
dimensin explica el
86% de la variacin

Discusin
El anlisis de escalamiento multidimensional es
muy eficiente en producir un mapa que
muestra las relaciones entre individuos.
El anlisis es propenso a soluciones locales
ms que globales, ya que depende de el punto
de pardida
Sin embargo esto puede solucionarse mediante
un procedimiento interado
Es importante seleccionar la distancia adecuada
segn los datos, ya que esto afecta
directamente en los resultados

Coordenadas principales (PCOA)

Que son las coordenadas principales


Objetivos
Funcionamiento
Aplicacin
Anlisis de los resultados
Ejemplo
Discusin

EL anlisis de coordenadas principales es similar al


escalamiento multidimensional no mtrico, ya que parte de
una matriz de distancias entre casos.
Asimismo, el objetivo es preservar la distancia original entre
casos
Sin embargo el PCO soluciona la reduccin de dimensiones
de forma anloga a componentes principales, a travs de la
obtencin de autovalores de una matriz de varianzacovarianza. De hecho si la distancia empleada es euclidiana
sobre una matriz de varianza-covariaza el resultado del PCO
es similar al PCA
Uno de los problemas relacionados a este mtodo es que si
se emplea una matriz de similitudes en la descomposicin de
dimensiones, algunas distancias pueden ser negativas.
Distancias negativas muy altas sugieren que la matriz puede
ser inapropiada para este mtodo.

Objetivos del PCO


Tomar una matriz de disimilitudes
Representar estas a los individuos que
conforman esta matriz en un espacio de
dimensiones reducidas
Encontrar (al igual que el PC) el eje de mayor
variacin y determinar la primera coordenada, y
de forma ortogonal a sta, las siguientes
Representar estas nuevas variables en es
espacio
de
dimensiones
reducidas
Coordenadas principales

Aplicacin
PCO tiene una utilidad extra, es que permite generar variables
mtricas de manera similar al PC pero partiendo de variables
no continuas. Por ello es la base de algunos anlisis
explicativos como el anlisis de redundancia basado en
distancias.
En el programa Past son escaladas a una ponencia c antes
de la obtencin de los autovalores lo estndar es utilizar el
segundo (2) exponente

Ejemplo MDS y PCO


Anlisis de frecuencia de instrumentos de
bloque temprano (6000-3000) y tardo
(<3000-450 A.P)

Discusin PCO y MDS


Ambos mtodos son similares en el sentido
de que intentar preservar distancias
originales en un espacio de menores
dimensiones.
MDS preserva solamente la escala entre los
casos y permite trabajar matrices bastante
heterogneas
PCO obtiene la matriz de autovalores y las
coordenadas principales de variacin.

También podría gustarte