Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Componentes Principales.
Anlisis de correspondencias.
Anlisis de escalamiento
multidimensional no-mtrico y mtrico.
Componentes principales
Variables
originales
correlacionadas
entre s
Nuevas
variables
resultantes
de la
combinacin
lineal
No
relacionadas
entre s
V1
V2
V3
C1
2200
10
C2
2000
10
2.5
C3
1900
2.3
C4
1800
Variable con
alta varianza
V2
V3
V1
29167
141.67
71.667
V2
141.67 0.91667
0.35
V3
71.667
0 V1
0.35 0.17667
V2
V3
V1
0.8664 0.99838
V2
0.8664
0 0.86973
V3
0.99838 0.86973
Ejemplo
rotacin PC
Resultados:
Eigenvalor o Autovalor/valor propio
Un autovalor o eingenvalue (valor propio),
es un vector que representa la nueva
variable que parte de la transformacin
lineal las anteriores.
La suma de los autovalores es igual a la
traza de la matriz (trace) y equivale a la
varianza total.
Eigenvalor del
Componente 2
Eigenfaces:
http://www.cl.cam.ac.u
k/research/dtg/attarchi
ve/facedatabase.html
Scores/puntajes
Los puntajes representan el valor de los
casos transformados/pesados en relacin
a los componentes principales.
Es el valor de cada caso en el contexto de
cada uno de los componentes
Se interpreta como en un grfico de
dispersin ordinario.
Scores
Loadings/pesos
Los pesos son el coeficiente de correlacin
entre las variables originales y cada uno de los
componentes.
Indican la importancia relativa de cada variable
en la construccin del componente en
independencia de las dems.
El cuadrado de los pesos es equivalente al R2 y
muestra el porcentaje de variacin que explica
la variable original en el contexto de cada
componente.
Biplot
Biplot
80
70
Eigenvalue %
90
60
50
40
30
20
10
0
0
2
Component
Ejemplo
Matriz de proporcin de instrumentos de
distintos loci a lo largo de Patagonia
Objetivo: Buscar tendencias generales en
los datos
Discusin
El anlisis de componentes principales permite
reducir la dimensionalidad de una matriz de
datos continuos.
Parte de una matriz de varianzas-covarianzas o
de correlacin. La eleccin de una u otra es
fundamental y depende del tipo de datos y de su
variacin.
Su efectividad es mayor cuanto mayor
correlacin exista entre stos.
El resultado es un conjunto de nuevas variables
independientes entre si.
Anlisis de Correspondencias
Objetivos
Representar variables y casos en un
mismo espacio bidimensional en donde se
represente la mxima correlacin posible
entre ellas, tal como se presenta en la
matriz original que toma la forma de una
tabla de contingencia.
Que es el Anlisis de
Correspondencia
Es una tcnica multivariada que
busca
asociar
variables
categricas (conteos) dispuestas
en tablas multidimensionales
Permite representarlas junto a los
casos que stas describen en un
espacio de coordenadas reducido.
Tiene una aplicacin amplia en
ecologa ya que permite asociar
directamente
frecuencia
de
especies con los ambientes de los
que proceden
J. P Benzecri
Funcionamiento: La tabla de
contingencia
En una tabla de contingencia, si dos valores son
independientes entre s, la frecuencia observada
en cada celda solamente depende de los totales
de las celdas y las columnas.
Se estima la distancia entre la frecuencia
observada en cada celda y la esperada bajo la
H0.
Por ltimo se calcula la distancia de Chi2 entre
las frecunecias observadas y las esperadas
para contrastar la hiptesis de indepedencia.
Validacin 1
El relay plot (o grfico de relevos) permite
explorar aporte de cada variable en relacin a
los casos. El largo de las barras horizontales, es
una medida de la abundancia relativa de cada
variable y de su peso en el ordenamiento
(donde los casos se ordenan segn los
pesos/scores).
El grfico es de mayor utilidad cuando los casos
estn en columnas y variables en filas, ya que si
se cuenta con un nmero grande de variables,
pueden analizarse gradientes de abundancia a
lo largo de sitios ordenados en sentido espacial,
longitudinal o temporal.
Validacin 2
Asimismo,
los
anlisis
de
correspondencias pueden complementar
test de independencia (empleando Chi2)
sobre tablas de contingencia ya que
emplea la misma mtrica.
Sin embargo, no obtener un estadstico
significativo en la tabla de contingencia no
implica que el anlisis de correspondencia
no siga siendo til a nivel descriptivo
Ejemplo
Datos de artefactos distribuido en 5
unidades domsticas, presentados por
Shennan (1992), donde se relevaron tres
variables.
Objetivo:
Relacionar
las
unidades
domsticas con los artefactos relevados:
Hay diferencias en su frecuencia ?
Frecuencia
Proporcin
Relay
plot
Discusin
El anlisis de correspondencia tiene como
funcin
analizar
tablas
de
frecuencias
multivariadas.
Permite representar en un espacio de
dimensiones
reducidas
las
relaciones
principales entre casos y variables.
Es sensible a valores en muy baja frecuencia
Puede presentar soluciones graficas difciles de
analizar efecto herradura. Alternativa: anlisis
de correspondencia sin tendencia o detrended
correspondence analysis.
Escalamiento multidimensional no
mtrico (MDS o NMDS)
Joseph Kruskal
Ejemplo 1
Ejemplo 2
Medidas de ajuste
Pocas dimensiones y
ajuste perfecto.
La primera
dimensin explica el
86% de la variacin
Discusin
El anlisis de escalamiento multidimensional es
muy eficiente en producir un mapa que
muestra las relaciones entre individuos.
El anlisis es propenso a soluciones locales
ms que globales, ya que depende de el punto
de pardida
Sin embargo esto puede solucionarse mediante
un procedimiento interado
Es importante seleccionar la distancia adecuada
segn los datos, ya que esto afecta
directamente en los resultados
Aplicacin
PCO tiene una utilidad extra, es que permite generar variables
mtricas de manera similar al PC pero partiendo de variables
no continuas. Por ello es la base de algunos anlisis
explicativos como el anlisis de redundancia basado en
distancias.
En el programa Past son escaladas a una ponencia c antes
de la obtencin de los autovalores lo estndar es utilizar el
segundo (2) exponente