Documentos de Académico
Documentos de Profesional
Documentos de Cultura
GIDDEA - Estadística Matemática - Nivel III - Sesión 2 PDF
GIDDEA - Estadística Matemática - Nivel III - Sesión 2 PDF
GIDDEA - Estadística Matemática - Nivel III - Sesión 2 PDF
Nivel III
Técnicas Multivariantes
Kesber Angulo
Algunas Técnicas
Multivariantes
1. Reducción de la dimensión
2. Relación lineal simultanea de muchas variables
3. Proyección ortogonal en un espacio de menor dimensión
4. Transformación de un conjunto de variables
correlacionadas en un conjunto nuevo de variables
incorrelacionadas.
5. Obtención de nuevas variables que concentren la mayor
cantidad posible de información.
Idea clave
Proyección de los puntos en un espacio de menor
dimensión, pero que la distribución de los puntos sufran la
menor distorsión posible
ℝ 3 ℝ2
Cantidad de información = Varianza
1. S − 𝜆I = 0 A = 𝑎1 , 𝑎2 , … , 𝑎𝑝
Z = XA
2. S − 𝜆𝑗 I 𝑎𝑗 = 0
Calcular los componentes principales equivale a
𝑎𝑖 son vectores unitarios aplicar una transformación ortogonal A a las
(autovectores) variables X para obtener unas nuevas
variables Z incorrelacionadas entre sí.
𝑎𝑗 = 1 𝑗 = 1, 2, … , 𝑝
Ejemplo
Sea: 𝑎11
2.4 3.9 => S − 𝜆1 I 𝑎1 = 0 𝑎1 = 𝑎
X = −0.1 3.4 3 − 2 21
=> S=
3.3 1.3 − 2 2 𝑎11 𝑎1 = 1
S − 4I 𝑎21 = 0
=> S − 𝜆I = 3 − 𝜆 − 2 =0
− 2 2−𝜆 −𝑎11 − 2𝑎21 = 0 6 3
=> 𝑎11 = 𝑎21 =
2
𝑎11 2
+ 𝑎21 =1 3 3
3−𝜆 2−𝜆 −2=0
6 3
𝜆2 − 5𝜆 + 4 = 0 −
𝑎1 = 3 𝑎2 = 3
3 6
𝜆1 = 4 𝜆2 = 1
3 3
Ejemplo
A = 𝑎1 , 𝑎2 , … , 𝑎𝑝 Z = XA
6 3
6 3 2.4 3.9 −
− => Z = −0.1 3.4 3 3
=> A = 3 3
3 6 3.3 1.3 3 6
3 3 3 3
• Varianza total
𝑝 𝑝
𝑡𝑟 S = 𝑆𝑗2 = 𝜆𝑗 = 𝑡𝑟(SZ )
𝑗=1 𝑗=1
• Varianza generalizada
𝑝
S = ෑ 𝜆𝑗 = SZ
𝑗=1
Propiedades de los componentes
Si un valor propio añade poco al valor total de la suma, entonces, la componente es una
dimensión con muy poca información, que se puede obviar.
Propiedades de los componentes
3. Las covarianzas entre cada componente principal y las variables originales
están representadas por la siguiente relación:
1
𝐶𝑜𝑣 𝑧, 𝑥 = Z′ X
𝑛−1
Ejercicio
• Probar que:
𝐶𝑜𝑣 𝑧, 𝑥 = SZ A′
σ𝑝j=1 𝜆j
𝜆ℎ > 𝜆 =
𝑝
𝑝
Si las variables originales están estandarizadas, σ𝑗=1 𝜆𝑗 = 𝑝, por lo
que la media de la inercia es igual a 1. Se retendrán los factores
cuya inercia sea mayor que 1.
Gráfico de sedimentación
i (autovalor)
1 -
2
3
4 -
5
6
| | | | |
1 2 3 4 5 6 Nº de
componente
Ejercicio
• Si en lugar de usar la matriz de covarianzas de las variables originales,
usamos la matriz de correlaciones, calcular
𝜆𝑗
𝑗=1
Análisis de Correspondencias
Ideas clave
1. Reducción de la dimensión
2. Relaciones entre variables categóricas
3. Tablas de contingencia
4. Distancias chi-cuadrado
5. Mapas perceptuales
Clasificación del Análisis de correspondencia
Análisis de correspondencia
ANÁLISIS DE ANÁLISIS DE
CORRESPONDENCIAS CORRESPONDENCIAS
SIMPLES MÚLTIPLES
𝑓𝑖𝑗 = 𝑛
𝑖=1 𝑗=1
Observación!
𝐼 puntos en ℝ 𝑘 𝐽 puntos en ℝ𝑘
𝑘 = 𝑚𝑖𝑛 𝐼 − 1 , (𝐽 − 1)
𝑓11 𝑓12 … 𝑓1𝐽 𝑐11 𝑐12 … 𝑐1𝐽
𝑓21 𝑓22 … 𝑓2𝐽 𝑐21 𝑐22 … 𝑐2𝐽
𝐹= 𝐶= ⋮ ⋮ ⋱ ⋮
⋮ ⋮ ⋱ ⋮
𝑓𝐼1 𝑓𝐼2 … 𝑓𝐼𝐽 𝑐𝐼1 𝑐𝐼2 … 𝑐𝐼𝐽
Estadística chi-cuadrado
𝐼 𝐽 2 𝐼 𝐽 2 𝐼 𝐽
𝑓𝑖𝑗 − 𝑒𝑖𝑗 𝑓𝑖𝑗 − 𝑒𝑖𝑗
𝜒2 = = = 𝑐𝑖𝑗 2
𝑒𝑖𝑗 𝑒𝑖𝑗
𝑖=1 𝑗=1 𝑖=1 𝑗=1 𝑖=1 𝑗=1
Frecuencia esperada
𝑓𝑖. 𝑓.𝑗
𝑒𝑖𝑗 =
𝑛
Descomposición en valores
singulares
𝑐11 𝑐12 … 𝑐1𝐽
𝑐21 𝑐22 … 𝑐2𝐽
𝐶= ⋮ ⋮ ⋱ ⋮ 𝐶 = 𝑈𝐷𝑉′
𝑐𝐼1 𝑐𝐼2 … 𝑐𝐼𝐽
𝑈′𝑈 = 𝑉 ′𝑉 = 𝐼
𝐼 puntos en ℝ𝑘 𝐽 puntos en ℝ𝑘
−1/2 −1/2
𝐴= 𝐷𝐼 𝑈𝐷 𝐵= 𝐷𝐽 𝑉𝐷
𝑘 = 𝑚𝑖𝑛 𝐼 − 1 , (𝐽 − 1)
Proporción de inercia explicada
𝜆2𝑖
𝐼𝐸𝑖 = 𝑖 = 1, 2, … , 𝑘
σ𝑘𝑗=1 𝜆𝑗2
La proporción de inercia acumulada explicada por las primeras
dimensiones ayudan a decidir el número mínimo de dimensiones
necesario para explicar dichas dependencias.
Análisis Factorial
Ideas clave
que establece que la matriz de covarianzas de los datos observados admite una descomposición como suma
de dos matrices:
(1) La primera, es una matriz simétrica de rango m < p. Esta matriz contiene la parte común al conjunto de
las variables y depende de las covarianzas entre las variables y los factores.
(2) La segunda, es diagonal, y contiene la parte específica de cada variable, que es independiente del resto.
Comunalidad
• Esta descomposición implica que las varianzas de las variables
observadas pueden descomponerse como:
Ho: 𝑅 = 𝐼
𝑛: 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
𝜒 2 = −ln( 𝑅 )(𝑛 − 1 − 2𝑝 + 5 /6) 𝑝: 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠
• QUARTIMAX: Rotar los factores de tal forma que una variable pese
tan alto sobre un factor y tan bajo como sea posible en otro factor.
• OBLIMIN Y PROMAX
• Similares a la rotación ortogonal, solo que las oblicuas permiten la
existencia de factores correlacionados en lugar de mantener la
independencia entre los factores rotados.
Análisis Cluster
Ideas clave
1. Agrupación de casos
2. Similitud de casos
3. Grupos homogéneos
4. Distancia entre dos puntos
Conceptos
• Cluster: un número de cosas o personas similares o
cercanas, agrupadas.
60