GIDDEA - Estadística Matemática - Nivel III - Sesión 2 PDF

También podría gustarte

Está en la página 1de 61

Estadística Matemática

Nivel III
Técnicas Multivariantes

Kesber Angulo
Algunas Técnicas
Multivariantes

• Análisis de componentes principales


• Análisis de correspondencias simple y múltiple
• Análisis factorial
• Análisis clúster
Análisis de Componentes
Principales
Ideas clave

1. Reducción de la dimensión
2. Relación lineal simultanea de muchas variables
3. Proyección ortogonal en un espacio de menor dimensión
4. Transformación de un conjunto de variables
correlacionadas en un conjunto nuevo de variables
incorrelacionadas.
5. Obtención de nuevas variables que concentren la mayor
cantidad posible de información.
Idea clave
Proyección de los puntos en un espacio de menor
dimensión, pero que la distribución de los puntos sufran la
menor distorsión posible

ℝ 3 ℝ2
Cantidad de información = Varianza

• Como medida de la cantidad de información incorporada


en una variable se utiliza su varianza.

• Cuanto mayor sea la varianza de una variable, mayor es


la información incorporada a dicha variable.
Recordar!
1
Matriz de variables originales Matriz de covarianzas S= X ′ PX
𝑛−1
𝑥11 𝑥12 … 𝑥1𝑝 𝑆12 𝑆12 … 𝑆1𝑝
𝑥21 𝑥22 … 𝑥2𝑝 1 ′
X= 𝑆21 𝑆22 … 𝑆2𝑝 P = I − 11
⋮ ⋮ ⋱ ⋮ S= 𝑛
⋮ ⋮ ⋱ ⋮
𝑥𝑛1 𝑥𝑛2 … 𝑥𝑛𝑝
𝑆𝑝1 𝑆𝑝2 … 𝑆𝑝2

Matriz de variables estandarizadasX𝑠𝑡 = PXD−1/2 Matriz de correlaciones R = D−1/2 SD−1/2


𝑥𝑠𝑡11 𝑥𝑠𝑡12 … 𝑥𝑠𝑡1𝑝 1 𝑟12 … 𝑟1𝑝
𝑥𝑠𝑡21 𝑥𝑠𝑡22 … 𝑥𝑠𝑡2𝑝 𝑟21 1 … 𝑟2𝑝
X𝑠𝑡 = ⋱ ⋮ R= ⋮ ⋮
⋮ ⋮ ⋱ ⋮
𝑥𝑠𝑡𝑛1 𝑥𝑠𝑡𝑛2 … 𝑥𝑠𝑡𝑛𝑝 𝑟𝑝1 𝑟𝑝2 … 1
Cálculo de las componentes
La componentes se hallan resolviendo
las siguientes ecuaciones:

1. S − 𝜆I = 0 A = 𝑎1 , 𝑎2 , … , 𝑎𝑝

Z = XA
2. S − 𝜆𝑗 I 𝑎𝑗 = 0
Calcular los componentes principales equivale a
𝑎𝑖 son vectores unitarios aplicar una transformación ortogonal A a las
(autovectores) variables X para obtener unas nuevas
variables Z incorrelacionadas entre sí.
𝑎𝑗 = 1 𝑗 = 1, 2, … , 𝑝
Ejemplo
Sea: 𝑎11
2.4 3.9 => S − 𝜆1 I 𝑎1 = 0 𝑎1 = 𝑎
X = −0.1 3.4 3 − 2 21
=> S=
3.3 1.3 − 2 2 𝑎11 𝑎1 = 1
S − 4I 𝑎21 = 0
=> S − 𝜆I = 3 − 𝜆 − 2 =0
− 2 2−𝜆 −𝑎11 − 2𝑎21 = 0 6 3
=> 𝑎11 = 𝑎21 =
2
𝑎11 2
+ 𝑎21 =1 3 3
3−𝜆 2−𝜆 −2=0
6 3
𝜆2 − 5𝜆 + 4 = 0 −
𝑎1 = 3 𝑎2 = 3
3 6
𝜆1 = 4 𝜆2 = 1
3 3
Ejemplo

A = 𝑎1 , 𝑎2 , … , 𝑎𝑝 Z = XA
6 3
6 3 2.4 3.9 −
− => Z = −0.1 3.4 3 3
=> A = 3 3
3 6 3.3 1.3 3 6
3 3 3 3

2.4 3.9 0.3 4.6


X = −0.1 3.4 => Z = 2.0 2.7
3.3 1.3 −1.9 2.9
Matrices de covarianzas

Matriz de covarianzas de las variables Matriz de covarianzas de las


originales componentes

𝑆12 𝑆12 … 𝑆1𝑝 𝜆1 0 … 0


𝑆21 𝑆22 … 𝑆2𝑝 0 𝜆2 … 0
S= SZ =
⋮ ⋮ ⋱ ⋮ ⋮ ⋮ ⋱ ⋮
𝑆𝑝1 𝑆𝑝2 … 𝑆𝑝2 0 0 … 𝜆𝑝
Propiedades de los componentes

1. Conservan la variabilidad inicial

• Varianza total
𝑝 𝑝

𝑡𝑟 S = ෍ 𝑆𝑗2 = ෍ 𝜆𝑗 = 𝑡𝑟(SZ )
𝑗=1 𝑗=1

• Varianza generalizada
𝑝

S = ෑ 𝜆𝑗 = SZ
𝑗=1
Propiedades de los componentes

2. La proporción de variabilidad explicada por un componente es el cociente


entre su valor propio correspondiente y la suma de los valores propios de
la matriz.

Variabilidad explicada del


𝜆ℎ
𝑝
componente h
σ𝑗=1 𝜆𝑗

Si un valor propio añade poco al valor total de la suma, entonces, la componente es una
dimensión con muy poca información, que se puede obviar.
Propiedades de los componentes
3. Las covarianzas entre cada componente principal y las variables originales
están representadas por la siguiente relación:

1
𝐶𝑜𝑣 𝑧, 𝑥 = Z′ X
𝑛−1
Ejercicio

• Probar que:
𝐶𝑜𝑣 𝑧, 𝑥 = SZ A′

donde A contiene en columnas los vectores


propios de S y SZ es la matriz de covarianzas de
las componentes
Importante!

• Mientras más correlacionadas estén las variables


originales entre sí, más alta será la variabilidad que se
pueda explicar con menos componentes.

• Si existiera incorrelación, el ACP carecería de sentido, ya


que las variables originales y las componentes o nuevas
variables coincidirían.
Elección del número de componentes
Criterio de la media aritmética:

Se seleccionan las componentes cuya varianza (valor propio) o


inercia asociada a cada componente, exceda de la media de las
raíces características. Por tanto, se debe verificar que

σ𝑝j=1 𝜆j
𝜆ℎ > 𝜆 =
𝑝
𝑝
Si las variables originales están estandarizadas, σ𝑗=1 𝜆𝑗 = 𝑝, por lo
que la media de la inercia es igual a 1. Se retendrán los factores
cuya inercia sea mayor que 1.
Gráfico de sedimentación
i (autovalor)
1 -

2
3
4 -
5
6

| | | | |
1 2 3 4 5 6 Nº de
componente
Ejercicio
• Si en lugar de usar la matriz de covarianzas de las variables originales,
usamos la matriz de correlaciones, calcular

෍ 𝜆𝑗
𝑗=1
Análisis de Correspondencias
Ideas clave

1. Reducción de la dimensión
2. Relaciones entre variables categóricas
3. Tablas de contingencia
4. Distancias chi-cuadrado
5. Mapas perceptuales
Clasificación del Análisis de correspondencia

Análisis de correspondencia

ANÁLISIS DE ANÁLISIS DE
CORRESPONDENCIAS CORRESPONDENCIAS
SIMPLES MÚLTIPLES

Tablas bidimensionales Tablas multidimensionales


¿Qué es el Análisis de Correspondencias?

• El Análisis de Correspondencias es una técnica estadística


que se utiliza para analizar, desde un punto de vista
gráfico, las relaciones de un conjunto de variables
categóricas a partir de los datos de una tabla de
contingencia.
¿Qué es el Análisis de Correspondencias?

• Es una técnica descriptiva para representar tablas de


contingencia, es decir, tablas donde se recoja las frecuencias
de aparición de dos o mas variables categóricas.

• Es una técnica exploratoria de interdependencia que


posiciona las categorías de las variables en un espacio de
pocas dimensiones, de modo que las distancias entre los
puntos expresan el grado de correspondencia entre las
categorías de las variables
Tabla de contingencia

Tabla de frecuencias relativas


𝐶1 𝐶2 … 𝐶𝐽
𝐹1 f11 f12 … 𝑓1𝐽 f1. 𝑓11 𝑓12 … 𝑓1𝐽
𝐹2 f 21 f 22 … 𝑓2𝐽 f 2. 𝑓21 𝑓22 … 𝑓2𝐽
𝐹=
⋮ ⋮ ⋱ ⋮
𝐹𝐼 𝑓𝐼1 𝑓𝐼2 … 𝑓𝐼𝐽 𝑓𝐼. 𝑓𝐼1 𝑓𝐼2 … 𝑓𝐼𝐽
f .1 𝑓.2 … 𝑓.𝐽 𝑛 𝐼 𝐽

෍ ෍ 𝑓𝑖𝑗 = 𝑛
𝑖=1 𝑗=1
Observación!

• La matriz F puede considerarse por filas


o por columnas.
• Cualquier análisis lógico de esta matriz
𝑓11 𝑓12 … 𝑓1𝐽 debe de ser equivalente al aplicado a su
𝑓21 𝑓22 … 𝑓2𝐽 transpuesta, ya que la elección de la
𝐹= variable que se coloca en filas, en lugar
⋮ ⋮ ⋱ ⋮ de en columnas, es arbitraria, y no debe
𝑓𝐼1 𝑓𝐼2 … 𝑓𝐼𝐽 influir en el análisis.
• Vamos a presentar primero el análisis
por filas de esta matriz, que será
simétrico al análisis por columnas.
El Análisis de Correspondencias busca encontrar 2 matrices
de coordenadas cartesianas

𝑎11 𝑎12 … 𝑎1𝑘 𝑏11 𝑏12 … 𝑏1𝑘


𝑎21 𝑎22 … 𝑎2𝑘 𝑏21 𝑏22 … 𝑏2𝑘
𝐴= ⋮ ⋮ ⋱ ⋮ 𝐵=
⋮ ⋮ ⋱ ⋮
𝑎𝐼1 𝑎𝐼2 … 𝑎𝐼𝑘 𝑏𝐽1 𝑏𝐽2 … 𝑏𝐽𝑘

𝐼 puntos en ℝ 𝑘 𝐽 puntos en ℝ𝑘

𝑘 = 𝑚𝑖𝑛 𝐼 − 1 , (𝐽 − 1)
𝑓11 𝑓12 … 𝑓1𝐽 𝑐11 𝑐12 … 𝑐1𝐽
𝑓21 𝑓22 … 𝑓2𝐽 𝑐21 𝑐22 … 𝑐2𝐽
𝐹= 𝐶= ⋮ ⋮ ⋱ ⋮
⋮ ⋮ ⋱ ⋮
𝑓𝐼1 𝑓𝐼2 … 𝑓𝐼𝐽 𝑐𝐼1 𝑐𝐼2 … 𝑐𝐼𝐽

Estadística chi-cuadrado
𝐼 𝐽 2 𝐼 𝐽 2 𝐼 𝐽
𝑓𝑖𝑗 − 𝑒𝑖𝑗 𝑓𝑖𝑗 − 𝑒𝑖𝑗
𝜒2 = ෍෍ = ෍෍ = ෍ ෍ 𝑐𝑖𝑗 2
𝑒𝑖𝑗 𝑒𝑖𝑗
𝑖=1 𝑗=1 𝑖=1 𝑗=1 𝑖=1 𝑗=1

Frecuencia esperada
𝑓𝑖. 𝑓.𝑗
𝑒𝑖𝑗 =
𝑛
Descomposición en valores
singulares
𝑐11 𝑐12 … 𝑐1𝐽
𝑐21 𝑐22 … 𝑐2𝐽
𝐶= ⋮ ⋮ ⋱ ⋮ 𝐶 = 𝑈𝐷𝑉′
𝑐𝐼1 𝑐𝐼2 … 𝑐𝐼𝐽

𝑈′𝑈 = 𝑉 ′𝑉 = 𝐼

𝑈: Matriz de orden 𝐼 × 𝑘 𝐷 = 𝑑𝑖𝑎𝑔(𝜆1 , 𝜆2 , … , 𝜆𝑘 )


Valores singulares
𝑉: Matriz de orden 𝐽 × 𝑘
𝑘 = 𝑚𝑖𝑛 𝐼 − 1 , (𝐽 − 1)
𝑎11 𝑎12 … 𝑎1𝑘 𝑏11 𝑏12 … 𝑏1𝑘
𝑎21 𝑎22 … 𝑎2𝑘 𝑏21 𝑏22 … 𝑏2𝑘
𝐴= ⋮ ⋮ ⋱ ⋮ 𝐵=
⋮ ⋮ ⋱ ⋮
𝑎𝐼1 𝑎𝐼2 … 𝑎𝐼𝑘 𝑏𝐽1 𝑏𝐽2 … 𝑏𝐽𝑘

𝐼 puntos en ℝ𝑘 𝐽 puntos en ℝ𝑘

−1/2 −1/2
𝐴= 𝐷𝐼 𝑈𝐷 𝐵= 𝐷𝐽 𝑉𝐷

𝐷𝐼 = 𝑑𝑖𝑎𝑔(𝑓1. , 𝑓2. , … , 𝑓𝐼. ) 𝐷𝐼 = 𝑑𝑖𝑎𝑔(𝑓.1 , 𝑓.2 , … , 𝑓.𝐽 )

𝑘 = 𝑚𝑖𝑛 𝐼 − 1 , (𝐽 − 1)
Proporción de inercia explicada

La proporción de inercia explicada por cada una de


las dimensiones ayudan a calibrar la importancia de cada una de
las dimensiones a la hora de explicar las dependencias observadas.

𝜆2𝑖
𝐼𝐸𝑖 = 𝑖 = 1, 2, … , 𝑘
σ𝑘𝑗=1 𝜆𝑗2
La proporción de inercia acumulada explicada por las primeras
dimensiones ayudan a decidir el número mínimo de dimensiones
necesario para explicar dichas dependencias.
Análisis Factorial
Ideas clave

1. Técnica Exploratoria que me permite agrupar variables.


2. Variables no observables. Variables latentes. Factores
3. Los factores son agrupaciones de las variables originales
¿Qué es el Análisis Factorial?
• El análisis factorial es una técnica utilizada para descubrir
agrupaciones de variables de tal forma que las variables de cada
grupo están altamente correlacionadas, y los grupos están
relativamente incorrelacionados.
• De este modo se consigue reducir un número de variables
intercorrelacionadas a un número inferior de factores no
correlacionados, que permiten explicar la mayor parte de variabilidad
de cada una de las variables.
Objetivo del Análisis Factorial
• El objetivo principal es definir la estructura
subyacente en una matriz de datos.
• Generalmente hablando, aborda el problema de cómo
analizar la estructura de las interrelaciones
(correlaciones) de un gran número de variables
El modelo factorial

Cada variable se expresa como una combinación lineal de los factores


Propiedades
• La matriz de carga Λ contiene las covarianzas entre los factores y las variables
observadas.

• Los factores están incorrelacionados y tienen media cero; y están


incorrelacionados con las perturbaciones
Propiedades
• La matriz de covarianzas entre las observaciones verifica:

que establece que la matriz de covarianzas de los datos observados admite una descomposición como suma
de dos matrices:
(1) La primera, es una matriz simétrica de rango m < p. Esta matriz contiene la parte común al conjunto de
las variables y depende de las covarianzas entre las variables y los factores.
(2) La segunda, es diagonal, y contiene la parte específica de cada variable, que es independiente del resto.
Comunalidad
• Esta descomposición implica que las varianzas de las variables
observadas pueden descomponerse como:

donde el primer término es la suma de los efectos de los factores y el segundo el


efecto de la perturbación.
A la suma de los efectos de los factores que llamaremos comunalidad
Supuestos

• Las variables teóricamente deberían ser de tipo numéricas. En la


práctica, se podría trabajar con variables de por los menos de escala
ordinal.
• Las variables deben estar relacionadas, sino están relacionadas no
podría crear factores.
Test de esfericidad de Bartlett
• La prueba de esfericidad de Bartlett contrasta la hipótesis nula de que
la matriz de correlaciones es una matriz identidad, en cuyo caso no
existirían correlaciones significativas entre las variables y el modelo
factorial no sería pertinente.

Ho: 𝑅 = 𝐼

𝑛: 𝑡𝑎𝑚𝑎ñ𝑜 𝑑𝑒 𝑙𝑎 𝑚𝑢𝑒𝑠𝑡𝑟𝑎
𝜒 2 = −ln( 𝑅 )(𝑛 − 1 − 2𝑝 + 5 /6) 𝑝: 𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠

Éste estadístico se distribuye asintóticamente según una 𝑅: 𝑀𝑎𝑡𝑟𝑖𝑧 𝑑𝑒 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖𝑜𝑛𝑒𝑠


distribución 𝜒 2 con p(p-1)/2 grados de libertad
KMO
• La medida de adecuación de la muestra MSA o KMO (Kaiser-Meyer-Olkin)
contrasta si las correlaciones parciales entre las variables son suficientemente
pequeñas. El estadístico KMO varía entre 0 y 1.

σ𝑖≠𝑗 𝑟𝑖𝑗2 𝑟𝑖𝑗 = 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑠𝑖𝑚𝑝𝑙𝑒


𝐾𝑀𝑂 =
σ𝑖≠𝑗 𝑟𝑖𝑗2 + σ𝑖≠𝑗 𝑎𝑖𝑗
2 𝑎𝑖𝑗 = 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑝𝑎𝑟𝑐𝑖𝑎𝑙

Kaiser propuso en 1974 el


siguiente criterio para
decidir sobre la adecuación
del análisis factorial de un
conjunto de datos:
Recordar!
• El coeficiente de correlación parcial:

• Se utiliza como un indicador que muestra la fuerza de las relaciones


entre dos variables eliminando la influencia de las otras variables.
Estos coeficientes deben tender a ser próximos a cero cuando se
danlas condiciones para el análisis factorial.
Unicidad del modelo
Rotación de factores
  f = *  f *

Matriz ortogonal Matriz “oblicua”


Rotación de factores
• Para facilitar la interpretación de los factores se realizan lo que se
denominan rotaciones factoriales.
• La rotación factorial pretende seleccionar la solución mas sencilla e
interpretable.
• Consiste en hacer girar los ejes de coordenadas que representan a los
factores, hasta conseguir que se aproxime al máximo a las variables en que
están saturados.
• La saturación de factores transforma la matriz factorial inicial en otra
denominada matriz factorial rotada, de más fácil interpretación.
• La matriz factorial es una combinación lineal de la primera y explica la
misma varianza.
• Las comunalidades no se alteran, sin embrago, cambia la varianza explicada
por cada factor.
Tipos de Rotación Ortogonal

• QUARTIMAX: Rotar los factores de tal forma que una variable pese
tan alto sobre un factor y tan bajo como sea posible en otro factor.

• VARIMAX: Se alcanza la máxima simplificación posible (0, 1)

• EQUAMAX: Esta a medio camino entre las dos aproximaciones


anteriores. En lugar de concentrarse bien en la simplificación, es un
mix entre ambas aproximaciones. Raramente se utiliza este método.
Tipos de Rotación No Ortogonal

• OBLIMIN Y PROMAX
• Similares a la rotación ortogonal, solo que las oblicuas permiten la
existencia de factores correlacionados en lugar de mantener la
independencia entre los factores rotados.
Análisis Cluster
Ideas clave

1. Agrupación de casos
2. Similitud de casos
3. Grupos homogéneos
4. Distancia entre dos puntos
Conceptos
• Cluster: un número de cosas o personas similares o
cercanas, agrupadas.

• Clustering: es el proceso de particionar un conjunto


de objetos (datos) en un conjunto de sub-clases con
cierto significado.
Análisis Clúster

⚫ Conjunto de técnicas que se utilizan para agrupar los objetos o


casos en grupos relativamente homogéneos llamados conglomerados
(clúster).

⚫ Los objetos en cada conglomerado tienden a ser similares entre sí,


alta homogeneidad interna, y diferentes a los objetos de los otros
grupos, alta heterogeneidad externa, con respecto a algún criterio
de selección predeterminado.

Es un método descriptivo para interpretar un conjunto de datos!


Algunos procedimientos usuales

⚫ Método Jerárquico: Este procedimiento procura identificar grupos relativamente


homogéneos de casos (o de variables) basados en características seleccionadas. El análisis
comienza con tantos conglomerados como individuos, a partir de estas unidades iniciales
se forman nuevos conglomerados de dos individuos en forma ascendente; se recomienda
para una cantidad de registros pequeña (n < 100).
⚫ Método K – Medias (No Jerárquico): Este procedimiento procura identificar grupos
relativamente homogéneos de casos basados en características seleccionadas, usando un
algoritmo que pueda manejar una gran cantidad de casos. Sin embargo, el algoritmo le
requiere especificar el número de grupos. (n > 100)
Métodos de agrupamiento
Dendograma
• Un dendograma muestra como se mezclan los clusters de manera que
cortando el dendograma en diferentes niveles se consiguen diferentes
clusters
Clustering jerárquico
Clustering jerárquico
Métodos no Jerárquicos

• Dado K (número de clusters) y el conjunto de datos n:


1. Arbitrariamente elegir K objetos como centros iniciales
de cluster (semillas)
2. Repetir:
3. (re)asignar cada objeto al cluster con el cual el objeto sea
más similar, basándose en el valor medio de los objetos del
cluster
4. Actualizar los valores medios del cluster (centroides), es
decir calcular el valor medio de los objetos para cada cluster
5. Hasta que no se produzcan cambios (convergencia)
K-medias
FASES DEL MÉTODO

1. Partición de los datos (cómo buscar los grupos):


a. Seleccionar medida de similitud (distancia)
b. Aplicar algoritmo para buscar los grupos
c. Determinar el número de grupos adecuado
2. Interpretación de resultados (etiquetar)
3. Validación y evaluación de los resultados

60

También podría gustarte