Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Anónimo
Análisis Multivariante
2º Grado en Estadística
Facultad de Ciencias
Universidad de Salamanca
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
ANÁLISIS DE LA ESTRUCTURA DE GRUPOS
- Objetivo general: Estudiar las diferencias entre los grupos y caracterizarlas mediante
técnicas multivariantes.
o Necesitamos un nuevo grupo de técnicas ya que, en general, las direcciones de
máxima variabilidad no coinciden con las direcciones de máxima separación entre
grupos.
Para un experimento diseñado, la hipótesis de que no hay efecto de los tratamientos es:
𝐻0 : 𝛼1 = 𝛼2 = ⋯ = 𝛼𝑔 = 0
𝐻𝑎 : ∃𝑘, 𝛼𝑘 ≠ 0
- 𝑄 = 𝑄ℎ + 𝑄𝑒
𝑟
- 𝑄ℎ = ∑𝑖=1 𝑛𝑖 (𝑥̅𝑖 − x̅)2
𝑔
𝑛𝑖 2
- 𝑄𝑒 = ∑ ∑ (𝑥𝑖𝑗 − 𝑥̅𝑖)
𝑗=1
𝑖=1
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1618237
2
- Matriz de medias
1
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
o 𝑋1 = (𝑥𝑖𝑗 ) → x̅1 = (x̅11 , … , x̅1𝑝 )
2
o 𝑋2 = (𝑥𝑖𝑗 ) → x̅ 2 = (x̅ 21, … , x̅ 2𝑝 )
o …
𝑔
o 𝑋𝑔 = (𝑥𝑖𝑗 ) → x̅𝑔 = (x̅𝑔1 , … , x̅𝑔𝑝 )
̅ ̅ i1 , … , ̅
X = (X X ip )’
̅, 𝑄𝑒 = 𝑄𝑡 − 𝑄ℎ
̅𝐷𝑔 X
𝐷𝑔 = 𝑑𝑖𝑎𝑔(𝑛1 , … , 𝑛𝑔 ), 𝑄𝑡 = 𝑋 ′ 𝑋, 𝑄ℎ = X
1
𝑆= ∑𝑔𝑘=1(𝑛𝑘 − 1) 𝑆𝑘 , 𝑛 = ∑𝑔𝑘=1 𝑛𝑘
𝑛−𝑔
𝑄ℎ 𝑄ℎ
𝐻= ,𝑆 =
𝑔−1 𝑛−𝑔
Dentro/Error 𝑘
n-g 𝑄𝑒
𝑆𝑒2 =
𝑄𝑒 = ∑(𝑛𝑖 − 1)𝑆𝑖 = 𝑄𝑡 − 𝑄ℎ 𝑛−𝑔
𝑖=1
- Tests multivariantes:
o Roy statistic: La mayor raíz característica de |𝐻 − 𝜆𝑆| que es el mayor valor propio de
𝐻𝑆 −1 .
o Lawley and Hotteling: 𝑇 = 𝑡𝑟𝑎𝑜𝑒(𝐻𝑆 −1 ) = ∑𝑠𝑖=1 𝜆𝑖 , 𝑠 = min −1, 𝑝)
|𝑆| 𝑝−𝑔+2
o Wilk’s 𝛬-statistic: 𝛬𝑝,𝑔−1,𝑛−𝑔 = |𝐻+𝑆|
= |𝑆(𝐻 + 𝑆)−1 | = ∏𝑠𝑖=1 𝜆𝑖 , −((𝑛 − 𝑔) )𝑙𝑛𝛬 ≈
2
2
𝜒𝑝(𝑔−1)
1
1 − 𝛬𝑏 (𝑎𝑏 − 𝑐)
1 ≈ 𝐹𝑝(𝑔−1),𝑎𝑏−𝑐
𝛬𝑏 𝑝(𝑔 − 1)
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
𝑝−𝑔+2
• 𝑎 = (𝑛 − 𝑔) −
2
𝑝2 (𝑔−1)2 −4
• 𝑏=√
𝑝2 +(𝑔−1)2 −5
𝑝(𝑔−1)−2
• 𝑐=
2
𝑠
𝜆𝑖
o Pillai statistic: 𝑉 = 𝑡𝑟𝑎𝑜𝑒[𝐻(𝐻 + 𝑆)−1 ] = ∑
𝑖=1 1+𝜆𝑖
- ¿Por qué utilizamos MANOVA y no 18 ANOVAS?
o Trabaja con todas las variables simultáneamente
buscando una combinación lineal de las
variables que tenga la F de Snedecor univariante
máxima.
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
1
o O bien si tomamos 𝑊 = (x̅1 − x̅ 2 )‘𝑆 −1 𝑥 − (x̅1 − x̅ 2 )’𝑆 −1 (x̅1 + x̅ 2 ) la regla es, asignar a la
2
población 1 si 𝑊 > 0 y sino, asignar a la población 2.
- Distancia de Mahalanobis: La distancia de Mahalanobis (al cuadrado) entre dos individuos
con vectores de observaciones x y z, es 𝑑𝑀 2
= 𝑑𝑀 2 (𝑥,
𝑧) = (𝑥 − 𝑧)’𝑆−1 (𝑥 − 𝑧)
o La distancia de Mahalanobis de u individuo al grupo i es la distancia al centroide
del grupo 𝑑𝑀 2
= 𝑑𝑀 2
(𝑥, 𝑥̅ 𝑖 ) = (𝑥 − 𝑥̅ 𝑖 )’𝑆 −1 (𝑥 − 𝑥̅ 𝑖 ) y la distancia entre dos grupos es la
distancia entre sus centroides 𝑑𝑀 2
= 𝑑𝑀 2
(𝑥̅ 𝑖 , 𝑥̅𝑗 ) = (𝑥̅ 𝑖 − 𝑥̅𝑗 )’𝑆 −1 (𝑥̅ 𝑖 − 𝑥̅𝑗 ).
o Propiedades:
▪ La distancia de Mahalanobis tiene en cuenta las correlaciones entre las
variables utilizando sólo la información de cada variable no redundante.
▪ Es invariante por transformaciones no singulares, en particular, por cambios
de escala.
- Interpretación geométrica: Geométricamente el criterio consiste en asignar el individuo a
(𝑥̅ 2 − 𝑥̅ 1 )’𝑆−1 (𝑥̅ 2 + 𝑥̅ 1 ) + 2𝑥’𝑆 −1 (𝑥̅ 2 − 𝑥̅ 1 )’ > 0 que es idéntica a la regla desarrollada
anteriormente.
- Análisis discriminante para más de dos grupos:
o Cuando disponemos de varios grupos tenemos varias posibles reglas de
1
clasificación por parejas 𝑊𝑖𝑗 = (𝑥̅ 𝑖 − 𝑥̅𝑗 )‘𝑆 −1 𝑥 − (𝑥̅ 𝑖 − 𝑥̅𝑗 )‘𝑆 −1 (𝑥̅ 𝑖 + 𝑥̅𝑗 ) aunque una de
2
ellas es redundante.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1618237
5
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
- Matrices de covarianzas distintas: discriminante cuadrático
o Cuando las matrices de covarianzas no son las mismas en los dos grupos y
suponemos que las poblaciones son normales multivariantes, el método de máxima
verosimilitud proporciona el siguiente discriminado cuadrático:
1 1 1 1
𝑄(𝑥) = 𝑥′(𝑆2−1 − 𝑆1−1 )𝑥 − 𝑥’(𝑆1−1 𝑥̅1 − 𝑆2−1 𝑥̅ 2 ) + 𝑥̅ 2 ′𝑆2−1 𝑥̅ 2 − 𝑥̅ 1 ′𝑆1−1 𝑥̅1 + log|𝑆1−1 | > 0
2 2 2 2
- Discriminante logístico: Cuando no se verifican las condiciones de aplicación del análisis
discriminante (distribuciones normales y varianzas iguales) puede utilizarse el denominado
discriminante logístico basado en la regresión logística.
o En este análisis tratamos de estimar la probabilidad de que un individuo pertenezca
a cada uno de los grupos cuando tiene una combinación concreta de variables
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
como 𝑌̅ = X ̅𝑉.
o La proyección de todo el conjunto de individuos sobre el espacio canónico se
calcula como XV.
- Propiedades de las variables canónicas:
o Las distancias euclídeas entre las medias en el espacio de las variables canónicas
coinciden con las distancia de Mahalanobis en el espacio de las variables
originales. Así que el espacio de las variables canónicas se puede pensar como un
Espacio Euclídeo.
o Además, dado que H es la matriz de covarianzas entre los grupos, lo que se obtiene
es la transformacón ortogonal que hace máxima la separación entre los grupos,
pero relativa la variabilidad dentro de estos.
o El Análisis Canónico de Poblaciones puede además considerarse como un análisis
BIPLOT CANÓNICO
- Obtención: Tratamos de obtener una representación simultánea de las filas, que en este
caso son centroides, y de las columnas, de la matriz X̅. Para tener en cuenta el efecto de
la dispersión de los individuos y de las escalas de medida de las variables, introducimos
una ponderación con respecto a la matriz de convarianzas dentro de los grupos y otra
con relación a los tamaños muéstrales, esto debido a que la precisión de las medias
depende del tamaño con el que se han calculado.
o Definimos: ̅ Y = 𝐷1⁄2 ̅
X𝑆 −1/2
o La representación Biplot de la matriz Y ̅ puede obtenerse a partir de su
descomposición en valores iguales, es decir: Y̅ = 𝑃𝛬𝑄 𝑇 .
1
o Despejando X
̅ en la ecuación y sustituyendo Y ̅ = (𝐷−2 𝑃𝛬) (𝑄 𝑇 𝑆 1⁄2 )
̅ tenemos: X
o Se puede entonces obtener el RMP Biplot construyendo los marcadores como:
1
▪ 𝐴 = 𝐷 −2 𝑃𝛬
▪ 𝐵 = 𝑆 1⁄2 𝑄
- Propiedades:
o Los marcadores son A la proyección de X ̅ sobre el espacio de máxima separación
de los grupos, generado por las columnas de la matriz V, y la distancia euclídea
entre dos vectores de medias, en el espacio de las variables canónicas, es
aproximadamente la distancia de Mahalanobis en el espacio de partida.
o Los marcadores A son las coordenadas sobre las combinaciones lineales que
proporcionan la F univariante más grande en el sentido MANOVA
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
∑𝑖=1 𝜆2𝑖
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1618237