Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Mat 142400 Mmulti1011tema3 PDF
Mat 142400 Mmulti1011tema3 PDF
Curso 2010-2011
Índice
1. Introducción 2
1
2 Análisis Multivariante
1. Introducción
En el tema anterior se han estudiado los procedimientos naturales de inferencia sobre el vector de
medias y la matriz de covarianzas, bajo suposición de normalidad en la distribución del vector de
variables observadas.
En este tema veremos una breve introducción a los métodos de contraste de normalidad en obser-
vaciones multivariantes. Empezaremos con un repaso de los métodos de contraste de la normalidad
en el caso univariante. Este será el objeto de la Sección 2, en la cual se podrán fijar algunos concep-
tos y prestar atención singular a los métodos susceptibles de ser extendidos al caso multivariante.
En la Sección 3 se abordan algunos métodos (los más representativos) para el contraste de norma-
lidad multivariante. Están basados en la extensión de las medidas de asimetría, kurtosis, así como
del test de Shapiro-Wilk al caso multivariante.
En este tema, además del objetivo de contraste de normalidad, conseguiremos una mejor compren-
sión de cómo se pueden disponer los datos en el espacio multidimensional.
Es bien conocido que la distribución normal es simétrica en torno a su media. Como además, la
forma más común de desviarse respecto de la normalidad es por falta de simetría, por ejemplo
en variables positivas, parece lógico construir un método de contraste en base a cierta medida de
asimetría.
Histogram of z
6
5
4
Frequency
3
2
1
0
−1 0 1 2 3
Es la media de las potencias cúbicas (también llamado momento de orden tres) de los valores
estandarizados. Al estar estandarizados, habrá observaciones a ambos lados de la media, mante-
niendo un equilibrio (en orden uno). Sin embargo, la potencia tres que se emplea en el coeficiente
de asimetría, rompe el equilibrio en caso de distribución asimétrica. Lo vemos en las Figuras 1 y 2.
A pesar de haber sido simulados con distribución normal, en la Figura 1 hay una leve asimetría
hacia la derecha, lo cual da lugar a un índice de asimetría muestral de 0’3384.
Histogram of x Histogram of x
8 10
8 10
Frequency
Frequency
6
6
4
4
2
2
0
0
0 1 2 3 4 5 6 7 −7 −6 −5 −4 −3 −2 −1 0
x x
Ejemplo 1. Vamos a presentar los resultados del contraste sobre los mismos datos simulados que
se han utilizado para ilustrar las explicaciones anteriores.
A continuación se muestran los valores de los coeficientes de asimetría, los estadísticos de con-
traste y los niveles críticos asociados, para los datos simulados de la distribución normal, de la
exponencial y los opuestos de los datos exponenciales. Como cabía esperar, la pequeña asimetría
muestral de los datos normales no resulta significativa, mientras que sí lo es con los datos expo-
nenciales.
> c(a_normal,a_exponencial,-a_exponencial)
> c(estadistico_normal,estadistico_exponencial,-estadistico_exponencial)
> c(pvalor_normal,pvalor_exponencial,pvalor_exponencial)
Recordemos que las características de posición se calculan mediante un momento de orden uno
(la media), las de dispersión a través de un momento de orden dos (la varianza) y la asimetría con
un momento de orden tres (el coeficiente de asimetría).
Pues bien, la kurtosis se calcula a través del momento de orden cuatro, pues de esta manera se
pueden medir características de forma, que son un refinamiento todavía más detallado en el análisis
de la distribución.
Lo vemos en la Figura 3, en la cual se representan tres distribuciones con la misma media, desviación
típica y asimetría (asimetría cero, pues son simétricas). Son la T de Student con 5 grados de liber-
tad, la normal y la uniforme, ambas con la misma media y desviación típica que la T5 . Para ello, se
√ √ √
toma la normal con media cero y desviación típica 5/3, y la uniforme entre − 5 y 5.
En la Figura 3 vemos que la distribución T de Student es la que presenta una mayor concentración
de probabilidad en las proximidades de la media, así como en las colas (lejanías extremas)1 . Esto
hace que tenga un coeficiente de apuntamiento más grande.
Por el contrario, la distribución uniforme es la que presenta menor densidad en las proximidades de
la media, y carece de colas. En este caso, la densidad es más grande en los valores con desvia-
ciones intermedias (µ − σ) y (µ + σ). Como resultado, el coeficiente de apuntamiento será más
pequeño para la distribución uniforme.
0.3
0.2
yt
0.1
0.0
−6 −4 −2 0 2 4 6
Figura 3: Funciones de densidad normal (trazo azul), T de Student (trazo rojo) y uniforme (trazo
verde). La T de Student tiene cinco grados de libertad, y las distribuciones normal y uniforme han
sido tomadas con la misma media y varianza que la T5 .
Se rechazará la normalidad, en base a la kurtosis, cuando el estadístico anterior sea muy grande
(en positivo o negativo), en comparación con los cuantiles de la N (0, 1).
Ejemplo 2. Vamos a extraer muestras simuladas de tamaño 100 de cada una de las tres distribu-
ciones que se han comentado en esta sección, y cuyas densidades se representan en la Figura 3:
Tema 3. Contraste de la normalidad multivariante 7
Los resultados son los que cabía esperar. Así, el coeficiente de apuntamiento muestral es próximo a
cero para la normal, negativo para la uniforme y positivo para la T5 . Al estandarizarlos, se obtienen
cantidades comparables con la N (0, 1), que arrojan los niveles críticos que aparecen en la última
línea. Las discrepancias más significativas se obtienen con la T5 de Student.
> c(k_normal,k_uniforme,k_tstudent)
> c(estadistico_normal,estadistico_uniforme,estadistico_tstudent)
> c(pvalor_normal,pvalor_uniforme,pvalor_tstudent)
∑
[n/2]
( )
W = ai,n Z(n−i+1):n − Zi:n
i=1
siendo Z1:n < . . . < Zn:n la muestra ordenada de los datos estandarizados y ai,n ciertas constan-
tes. Consiste en calcular las distancias entre los datos de la muestra ordenada, simétricos respecto
de la mediana, esto es, la distancia entre el primero y el último, el segundo y el penúltimo, y así
sucesivamente; en general el Zi:n y el Z(n−i+1):n . El propósito es comparar estas distancias con las
que habría en una muestra de observaciones normales.
Al final, el coeficiente de determinación tiene una relación muy estrecha con el QQ-Plot, pues se
puede interpretar como el coeficiente de determinación de los puntos representados en el QQ-Plot.
8 Análisis Multivariante
Ejemplo 3. Vamos a extraer muestras simuladas de tamaño 100 de cada una de las distribuciones
vistas en las secciones anteriores: normal, exponencial, uniforme y T de Student.
Ciertos parámetros de estas distribuciones, como media, desviación típica u otros, que en las sec-
ciones anteriores se determinaron con el propósito de facilitar la comparación, ahora son irrele-
vantes, porque el test de Shapiro-Wilk comienza con una estandarización de los datos.
La idea es que el test de Shapiro-Wilk es más general, pues permite detectar tanto defectos de
simetría como de kurtosis, o incluso de otro tipo no considerado por los tests anteriores.
En la Figura 4 se representan los cuatro QQ-Plots. El primero de ellos, situado en la esquina su-
perior izquierda, corresponde a los datos simulados de una distribución normal. Hay leves desvia-
ciones respecto de la recta en la cual estarían los datos que coinciden con los cuantiles esperados
bajo normalidad. Estas desviaciones son perfectamente justificables por el azar. Los resultados del
test de Shapiro-Wilk figuran debajo, donde se obtuvo como valor del estadístico 0’9938 y como nivel
crítico 0’931. Se acepta por tanto la normalidad.
> shapiro.test(z)
Shapiro-Wilk normality test
data: z
W = 0.9938, p-value = 0.931
Los dos gráficos inferiores representan distribuciones simétricas. En ambos casos, los cuantiles de
las colas no coinciden con los esperados bajo distribución normal. La diferencia es que la distribu-
ción uniforme tiene un comportamiento más regular, con un conjunto amplio de observaciones que
discrepan de la normalidad. Por el contrario, en la distribución T de Student casi todas las obser-
vaciones se asemejan bastante bien a la distribución normal, mientras que de vez en cuando unas
pocas observaciones pueden adoptar valores extremos incompatibles con la normalidad.
En los tres casos los niveles críticos conducen al rechazo de la normalidad. No reproducimos todas
las salidas, que puede obtener el lector ejecutando el código R, que se acompaña en el anexo a
este tema.
Tema 3. Contraste de la normalidad multivariante 9
5
2
Sample Quantiles
Sample Quantiles
4
1
3
0
2
−1
1
−2
−2 −1 0 1 2 −2 −1 0 1 2
2
0.8
Sample Quantiles
Sample Quantiles
0.6
0
0.4
−2
0.2
−4
0.0
−2 −1 0 1 2 −2 −1 0 1 2
En esta sección veremos cómo se pueden extender los conceptos de asimetría y kurtosis al ca-
so multivariante. Asimismo, también se verá la manera de extender el test de Shapiro-Wilk con
datos multivariantes. Empezamos estudiando ciertos conceptos previos en relación con este tipo
de contrastes.
Sabemos que la normalidad se conserva frente a traslaciones y transformaciones lineales, esto es:
Por tanto, si estamos contrastando que el vector X tenga distribución normal, tanta evidencia habrá
a favor o en contra de esta hipótesis, si empleamos los datos de X como si empleamos los datos
transformados AX + b.
Nos parece que la invariancia es una propiedad deseable para un test de normalidad.
Ahora, si somos libres de transformar los datos, se nos ocurre aplicar la estandarización multivarian-
te, pues es una transformación que los simplifica al suprimirles la media y la matriz de covarianzas.
La idea es que los datos Z1 , . . . , Zn deberían presentar una distribución normal estándar, esto es,
deberían mostrar un aspecto esférico, sin especial predilección por unas direcciones frente a otras,
y con mayor concentración en la zona central.
Las distancias de Mahalanobis de las observaciones al vector de medias se pueden expresar así:
( ) ( )
rii = Xi − X̄ S −1 Xi − X̄ = Zi′ Zi = ∥Zi ∥2
2
(a)
1
(b)
0
−(b)
−1
−2
−3 −2 −1 0 1 2
siendo θij el ángulo que forman las observaciones estandarizadas Zi y Zj en el espacio usual.
En este momento definimos θij como el ángulo de Mahalanobis que forman las observaciones Xi
y Xj en el espacio original.
En la Figura 5 se representa una muestra de observaciones, que han sido estandarizados. Por tan-
to, las distancias y los ángulos de Mahalanobis coinciden con las distancias y ángulos ordinarias en
esta representación. El punto central, representado en color azul, es la posición del vector de me-
dias. En el gráfico se han destacado también dos puntos, denotados por (a) y (b), respectivamente.
Las longitudes de las flechas, que son sus distancias al vector de medias, serían las raíces cuadra-
das de sus valores rii y rjj . El valor rij para este par de puntos sería el producto de las longitudes,
multiplicado por el coseno del ángulo que forman las dos flechas. Así, si el ángulo es de 90 grados,
rij vale cero, si es menor de 90 grados rij es positivo, y si es mayor de 90 grados es negativo. De
este modo, rij refleja si los dos puntos (a) y (b) están del mismo lado o si se encuentran en lados
opuestos. Esto será utilizado en la sección siguiente para definir una medida de asimetría.
Existen diversas formas de definir medidas de asimetría y kurtosis con datos multivariantes. Consi-
deraremos aquí las introducidas por Mardia.
12 Análisis Multivariante
1 ∑∑ 3
n n
Am = rij
n2
i=1 j=1
En la Figura 5 se ofrece una representación que resulta muy útil para interpretar los valores rij .
Como vimos en la sección anterior, rij es positivo si los dos puntos en cuestión, (a) y (b) en el
gráfico, están del mismo lado (ángulo inferior a 90 grados). Por el contrario, rij será negativo si se
encuentran en lados opuestos respecto del vector de medias.
esto es, se cancelan los valores positivos con los negativos, lo cual es muy comprensible, pues el
vector de media ocupa la posición central. Esto también se cumplía en el caso univariante.
Sin embargo, al elevar al cubo los rij , se desequilibra este balance. Para mantener el equilibrio, por
cada punto, como el (b), tendría que haber otro punto, que se representa como -(b) en el gráfico,
situado en la posición contraria a (b) respecto del vector de medias. Los puntos (b) y -(b) tendrían
los mismos valores rij con el resto de la muestra, pero con signos cambiados. Al efectuar cualquier
potencia impar, como el cubo, se cancelarían.
Así, si cada punto de la muestra tuviera otro punto simétrico en la propia muestra, el coeficiente de
asimetría valdría cero. En otro caso, si la simetría se cumple aceptablemente, el coeficiente sería
sólo algo mayor que cero, mientras que si hay un comportamiento claramente distinto en lados
opuestos, el coeficiente de asimetría sería más grande.
En la Figura 6 se presentan seis ejemplos de muestras bivariantes de tamaño 40. Mediante puntos
huecos de color negro se representan los datos muestrales, con un punto relleno de color azul se
representa el vector de medias y con una elipse de color azul se representa la matriz de covarianzas,
siguiendo el procedimiento del documento de Preliminares.
El gráfico (b) contiene 40 puntos situados en una circunferencia centrada en cero. El coeficiente
de asimetría vale cero. El gráfico (a) representa datos simulados de la distribución normal. A nivel
teórico, la distribución normal multivariante tiene un coeficiente de asimetría teórico igual a cero. Sin
embargo, a nivel muestral dicho coeficiente puede ser algo mayor que cero. Los datos del gráfico
(a) presenta un valor de 0’299 para el coeficiente de asimetría multivariante, Am .
En el gráfico (d) se han simulados tres grupos de datos normales multivariantes. Esto hace que la
distribución de la muestra completa no sea normal. De hecho, la presencia de varios grupos es una
Tema 3. Contraste de la normalidad multivariante 13
causa muy común de falta de normalidad. También es común que produzca un efecto de asimetría,
que permite detectar esa falta de normalidad. En este caso, el coeficiente Am ha tomado el valor
2’45.
En el gráfico (e) se representó una muestra simulada cuyas marginales tienen distribución de
Laplace y son independientes. Entonces la distribución teórica es simétrica. Sin embargo el co-
eficiente de asimetría muestral Am tomó el valor 6’14, lo cual es grande. La causa se encuentra en
algunos valores extremos, que son frecuentes en un modelo Laplace, y que desequilibran la mues-
tra. Recordemos que la distribución de Laplace se puede ver como diferencia de dos exponenciales
independientes.
En el gráfico (f) se han simulado observaciones uniformes en el cuadrado unidad. El modelo teórico
es simétrico y de hecho el valor muestral de Am ha sido 0’484.
Como test de normalidad, y dado que la distribución normal es simétrica, rechazaremos la nor-
malidad, por falta de simetría, si el coeficiente Am es demasiado grande, comparado con ciertos
valores tabulados correspondientes a muestras normales. Aproximaremos estos valores por simu-
lación. Los detalles sobre la aplicación práctica del test se encuentran en la sección 3.4.
A la vista de esta definición, el coeficiente de kurtosis está basado únicamente en los valores rii .
2 que
Como rii es el cuadrado de la distancia del dato i-ésimo al vector de medias, los valores rii
figuran en la definición de Km son las potencias cuartas de estas distancias.
Por tanto, el coeficiente Km generaliza la medida de kurtosis al caso multivariante como estas
potencias cuartas de la distancia a la media. De esta manera, para la kurtosis no importará la
dirección o sentido de la desviación respecto de la media, sino únicamente la magnitud de dicha
desviación. Se trata, pues, de detectar si los datos se agrupan en torno a la Media±Desviación
típica, que en el caso multivariante sería la elipse en azul de la Figura 6, o si por el contrario se
agrupan o muy cerca de la media o muy lejos de ésta. Si están cerca de la elipse la kurtosis será
pequeña (distribución platicúrtica), y si están o muy cerca de la media o muy lejos de ella, la kurtosis
será grande y diremos que la distribución es leptocúrtica.
Igual que en el caso univariante, la distribución normal multivariante presenta un valor intermedio de
kurtosis (diríamos que es mesocúrtica). Así, en el gráfico (a) de la Figura 6 el valor del coeficiente
de kurtosis Km es 7’56. Los gráficos (b), (d) y (f) presentan valores menores, serían platicúrticos,
mientras que los gráficos (c) y (e) son leptocúrticos.
Respecto del contraste de normalidad, el test basado en la kurtosis rechazará la normalidad tanto
14 Análisis Multivariante
1.0
1
0.5
0
0.0
−1
−2
−1.0
−2 −1 0 1 2 −1.0 −0.5 0.0 0.5 1.0
16
2.0
14
12
1.0
10
0.0
0 2 4 6 8 10 14 18
0.8
4
2
0.4
0
−4 −2
0.0
para valores demasiado grandes como para valores demasiado pequeños de Km . De nuevo, los
valores críticos están tabulados y los aproximaremos por simulación siguiendo las pautas de la
sección 3.4.
Existen diversas maneras de extender el test de Shapiro-Wilk. Nos centraremos en una idea muy
sencilla, que surge del concepto de invariancia. Así, el vector aleatorio es normal multivariante si y
sólo si su estandarización lo es, esto es:
1∑
d
WV G = Wj
d
j=1
Este estadístico ha sido propuesto por Villasenor Alva y González Estrada (2009).
Se rechazará la normalidad cuando WV G sea pequeño, en comparación con ciertos valores tabula-
dos, que de nuevo podemos aproximar por simulación, según se indica en la sección 3.4, que viene
a continuación.
Para la aplicación práctica de los tests de normalidad multivariante hemos programado tres fun-
ciones en código R, que figuran en los anexos al final del tema:
representa (x,texto) A partir de una matriz x de observaciones bivariantes (dos columnas), obtiene
un gráfico de dispersión, acompañado del vector de media y la matriz de covarianzas.
16 Análisis Multivariante
estadisticos (x) A partir de una matriz x de observaciones multivariantes (con cualquier número
de columnas), calcula los estadísticos Am , Km y WV G .
Para poder emplear estas funciones, habría que ejecutar el código correspondiente a cada una de
ellas. La ejecución de ese código no genera salidas ni cálcuo alguno, sino que “compila" el código,
como paso previo para poder llamar a las funciones.
Para la ejecución de los tests sólo son necesarias las funciones estadisticos y pvalores, mientras
que la función representa sirve para representar los datos en el caso bivariante.
En el último anexo se encuentra el código para la obtención de los seis ejemplos representados en
la Figura 6, así como para el contraste de normalidad sobre ellos.
Este código contiene una parte dedicada a la simulación de las muestras y definición de variables.
Para realizar los tests en otra muestra, no necesariamente obtenida por simulación, bastaría con
ejecutar las funciones:
> estadisticos(x)
> est
> pvalores(d,n,ns,est[1],est[2],est[3])
Sobre los seis ejemplos simulados, comentaremos la salida de resultados para el último ejemplo.
Los demás siguen la misma estructura.
El vector est contiene los valores del coeficiente de asimetría Am , el coeficiente de kurtosis Km y
el estadístico de Shapiro-Wilk multivariante WV G . Los vemos a continuación.
Para saber si estos valores son grandes o pequeños, de cara al contraste de normalidad, se com-
paran con los cuantiles en 10.000 muestras simuladas de una distribución normal. Los resultados
figuran debajo. En primer lugar se presentan los cuantiles. Los órdenes de los cuantiles son 0.01,
Tema 3. Contraste de la normalidad multivariante 17
0.025, 0.05, 0.1, 0.5, 0.9, 0.95, 0.975, 0.99. La mediana es el cuantil 0.5, que sería un valor de
referencia para saber si el estadístico en cuestion (Asimetría, Kurtosis o Shapiro-Wilk) es grande o
pequeño.
Así, la asimetría de esta muestra es 0’484 lo cual es superior a 0’427, que es la mediana bajo nor-
malidad. Por tanto, esta muestra es algo más asimétrica que lo que corresponde bajo normalidad.
Para saber si este resultado es significativo como para rechazar la normalidad, recordamos que se
rechaza la normalidad si la asimetría es grande. Por tanto, el nivel crítico sería la probabilidad que
deja 0’484 a su derecha. Esa probabilidad, nivel crítico, vale 0’4386. Se aproximó por simulación
considerando que 4.386 de las 10.000 muestras simuladas tenían una asimetría superior al valor
0’484 obtenido en la muestra original.
Para la kurtosis, su valor en la muestra original ha sido de 6’22, lo cual es inferior a 7’49, que es
la mediana bajo normalidad. Por tanto, esta distribución es algo más platicúrtica que lo que corre-
spondería bajo normalidad. Para efectuar el contraste recordamos que se rechaza la normalidad
tanto por exceso como por defecto de kurtosis. El valor muestral 6’22 se encuentra entre el cuantil
0’025 y el cuantil 0’05. El nivel crítico unilateral se hallará entre esos dos órdenes, mientras que
el bilateral estará entre 0’05 y 0’10. El cálculo más preciso haciendo el recuento exacto sobre las
muestras simuladas arroja un nivel crítico bilateral aproximado de 0’0948.
> pvalores(d,n,ns,est[1],est[2],est[3])
$tabla
0.01 0.025 0.05 0.1 0.5 0.9
Asimetría 0.03549275 0.05503973 0.0847581 0.1253795 0.4266827 1.0577071
Kurtosis 5.87278811 6.04901296 6.2419949 6.4783751 7.4851531 8.8914292
Shapiro-Wilk 0.94019144 0.94735872 0.9529298 0.9582334 0.9733307 0.9829626
0.95 0.975 0.99
Asimetría 1.327830 1.607430 1.9728774
Kurtosis 9.429676 9.986294 10.6976297
Shapiro-Wilk 0.985076 0.986636 0.9882852
$Niveles_críticos
Asimetría Kurtosis Shapiro-Wilk
0.4386 0.0948 0.0566
18 Análisis Multivariante
Los resultados de los estadísticos y los niveles críticos para los seis ejemplos se obtienen ejecu-
tando el código R del último anexo. Sólo la muestra (a) procede de una distribución normal. Los
tests rechazan la normalidad de las demás muestras, excepto en el caso (f), cuya desviación de la
normalidad es menor.
Al igual que en el caso univariante, el test de Shapiro-Wilk es el mejor como método general de
contraste de normalidad, mientras que los tests basados en la asimetría o la kurtosis son eficaces
para detectar algunas alternativas más específicas.
Bibliografía.
Henze, N. (2002). Invariant tests for multivariate normality: a critical review. Statistical Papers, 43,
467–506.
Mardia, K.V. (1975). Assessment of multinormality and the robustness of Hotelling’s T 2 test. Ap-
plied Statistics, 24, 163–171.
Villasenor Alva, J.A. y González Estrada, E. (2009). A generalization of Shapiro-Wilk test for multi-
variate normality. Communications in Statistics – Theory and Methods, 38, 1870–1883.
Tema 3. Contraste de la normalidad multivariante 19
set.seed(123456)
windows()
par(mfrow=c(1,2))
#--- Generación de observaciones exponenciales
u=runif(n)
x=-log(u)
hist(x)
points(x,rep(0,n))
par(mfrow=c(1,1))
set.seed(123456)
n=100
set.seed(123456)
n=100
windows()
par(mfrow=c(2,2))
z=rexp(n)
qqnorm(z,main="Datos exponenciales")
qqline(z)
shapiro.test(z)
par(mfrow=c(1,1))
representa: Función R que representa datos bivariantes, junto con el vector de me-
dias y la matriz de covarianazas
representa=function(x,texto){
#--- Diagonalización de s
auto=eigen(s)
v=auto$vectors
lambda=auto$values
#--- Representación
Tema 3. Contraste de la normalidad multivariante 23
plot(x,xlab=texto,ylab="")
points(med[1],med[2],pch=19,col="blue")
tita=seq(0,2*pi,length=101) # Vector con los ángulos
medr=matrix(rep(med,101),byrow=TRUE,nrow=101)
# Truco para repetir el vector de medias diez veces, en 101 filas
elipse0=medr+t(sqrt(lambda[1])*v[,1]%*%t(cos(tita))
+sqrt(lambda[2])*v[,2]%*%t(sin(tita)))
lines(elipse0,col="blue")
}
estadisticos=function(x){
#--- Diagonalización de s
auto=eigen(s)
v=auto$vectors
lambda=auto$values
si12=v%*%diag(1/sqrt(lambda))%*%t(v)
#--- Similaridades
r=xs%*%t(xs)
w=0
for (j in 1:d){s=shapiro.test(xs[,j])
w=w+s$statistic}
w=w/d
salida=c(am,km,w)
names(salida)=c("Asimetría","Kurtosis"," Shapiro-Wilk")
salida}
pvalores: Función R que aproxima por simulación los cuantiles de los estadísticos
multivariantes, y los niveles críticos
pvalores=function(d,n,ns,am0,km0,w0){
set.seed(123456)
#--- Diagonalización de s
auto=eigen(s)
v=auto$vectors
lambda=auto$values
si12=v%*%diag(1/sqrt(lambda))%*%t(v)
#--- Similaridades
Tema 3. Contraste de la normalidad multivariante 25
r=xs%*%t(xs)
am=sort(am)
qam=am[p*ns]
km=sort(km)
qkm=km[p*ns]
w=sort(w)
qw=w[p*ns]
tabla=rbind(qam,qkm,qw)
colnames(tabla)=p
rownames(tabla)=c("Asimetría","Kurtosis","Shapiro-Wilk")
pvalor_am0=sum(am>am0)/ns
pvalor_km0=sum(km>km0)/ns
pvalor_km0=2*min(pvalor_km0,1-pvalor_km0)
pvalor_w0=sum(w<w0)/ns
pvalores=c(pvalor_am0,pvalor_km0,pvalor_w0)
names(pvalores)=c("Asimetría","Kurtosis","Shapiro-Wilk")
list(tabla=tabla,Niveles_críticos=pvalores)
}
26 Análisis Multivariante
set.seed(123456)
d=2 # Número de variables
n=40 # Número de individuos
ns=10000 # Número de muestras simuladas para las aproximaciones
windows()
par(mfrow=c(3,2))
#--- Normales
x=cbind(rnorm(n),rnorm(n))
representa(x,"(a) Normales")
est=estadisticos(x)
est # Estadísticos
pvalores(d,n,ns,est[1],est[2],est[3])
#--- Exponenciales
x=cbind(rexp(n),rexp(n))
representa(x,"(c) Exponenciales")
est=estadisticos(x)
est # Estadísticos
pvalores(d,n,ns,est[1],est[2],est[3])
par(mfrow=c(1,1))