Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Trabajo de Grado
Enero 2017
Resumen
En este documento se desarrolla la propuesta de una nueva prueba para el problema de igualdad de
varianzas como un aporte a la literatura estadı́stica. Se repasan conceptos básicos para tratar el tema
como lo son: hipótesis estadı́stica, error de tipo I y II, potencia de una prueba, varianza, permutaciones;
entre otros. Se establecen los objetivos del trabajo los cuales se desarrollan a lo largo de este documento ası́
como también se menciona la metodologı́a que se usa para lograr dichos objetivos, se hace una explicación
profunda de cada paso y herramienta que se utiliza para la construcción de la prueba propuesta y para la
realización de los objetivos planteados. También se presentan los resultados obtenidos a través de gráficas
que facilitan entender lo encontrado al lector y se muestran las conclusiones de todo el trabajo realizado.
Seguido se proponen algunos trabajos futuros y expectativas que quedaron luego de la realización de este
trabajo y finalmente se presentan los códigos del software utilizado con los cuales se realizó el trabajo y
algunas tablas correspondientes a la investigación.
Palabras clave: Varianza, prueba, error tipo I y II, potencia, igualdad, librerı́a.
Abstract
This paper develops the proposal of a new test for the problem of equality of variances as a contribution
to the statistical literature. Basic concepts are discussed to treat the subject as they are: error of type
I and II, power of a test, variance, permutations; among others. It establishes the objectives of the
work which are developed throughout this document as well as the methodology used to achieve these
objectives, a thorough explanation of each step and tool used for the construction of the test Proposal
and for the achievement of the stated objectives. Also presented are the results obtained through graphs
that facilitate to understand what was found to the reader and show the conclusions of all the work
done. Some proposed future work and expectations after the completion of this work and finally the
codes of the software used with which the work was done and some tables corresponding to the research
are presented.
Keywords: Variance, test, type I and type II errors, power, equal, library.
1
2 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.
Introducción
Dentro del quehacer académico y laboral de la estadı́stica, es muy frecuente enfrentarse al problema de
comparar la varianza de varias poblaciones, es uno de los tópicos tratados en cursos como inferencia
estadı́stica, diseño de experimentos, series de tiempo y modelos lineales, además, ayuda a la solución de
problemas que surgen en muchas ciencias. Para la solución de este problema, existen muchas pruebas
que han sido propuestas en la literatura, cada una de ellas con un desempeño especı́fico. Cuando nuestro
problema se trata de 2 muestras y se cumple con el supuesto de normalidad, la prueba uniformemente
mas potente es la F de Fisher de acuerdo al teorema de Fisher-Neyman (Zhang & Gutiérrez 2010), pero
cuando tenemos mas de dos muestras, tenemos varias pruebas para utilizar pero no se tiene definido
que haya una que tenga mejor desempeño que las demás. Se necesita inventariar las pruebas existentes
y proponer una con bajo nivel de error tipo I y con alta potencia. Otro inconveniente que tenemos los
estadı́sticos es que cuando necesitamos usar estas pruebas de varianza existentes, nos encontramos con
que las pruebas están dispersas en diferentes paquetes, razón por la cual, se ve la necesidad de construir
una librerı́a que agrupe todas las pruebas.
Cuando nos referimos a los antecedentes de esta investigación nos encontramos con que es un trabajo
que se realiza frecuentemente en el mundo estadı́stico dado que se conoce el problema y aún no se
obtiene una solución concreta y veraz. Maurice Stevenson Bartlett, estadı́stico Inglés muy conocido por
el mundo de la matemática y la estadı́stica, fue uno de los pioneros en el tema. En el año 1937 publicó
en un articulo llamado “Properties of sufficiency and statistical tests” en donde propuso la conocida
prueba de Bartlett que se utiliza para la igualdad de varianzas en k muestras. George Edward Pelham
BartlettBox, estadı́stico británico, 16 años después (1953), publica en un articulo (“Non-normality and
tests on variances”) una nueva prueba para este problema y en 1960, tan solo 7 años después, H.Levene
propone una nueva prueba (conocida como prueba de Levene). Estos son solo algunos ejemplos para
mostrar que este es un tema que se trabaja mucho en la literatura estadı́stica y a lo largo del documento
se observan otros ejemplos de pruebas propuestas a lo largo de la historia.
1. Marco Teórico
1.1. Hipótesis
Se les denomina ası́ a los supuestos (hipótesis) realizados con respecto a un parámetro o estadı́stico
(varianza, media, proporción, entre otros).
En este paso se definen dos tipos de hipótesis:
H0 Hipótesis nula.
H1 Hipótesis alterna (de la cual se sospecha pudiera ser cierta, es planteada por el investigador).
Error Tipo I Si rechaza la hipótesis nula cuando ésta es verdadera, usted comete un error de tipo I. La
probabilidad de cometer un error de tipo I es α, que es el nivel de significancia que se establece para
la prueba de hipótesis. Un α de 0.05 indica que usted está dispuesto a aceptar una probabilidad de
5 % de que está equivocado cuando rechaza la hipótesis nula. Para reducir este riesgo, debe utilizar
un valor más bajo para α. Sin embargo, si utiliza un valor más bajo para alfa, significa que tendrá
menos probabilidades de detectar una diferencia verdadera, si es que realmente existe.
Error Tipo II Cuando la hipótesis nula es falsa y usted no la rechaza, comete un error de tipo II. La
probabilidad de cometer un error de tipo II es α, que depende de la potencia de la prueba. Puede
reducir su riesgo de cometer un error de tipo II al asegurarse de que la prueba tenga suficiente
potencia. Para ello, asegúrese de que el tamaño de la muestra sea lo suficientemente grande como
para detectar una diferencia práctica cuando ésta realmente exista.
Es la probabilidad que tiene la prueba estadı́stica para rechazar una hipótesis nula falsa. Tiene un rango
de 0 a 1 y está inversamente relacionada con el error de tipo II. En este estudio se requiere medir
la potencia de las pruebas de varianza inventariadas junto con la prueba propuesta y trabajar para
maximizar la potencia de nuestra prueba.
La potencia de una prueba estadistica está relacionada con el tamaño de muestra, el valor de alfa (α) y
el tamaño del efecto.
1.4.1. F-Test
La distribución F se forma por la división de dos variables chi-cuadrado independientes divididas por
sus grados de libertad respectivos y es por esto que la distribución F hereda varias de las propiedades
de la chi-cuadrado.
Este test se utiliza para probar si las varianzas de dos muestras (independientes) son iguales y este
interés en términos de la hipótesis que se quiere probar es:
s21
F= , (3)
s22
n
X
(m − 1) (Xi − X̄)2
i=1
F= m , (4)
X
2
(n − 1) (Yi − Ȳ )
i=1
dónde s21 > s22 y esta tiene una distribución F con m − 1 y n − 1 grados de libertad bajo H0 . La prueba
rechaza la hipótesis nula para:
F > Fα . (5)
,N1 −1,N2 −1
2
Algunos supuestos para esta prueba son:
Dividir en 2 el alfa (α) para una prueba de dos colas (igualdad de varianzas) y luego encontrar el
valor crı́tico a la derecha.
Las poblaciones de las que se obtuvieron las muestras deben ser normales.
Las muestras deben ser independientes.
Descripción de la prueba:
Librerı́a: stats
Código: var.test()
Autores: George Waddel Snedecor y William Gemmell Cochran
Artı́culo: Statistical Methods, Eighth Edition, Iowa State University Press.
Año: 1989
Válida para: 2 muestras
Dado k grupos de datos, algunos análisis suponen que las varianzas son iguales para los k grupos. Por
ejemplo, la prueba F usada en el análisis de un factor de varianza puede ser sensible a las varianzas
desiguales en los k niveles del factor. Las pruebas de Levene y Bartlett son ampliamente utilizadas
para evaluar la homogeneidad de las varianzas en el caso de un factor (con k niveles). La prueba de la
varianza de Cochran creada por William G. Cochran es otra alternativa para evaluar la homogeneidad
de las varianzas.
Aunque la prueba de Cochran tiene un propósito similar a las pruebas de Levene y Bartlett, tiende
a utilizarse en un contexto algo diferente. La prueba de Levene y Bartlett se utiliza para evaluar la
homogeneidad general y se usan tı́picamente en el contexto de decidir si una prueba especı́fica (por
ejemplo, una prueba F) es apropiada para un conjunto dado de datos. Estas pruebas no identifican qué
varianzas son diferentes. Por otro lado, la prueba de la varianza de Cochran tiende a ser utilizada en el
contexto de las pruebas de aptitud.
La prueba de Cochran es esencialmente una prueba atı́pica. La estadı́stica de prueba original de Cochran
se define como:
Sj2
Cj = k
, (6)
X
Si2
i=1
donde:
Cj = Estadı́stica C de Cochran para el conjunto de datos j
Sj = La desviación estándar mayor del conjunto de datos j
k = Número de grupos de datos que permanecen en el conjunto de datos
Si = Desviaciones estándar del conjunto de datos i (1 ≤i≤N)
Valores crı́ticos
La varianza muestral de la serie de datos j se considera un valor atı́pico al nivel de significancia α, si Cj
excede el valor crı́tico del lı́mite superior CU L . CU L depende del nivel de significancia dado α, el número
de series de datos N consideradas y del número de puntos de datos (n) por serie de datos.
Los valores para CU L se calculan a partir de:
−1
k−1
CU L (α, n, k) = 1 + , (7)
Fc (α/k, (n − 1), (k − 1)(n − 1))
donde:
CU L = Valor crı́tico del lı́mite superior para la prueba unilateral en un diseño equilibrado
α = Nivel de significancia
n = Número de datos por conjunto de datos
Fc = Valor crı́tico de la distribución F de Fisher el cuál se puede obtener mediante las tablas de la
distribución o un software especializado
Generalización
La prueba C se puede generalizar para incluir diseños desbalanceados, pruebas de lı́mite inferior unilate-
ral y pruebas de dos colas en cualquier nivel de significancia α, para cualquier número de series de datos
k, y para cualquier número de puntos de datos individuales nj en la serie de datos j.
Descripción de la prueba:
Librerı́a: GAD
Código: C.test()
Autores: William Gemmell Cochran
Artı́culo: The distribution of the largest of a set of estimated variances as a fraction of their total.
Año: 1941
Válida para: k muestras
En estadı́stica el test de Hartley, mas conocido como Fmax es usado para el análisis de varianza para
verificar si grupos diferentes tienen una varianza similar.
La prueba implica calcular la razón entre la varianza mas grande de los grupos y la varianza mas pequeña
(esta es la estadı́stica de prueba). La razón resultante (Fmax ), se compara con los valores crı́ticos de las
tablas de la distribución Fmax . Si el estadı́stico de prueba calculado es menor que el valor crı́tico, se
supone que los grupos tienen varianzas similares o iguales.
La prueba de Hartley supone que los datos para cada grupo se distribuyen normalmente, y que cada
grupo tiene un número igual de elementos. Esta prueba, aunque conveniente, es bastante sensible a las
violaciones de la suposición de normalidad.
Estadı́stico de prueba
maxSi2
Fmax =
minSj2
Descripción de la prueba:
Librerı́a: SuppDists
Código: pmaxFratio() (no hay un código directo, el p-valor se saca en base a la distribución)
Autores: Herman Otto Hartley
Artı́culo: The use of Range in Analysis of variance.
Año: 1950
Válida para: k muestras
La prueba de Bartlett se usa para probar si k muestras tienen varianzas iguales. La igualdad de varianzas
entre muestras se denomina homogeneidad de varianzas. Algunas pruebas estadı́sticas, por ejemplo el
análisis de varianza, suponen que las varianzas son iguales entre grupos o muestras. La prueba de Bartlett
se puede utilizar para verificar esa suposición.
La prueba de Bartlett es sensible a las salidas de la normalidad. Es decir, si las muestras provienen
de distribuciones no normales, entonces la prueba de Bartlett puede ser simplemente la prueba de no
normalidad.
Las hipótesis bajo las cuales trabaja la prueba son:
Estadı́stico de prueba
La estadı́stica de la prueba de Bartlett está diseñada para probar la igualdad de varianzas entre grupos
con la alternativa de que las varianzas son desiguales para al menos dos grupos.
k
X
(N − k) ln Sp2 − (Ni − 1) ln Si2
i=1
T= k
, (8)
X
1 + (1/(3(k − 1)))(( 1/(Ni − 1)) − 1/(N − k))
i=1
donde:
Si2 = Varianza del i-ésimo grupo
N = Tamaño total de la muestra
Ni = Tamaño de la muestra del i-ésimo grupo
k = Número de grupos
Sp2 = La varianza agrupada. La varianza agrupada es un promedio ponderado de las varianzas del grupo
y se define como:
k
X
(Ni − 1) Si2
i=1
Sp2 = (9)
(N − k)
La prueba trabaja con un nivel de significancia α y las desviaciones se consideran diferentes si:
T > χ21−α,k−1 (10)
donde χ21−α,k−1 es el valor crı́tico de una distribución chi cuadrado con k − 1 grados de libertad y a un
nivel de significancia α.
Descripción de la prueba:
Librerı́a: stats
Código: bartlett.test()
Autores: Snedecor y Cochran
Artı́culo: Statistical Methods, Eighth Edition, Iowa State University Press
Año: 1983
Válida para: k muestras
La prueba de Levene se usa para probar si k muestras tienen varianzas iguales. La prueba de Levene
es una alternativa a la prueba de Bartlett. La prueba de Levene es menos sensible que la prueba de
Bartlett ante la violación del supuesto de normalidad. Si se tiene una fuerte evidencia de que los datos
en realidad provienen de una distribución normal, o casi normal, entonces la prueba de Bartlett tiene un
mejor rendimiento.
Las hipótesis bajo las cuales trabaja la prueba son:
Estadı́stico de prueba
Dada una variable Y con una muestra de tamaño N dividida en k subgrupos, donde Ni es el tamaño de
muestra del i-ésimo subgrupo, el estadı́stico de prueba de Levene se define como:
k
X
Ni (Z¯i . − Z¯i ..)2
(N − k) i=1
W= (11)
(k − 1) X
k XNi
(Z¯ij − Z¯i .)2
i=1 j=1
Las tres opciones para definir Zij determinan la potencia la prueba de Levene. Por potencia nos referimos
a la capacidad de la prueba para detectar desigualdades cuando las varianzas son de hecho desiguales o
la probabilidad de que la hipótesis nula sea rechazada cuando la hipótesis alternativa es verdadera (es
decir, la probabilidad de no cometer un error del tipo II).
La prueba trabaja con un nivel de significancia α y rechaza la hipótesis de que las varianzas son iguales
si:
W > Fα,k−1,N −k (12)
donde Fα,k−1,N −k es el valor crı́tico superior de una distribución F con k − 1 y N − k grados de libertad
y a un nivel de significancia α.
El trabajo original de Levene sólo propuso usar la media. Brown y Forsythe (1974) extendieron el test
de Levene para usar la mediana o la media recortada además de la media. Realizaron estudios de Monte
Carlo que indicaron que el uso de la media recortada se comportó mejor cuando los datos subyacentes
siguieron una distribución de Cauchy (es decir, de cola pesada) y la mediana se comportó mejor cuando
los datos subyacentes siguieron una distribución χ2 (es decir, sesgada). El uso de la media proporcionó la
mejor potencia para las distribuciones simétricas de cola moderada. Aunque la elección óptima depende
de la distribución subyacente, se recomienda la definición basada en la mediana como la opción que
proporciona buena robustez frente a muchos tipos de datos no normales mientras se conserva una buena
potencia. Si tiene conocimiento de la distribución subyacente de los datos, esto puede indicar el uso de
una de las otras opciones.
Descripción de la prueba:
Librerı́a: car
Código: leveneTest()
Autores: Howard Levene
Artı́culo: Contributions to Probability and Statistics: Essays in Honor of Harold Hotelling.
Año: 1960
Válida para: k muestras
y = β0 + β1 x + µ (13)
y obtenemos un conjunto de valores para û, los residuos. Con las restricciones de los Mı́nimos Cuadrados
Ordinarios la media es 0, de modo que dada la suposición de que la varianza no depende de las variables
independientes, la estimación de la varianza se puede obtener a partir de la media de los valores al cua-
drado. Si la suposición no fuera correcta, podrı́a ocurrir que la varianza estuviera relacionada linealmente
con las variables independientes. El supuesto de varianza constante se puede examinar haciendo una re-
gresión de los residuos al cuadrado respecto de las variables independientes, empleando una ecuación de
la forma:
û2 = γ0 + γ1 x + ν (14)
Esta es la base de la prueba. Si el test-F confirma que las variables independientes son significativas,
entonces se puede rechazar la hipótesis nula de homocedasticidad.
El test de Breusch-Pagan para heterocedasticidad es una prueba chi cuadrado donde el estadı́stico de
prueba es nχ2 con k grados de libertad. Prueba la hipótesis nula de homoscedasticidad. Si el valor de la
Chi cuadrado es significativo con un valor de p por debajo de un umbral apropiado, entonces la hipótesis
nula de homoscedasticidad es rechazada y se asume la heteroscedasticidad. Si la prueba de Breusch-Pagan
demuestra que hay heterocedasticidad condicional, la regresión original puede ser corregida usando el
método de Hansen, utilizando errores estándar robustos o re-ajustando la ecuación de regresión cam-
biando y/o transformando variables independientes.
Estadı́stico de prueba
El siguiente multiplicador de Lagrange (LM) proporciona la estadı́stica de prueba para la prueba de
Breusch-Pagan:
0 2 −1
∂` ∂ ` ∂`
LM = −E 0
. (15)
∂θ ∂θ ∂θ ∂θ
LM = nR2 . (18)
La estadı́stica de prueba se distribuye asintóticamente como χ2p−1 bajo la hipótesis nula de homos-
cedasticidad.
Descripción de la prueba:
Librerı́a: car
Código: ncvTest()
Autores: T.S Breuch y A.R Pagan
Artı́culo: A simple test fot heterosttedasticity and random coefficient variation.
Año: 1979
Válida para: k muestras
La prueba Fligner-Killeen hace un trabajo bastante similar a la de Levene, lo que significa que comprueba
la homogeneidad de la varianza, pero es una opción mucho mejor cuando los datos no están distribuidos
normalmente o cuando los problemas relacionados con los valores atı́picos en el conjunto de datos no
pueden ser resueltos.
Estadı́stico de prueba
El procedimiento Fligner-Killeen, modificado por Conover, para probar homogeneidad de varianzas con-
siste en lo siguiente:
1. Ordene las variables Xij − X
ei de menor a mayor, donde X
ei es la mediana de las ni observaciones
de la población i.
2. Defina:
1 i
aN,i = Φ−1 + para i = 1, ..., N (19)
2 2 (N + 1)
donde Φ(z) es la distribución acumulada N (0, 1) de −∞ a z y ası́ Φ−1 (p) es el percentil 100p de la
distribución N (0, 1).
3. Sea
N
X aN, j
ai = (20)
ni
j∈Gi
N
X aN, j
a= (21)
j=1
N
Descripción de la prueba:
Librerı́a: stats
Código: fligner.test()
Autores: W.J Conover, M.E Johnson, M.M Johnson
Artı́culo: A comparative study of the test for homogeneity of variances, with applications to the outer
continental shelf bidding data.
Año: 1981
Válida para: k muestras
1.5. Permutaciones
Una permutación es la variación del orden o de la disposición de los elementos de un conjunto ordenado
o un vector sin elementos repetidos, esta herramienta se enlaza con el concepto de Bootstrapping que
es un método de remuestreo que se utiliza para aproximar la distribución de un estadı́stico. Se usa
frecuentemente para aproximar el sesgo o la varianza de un análisis estadı́stico, ası́ como para construir
intervalos de confianza o realizar contrastes de hipótesis sobre parámetros de interés. En la mayor parte
de los casos no pueden obtenerse expresiones cerradas para las aproximaciones bootstrap y por lo tanto
es necesario obtener remuestras en un ordenador para poner a prueba el método. La enorme potencia
de cálculo de los ordenadores actuales facilita considerablemente la aplicabilidad de este método tan
costoso computacionalmente. En este trabajo se consideró este método para estimar el valor p a través
de generar permutaciones para el estadı́stico de prueba.
Para claridad de esta herramienta presentaremos un ejemplo sencillo: Se tiene un vector de números
aleatorios de tamaño 5 (n = 5)
Y = (1.188, 1.282, −0.359, 0.939, 0.037, 3.030) (23)
El estadı́stico de prueba para este vector de números es:
E1 = 0.9654594 (24)
Ahora, hacemos una permutación sobre nuestro vector Y quedándonos ası́:
Y = (0.037, 3.030, 1.188, 1.282, −0.359, 0.939) (25)
(Podemos ver que son los mismos números pero en diferente orden). Calculamos de nuevo el estadı́stico
de prueba y obtenemos el siguiente:
E2 = 0.6046444 (26)
Con este ejemplo se puede observar que al hacer permutaciones a un vector Y dado obtenemos valores
diferentes del estadı́stico de prueba y esto sirve para estimar el valor p de la prueba propuesta.
La estimación del valor p a través de esta herramienta vendrı́a dado por:
#Estadisticos > E1
V\
alorp = (27)
#Permutaciones
2. Objetivos
Proponer una nueva prueba para el problema de igualdad de varianzas en varias muestras.
3. Metodologı́a
Literatura Se buscarán los artı́culos que hagan referencia al tema ya que es algo que se investiga muy
frecuente en la estadı́stica, se leerán y analizaran para verificar lo que otras personas han hecho o
propuesto. También se leerá la literatura sobre las pruebas clásicas más conocidas.
Propuesta de la nueva prueba Se explicarán los principios que promueven la creación de la nueva
prueba, ası́ como al estadı́stico de prueba que se utilizará, su distribución bajo la hipótesis nula y
los supuestos necesarios.
Ejercicios de simulación para comparación de las pruebas Se harán simulaciones en R para po-
der verificar el desempeño de las pruebas inventariadas y ası́ mismo de la prueba propuesta. Con
estas simulaciones lo que buscaremos es encontrar el nivel de error tipo I y II además de la potencia
de cada prueba.
Programación y construcción de la librerı́a en R Se elaborará una librerı́a en R la cual agrupe
todas las pruebas inventariadas para brindar esa facilidad de encontrarlas todas en un mismo
paquete al usuario.
Documentación Elaborar un documento final en donde se relacione todo lo elaborado en el trabajo al
igual que una presentación para mostrar los resultados obtenidos.
3.1.1. Motivación
En estadı́stica es común validar los supuestos de un modelo de regresión para determinar si este es
adecuado dado que si no lo es este representará incorrectamente los datos. Por ejemplo:
Los errores estándar de los coeficientes podrı́an estar sesgados, conduciendo a valores t y p inco-
rrectos.
Los coeficientes pueden tener el signo incorrecto.
Dado el modelo
Y = β0 + β1 X + ε (28)
los supuestos a validar son:
E(Yj ) = β0 + β1 X (29)
El éxito en el ajuste de un modelo de regresión, la validez de los hallazgos y las conclusiones obtenidas,
dependen de los supuestos del modelo.
Vamos a enfocarnos en los errores del modelo, tenemos tres supuestos sobre estos:
Cuando trabajamos un modelo de regresión y calculamos los residuales estimados los obtenemos de la
siguiente manera:
ε̂ = Y − Ŷ (33)
ε̂ = (I − H)Y (34)
donde H = X(X t X)−1 X t .
Se espera que estos residuales sean independientes y tengan varianza constante, pero esto siempre es un
problema a la hora de validar el modelo, ya que estos dos supuestos muy rara vez se cumplen porque
teóricamente los residuales no son independientes ni tienen varianza constante, ası́ que, se torna algo
ilógico validar unos supuestos que por definición estadı́stica no tiene ese comportamiento.
Se espera que la varianza de los residuales se comporte de la siguiente manera:
V ar(ε̂) = σ 2 (I − H) (36)
Pero como se viene diciendo, estos supuestos por definición estadı́stica (teorı́a), no se cumplen. Luego
de ver este inconveniente y después de indagar en las herramientas estadı́sticas, nos encontramos con los
residuales estudentizados los cuales tienen caracterı́sticas y propiedades que nos permitirı́an solucionar
el inconveniente de los supuestos y ası́ mismo obtener mejores resultados.
Dada una muestra aleatoria (Xi , Yi ), i = 1, ..., n, cada par (Xi , Yi ) satisface:
Yi = β0 + β1 Xi + εi , (38)
donde los errores εi son independientes y todos tienen la misma varianza σ 2 . Los residuales no son los
errores verdaderos, e inobservables, sino más bien son estimaciones, basadas en los datos observables, de
los errores. Cuando el método de mı́nimos cuadrados se utiliza para estimar β0 y β1 entonces los residuales
ε̂, a diferencia de los errores, ε, no pueden ser independientes ya que satisfacen las dos restricciones
n
X
εbi = 0 (39)
i=1
n
X
εbi yi = 0. (40)
i=1
En base a esto lo mejor es verificar los supuestos sobre los residuales estudentizados y si no pasan las
validaciones entonces el modelo realmente está fallando.
Hasta ahora todo lo que hemos visto es a manera general pero para la prueba propuesta pasaremos
a algo mas especı́fico y son los modelos a una vı́a de clasificación o mejor conocidos como los diseños
completamente al azar.
Diseños Completamente al Azar Este diseño surge como la extensión a las pruebas de diferencia
de medias cuando se tiene mas de dos grupos. En el caso general se tiene a grupos o tratamientos
correspondientes a los niveles de un factor y la hipótesis principal se centra en la igualdad de medias de
los a grupos. Como en la mayorı́a de diseños existen los balanceados y desbalanceados.
El modelo en un diseño completamente al azar es de la siguiente manera:
Yij = µ + τi + εij (46)
Donde:
Estos modelos a una vı́a de clasificación y bajo el enfoque de los diseños completamente al azar en donde
se cuenta con una variable identificadora de grupos tienen un supuesto muy interesante:
V ar(Yij ) = V ar(εij ) (47)
En este punto juntamos las ideas de los residuales estudentizados y los diseños completamente al azar
para que estas sean la base de la prueba propuesta. Nos basamos en la prueba de Cochran para trabajar
sobre esta ya que es una prueba robusta y es común usarla en el diseño experimental.
Siendo ası́ la idea central del trabajo es construir la prueba de Cochran con residuales estudenti-
zados.
De aquı́ en adelante llamaremos a la prueba propuesta, CFF.
El estadı́stico de prueba para CFF es básicamente el mismo que el que se usa en la prueba C de Cochran.
Sabemos que para la prueba de Cochran el estadı́stico de prueba es el resultado de dividir la varianza
XN
mas grande del conjunto de datos j (Sj2 ) sobre la suma de las varianzas Si2 .
i=1
En nuestra prueba, el calculo de las varianzas, tanto la mayor de todos los grupos y la suma de todas, no
se hace sobre los residuales sino sobre los residuales estudentizados. Siendo ası́ el estadı́stico de prueba
es:
Sj2
CFFj = N , (48)
X
2
Si
i=1
donde:
CFFj = Estadı́stica CFF para el conjunto de datos j
Sj = La desviación estándar mayor del conjunto de datos j calculada con los residuales estudentizados
N = Número de grupos de datos que permanecen en el conjunto de datos
Si = Desviaciones estándar del conjunto de datos i (1 ≤i≤N) calculadas con los residuales estudentizados.
La hipótesis bajo la cual trabaja la prueba es:
3.1.3. Percentiles
Los percetiles de la prueba CFF fueron calculados a partir de simulaciones las cuales se explicarán mas
adelante. En el anexo 1, se encontrarán las tablas de los percentiles para la prueba dado un número
determinado de grupos (a) y un tamaño de muestra especı́fico (n). Las tablas están para un nivel de
confiabilidad del 95 % y del 99 %.
Para rechazar la hipótesis nula que habla de que todas las varianzas de los grupos son iguales, se calcula
el estadı́stico de prueba de CFF y se compara con el percentil que aparece en la tabla que se encuentra en
el anexo 1, dado un a y un n especifico y bajo un nivel de confiabilidad (α), si este es mayor al percentil
correspondiente entonces se rechaza H0 .
Los datos simulados fueron sacados de una distribución normal con media 0 y varianza diferente,
es decir bajo la hipótesis alternativa (H1 ).
Se construyó la tabla de percentiles para CFF y con esta se calcula la decisión de rechazar o aceptar la
hipótesis nula. Las simulaciones fueron construidas ası́:
2. Se ajusta el modelo:
Y = r + trata + ε
donde r es el vector de nuestros datos y trata es el vector donde se encuentra la variable identifi-
cadora de grupos.
5. Este proceso se repite 5.000 veces y al final se calculan los percentiles 95 y 99 del estadı́stico CFF.
6. El proceso se repite variando la cantidad de grupos a entre 3 y 10, ası́ como el tamaño de los grupos
entre 2 y 200.
Caso Balanceado
Para ver como trabajan las pruebas inventariadas y la prueba propuesta bajo la hipótesis nula (H0 ) se
realizaron simulaciones construidas de la siguiente manera:
2. Se ajusta el modelo:
Y = r + trata + ε
donde r es el vector de nuestros datos y trata es el vector donde se encuentra la variable identifi-
cadora de grupos.
6. Este proceso se repite 10.000 veces y se calcula el error de tipo I promedio para cada prueba.
7. El proceso se repite con una cantidad de grupos fijo (a = 3) y variando el tamaño de los grupos
entre 3 y 50.
Caso Desbalanceado
Se calcula una media armónica de los tamaños de los grupos y con el resultante se busca el percentil
para la prueba nueva.
1 1
n∗ = n = (49)
X 1 1 1
+ ··· +
n n1 nn
i=1 i
El proceso se repite 10.000 veces con un tamaño de grupos fijo (a = 3) y los ni de la siguiente manera:
Para a = 3:
n1 n2 n3
5 6 7
10 11 12
20 21 22
30 31 32
40 41 42
50 51 52
1. Crecimiento progresivo
2. Crecimiento rápido
Durante el proceso de estudio de la potencia, los valores establecidos para cada escenario de la hipótesis
alternativa se establecieron con el objetivo de que para las pruebas fuera mas difı́cil detectar H1 y
asimismo la potencia no llegara tan rápido a 1.
Por ejemplo, para el crecimiento progresivo de H1 con 3 grupos (a=3), el valor de las varianzas para la
simulación de los datos fueron:
σ1 : 1
σ2 : 2
σ3 : 3
Mientras que bajo el mismo escenario de grupos pero con crecimiento rápido de la hipótesis alternativa
los valores fueron:
σ1 : 1
σ2 : 1
σ3 : 2
Teniendo esto claro, las simulaciones para el cálculo de la potencia se construyeron ası́:
Caso Balanceado
Caso Desbalanceado
El proceso se repite 10.000 veces variando la cantidad de grupos entre 3,5 y7 y los ni de la siguiente
manera:
Para a = 3:
n1 n2 n3
20 21 22
20 20 30
20 30 40
Para a = 5:
n1 n2 n3 n4 n5
20 20 21 21 22
20 20 25 25 35
20 20 30 30 40
Para a = 7:
n1 n2 n3 n4 n5 n6 n7
20 20 20 21 21 22 22
20 20 20 25 25 35 35
20 20 20 30 30 40 40
La librerı́a construida se llama varTest, en esta librerı́a se encontrarán las pruebas de varianza inventa-
riadas y estudiadas en este documento agregando la prueba propuesta, CFF. El objetivo de esta librerı́a
es reunir las pruebas mas usadas en el quehacer estadı́stico y brindar ası́ una facilidad al usuario ya que
no tendrá que extraer las pruebas de varias librerı́as ya que las encontrará en una sola.
La librerı́a se encuentra aún en construcción razón por la cual no está en el momento en
CRAN y por ende no se puede instalar desde R directamente, pero se deja un link en
Github en donde se podrá descargar el proyecto del software R y ası́ se podrá usar la
librerı́a.
Link Github: https://github.com/mfelipe15/varTest
3.3.1. Instalación
1. Desde la consola
Abrimos RStudio
Esperamos que instale y con el comando library(varTest) cargamos la librerı́a y ası́ queda lista
para su uso
Vamos al panel de F iles, P lots, P ackages, Help, V iewer (su ubicación puede variar depen-
diendo la configuración del usuario), hacemos click en la pestaña P ackages
Para la mayorı́a de funciones el manejo es el mismo. Las funciones necesitan un vector r de valores
numéricos correspondientes a los datos y un vector trata correspondiente a la variable ID con la cual
se identifica a qué grupo pertenece cada dato. Estos dos son los insumos necesarios para correr las
funciones de Bartlett, Levene media, Levene mediana, Fligner y CFF. Para la prueba de Cochran es
necesario establecer un modelo lineal y con este como insumo ya trabaja la función.
Si no se tienen los datos y se requiere simular los pasos para usar la función son:
Se crea un vector de ID con el cual se busca establecer a que grupo pertenece cada dato simulado
(este será nuestro vector trata).
Se ajusta un modelo con estos dos vectores (solo para la prueba de Cochran).
Ya con los vectores r y trata se pueden usar las funciones.
Las siguientes imágenes ilustran los pasos anteriormente descritos y muestran los ejemplos del uso y
resultado de cada función:
4. Resultados
4.1. Simulaciones
En la simulación con permutaciones para aproximar el valor p de la prueba CFF, pudimos observar
que se disminuye notablemente la potencia, razón por la cual no se utilizó esta herramienta.
Luego de tener todos los resultados de las simulaciones se organizaron de una manera pertinente para
poder presentarlos.
Estimación de los percentiles de la prueba CFF Tabular los valores encontrados para anexar las
tablas al presente documento.
Comparar el desempeño de la prueba CFF contra las pruebas inventariadas en términos del error tipo I
Se tabuló la información y se realizó una gráfica para evidenciar el desempeño de las pruebas.
Cuantificar los errores tipo II (potencia) de la prueba CFF y de las inventariadas Tabular los
valores encontrados y realizar las gráficas en donde se pueda apreciar mejor la potencia de cada
una de las pruebas.
Caso Balanceado
En la siguiente gráfica se puede ver el error tipo I de cada una de las prueba inventariadas cuando
el tamaño de los grupos (n) es igual. El n se varı́a entre 3 y 50.
- Se observa que el error de tipo I para la prueba CFF para cuando el n de cada grupo es diferente,
está controlado dado que este se mueve alrededor del 5 % como deberı́a ser.
- Las pruebas de Levene (media y mediana) y la de Fligner tienen un error de tipo I fuera del 5 %
cuando los n son diferentes en cada grupo y los tamaños de estos son pequeños.
Caso Desbalanceado
En la gráfica siguiente se puede observar el error tipo I de cada una de las prueba inventariadas
cuando el tamaño de los grupos (n) es diferente.
- Se puede observar que el error de tipo I para la prueba CFF está controlado dado que este se
mueve alrededor del 5 % como deberı́a ser.
- Las prueba mas estables en términos del error tipo I son la Bartlett y la Fmax .
Caso Balanceado
Como se mencionó en la descripción de las simulaciones, se tuvieron dos escenarios para la hipótesis
alternativa, el crecimiento progresivo y el rápido. Para ambos escenarios se hizo el estudio de la
potencia de las pruebas y los respectivos resultados son:
◦ Para a = 3, 7 y 10:
- Las pruebas que presentan mejor estabilidad para los diferentes tamaños de n son la Bartlett,
Fmax y Levene.
- Se puede observar que la potencia de CFF no cambia significativamente al variar la cantidad
de grupos.
- La prueba CFF converge a 1 con un tamaño de muestra superior a 25.
- El estudio de potencia muestra que la prueba CFF presenta un comportamiento muy similar
al test de Cochran con la ventaja de que la prueba CFF al trabajar sobre los residuales
estudentizados evita que la prueba de varianza se vea afectada por la correlación entre las
observaciones o por la varianza no constante que tienen los residuales del modelo, problema
que si podemos evidenciar en la prueba de Breusch-Pagan la cual no da buenos resultados.
◦ Para a = 3, 7 y 10:
- Bajo este escenario donde la hipótesis alternativa crece rápidamente, la prueba CFF obtiene
excelentes resultados de potencia, siendo ası́ una de las que mejor estabilidad para los dife-
rentes tamaños de n. Junto con la CFF, está la Cochran y la Bartlett como las mas estables.
- Para tamaños de muestra pequeños, la prueba CFF tiene un buen comportamiento presen-
tando una buena potencia en comparación con las demás.
- La prueba CFF llega a 1 en la potencia con muestras superiores a 25.
Caso Desbalanceado
Para el caso desbalanceado que es donde el tamaño de los grupos (n) es diferente, también se
manejaron los dos escenarios de la hipótesis alternativa que ya se habı́an mencionado y los resultados
son:
• Crecimiento progresivo para H1
◦ Para a = 3, 5 y 7:
◦ Para a = 3, 5 y 7:
- CFF trabaja mucho mejor bajo el escenario de crecimiento rápido de la hipótesis alternativa.
- Bartlett, Levene y Fmax siguen siendo las pruebas mas estables.
5. Conclusiones
Las pruebas mas potentes y estables son la de Bartlett, la Fmax y la de Levene (centrada en
la media: mayor potencia y centrada en la mediana: mas robusta).
A tamaños de muestra pequeños la prueba de Levene centrada en media y la de Bartlett son
las que mejor potencia tienen.
Para tamaños de muestra pequeños, las pruebas de Levene (centrada en media y mediana) y
la de Fligner no conservan un error de tipo I alrededor del 5 %.
En su mayorı́a, las pruebas llegan a una potencia de 1 cuando el tamaño de muestra es mayor
a 15 (n ≥ 15).
De las pruebas inventariadas se observó que la prueba de Breusch-Pagan no dio muy buenos
resultados y esto dado que esta prueba se basa en un modelo y como tal para comparar
varianzas de a muestras, no se necesita un modelo.
3. La metodologı́a de las permutaciones no resultó adecuada para estimar el valor p de la prueba CFF
ya que esta disminuyó notablemente la potencia de la prueba propuesta.
6. Trabajos futuros
3. Agregar mas pruebas de varianza a la librerı́a para facilitar al usuario la búsqueda y uso de las
mismas.
A. Anexos
A.1. Códigos de R
##########################################################
# Códigos u s a d o s #
##########################################################
###########################
# Programación p r u e b a CFF #
###########################
CFF<−function ( y , t r a t a ) {
m <− lm( y˜ t r a t a )
v a r e<−data . frame ( aggregate ( rstudent (m) , l i s t ( t r a t a ) , var ) )
c<−max( v a r e $x ) /sum( v a r e $x )
return ( c )
}
###################
# Permutaciones #
###################
l i b r a r y (GAD)
library ( car )
library ( SuppDists )
library ( lmtest )
CFF<−function ( y , t r a t a ) {
m <− lm( y˜ t r a t a )
v a r e<−data . frame ( aggregate ( rstudent (m) , l i s t ( t r a t a ) , var ) )
c<−max( v a r e $x ) /sum( v a r e $x )
a<−nrow( v a r e )
n<−length ( y ) /a
f <− ( 1 /c − 1 ) / ( a − 1 )
p <− 1−pf ( f , ( n − 1 ) ∗ ( a − 1 ) , ( n − 1 ) ) ∗a
p v a l <− 1 − p
return ( c ( c , p v a l ) )
}
set . s e e d ( 1 4 1 5 )
nr <− 10000
nper <− 10001
sigma1 <− 1
sigma2 <− 3
sigma3 <− 5
a<−3
n<−5
r e s u l t s <− data . frame ( matrix (NA, nrow=nr , ncol =7) )
r e s u l t s sam <− rep (NA, nper )
f o r ( i i n 1 : nr ) {
y1 <− rnorm( n , mean <− 0 , sd <− sigma1 )
y2 <− rnorm( n , mean <− 0 , sd <− sigma2 )
y3 <− rnorm( n , mean <− 0 , sd <− sigma3 )
r <− c ( y1 , y2 , y3 )
t r a t a <− f a c t o r ( rep ( 1 : a , each = n ) )
m <− lm( r ˜ t r a t a )
prueba=data . frame ( r , t r a t a )
prueba2=data . frame ( aggregate ( prueba $r , l i s t ( prueba $ t r a t a ) , var ) )
fmax=max( prueba2 $x ) /min( prueba2 $x )
pvalfmax=pmaxFratio ( fmax , n−1 , a , lower . t a i l =FALSE)
r e s u l t s [ i , 1 ] <− b a r t l e t t . t e s t ( r , t r a t a ) $p . v a l u e
r e s u l t s [ i , 2 ] <− f l i g n e r . t e s t ( r , t r a t a ) $p . v a l u e
r e s u l t s [ i , 3 ] <− pvalfmax
r e s u l t s [ i , 4 ] <− ncvTest (m) $p
r e s u l t s [ i , 5 ] <− l e v e n e T e s t ( r , t r a t a ) [ 1 , 3 ]
r e s u l t s [ i , 6 ] <− C. t e s t (m) $p . v a l u e
r e s u l t s sam [ 1 ] =CFF( r , t r a t a ) [ 1 ]
f o r ( j i n 2 : ( nper ) ) {
###########################
# Caso Balanceado #
###########################
l i b r a r y (GAD)
library ( car )
library ( SuppDists )
library ( lmtest )
CFF<−function ( y , t r a t a ) {
m <− lm( y˜ t r a t a )
v a r e<−data . frame ( aggregate ( rstudent (m) , l i s t ( t r a t a ) , var ) )
c<−max( v a r e $x ) /sum( v a r e $x )
return ( c )
}
set . s e e d ( 1 4 1 5 )
nr <− 1000
sigma1 <− 1
sigma2 <− 2
sigma3 <− 3
a <− 3
n <− 5
r e s u l t s <− data . frame ( matrix (NA, nrow=nr , ncol =8) )
f o r ( i i n 1 : nr ) {
y1 <− rnorm( n , 0 , sigma1 )
y2 <− rnorm( n , 0 , sigma2 )
y3 <− rnorm( n , 0 , sigma3 )
r <− c ( y1 , y2 , y3 )
t r a t a <− f a c t o r ( rep ( 1 : a , each = n ) )
m <− lm( r ˜ t r a t a )
prueba=data . frame ( r , t r a t a )
prueba2=data . frame ( aggregate ( prueba $r , l i s t ( prueba $ t r a t a ) , var ) )
fmax=max( prueba2 $x ) /min( prueba2 $x )
pvalfmax=pmaxFratio ( fmax , n−1 , a , lower . t a i l =FALSE)
r e s u l t s [ i , 1 ] <− b a r t l e t t . t e s t ( r , t r a t a ) $p . v a l u e
r e s u l t s [ i , 2 ] <− f l i g n e r . t e s t ( r , t r a t a ) $p . v a l u e
r e s u l t s [ i , 3 ] <− pvalfmax
r e s u l t s [ i , 4 ] <− ncvTest (m) $p
r e s u l t s [ i , 5 ] <− l e v e n e T e s t ( r , t r a t a ) [ 1 , 3 ]
r e s u l t s [ i , 6 ] <− l e v e n e T e s t ( r , t r a t a , c e n t e r=mean) [ 1 , 3 ]
r e s u l t s [ i , 7 ] <− C. t e s t (m) $p . v a l u e
r e s u l t s [ i , 8 ] <− 1∗ (CFF( r , t r a t a ) >0.4578)
print ( i )
}
colnames ( r e s u l t s )<−c ( ” B a r t l e t t p v a l ” , ” F l i g n e r p v a l ” , ”Fmax p v a l ” ,
”B−P p v a l ” , ” Levene Median p v a l ” , ” Levene Mean p v a l ” ,
” Cochran p v a l ” , ”CFF p v a l e s t ” )
colMeans ( r e s u l t s [ , 1 : 7 ] < 0 . 0 5 )
mean( r e s u l t s [ , 8 ] )
###### a=7 y a=10
l i b r a r y (GAD)
library ( car )
library ( SuppDists )
library ( lmtest )
CFF<−function ( y , t r a t a ) {
m <− lm( y˜ t r a t a )
v a r e<−data . frame ( aggregate ( rstudent (m) , l i s t ( t r a t a ) , var ) )
c<−max( v a r e $x ) /sum( v a r e $x )
return ( c )
}
set . s e e d ( 1 4 1 5 )
nr <− 1000
sigma1 <− 1
sigma2 <− 1
sigma3 <− 2
a <− 10
n <− 21
r e s u l t s <− data . frame ( matrix (NA, nrow=nr , ncol =8) )
f o r ( i i n 1 : nr ) {
colMeans ( r e s u l t s [ , 1 : 7 ] < 0 . 0 5 )
mean( r e s u l t s [ , 8 ] )
###########################
# Caso D e s b a l a n c e a d o #
###########################
l i b r a r y (GAD)
library ( car )
library ( SuppDists )
library ( lmtest )
CFF<−function ( y , t r a t a ) {
m <− lm( y˜ t r a t a )
v a r e<−data . frame ( aggregate ( rstudent (m) , l i s t ( t r a t a ) , var ) )
c<−max( v a r e $x ) /sum( v a r e $x )
return ( c )
}
set . s e e d ( 1 4 1 5 )
nr <− 1000
sigma1 <− 1
sigma2 <− 2
sigma3 <− 3
a <− 3
n <− c ( 2 5 , 2 6 , 2 7 )
armonic <− 1/ (mean( 1 /n ) )
( armonic <− c e i l i n g ( armonic ) )
colMeans ( r e s u l t s [ , 1 : 7 ] > 0 . 0 5 )
mean( r e s u l t s [ , 8 ] )
###########################
# G r á f i c o s #
###########################
library ( ggplot2 )
g g p l o t ( data , a e s ( n ) )+
geom l i n e ( a e s ( y = B a r t l e t t , c o l o u r = ” B a r t l e t t ” ) )+geom p o i n t ( a e s ( n , B a r t l e t t ) )+
geom l i n e ( a e s ( y = F l i g n e r , c o l o u r = ” F l i g n e r ” ) )+geom p o i n t ( a e s ( n , F l i g n e r ) )+
geom l i n e ( a e s ( y = Fmax , c o l o u r = ”Fmax” ) )+geom p o i n t ( a e s ( n , Fmax) )+
geom l i n e ( a e s ( y = Breusch . Pagan , c o l o u r = ” Breusch Pagan ” ) )+geom p o i n t ( a e s ( n , Breusch .
Pagan ) )+
geom l i n e ( a e s ( y = Levene . Median , c o l o u r = ” Levene median ” ) )+geom p o i n t ( a e s ( n , Levene .
Median ) )+
geom l i n e ( a e s ( y = Levene . Mean , c o l o u r = ” Levene mean” ) )+geom p o i n t ( a e s ( n , Levene . Mean ) )+
geom l i n e ( a e s ( y = CFF, c o l o u r = ”CFF” ) , s i z e =0.3)+geom p o i n t ( a e s ( n , CFF) )+
l a b s ( x = ”Tamaño de l a muestra ” , y =” P o t e n c i a ” , c o l o u r = ” ” )+theme bw ( )+
f a c e t grid ( grupo ˜ . )
Referencias
[1] William Gemmell Cochran. The distribution of the largest of a set of estimated variances as a
fraction of their total. 1941.
[2] Francisco Cribari and Gauss M. Cordeiro. On bartlett and bartlett-type corrections.
[6] Howard Levene. Contributions to probability and statistics: Essays in honor of harold hotelling.
1960.
[7] R Development Core Team. R: A Language and Environment for Statistical Computing. R Foun-
dation for Statistical Computing, Vienna, Austria, 2008. ISBN 3-900051-07-0.
[8] Snedecor and Cochran. Statistical methods. Iowa State University Press, 1983.
[9] George Waddel Snedecor and William Gemmell Cochran. Statistical methods, eighth edition. Iowa
State University Press, 1989.
[10] M.E Johnson W.J Conover and M.M Johnson. A comparative study of the test for homogeneity of
variances, with applications to the outer continental shelf bidding data. 1981.
[11] Zhang and Gutiérrez. Teorı́a estadı́stica aplicaciones y métodos. Universidad Santo Tomas, 2010.
[12] Shuqiang Zhang. Fourteen homogeneity of variance tests: When and how to use them. 1998.