Está en la página 1de 45

Facultad de Estadı́stica

Trabajo de Grado
Enero 2017

UNA NUEVA PRUEBA PARA EL PROBLEMA DE


IGUALDAD DE VARIANZAS
A NEW TEST FOR THE PROBLEM OF EQUALITY VARIANCE

Mario Felipe Garcia Calvo.a Director: Andrés Felipe Ortı́z Rico.b


mariogarciac@usantotomas.edu.co andresortiz@usantotomas.edu.co

Resumen

En este documento se desarrolla la propuesta de una nueva prueba para el problema de igualdad de
varianzas como un aporte a la literatura estadı́stica. Se repasan conceptos básicos para tratar el tema
como lo son: hipótesis estadı́stica, error de tipo I y II, potencia de una prueba, varianza, permutaciones;
entre otros. Se establecen los objetivos del trabajo los cuales se desarrollan a lo largo de este documento ası́
como también se menciona la metodologı́a que se usa para lograr dichos objetivos, se hace una explicación
profunda de cada paso y herramienta que se utiliza para la construcción de la prueba propuesta y para la
realización de los objetivos planteados. También se presentan los resultados obtenidos a través de gráficas
que facilitan entender lo encontrado al lector y se muestran las conclusiones de todo el trabajo realizado.
Seguido se proponen algunos trabajos futuros y expectativas que quedaron luego de la realización de este
trabajo y finalmente se presentan los códigos del software utilizado con los cuales se realizó el trabajo y
algunas tablas correspondientes a la investigación.
Palabras clave: Varianza, prueba, error tipo I y II, potencia, igualdad, librerı́a.

Abstract

This paper develops the proposal of a new test for the problem of equality of variances as a contribution
to the statistical literature. Basic concepts are discussed to treat the subject as they are: error of type
I and II, power of a test, variance, permutations; among others. It establishes the objectives of the
work which are developed throughout this document as well as the methodology used to achieve these
objectives, a thorough explanation of each step and tool used for the construction of the test Proposal
and for the achievement of the stated objectives. Also presented are the results obtained through graphs
that facilitate to understand what was found to the reader and show the conclusions of all the work
done. Some proposed future work and expectations after the completion of this work and finally the
codes of the software used with which the work was done and some tables corresponding to the research
are presented.
Keywords: Variance, test, type I and type II errors, power, equal, library.

a Estudiante de estadı́stica Universidad Santo Tomás Bogotá


b Docente de estadı́stica Universidad Santo Tomás Bogotá

1
2 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

Introducción

Dentro del quehacer académico y laboral de la estadı́stica, es muy frecuente enfrentarse al problema de
comparar la varianza de varias poblaciones, es uno de los tópicos tratados en cursos como inferencia
estadı́stica, diseño de experimentos, series de tiempo y modelos lineales, además, ayuda a la solución de
problemas que surgen en muchas ciencias. Para la solución de este problema, existen muchas pruebas
que han sido propuestas en la literatura, cada una de ellas con un desempeño especı́fico. Cuando nuestro
problema se trata de 2 muestras y se cumple con el supuesto de normalidad, la prueba uniformemente
mas potente es la F de Fisher de acuerdo al teorema de Fisher-Neyman (Zhang & Gutiérrez 2010), pero
cuando tenemos mas de dos muestras, tenemos varias pruebas para utilizar pero no se tiene definido
que haya una que tenga mejor desempeño que las demás. Se necesita inventariar las pruebas existentes
y proponer una con bajo nivel de error tipo I y con alta potencia. Otro inconveniente que tenemos los
estadı́sticos es que cuando necesitamos usar estas pruebas de varianza existentes, nos encontramos con
que las pruebas están dispersas en diferentes paquetes, razón por la cual, se ve la necesidad de construir
una librerı́a que agrupe todas las pruebas.
Cuando nos referimos a los antecedentes de esta investigación nos encontramos con que es un trabajo
que se realiza frecuentemente en el mundo estadı́stico dado que se conoce el problema y aún no se
obtiene una solución concreta y veraz. Maurice Stevenson Bartlett, estadı́stico Inglés muy conocido por
el mundo de la matemática y la estadı́stica, fue uno de los pioneros en el tema. En el año 1937 publicó
en un articulo llamado “Properties of sufficiency and statistical tests” en donde propuso la conocida
prueba de Bartlett que se utiliza para la igualdad de varianzas en k muestras. George Edward Pelham
BartlettBox, estadı́stico británico, 16 años después (1953), publica en un articulo (“Non-normality and
tests on variances”) una nueva prueba para este problema y en 1960, tan solo 7 años después, H.Levene
propone una nueva prueba (conocida como prueba de Levene). Estos son solo algunos ejemplos para
mostrar que este es un tema que se trabaja mucho en la literatura estadı́stica y a lo largo del documento
se observan otros ejemplos de pruebas propuestas a lo largo de la historia.

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 3

1. Marco Teórico

1.1. Hipótesis

Se les denomina ası́ a los supuestos (hipótesis) realizados con respecto a un parámetro o estadı́stico
(varianza, media, proporción, entre otros).
En este paso se definen dos tipos de hipótesis:

H0 Hipótesis nula.
H1 Hipótesis alterna (de la cual se sospecha pudiera ser cierta, es planteada por el investigador).

1.2. Error tipo I y II

Error Tipo I Si rechaza la hipótesis nula cuando ésta es verdadera, usted comete un error de tipo I. La
probabilidad de cometer un error de tipo I es α, que es el nivel de significancia que se establece para
la prueba de hipótesis. Un α de 0.05 indica que usted está dispuesto a aceptar una probabilidad de
5 % de que está equivocado cuando rechaza la hipótesis nula. Para reducir este riesgo, debe utilizar
un valor más bajo para α. Sin embargo, si utiliza un valor más bajo para alfa, significa que tendrá
menos probabilidades de detectar una diferencia verdadera, si es que realmente existe.
Error Tipo II Cuando la hipótesis nula es falsa y usted no la rechaza, comete un error de tipo II. La
probabilidad de cometer un error de tipo II es α, que depende de la potencia de la prueba. Puede
reducir su riesgo de cometer un error de tipo II al asegurarse de que la prueba tenga suficiente
potencia. Para ello, asegúrese de que el tamaño de la muestra sea lo suficientemente grande como
para detectar una diferencia práctica cuando ésta realmente exista.

Figura 1: Error tipo I y II

1.3. Potencia de una prueba

Es la probabilidad que tiene la prueba estadı́stica para rechazar una hipótesis nula falsa. Tiene un rango
de 0 a 1 y está inversamente relacionada con el error de tipo II. En este estudio se requiere medir
la potencia de las pruebas de varianza inventariadas junto con la prueba propuesta y trabajar para
maximizar la potencia de nuestra prueba.
La potencia de una prueba estadistica está relacionada con el tamaño de muestra, el valor de alfa (α) y
el tamaño del efecto.

Facultad de Estadı́stica Trabajo de Grado Enero 2017


4 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

Potencia Error Tipo II


0.0 Si hay un efecto será detec-
1.0
tado
0.2 Si hay un efecto será detec-
0.8
tado el 80 % de las veces
0.5 Si hay un efecto será detec-
0.5
tado el 50 % de las veces
0.8 Si hay un efecto será detec-
0.2
tado el 20 % de las veces
1.0 Si hay un efecto, nunca será
0.0
detectado

Tabla 1: Potencia de una prueba estadı́stica.

1.4. Descripción pruebas estudiadas

1.4.1. F-Test

La distribución F se forma por la división de dos variables chi-cuadrado independientes divididas por
sus grados de libertad respectivos y es por esto que la distribución F hereda varias de las propiedades
de la chi-cuadrado.

Este test se utiliza para probar si las varianzas de dos muestras (independientes) son iguales y este
interés en términos de la hipótesis que se quiere probar es:

H0 : σx2 = σy2 (1)

H1 : σx2 6= σy2 . (2)


El valor de la F se calcula con la división de las varianzas muestrales como se muestra en la siguiente
formula:

s21
F= , (3)
s22
n
X
(m − 1) (Xi − X̄)2
i=1
F= m , (4)
X
2
(n − 1) (Yi − Ȳ )
i=1

dónde s21 > s22 y esta tiene una distribución F con m − 1 y n − 1 grados de libertad bajo H0 . La prueba
rechaza la hipótesis nula para:
F > Fα . (5)
,N1 −1,N2 −1
2
Algunos supuestos para esta prueba son:

El valor de la F siempre será mayor que 1.

Dividir en 2 el alfa (α) para una prueba de dos colas (igualdad de varianzas) y luego encontrar el
valor crı́tico a la derecha.

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 5

Las poblaciones de las que se obtuvieron las muestras deben ser normales.
Las muestras deben ser independientes.

Descripción de la prueba:
Librerı́a: stats
Código: var.test()
Autores: George Waddel Snedecor y William Gemmell Cochran
Artı́culo: Statistical Methods, Eighth Edition, Iowa State University Press.
Año: 1989
Válida para: 2 muestras

1.4.2. Cochran’s C Test

Dado k grupos de datos, algunos análisis suponen que las varianzas son iguales para los k grupos. Por
ejemplo, la prueba F usada en el análisis de un factor de varianza puede ser sensible a las varianzas
desiguales en los k niveles del factor. Las pruebas de Levene y Bartlett son ampliamente utilizadas
para evaluar la homogeneidad de las varianzas en el caso de un factor (con k niveles). La prueba de la
varianza de Cochran creada por William G. Cochran es otra alternativa para evaluar la homogeneidad
de las varianzas.
Aunque la prueba de Cochran tiene un propósito similar a las pruebas de Levene y Bartlett, tiende
a utilizarse en un contexto algo diferente. La prueba de Levene y Bartlett se utiliza para evaluar la
homogeneidad general y se usan tı́picamente en el contexto de decidir si una prueba especı́fica (por
ejemplo, una prueba F) es apropiada para un conjunto dado de datos. Estas pruebas no identifican qué
varianzas son diferentes. Por otro lado, la prueba de la varianza de Cochran tiende a ser utilizada en el
contexto de las pruebas de aptitud.
La prueba de Cochran es esencialmente una prueba atı́pica. La estadı́stica de prueba original de Cochran
se define como:

Sj2
Cj = k
, (6)
X
Si2
i=1
donde:
Cj = Estadı́stica C de Cochran para el conjunto de datos j
Sj = La desviación estándar mayor del conjunto de datos j
k = Número de grupos de datos que permanecen en el conjunto de datos
Si = Desviaciones estándar del conjunto de datos i (1 ≤i≤N)

Las hipótesis bajo las cuales trabaja la prueba son:

H0 : Todas las varianzas son iguales


H1 : Al menos una varianza es significativamente mayor que las otras.

Valores crı́ticos
La varianza muestral de la serie de datos j se considera un valor atı́pico al nivel de significancia α, si Cj
excede el valor crı́tico del lı́mite superior CU L . CU L depende del nivel de significancia dado α, el número
de series de datos N consideradas y del número de puntos de datos (n) por serie de datos.
Los valores para CU L se calculan a partir de:
 −1
k−1
CU L (α, n, k) = 1 + , (7)
Fc (α/k, (n − 1), (k − 1)(n − 1))

Facultad de Estadı́stica Trabajo de Grado Enero 2017


6 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

donde:
CU L = Valor crı́tico del lı́mite superior para la prueba unilateral en un diseño equilibrado
α = Nivel de significancia
n = Número de datos por conjunto de datos
Fc = Valor crı́tico de la distribución F de Fisher el cuál se puede obtener mediante las tablas de la
distribución o un software especializado

Generalización
La prueba C se puede generalizar para incluir diseños desbalanceados, pruebas de lı́mite inferior unilate-
ral y pruebas de dos colas en cualquier nivel de significancia α, para cualquier número de series de datos
k, y para cualquier número de puntos de datos individuales nj en la serie de datos j.

Descripción de la prueba:
Librerı́a: GAD
Código: C.test()
Autores: William Gemmell Cochran
Artı́culo: The distribution of the largest of a set of estimated variances as a fraction of their total.
Año: 1941
Válida para: k muestras

1.4.3. Hartley’s Fmax Test

En estadı́stica el test de Hartley, mas conocido como Fmax es usado para el análisis de varianza para
verificar si grupos diferentes tienen una varianza similar.
La prueba implica calcular la razón entre la varianza mas grande de los grupos y la varianza mas pequeña
(esta es la estadı́stica de prueba). La razón resultante (Fmax ), se compara con los valores crı́ticos de las
tablas de la distribución Fmax . Si el estadı́stico de prueba calculado es menor que el valor crı́tico, se
supone que los grupos tienen varianzas similares o iguales.
La prueba de Hartley supone que los datos para cada grupo se distribuyen normalmente, y que cada
grupo tiene un número igual de elementos. Esta prueba, aunque conveniente, es bastante sensible a las
violaciones de la suposición de normalidad.

Estadı́stico de prueba

maxSi2
Fmax =
minSj2

Descripción de la prueba:
Librerı́a: SuppDists
Código: pmaxFratio() (no hay un código directo, el p-valor se saca en base a la distribución)
Autores: Herman Otto Hartley
Artı́culo: The use of Range in Analysis of variance.
Año: 1950
Válida para: k muestras

1.4.4. Bartlett Test

La prueba de Bartlett se usa para probar si k muestras tienen varianzas iguales. La igualdad de varianzas
entre muestras se denomina homogeneidad de varianzas. Algunas pruebas estadı́sticas, por ejemplo el

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 7

análisis de varianza, suponen que las varianzas son iguales entre grupos o muestras. La prueba de Bartlett
se puede utilizar para verificar esa suposición.
La prueba de Bartlett es sensible a las salidas de la normalidad. Es decir, si las muestras provienen
de distribuciones no normales, entonces la prueba de Bartlett puede ser simplemente la prueba de no
normalidad.
Las hipótesis bajo las cuales trabaja la prueba son:

H0 : σ12 = σ22 = σ32 ... = σk2

H1 : σi2 6= σj2 , para al menos un par (i, j)

Estadı́stico de prueba
La estadı́stica de la prueba de Bartlett está diseñada para probar la igualdad de varianzas entre grupos
con la alternativa de que las varianzas son desiguales para al menos dos grupos.
k
X
(N − k) ln Sp2 − (Ni − 1) ln Si2
i=1
T= k
, (8)
X
1 + (1/(3(k − 1)))(( 1/(Ni − 1)) − 1/(N − k))
i=1

donde:
Si2 = Varianza del i-ésimo grupo
N = Tamaño total de la muestra
Ni = Tamaño de la muestra del i-ésimo grupo
k = Número de grupos
Sp2 = La varianza agrupada. La varianza agrupada es un promedio ponderado de las varianzas del grupo
y se define como:

k
X
(Ni − 1) Si2
i=1
Sp2 = (9)
(N − k)

La prueba trabaja con un nivel de significancia α y las desviaciones se consideran diferentes si:
T > χ21−α,k−1 (10)

donde χ21−α,k−1 es el valor crı́tico de una distribución chi cuadrado con k − 1 grados de libertad y a un
nivel de significancia α.
Descripción de la prueba:
Librerı́a: stats
Código: bartlett.test()
Autores: Snedecor y Cochran
Artı́culo: Statistical Methods, Eighth Edition, Iowa State University Press
Año: 1983
Válida para: k muestras

1.4.5. Levene’s Test

La prueba de Levene se usa para probar si k muestras tienen varianzas iguales. La prueba de Levene
es una alternativa a la prueba de Bartlett. La prueba de Levene es menos sensible que la prueba de

Facultad de Estadı́stica Trabajo de Grado Enero 2017


8 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

Bartlett ante la violación del supuesto de normalidad. Si se tiene una fuerte evidencia de que los datos
en realidad provienen de una distribución normal, o casi normal, entonces la prueba de Bartlett tiene un
mejor rendimiento.
Las hipótesis bajo las cuales trabaja la prueba son:

H0 : σ12 = σ22 = σ32 ... = σk2

H1 : σi2 6= σj2 , para al menos un par (i, j)

Estadı́stico de prueba
Dada una variable Y con una muestra de tamaño N dividida en k subgrupos, donde Ni es el tamaño de
muestra del i-ésimo subgrupo, el estadı́stico de prueba de Levene se define como:
k
X
Ni (Z¯i . − Z¯i ..)2
(N − k) i=1
W= (11)
(k − 1) X
k XNi
(Z¯ij − Z¯i .)2
i=1 j=1

donde Zij puede tomar 3 valores:

1. Zij = |Yij − Y¯i .|


donde Y¯i . es la media de los i-ésimos subgrupos

2. Zij = |Yij − Y˜i .|


donde Y˜i . es la mediana de los i-ésimos subgrupos

3. Zij = |Yij − Y¯i0 .|


donde Y¯i0 . es la media recortada al 10 % de los i-ésimos subgrupos

Z¯i. es el grupo de medias de Zij y Z¯.. es la media general de Zij

Las tres opciones para definir Zij determinan la potencia la prueba de Levene. Por potencia nos referimos
a la capacidad de la prueba para detectar desigualdades cuando las varianzas son de hecho desiguales o
la probabilidad de que la hipótesis nula sea rechazada cuando la hipótesis alternativa es verdadera (es
decir, la probabilidad de no cometer un error del tipo II).
La prueba trabaja con un nivel de significancia α y rechaza la hipótesis de que las varianzas son iguales
si:
W > Fα,k−1,N −k (12)

donde Fα,k−1,N −k es el valor crı́tico superior de una distribución F con k − 1 y N − k grados de libertad
y a un nivel de significancia α.
El trabajo original de Levene sólo propuso usar la media. Brown y Forsythe (1974) extendieron el test
de Levene para usar la mediana o la media recortada además de la media. Realizaron estudios de Monte
Carlo que indicaron que el uso de la media recortada se comportó mejor cuando los datos subyacentes
siguieron una distribución de Cauchy (es decir, de cola pesada) y la mediana se comportó mejor cuando
los datos subyacentes siguieron una distribución χ2 (es decir, sesgada). El uso de la media proporcionó la
mejor potencia para las distribuciones simétricas de cola moderada. Aunque la elección óptima depende
de la distribución subyacente, se recomienda la definición basada en la mediana como la opción que
proporciona buena robustez frente a muchos tipos de datos no normales mientras se conserva una buena

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 9

potencia. Si tiene conocimiento de la distribución subyacente de los datos, esto puede indicar el uso de
una de las otras opciones.
Descripción de la prueba:
Librerı́a: car
Código: leveneTest()
Autores: Howard Levene
Artı́culo: Contributions to Probability and Statistics: Essays in Honor of Harold Hotelling.
Año: 1960
Válida para: k muestras

1.4.6. Breusch-Pagan Test

En estadı́stica la prueba de Breusch-Pagan se utiliza para probar la heterocedasticidad en un modelo


de regresión lineal. Prueba si la varianza de los errores de una regresión depende de los valores de las
variables independientes. En ese caso, la heteroscedasticidad está presente.
Suponga que se estima el modelo de regresión:

y = β0 + β1 x + µ (13)

y obtenemos un conjunto de valores para û, los residuos. Con las restricciones de los Mı́nimos Cuadrados
Ordinarios la media es 0, de modo que dada la suposición de que la varianza no depende de las variables
independientes, la estimación de la varianza se puede obtener a partir de la media de los valores al cua-
drado. Si la suposición no fuera correcta, podrı́a ocurrir que la varianza estuviera relacionada linealmente
con las variables independientes. El supuesto de varianza constante se puede examinar haciendo una re-
gresión de los residuos al cuadrado respecto de las variables independientes, empleando una ecuación de
la forma:
û2 = γ0 + γ1 x + ν (14)
Esta es la base de la prueba. Si el test-F confirma que las variables independientes son significativas,
entonces se puede rechazar la hipótesis nula de homocedasticidad.
El test de Breusch-Pagan para heterocedasticidad es una prueba chi cuadrado donde el estadı́stico de
prueba es nχ2 con k grados de libertad. Prueba la hipótesis nula de homoscedasticidad. Si el valor de la
Chi cuadrado es significativo con un valor de p por debajo de un umbral apropiado, entonces la hipótesis
nula de homoscedasticidad es rechazada y se asume la heteroscedasticidad. Si la prueba de Breusch-Pagan
demuestra que hay heterocedasticidad condicional, la regresión original puede ser corregida usando el
método de Hansen, utilizando errores estándar robustos o re-ajustando la ecuación de regresión cam-
biando y/o transformando variables independientes.

Estadı́stico de prueba
El siguiente multiplicador de Lagrange (LM) proporciona la estadı́stica de prueba para la prueba de
Breusch-Pagan:
 0   2 −1  
∂` ∂ ` ∂`
LM = −E 0
. (15)
∂θ ∂θ ∂θ ∂θ

La prueba sigue los siguientes 3 pasos:

1. Paso 1: Aplicar MCO al modelo:


y = Xβ + ε. (16)
calcular los residuales.

Facultad de Estadı́stica Trabajo de Grado Enero 2017


10 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

2. Armar la regresión auxiliar:

e2i = γ1 + γ2 z2i + · · · + γp zpi + ηi . (17)

Siempre, z podrı́a ser parcialmente reemplazado por variables independientes x.

3. La estadı́stica de prueba es el resultado del coeficiente de determinación de la regresión auxiliar en


el paso 2 y el tamaño de la muestra n con:

LM = nR2 . (18)

La estadı́stica de prueba se distribuye asintóticamente como χ2p−1 bajo la hipótesis nula de homos-
cedasticidad.

Descripción de la prueba:
Librerı́a: car
Código: ncvTest()
Autores: T.S Breuch y A.R Pagan
Artı́culo: A simple test fot heterosttedasticity and random coefficient variation.
Año: 1979
Válida para: k muestras

1.4.7. Fligner-Killeen Test

La prueba Fligner-Killeen hace un trabajo bastante similar a la de Levene, lo que significa que comprueba
la homogeneidad de la varianza, pero es una opción mucho mejor cuando los datos no están distribuidos
normalmente o cuando los problemas relacionados con los valores atı́picos en el conjunto de datos no
pueden ser resueltos.

Estadı́stico de prueba
El procedimiento Fligner-Killeen, modificado por Conover, para probar homogeneidad de varianzas con-
siste en lo siguiente:

1. Ordene las variables Xij − X
ei de menor a mayor, donde X
ei es la mediana de las ni observaciones

de la población i.

2. Defina:  
1 i
aN,i = Φ−1 + para i = 1, ..., N (19)
2 2 (N + 1)
donde Φ(z) es la distribución acumulada N (0, 1) de −∞ a z y ası́ Φ−1 (p) es el percentil 100p de la
distribución N (0, 1).

3. Sea
N
X aN, j
ai = (20)
ni
j∈Gi

donde Gi denota la muestra de la población i, i, ..., k. Y

N
X aN, j
a= (21)
j=1
N

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 11

Entonces el estadı́stico de prueba es:


k
X 2
ni (ai − a)
i=1
x= N
(22)
X 2
(aN, j − a)
j=1
(n − 1)
Este estadı́stico bajo H0 se distribuye aproximadamente χ2k−1 . La prueba de Fligner es menos
sensible a violaciones del supuesto de normalidad (Mandasky 1988).

Descripción de la prueba:
Librerı́a: stats
Código: fligner.test()
Autores: W.J Conover, M.E Johnson, M.M Johnson
Artı́culo: A comparative study of the test for homogeneity of variances, with applications to the outer
continental shelf bidding data.
Año: 1981
Válida para: k muestras

1.5. Permutaciones

Una permutación es la variación del orden o de la disposición de los elementos de un conjunto ordenado
o un vector sin elementos repetidos, esta herramienta se enlaza con el concepto de Bootstrapping que
es un método de remuestreo que se utiliza para aproximar la distribución de un estadı́stico. Se usa
frecuentemente para aproximar el sesgo o la varianza de un análisis estadı́stico, ası́ como para construir
intervalos de confianza o realizar contrastes de hipótesis sobre parámetros de interés. En la mayor parte
de los casos no pueden obtenerse expresiones cerradas para las aproximaciones bootstrap y por lo tanto
es necesario obtener remuestras en un ordenador para poner a prueba el método. La enorme potencia
de cálculo de los ordenadores actuales facilita considerablemente la aplicabilidad de este método tan
costoso computacionalmente. En este trabajo se consideró este método para estimar el valor p a través
de generar permutaciones para el estadı́stico de prueba.
Para claridad de esta herramienta presentaremos un ejemplo sencillo: Se tiene un vector de números
aleatorios de tamaño 5 (n = 5)
Y = (1.188, 1.282, −0.359, 0.939, 0.037, 3.030) (23)
El estadı́stico de prueba para este vector de números es:
E1 = 0.9654594 (24)
Ahora, hacemos una permutación sobre nuestro vector Y quedándonos ası́:
Y = (0.037, 3.030, 1.188, 1.282, −0.359, 0.939) (25)
(Podemos ver que son los mismos números pero en diferente orden). Calculamos de nuevo el estadı́stico
de prueba y obtenemos el siguiente:
E2 = 0.6046444 (26)
Con este ejemplo se puede observar que al hacer permutaciones a un vector Y dado obtenemos valores
diferentes del estadı́stico de prueba y esto sirve para estimar el valor p de la prueba propuesta.
La estimación del valor p a través de esta herramienta vendrı́a dado por:
#Estadisticos > E1
V\
alorp = (27)
#Permutaciones

Facultad de Estadı́stica Trabajo de Grado Enero 2017


12 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

2. Objetivos

2.1. Objetivo General

Proponer una nueva prueba para el problema de igualdad de varianzas en varias muestras.

2.2. Objetivo Especı́ficos

Construir un inventario de pruebas de varianza.


Cuantificar los errores de tipo I y II de las pruebas inventariadas.
Comparar el desempeño de la prueba propuesta contra las pruebas usuales usadas dentro del campo
estadı́stico en términos del error de tipo I y II.
Construir una librerı́a en R que agrupe las pruebas de varianza inventariadas.

3. Metodologı́a

La metodologı́a que se usará en este trabajo se basa en 5 puntos fundamentales:

Literatura Se buscarán los artı́culos que hagan referencia al tema ya que es algo que se investiga muy
frecuente en la estadı́stica, se leerán y analizaran para verificar lo que otras personas han hecho o
propuesto. También se leerá la literatura sobre las pruebas clásicas más conocidas.
Propuesta de la nueva prueba Se explicarán los principios que promueven la creación de la nueva
prueba, ası́ como al estadı́stico de prueba que se utilizará, su distribución bajo la hipótesis nula y
los supuestos necesarios.
Ejercicios de simulación para comparación de las pruebas Se harán simulaciones en R para po-
der verificar el desempeño de las pruebas inventariadas y ası́ mismo de la prueba propuesta. Con
estas simulaciones lo que buscaremos es encontrar el nivel de error tipo I y II además de la potencia
de cada prueba.
Programación y construcción de la librerı́a en R Se elaborará una librerı́a en R la cual agrupe
todas las pruebas inventariadas para brindar esa facilidad de encontrarlas todas en un mismo
paquete al usuario.
Documentación Elaborar un documento final en donde se relacione todo lo elaborado en el trabajo al
igual que una presentación para mostrar los resultados obtenidos.

3.1. Prueba propuesta

3.1.1. Motivación

En estadı́stica es común validar los supuestos de un modelo de regresión para determinar si este es
adecuado dado que si no lo es este representará incorrectamente los datos. Por ejemplo:

Los errores estándar de los coeficientes podrı́an estar sesgados, conduciendo a valores t y p inco-
rrectos.
Los coeficientes pueden tener el signo incorrecto.

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 13

El modelo puede verse afectado por uno o dos puntos.

Dado el modelo
Y = β0 + β1 X + ε (28)
los supuestos a validar son:

Correcta especificación del modelo E(ε) = 0

E(Yj ) = β0 + β1 X (29)

Homogeneidad de varianza en los errores V ar(εj ) = σ 2

V ar(Yj ) = σ 2 ; j = 1, 2, ..., n (30)

No correlación de los errores


Cov(εi , εj ) = 0 ∀ i 6= j (31)

Distribución normal de los errores


ε ∼ N ormal(0, σ 2 ) (32)

El éxito en el ajuste de un modelo de regresión, la validez de los hallazgos y las conclusiones obtenidas,
dependen de los supuestos del modelo.

Vamos a enfocarnos en los errores del modelo, tenemos tres supuestos sobre estos:

Homogeneidad de varianza en los errores V ar(εj ) = σ 2

No correlación de los errores

Distribución normal de los errores

Cuando trabajamos un modelo de regresión y calculamos los residuales estimados los obtenemos de la
siguiente manera:
ε̂ = Y − Ŷ (33)
ε̂ = (I − H)Y (34)
donde H = X(X t X)−1 X t .
Se espera que estos residuales sean independientes y tengan varianza constante, pero esto siempre es un
problema a la hora de validar el modelo, ya que estos dos supuestos muy rara vez se cumplen porque
teóricamente los residuales no son independientes ni tienen varianza constante, ası́ que, se torna algo
ilógico validar unos supuestos que por definición estadı́stica no tiene ese comportamiento.
Se espera que la varianza de los residuales se comporte de la siguiente manera:

V ar(ε̂) = (I − H)V ar(Y )(I − H) (35)

V ar(ε̂) = σ 2 (I − H) (36)
Pero como se viene diciendo, estos supuestos por definición estadı́stica (teorı́a), no se cumplen. Luego
de ver este inconveniente y después de indagar en las herramientas estadı́sticas, nos encontramos con los
residuales estudentizados los cuales tienen caracterı́sticas y propiedades que nos permitirı́an solucionar
el inconveniente de los supuestos y ası́ mismo obtener mejores resultados.

Facultad de Estadı́stica Trabajo de Grado Enero 2017


14 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

Residuales estudentizados Un residual estudentizado es el resultado de dividir un residual entre su


desviación estándar estimada. Este se calcula con las n − 1 observaciones restantes. La principal razón
para estudentizar un residual es que, como lo habı́amos mencionado antes, en el análisis de regresión, las
varianzas de los residuales son en la mayorı́a de veces, diferentes, incluso si las varianzas de los errores
en los diferentes valores de las variables de entrada. son iguales.
Consideremos el siguiente modelo:
Y = β0 + β1 X + ε. (37)

Dada una muestra aleatoria (Xi , Yi ), i = 1, ..., n, cada par (Xi , Yi ) satisface:

Yi = β0 + β1 Xi + εi , (38)

donde los errores εi son independientes y todos tienen la misma varianza σ 2 . Los residuales no son los
errores verdaderos, e inobservables, sino más bien son estimaciones, basadas en los datos observables, de
los errores. Cuando el método de mı́nimos cuadrados se utiliza para estimar β0 y β1 entonces los residuales
ε̂, a diferencia de los errores, ε, no pueden ser independientes ya que satisfacen las dos restricciones
n
X
εbi = 0 (39)
i=1

n
X
εbi yi = 0. (40)
i=1

donde εi es el i-ésimo error y εˆi es el i-ésimo residual.


Además, y lo que es más importante, los residuales, a diferencia de los errores, no tienen todos la
misma varianza: la varianza disminuye a medida que el valor Y correspondiente se aleja del valor Y
promedio. Esto también puede verse porque los residuales en los extremos dependen en gran medida de
la pendiente de una lı́nea ajustada, mientras que los residuales en el centro son relativamente insensibles
a la pendiente. El hecho de que las varianzas de los residuales difieran, a pesar de que las varianzas de
los errores verdaderos son todas iguales entre sı́, es la razón principal de la necesidad de estudentizar.
Cómo estudentizar

Para un modelo sencillo, la matriz de diseño es:


 
1 y1
 .. .. 
X = . . (41)
1 yn

Y la matriz estimada H es la matriz de la proyección ortogonal sobre el espacio de la columna de la


matriz de diseño:
H = X(X T X)−1 X T . (42)
La hii de apalancamiento es la i-ésima entrada diagonal en la matriz estimada. La varianza del i-ésimo
residuo es:
εi ) = σ 2 (1 − hii ).
var(b (43)
En el caso de que la matriz de diseño Y tenga sólo dos columnas (como en el ejemplo anterior), esto es
igual a !
2 1 (xi − x̄)2
εi ) = σ 1 − − Pn
var(b 2
. (44)
n j=1 (xj − x̄)

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 15

El correspondiente residual estudentizado es entonces


εbi
ti = q (45)
σc2 (1 − hii )

En base a esto lo mejor es verificar los supuestos sobre los residuales estudentizados y si no pasan las
validaciones entonces el modelo realmente está fallando.
Hasta ahora todo lo que hemos visto es a manera general pero para la prueba propuesta pasaremos
a algo mas especı́fico y son los modelos a una vı́a de clasificación o mejor conocidos como los diseños
completamente al azar.

Diseños Completamente al Azar Este diseño surge como la extensión a las pruebas de diferencia
de medias cuando se tiene mas de dos grupos. En el caso general se tiene a grupos o tratamientos
correspondientes a los niveles de un factor y la hipótesis principal se centra en la igualdad de medias de
los a grupos. Como en la mayorı́a de diseños existen los balanceados y desbalanceados.
El modelo en un diseño completamente al azar es de la siguiente manera:
Yij = µ + τi + εij (46)
Donde:

µ Representa un efecto promedio común a todas las observaciones.


τi Representa el efecto del i-ésimo tratamiento (puede ser un tratamiento, grupo o muestra).
ε Representa el término de error del modelo.
yij Cada una de las observaciones de la tabla.
y .. Promedio de todas las observaciones.
y i. Promedio de cada tratamiento.
ni Cantidad de réplicas para cada tratamiento.

Estos modelos a una vı́a de clasificación y bajo el enfoque de los diseños completamente al azar en donde
se cuenta con una variable identificadora de grupos tienen un supuesto muy interesante:
V ar(Yij ) = V ar(εij ) (47)

En este punto juntamos las ideas de los residuales estudentizados y los diseños completamente al azar
para que estas sean la base de la prueba propuesta. Nos basamos en la prueba de Cochran para trabajar
sobre esta ya que es una prueba robusta y es común usarla en el diseño experimental.
Siendo ası́ la idea central del trabajo es construir la prueba de Cochran con residuales estudenti-
zados.
De aquı́ en adelante llamaremos a la prueba propuesta, CFF.

3.1.2. Estadı́stico de prueba

El estadı́stico de prueba para CFF es básicamente el mismo que el que se usa en la prueba C de Cochran.
Sabemos que para la prueba de Cochran el estadı́stico de prueba es el resultado de dividir la varianza
XN
mas grande del conjunto de datos j (Sj2 ) sobre la suma de las varianzas Si2 .
i=1

Facultad de Estadı́stica Trabajo de Grado Enero 2017


16 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

En nuestra prueba, el calculo de las varianzas, tanto la mayor de todos los grupos y la suma de todas, no
se hace sobre los residuales sino sobre los residuales estudentizados. Siendo ası́ el estadı́stico de prueba
es:
Sj2
CFFj = N , (48)
X
2
Si
i=1

donde:
CFFj = Estadı́stica CFF para el conjunto de datos j
Sj = La desviación estándar mayor del conjunto de datos j calculada con los residuales estudentizados
N = Número de grupos de datos que permanecen en el conjunto de datos
Si = Desviaciones estándar del conjunto de datos i (1 ≤i≤N) calculadas con los residuales estudentizados.
La hipótesis bajo la cual trabaja la prueba es:

H0 : Todas las varianzas de los grupos son iguales


H1 : Al menos una varianza de un grupo es significativamente mayor que las otras.

3.1.3. Percentiles

Los percetiles de la prueba CFF fueron calculados a partir de simulaciones las cuales se explicarán mas
adelante. En el anexo 1, se encontrarán las tablas de los percentiles para la prueba dado un número
determinado de grupos (a) y un tamaño de muestra especı́fico (n). Las tablas están para un nivel de
confiabilidad del 95 % y del 99 %.

3.1.4. Criterio de rechazo

Para rechazar la hipótesis nula que habla de que todas las varianzas de los grupos son iguales, se calcula
el estadı́stico de prueba de CFF y se compara con el percentil que aparece en la tabla que se encuentra en
el anexo 1, dado un a y un n especifico y bajo un nivel de confiabilidad (α), si este es mayor al percentil
correspondiente entonces se rechaza H0 .

3.2. Descripción de las simulaciones

Se realizaron simulaciones para 4 procesos:

Simulación con permutaciones para aproximar el valor p de la prueba CFF.


Estimación de los percentiles de la prueba CFF.
Comparar el desempeño de la prueba CFF contra las pruebas inventariadas en términos del error
tipo I.
Cuantificar los errores tipo II (potencia) de la prueba CFF y de las inventariadas.

Simulación con permutaciones para aproximar el valor p de la prueba CFF

Consideramos estimar el valor p a través de simulaciones las cuales se construyeron de la siguiente


manera:

Los datos simulados fueron sacados de una distribución normal con media 0 y varianza diferente,
es decir bajo la hipótesis alternativa (H1 ).

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 17

10.000 mil iteraciones de los Y.

Se simuló con 3 grupos (a=3).

Se realizaron 10.000 mil permutaciones.

Estimación de los percentiles de la prueba CFF

Se construyó la tabla de percentiles para CFF y con esta se calcula la decisión de rechazar o aceptar la
hipótesis nula. Las simulaciones fueron construidas ası́:

1. Se simulan N datos divididos en a grupos de tamaño n provenientes de una distribución normal


con media 0 y varianza constante igual a 1.

2. Se ajusta el modelo:
Y = r + trata + ε
donde r es el vector de nuestros datos y trata es el vector donde se encuentra la variable identifi-
cadora de grupos.

3. Se extraen los residuales estudentizados del modelo anterior.


Sj2
4. Se calcula el estadı́stico CFF según la ecuación CFFj = N
y los residuales estudentizados del
X
Si2
i=1
paso anterior.

5. Este proceso se repite 5.000 veces y al final se calculan los percentiles 95 y 99 del estadı́stico CFF.

6. El proceso se repite variando la cantidad de grupos a entre 3 y 10, ası́ como el tamaño de los grupos
entre 2 y 200.

Comparar el desempeño de la prueba CFF contra las pruebas inventariadas en términos


del error tipo I

Caso Balanceado
Para ver como trabajan las pruebas inventariadas y la prueba propuesta bajo la hipótesis nula (H0 ) se
realizaron simulaciones construidas de la siguiente manera:

1. Se simulan N datos divididos en a grupos de tamaño n provenientes de una distribución normal


con media 0 y varianza constante igual a 1.

2. Se ajusta el modelo:
Y = r + trata + ε
donde r es el vector de nuestros datos y trata es el vector donde se encuentra la variable identifi-
cadora de grupos.

3. Se extraen los residuales estudentizados del modelo anterior.


Sj2
4. Se calcula el estadı́stico CFF según la ecuación CFFj = N
y los residuales estudentizados del
X
Si2
i=1
paso anterior.

Facultad de Estadı́stica Trabajo de Grado Enero 2017


18 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

5. Se calcula el valor p para las demás pruebas.

6. Este proceso se repite 10.000 veces y se calcula el error de tipo I promedio para cada prueba.

7. El proceso se repite con una cantidad de grupos fijo (a = 3) y variando el tamaño de los grupos
entre 3 y 50.

Caso Desbalanceado
Se calcula una media armónica de los tamaños de los grupos y con el resultante se busca el percentil
para la prueba nueva.
1 1
n∗ = n = (49)
X 1 1 1
+ ··· +
n n1 nn
i=1 i

El proceso se repite 10.000 veces con un tamaño de grupos fijo (a = 3) y los ni de la siguiente manera:
Para a = 3:

n1 n2 n3
5 6 7
10 11 12
20 21 22
30 31 32
40 41 42
50 51 52

Cuantificar los errores tipo II (potencia) de la prueba CFF y de las inventariadas

Para el cálculo de la potencia se manejaron dos escenarios de la hipótesis alternativa.

1. Crecimiento progresivo

2. Crecimiento rápido

Durante el proceso de estudio de la potencia, los valores establecidos para cada escenario de la hipótesis
alternativa se establecieron con el objetivo de que para las pruebas fuera mas difı́cil detectar H1 y
asimismo la potencia no llegara tan rápido a 1.
Por ejemplo, para el crecimiento progresivo de H1 con 3 grupos (a=3), el valor de las varianzas para la
simulación de los datos fueron:

σ1 : 1

σ2 : 2

σ3 : 3

Mientras que bajo el mismo escenario de grupos pero con crecimiento rápido de la hipótesis alternativa
los valores fueron:

σ1 : 1

σ2 : 1

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 19

σ3 : 2

Teniendo esto claro, las simulaciones para el cálculo de la potencia se construyeron ası́:
Caso Balanceado

1. Se simulan N datos divididos en a grupos de tamaño n provenientes de una distribución normal


con media 0 y varianza diferente (variando el escenario de H1 ).
2. Se ajusta el modelo:
Y = r + trata + ε

3. Se extraen los residuales estudentizados del modelo anterior.


Sj2
4. Se calcula el estadı́stico CFF según la ecuación CFFj = N
y los residuales estudentizados del
X
Si2
i=1
paso anterior.
5. Se calcula el valor p para las demás pruebas.
6. Este proceso se repite 10.000 veces y se calcula el error de tipo II promedio para cada prueba.
7. El proceso se repite variando la cantidad de grupos a entre 3 y 10, ası́ como el tamaño de los grupos
entre 2 y 200.

Caso Desbalanceado
El proceso se repite 10.000 veces variando la cantidad de grupos entre 3,5 y7 y los ni de la siguiente
manera:
Para a = 3:

n1 n2 n3
20 21 22
20 20 30
20 30 40

Para a = 5:

n1 n2 n3 n4 n5
20 20 21 21 22
20 20 25 25 35
20 20 30 30 40

Para a = 7:

n1 n2 n3 n4 n5 n6 n7
20 20 20 21 21 22 22
20 20 20 25 25 35 35
20 20 20 30 30 40 40

Facultad de Estadı́stica Trabajo de Grado Enero 2017


20 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

3.3. Descripción de la librerı́a

La librerı́a construida se llama varTest, en esta librerı́a se encontrarán las pruebas de varianza inventa-
riadas y estudiadas en este documento agregando la prueba propuesta, CFF. El objetivo de esta librerı́a
es reunir las pruebas mas usadas en el quehacer estadı́stico y brindar ası́ una facilidad al usuario ya que
no tendrá que extraer las pruebas de varias librerı́as ya que las encontrará en una sola.
La librerı́a se encuentra aún en construcción razón por la cual no está en el momento en
CRAN y por ende no se puede instalar desde R directamente, pero se deja un link en
Github en donde se podrá descargar el proyecto del software R y ası́ se podrá usar la
librerı́a.
Link Github: https://github.com/mfelipe15/varTest

3.3.1. Instalación

Una vez la librarı́a se encuentre en CRAN, la instalación de esta es de la siguiente manera:


La instalación de la librerı́a es de la misma forma que cualquier otra en R. Hay tres maneras de instalar
la librerı́a desde RStudio:

1. Desde la consola
Abrimos RStudio

Escribimos en la consola el código install.packages(”varTest”)

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 21

Esperamos que instale y con el comando library(varTest) cargamos la librerı́a y ası́ queda lista
para su uso

Facultad de Estadı́stica Trabajo de Grado Enero 2017


22 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

2. Desde el menú del panel F iles, P lots, P ackages, Help, V iewer


Abrimos RStudio

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 23

Vamos al panel de F iles, P lots, P ackages, Help, V iewer (su ubicación puede variar depen-
diendo la configuración del usuario), hacemos click en la pestaña P ackages

Luego hacemos click en Install

Facultad de Estadı́stica Trabajo de Grado Enero 2017


24 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

Escribimos el nombre de la librerı́a en la pestaña que dice“Packages (separate multiple with


space or comma)” y hacemos click en Install

Esperamos que instale y en la consola escribimos el comando library(varTest) para cargar la


librerı́a y que ası́ quede lista para su uso

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 25

3. Desde la barra de herramientas.


Abrimos RStudio

Hacemos click en la pestaña Tools


Luego click en la opción Install Packages...

Facultad de Estadı́stica Trabajo de Grado Enero 2017


26 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

Escribimos el nombre de la librerı́a en la pestaña que dice“Packages (separate multiple with


space or comma)” y hacemos click en Install

Esperamos que instale y en la consola escribimos el comando library(varTest) para cargar la


librerı́a y que ası́ quede lista para su uso

3.3.2. Manejo de funciones y ejemplos

Para la mayorı́a de funciones el manejo es el mismo. Las funciones necesitan un vector r de valores
numéricos correspondientes a los datos y un vector trata correspondiente a la variable ID con la cual
se identifica a qué grupo pertenece cada dato. Estos dos son los insumos necesarios para correr las
funciones de Bartlett, Levene media, Levene mediana, Fligner y CFF. Para la prueba de Cochran es
necesario establecer un modelo lineal y con este como insumo ya trabaja la función.
Si no se tienen los datos y se requiere simular los pasos para usar la función son:

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 27

Se debe cargar la librerı́a.


Se guarda la varianza de cada grupo en un vector por separado (en el ejemplo son las llamadas
sigma)
Se establece el tamaño de muestra de cada grupo (n)

Se define la cantidad de grupos (a)


Se simulan los datos de cada grupo por separado con el tamaño de muestra y la varianza anterior-
mente establecidos.
En un vector se juntan todos los datos simulados y este será nuestro vector (r).

Se crea un vector de ID con el cual se busca establecer a que grupo pertenece cada dato simulado
(este será nuestro vector trata).
Se ajusta un modelo con estos dos vectores (solo para la prueba de Cochran).
Ya con los vectores r y trata se pueden usar las funciones.

Las siguientes imágenes ilustran los pasos anteriormente descritos y muestran los ejemplos del uso y
resultado de cada función:

Facultad de Estadı́stica Trabajo de Grado Enero 2017


28 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 29

Facultad de Estadı́stica Trabajo de Grado Enero 2017


30 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

4. Resultados

4.1. Simulaciones

En la simulación con permutaciones para aproximar el valor p de la prueba CFF, pudimos observar
que se disminuye notablemente la potencia, razón por la cual no se utilizó esta herramienta.

Luego de tener todos los resultados de las simulaciones se organizaron de una manera pertinente para
poder presentarlos.

Estimación de los percentiles de la prueba CFF Tabular los valores encontrados para anexar las
tablas al presente documento.
Comparar el desempeño de la prueba CFF contra las pruebas inventariadas en términos del error tipo I
Se tabuló la información y se realizó una gráfica para evidenciar el desempeño de las pruebas.
Cuantificar los errores tipo II (potencia) de la prueba CFF y de las inventariadas Tabular los
valores encontrados y realizar las gráficas en donde se pueda apreciar mejor la potencia de cada
una de las pruebas.

4.2. Error tipo I

Caso Balanceado
En la siguiente gráfica se puede ver el error tipo I de cada una de las prueba inventariadas cuando
el tamaño de los grupos (n) es igual. El n se varı́a entre 3 y 50.

- Se observa que el error de tipo I para la prueba CFF para cuando el n de cada grupo es diferente,
está controlado dado que este se mueve alrededor del 5 % como deberı́a ser.
- Las pruebas de Levene (media y mediana) y la de Fligner tienen un error de tipo I fuera del 5 %
cuando los n son diferentes en cada grupo y los tamaños de estos son pequeños.

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 31

Caso Desbalanceado
En la gráfica siguiente se puede observar el error tipo I de cada una de las prueba inventariadas
cuando el tamaño de los grupos (n) es diferente.

- Se puede observar que el error de tipo I para la prueba CFF está controlado dado que este se
mueve alrededor del 5 % como deberı́a ser.
- Las prueba mas estables en términos del error tipo I son la Bartlett y la Fmax .

4.3. Potencia de la prueba

Caso Balanceado
Como se mencionó en la descripción de las simulaciones, se tuvieron dos escenarios para la hipótesis
alternativa, el crecimiento progresivo y el rápido. Para ambos escenarios se hizo el estudio de la
potencia de las pruebas y los respectivos resultados son:

Facultad de Estadı́stica Trabajo de Grado Enero 2017


32 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

• Crecimiento progresivo para H1

◦ Para a = 3, 7 y 10:

- Las pruebas que presentan mejor estabilidad para los diferentes tamaños de n son la Bartlett,
Fmax y Levene.
- Se puede observar que la potencia de CFF no cambia significativamente al variar la cantidad
de grupos.
- La prueba CFF converge a 1 con un tamaño de muestra superior a 25.
- El estudio de potencia muestra que la prueba CFF presenta un comportamiento muy similar
al test de Cochran con la ventaja de que la prueba CFF al trabajar sobre los residuales
estudentizados evita que la prueba de varianza se vea afectada por la correlación entre las
observaciones o por la varianza no constante que tienen los residuales del modelo, problema
que si podemos evidenciar en la prueba de Breusch-Pagan la cual no da buenos resultados.

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 33

• Crecimiento rápido para H1

◦ Para a = 3, 7 y 10:

- Bajo este escenario donde la hipótesis alternativa crece rápidamente, la prueba CFF obtiene
excelentes resultados de potencia, siendo ası́ una de las que mejor estabilidad para los dife-
rentes tamaños de n. Junto con la CFF, está la Cochran y la Bartlett como las mas estables.
- Para tamaños de muestra pequeños, la prueba CFF tiene un buen comportamiento presen-
tando una buena potencia en comparación con las demás.
- La prueba CFF llega a 1 en la potencia con muestras superiores a 25.

Caso Desbalanceado
Para el caso desbalanceado que es donde el tamaño de los grupos (n) es diferente, también se
manejaron los dos escenarios de la hipótesis alternativa que ya se habı́an mencionado y los resultados
son:
• Crecimiento progresivo para H1

◦ Para a = 3, 5 y 7:

Facultad de Estadı́stica Trabajo de Grado Enero 2017


34 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

- Las pruebas mas estables son la Bartlett, Levene y Fmax .


- A medida que crece el tamaño de muestra, CFF alcanza mejores resultados de potencia.
- Breusch-Pagan no tiene buen rendimiento y esto dado a que para comparar varianzas no es
necesario un modelo y esta prueba trabaja sobre uno.
• Crecimiento rápido para H1

◦ Para a = 3, 5 y 7:

- CFF trabaja mucho mejor bajo el escenario de crecimiento rápido de la hipótesis alternativa.
- Bartlett, Levene y Fmax siguen siendo las pruebas mas estables.

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 35

5. Conclusiones

Con base en el trabajo realizado se puede concluir que:

1. Con respecto al comportamiento de la prueba propuesta:


Se pudo observar que la prueba CFF mantiene controlado el error de tipo I en los diferentes
tamaños de muestra.
La prueba CFF presenta un excelente rendimiento cuando la hipótesis alternativa crece rápi-
damente y esto dado a que la base de CFF es la prueba de Cochran y sabemos que esta es
muy útil para cuando se requiere verificar si una varianza es mucho mas grande que las demás.
Con tamaños de muestra pequeños la prueba CFF presenta mejores resultados que la mayorı́a
de las otras pruebas.
CFF al trabajar sobre los residuales estudentizados evita que la prueba de varianza se vea
afectada por la correlación entre las observaciones o por la varianza no constante que tienen
los residuales del modelo.
2. Con respecto a las demás pruebas con las que se comparó CFF se puede concluir que:

Las pruebas mas potentes y estables son la de Bartlett, la Fmax y la de Levene (centrada en
la media: mayor potencia y centrada en la mediana: mas robusta).
A tamaños de muestra pequeños la prueba de Levene centrada en media y la de Bartlett son
las que mejor potencia tienen.
Para tamaños de muestra pequeños, las pruebas de Levene (centrada en media y mediana) y
la de Fligner no conservan un error de tipo I alrededor del 5 %.
En su mayorı́a, las pruebas llegan a una potencia de 1 cuando el tamaño de muestra es mayor
a 15 (n ≥ 15).
De las pruebas inventariadas se observó que la prueba de Breusch-Pagan no dio muy buenos
resultados y esto dado que esta prueba se basa en un modelo y como tal para comparar
varianzas de a muestras, no se necesita un modelo.
3. La metodologı́a de las permutaciones no resultó adecuada para estimar el valor p de la prueba CFF
ya que esta disminuyó notablemente la potencia de la prueba propuesta.

6. Trabajos futuros

1. Hallar la distribución exacta del estadı́stico de prueba de CFF.


2. Encontrar una manera de calcular el n en los casos desbalanceados para que la prueba CFF tenga
mejor rendimiento.

3. Agregar mas pruebas de varianza a la librerı́a para facilitar al usuario la búsqueda y uso de las
mismas.

Facultad de Estadı́stica Trabajo de Grado Enero 2017


36 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

A. Anexos

A.1. Códigos de R

##########################################################
# Códigos u s a d o s #
##########################################################
###########################
# Programación p r u e b a CFF #
###########################
CFF<−function ( y , t r a t a ) {
m <− lm( y˜ t r a t a )
v a r e<−data . frame ( aggregate ( rstudent (m) , l i s t ( t r a t a ) , var ) )
c<−max( v a r e $x ) /sum( v a r e $x )
return ( c )
}
###################
# Permutaciones #
###################
l i b r a r y (GAD)
library ( car )
library ( SuppDists )
library ( lmtest )

CFF<−function ( y , t r a t a ) {
m <− lm( y˜ t r a t a )
v a r e<−data . frame ( aggregate ( rstudent (m) , l i s t ( t r a t a ) , var ) )
c<−max( v a r e $x ) /sum( v a r e $x )
a<−nrow( v a r e )
n<−length ( y ) /a
f <− ( 1 /c − 1 ) / ( a − 1 )
p <− 1−pf ( f , ( n − 1 ) ∗ ( a − 1 ) , ( n − 1 ) ) ∗a
p v a l <− 1 − p
return ( c ( c , p v a l ) )
}

set . s e e d ( 1 4 1 5 )
nr <− 10000
nper <− 10001
sigma1 <− 1
sigma2 <− 3
sigma3 <− 5
a<−3
n<−5
r e s u l t s <− data . frame ( matrix (NA, nrow=nr , ncol =7) )
r e s u l t s sam <− rep (NA, nper )
f o r ( i i n 1 : nr ) {
y1 <− rnorm( n , mean <− 0 , sd <− sigma1 )
y2 <− rnorm( n , mean <− 0 , sd <− sigma2 )
y3 <− rnorm( n , mean <− 0 , sd <− sigma3 )
r <− c ( y1 , y2 , y3 )
t r a t a <− f a c t o r ( rep ( 1 : a , each = n ) )
m <− lm( r ˜ t r a t a )
prueba=data . frame ( r , t r a t a )
prueba2=data . frame ( aggregate ( prueba $r , l i s t ( prueba $ t r a t a ) , var ) )
fmax=max( prueba2 $x ) /min( prueba2 $x )
pvalfmax=pmaxFratio ( fmax , n−1 , a , lower . t a i l =FALSE)
r e s u l t s [ i , 1 ] <− b a r t l e t t . t e s t ( r , t r a t a ) $p . v a l u e
r e s u l t s [ i , 2 ] <− f l i g n e r . t e s t ( r , t r a t a ) $p . v a l u e
r e s u l t s [ i , 3 ] <− pvalfmax
r e s u l t s [ i , 4 ] <− ncvTest (m) $p
r e s u l t s [ i , 5 ] <− l e v e n e T e s t ( r , t r a t a ) [ 1 , 3 ]
r e s u l t s [ i , 6 ] <− C. t e s t (m) $p . v a l u e
r e s u l t s sam [ 1 ] =CFF( r , t r a t a ) [ 1 ]
f o r ( j i n 2 : ( nper ) ) {

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 37

r e s u l t s sam [ j ]=CFF( sample ( r ) , t r a t a ) [ 1 ]


}
r e s u l t s [ i , 7 ] <− sum( r e s u l t s sam [ 2 : nper ]> r e s u l t s sam [ 1 ] ) / ( nper −1)
print ( i )
}
colnames ( r e s u l t s )<−c ( ” B a r t l e t t p v a l ” , ” F l i g n e r p v a l ” , ”Fmax p v a l ” ,
”B−P p v a l ” , ” Levene Median p v a l ” , ” Cochran p v a l ” ,
”CFF p v a l e s t ” )
colMeans ( r e s u l t s <0. 05 )
###################
# Percentiles #
###################
CFF<−function ( y , t r a t a ) {
m <− lm( y˜ t r a t a )
var <− data . frame ( aggregate ( rstudent (m) , l i s t ( t r a t a ) , var ) )
c <− max( var$x ) /sum( var$x )
return ( c )
}
set . s e e d ( 1 4 1 5 )
nr <− 5000
sigma <− 3
a <− 10
n <− seq ( 2 , 5 0 , 1 )
r e s u l t s <− matrix (NA, nrow<−nr , ncol<−length ( n ) )
f o r ( j i n 1 : length ( n ) ) {
f o r ( i i n 1 : nr ) {
y1 <− rnorm( n [ j ] , mean <− 0 , sd <− sigma )
y2 <− rnorm( n [ j ] , mean <− 0 , sd <− sigma )
y3 <− rnorm( n [ j ] , mean <− 0 , sd <− sigma )
y4 <− rnorm( n [ j ] , mean <− 0 , sd <− sigma )
y5 <− rnorm( n [ j ] , mean <− 0 , sd <− sigma )
y6 <− rnorm( n [ j ] , mean <− 0 , sd <− sigma )
y7 <− rnorm( n [ j ] , mean <− 0 , sd <− sigma )
y8 <− rnorm( n [ j ] , mean <− 0 , sd <− sigma )
y9 <− rnorm( n [ j ] , mean <− 0 , sd <− sigma )
y10 <− rnorm( n [ j ] , mean <− 0 , sd <− sigma )
r <− c ( y1 , y2 , y3 , y4 , y5 , y6 , y7 , y8 , y9 , y10 )
t r a t a <− f a c t o r ( rep ( 1 : a , each<−n [ j ] ) )
print ( i )
r e s u l t s [ i , j ]<− c (CFF( r , t r a t a ) )
}
}
colnames ( r e s u l t s )<−c ( ”CFF S t a t n : 5 ” , ”CFF S t a t n : 1 0 ” , ”CFF S t a t n : 1 5 ” ,
”CFF S t a t n : 2 0 ” , ”CFF S t a t n : 2 5 ” , ”CFF S t a t n : 3 0 ” ,
”CFF S t a t n : 3 5 ” , ”CFF S t a t n : 4 0 ” , ”CFF S t a t n : 4 5 ” ,
”CFF S t a t n : 5 0 ” , ”CFF S t a t n : 7 5 ” , ”CFF S t a t n : 1 0 0 ” ,
”CFF S t a t n : 1 2 5 ” , ”CFF S t a t n : 1 5 0 ” , ”CFF S t a t n : 1 7 5 ” ,
”CFF S t a t n : 2 0 0 ” )

qua <− matrix (NA, nrow=length ( n ) , ncol<−2 )


f o r ( i i n 1 : ncol ( r e s u l t s ) ) {
qua [ i , ] <− quantile ( r e s u l t s [ , i ] , c ( 0 . 9 5 , 0 . 9 9 ) )
}
colnames ( qua )<−c ( ”95 %” , ”99 %” )
rownames( qua )<−c ( ”n : 5 ” , ”n : 1 0 ” , ”n : 1 5 ” , ”n : 2 0 ” , ”n : 2 5 ” , ”n : 3 0 ” , ”n : 3 5 ” ,
”n : 4 0 ” , ”n : 4 5 ” , ”n : 5 0 ” , ”n : 7 5 ” , ”n : 1 0 0 ” , ”n : 1 2 5 ” , ”n : 1 5 0 ” ,
”n : 1 7 5 ” , ”n : 2 0 0 ” )

write . table ( p e r c e n t i l e s , ” P e r c e n t i l e s F I N A L . c s v ” , s e p=” ; ” )

###########################
# Caso Balanceado #
###########################
l i b r a r y (GAD)
library ( car )
library ( SuppDists )
library ( lmtest )

Facultad de Estadı́stica Trabajo de Grado Enero 2017


38 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

CFF<−function ( y , t r a t a ) {
m <− lm( y˜ t r a t a )
v a r e<−data . frame ( aggregate ( rstudent (m) , l i s t ( t r a t a ) , var ) )
c<−max( v a r e $x ) /sum( v a r e $x )
return ( c )
}

set . s e e d ( 1 4 1 5 )
nr <− 1000
sigma1 <− 1
sigma2 <− 2
sigma3 <− 3
a <− 3
n <− 5
r e s u l t s <− data . frame ( matrix (NA, nrow=nr , ncol =8) )

f o r ( i i n 1 : nr ) {
y1 <− rnorm( n , 0 , sigma1 )
y2 <− rnorm( n , 0 , sigma2 )
y3 <− rnorm( n , 0 , sigma3 )
r <− c ( y1 , y2 , y3 )
t r a t a <− f a c t o r ( rep ( 1 : a , each = n ) )
m <− lm( r ˜ t r a t a )
prueba=data . frame ( r , t r a t a )
prueba2=data . frame ( aggregate ( prueba $r , l i s t ( prueba $ t r a t a ) , var ) )
fmax=max( prueba2 $x ) /min( prueba2 $x )
pvalfmax=pmaxFratio ( fmax , n−1 , a , lower . t a i l =FALSE)
r e s u l t s [ i , 1 ] <− b a r t l e t t . t e s t ( r , t r a t a ) $p . v a l u e
r e s u l t s [ i , 2 ] <− f l i g n e r . t e s t ( r , t r a t a ) $p . v a l u e
r e s u l t s [ i , 3 ] <− pvalfmax
r e s u l t s [ i , 4 ] <− ncvTest (m) $p
r e s u l t s [ i , 5 ] <− l e v e n e T e s t ( r , t r a t a ) [ 1 , 3 ]
r e s u l t s [ i , 6 ] <− l e v e n e T e s t ( r , t r a t a , c e n t e r=mean) [ 1 , 3 ]
r e s u l t s [ i , 7 ] <− C. t e s t (m) $p . v a l u e
r e s u l t s [ i , 8 ] <− 1∗ (CFF( r , t r a t a ) >0.4578)
print ( i )
}
colnames ( r e s u l t s )<−c ( ” B a r t l e t t p v a l ” , ” F l i g n e r p v a l ” , ”Fmax p v a l ” ,
”B−P p v a l ” , ” Levene Median p v a l ” , ” Levene Mean p v a l ” ,
” Cochran p v a l ” , ”CFF p v a l e s t ” )

colMeans ( r e s u l t s [ , 1 : 7 ] < 0 . 0 5 )
mean( r e s u l t s [ , 8 ] )
###### a=7 y a=10
l i b r a r y (GAD)
library ( car )
library ( SuppDists )
library ( lmtest )

CFF<−function ( y , t r a t a ) {
m <− lm( y˜ t r a t a )
v a r e<−data . frame ( aggregate ( rstudent (m) , l i s t ( t r a t a ) , var ) )
c<−max( v a r e $x ) /sum( v a r e $x )
return ( c )
}

set . s e e d ( 1 4 1 5 )
nr <− 1000
sigma1 <− 1
sigma2 <− 1
sigma3 <− 2
a <− 10
n <− 21
r e s u l t s <− data . frame ( matrix (NA, nrow=nr , ncol =8) )

f o r ( i i n 1 : nr ) {

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 39

y1 <− rnorm( n , 0 , sigma1 )


y2 <− rnorm( n , 0 , sigma1 )
y3 <− rnorm( n , 0 , sigma1 )
y4 <− rnorm( n , 0 , sigma1 )
y5 <− rnorm( n , 0 , sigma2 )
y6 <− rnorm( n , 0 , sigma2 )
y7 <− rnorm( n , 0 , sigma2 )
y8 <− rnorm( n , 0 , sigma3 )
y9 <− rnorm( n , 0 , sigma3 )
y10 <− rnorm( n , 0 , sigma3 )
r <− c ( y1 , y2 , y3 , y4 , y5 , y6 , y7 , y8 , y9 , y10 )
t r a t a <− f a c t o r ( rep ( 1 : a , each = n ) )
m <− lm( r ˜ t r a t a )
prueba=data . frame ( r , t r a t a )
prueba2=data . frame ( aggregate ( prueba $r , l i s t ( prueba $ t r a t a ) , var ) )
fmax=max( prueba2 $x ) /min( prueba2 $x )
pvalfmax=pmaxFratio ( fmax , n−1 , a , lower . t a i l =FALSE)
r e s u l t s [ i , 1 ] <− b a r t l e t t . t e s t ( r , t r a t a ) $p . v a l u e
r e s u l t s [ i , 2 ] <− f l i g n e r . t e s t ( r , t r a t a ) $p . v a l u e
r e s u l t s [ i , 3 ] <− pvalfmax
r e s u l t s [ i , 4 ] <− ncvTest (m) $p
r e s u l t s [ i , 5 ] <− l e v e n e T e s t ( r , t r a t a ) [ 1 , 3 ]
r e s u l t s [ i , 6 ] <− l e v e n e T e s t ( r , t r a t a , c e n t e r=mean) [ 1 , 3 ]
r e s u l t s [ i , 7 ] <− C. t e s t (m) $p . v a l u e
r e s u l t s [ i , 8 ] <− 1∗ (CFF( r , t r a t a ) >0.1935329)
print ( i )
}
colnames ( r e s u l t s )<−c ( ” B a r t l e t t p v a l ” , ” F l i g n e r p v a l ” , ”Fmax p v a l ” ,
”B−P p v a l ” , ” Levene Median p v a l ” , ” Levene Mean p v a l ” ,
” Cochran p v a l ” , ”CFF p v a l e s t ” )

colMeans ( r e s u l t s [ , 1 : 7 ] < 0 . 0 5 )
mean( r e s u l t s [ , 8 ] )

###########################
# Caso D e s b a l a n c e a d o #
###########################
l i b r a r y (GAD)
library ( car )
library ( SuppDists )
library ( lmtest )

CFF<−function ( y , t r a t a ) {
m <− lm( y˜ t r a t a )
v a r e<−data . frame ( aggregate ( rstudent (m) , l i s t ( t r a t a ) , var ) )
c<−max( v a r e $x ) /sum( v a r e $x )
return ( c )
}

set . s e e d ( 1 4 1 5 )
nr <− 1000
sigma1 <− 1
sigma2 <− 2
sigma3 <− 3
a <− 3
n <− c ( 2 5 , 2 6 , 2 7 )
armonic <− 1/ (mean( 1 /n ) )
( armonic <− c e i l i n g ( armonic ) )

r e s u l t s <− data . frame ( matrix (NA, nrow=nr , ncol =8) )


f o r ( i i n 1 : nr ) {
y1 <− rnorm( n [ 1 ] , 0 , sigma1 )
y2 <− rnorm( n [ 2 ] , 0 , sigma2 )
y3 <− rnorm( n [ 3 ] , 0 , sigma3 )
#y4 <− rnorm ( n [ 4 ] , 0 , sigma2 )
#y5 <− rnorm ( n [ 5 ] , 0 , sigma3 )
#y6 <− rnorm ( n [ 6 ] , 0 , sigma2 )

Facultad de Estadı́stica Trabajo de Grado Enero 2017


40 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

#y7 <− rnorm ( n [ 7 ] , 0 , sigma3 )


r <− c ( y1 , y2 , y3 )#, y4 , y5 , y6 , y7 )
t r a t a <− f a c t o r ( rep ( 1 : a , c ( n [ 1 ] , n [ 2 ] , n [ 3 ] ) ) )
m <− lm( r ˜ t r a t a )
prueba=data . frame ( r , t r a t a )
prueba2=data . frame ( aggregate ( prueba $r , l i s t ( prueba $ t r a t a ) , var ) )
fmax=max( prueba2 $x ) /min( prueba2 $x )
pvalfmax=pmaxFratio ( fmax , c e i l i n g ( armonic ) −1, a , lower . t a i l =FALSE)
r e s u l t s [ i , 1 ] <− b a r t l e t t . t e s t ( r , t r a t a ) $p . v a l u e
r e s u l t s [ i , 2 ] <− f l i g n e r . t e s t ( r , t r a t a ) $p . v a l u e
r e s u l t s [ i , 3 ] <− pvalfmax
r e s u l t s [ i , 4 ] <− ncvTest (m) $p
r e s u l t s [ i , 5 ] <− l e v e n e T e s t ( r , t r a t a ) [ 1 , 3 ]
r e s u l t s [ i , 6 ] <− l e v e n e T e s t ( r , t r a t a , c e n t e r=mean) [ 1 , 3 ]
r e s u l t s [ i , 7 ] <− C. t e s t (m) $p . v a l u e
r e s u l t s [ i , 8 ] <− 1∗ (CFF( r , t r a t a )> 0 . 5 1 1 1 )
print ( i )
}
colnames ( r e s u l t s )<−c ( ” B a r t l e t t p v a l ” , ” F l i g n e r p v a l ” , ”Fmax p v a l ” ,
”B−P p v a l ” , ” Levene Median p v a l ” , ” Levene Mean p v a l ” ,
” Cochran p v a l ” , ”CFF p v a l e s t ” )

colMeans ( r e s u l t s [ , 1 : 7 ] > 0 . 0 5 )
mean( r e s u l t s [ , 8 ] )

###########################
# G r á f i c o s #
###########################
library ( ggplot2 )
g g p l o t ( data , a e s ( n ) )+
geom l i n e ( a e s ( y = B a r t l e t t , c o l o u r = ” B a r t l e t t ” ) )+geom p o i n t ( a e s ( n , B a r t l e t t ) )+
geom l i n e ( a e s ( y = F l i g n e r , c o l o u r = ” F l i g n e r ” ) )+geom p o i n t ( a e s ( n , F l i g n e r ) )+
geom l i n e ( a e s ( y = Fmax , c o l o u r = ”Fmax” ) )+geom p o i n t ( a e s ( n , Fmax) )+
geom l i n e ( a e s ( y = Breusch . Pagan , c o l o u r = ” Breusch Pagan ” ) )+geom p o i n t ( a e s ( n , Breusch .
Pagan ) )+
geom l i n e ( a e s ( y = Levene . Median , c o l o u r = ” Levene median ” ) )+geom p o i n t ( a e s ( n , Levene .
Median ) )+
geom l i n e ( a e s ( y = Levene . Mean , c o l o u r = ” Levene mean” ) )+geom p o i n t ( a e s ( n , Levene . Mean ) )+
geom l i n e ( a e s ( y = CFF, c o l o u r = ”CFF” ) , s i z e =0.3)+geom p o i n t ( a e s ( n , CFF) )+
l a b s ( x = ”Tamaño de l a muestra ” , y =” P o t e n c i a ” , c o l o u r = ” ” )+theme bw ( )+
f a c e t grid ( grupo ˜ . )

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 41

A.2. Tabla de percentiles prueba CFF

Facultad de Estadı́stica Trabajo de Grado Enero 2017


42 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 43

Facultad de Estadı́stica Trabajo de Grado Enero 2017


44 Mario Felipe Garcia Calvo. & Director: Andrés Felipe Ortı́z Rico.

Facultad de Estadı́stica Trabajo de Grado Enero 2017


Una nueva prueba de varianzas 45

Referencias

[1] William Gemmell Cochran. The distribution of the largest of a set of estimated variances as a
fraction of their total. 1941.
[2] Francisco Cribari and Gauss M. Cordeiro. On bartlett and bartlett-type corrections.

[3] Gene V. Glass. Testing homogeneity of variances. 2015.


[4] Herman Otto Hartley. The use of range in analysis of variance. 1950.
[5] Lucinia Rojas Juan Carlos Correa, René Iral. Estudio de potencia de pruebas de homogeneidad de
varianza. 2006.

[6] Howard Levene. Contributions to probability and statistics: Essays in honor of harold hotelling.
1960.
[7] R Development Core Team. R: A Language and Environment for Statistical Computing. R Foun-
dation for Statistical Computing, Vienna, Austria, 2008. ISBN 3-900051-07-0.
[8] Snedecor and Cochran. Statistical methods. Iowa State University Press, 1983.

[9] George Waddel Snedecor and William Gemmell Cochran. Statistical methods, eighth edition. Iowa
State University Press, 1989.
[10] M.E Johnson W.J Conover and M.M Johnson. A comparative study of the test for homogeneity of
variances, with applications to the outer continental shelf bidding data. 1981.

[11] Zhang and Gutiérrez. Teorı́a estadı́stica aplicaciones y métodos. Universidad Santo Tomas, 2010.
[12] Shuqiang Zhang. Fourteen homogeneity of variance tests: When and how to use them. 1998.

Facultad de Estadı́stica Trabajo de Grado Enero 2017

También podría gustarte