Tukey

PRUEBA DE SIGNIFICACIÓN TUKEY
La prueba de Tukey es la prueba más aplicada y preferida por los estadísticos, pues controla
de mejor manera los dos errores ampliamente conocidos en la estadística (alfa y beta)
(Montgomery 2003).
La prueba de Tukey, nombrado después Juan Tukey, es una prueba estadística utilizada
general y conjuntamente con ANOVA, La prueba Tukey se usa en experimentos que
implican un número elevado de comparaciones. Es de fácil cálculo puesto que se define un
solo comparador, resultante del producto del error estándar de la media por el valor tabular
en la tabla de Tukey usando como numerador el número de tratamientos y como
denominador los grados de libertad del error. Se conoce como Tukey-Kramer cuando las
muestras no tienen el mismo número de datos.
• Dado que el análisis de varianza acuse un efecto significativo, la prueba de Tukey provee
un nivel de significancia global de α cuando los tamaños de las muestras son iguales y de α
a lo sumo a cuando no son iguales.
• Se basa en la construcción de intervalos de confianza de las diferencias por pares. Si

estos intervalos incluyen al 0, entonces no se rechaza la hipótesis nula.
El Test HSD (Honestly-significant-difference) de Tukey es un test de comparaciones

múltiples. Permite comparar las medias de los t niveles de un factor después de haber
rechazado la Hipótesis nula de igualdad de medias mediante la técnica ANOVA. Es, por lo
tanto, un test que trata de perfilar, trata de especificar, una Hipótesis alternativa genérica
como la de cualquiera de los Test ANOVA. (Pérez, 2013)
Se basa en la distribución del rango estudentizado que es la distribución que sigue la

diferencia del máximo y del mínimo de las diferencias entre la media muestral y la media
poblacional de t variables normales N(0, 1) independientes e idénticamente distribuidas.
Se establece así un umbral, como en otros métodos, como el Test LSD (Ver Herbario de
técnicas). Se calculan todas las diferencias de medias muestrales entre los t niveles del
factor estudiado. Las diferencias que estén por encima de ese umbral se considerarán
diferencias significativas, las que no lo estén se considerarán diferencias no significativas.
Observemos que el test está diseñado para el mismo tamaño maestral por nivel, por esto
aparece esta n común. Si tenemos tamaños muéstrales distintos se toma entonces como n la
media armónica de esas medias. La media armónica de dos medias es la siguiente:
Para nuestro caso debería generalizarse a t medias simplemente sustituyendo el 2 por el

número t. (Pérez, 2013)
Para ver cómo funciona la distribución del rango estudentizado veamos una tabla donde se
buscarían estos valores:
PRUEBA DUNKAN
Prueba del rango múltiple de Duncan (RMD)
En 1955, Duncan desarrolló una nueva prueba de amplitud múltiple, que, aunque no es tan
potente como la S-N-K, tiene la ventaja de su sencillez (Stihll y Torrie, 1988). Una de las
ventajas de la presente prueba consiste en el hecho de que no necesita que el valor de F sea
signifcativo para poder usarla. Es una prueba más estricta que la DMS. De esta manera,
permite comparar todas las medias entre sí, sin restricciones. Si consideramos que existen
seis medias de tratamientos (González, 1985), es posible efectuar 6(6 – 1)/2 comparaciones.
La prueba incluye el cálculo de las diferencias significativas mínimas (Little y Hill, 1976)
para todas las posiciones relativas posibles entre las medias de los tratamientos cuando
estas se encuentran dispuestas en orden de magnitud. (Plaza, 2010)
Para aplicar la prueba, se procede de la siguiente forma:
 Multiplicar el valor SX tratamientos existentes y los grados de libertad del error

RMS = RMD Teórico *SX
 Colocar las medias en orden, de menor a mayor
 Comparaciones entre medias: teóricamente, se resta del valor mayor del valor más
pequeño; si su diferencia es mayor que el valor de RMS para cinco medias, se le
declara significativo; luego, se resta el segundo valor más pequeño del más grande
y, si su valor es mayor que el de RMS para cuatro medias, se le considera
significativo; en este perfil se sigue hasta restar el segundo valor más grande del
más pequeño, es decir:
PRUEBA DE SCHEFFÉ
La prueba de Scheffé es una prueba que se aplica para hacer comparaciones múltiples de
las medias de grupos. Su uso está relacionado con la prueba del análisis de la varianza, y se
incuye dentro de las llamadas pruebas de comparaciones múltiples. La prueba del análisis
de la varianza contrasta la hipótesis de igualdad de medias de dos o más grupos. Si el
resultado se considera estadísticamente significativo, lo que se puede afirmar es que al
menos la media de uno de los grupos es distinta a las restantes, o bien que hay otras medias
diferentes entre sí. El siguiente paso consiste en identificar qué grupos son los que tienen
medias diferentes entre sí. Una solución es comparar las medias por pares, usando una
prueba estadística como la t de Student. Pero al hacerlo así se produce un aumento del error
tipo I que se quiere admitir. Las pruebas de comparaciones múltiples corrigen el error para
conseguir que no sobrepase el nivel establecido, por ejemplo del 5%. La prueba de Scheffé
se realiza comparando todos los posibles pares de medias, pero usando como error típico el
valor de la varianza residual o intragrupos obtenida en el análisis de la
varianza.(Montgomery,2002)
EJEMPLO:
Cuando se rechaza la hipótesis nula de no diferencia de más de dos medias (H0: m 1 = m 2

= … = m k) en un análisis de varianza surge la pregunta acerca de cuáles pares de medias
son diferentes, puesto que el rechazo de una hipótesis nula con cuatro tratamientos (H0: m
1 = m 2 = m 3 = m 4), podría deberse a uno o varios de los seis pares de diferencias que se
pueden tener, esto es: m 1 ¹ m 2 o m 1 ¹ m 3 o m 1 ¹ m 4 o m 2 ¹ m 3 o m 2 ¹ m 4 o m 3 ¹ m
4
Existen varios procedimientos para determinar cuáles son los pares de medias que son
diferentes. El primero de estos procedimientos, y el más utilizado en el pasado, es el de la
Diferencia Significativa Mínima (DSM) de Fisher publicada en 1935 en su libro The Design
of Experiments. Este procedimiento es una extensión de la prueba t de Student para el caso
de comparación de dos medias con varianza ponderada.
Otros procedimientos más recientemente usados para el mismo propósito son: la prueba de
Student-Neuman-Keuls, la prueba de Diferencia Significativa Honesta de Tukey (DSH), la
prueba del Rango múltiple de Duncan, la prueba de Dunnett y la prueba de Scheffé, entre
otras. Véase Steel and Torrie y Federer.
Ara ilustrar mejor las diferentes pruebas se tomará el siguiente ejemplo:
Ejemplo 1: Una empresa tiene cuatro plantas y sabe que la planta A satisface los requisitos
impuestos por el gobierno para el control de desechos de fabricación, pero quisiera
determinar cuál es la situación de las otras tres. Para el efecto se toman cinco muestras de
los líquidos residuales de cada una de las plantas y se determina la cantidad de
contaminantes. Los resultados del experimento aparecen en la siguiente tabla.
Tabla 1 Cantidad de contaminantes para cuatro plantas de una empresa.
RUEBA DE DIFERENCIA SIGNIFICATIVA HONESTA (DSH) DE TUKEY
La prueba de Diferencia Significativa Honesta (DSH) de Tukey, al igual que la DSM, sólo
se debe usar después que se ha rechazado la hipótesis nula en el análisis de varianza y
cuando todos los tamaños de muestra son iguales; pero a diferencia de la DSM emplea el
valor . En lugar de . Este valor q se obtiene de la tabla T-8, para el

nivel de significancia a, el número de tratamientos K y los grados de libertad del error,
entonces:
[13.7]
Ejemplo 3: Para los datos del ejemplo 1 y a = 0.05,
Los valores absolutos de las diferencias entre
Es importante tener presente que la prueba DSH sólo se debe emplear cuando el ANDEVA
ha conducido al rechazo de H0. Si las muestras no son del mismo tamaño no se debe usar
DSH. (Sanchez, 2007)
PRUEBA DEL RANGO MÚLTIPLE DE DUNCAN
La Prueba del Rango múltiple Duncan es otra prueba para determinar la diferencia entre
pares de medias después que se ha rechazado la hipótesis nula en el análisis de varianza.
Este procedimiento emplea los valores de la tabla T-9 y consiste en calcular varios "rangos"
(Duncan los llama rangos significativos mínimos) dados por la fórmula:
[13.8]
Donde p toma valores entre 2 y K (K es el número de tratamientos), d se obtiene de la tabla

T-9 y el CMError se obtiene de la tabla de ANDEVA respectiva.
Ejemplo 4: Se realizó un experimento para determinar la cantidad (en gramos) de grasa

absorbida por 48 donas (doughnuts) usando ocho tipos diferentes de grasas (aceites y
mantecas). Las medias para los ocho tratamientos se muestran a continuación:
Se usaron seis "donas" en cada tipo de grasa y se obtuvo un cuadrado medio del error de
141.6, los grados de libertad del error son 48 - 8 =40.
Seleccionando a = 0.05 para este ejemplo, los rangos de Duncan son:
Los valores 3.300, 3.266,..., 2.858 se obtuvieron de la tabla de Duncan (T-9) para a = 0.05,
2 £ p £ 8 y 40 grados de libertad.
El siguiente paso es ordenar las medias en orden creciente para establecer los "rangos".
El rango entre las medias máxima y mínima se compara con D8, esto es,
, entonces existe diferencia significativa entre las grasas 4 y 7.
El próximo paso es comparar subconjuntos de siete medias con el rango D7.
, entonces
Como los dos exceden el rango D7 se subdividen estos dos subconjuntos en conjuntos de
seis medias.
, entonces
, entonces
, entonces
Nuevamente éstos exceden D6, entonces éstos se subdividen en subconjuntos de cinco
medias
, entonces
, entonces
, entonces
, entonces
Como las medias para las grasas 3, 2, 6 y 1 están incluidos en el conjunto 43261 que fue no
significativo, los rangos de las medias en el subconjunto 3261 no se comparan con D4;
solamente los rangos de las medias en el subconjunto 2615 se comparan con D4; por lo
tanto,
Los otros subconjuntos de cuatro medias (3,2,6,1) y (6,1,5,3) no se comparan con D4

porque ya fueron declarados no significativos en los conjuntos de cinco medias. Por lo
tanto, el proceso termina.
Los resultados se muestran gráficamente en la siguiente figura, donde las medias que están
debajo de una línea no son significativamente diferentes
El investigador puede concluir que las cantidades absorbidas usando las grasas 4 y 3 son
significativamente mayores que las 5, 8 y 7, y que la 2 es significativamente mayor que las
8 y 7 y las demás grasas no son significativamente diferentes en relación con la cantidad
absorbida. (Sanchez, 2007)
PRUEBA DE SCHEFFÉ
Esta prueba es similar a la prueba de Tukey, difiere de ella en que en vez de usar la tabla T-
8 para obtener valores "studentizados" q utiliza la tabla F de Fisher (T-7) para obtener el
factor
Donde K es el número de tratamientos y a el nivel de significación.
Este factor se multiplica por el error estándar de la

diferencia entre dos medias para obtener la cantidad:
[13.9]
BIBLIOGRAFÍA
Pérez, J. L. (2013). https://estadisticaorquestainstrumento.wordpress.com/2013/01/28/test-
hsd-de-tukey/.
Plaza, L. A. (2010). http://congresos.espoch.edu.ec/files/libros/Diseno_experiental_1.pdf.
Sanchez, A. L. (2007).
http://colposfesz.galeon.com/disenos/teoria/cap13bmj/cap13bmj.htm.

Tukey

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tukey

Cargado por

Copyright:

Formatos disponibles

PRUEBA DE SIGNIFICACIÓN TUKEY

• Se basa en la construcción de intervalos de confianza de las diferencias por pares. Si

El Test HSD (Honestly-significant-difference) de Tukey es un test de comparaciones

Se basa en la distribución del rango estudentizado que es la distribución que sigue la

Para nuestro caso debería generalizarse a t medias simplemente sustituyendo el 2 por el

Prueba del rango múltiple de Duncan (RMD)

Para aplicar la prueba, se procede de la siguiente forma:

 Multiplicar el valor SX tratamientos existentes y los grados de libertad del error

Cuando se rechaza la hipótesis nula de no diferencia de más de dos medias (H0: m 1 = m 2

Ara ilustrar mejor las diferentes pruebas se tomará el siguiente ejemplo:

Tabla 1 Cantidad de contaminantes para cuatro plantas de una empresa.

RUEBA DE DIFERENCIA SIGNIFICATIVA HONESTA (DSH) DE TUKEY

valor . En lugar de . Este valor q se obtiene de la tabla T-8, para el

Ejemplo 3: Para los datos del ejemplo 1 y a = 0.05,

Los valores absolutos de las diferencias entre

PRUEBA DEL RANGO MÚLTIPLE DE DUNCAN

Donde p toma valores entre 2 y K (K es el número de tratamientos), d se obtiene de la tabla

Ejemplo 4: Se realizó un experimento para determinar la cantidad (en gramos) de grasa

, entonces existe diferencia significativa entre las grasas 4 y 7.

El próximo paso es comparar subconjuntos de siete medias con el rango D7.

Los otros subconjuntos de cuatro medias (3,2,6,1) y (6,1,5,3) no se comparan con D4

Donde K es el número de tratamientos y a el nivel de significación.

Este factor se multiplica por el error estándar de la

Plaza, L. A. (2010). http://congresos.espoch.edu.ec/files/libros/Diseno_experiental_1.pdf.

También podría gustarte