Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ComparacionesMultiples PDF
ComparacionesMultiples PDF
Comparaciones mltiples
3.1. Introduccin
En este captulo explicaremos algunas tcnicas para analizar con mayor detalle los
datos de un experimento, con posterioridad a la realizacin del Anlisis de la Varianza. Si
dicho anlisis conrma la existencia de diferencias signicativas entre los tratamientos, es
conveniente investigar qu medias son distintas. Para ello, emplearemos diversas tcnicas
cuyo objeto es identicar qu tratamientos son estadsticamente diferentes y en cunto
oscila el valor de esas diferencias. Consideraremos su aplicacin nicamente al modelo de
efectos jos.
El uso de estas tcnicas, en algunos casos, est supeditado al resultado del anlisis de
la varianza; en otros casos, las tcnicas pueden emplearse directamente sin haber realizado
previamente dicho anlisis. Este conjunto de tcnicas se engloba bajo la denominacin de
contrastes para comparaciones mltiples ya que su objetivo fundamental es comparar entre
s medias de tratamientos o grupos de ellas.
En primer lugar estudiamos un procedimiento intuitivo y cualitativo basado en la rep-
resentacin grca de los datos del experimento1 . Depus del mtodo grco consideramos
la tcnica de comparacin por parejas introducida por Fisher en 1935. Dicha tcnica, de-
nominada mtodo de la diferencia mnima signicativa o mtodo LSD (Least Signicant
Dierence), se basa en la construccin de tests de hiptesis para la diferencia de cualquier
par de medias.
Cuando el nmero posibles de comparaciones es elevado, la aplicacin reiterada de
este procedimiento, para un nivel de signicacin dado, puede conducir a un nmero
grande de rechazos de la hiptesis nula aunque no existan diferencias reales. El intento de
1
En cierto sentido, el mtodo grco ya fu comentado en el captulo anterior al dar la interpretacin
de algunas salidas grcas de S .
1
2 Comparaciones mltiples
Para ese ejemplo obtuvimos, vase Tabla 1-6, que el rendimiento de la semilla de algo-
dn depende signicativamente del tipo de fertilizante utilizado. Pero esta conclusin no
nos informa nada sobre una serie de preguntas tales como: Producen algunos fertilizantes
el mismo rendimiento?, en el caso de que dos fertilizantes produzcan distinto rendimiento
entre qu valores oscila esa diferencia?, etc. Una primera respuesta a estas preguntas se
puede realizar de forma grca.
En primer lugar haremos unas consideraciones generales antes de estudiar el ejemplo
de referencia. Para ello, consideremos el modelo equilibrado con n observaciones por nivel
y sean y1. , y2. , , yI. las medias muestrales de los correspondientes tratamientos. Bajo
las hiptesis del modelo, cualquier promedio yi. de un tratamiento se distribuir alrededor
de su media i con una desviacin estndar / n. En consecuencia, si aceptamos que
las medias de los distintos niveles de un factor son todas idnticas, entonces las medias
muestrales yi. , i = 1, 2, I, se comportarn como un conjunto de I observaciones tomadas
al azar de una misma distribucin normal con media y desviacin estndar / n.
Supongamos que dibujamos la funcin de densidad de una distribucin normal deslizante
e imaginemos que situamos dicha distribucin sobre los puntos que representan las me-
dias de los tratamientos. Procediendo de esta manera y teniendo en cuenta los distintos
comportamientos de los efectos, podemos distinguir dos casos relevantes:
varianza residual. Para dibujar dicha distribucin t utilizamos la Tabla III del Apndice
C, que muestra el valor de la funcin de densidad, para determinadas abscisas, de una
distribucin t de Student con grados de libertad dados. Para obtener la distribucin con
4 Comparaciones mltiples
factor de escala hay que multipicar las correspondientes abscisas por dicho factor de escala
y representar sus valores frente a las correspondientes ordenadas.
Este mtodo se ilustra en la Figura 2-1 donde se distinguen varios casos:
a) Las cinco medias pueden considerarse como una muestra aleatoria de la misma dis-
tribucin.
Figura 2-1a
Figura 2-1b
3.2 Comparaciones mltiples de medias 5
Figura 2-1c
Este procedimiento grco se ha desarrollado para el caso en que todos los tamaos
muestrales sean iguales. Sin embargo, de forma aproximada, se puede aplicar tambin
cuando las diferencias entre los tamaos muestrales no sean muy grandes. En tal caso,
debe usarse
SR2
,
n
1
como factor de escala, siendo n el tamao medio de las muestras, n = I i ni .
En dicho ejemplo, como la varianza es desconocida y los tamaos muestrales son dis-
tintos, el factor de escala es igual a
SR2
4,67
= = 0,947 .
n 26/5
Para dibujar la distribucin de referencia, se elige un origen arbitrario, que debe es-
tar prximo a las medias, nosotros hemos considerado como origen . A continuacin se
representan las ordenadas de los puntos 0, 0,473, 0,947, 1,420, 1,894
que se unen en una lnea continua, con lo que esbozamos la distribucin de referencia. El
deslizamiento de la distribucin de referencia a lo largo del eje horizontal permite obtener
las siguientes conclusiones:
que, por las hiptesis del modelo de ecuacin (??), sigue una distribucin t de Student
con N I grados de libertad.
Por lo tanto, se concluye que la pareja de medias i y j son estadsticamente diferentes
si
| yi. yj. |> LSD , (3.4)
donde la cantidad LSD, denominada mnima diferencia signicativa, viene dada por
2 1 1
LSD = t/2;NI SR + , (3.5)
ni nj
8 Comparaciones mltiples
siendo
2
2SR
LSD = t/2;NI . (3.6)
n
Comentarios 3.1
C1) Un problema que presenta la aplicacin de este procedimiento, para un nmero rela-
tivamente grande de tratamientos, es que el nmero de posibles falsos rechazos de la
hiptesis nula puede ser elevado aunque no existan diferencias reales. As, por ejem-
plo, si I es igual a 10, hay 10
2 = 45 posibles parejas de comparaciones. Si tomamos
= 0,05, entonces el nmero esperado de falsos rechazos ser
0,05 45 = 2,25 ,
1 (1 0,05)45 0,90
C2) Puede suceder que el mtodo LSD falle al aceptar que todas las parejas son iguales,
a pesar de que el estadstico F del anlisis de la varianza resulte signicativo; sto es
debido a que la prueba F considera simultneamente todas las posibles comparaciones
entre las medias de los tratamientos y no slo las comparaciones por parejas.
2 1 1 1 1 1 1
LSD = t0,025;21 SR + = 2,080 4,67 + = 4,49 +
ni nj ni nj ni nj
a) Si hay diferencia signicativa entre ellas, tambin la habr entre la 1a y todas las
dems.
Figura 2-3
3.2 Comparaciones mltiples de medias 11
Mtodo de Bonferroni
En este procedimiento se ja un nivel de signicacin que se reparte entre cada
una de las comparaciones consideradas y se utiliza la desigualdad de Bonferroni
M M
Pr Am Pr(Am ) . (3.8)
m=1 m=1
Consideremos que queremos realizar estimacin por intervalos para las M = I2 com-
paraciones posibles, cada una al nivel de signicacin = /M; esto da origen a M
intervalos de conanza que contienen a cada una de las posibles diferencias i j con
probabilidad 1 . Llamando Cm al intervalo m-simo se tiene que
Pr [1m 2m Cm ] = 1 m = 1, 2, , M
M M M M
Pr Cm = 1 Pr Cm 1 Pr(Cm ) = 1 ,
m=1 m=1 m=1 m=1
2 1 1
y1m. y2m. t 2M
SR + , (3.9)
n1m n2m
donde y1m. , y2m. y n1m , n2m , son las medias y los tamaos muestrales correspondientes a
la comparacin m-sima.
Denotamos por m = 1m 2m , m = 1, 2, , M, una de las M comparaciones lineales
por parejas de medias, para las cuales interesa contrastar H0 : m = 0 frente H1 : m = 0.
Entonces, se rechaza H0 si
| m |> Bm ,
y se acepta en caso contrario.
Donde
2 1 1
Bm = t 2M
SR + . (3.10)
n1m n2m
En el caso del modelo equilibrado los valores de Bm coinciden, dichos valores se denotan
por BSD y tienen la siguiente expresin
2 1 1
BSD = t 2M
SR + , (3.11)
n n
1 1
Bm = t 0,025 ;21 (4,67) + m = 1, 2. , 10 .
10 n1m n2m
5 vs2 4, el valor de Bm es
1 1
B1 = t 0,025 ;21 4,67 + = (3,135)(1,394) = 4,370 .
10 6 4
Entonces, como
5 vs 3, el valor de Bm es
1 1
B2 = t 0,025 ;21 4,67 + = (3,135)(1,308) = 4,100 .
10 6 5
Entonces, como
| y5. y3. |= 3 < B2 ,
Figura 2-4
max(yi. i ) mn(yi. i )
1/2
qI,NI , (3.15)
SR2
donde
2
N I es el nmero de grados de libertad asociado a SR
Puesto que la desigualdad (3.17) se verica para todas las parejas i y j , se sigue de
(3.16) que
(y ) (y )
i. i j. j
Pr 1/2
q;I,NI = 1 , (3.18)
2
SR
n
incluye todos los pares I(I 1)/2 de comparaciones entre los I niveles del factor.
16 Comparaciones mltiples
H0 : i = j vs H1 : i = j ,
de la siguiente manera
Si | yi. yj. | HSD = Aceptar H0
2
SR 4,67 1 1
HSD = (4,22) = (4,22) + .
nh 2 ni nj
Con esta prueba se obtienen los mismos resultados que con el procedimiento de Bon-
ferroni.
3.2 Comparaciones mltiples de medias 17
y sern consideradas iguales tambin todas las medias comprendidas entre ellas. En la
expresin (3.21), el valor de Rp es
SR2
Rp = qp ;p,NI p = 2, 3, , I (3.22)
n
donde
Para la aplicacin del test de rango mltiple de Duncan, una vez que las medias estn
en orden ascendente, se calculan las diferencias entre las medias, comenzando por el valor
ms pequeo frente al ms alto de las p = I medias de los tratamientos, comparando esta
diferencia con el valor RI en la ecuacin (3.22) con un nivel de signicacin I . Si esas
dos medias no se consideran signicativamente diferentes, entonces el contraste se termina
y se concluye que ninguna de las medias son signicativamente diferentes entre s al nivel
de signicacin I . Esto es equivalente a no rechazar H0 : 1 = 2 = = I . Si las dos
medias extremas son signicativamente diferentes, el contraste contina.
En el siguiente paso se calcula la diferencia entre el valor ms pequeo y el segundo valor
ms grande y esta diferencia se compara con RI1 . Si este contraste no es estadsticamente
signicativo, la prueba cesa en esta comparacin y slo las dos medias extremas se con-
sideran signicativamente diferentes. Si este contraste es estadsticamente signicativo, la
prueba contina hasta encontrar la primera pareja de medias que no sea signicativamente
distinta. A continuacin, se calcula la diferencia entre la segunda media ms pequea y la
ms grande y se compara con RI1 . Este proceso contina hasta que se han considerado
las diferencias entre todas las I(I 1)/2 posibles parejas.
Para modelos no-equilibrados, la expresin de Rp es
2
SR
Rp = qp ;p,NI p = 2, 3, , I , (3.24)
nh
donde nh es la media armnica dada por la expresin (3.20).
Comentario 3.1
La probabilidad de rechazar errneamente al menos una hiptesis nula es decir, la
probabilidad de detectar incorrectamente como signicativa la diferencia entre dos medias
de un grupo de tamao p, es el nivel de signicacin conjunto p relacionado con el nivel
de signicacin por medio de la expresin (3.23).
2 = 1 (1 0,05)21 = 0,05 ,
4 = 1 (1 0,05)41 = 0,142 .
1 1
5 vs 2 q5 2,33 + = 2,994, | y5. y2. | = 12 > 2,994()
6 5
1 1
5 vs 1 q4 2,33 + = 2,793, | y5. y1. | = 5 > 2,793()
6 6
1 1
5 vs 3 q3 2,33 + = 2,856, | y5. y3. | = 3 > 2,856()
6 5
1 1
5 vs 4 q2 2,33 + = 2,896, | y5. y4. | = 2 < 2,896
6 4
1 1
4 vs 2 q4 2,33 + = 3,245, | y4. y2. | = 10 > 3,245()
4 5
1 1
4 vs 1 q3 2,33 + = 3,044, | y4. y1. | = 3 < 3,044
4 6
1 1
4 vs 3 q2 2,33 + = 3,010, | y4. y3. | = 1 < 3,010
4 5
1 1
3 vs 2 q3 2,33 + = 2,983, | y3. y2. | = 9 > 2,983()
5 5
1 1
3 vs 1 q2 2,33 + = 2,717, | y3. y1. | = 2 < 2,717
5 6
Test de Newman-Keuls
Este contraste fu desarrollado por Newman en 1939 y ampliado por Keuls en 1952,
se suele denominar contraste de Newman-Keuls. Al igual que el contraste de Duncan, es un
procedimiento iterativo y, desde el punto de vista operacional, es similar a dicho mtodo.
3.2 Comparaciones mltiples de medias 21
En el procedimiento de Newman-Keuls, los valores con los que se comparan las sucesivas
diferencias de medias vienen dados por
2
SR
Kp = q;p,NI p = 2, 3, , I , (3.25)
nh
donde
nh es la media armnica, dada en la ecuacin (3.20), que se utiliza cuando los tamaos
de las muestras son desiguales. En el caso del modelo equilibrado el valor de la media
armnica nh coincide con el tamao n de las muestras.
Comentarios 3.2
p 2 3 4 5
qp ;p, 2.94 3.09 3.17 3.24 ,
q;p, 2.94 3.57 3.94 4.22
22 Comparaciones mltiples
H0 : j = k
H1 : j = k .
H0 : j k = 0
H1 : j k = 0 ,
3.2.4. Contrastes
Se denomina contraste a toda combinacin lineal C, de los parmetros del modelo
de anlisis de la varianza, de la forma
I
C = a1 1 + a2 2 + + aI I = ai i , (3.27)
i=1
3.2 Comparaciones mltiples de medias 23
Ejemplo de contrastes distintos a las comparaciones por parejas son, entre otros,
2 + 3
1 (3.29)
2
1 + 4 (2 + 3 ) . (3.30)
Si se acepta que el primer contraste es cero se arma que la media del nivel 1 del
factor es igual al promedio de las medias de los niveles 2 y 3.
Si se acepta que el segundo contraste es cero se arma que las medias de los niveles
1 y 4, consideradas en grupo, son iguales a las medias de los niveles 2 y 3, tambin
consideradas en grupo.
I I I I I
C= ai i = ai ( + i ) = ai + ai i = ai i , (3.31)
i=1 i=1 i=1 i=1 i=1
I
ya que i=1 ai = 0.
Dado que un contraste es una funcin de los parmetros del modelo, que son desconoci-
dos, su valor se podr estimar utilizando los estimadores de los parmetros que intervienen.
Concretamente, se puede demostrar que el estimador ptimo de un contraste viene dado
por la misma combinacin lineal de los estimadores de los parmetros que intervienen; es
decir
I I
C= ai i = ai yi. ,
i=1 i=1
que tambin se puede escribir como la misma combinacin lineal de los estimadores de los
i ; es decir,
I
C= ai i . (3.32)
i=1
24 Comparaciones mltiples
En efecto
I I I I I
C= ai i = ai (i + ) = ai (i ) + ai = ai i . (3.33)
i=1 i=1 i=1 i=1 i=1
puesto que yi. son variables aleatorias independientes con varianza 2 /ni .
Por tanto, un estimador de la varianza de C es
I
2 2 a2i
S {C} = SR , (3.38)
ni
i=1
2 , es la varianza residual.
donde SR
3.2 Comparaciones mltiples de medias 25
3a ) C se distribuye segn una Normal al ser una combinacin lineal de variables aleato-
rias Normales independientes. Adems, por las propiedades 1a y 2a , su media es C
y su desviacin tpica es {C}. En otras palabras,
C N(C, {C})
2 , se verica que el
Por tanto, al considerar la estimacin de {C} en funcin de SR
cociente
C C
tNI . (3.39)
S{C}
C = 21 (2 + 3 ) ,
se tiene que:
1a ) La estimacin puntual de C es
C = 2y1. (y2. + y3. ) = 2(50) (57 + 48) = 5 .
Contrastes ortogonales
Decimos que dos contrastes3 C1 = i ai yi. y C2 = i bi yi. son ortogonales si
verican que
I
ai bi = 0 . (3.41)
i=1
1) C1 = 1 3
2) C2 = 1 3 + 4 + 5
3) C3 = 4 5
4) C4 = 1 + 42 3 4 5 .
Tabla 2-1.
Respuesta media del nivel del factor
Contraste 1 2 3 4 5
C1 1 0 -1 0 0
C2 -1 0 -1 1 1
C3 0 0 0 1 -1
C4 -1 4 -1 -1 -1
Obsrvese que la suma de los coecientes de cada la es cero indicando que cada Ci
es un contraste. Adems, es inmediato comprobar que los productos dos a dos de los
3
Aunque C = i ai yi. es un estimador del contraste C = i ai i , nos referiremos a l como contraste
y lo denotaremos por C.
3.2 Comparaciones mltiples de medias 27
coecientes de los contrastes suman cero indicando que los contrastes son mutuamente
ortogonales. En efecto, comprobemos, por ejemplo, que los contrastes C1 y C2 son ortog-
onales
(1)(1) + (0)(0) + (1)(1) + (0)(1) + (0)(1) = 0 .
I 2
ai yi.
1=1
SSC = I
, (3.42)
a2i
i=1
ni
y por lo tanto, la expresin de la suma de cuadrados en el modelo equilibrado es
I 2
n ai yi.
1=1
SSC = I
, (3.43)
a2i
i=1
basta comparar la suma de cuadrados asociada al contraste con el cuadrado medio del
error. Entonces, el cociente SSC/SR 2 es el estadstico de contraste que, bajo la hiptesis
en la Tabla 2-1. Dichos contrastes junto con sus estimaciones puntuales y su suma de
cuadrados asociada se muestran en la siguiente tabla
Tabla 2-2
Hiptesis Estimaciones S.Cuadrados
H0 : 1 = 3 C1 = 2 SSC1 = 10,89
H0 : 1 + 3 = 4 + 5 C2 = 6 SSC2 = 45,97
H0 : 4 = 5 C3 = 2 SSC3 = 9,61
H0 : 42 = 1 + 3 + 4 + 5 C4 = 38 SSC4 = 362,35
Donde
C1 = (1)(y1. ) + (1)(y3. ) = 50 48 = 2
C3 = (1)(y4. ) + (1)(y5. ) = 47 45 = 2
(2)2
SSC1 = = 10,89
12 (1)2
+
6 5
(6)2
SSC2 = = 45,97
1 1 1 1
(1)2 + + (1)2 +
6 5 4 6
(2)2
SSC3 = = 9,61
12 (1)2
+
4 6
(38)2
SSC4 = = 362,35
1 1 1 1 (4)2
(1)2 + + + +
6 5 4 6 5
3.2 Comparaciones mltiples de medias 29
SSC2 45,97
F (C2 )(exp) = = = 9,84
2
SR 4,67
SSC3 9,61
F (C3 )(exp) = = = 2,05
2
SR 4,67
SSC4 362,35
F (C4 )(exp) = = = 77,59 .
2
SR 4,67
Si realizamos el contraste al nivel de signicacin del 5 % y puesto que F0,05;1,21 = 4,32, se
concluye que 1 = 3 , 4 = 5 y en los otros dos contrastes se rechaza la hiptesis nula.
Generalmente las sumas de cuadrados de los contrastes y las pruebas correspondientes
se incorporan a la Tabla ANOVA, de la siguiente forma:
Tabla 2-3.
F. V. S.C. G.L. M. C. Fexp F
Entre grupos 439.88 4 109.97 23.56 2.84
C1 : 1 = 3 10.89 1 10.89 2.33 4.32
C2 : 1 + 3 = 4 + 5 45.97 1 45.97 9.84 4.32
C3 : 4 = 5 9.61 1 9.61 2.05 4.32
C4 : 42 = 1 + 3 + 4 + 5 362.35 1 362.35 77.59 4.32
Interna 98.00 21 4.67
TOTAL 537.88 25
= 1 (1 )I1 , (3.46)
= 1 (1 )1/(I1) . (3.47)
Estas frmulas no son estrictamente vlidas cuando hay implicados contrastes no-
ortogonales. En estas situaciones, sin embargo, pueden utilizarse dichas ecuaciones obtenin-
dose resultados aproximados. En tales casos, la tasa global puede ser mayor que la indicada
por la ecuacin (3.46).
Para la ilustracin numrica, tomemos como nivel de signicacin individual 0.05 y
como valor de I, 5. Si las 5 medias poblacionales son iguales, la probabilidad de rechazar
incorrectamente una o ms de las 4 comparaciones ortogonales es = 1 (1 0,05)4 =
0,1854. Es decir, la tasa de error global es casi 4 veces mayor que la tasa individual.
Por otra parte, si tomamos igual a 0.05, entonces = 1 (1 0,05)0,25 = 0,01274.
Observamos que una tasa de error del experimento igual a 0.05 es mucho ms exigente
que una tasa de error individual de 0.05.
Aunque el experimentador se interesa en controlar todas las tasas de error y niveles
de conanza, es importante subrayar que el objetivo principal de los procedimientos de
comparaciones mltiples es informarse lo ms posible sobre las poblaciones, procesos o
fenmenos que intervienen en el experimento. Fijar unas tasas de error pequeas no es
el nico propsito de un experimento, es slamente una medida del grado de exigencia o
rigor de la metodologa estadstica empleada.
En muchos experimentos el investigador no sabe a priori los contrastes que le interesa
realizar, siendo despus de un anlisis preliminar de los datos cuando se descubren las
comparaciones de inters.
C= ai i , (3.48)
i
el objetivo de este procedimiento es decidir, para cada uno de estos contrastes, entre las
hiptesis
H0 : C = 0
(3.49)
H1 : C = 0 .
C es el estimador insesgado de C.
I
2 a2i
S{C} = SR , (3.51)
ni
i=1
C3 = y4. y5. = 47 45 = 2
5
2 a2i 1 1 1 1
S{C2 } = SR = 4,67 + + + = 1,912
i=1
ni 6 5 4 6
y
5
2 a2i 1 1
S{C3 } = SR = 4,67 + = 1,394 .
ni 4 6
i=1
los otros mtodos y son menos conservadores que los procedimientos basados en la
eleccin de la tasa de global.
Si se desea controlar la tasa de error global, los mtodos ms tiles incluyen el test
de Bonferroni y procedimiento de Tukey. Ambas tcnicas tienen fuertes defensores.
El test de Bonferroni tiene la ventaja de utilizar un estadstico t, siendo su principal
desventaja, cuando se realizan un gran nmero de comparaciones, que el nivel de
signicacin individual se hace demasiado pequeo.
H0 : i = I
(3.54)
H1 : i = I i = 1, 2, , I 1 .
| yi. yI. | i = 1, 2, , I 1 .
2 1 1
| yi. yI. |> d;I1,NI SR + , (3.55)
ni nI
ocupe el control es arbitraria, por ello, en este ejemplo vamos a considerar que es la primera
posicin, el tratamiento 1. En dicho ejemplo, I=5, =21 y para un nivel de signicacin
del 5 % el valor de d0,05;4,21 es 2.64. Por tanto, las diferencias crticas y observadas son,
respectivamente,
1 1
2 vs 1 : d0,05;4,21 4,67 + = 3,454 | y2. y1. |= 7
5 6
1 1
3 vs 1 : d0,05;4,21 4,67 + = 3,454 | y3. y1. |= 2
5 6
1 1
4 vs 1 : d0,05;4,21 4,67 + = 3,682 | y4. y1. |= 3
4 6
1 1
5 vs 1 : d0,05;4,16 4,67 + = 3,293 | y5. y1. |= 5
6 6
Bibliografa utilizada
Garca Leal, J. & Lara Porras, A.M. (1998). Diseo Estadstico de Experimentos.
Anlisis de la Varianza. Grupo Editorial Universitario.