Comparaciones Multiples, Supuestos y Nro Repeticiones

Curso de diseño de experimentos
Norbey Marín Arredondo
Comparaciones multiples
Supuestos del ANOVA
Transformaciones mas comunes
Numero de repeticiones
Norbey Marín Arredondo - Estadístico 1

Objetivos
• Identificar las características de un diseño completamente al azar (DCA) y un diseño

de bloques completos al azar (DBCA)
• Analizar los resultados de un DCA y DBCA a través de un ANOVA
• Conocer y aplicar las pruebas de comparación múltiple
• Conocer y verificar los supuestos del ANOVA
• Definir el número de repeticiones para el desarrollo de un experimento.

METODOS DE COMPARACION
MULTIPLE

Generalidades
Al ejecutar un ANOVA y probar la hipótesis global mediante la prueba es posible que se presenten
algunas de las siguientes situaciones:
1. No rechazar H0 Cuando no se rechaza, se cree que hasta allí llega el análisis de los datos en cuanto a
las comparaciones de tratamientos, pero esto no es cierto debido a que la prueba F hace una comparación
simultánea global sobre todos los tratamientos, es posible que este hecho no permita detectar algunas
diferencias reales entre estos.
2. Rechazar H0 En este caso el investigador desearía conocer cuáles tratamientos son diferentes y cuales
de ellos se comportan de igual manera, pero la prueba F no permite resolver esto porque solamente
informa de una manera global que existe diferencia entre todos ellos.
Otro situación sucede cuando el investigador al planear su estudio diseña comparaciones específicas
entre tratamientos; esto resulta algunas veces casi imposible cuando se desconoce el comportamiento de
los tratamientos como sucede en investigaciones de tipo exploratorio, caso en el cual las comparaciones
surgen luego de observar los datos.

Para dar una solución a este problema, los estadísticos desarrollaron los procedimientos denominados:
- Pruebas de comparación múltiple
- Pruebas de separación de medias
- Pruebas de comparación de medias
Esta pruebas pueden ser: planeadas o no planeadas (post-hoc) y son validas si las varianzas de los
tratamientos son iguales.
Pruebas planeadas
Se realizan cuando el investigador conoce con anterioridad el comportamiento de los tratamientos o la

estructura de estos, puede incluir en su plan de investigación comparaciones de interés
Estas resultan un poco difícil de construir en experimentos puramente exploratorios y no solo son
comparaciones entre pares de medias, sino comparaciones que involucran más de un par de medias. Algunas
técnicas utilizadas para comparaciones de éste tipo son:
- Contrastes simples
- Contrastes ortogonales

Cuidados con las comparaciones planeadas
Son una herramienta muy utilizada, sin embargo puede fácilmente dárseles mal uso, para evitar esto
se deben seguir los siguientes principios:
1. Deben ser planeadas porque si se eligen las comparaciones según lo que indiquen los datos, se
incrementa la probabilidad de cometer error tipo I.
2. Deben ser limitadas en número, esto evita el problema de ``expedición de pesca'' en el que se
requiere buscar solo diferencias significantes y de esta manera poder tener alto riesgo de obtener
conclusiones inválidas
3. Las comparaciones planeadas no deben tener valores de  muy grandes.

Pruebas no planeadas: se realizan en parejas
Todos contra todos: LSD ó DMS, Duncan, Tukey, Scheffe, Bonferroni, etc.
Todos contra un control: Dunnett
𝑡 𝑡!
Se realizan = comparaciones
2 2! 𝑡 − 2 !

DIFERENCIA MINIMA SIGNIFICATIVA (DMS - LSD)
Es uno de los métodos mas utilizados quizá porque es uno de los más fáciles de aplicar. Se usa para
efectuar pruebas de t múltiples cada una con un nivel , solo si la prueba F del ANOVA es significativa
al nivel .
Hipótesis H 0 : i   j - vs - H1 : i   j Para i  j
1 1 Cuando el diseño es
DMS  t ( / 2, glerror) CM EE   
r r  desbalanceado
 i j 
Estadístico
2CM EE
DMS  t ( / 2, glerror) Cuando el diseño es balanceado
r
Criterio de decisión
Se rechaza H0 si: X i  X j  DMS

Si es r grande entonces el DMS será pequeño y permitirá detectar diferencias significativas pequeñas, por otro
lado si el CMEE aumenta para un r fijo entonces la DMS es grande y se tiende a no detectar diferencias
significativas
Ventajas
1. Fácil de realizar
2. Es válida cuando se han planeado las comparaciones que se van a hacer previamente a la obtención de los
resultados.
Desventajas
Puede dar resultados falsamente significativos en un nivel del 0.05 si el experimentador se dedica a hacer
comparaciones exclusivamente entre tratamientos de resultados extremos.
En el caso de que hubiera que hacer preferentemente comparaciones de resultados extremos, es necesario optar por un
nivel de 0.01 en lugar de 0.05
Si el número de tratamientos es elevado debe remplazarse por otra prueba

Debido a este uso incorrecto de la DMS se vacila en su recomendación
El uso incorrecto más común es hacer comparaciones sugeridas por los datos.

MÉTODO DE TUKEY
Método de la Diferencia Significativa Honesta de Tukey (DSH)

Este método es muy similar en la aplicación a la DMS, salvo por el hecho de que en lugar de
utilizar las distribuciones de t como base para realizar las comparaciones, se emplea la distribución
del rango estandarizado o estudentizado, que tiene en cuenta el numero de tratamientos
CM EE Cuando el diseño es balanceado

Estadístico T  q ( , t , gl EE )
r
CM EE Cuando el diseño es
T  q( , t . gl EE )

min ri , r j  desbalanceado
Donde:
 es el nivel de significancia Criterio de decisión:
Se rechaza H0 si:
X i  X j  T
t es el numero de tratamientos
El valor de q se encuentra en la tabla de TUKEY
PRUEBA DE RANGO MULTIPLE DE DUNCAN
Se utiliza para comparar todos los pares de medias.
Fue desarrollado por primera vez por Duncan en 1951 pero posteriormente él mismo modificó su
primer método generando el que ahora se denomina Nuevo método de Rango Múltiple de Duncan.
Esta prueba no requiere de una prueba previa de F, como sucede con la DMS o sea que aún sin ser
significativa la prueba F puede llevarse a cabo.
CM EE
Estadístico R p  q( , p. gl EE ) SY y SY 
r
Donde:
 es el nivel de significancia
p es el numero de medis inclusive entre las dos madias a comparar
El valor de q se encuentra enla tabla de DUNCAN

Tabla de valores de comparación de DUNCAN
p 2 3 ... t
q(α,p,glEE) q2 q3 ... qt
Sy SY SY ... SY
Rp q2 SY q3 SY ... qtSY
Criterio de decisión: Se rechaza H0 si: X i  X j  Rp

Cuando el diseño es desbalanceado pero los tamaños de réplicas rj (j=1, ..., t) difieren
marcadamente este método puede adaptarse utilizando en vez de r en la estadística, el valor de la
media armónica de los tamaños de muestras
t
r~  2
t R
r
j 1
j 1 / r1  1 / rt
r1 y rt son el numero de repeticiones del tratamiento mas pequeño y mas grande respectivamente

PRUEBA DE DUNNET
En esta prueba se establece previamente un patrón o testigo para compararlo con los
otros niveles del factor de interés
Hipótesis H 0 : 0   j - vs - H1 : 0   j Para j=1, . . .,t
2CM EE
DU  d t 1, glee  Cuando el diseño es balanceado
r
Estadístico
1 1 Cuando el diseño es
DU  d t 1, glee  CM EE *   
r  desbalanceado
 0 rj 
La prueba de Dunnet puede hacerse de una y dos colas
Criterio de decisión: Se rechaza H0 si: X 0  X j  DU

MÉTODO DE SCHEFFE
• Esta basada en la distribución F al igual que el ANOVA

• Es un método mas general, por lo cual es mas estricta que LSD y TUKEY
1 1
𝑆= (𝑡 − 1)𝐹(𝛼,𝑡−1,𝑔𝑙𝑒𝑟𝑟𝑜𝑟) 𝐶𝑀𝐸 + Cuando el diseño es balanceado
𝑟𝑖 𝑟𝑗
2𝐶𝑀𝐸(𝑡 − 1) Cuando el diseño es desbalanceado

𝑆= 𝐹(𝛼,𝑡−1,𝑔𝑙𝑒𝑟𝑟𝑜𝑟)
𝑟
Criterio de decisión: Se rechaza H0 si: X0  X j  S

Otras pruebas de comparación son:
- Bonferroni - Waller Duncan
- Student-Newman-Keuls - Gabriel
- T Multivariado - Regw
- Sidak
Cuando el supuesto de homogeneidad no se cumple, se pueden aplicar las pruebas de

comparación de medias:
- T2 de Tamhane
- C3 de Dunnet
- C de Dunnet
- Games-Howell

Probabilidad de Falso Positivo
Tasa de error individual –vs- Tasa de error por familia
Comparisonwise error rate –vs- Experimentwise error rate
Prob(Error tipo I) = Prob(Falso positivo)
Prob(rechazar Ho siendo cierta)
Prob(Declarar diferencias que no existen)
𝑘
Experimentwise error rate : Tasa de rror por familia 𝑃𝑟𝑜𝑏 𝐹𝑎𝑙𝑠𝑜 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜 = 1 − (1 − 𝛼)
𝑡(𝑡 − 1)
Donde k es el numero de comparaciones realizadas 𝑘=
2
Para α=0,05
6
Si t=4; k=6 𝑃𝑟𝑜𝑏 𝐹𝑎𝑙𝑠𝑜 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜 = 1 − 1 − 0,05 = 0,4012
𝑃𝑟𝑜𝑏 𝐹𝑎𝑙𝑠𝑜 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑜 = 1 − 1 − 0,05 10 = 0,9005
Si t=5; k=10
45
Mateo Vargas. CIAT, Cali, Colombia, 8-11 Nov 2011

Para α=0,01
6
10
45
Si se desea tener una tasa de error por familia determinada, a que nivel de significancia se deben
realizar las comparaciones individuales
𝛼 = 1 − 1 − 𝑡𝑎𝑠𝑎 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟 𝑝𝑜𝑟 𝑓𝑎𝑚𝑖𝑙𝑖𝑎 1/𝑘
Por ejemplo, si se quiere tener una tasa de error por familia del 5%, para un experimento con 10
comparaciones, el nivel de significancia de cada comparación debe ser:
𝛼 = 1 − 1 − 0,05 1/10
𝛼 = 0,005

Comparación de los métodos
Para α = 0.05 se obtuvo LSD(63,06) < TUKEY(95,02) < SCHEFFE(111,30)
Para α = 0.01 se obtuvo LSD(86,01) < TUKEY(117,77) < SCHEFFE(136,92)
Trat Media LSD Tukey Scheffe LSD Tukey Scheffe

(0.05) (0.05) (0.05) (0.01) (0.01) (0.01)
A 351.20 A A A A A A
C 301.40 AB AB AB AB AB AB
B 247.60 BC BC AB BC AB AB
F 229.00 C BC B BC B AB
D 224.20 C BC B BC B AB
E 200.60 C C B C B B
Norbey Marín A. Estadístico 18
CONTRASTES ORTOGONALES
Por teoría estadística se conoce que no todas las comparaciones entre medias de tratamiento se pueden
probar estadísticamente, sólo aquellas denominadas funciones estimables.
Uno de este tipo de funciones son los llamados contrastes. Un contraste denotado por C se define
como una combinación lineal de medias o efectos de tratamientos y se denota por la expresión:
C  c1 1  c2 2    ct t
Reemplazando
ˆ  c Y  c Y   c Y
C 1 1 2 2 t t

Hipótesis a probar
t
H1 : C  0 ó H1 :  c j  j  0
t
H0 : C  0 ó H0 :  c j  j  0
j 1 j 1
Se debe cumplir que: t

H0 :  c j  0
j 1
t
Sí C1 y C2 son contrastes, estos son ortogonales si y solo si: c
j 1
c 0
1j 2j
De otra forma no son ortogonales
En un experimento de t tratamientos, se pueden estimar t-1 contrastes ortogonales

Tabla de estimación de contrastes
Totales/ Cj t
Contraste Q r  c 2j SC(li) Fc
Y.1 Y.2 ... Y.t j 1
C1 C11 C12 ... C1t
C2 C21 C22 ... C2t
...
---
t
Q2
Donde: Q   c jY . j SC (C i )  SC (C i )
j 1
t
r c j 2 Fc 
CM EE
j 1
Se rechaza H0 si, Fc > F(,1,glerror)
- Cada contraste tiene un grado de libertad , por eso SC(C ) = CM(C )

- Si se tienen t-1 contrates ortogonales la suma de cuadrados total de todos los contrastes, es igual a la
suma de cuadrados de los tratamientos

Como se generan los coeficientes de un contraste
Suponga que se tiene un experimento donde se suministra una droga en tres dosis diferentes a un
paciente y un tratamiento control sin droga, los tratamientos son:
T0 = Testigo T1 = 1 cm3 T2 = 2 cm3 T3 = 5 cm3
Se plantean los siguientes contrastes:
1. Hay efecto de la droga?

Se compara si el efecto medio de las drogas es igual al efecto medio del control
1  2  3
Entonces: H 0 : 0 
3
Despejando e igualando a cero H 0 : 30  1  2  3  0 No hay efecto

de droga
El contraste asociado es: C1  30  1  2  3

Los coeficientes para el contraste son: c0  3 c1  -1 c2  1 c3  1

2, Hay diferencia entre los niveles bajos de droga y el nivel alto?
Se comparan el promedio del nivel uno y dos contra el nivel 3
Entonces: 1  2
H0 :  3
2
H 0 : 1  2  23  0
No diferencia entre las
Despejando e igualando a cero
dosis de droga
El contraste asociado es: C2 : 1  2  23
Los coeficientes para el contraste son: c0  0 c1  1 c2  1 c3  2

COMPARACION ENTRE METODOS
- Cuando sólo se hacen comparaciones por parejas, el método de Tukey conduce a límites de
confianza más estrechos que el método de Scheffé, por lo cual el método de Tukey encontrará más
diferencias significativas, siendo en este caso el método preferido. En cambio cuando los contrastes
son más complicados que la diferencia de medias, es el método de Scheffé el que tiene límites de
confianza más estrechos
- El método de Bonferroni es preferido al de Scheffé cuando el número de contrastes es igual o

menor que el número de niveles del factor.
- Cuando el número de comparaciones por parejas es muy grande no se debe utilizar el método de
Bonferroni, ya que el nivel de significación de cada comparación puede llegar a ser demasiado
pequeño para considerarse de utilidad. En estas situaciones los tests de rangos múltiples como
Tukey, Newman-Keuls y Duncan ofrecen una solución de compromiso entre la tasa de error global
deseada y una tasa de error individual demasiado pequeña y por tanto inaceptable. Estos métodos
son preferidos en el sentido de producir intervalos de confianza más estrechos

- El método LSD de Fisher es el que proporciona más diferencias significativas; a continuación, le
siguen los métodos de Duncan y Tukey. Eligiremos uno u otro dependiendo del riesgo que estemos
dispuestos a correr al aceptar más o menos diferencias significativas. Es decir, a aceptar como
significativas diferencias que no lo sean (situación no conservadora), o a aceptar menos diferencias
significativas de las que realmente existan (situación conservadora). Cramer y Swanson (1973),
realizaron estudios de simulación por el método de Montecarlo de los que concluyeron que el
procedimiento LSD es una prueba muy eficiente para detectar diferencias verdaderas entre las
medias si se aplica después que la prueba F del análisis de la varianza resultó significativa al 5 %.
También concluyeron que el procedimiento de intervalos múltiples de Duncan es un buen método
para detectar diferencias reales.
- El procedimiento de Tukey tiene un error tipo I menor que los correspondientes errores de los
tests de Newman-Keuls y de Duncan; es decir, es un test más conservador. En consecuencia, el
procedimiento de Tukey tiene menos potencia que los procedimientos de Newman-Keuls o de
Duncan

- Si se desea controlar la tasa de error individual, los métodos LSD de Fisher y de Duncan
resultan apropiados. Facilitan más protección de los errores de Tipo I que comparaciones
múltiples los otros métodos y son menos conservadores que los procedimientos basados en la
elección de la tasa de global.
- Si se desea controlar la tasa de error global, los métodos más útiles incluyen el test de Bonferroni
y procedimiento de Tukey. Ambas técnicas tienen fuertes defensores. El test de Bonferroni tiene la
ventaja de utilizar un estadístico t, siendo su principal desventaja, cuando se realizan un gran
número de comparaciones, que el nivel de significación individual se hace demasiado pequeño.

Pruebas post hoc
En esta tabla se presentan las pruebas disponibles, ordenadas de la más liberal (mayor potencia estadística y mayor tasa de falsos
positivos) a la más conservadora (menor tasa de falsos positivos, menor potencia estadística).
Estas pruebas post hoc presuponen varianzas iguales.
Prueba post hoc Descripción
LSD El método LSD (mínima diferencia significativa) aplica las pruebas T estándar a todos los pares posibles de medias de grupo.
SNK, REGWF, Los métodos SNK (Student-Newman-Keuls), REGWF (Ryan-Einot-Gabriel-Welsh F), REGWQ (Ryan-Einot-Gabriel-Welsh Q) y
REGWQ y Duncan implican pruebas secuenciales.
Duncan Tras ordenar las medias de los grupos de la más baja a la más alta, las dos medias más extremas se prueban para buscar una
diferencia significativa mediante un valor crítico ajustado para el hecho de que se trata de las medias extremas de un
conjunto más grande de medias.
Si no se considera que estas medias son significativamente diferentes, la prueba se detiene. Si son diferentes, la prueba
continúa con el siguiente conjunto más extremo y así sucesivamente.
Bonferroni, La prueba Bonferroni (también denominada procedimiento Dunn) y la prueba Sidak (también denominada Dunn-Sidak) se
Sidak realizan en un nivel de significación estricto para garantizar que la tasa de falsos positivos de toda la familia (es decir, que se
aplica al conjunto de pruebas) no supera el valor especificado.
Tukey (b) La prueba Tukey (b) es una prueba de compromiso que combina el criterio Tukey (consulte la prueba siguiente) y el criterio
SNK, y produce un resultado que se encuentra entre los dos.
Tukey La prueba HSD (diferencia honestamente significativa) de Tukey, que también se denomina Tukey HSD, WSD o Tukey (a),
controla la tasa de falsos positivos en toda la familia.
Esto significa que si va a realizar una prueba en el nivel 0,05, al realizar todas las comparaciones en todos los pares, la
probabilidad de obtener uno o varios falsos positivos es de 0,05.
Scheffe El método de Scheffe también controla la tasa de errores en toda la familia. No sólo ajusta las comparaciones en todos los
pares, sino que también ajusta cualquier posible comparación que se especifique.
GT2 de La mayoría de los procedimientos post hoc mencionados anteriormente (excepto las pruebas LSD, Bonferroni y Sidak) se
Hochberg, derivan de la presuposición de tamaños de muestra de los grupos iguales además de la homogeneidad de la varianza y la
Gabriel normalidad del error. Cuando los tamaños de los subgrupos no son iguales, IBM® Cognos Report Studio sustituye un único
valor (la media armónica) por el tamaño del ejemplo. Las pruebas post hoc GT2 de Hochberg y Gabriel permiten
explícitamente tamaños de muestra desiguales.
Waller-Duncan La prueba Waller-Duncan adopta un enfoque bayesiano que ajusta el valor del criterio según el tamaño de la estadística F
global para que sea sensible a los tipos de diferencias de grupos asociadas a la estadística F (por ejemplo, grande o pequeño).
Dunnett Una prueba T de comparación múltiple en todos los pares que compara un conjunto de tratamientos con una única media de
control. Puede elegir la primera categoría o la última categoría como la categoría de control predeterminada.
Bilateral prueba que la media en cualquier nivel (excepto la categoría de control) del factor no es igual a la de la categoría de
control.
< Control prueba si la media en cualquier nivel del factor es menor que la de la categoría de control.
> Control prueba si la media en cualquier nivel del factor es mayor que la de la categoría de control.
http://www-01.ibm.com/support/knowledgecenter/SSEP7J_10.2.0/com.ibm.swg.ba.cognos.ug_cr_rptstd.10.2.0.doc/c_id_obj_anova.html%23id_obj_anova?lang=es

Estas pruebas post hoc ajustan las varianzas desiguales y los tamaños de las muestras en los grupos.
Prueba post Descripción

hoc
Games-Howell La prueba Games-Howell está diseñada para varianzas desiguales y tamaños de muestra
desiguales, y se basa en la distribución estadística q.
T2 de T2 de Tamhane es una prueba conservadora. Se considera más adecuada que HSD de Tukey
Tamhane cuando el tamaño de las celdas es desigual o cuando se infringe la homogeneidad de las
varianzas.
T3 de Utilice estas pruebas en lugar de Games-Howell cuando sea fundamental mantener el control
Dunnett, C de sobre el nivel de significación entre varias pruebas.
Dunnett
http://www-01.ibm.com/support/knowledgecenter/SSEP7J_10.2.0/com.ibm.swg.ba.cognos.ug_cr_rptstd.10.2.0.doc/c_id_obj_anova.html%23id_obj_anova?lang=es

SUPUESTOS DEL ANALISIS DE VARIANZA

1. PRUEBA DE NORMALIDAD
H0: Los errores se distribuyen normal con media 0 y varianza σ2
H1: Los errores no se distribuyen normal
Algunas de las pruebas utilizadas son:

- Shapirto-Wilk Gráfica de probabilidad normal para los residuales
Normal
- Kolmogorov-Smirnov 99.9
Media 4.233650E-15
- D’agostino 99
Desv.Est. 2.267
N 240
- La prueba de bondad de ajuste AD 0.302
95 Valor P 0.574
- Anderson Darling 90
80
- Cramer-Von Mises
Porcentaje
70
60
- Los gráficos QQ y PP 50
40
30
20
Estas pruebas serán aplicadas directamente 10
5
en práctica de computador
1
0.1
-8 -6 -4 -2 0 2 4 6 8
RESID2

2. PRUEBA DE HOMOGENEIDAD DE VARIANZAS
Para validar el supuesto de homogeneidad de varianzas se realiza de manera gráfica un diagrama
de dispersión entre los residuales (eje Y) y las respuestas estimadas Ŷ
Si se observa algún patrón indica que posiblemente no se cumple el supuesto de homogeneidad de varianzas
También existen pruebas objetivas como las que se desarrollan a continuación:

Para la validación de este supuesto se prueban las hipótesis
H0: Los errores o residuos tienen varianzas homogéneas Para i≠ j; i,j=1,2, . . ., t

H1: Los errores o reiduos no tienen varianzas homogéneas
Si H0 no se rechaza, se aplica el anova paramétrico y comparan las medias de los tratamientos

mediante la prueba F
Si H0 se rechaza:
1. Se transforman los datos y se realiza nuevamente la prueba
2. Se aplican pruebas no paramétricas,
Por ejemplo: si se tiene un DCA, se aplica una prueba de Games-Howell o kruskal-wallis

Gráficos de estimados y residuales
Homegeneidad
* * * *
*
** * * ** * * *
* * * *
* *** * * * *
**
Estimados Estimados
Heterogeneidad
* ** * *
*
*
* * *
* * **
Estimados
Prueba de Bartlett
La prueba de Barttlet require el cumplimiento del supuesto de normalidad
1 t 
No requiere que los r sean iguales, la estadística es: U  
c
v loge (ˆ 2
)   v j loge (ˆ 2j )
j 1 
t
v jˆ 2j 1  t 1 1 
v   rj  1  
t
v j  rj  1 ˆ 2   c  1
Donde: j 1 3( t  1)  j 1 v j v 
j 1 v
La hipótesis de igualdad de varianzas se rechaza cuando: U > χ2(,t-1)

Prueba de Levene
Esta prueba es robusta al supuesto de normalidad, es decir, se realiza sin que se

cumpla el supuesto de normalidad de la residuos.
Para su ejecución de debe
1.Reemplazar el valor observado Yij por: zij  yij  y j
2. Realizar un anava para los datos transformados
3. Se rachaza H0 si la prueba F del anava es significativa
Si los datos presentan mucha asimetría, se reemplaza la media de cada tratamiento por su
respectiva mediana

Prueba de igualdad de varianzas para los residuales
Aceite P, aequale Prueba de Bartlett

Estadística de prueba 15.90
Valor P 0.026
Aceite P, crassin
Prueba de Lev ene
Estadística de prueba 2.25
Amitraz Valor P 0.031
Producto
Cipermetrina
Dravafox
Ext E citrifolium
Ext P aequale
Ext P, crassinervium
1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5

Intervalos de confianza de Bonferroni de 95% para Desv.Est.

CAUSAS DE NO CUMPLIENTO
- El bloqueo a veces genera interacción con el tratamiento
- La homogeneidad de varianza cuando se experimenta con seres vivos no es fácil de

suponer: dos individuos de la misma especie reaccionan en forma diferente a un
tratamiento
- La variabilidad de la respuesta de alguna unidad experimental puede ser muy grande o

muy pequeña frente a las demás, generando datos atípicos (el cociente entre el valor más
grande observado de y el más pequeña es considerablemente grande, por decir, 10 o
más)
- El supuesto de independencia de los errores de una observación a otra no siempre se

cumple: cuando una unidad experimental afecta a otra.
- Asignación sistemática de tratamientos, no aleatorizar

TRANSFORMACIONES MAS COMUNMENTE UTILIZADAS
1. Transformación logarítmica, Log(y)
Se utiliza cuando:
Las varianzas son proporcionales a los cuadrados de las medias de los tratamientos
Hay efectos multiplicativos en los efectos de los tratamientos
Cuando hay datos con valor ‘0’ , se utiliza Log( y + 1)

2. Transformación de la raíz cuadrada, 𝒚
Se utiliza cuando:
La variable de respuesta corresponde a números enteros (conteos) pequeños, por

ejemplo, numero de personas ó numero de respuestas correctas. Esta variable se
distribuye Poisson (la media y la varianza son iguales)
También cuando los datos corresponden a porcentajes entre 0-20% y 80-100%
Si hay datos con valor 0 ó muy pequeños se recomienda usar 𝑦 + 0.5

3. Transformación angular, 𝐀𝐫𝐜𝐨𝐬𝐞𝐧𝐨( 𝒚) o 𝑨𝒓𝒄𝒐𝒔𝒆𝒏𝒐(𝒚)
Se utiliza cuando:
los datos de variable de respuesta corresponden a una distribución Binomial y se

expresan como porcentajes o proporción de la muestra total
Se debe transformar si el rango entre el máximo y mínimo es mayor al 40%
En el libro Tecnicas Modernas de analisis exploratorio de datos, existen otras

trnsformaciones que se recomienda con base en la dispersión de los datos, realizando el
gráfico de caja y alambres

4. Transformación BOX-COX
La transformación potencial esta definida como una función continua con respecto
a la potencia lambda (). Para los datos (𝑌1 , 𝑌2 , . . ., 𝑌𝑛 ) se realiza la transformación
de la siguiente manera
𝑘1 ∗ 𝑌𝑖𝜆 − 1 𝑆𝑖 𝜆 ≠ 0
(𝜆)
𝑌𝑖 =
𝑘2 ∗ ln 𝑌𝑖 𝑆𝑖 𝜆 = 0
Donde K2 es la media geométrica de Y, y K1 es una función de K2
𝑦 1/𝑛
1
𝐾2 = 𝑌𝑖 = (𝑌1 ∗ 𝑌2 ∗ . . . 𝑌𝑛 )1/𝑛 𝐾1 =
𝜆 ∗ 𝐾2𝜆−1
𝑖=1

Procedimiento para la selección del mejor valor de 
Primero se deben seleccionar el rango de valores de lambda  de los cuales se quiere

seleccionar el que logra que la transformación se acerque al máximo a los datos. Para
cada valor de  se realiza la transformación del paso anterior.
Finalmente se sustituyen los valores de la o las variables explicativas en las diferentes

funciones y se calculan los cuadrados de los residuales estadísticos.
Aquella que tenga el menor valor de la suma de residuales será la mejor opción. Note
que K2 es un valor fijo para todos los casos y que sólo hay que calcular de nuevo el
valor K1.

NUMERO DE REPETICIONES

Cuantas replicas se deben realizar ?
Por replicación se entiende que cada tratamiento debe ser aplicado a varias unidades experimentales.
La replicación sirve para:
i) Proveer un estimado del error experimental, tal estimación se convierte en la unidad básica para
determinar si las diferencias observadas en los datos son estadísticamente significativas
ii) Incrementar la precisión por medio de la reducción de errores estándar.
iii) Calcular una estimación más precisa del efecto de un factor en el experimento si se usa la media
muestral (Y) como una estimación de dicho efecto.

Factores que afectan el número de réplicas
El número de réplicas para un experimento se determina con base en:
i) El grado de precisión deseada
ii) Cantidad de Variabilidad presente en el material experimental
iii) Recursos disponibles, incluyendo personal y equipo
iv) Tamaño y la forma de la unidad experimental
El grado de precisión deseado depende de la naturaleza y características de los

tratamientos y de la magnitud de la diferencia esperada entre los tratamientos. Si la
diferencia es pequeña mayor será el número de repeticiones. El grado de precisión es
definido como la variabilidad asociada con la media de tratamiento (la varianza de una
media de tratamientos).

Para determinar el número de réplicas existen unas tablas construidas por Bowman and Kastenbaun
(1975). Para utilizarlas se deben especificar , , t y Δ donde:
 es la probabilidad de cometer error tipo I. En el anexo se dan las tablas al nivel

 es la probabilidad de cometer error tipo II o la seguridad conque se desea detectar la diferencia entre
el mejor y el peor tratamiento.
Δ es la diferencia mínima estandarizada a considerar entre el tratamiento de mayor efecto y el de
menor para considerarse significativamente diferente. Se puede calcula:
Tmax  Tmin

 e2

Para calcular Δ se requiere tener una estimación de σ2e. Algunas veces esta información se puede
obtener de algún experimento previo similar. En otros casos se deberá hacer una estimación
preliminar o piloto y obtener como estimador de σ2e el CME del ANOVA de éste este estudio o la
varianza de un tratamiento, por ejemplo el tratamiento de control.
Por ello, se recomienda que los estudios preliminares deben ser lo suficientemente grandes para
obtener un buen estimador de σ2e, es decir, un estimado basado sobre un número suficiente de
grados de libertad. Otra manera es dar el valor de Δ como un múltiplo de σ2e.
Si se toma un valor pequeño para Δ es porque se quiere determinar si el mejor y el peor efecto de
tratamiento difieren aún cuando sus efectos sean muy cercanos. Es lógico que en este caso se
requiere tener buenos estimados de los efectos y por consiguiente mayor número de réplicas por
tratamiento.

Cálculo del número de repeticiones
El experimentador conoce
- El numero de tratamientos k
- Una propuesta inicial del numero de repeticiones r0
- Debe tener un conocimiento del valor 
- Debe tener unan idea de la magnitud de la diferencia d deseada entre dos tratamientos
2CM EE 2 * (t( / 2, glerror ) ) 2 * CM EE

DMS  t( / 2, glerror ) r
r DMS 2
2 * (t( / 2,k *r0  k ) ) * 

2 2
r
d2
Cálculo del número de repeticiones
Con la información que se tenga de ciclos anteriores de cultivo se puede calcular el número de
repeticiones adecuado para obtener la precisión establecida.
La prueba de Tukey considera que dos tratamientos son diferentes cuando la diferencia entre sus
media supera a:
CM error
W  q( ,t , glerror)
r
Donde:
W es el valor de comparación de Tukey
q Valor de las tablas de Tukey que depende del número de tratamientos (trat), grados de libertad del
error (glee) y el nivel de significancia (alpha)
CME Cuadrado medio del error
r Número de repeticiones

Número de repeticiones en experimentos unifactoriales (simples)
Al estudiar un solo factor (ej: fungicidas, épocas de aplicación, alimentos, dosis,, etc.), para detectar
una diferencia D, se requiere que D sea significativa.
Reemplazando a W como D (diferencia que se desea detectar)) y despejando r se obtiene:
q( ,t , glerror)CM error

r
D2
Cuando se desconoce CMerror y glerror , una estimación adecuada basada en datos de experimentos
anteriores es estimar el cuadrado medio del error ponderado, n
así: 
i 1
CMEi * glei
CME n
 gle
i 1
i
Donde:
CME es el cuadrado medio del error ponderado
CMEi es el cuadrado medio del error del experimento I
glei son los grados de libertad del error del experimento i
Número de repeticiones en experimentos factoriales
Cuando se estudian F factores a la vez en experimentos factoriales, en arreglo combinatorio, parcelas
divididas, franjas, parcelas subdivididas, suponiendo que no hay interacciones, el número de
repeticiones necesario con el factor K es:
(q( , t k , glek ) 2 * CMEk
rk 
T
t k * Dk2
donde:
rk : número de repeticiones para obtener una precisión Dk en el factor K=1,……..F
tk: número de niveles del factor k
CMEk: cuadrado medio del error para el factor k
gleek: grados de libertad del cuadrado medio del error k
T: número total de tratamientos (t1 * t2 * ………tf)
Al calcular el número adecuado de repeticiones para cada factor, generalmente se obtienen números
diferentes, esto por supuesto no es posible. En tal caso, el número de repeticiones puede seleccionarse
con:
El máximo obtenido para lograr la precisión deseada en todos los factores
El obtenido con el factor más importante para asegurar la precisión deseada de ese factor
El número promedio de repeticiones de los factores
Cuantas replicas para la prueba F
Potencia = 1-  == P(F F,v1,v2  H0 es falsa)
El estadístico F0 = CMT/CME se usa para probar H0 : i = 0.
Cuando H0 es falsa, F0 tiene una distribución F desplazada con v1 y v2 grados de libertad y

parámetro de desplazamiento
  r  i2  2
Si H0 es cierta, entonces el parámetro de desplazamiento =0 , puesto que todo i = 0 y por
tanto F0 tiene una distribución F centrada
 r  i2
Función del parámetro de desplazamiento
 
t t 2

Las curvas de potencia se usan para estimar el numero de replicas necesarias para
valores dados de , 1-, v1 ,v2 y 
Ejemplo: suponga que un investigador en un experimento previo obtuvo la siguiente

información
1 = 0.8 2 = 0.1 3 = 0.0  = 0.3 CME = 0.22
Entonces:
 1  1    0.8  0.3  0.5 r (0.38)

 
2
   r (0.58)
 2   2    0.1  0.3  0.2 3(0.22)
 3  3    0.0  0.3  0.3
v1  t  1
 i2  0.38 Grados de libertad
v2  t (r  1)

Para un =0.05, y tomando r=5, entonces se desea estimar el numero de replicas necesarias
para que la prueba tenga una potencia mínima del 90%:
v1  3  1  2
Revisando las curva de potencia se obtiene un potencia
v2  3(5  1)  12
aproximada de 0.65
  5 * 0.58  1.7
Análisis de sensibilidad para el numero de replicas a realizar
Numero de replicas
Parámetros 3 4 5 6 7 8 9
v2 6 9 12 15 18 21 24
 1.32 1.52 1.70 1.87 2.01 2.15 2.28
Potencia 0.35 0.5 0.65 0.75 0.83 0.88 0.93
Si se quiere obtener una potencia mínima del 90%, el numero de replicas debe ser 9

r=9
r=5

La mayoría de la veces es difícil especificar los efectos deseados para un
conjunto de tratamientos completo. Es mas sencillo especificar la diferencia
entre cualesquiera dos medias de tratamiento. Supongamos que se desea detectar
a un nivel de significancia con una diferencia D = 1 - 2. Entonces la función de
desplazamiento se puede calcular como:
2
rD
 
2
2t 2

Comparaciones Multiples, Supuestos y Nro Repeticiones

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Comparaciones Multiples, Supuestos y Nro Repeticiones

Cargado por

Copyright:

Formatos disponibles

Curso de diseño de experimentos

Norbey Marín Arredondo

Norbey Marín Arredondo - Estadístico 1

• Identificar las características de un diseño completamente al azar (DCA) y un diseño

• Analizar los resultados de un DCA y DBCA a través de un ANOVA

• Conocer y aplicar las pruebas de comparación múltiple

• Conocer y verificar los supuestos del ANOVA

• Definir el número de repeticiones para el desarrollo de un experimento.

Norbey Marín Arredondo - Estadístico 2

Norbey Marín Arredondo - Estadístico 3

Norbey Marín Arredondo - Estadístico 4

Se realizan cuando el investigador conoce con anterioridad el comportamiento de los tratamientos o la

Norbey Marín Arredondo - Estadístico 5

3. Las comparaciones planeadas no deben tener valores de  muy grandes.

Norbey Marín Arredondo - Estadístico 6

Norbey Marín Arredondo - Estadístico 7

Se rechaza H0 si: X i  X j  DMS

Norbey Marín Arredondo - Estadístico 8

Si el número de tratamientos es elevado debe remplazarse por otra prueba

Norbey Marín Arredondo - Estadístico 9

Método de la Diferencia Significativa Honesta de Tukey (DSH)

CM EE Cuando el diseño es balanceado

Norbey Marín Arredondo - Estadístico 11

Criterio de decisión: Se rechaza H0 si: X i  X j  Rp

Norbey Marín Arredondo - Estadístico 12

Hipótesis H 0 : 0   j - vs - H1 : 0   j Para j=1, . . .,t

La prueba de Dunnet puede hacerse de una y dos colas

Criterio de decisión: Se rechaza H0 si: X 0  X j  DU

Norbey Marín Arredondo - Estadístico 13

• Esta basada en la distribución F al igual que el ANOVA

2𝐶𝑀𝐸(𝑡 − 1) Cuando el diseño es desbalanceado

Criterio de decisión: Se rechaza H0 si: X0  X j  S

Norbey Marín Arredondo - Estadístico 14

Cuando el supuesto de homogeneidad no se cumple, se pueden aplicar las pruebas de

Norbey Marín Arredondo - Estadístico 15

Mateo Vargas. CIAT, Cali, Colombia, 8-11 Nov 2011

Norbey Marín Arredondo - Estadístico 16

𝛼 = 1 − 1 − 𝑡𝑎𝑠𝑎 𝑑𝑒 𝑒𝑟𝑟𝑜𝑟 𝑝𝑜𝑟 𝑓𝑎𝑚𝑖𝑙𝑖𝑎 1/𝑘

Mateo Vargas. CIAT, Cali, Colombia, 8-11 Nov 2011

Norbey Marín Arredondo - Estadístico 17

Para α = 0.01 se obtuvo LSD(86,01) < TUKEY(117,77) < SCHEFFE(136,92)

Trat Media LSD Tukey Scheffe LSD Tukey Scheffe

Norbey Marín Arredondo - Estadístico 19

Se debe cumplir que: t

De otra forma no son ortogonales

En un experimento de t tratamientos, se pueden estimar t-1 contrastes ortogonales

Norbey Marín Arredondo - Estadístico 20

- Cada contraste tiene un grado de libertad , por eso SC(C ) = CM(C )

Norbey Marín Arredondo - Estadístico 21

T0 = Testigo T1 = 1 cm3 T2 = 2 cm3 T3 = 5 cm3

Se plantean los siguientes contrastes:

1. Hay efecto de la droga?

Despejando e igualando a cero H 0 : 30  1  2  3  0 No hay efecto

El contraste asociado es: C1  30  1  2  3

Norbey Marín Arredondo - Estadístico 22

El contraste asociado es: C2 : 1  2  23

Los coeficientes para el contraste son: c0  0 c1  1 c2  1 c3  2

Norbey Marín Arredondo - Estadístico 23

- El método de Bonferroni es preferido al de Scheffé cuando el número de contrastes es igual o

Norbey Marín Arredondo - Estadístico 24

Norbey Marín Arredondo - Estadístico 25

Norbey Marín Arredondo - Estadístico 26

Norbey Marín Arredondo - Estadístico 27

2 * (t( / 2,k r0  k ) ) 