Modelo de diseño unifactorial completamente aleatorizado

Introducción y ejemplos
Este modelo es el más sencillo del diseño de experimentos, en el cual la variable respuesta puede depender de la influencia de un único factor, de forma que el resto de las causas de variación se engloban en el error experimental. Se supone que el experimento ha sido aleatorizado por completo, es decir, todas las unidades experimentales han sido asignadas al azar a los tratamientos. Vamos a considerar dos tipos de modelos: el de efectos fijos y el de efectos aleatorios. Se presentan ambos tipos mediante dos ejemplos: Ejemplo 1. Una firma comercial desea conocer la influencia que tiene el nivel cultural de las familias en el éxito de una campaña publicitaria sobre cierto producto. Para ello, aprovecha los resultados de una encuesta anterior clasificando las respuestas en tantos grupos como niveles culturales ha establecido. Estamos ante un modelo de un solo factor, ya que la firma sólo está interesada en averiguar si los distintos niveles culturales influyen o no de la misma manera sobre las ventas, no importándole la influencia del resto de los factores que pueden inducir a una mayor o menor tendencia a la compra. El modelo es de diseño fijo porque la firma aplicará los resultados de la investigación exclusivamente a los niveles culturales establecidos por ella, que pueden abarcar o no la gama completa de formación cultural. Ejemplo 2. En una fábrica se han observado anomalías en la calidad de las piezas pro1

ducidas por un tipo de máquinas: por haber sido revisadas recientemente se piensa que los defectos puedan deberse a los trabajadores. Para contrastar esta hipótesis se toma una muestra aleatoria de trabajadores y se controla la calidad de las distintas piezas que cada uno obtiene. Al igual que en el ejemplo anterior el modelo de comportamiento es de un solo factor, la calidad del trabajo de los trabajadores, pero al extender el resultado del análisis a toda la población de la que procede la muestra de obreros, el modelo es aleatorio, ya que de él deduciremos si los obreros que integran la población estudiada realizan un trabajo de la misma calidad o no. En el Ejemplo 1, la firma tenía una gama de formaciones culturales muy amplia, pero sólo le interesaban unas determinadas. Para ella, la población de niveles estaba compuesta por los elegidos en el estudio, por lo cual los resultados sólo se pueden aplicar a ellos. En este caso, los niveles del factor se han elegido de forma determinista, basándose en datos históricos. Por el contrario, en el Ejemplo 2, no interesa la calidad del trabajo de los trabajadores, sino poder atribuir la aparición de piezas defectuosas a todos los trabajadores o a las máquinas. Si del análisis se deduce que la muestra de trabajadores no presenta diferencias de calidades, se inferirá que en la población tampoco, por lo cual se pueden atribuir los fallos a las máquinas. En este caso, los niveles del factor se han elegido de forma aleatoria, pudiéndose inferir los resultados a toda la población de trabajadores. Así, se pueden considerar dos posibles variantes de diseño unifactorial: (i) Los niveles del factor se seleccionan de modo específico por el experimentador. Esto constituye el llamado modelo de efectos fijos. (ii ) Los niveles de un factor son una muestra aleatoria de una población mayor de tratamientos. Esto es el modelo de efectos aleatorios.

2

Modelo de efectos fijos
Sea Y la variable respuesta que deseamos analizar. Podemos resolver dos tipos de problemas: 1. Consideramos a poblaciones diferentes y comparamos la respuesta a un tratamiento, o único nivel de un factor. En la población i-ésima (i = 1, . . . , a) se toman ni observaciones. La respuesta se cuantifica mediante yij , donde i = 1, . . . , a se refiere a la población en estudio y j = 1, . . . , ni se refiere a la observación j -ésima. 2. Consideramos ahora un factor con a niveles, es decir, en total a tratamientos, y una única población. Se observa la respuesta yij del tratamiento i-ésimo a ni observaciones de la población. En cualquiera de los dos casos el modelo se puede expresar como: yij = µi + εij donde i = 1, . . . , a; j = 1, . . . , ni y
a X i=1

ni = N, siendo µi el valor medio de Y, la variable

respuesta, en la población o nivel i-ésimo, y εij es el error aleatorio que incluye a todos los factores que influyen en la respuesta y no están incluidos en el modelo. Alternativamente, se puede expresar de esta manera: yij = µ + τ i + εij donde i = 1, . . . , a; j = 1, . . . , n, suponiendo grupos de igual tamaño. De este modo, (i) yij es la observación (i, j ) - ésima. (ii ) µ es la media global. (iii ) τ i es el efecto del i-ésimo tratamiento. 3

además. . por lo que a n XX j=1 i=1 a X τi = 0 nτ i = 0 =⇒ τi = 0 i=1 a X i=1 La esperanza del tratamiento i es E [yij ] = µ + τ i donde i = 1. De este modo es igual al término de la media general más el efecto del tratamiento i. En el modelo de efectos fijos. . a. σ 2 ) independientes entre sí.(iv) εij es el error aleatorio. lo cual lleva a un diseño completamente aleatorizado. los efectos de los tratamientos τ i se definen como desviaciones respecto a la media general. que las unidades experimentales están en un ambiente uniforme. ∃i El problema se puede resumir en la siguiente tabla: 4 . . . Se supone. tal que εij ∼ N (0. El problema que se trata de analizar es H0 ≡ µ1 = µ2 = · · · = µa H1 ≡ µi 6= µj (para al menos un par) y esto es equivalente a H0 ≡ τ 1 = τ 2 = · · · = τ a H1 ≡ τ i 6= 0. E [εij ] = 0 y V ar [εij ] = σ 2 .

Las diferencias entre los promedios observados de los tratamientos y el promedio general. denominada total. .Nivel 1 2 . a Observaciones y11 y12 · · · y1n y21 y22 · · · y2n ya1 Totales Promedios y1· y1· ¯ y2· y2· ¯ ··· ya· y·· ··· ya· ¯ y·· ¯ ········· ya2 · · · yan La idea es descubrir cómo se reparte la variabilidad total de la muestra. Una posible medida de variabilidad total es la suma de cuadrados. 5 . . da una medida de las diferencias entre los tratamientos. o suma total de cuadrados corregida: SCT = donde y·· = ¯ n a XX i=1 j=1 a (yij − y·· )2 ¯ n Se puede desomponer en dos partes esta suma total de cuadrados: SCT = = n a X i=1 n a XX i=1 j=1 1 XX yij n · a i=1 j=1 n a XX i=1 j=1 (yij − y·· )2 = ¯ n a XX i=1 j=1 ((¯i· − y·· ) + (yij − yi· ))2 = y ¯ ¯ (¯i· − y·· )2 + y ¯ (yij − yi· )2 = ¯ = SCT ra + SCE. ya que 2 = 2 pero n X j=1 n a XX i=1 j=1 a X i=1 (¯i· − y·· ) (yij − yi· ) = y ¯ ¯ n X j=1 (¯i· − y·· ) y ¯ (yij − yi· ) ¯ (yij − yi· ) = n¯i· − n¯i· = 0 ¯ y y y así los dobles productos se hacen 0.

Se tiene que SCE = n a XX i=1 j=1 (yij − yi· )2 = ¯ " n a X X i=1 j=1 (yij − yi· )2 .Las diferencias de las observaciones dentro de los tratamientos con respecto al promedio del tratamiento. ¯ # Si el término entre paréntesis se divide entre n − 1. Se tiene un total de a · n observaciones y de a tratamientos. Al tener a tratamientos. se tiene un total de a(n − 1) grados de libertad. es decir. se considera error aleatorio. SCE tiene a(n−1) grados de libertad. SCT ra tiene (a − 1) grados de libertad. porque hay n réplicas dentro de cada tratamiento. ¯ n − 1 j=1 n Se puede estimar la varianza poblacional combinando dichas varianzas por grupos: " n # a X X (yij − yi· )2 ¯ 2 2 2 (n − 1)s1 + (n − 1)s2 + · · · + (n − 1)sa i=1 j=1 = = a X (n − 1) + (n − 1) + · · · + (n − 1) (n − 1) i=1 SCE = N −a donde N = a · n. Observaciones. se tienen (n − 1) grados de libertad para estimar el error experimental. Grados de libertad. se puede estimar la varianza poblacional σ 2 como n SCT ra = a−1 a X i=1 (¯i· − y·· )2 y ¯ a−1 6 . SCT tiene (an − 1) grados de libertad. Si no hay diferencias entre los a tratamientos. se obtiene la cuasivarianza del tratamiento i : s2 i 1 X = (yij − yi· )2 .

Se dispone. entonces E(MCT ra) > σ 2 . si para algún τ i 6= 0. a−1 i=1 De este modo. según una N(0. por el lema de Fisher SCE ∼ χ2 N−a 2 σ SCT ra ∼ χ2 a−1 2 σ siempre que τ i = 0. σ).cuando las medias de los tratamientos son iguales. se puede demostrar. ya que el término a X i=1 (¯i· − y·· )2 y ¯ a−1 sería un estimador de la varianza de la media muestral: σ2 /n. La idea básica es diseñar un contraste que tenga en cuenta estas diferencias entre los dos estimadores de σ 2 . ∀i. entonces. entonces. sustituyendo. así de dos posibles estimadores de σ 2 : MCT ra = SCT ra a−1 SCE MCE = N −a Cuando no existen diferencias entre las medias de los tratamientos. que E(MCE) = σ 2 E(MCT ra) = σ + 2 n Pa τ2 i . Como los errores εij se distribuyen independientemente entre sí. Si consideramos las medias de cuadrados anteriores. NOTA: Teorema de Cochran: 7 . las estimaciones deben ser similares.

Sea zi ∼ N(0, 1) independientes entre sí, para i = 1, 2, . . . v y sea
v X i=1

zi2 = Q1 + Q2 + · · · + Qs

donde s ≤ v y cada Qi tiene vi grados de libertad (i = 1, 2, . . . s), entonces Q1 , Q2 , . . . , Qs son v.a. independientes distribuidas como una chi cuadrado con v1 , v2 , . . . , vs grados de libertad respectivamente, si y sólo si v = v1 + v2 + . . . + vs Si se aplica el teorema de Cochran, se tiene que lo que si τ i = 0, ∀i, entonces F0 =
SCT ra a−1 SCE N−a SSE σ2

y

SST ra σ2

son independientes, por

=

MCT ra MCE

se distribuye como una F de Snedecor, Fa−1,N−a . Si algún τ i 6= 0, entonces E(MST ra) > σ 2 entonces el valor del estadístico F0 es mayor, obteniéndose una región crítica superior, de modo que se rechaza, a nivel α, la hipótesis nula de igualdad de tratamientos, si F0 > Fα,a−1,N−a Resumen: Tabla ANOVA. H0 ≡ τ 1 = τ 2 = · · · τ a H1 ≡ τ i 6= 0, F. Variación Factor Error Total S. Cuadrados a P SCT ra = n (¯i· − y·· )2 y ¯ SCE = SCT =
a n PP i=1 j=1 a n PP i=1

∃i gl M. Cuadrados MCT ra =
SCT ra a−1

F0 Fo =
MCT ra MCE

a−1

(yij − yi· )2 ¯

N − a MCE = N −1

SCE n−a

i=1 j=1

(yij − y·· )2 ¯

Se rechaza H0 a nivel α cuando F0 > Fα,a−1,N−a . 8

Estimación de los parámetros.
Dado el modelo yij = µ + τ i + εij donde i = 1, . . . , a; j = 1, . . . , n, se pueden estimar los parámetros µ y τ i por el método de los mínimos cuadrados, de modo que no se necesita suponer normalidad de los errores εij . la suma de los cuadrados de los errores es L=
a n XX i=1 j=1

ε2 ij

=

a n XX i=1 j=1

(yij − µ − τ i )2 ,

de modo que los estimadores de µ y τ i son los valores µ y τ i que minimizan el funcional ˆ ˆ L. Derivando respecto cada uno de los parámetros, se obtiene un total de (a + 1) ecuaciones: XX ∂L (yij − µ − τ i ) = 0 ˆ ˆ = 0 =⇒ −2 ∂µ i=1 j=1
a n

n X ∂L = 0 =⇒ −2 (yij − µ − τ i ) = 0, ˆ ˆ ∂τ i j=1

i = 1, 2, . . . , a

se obtiene τ τ N µ + nˆ1 + nˆ2 + · · · + nˆa = y·· ˆ τ ⎧ ⎪ nˆ +nˆ1 τ = y1· ⎪ µ ⎪ ⎨ nˆ µ +nˆ2 τ = y2· . . . ⎪ . ··· ··· ··· ··· . ⎪ ⎪ . ⎩ nˆ µ +nˆa = ya· τ

Estas se denominan ecuaciones normales de mínimos cuadrados. Si se suman las últimas a ecuaciones, se obtiene la primera ecuación, de modo que no forman un sistema independiente de ecuaciones y no existe solución única. Para evitar esto, se considera la restricción
a X i=1

τ i = 0, ˆ 9

obteniéndose, entonces, los estimadores µ = y·· ˆ ¯ τ i = yi· − y·· ˆ ¯ ¯ para i = 1, 2, . . . , a. Si se asume que los errores están distribuidos según una normal, entonces cada yi· ∼ ¯ N (µi , σ 2 /n) . De este modo, cuando σ 2 es desconocida un intervalo de confianza al 100(1− α) % es " " r # MCE . n r 2MCE . n #

yi· ± t α ,N−a ¯ 2

De la misma manera,

(¯i· − y·· ) ± t α ,N −a y ¯ 2

Diseño desequilibrado. Si el número de observaciones es diferente según cada tratamiento i: ni donde i = 1, 2, . . . , a, las expresiones previas son iguales salvo que se sustituye n por ni :
ni ni a a XX XX y2 2 2 SCT = (yij − y·· ) = ¯ yij − ·· N i=1 j=1 i=1 j=1

ni a a XX X y2 y2 i· 2 (¯i· − y·· ) = y ¯ − ·· SCT ra = ni N i=1 j=1 i=1

SCE = SCT − SCT ra

Para resolver las ecuaciones normales se considera la restricción
a X i=1

ni τ i = 0 ˆ

y se resuleve del mismo modo. Si el diseño es no balanceado o desequilibrado, aumenta la sensibilidad del análisis unifactorial a la falta de igualdad entre las varianzas de cada grupo (heterocedasticidad).

10

Las 25 observaciones deben asignarse al azar. entonces la observación 8a se ejecuta primero (es decir. Para ilustrar la forma en que puede aleatorizarse el orden de ejecución. Se repite el proceso hasta completar las 25 observaciones. Supongamos que es el 8. sospecha que el contenido de algodón debe estar aproximadamente entre un 10 y 40 % para que la tela resultante tenga otras características de calidad que se desean (como la capacidad de recibir un tratamiento de planchado permanente). El ingeniero sabe por experiencia que la resistencia está influida por el porcentaje de algodón presente en la fibra. A continuación se elige un número al azar entre 1 y 25. a un 20 % de algodón). supóngase que las observaciones se numeran como sigue: % algodón 15 1 2 3 4 5 20 6 7 8 9 10 25 11 12 13 14 15 30 16 17 18 19 20 35 21 22 23 24 25 Ahora se elige al azar un número entre 1 y 25. decide ensayar cinco muestras a cada nivel de contenido de algodón. Supongamos que es el 4.Ejemplo 1 Un ingeniero de desarrollo de productos está interesado en maximizar la resistencia a la tensión de una nueva fibra sintética que se empleará en la manufactura de tela para camisas de hombre. supóngase que se ejecutan las 25 muestras de prueba en el orden no aleatorizado original (esto es. y así sucesivamente). El ingeniero decide probar muestras a cinco niveles de porcentaje de algodón: 15. entonces la observación 4a se ejecuta en segundo lugar (a un 15 % de algodón). 25. luego las 5 muestras con un 20 % de algodón. Esta secuencia de prueba aleatorizada es necesaria para evitar que los resultados se contaminen por los efectos de variables desconocidas que pueden salir de control durante el experimento. Si la máquina que prueba la resistencia a la tensión presenta un efecto de calentamiento tal que 11 . las 5 muestras con un 15 % de algodón se prueban primero. Para ilustrar esto. 30 y 35 %. Asimismo. quitando el 8. 20. Además.

04 Representamos el diagrama de dispersión para la resistencia frente al porcentaje de algodón.6 108 21.8 376 15. entonces dicho efecto contaminará los datos de resistencia e invalidará el experimento.el diagrama de cajas para la resistencia a la tensión a cada nivel de porcentaje de algodón. diagrama de dispersión 25 22 19 16 13 10 7 15 20 25 30 35 25 22 19 16 13 10 7 observaciones medias porcentaje de algodón 12 . Las observaciones obtenidas acerca de la resistencia a la tensión son: % de algodón 15 20 25 30 35 Observaciones 7 7 15 11 9 12 17 12 18 18 14 18 18 19 19 19 25 22 19 23 7 10 11 15 11 Suma Media 49 9.4 88 17.a mayor tiempo de funcionamiento menores lecturas de resistencia a la tensión.8 77 15. y. Supóngase ahora que el ingeniero ejecuta la prueba en el orden aleatorio que hemos determinado.6 54 10.

— Linealidad: E(εij ) = 0 — Homocedasticidad: V ar(εij ) = σ 2 13 . que el porcentaje de algodón influye en la resistencia a la tensión. . . yI· ¯ y·· ¯ A) Hipótesis del modelo Las principales hipótesis del modelo son: — Normalidad: εij sigue una distribución normal. no obstante. Se sospecha. · · · . Se disponen los datos en una tabla como esta: Observaciones y11 . · · · . yI1 .Diagrama de cajas 25 observaciones 22 19 16 13 10 7 15 20 25 30 35 porcentaje de algodón Ambas gráficas indican que la resistencia a la tensión aumenta con el contenido de algodón hasta el 30 %. . yInI Sumas y1· . yI· y·· Medias y1· ¯ . . Mas allá del 30 % ocurre un notable decrecimiento en la resistencia. y1n1 . . . No hay una fuerte evidencia que sugiera que la variabilidad en la resistencia alrededor de la media dependa del porcentaje de algodón.

ni = 5 y N = 25. — E(yij ) = µi — Homocedasticidad: V ar(yij ) = σ 2 — Independencia: yij son independientes entre sí. buscar las diferencias entre poblaciones (o niveles del factor). a = 5. Estas hipótesis son equivalentes a las siguientes: — Normalidad: yij sigue una distribución normal. B) Metodología En nuestro análisis vamos a seguir los siguientes pasos: — Estimar los parámetros del modelo. C) Estimación de los parámetros En este ejemplo. — Si el factor influye en la variable respuesta.— Independencia: εij son independientes entre sí. es decir. es decir. — Diagnosis del modelo: comprobar si las hipótesis del modelo son ciertas mediante el análisis de los residuos. — Contrastar si el factor influye en la respuesta. Las estimaciones puntuales de los parámetros son las siguientes: 14 . las medias no son iguales. si los valores medios de Y son diferentes al cambiar el nivel del factor.

µ1 = y1· = 9. es: " # r MCE yi· ± t α .6 ˆ ¯ ¯ µ4 = y4· = 21. GL = Grados de libertad.8 ˆ Por ejemplo.8 ˆ ¯ ¯ µ2 = y2· = 15.8 ± t0.95.4 ˆ µ3 = y3· = 17.025. el intervalo de confianza para µ1 .6 ˆ ¯ µ5 = y5· = 10. 12. SC = Suma de Cuadrados.1515. Las sumas de cuadrados también se pueden calcular de la siguiente forma: SCT = SCT ra = XX X 2 yij − n¯·· y2 ni yi· − n¯·· ¯2 y2 SCE = SCT − SCT ra 15 .06 = = 9.20 5 [7. al nivel (1 − α) = 0.N−a ¯ = 2 n # " r 8.4485] D) Análisis de la varianza El contraste de hipótesis que vamos a abordar es el siguiente: ⎧ ⎨ H0 : µ1 = · · · = µa (el factor no influye) H1 : algún factor es diferente (el factor influye) ⎩ nivel de significación α FV Tratamiento Error Total SC P SCT ra = a ni (¯i· − y·· )2 y ¯ Pa i=1 ni P SCE = i=1 j=1 (yij − yi· )2 ¯ Pa Pni SCT = i=1 j=1 (yij − y·· )2 ¯ GL F a − 1 F0 = N −a N −1 SCT ra/(a−1) SCE/(N −a) siendo FV = Fuente de variación.

+ 152 + 112 − 25 × 15.042 = = 475..2489 F4. + 10. G.L.Cuando sólo hay dos poblaciones (un factor con dos niveles).06 Total 636.01 = 4.05 = 2. S.20.042 = = 636. F Tratamiento 475.20.96 − 475. este contraste es idéntico al contraste de la t para comparar las medias de dos poblaciones normales e idependientes con la misma varianza. Ejemplo 2.76 4 118.0.96 24 F4.76 X ¯2 y2 ni yi· − n¯·· = SCE = SCT − SCT ra = 636.94 14.82 ) − 25 × 15...1 = 2.76 = 161.C.2 20 8. rechazamos H0 a los niveles anteriores y concluimos que hay diferencias entre los tratamientos.0.76 Error 161..0.20. Analizaremos los siguientes conjuntos de datos: 16 . M.C.82 + . Analizamos a continuación la tabla de análisis de la varianza del ejemplo 1 SCT = = 72 + 72 + 152 + .8661 F4.V.4307 Por lo tanto.2 La tabla ANOVA es: F.96 XX 2 y2 yij − n¯·· = SCT ra = = 5(9.

Primer caso Sumas 20 19 20 21 80 22 22 22 22 88 24 24 23 25 96 264 Medias 20 22 24 22 Segundo caso Sumas 45 0 10 25 80 8 30 38 12 88 15 44 2 35 96 264 Medias 20 22 24 22 Las medias son iguales en los dos casos. son: Primer caso 25 24 23 22 21 20 19 1 2 3 2 4 2 Segundo caso 50 40 30 20 10 0 1 2 3 17 . con lo cual la diferencia de medias debería ser igual en ambos casos. considerando en abscisas los grupos y en ordenadas las observaciones. Los diagramas de puntos.

Vamos a construir la tabla ANOVA: Caso 1 : a X (¯i· − y·· )2 = 32 y ¯ SCT ra = i=1 ni a XX (yij − y·· )2 = 36. F Tratamiento 32 2 16 36 Error 4 9 0.C. Caso 2 : SCT = SCT ra = XX X 2 y2 yij − n¯·· = 8692 − 12 × 222 = 2884. La tabla ANOVA es: 18 . rechazamos la hipótesis nula y concluimos que el factor influye en la respuesta.05 = 4. la cosa no está tan clara. la variabilidad tambié influye. ni yi· − n¯·· = 5840 − 12 × 222 = 32 ¯2 y2 SCE = SCT − SCT ra = 2884 − 32 = 2852. M. En el segundo caso no se aprecia diferencia entre los tres grupos (el factor no parece influir). no es suficiente sólo con comparar las medias de cada grupo. ¯ SCT = i=1 j=1 SCE = SCT − SCT ra = 36 − 32 = 4 La tabla ANOVA es: F. S.C. mediante el análisis de la varianza. Lo que vamos a hacer es comparar la variabilidad entre las medias con la variabilidad dentro de cada grupo. la impresión visual es muy distinta.0.V.Debido a las diferentes dispersiones (varianzas) que existen en los dos casos.2565.444 Total 36 11 Como F2.9.L. Entonces. G. mientras que en el primer caso.

C. no rechazamos la hipótesis nula y concluimos que el factor no influye en la respuesta al nivel α = 0. M.L. 19 .889 Total 2884 11 Como F2. F Tratamiento 32 2 16 0.C.V..05. S.F.9.0.05 = 4.2565.05 Error 2852 9 316. G.

los siguientes contrastes: H0 ≡ µi = µj . Si |¯i· − yj· | > LSDα =⇒ Se rechaza que µi = µj a nivel α. a). comparando todos los pares de medias. Comparaciones múltiples. porque puede ser que se rechace la igualdad de medias porque haya un par de medias diferentes entre sí. Se tiene que se distribuye como una t de Student: ¢ ¡ ¯ (¯i· − yj· ) − µi − µj y q ∼ tN−a 1 σ ni + nj ˆ 1 ¢ ¡ Así. (Distribución de recorrido estudentizada) 20 . α σ 2 s 1 1 + ni nj 1. para todo i 6= j. i 6= j i 6= j Los métodos generales son las comparaciones múltiples y los tests de recorrido studentizado. entonces. y Definición. Se considera. y ¯ ¯ 2.Comparaciones entre medias Una vez obtenidas diferencias significativas entre los tratamientos. H0 ≡ µi 6= µj . . un Intervalo de Confianza para µi − µj a nivel α es [(¯i· − yj· ) ± LSDα ] y ¯ y se denomina ˆ LSDα = tN −a. . . (i. j = 1. . Si |¯i· − yj· | < LSDα =⇒ Se acepta que µi = µj a nivel α. conviene estudiar por qué se rechaza la igualdad entre medias. LSD de Fisher (Least significant difference) Se contrasta µi = µj .

4v 21 .m U m U m Método de Tukey Se requiere que ni = n. . ¢ 1 ¡ 3 zα − zα .α σ y ¯ ˆ 2. 2p σ y ¯ s 1 1 + ni nj ¡a¢ . . Si esto no se cumple. . .α = zα + siendo zα ∼ N(0.N −a. 2 donde p es el número de comparaciones que se pueden obtener: 1 ≤ p ≤ α Se puede aproximar tN−a. Método de Bonferroni En este criterio se rechaza µi = µj (i 6= j) si α ˆ |¯i· − yj· | > tN −a. 1) U ∼ χ2 m independientemente. . =⇒ Se acepta que µi = µj a nivel α. entonces. . Za ∼ N(0. Si |¯i· − yj· | > qa. . entonces se toma n = m´ i {ni } .Si Z1 .α σ y q q 1 n 1 n =⇒ Se rechaza que µi = µj a nivel α. i = 1. a. Q = m´x a i6=j se distribuye con una distribución de recorrido estudentizado de parámetros a y m. . 2p por una normal: tv.N −a. Si |¯i· − yj· | < qa. 1). ın ¯ ˆ 1. |Zi − Zj | Z(a) − Z(1) q q = ∼ qa.

— LSD de Fisher LSDα = tN−a.8 15.α = n — Método de Bonferroni Como µ ¶ 5 p= = 10 2 1 1 + = t20.052 · 5 r 8. las medias muestrales eran: yi· ¯ Se tiene que a=5 n=5 N = 25 σ2 = 8.06 q5.813 − 2.38 5 s 1 1 + = t20.6 21.00 05 = 1.48.Ejemplos.24 = 5.00 025 ni nj r 2 = 3.20.06 ˆ N − a = 20.052 = 2. 2p σ 8.06 · 2 = 5. 5 Bα = t20. 00 05 20 Así la tabla de diferencias es: 22 .0025 − z0.N −a.81 = 3.0025 + 20 luego ¢ 1 ¡ 3 z0. En el problema de comparación del porcentaje de algodón en las prendas.06 · Como t20.269 · 4.8 8.0025 = 4 · 20 ¢ 1 ¡ 2. 00 05 20 ni nj r 2 5 r 8. 00 05 = t20. α σ ˆ 2 — Método de Tuckey σ ˆ HSDα = √ qa.745 5 y1· y2· ¯ ¯ y3· ¯ y4· ¯ y5· ¯ 9.06 · luego hay 10 posibles comparaciones: s α ˆ Bα = tN−a.6 10.81 + 80 r 2 8.00 0025 ≈ z0.4 17.06 · = 3.

σ ˆ dp = √ rp.5) 1.2 6= 6= (2. . .N−a.8 6= 6= (1. .6 6= 6= (1. .8 6= 6= (1.3) 7.0 = = (2.38 Bα y ¯ (1.2) 5.4) 11.6 6= = (3. i = 1. . 23 µ ¶−1 . a.48 6= 6= 6= = = 6= = = 6= 6= Tests de recorrido studentizado En estos tests. 2 usando los siguientes puntos críticos: Duncan.α se obtiene a partir de la tabla de intervalos significativos de Duncan. j) (¯i· − yj· ) LSDα = 3.N−a.8 6= 6= = 5.745 HSDα = 5.3) 2.(i.5) 6. Si esto no se cumple.5) 4. se requiere que ni = n.α n donde rp. a − 1.4) 4 6= = (3.2 = = (2.8 6= 6= (4. entonces se toma la media armónica: 1 1 + ··· + n=a n1 na Los tests principales son: — El test de Duncan — El test de Newman-Keuls En ambos tests se siguen los siguientes pasos: (i) Se ordenan de manera creciente las medias muestrales a comparar: y(1)· < y(2)· < · · · < y(a)· ¯ ¯ ¯ (ii ) Se comparan las diferencias entre dos medias separadas por p posiciones con p = a.5) 10.4) 6. . . .

(iv) Si un grupo de medias no es significativamente diferente.N−a.α σ y n ¯ ˆ |¯(a)· − y(1)· | > ra. Por ejemplo. por ejemplo: 24 .α σ y ¯ ˆ (iii ) Se van declarando diferentes o no a las parejas de medias. se conectan con una línea base.α n donde qp.N−a.N −a.N −a.α σ y n r 1 n r 1 ¯ ˆ |¯(a−1)· − y(1)· | > qa−1.N−a.1−(1−α)p−1 Si comparamos los respectivos puntos críticos con N − a = 20. ningún subgrupo de ellas lo es.α σ y ¯ ˆ r r 1 n r 1 ¯ ˆ |¯(a−1)· − y(1)· | > ra−1.α σ y Para p = a − 1 se contrasta si |¯(a)· − y(2)· | > ra−1.α se obtiene a partir de la tabla de la distribución de recorrido studentizado.N −a. para p = a se contrasta si 1 n r 1 ¯ ˆ |¯(a)· − y(1)· | > qa.N−a.N −a.α = qp. Al final sólo se declaran diferentes las medias que no están conectadas por ninguna línea. Si no se declaran diferentes. Se tiene que la relación entre ambas tablas es la siguiente: rp.N−a.N−a. σ ˆ NKp = √ qp.Newman-Keuls.α σ y n |¯(a)· − y(2)· | > qa−1.

03 = 4.54 = 3.N−a.84 Se observa que rp. se ordenan las medias muestrales de menor a mayor: yi· ¯ y1· y5· ¯ ¯ y2· ¯ y3· ¯ y4· ¯ 9.00 05 r4.20.20.00 05 r3.95 d5 d4 d3 d2 = 4.69 5.00 05 r2.10 = 2.00 05 q2.p = √ rp.4 17.20.18 = 3. de modo que si se rechaza la H0 aplicando el test de Newman-Keuls.53 4.74 25 . r5.74 q5. n n es decir.58 4.p rp.6 Test de Newman-Keuls: p=5 p=4 p=3 p=2 Test de Duncan: p=5 p=4 p=3 p=2 De este modo.20.02 5.20.20.8 10. con lo cual se tiene que σ ˆ σ ˆ dα.95 NK5 NK4 NK3 NK2 = 5.96 = 3.8 15.00 01 .α .20. Ejemplo.00 05 q3.04 = 3.00 01 ≤ qp.4 4.20.N−a.02 4.00 05 q4.12 = 4.00 01 qp.00 01 2 3 4 5 6 7 8 4.93 = 3.24 = 3.22 4.20.58 = 2.02 4.00 05 = 4.00 05 = 3. también se rechaza aplicando el test de Duncan.25 = 3.29 5.20.α < NKα.47 4. En el problema de comparación del porcentaje de algodón en las prendas.38 = 5.51 5.20. el test de Newman-Keuls es más conservador que el de Duncan.64 5.20.p = √ qp.33 4.6 21.

2 y ¯ |¯3· − y4· | = 4 y Newman-Keuls > 5.74 3 2 Como conclusión.74 > 3.2 y |¯1· − y5· | = 1 y ¯ ¯ |¯5· − y2· | = 4. ˆ ¯ ¯ ¯ Ψ = c1 x1· + c2 x2· + · · · + ca xa· y la estimación de la varianza de Ψ es σ2 ˆΨ = MCE µ c2 c2 1 + ··· + a n1 na ¶ . .8 y ¯ |¯1· − y3· | = 7.6 y ¯ ¯ |¯5· − y3· | = 6.6 y ¯ |¯3· − y2· | = 2.93 < 3.8 y ¯ |¯2· − y4· | = 6. Y el resultado es: µ1 µ5 x______y µ2 µ3 x______y µ4 Contrastes Ortogonales (método de Scheffé) En general. 2.03 > 4.38 > 5.74 > 3.74 Duncan > 4.03 > 3. 5 de manera significativa según ambos criterios. por ejemplo.03 > 5.8 y |¯1· − y2· | = 5. .74 > 3.03 > 4.74 < 3.74 < 3.74 > 3. se obtiene que µ4 > µi para i = 1.93 > 3.54 < 3. un contraste entre k medias poblacionales se puede definir como una combinación lineal Ψ = c1 µ1 + c2 µ2 + · · · + ca µa tales que c1 . la diferencia entre dos medias cualesquiera equivale a un contraste ˆ Ψ = ci µi + cj µj 26 . En particular.54 > 4. . ca son constantes de suma nula: Un estimador de Ψ es Pa j=1 cj = 0.p 5 4 |¯i· − yj· | y ¯ |¯1· − y4· | = 11.12 > 4.8 y ¯ ¯ |¯5· − y4· | = 10. 3.93 > 3. .54 > 4.

con ci = 1 y cj = −1 y cero para el resto de términos.43.N−a.0 = = 1. 27 . Ejemplo.43 = 4. (ii ) Estimar σ 2 y calcular la razón ˆΨ (iii ) Si la razón ˆ Ψ .α se acepta la H0 .N−a.8 = 5.6 = −11. se rechaza la hipótesis H0 ≡ Ψ = 0 al nivel α. El procedimiento se Scheffé se aplica de la siguiente forma: ˆ (i) Especificar Ψ así como los coeficientes que determinan el contraste.97 < 4. Supongamos que se trata de contrastar ¯ ¯ ¯ˆ¯ ¯Ψ¯ σΨ ˆ > Ψ1 = µ1 + µ3 − µ4 − µ5 Ψ2 = µ1 − µ4 Las estimas son ˆ Ψ1 = x1· + x3· − x4· − x5· = 9.00 01 = 4.21 σ Ψ1 ˆ 2.06 = 1.20.8 v r u 5 u X c2 4 i tMCE = 8.6 − 21.54 y como Fa−1.α . σΨ ˆ q (a − 1)Fa−1.21 ¯ ¯ ¯ˆ ¯ ¯Ψ1 ¯ 5.8 + 17.0 ¯ ¯ ¯ ¯ ˆ ¯ ¯ Ψ2 = x1· − x4· = 9. Calcular Ψ reemplazando las medias muestrales por las poblacionales.54 σ Ψ1 = ˆ n 5 i=1 i r 2 σΨ2 = ˆ 8.6 − 10.8 − 21.8 5 p √ = F4. de modo que (a − 1)Fa−1.α = 4 · 4.06 = 2.N−a.

se rechaza la H0 .21 1.56 > 4. cuando se estudian sólo diferencias entre medias resulta menos eficaz que los tests específicos para diferencias de pares de medias.8 = 6. 28 . ¯ ¯ ¯ˆ ¯ ¯Ψ2 ¯ σ Ψ2 ˆ = 11.8 Aunque el método de Scheffé permite plantear muchas posibles comparaciones entre medias.

Así. si los tamaños muestrales son desiguales.Estudio de la adecuación del modelo La mayor parte de las desviaciones de las hipótesis básicas del modelo. Si no es así. El estadístico de contraste de la prueba de Levene es ¢ Pa Pni ¡ ¯ i=1 j=1 dij − di· /(N − a) ¡ ¢ F0 = Pa ¯ ¯ i=1 ni di· − d·· /(a − 1) ¯ dij = |yij − yi· | . se puede considerar el test de Levene o el test de Barlett. se pueden estudiar a través de los residuos: ˆ eij = yij − yij al igual que se hace. Sin embargo. como no sea repitiendo el experimento y aleatorizando de modo conveniente. apenas afecta al contraste de la F . Para comprobar este supuesto. . Si lo hace. También se puede considerar la gráfica de los errores frente a los valores predichos ¯ yij = yi· . d·· = N 29 donde . a la existencia de varianzas heterogéneas entre los grupos. y se puede aplicar a tamaños muestrales desiguales. para i = 1. es un problema difícil de corregir en la práctica. se observa si se cumple la hipótesis de independencia. Cuando ni = n. de este modo. Pni j=1 dij ¯ di· = . . la prueba de Levene tiene la ventaja de que no se ve afectada por la falta de normalidad del modelo. ni Pa Pni i=1 j=1 dij ¯ . que no debería presentar tendencias en cuanto a su aspecto. es un ˆ signo de la existencia de varianza no constante o heterocedasticidad. habitualmente en Regresión. Sin embargo. . el dibujo de los errores de modo secuencial a como aparecen las observaciones permite detectar correlaciones entre los mismos y. la probabilidad de cometer error de tipo I puede ser diferente al valor α prefijado.

α . 30 . Para estabilizar la varianza se busca una función T tal que T (x) tenga varianza constante. Para estimar λ se usan los diagramas rango-media. Transformaciones para conseguir homocedasticidad Cuando se presenta homocedasticidad se debe a menudo a que la varianza cambia cuando lo hace la media. En la práctica se usa T (xij ) = ½ λ 6= 0 xλ ij log(xij ) λ=0 En particular se suele considerar una función f de la forma f (µi ) = kµα i de modo que σ i = kµα i Se puede demostrar que para conseguir la homocedasticidad. entonces este estadístico F0 se distribuye como una F de Snedecor. Si µi es la media del grupo i-ésimo y σ i su desviación típica. Se asume el ajuste a una ecuación del tipo σ = kµα y así log(σ) = log(k) + α log(µ) α será la pendiente de la recta que pasa por los puntos del gráfico. esto es. Una vez estimado α se calcula λ = 1 − α. Fa−1. hay que sumar una constante a los datos. se debe usar la transformación con parámetro λ = 1 − α. siendo α el nivel de significación elegido. de la correspondiente recta de regresión. Observaciones (i) Las transformaciones estabilizadoras de la vrainza se definen sólo para conjuntos de datos positivos.N−a.Si las varianzas son homogéneas. En caso contrario. entonces σ i = f (µi ) para alguna función f.

31 . 2 (iii ) Frecuentemente la transformación no sólo estabiliza la varianza sino que normaliza los datos.(ii ) En general se considera una rejilla de valores de λ y se va probando con múltiplos de 1 . cuando estos no se distribuyen como una normal.

. En este caso. σ 2 ) τ independientemente entre sí. si H0 es cierta. siendo. . n. . . . Sin embargo. si σ2 > 0 existe variabiτ τ lidad entre los tratamientos. a y j = 1. entonces τ F0 = SCT ra a−1 SCE N−a = MCT ra ∼ Fa−1. en este caso. . entonces τ la varianza de una observación dada es V ar(yij ) = σ 2 + σ 2 . Ahora carece de sentido contrastar hipótesis basadas en tratamientos individuales. por lo que se contrasta: H0 ≡ σ 2 = 0 τ H1 ≡ σ 2 > 0 τ Todos los tratamientos serán iguales si σ2 = 0. sino que es una muestra aleatoria de una población de niveles. σ 2 ) τ i ∼ N(0. 2. 2.Modelo de efectos aleatorios Si el número de niveles del factor no está fijado de antemano. Si se asume que τ i y εij son independientes.N−a MCE 32 . τ i y εij variables aleatorias. τ Se denomina a σ 2 y a σ 2 como los componentes de la varianza y se supone que τ εij ∼ N(0. . . σ 2 = 0. y que τ i tiene como varianza σ 2 . entonces se tiene un modelo de efectos aleatorios. El modelo se expresa igual que antes yij = µ + τ i + εij donde i = 1.

α El procedimiento de cálculo es igual que en el modelo de efectos fijos. se obtiene MCT ra = σ 2 + nσ 2 τ MCE = σ 2 de donde σ 2 = MCE ˆ σ2 = ˆτ NOTA: Si ni . a son distintos entre sí. Del mismo modo. para i = 1. rechazándose si F0 > Fa−1. n0 = a a − 1 i=1 i=1 ni 33 MCT ra − MCE n . . . Si la hipótesis alternativa es cierta. aunque las conclusiones se aplican a toda la población de tratamientos. la región crítica es unilateral superior. se rechaza H0 para valores altos de F0 . entonces 1 E [MCT ra] = E [SCT ra] = a−1 # " a X y2 y2 1 i· = E − ·· = σ 2 + nσ 2 . entonces el valor esperado del numerador en F0 es mayor que el esperado del denominador.Si se consideran los valores esperados de las medias de cuadrados.N−a. . . con lo cual. Así. se sustituye en la expresión anterior n por # " a Pa X n2 1 ni − Pi=1 i . τ a−1 n N i=1 E [MCE] = σ 2 . se obtiene que Estima de los componentes de la varianza Si se igualan los valores esperados de las medias de cuadrados con los valores observados.

El experimento se realiza con orden aleatorio. G. n 4 S.68 22.96.L.90 = = 6.86 ˆ ˆτ y la mayor parte de la variabilidad se debe a diferencias entre las máquinas.90 ˆ σ2 = ˆτ MCT ra − MCE 29.90 + 6.Ejemplo.19 3 29. yi· 390 366 383 388 y·· = 1527 Máquina Máquina Máquina Máquina 1 2 3 4 98 91 96 95 97 90 95 96 99 93 97 99 96 92 95 98 Se obtiene la siguiente tabla ANOVA: F.96 = 8.00 05 = 3.90 11. Explicada Residual Total Como F3.94 15 La estimación de la varianza de cualquier observación de la muestra es σ 2 + σ 2 = 1.C.C. 34 . Se desea que las máquinas sean homogéneas para producir objetos de la misma calidad.68 Se rechaza H0 ≡ σ τ = 0.73 15. Para investigar si existen variaciones significativas entre las máquinas.75 12 1. Estimación de los componentes de la varianza: σ 2 = MCE = 1. se seleccionan 4 al azar y se mide el porcentaje de un cierto componente de la hoja. F0 89.49 < 15.V. M. Una fábrica de maquinillas de afeitar utiliza una gran cantidad de máquinas en la producción.73 − 1.12.

Por tanto se calcula el intervalo para el cociente σ2 τ .0.3.1− α = F3. En el caso de la fábrica de maquinillas de afeitar.N−a . σ2 + σ2 τ Se denomina l1 l2 ! MCT ra 1 −1 MCE Fa−1.025 = 4.975 = 2 De este modo l1 l2 ! 1 MCT ra − 1 = 0.N−a.883 n MCE Fa−1. Fa−1.0.070.N−a.12. α 2 ! à 1 1 MCT ra = − 1 = 54. 35 .625 MCE Fa−1. dado que depende τ de una combinación lineal de χ2 ’s.Intervalos de confianza para los componentes de la varianza El intervalo de confianza para σ 2 al 100(1 − α) % es (N − a)MCE (N − a)MCE ≤ σ2 ≤ 2 χN−a.47 2 Fa−1.N−a .12.1− α 2 2 El intervalo de confianza para σ 2 no se puede calcular de modo exacto.N−a.0. α = F3.1− α 2 1 = n à entonces el intervalo de confianza al 100(1 − α) % es σ2 l2 l1 ≤ 2 τ 2 ≤ .025 = 0. 1 + l1 σ + στ 1 + l2 Ejemplo. α 2 ! à 1 1 MCT ra = −1 n MCE Fa−1.N−a . α χ2 N−a.1− α 2 1 = n à 1 F12.

98 0.883 στ ≤ ≤ 2 + σ2 1. 625 σ 55.de modo que l1 σ2 l2 τ ≤ ≤ 2 + σ2 1 + l1 σ 1 + l2 τ 2 0.625 54. 36 . la variabilidad de las máquinas justifica entre el 40 % y el 98 % de la variabilidad total.39 ≤ σ2 + σ2 τ Esto es.883 τ 2 στ ≤ 0.

entonces S 2 = N(N +1) 12 y el test se simplifica. Ejemplo. se tenían los siguientes datos: 37 . se puede utilizar la metodología no paramétrica. Si no hay empates. Se calculan rangos de cada una de las observaciones yij de manera creciente y se reemplaza por su rango Rij . Procedimiento. frente a la hipótesis alternativa de que algunas observaciones son mayores que otras entre los tratamientos. N(N + 1) i=1 ni a Para valores ni > 5. si H > χ2 a−1. El test de Kruskal-Wallis propone como hipótesis nula que los a tratamientos son iguales. En el ejemplo de las camisas fabricadas según su porcentaje de algodón. quedando el estadístico X R2 12 i· H= − 3(N + 1). En caso de empates.α se rechaza la hipótesis nula a un nivel α. Se puede considerar que este test es adecuado para contrastar la igualdad entre las medias. se asigna a todas las observaciones empatadas el valor medio de sus correspondientes rangos.Test de Kruskal-Wallis Cuando no está justificado asumir normalidad. donde la menor observación tendría el valor 1. S2 = N − 1 i=1 j=1 ij 4 Se puede observar que S 2 es simplemente la varianza de los rangos. Por tanto. N es el número total de observaciones y " a n # i XX 1 N(N + 1)2 R2 − . H se distribuye aproximadamente como una χ2 si la hipótesis a−1 nula es cierta. Se denota como Ri· la suma de los rangos del i-ésimo tratamiento de modo que el estadístico es " a # 2 1 X Ri· N(N + 1)2 − H= 2 S i=1 ni 4 donde ni es el número de observaciones que hay en el tratamiento i.

0.5 16.% de algodón 15 20 25 30 35 7 12 14 19 7 Observaciones 7 15 11 9 17 12 18 18 18 18 19 19 25 22 19 23 10 11 15 11 Si se calculan los correspondientes rangos.5 2 2 12.5 11 16.5 24 2 5 7 12.5 14 9.03 4 Como H > χ2 4.5 16.45 − = 19. Suma 27. calculando " a n # i XX 1 N(N + 1)2 S2 = R2 − = N − 1 i=1 j=1 ij 4 ∙ ¸ 1 25 · 262 5497.28.01 = 13. se obtiene: Rangos R1j R2j R3j R4j R5j Así.5 7 4 9.25.5 7 38 .5 20.5 20. entonces se rechaza la hipótesis nula obteniéndose la misma conclusión que en el caso de usar el test clásico paramétrico.03 24 4 " a # 2 1 X Ri· N(N + 1)2 = − H = S 2 i=1 ni 4 ∙ ¸ 1 25 · 262 = 52.79 − = 53.5 66 85 113 33.5 23 20. 53.5 20.5 16.5 25.

como la diferencia entre cada observación y la media de todas las observaciones dentro de su grupo correspondiente. . 4. . Asignar aleatoriamente los residuos en los grupos del mismo tamaño sumándolos a las medias de cada grupo. . . FN . Se puede modificar este algoritmo. .Test de aleatorización y test Bootstrap Se pueden realizar tests de aleatorización sobre los errores para contrastar medias. Sin embargo. F2 . F2 . y calcular F1 . . Calcular el estadístico F0 del modo habitual sobre los datos originales. Este método da un test Bootstrap de significación que tiene propiedades similares al anterior. . el estadístico de la F de Snedecor obtenido sobre los nuevos datos generados. Declarar que F0 es significativo a un nivel α si es mayor que el valor correspondiente al percentil (1 − α) de los valores F1 . 39 . El algoritmo es 1. 2. cambiando el paso (3) remuestreando los residuos con reemplazamiento para producir nuevos conjuntos de datos. se basa en la idea de que los residuos aparecen orden aleatorio. Calcular el residuo para cada observación. 3. Repetir el paso (3) un número N de veces para generar los valores F1 . FN 5. mientras que el método Bootstrap se basa en una aproximación a la distribución F de Snedecor que se obtendría remuestreando de las poblaciones de donde vienen los datos originales. . hay una diferencia entre ambos métodos: El test basado en aleatorización.

se distribuye como una F no centrada con a − 1 y N − a grados de libertad y un cierto parámetro de centralidad. Para calcular esta probabilidad.N−a.Selección del tamaño de una muestra En diseño de experimentos un problema importante es el de determinar el número de réplicas que se tienen que realizar para cada tratamiento. Se trata de construir contrastes que tengan un tamaño α fijo y una potencia máxima (es decir un valor β pequeño) cosa que cumplen. Se puede demostrar que en ese caso. Se utilizan curvas características que dibujan la probabilidad de error de tipo II (β) frente a un parámetro Φ donde n Φ2 = a X τ2 i = 40 i=1 aσ 2 a X i=1 ni τ 2 i aσ 2 . En este caso β = 1 − P {F0 > Fa−1. Se puede cometer error de tipo I: α = P {Rechazar H0 |H0 es cierta} o bien β = P {No Rechazar H0 |H0 es falsa} Se llama potencia de un test a la P {Rechazar H0 |H0 ∪ H1 } . por ejemplo.α |H0 es falsa} . Una técnica frecuentemente empleada se basa en fijar el error de tipo II. se necesita conocer la distribución de F0 = MCT ra MCE cuando la hipótesis nula es falsa. de modo que 1 − β = P {Rechazar H0 |H0 es falsa} coincide con la potencia del test cuando H0 es falsa. Observaciones. los test UMP (de uniformemente máxima potencia).

Se asumen unas medias poblacionales por grupo igual a µ1 = 11. Se tiene que τ i = µi − µ. µ2 = 12. . . 2. se suele usar el valor que se obtiene mediante una muestra piloto. El número de réplicas por tratamiento.01.1). Los valores τ 1 . Ejemplo. . El parámetro anterior. ya que obviamente dichos valores no son conocidos previamente. de manera que τ 1 = 11 − 15 = −4 τ 2 = 12 − 15 = −3 τ 3 = 15 − 15 = 0 τ 4 = 18 − 15 = 3 τ 5 = 19 − 15 = 4 41 . depende de 1. µa para los que se consideran medias distintas. Una manera de hacerlo es buscando en las tablas de curvas características de operación.01. Supongamos que en el ejemplo de las prendas el experimentador está interesado en rechazar la igualdad entre los tratamientos con una probabilidad mínima de 0. .La cantidad Φ2 está relacionada con el parámetro de centralidad. µ5 = 19 de modo que la media total es µ = 11+12+15+18+19 5 = 15. fijados los valores de τ i y el valor de σ 2 se debe determinar n para que la potencia sea (1 − β). τ a o bien µ1 . que al ser también desconocido. El valor de σ 2 . y se presentan habitualmente curvas para α = 0. . Supongamos una estimación previa (mediante e. una muestra piloto) de σ 2 = 9 y ˆ que el nivel α elegido es 0. . 3.05 y α = 0. . µ3 = 15. µ4 = 18. Así.g. .9 (error de tipo II: β = 0.

En el ejemplo es 0. para determinar el tamaño de la muestra.3 0.36 (4. Lectura de las Curvas de Operación (i) Se elige la curva de operación. (a − 1. se tomaría v2 = 15. Una alternativa consiste en considerar el valor de la máxima diferencia posible entre las medias: D.01.04 0. Para ello se calculan los grados de libertad: a − 1 = 5 − 1 = 4. (ii ) Se fija el haz de curvas correspondiente al valor de α elegido: en el ejemplo. (iv) En el eje X se busca el valor del parámetro Φ y se fija la ordenada para ese valor de Φ que muestra la curva de operación elegida en (iii). Por ejemplo.70. al menos. el valor está cerca de 0.30.58 (4.7 5 5.30.11 · n 5·9 Se construye una tabla. para n = 4. 20) 0. 25) 0. 42 . dando distintos valores a n : n Φ2 Φ g.85 6 6. a(n − 1)) β (1-β) Potencia 4 4. de manera que la potencia es (1 − β) = 0. Por ejemplo.l. si n = 4. 6 réplicas.15 0.66 2.55 2. A menudo resulta difícil seleccionar las medias para cada tratamiento que se quieren usar. (iii ) Se elige la curva correspondiente a v2 = a(n − 1). y se elige la curva con v1 = 4. (v) El valor de la probabilidad de error de tipo II está en la ordenada. sería α = 0.96 Por tanto es necesario realizar. 15) 0.Entonces n Φ2 = 5 X τ2 i = i=1 2 5ˆ σ n(16 + 16 + 9 + 9) = 1. v2 = 15.44 2.11 (4.

entonces se obtiene el tamaño muestral adecuado para obtener como mínimo la potencia especificada. 2aσ 2 Como es el valor mínimo. entonces F0 = MCT ra ∼ Fa−1. frente al parámetro λ= r 1+ nσ 2 τ σ2 Los términos σ 2 y σ 2 al ser desconocidos se fijan dependiendo de la sensibilidad deseada τ para el experimento. si H1 es cierta. Modelo de efectos aleatorios En este modelo. se contrasta H0 ≡ σ τ = 0 H1 ≡ σ τ > 0 En este caso. También se pueden usar curvas de operación característica.N−a MCE de manera que se pueden usar las tablas habituales de la F de Snedecor para determinar el tamaño muestral.Se puede demostrar que el valor mínimo de Φ2 es Φ2 = D2 n . 43 . donde aparecen las gráficas del error de tipo II.

.white=TRUE) Datos$grupo <.premedias[[i]]) } desv <. mean.... Alternativamente.. data=Datos) anova(lm(medida ~ grupo.. data=Datos) #...predesv[[i]]) } 44 .....read.rm=TRUE) bartlett.... tapply(Datos$medida.bars="conf.txt".factor(grupo.for (i in 1: 5) {medias <.c(desv. level=0. Datos$grupo. var....function(eso){sqrt(var(medida[grupo==eso]))}) medias <. dec=".lapply(1:5. na...txt". 3)) # De modo artesanal: premedias <.table("dat1Fac.'30%'....factor(Datos$grupo. ylab="medida".'35%')) # Para ver transformaciones de Box-Cox: # Se busca el maximo de la funcion de verosimilitud library(MASS) boxcox(medida ~ grupo. na.NULL desv <.test(medida ~ grupo. deviations function(x) sum(!is.. Datos$grupo... header=T) attach(datos) elgrupo <..table("C:/CursoCIII/Disenno/Practicas06/dat1Fac. xlab="grupo".. sep="". data=datos. Datos$grupo.. tapply(Datos$medida. na. na. Datos$grupo.rm=TRUE) kruskal.lapply(1:5. y ejecutar las siguientes sentencias en la ventana de arriba de Rcmdr: library(Rcmdr) Datos <.......... lambda=seq(-3.read.. Datos$grupo) tapply(Datos$medida.function(eso){mean(medida[grupo==eso])}) predesv <..rm=TRUE) # means sd. data=Datos)) tapply(Datos$medida. var..int".c(medias...NULL medias <..'20%'. Datos$grupo.test(Datos$medida. na.". tapply(Datos$medida...... labels=c('15%'.Aplicación con R Se puede usar la librería Rcmdr de R...rm=TRUE) levene.rm=TRUE) # std. na..'35%')) tapply(Datos$medida..... labels=c('15%'. error..for (i in 1: 5) {desv <. data=Datos) plotMeans(Datos$medida. strip...'20%'.strings="NA"...'25%'.'25%'..test(medida ~ grupo. Datos$grupo. Datos$grupo. se puede hacer lo mismo con R pero mediante sentencias: # Con Sintaxis setwd("c:/Curso/… ") datos <.na(x))) # counts median. header=TRUE.....'30%'.95) boxplot(medida~grupo.

... de modo alternativo: # test de no parametrico de Kruskal-Wallis krus <. Se puede considerar un test no paramétrico................................xlab="Valores Ajustados"..... main="Distribución de medidas por grupos") fac1 <.......lmedias <..................ylab="Residuos".. # Graficos de ajuste varios # Grafica de ajuste a normalidad qqnorm(fac1$res) qqline(fac1$res) plot(fac1$fit...5 lambda <......... xlab="Valores Ajustados".......rstandard(fac1)...1-mod$coefficients[[2]] boxplot(medida ~ elgrupo...........pch=20) plot(jitter(fac1$fit)....aov(medida ~ elgrupo) summary(fac1) coefficients(fac1) # Graficas por defecto de aov par(mfrow=c(2.test(medida. main="Grafico Jittered") #...2)) plot(fac1) #...xlab="Fitted"...fac1$res.....elgrupo) krus 45 ...log(desv) mod <..... ylab="Residuos Estandarizados"..lty=2) # Analizo los residuos para verificar que cumple con las hipótesis plot(fitted.log(medias) ldesv <...values(fac1).......ylab="Residuos"............lm(ldesv~lmedias) summary(mod) # El coeficiente de la transformacion es (1-pendiente) # redondeado al valor mas proximo a multiplos de 0.kruskal... main="Residuos frente a niveles") abline(h=0..fac1$res.

method="bonferroni") # test de Tukey TukeyHSD(aov(medida ~ elgrupo)) 46 .residual.adjust.tail=F) LSD <.test(medida.residual) tcrit <.elgrupo.qt(0.p. fac1$df.sqrt(sum((fac1$residuals)^2)/fac1$df.025.Para comparaciones múltiples se pueden considerar el test de LSD. El test de LSD hay que programarlo: # test de LSD n1 <. lower. el de Bonferroni y el test de Tukey.sum(fac1$model$grupo=="4") s <.tcrit*s*sqrt((1/n1)+(1/n4)) LSD # Metodo de Bonferroni library(stats) pairwise.sum(fac1$model$grupo=="1") n4 <.t.

1 7 1 7 1 15 1 11 1 9 2 12 2 17 2 12 2 18 2 18 3 14 3 18 3 18 3 19 3 19 4 19 4 25 4 22 4 19 4 23 5 7 5 10 5 11 5 15 5 11 . means grupo /duncan snk lsd tukey. ANOVA UNIFACTORIAL DE EFECTOS FIJOS The ANOVA Procedure Class Level Information Class grupo Levels 5 Values 1 2 3 4 5 Number of observations 25 47 . proc anova. cards. class grupo. title 'ANOVA UNIFACTORIAL DE EFECTOS FIJOS'. data ano1. model medida=grupo. run.Aplicación con SAS options ls=75 nodate nonumber. input grupo medida.

87642 Root MSE 2. not the experimentwise error rate.800 9. Alpha Error Degrees of Freedom Error Mean Square Critical Value of t Least Significant Difference 0.04000 Source grupo DF 4 Anova SS 475.600 17.Dependent Variable: medida Sum of Squares 475.9400000 8.746923 DF 4 20 24 Mean Square 118.7600000 161.06 2.05 20 8.9600000 Source Model Error Corrected Total R-Square 0.800 N 5 5 5 5 5 grupo 4 3 2 5 1 48 . t Grouping A B B B C C C Mean 21.400 10.76 Pr > F <.9400000 F Value 14.76 Pr > F <.0001 t Tests (LSD) for medida NOTE: This test controls the Type I comparisonwise error rate.600 15.0001 Coeff Var 18.7600000 Mean Square 118.839014 medida Mean 15.2000000 636.0600000 F Value 14.08596 3.7455 Means with the same letter are not significantly different.

400 10.06 Number of Means Critical Range 2 3.05 20 8.931 4 4.132 Means with the same letter are not significantly different.600 17.745 3 3.600 15.800 9. Duncan Grouping A B B B C C C Mean 21. Alpha Error Degrees of Freedom Error Mean Square 0. not the experimentwise error rate.Duncan's Multiple Range Test for medida NOTE: This test controls the Type I comparisonwise error rate.800 N 5 5 5 5 5 grupo 4 3 2 5 1 49 .050 5 4.

06 4.7454539 3 4.05 20 8.600 15.Student-Newman-Keuls Test for medida NOTE: This test controls the Type I experimentwise error rate under the complete null hypothesis but not under partial null hypotheses.400 10.23186 5.800 9.600 15. Alpha Error Degrees of Freedom Error Mean Square 0.600 17.05 20 8.800 N 5 5 5 5 5 grupo 4 3 2 5 1 Tukey's Studentized Range (HSD) Test for medida NOTE: This test controls the Type I experimentwise error rate.5427095 4 5. Alpha Error Degrees of Freedom Error Mean Square Critical Value of Studentized Range Minimum Significant Difference 0. Tukey Grouping A A A C C C Mean 21.3729604 Means with the same letter are not significantly different.800 9. but it generally has a higher Type II error rate than REGWQ.06 Number of Means Critical Range 2 3.400 10. SNK Grouping A B B B C C C Mean 21.800 N 5 5 5 5 5 grupo 4 3 2 5 1 B B B D D D 50 .0256316 5 5.600 17.373 Means with the same letter are not significantly different.

cards. 1 48 1 49 2 46 2 49 2 49 3 51 3 50 3 50 3 52 3 49 4 51 4 51 4 52 4 53 5 52 5 50 5 53 6 50 6 50 6 51 6 49 . random caja/ test. model peso=caja. run. class caja. model peso=caja.options ls=75 nodate nonumber. input caja peso. class caja. data ano1. ANOVA UNIFACTORIAL DE EFECTOS ALEATORIOS The GLM Procedure Class Level Information Class caja Levels 6 Values 1 2 3 4 5 6 Number of observations 21 51 . proc varcomp method=type1. title 'ANOVA UNIFACTORIAL DE EFECTOS ALEATORIOS'. proc glm.

0057 Source caja Type III Expected Mean Square Var(Error) + 3.186498 peso Mean 50.Dependent Variable: peso Sum of Squares 36.40777778 F Value 5.0057 Variance Components Estimation Procedure Class Level Information Class caja Levels 6 Values 1 2 3 4 5 6 Number of observations 21 Dependent Variable: peso 52 .80952381 Source Model Error Corrected Total R-Square 0.33857143 Mean Square 7.33857143 1.69285714 21.692857 21.338571 1.23810 Source caja Source caja DF 5 DF 5 Type I SS 36.116667 Mean Square 7.11666667 57.21 F Value 5.634720 DF 5 15 20 Mean Square 7.4476 Var(caja) Tests of Hypotheses for Random Model Analysis of Variance Dependent Variable: peso Source caja Error: MS(Error) DF 5 15 Type III SS 36.361750 Root MSE 1.21 Pr > F 0.21 Pr > F 0.69285714 Mean Square 7.407778 F Value 5.69285714 Type III SS 36.0057 Pr > F 0.33857143 F Value 5.0057 Coeff Var 2.21 Pr > F 0.

809524 Source caja Error Corrected Total DF 5 15 20 Mean Square 7.40778 53 .407778 .4476 Var(caja) Var(Error) . Type 1 Analysis of Variance Source caja Error Corrected Total Expected Mean Square Var(Error) + 3.338571 1.Type 1 Analysis of Variance Sum of Squares 36.692857 21. Type 1 Estimates Variance Component Var(caja) Var(Error) Estimate 1.116667 57.72026 1.

Sign up to vote on this title
UsefulNot useful