Está en la página 1de 16

UNIVERSIDAD TECNOLÓGICA DE PANAMÁ

LICENCIATURA EN INGENIERÍA INDUSTRIAL


DISEÑO DE EXPERIMENTOS
SÍNTESIS #2
Capítulo 3: “Experimentos con un solo factor: El análisis de
Varianza”

Nombre: Isenith Miranda Conte Grupo: 1II-144


Cédula: 8-897-159

EL ANÁLISIS DE VARIANZA
Suponga que se tienen a tratamientos o niveles diferentes de un solo factor
que quieren compararse. La respuesta observada de cada uno de los a
tratamientos es una variable aleatoria.

Modelos para los datos:

Se encontrará útil describir las observaciones de un experimento con un


modelo. Una manera de escribir este modelo es:

Dónde:

 Yij es la observación ij-ésima.


 𝜇𝑖 es la media del nivel del factor o tratamiento i-ésimo,
 cij es un componente del error aleatorio que incorpora todas las demás
fuentes de variabilidad del experimento, incluyendo las mediciones, la
variabilidad que surge de factores no controlados, las diferencias entre
las unidades experimentales (como los materiales de prueba, etc.) a las
que se aplican los tratamientos, y el ruido de fondo general en el proceso
(ya sean la variabilidad con el tiempo, los efectos de variables
ambientales, etc.).
Es conveniente considerar que los errores tienen media cero, de tal
modo que E (yij) = 𝝁𝒊 .
Una forma alternativa de escribir un modelo de los datos es definiendo:

Dónde:

 A 𝜇𝑖 se le llama media del nivel, la cual se compone de una media global


y un 𝜏𝑖 que es el efecto del tratamiento i-ésimo.
De tal modo que la ecuación del modelo se convierte en:

Llamada esta fórmula como el modelo de los efectos.

Modelo de los datos

 Tanto el modelo de las medias como el de los efectos son modelos


estadísticos lineales
 La variable de respuesta Yij es una función lineal de los parámetros
del modelo.
 Aun cuando ambas formas del modelo son útiles, el modelo de los
efectos se encuentra con mayor frecuencia en la literatura del diseño
experimental.
 se le llama también el modelo del análisis de varianza simple o de un
solo factor (o dirección), porque únicamente se investiga un factor.

Modelo del análisis de varianza simple


• Requisitos:

 El experimento debe llevarse a cabo en orden aleatorio (ambiente en


que se apliquen los tratamientos debe ser lo más uniforme posible).
 El diseño experimental es el de un experimento completamente
aleatorizado.
 Objetivos:
 Probar las hipótesis apropiadas acerca de las medias de los
tratamientos y estimarlas
 Supuestos:
 Los errores del modelo son variables aleatorias que siguen una
distribución normal e independiente con media cero y varianza 𝜎 2 .
 La varianza es constante para todos los niveles del factor.
 Por tanto, las observaciones tienen una distribución normal, es decir,
las observaciones son mutuamente independientes.

Factor fijo o aleatorio:


 Modelo de Efectos fijos: Los a tratamientos o niveles pudieron ser
elegidos expresamente por el experimentador:
 Quieren probarse hipótesis acerca de las medias de los tratamientos.
 Las conclusiones se aplicarán únicamente a los niveles del factor
considerados en el análisis.
 Las conclusiones no pueden extenderse a tratamientos similares que
no fueron considerados explícitamente.
 También podría tratar de estimarse los parámetros del modelo (m, ti,
varianza).

 Modelo de Efectos aleatorios:


 Los a tratamientos podrían ser una muestra aleatoria de una población
más grande de tratamientos.
 Sería deseable poder extender las conclusiones (se basan en la muestra
de los tratamientos) a la totalidad de los tratamientos de la población.
 Las ti son variables aleatorias.
 Lo que se obtiene sobre las ti particulares que se investigaron es
relativamente inútil
 Se suelen probar hipótesis sobre la variabilidad de las ti y se intenta
estimar su variabilidad. A este modelo también se le llama modelo
de los componentes de la varianza.

ANÁLISIS DEL MODELO CON EFECTOS FIJOS


Supuestos iniciales:
 Se tiene un solo factor.
 Se tienen efectos fijos.
 Se realizará el análisis de varianza para esta situación.

SIGNIFICADO:
 yi. : total de observaciones bajo el tratamiento i-ésimo.
 yi.: promedio de las observaciones bajo el tratamiento i-ésimo.
 y.. Representa el gran total de todas las observaciones
 y.. Gran promedio de todas las observaciones.

Objetivos del experimento:

 El interés se centra en probar la igualdad de las a medias de los


tratamientos.
 Es decir, se quiere probar que:

 Por tanto, las Hipótesis nula y alternativa son:

ANOVA:
Lo que se mide con ANOVA es la variación de cada observación con respecto
a la media Global.

 SSTratamientos: sumas de los cuadrados debidos a los tratamientos


(entre los tratamientos).
 SSE: Suma de cuadrados debida al error (dentro de los tratamientos).
 Hay an=N observaciones en total.
 SST tiene N-1 grados de libertad
 Como hay a tratamientos o niveles de factor, SSTratamientos tiene a-
1 grados de libertad.
 Por tanto, para el error se tienen a(n-1)=an-a=N-a grados de libertad.
 Observando el término SSE :

 Si se divide por n-1 el término entre corchetes, se obtiene la varianza


del tratamiento i-ésimo

 Y también, si se hace

Al dividir el término debido al error por N-a, se obtiene una estimación


combinada de la varianza común dentro de cada uno de los a tratamientos.

Al momento de realizar el análisis estadístico, se parte de la suposición que


los errores 𝜀𝑖𝑗 siguen una distribución normal e independiente con media cero
y una varianza 𝜎 2 , las observaciones 𝑦𝑖𝑗 siguen una distribución normal e
independiente y una media 𝜇 + 𝜏𝑖 y una varianza 𝜎 2 .
Esto lleva a que la suma de cuadrados es de variables aleatorias y normal,
por lo que SST /𝜎 2 tiene una distribución ji cuadrada con N-1 grados de
libertad. Por otro lado, SSE /𝜎 2 es una variable ji cuadrada con N-a grados de
libertad y SSTRATAMIENTOS /𝜎 2 es una variable ji cuadrada con a-1 grados de
libertad. Estas sumas de cuadrados no son necesariamente independientes.
Para determinar su independencia, se utiliza el teorema de Cochran, el cual
tiene el siguiente enunciado:

Estimación de los parámetros del modelo


Estimadores de los parámetros del modelo con un solo factor
𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝜀𝑖𝑗

𝜇̂ = 𝑦̅
𝜏̂ = ̅̅̅
𝑦1 − 𝑦̅.. , 1, 2, … , 𝑎
Intervalo de confianza para la media:

Intervalo de confianza para la diferencia de medias:

Intervalos de confianza simultáneos


Si hay interés en r intervalos de confianza de 100(1-α) por ciento, la
probabilidad de que los r intervalos sean correctos simultáneamente es de al
menos 1 – rα. A esta probabilidad rα se le llama índice de error en el modo
del experimento o coeficiente de confianza global.
Método de Bonferroni: Método que se utiliza para asegurarse que el nivel
de confianza simultáneo no sea demasiado pequeño. Se sustituye α/2 con
α/(2r).
Esto le permite al experimentador construir un conjunto de r intervalos de
confianza simultáneos para las medias de los tratamientos o las diferencias
en las medias de los tratamientos para los que el nivel de confianza global es
de al menos 100(1-α) por ciento.
Verificación de la adecuación del modelo
El uso de la partición para probar formalmente que no hay diferencias en las
medias de los tratamientos requiere que se satisfagan ciertos supuestos. Los
supuestos son que el modelo describe de manera adecuada las observaciones,
y que los errores siguen una distribución normal e independiente con media
cero y varianza constante pero desconocida.
Sin embargo, es común que en la práctica estos supuestos no se satisfagan
exactamente. Por consiguiente, en general no es prudente confiar en el
análisis de varianza hasta haber verificado estos supuestos.
El supuesto de normalidad
La verificación del supuesto de normalidad podría hacerse graficando un
histograma de los residuales. Las desviaciones moderadas de la normalidad
no son motivo de mayor preocupación cuando se analiza la varianza de efectos
fijos. El análisis de varianza es robusto con respecto al supuesto de
normalidad ya que la prueba F solo se afecta ligeramente.
Un punto atípico es un residual mucho más grande que cualquier otro.
Cuando se encuentra esto, debe hacerse una investigación atenta ya que su
presencia puede distorsionar los resultados del análisis.
Puede hacerse una verificación aproximada de los puntos atípicos
examinando los residuales estandarizados mediante la siguiente ecuación:

Gráficas que se pueden realizar


 Gráfica de los residuales en secuencia del tiempo: es útil para
detectar correlaciones entre los residuales.
 Gráfica de los residuales contra los valores ajustados: Esta
gráfica no debe presentar ningún patrón obvio. Permite detectar el
defecto de varianza no constante.
 Gráficos de los residuales contra otras variables: Son gráficas en
las que se confrontan los residuales con otras variables que puedan
afectar la respuesta.
PRUEBAS ESTADÍSTICAS PARA LA IGUALDAD DE VARIANZAS
Prueba de Bartlett:

El estadístico de prueba es: , donde:

Transformaciones para estabilizar la varianza:

Prueba de Levene modificada:


Es un procedimiento muy útil que es robusto en cuanto a las desviaciones de
la normalidad. Para probar la hipótesis de que las varianzas son iguales en
todos los tratamientos, la prueba de Levene modificada utiliza la desviación
absoluta de las observaciones yii de cada tratamiento de la mediana de los
tratamientos.
La prueba de Levene modificada evalúa entonces si la media de estas
desviaciones es igual o no para todos los tratamientos. Cuando las
desviaciones medias son iguales, las varianzas de las observaciones de todos
los tratamientos son iguales. El estadístico de prueba para la prueba de
Levene es simplemente el estadístico F ANOVA usual para probar la igualdad
de las medias que se aplica a las desviaciones absolutas.
Un modelo regresión
Los factores que intervienen en un experimento pueden ser cuantitativos o
cualitativos. Un factor cuantitativo es aquel cuyos niveles pueden asociarse
con puntos en una escala numérica, los cualitativos, por otra parte, son
aquellos cuyos niveles no pueden ordenarse por magnitud.
Al enfoque general para ajustar modelos empíricos se le llama análisis de
regresión, es una herramienta que permite estudiar y valorar las relaciones
entre diferentes variables cuantitativas.
Comparaciones entre las medias de los tratamientos
El análisis de varianza en el modelo con efectos fijos se rechaza la hipótesis
nula. Por lo tanto, hay diferencias entre las medias de los tratamientos, pero
no se especifica exactamente cuáles medias difieren. En ocasiones pueden ser
de utilidad en esta situación las comparaciones y los análisis adicionales entre
grupos de las medias de los tratamientos. Los métodos de comparaciones
múltiples analizan los métodos para hacer comparaciones entre las medias de
los tratamientos individuales.
Contrastes
Un contraste es una combinación lineal de parámetros de la siguiente forma:

Las pruebas de hipótesis que incluyen contrastes pueden hacerse de dos


maneras básicas. Utilizando la prueba t. El contraste de interés se escribe en
términos de los totales de los tratamientos y utilizando la prueba f. Entonces
el cuadrado de una variable aleatoria t con v grados de libertad es una
variable aleatoria f con un grado de libertada en el numerados y v grados de
libertad en el denominador.
 Intervalo de confianza para un contraste
En vez de probar una hipótesis acerca de un contraste, pueda que sea mejor
construir un intervalo de confianza, entonces el contraste suele expresarse en
términos de los promedios de los tratamientos.
 Contraste estandarizado
Cuando hay interés en más de un contraste, con frecuencia es útil evaluarlos
en la misma escala. Una teoría de hacer esto es estandarizando el contraste
para que su varianza sea .
Si el contraste se expresa en términos de los totales de los
tratamientos como , al dividirlo por se obtendrá un
contraste estandarizado con varianza . Entonces el contraste
estandarizado es en realidad:

 Contrastes Ortogonales
Un caso especial útil del procedimiento es el ortogonal. Dos contrastes con
coeficientes {c;} y (d,} son ortogonales si

Método de Scheffé para comparar todos los contrastes


El método de Scheffé tiene como finalidad comparar todos los contrastes
posibles entre las medias de los tratamientos, en este método el error tipo I
es a lo sumo α para cualquiera de las comparaciones posibles.
Conjunto m de contrastes
Γ𝑢 = 𝐶1𝑢 𝜇1 + 𝐶2𝑢 𝜇2 + ⋯ + 𝐶𝑎𝑢 𝜇𝑎
Contraste correspondiente de los promedios de los tratamientos
C𝑢 = 𝐶1𝑢 Ῡ1 + 𝐶2𝑢 Ῡ2 + ⋯ + 𝐶𝑎𝑢 Ῡ𝑎
Error estándar de este contraste

𝑎
2
𝑆𝑐𝑢 = √𝑀𝑆𝐸 ∑(𝑐𝑖𝑢 /𝑛𝑖 )
𝑖=1

Para probar la hipótesis de que el contraste Γ𝑢 tiene una diferencia


significativa de 0, es necesario que Cu se compare con el valor crítico. Si
│𝐶𝑢│˃𝑆𝑎,𝑢 , se rechaza la hipótesis de que el contraste es Γ𝑢 = 0

Este método también puede usarse para intervalos de confianza, formándolos


para todos los contrastes posibles, dichos intervalos son simultáneos lo que
quiere decir que la probabilidad de que todos sean verdaderos es al menos de
1-α.
Comparación de pares de medias de tratamientos
Suponga que el interés se encuentra en comparar todos los pares de a medias
de tratamientos y que las hipótesis nulas que quieren probarse son
para toda

 Prueba de Tukey
Se basa en un procedimiento para probar hipótesis para las que el nivel de
significación global es exactamente ᾳ cuando los tamaños de las muestras son
iguales y es a lo sumo ᾳ cuando los tamaños de las muestras no son iguales.
Este procedimiento puede usarse también para contraer los intervalos de
confianza para las diferencias en todos los pares de medias. Para estos
intervalos, el nivel de confianza simultáneo es de 100(1 — n) por ciento
cuando los tamaños de las muestras son iguales y de al menos 100(1 — a) por
ciento cuando los tamaños de las muestras no son iguales.

Para tamaños de las muestras iguales, la prueba de Tukey declara que dos
medias son significativamente diferentes si el valor absoluto de sus
diferencias muéstrales excede

 El método de la diferencia significativa mínima (LSD) de


Fisher

En este procedimiento se utiliza el estadístico F para probar

Suponiendo una hipótesis alternativa de dos colas, los pares de medias


se declararían significativamente diferentes si A
la cantidad
Se le llama diferencia significativa mínima. Si el diseño es balanceado,

Para usar el procedimiento LSD de Fisher, simplemente se compara la


diferencia observada entre cada par de promedios con la LSD
correspondiente. Si > LSD, se concluye que las medias poblacionales
difieren.
 Prueba del rango múltiple de Duncan
Un procedimiento muy utilizado para comparar todos los pares de medias es
la prueba del rango múltiple. Para aplicar la prueba del rango múltiple de
Duncan cuando los tamaños de las muestras son iguales, los a promedios de
los tratamientos se arreglan en orden ascendente, y el error estándar de cada
promedio se determina como:

Para tamaños de las muestras desiguales:

En general, si el nivel de protección es ᾳ, las pruebas de las medias tienen un


nivel de significación que es mayor o igual que ᾳ. Por consiguiente, el
procedimiento de Duncan tiene una gran potencia; es decir, es muy eficaz para
detectar diferencias entre medias cuando existen diferencias reales.
 La prueba de Newman-Keuls
El procedimiento es similar a la prueba del rango múltiple de Duncan, salvo
porque las diferencias críticas entre las medias se calculan en una forma un
tanto diferente. Específicamente, se calcula una serie de valores críticos.

Donde q,(p,/) es el punto porcentual ᾳ superior del rango para grupos de


medias de tamaño p y con f grados de libertad del error. Una vez que se
calculan los valores Kp, los pares de medias extremos en los grupos de tamaño
p se comparan con Kp exactamente igual que en la prueba del rango múltiple
de Duncan.
Muestra de Salida de Computadora
Existen una gran cantidad de programas que apoyan el diseño experimental.
En este caso haremos referencia a “Design-Expert”. La suma de cuadrados
correspondiente al modelo se denomina SS de tratamientos, cuando el diseño
tiene un solo factor y se le denomina A. Cuando hay más de un factor, se le
comienzan a denominar A,B,etc. El resumen del análisis cuenta con la suma
de cuadrados, los grados de libertad, cuadrados medios y el valor F. “Prob >
F” es el valor P y el programa presenta la información “R cuadrada” definida
como:
R cuadrada = SS modelo / SS total
También se presentan otros estadísticos como R ajustada, que es una variante
del estadístico R cuadrado. Este puede llegar a ser útil en experimentos más
completos, cuando se trata de evaluar el impacto de aumentar o disminuir el
número de términos del modelo. También encontramos el PRESS que se
define como suma de cuadrados del error de predicción, y es una medida con
que es posible que el modelo del experimento prediga las respuestas en un
experimento nuevo.

En muchos programas de computadora de estadística se incluyen las guías


para hacer una interpretación, pero, aunque sean aconsejables, usualmente
están escritas en términos generales y puede que no se ajusten a los
requerimientos del experimentador.
Determinación del Tamaño de la Muestra
Una de las decisiones más importantes al momento de desarrollar un diseño
experimental es decidir el número de réplicas que deben correrse. A
continuación, analizaremos varios enfoques para determinar el tamaño de la
muestra.
 Curva Característica de Operación
Es una gráfica de la probabilidad del error tipo II de una prueba estadística
para un tamaño de la muestra contra un parámetro que refleja la medida en
que la hipótesis nula es falsa. Por ejemplo, se representa gráficamente la
relación existente entre un porcentaje de artículos defectuosos de un lote
productivo y la probabilidad de aceptación que se obtiene del mismo luego de
aplicar un plan de muestreo.
Cuando la calidad de un lote es "buena" tanto al productor como al consumidor
les interesa aceptar el lote con alta probabilidad. Por el contrario, cuando la
calidad de un lote es "mala" especialmente al consumidor le interesa rechazar
el lote la mayoría de las veces.
La probabilidad de aceptar un lote con 0 defectos es naturalmente un 100%.
Alternativamente si el 100% de las unidades son defectuosas la probabilidad
de aceptación del lote es 0%. Por lo tanto, una curva característica de
operación siempre pasa por los puntos (0,1) y (100,0). Para porcentajes
intermedios de artículos defectuosos se debe calcular la probabilidad de
aceptación del lote según el plan de muestreo que se esté aplicando.
 Especificación de un incremento de la desviación
estándar

Útil al momento de elegir el tamaño de la muestra. Si las medidas de los


experimentos no son diferentes, entonces la desviación estándar es σ; de caso
contrario, si son diferentes se utiliza la siguiente fórmula:
𝑎
𝜏𝑖 2
√𝜎 2 + (∑ )
𝑎
𝑖=1

 Método para estimar el intervalo de confianza

En este se asume que el usuario desea exponer los resultados finales en


términos de intervalos de confianza y que se especificará la medida en que se
desean estos intervalos. La precisión del intervalo es calculada con la
siguiente fórmula:
2𝑀𝑆𝐸
±𝑡𝑎,𝑁−𝑎 √
2 𝑛
El enfoque de Regresión para el Análisis de Varianza

El método del análisis de la varianza será de utilidad para entender los


fundamentos del análisis estadístico de diseños más complejos. El
procedimiento de la prueba general de significación de la regresión es en
esencia encontrar la reducción en la suma de cuadrados total para ajustar el
modelo con todos los parámetros incluidos y la reducción en la suma de
cuadrados cuando el modelo se restringe a la hipótesis nula. La diferencia
entre estas dos sumas de cuadrados es la suma de cuadrados de los
tratamientos con la que puede realizarse la prueba de la hipótesis nula. El
procedimiento requiere los estimadores de mínimos cuadrados de los
parámetros en el modelo del análisis de varianza.

Estimación de mínimos cuadrados de los parámetros del modelo


Los estimadores de los parámetros serán desarrollados en el modelo
con un solo factor: 𝑦𝑖𝑗 = 𝜇 + 𝜏𝑖 + 𝜖𝑖𝑗
Luego, utilizando el método de mínimo cuadrados para encontrar los
estimadores de mínimos cuadrados de μ y 𝜏𝑖 , primero se forma la suma
de cuadrados de los errores: 𝐿 = ∑𝑎𝑖=1 ∑𝑛𝑗=1 𝜖𝑖𝑗 2 = ∑𝑎𝑖=1 ∑𝑛𝑗=1(𝑦𝑖𝑗 − 𝜇 − 𝜏𝑖 )2
Y se eligen después los valores de μ y 𝜏𝑖 , por ejemplo 𝜇̌ 𝑦 𝜏, ̌ que
minimicen L. Los valores adecuados serían las soluciones de las a+1
ecuaciones simultáneas.
Luego se obtiene la siguiente ecuación:
𝑎 𝑛

−2 ∑ ∑(𝑦𝑖𝑗 − 𝜇̌ − 𝜏̌)
𝑖 =0
𝑖=1 𝑗=1
La ecuación superior se debe simplificar para obtener:
𝑁𝜇̌ + 𝑛𝑖̌1 + 𝑛𝑖̌2 + ⋯ + 𝑛𝑖̌𝑎 = 𝑦..
𝑁𝜇̌ + 𝑛𝑖̌1 = 𝑦1
𝑁𝜇̌ 𝑛𝑖̌2 = 𝑦2 ..
𝑁𝜇̌ 𝑛𝑖̌𝑎 = 𝑦𝑎 ..
A las a+ 1 ecuaciones con a+1 incógnitas se les llama ecuaciones
normales de mínimos cuadrados. Las ecuaciones normales no son
linealmente independientes, y no existe una solución única para
𝜇, 𝜏1 , … 𝜏𝑎 . Esta dificultad puede superarse mediante varios métodos.
Puesto que los efectos de los tratamientos se han definido como
desviaciones de la media global, parece razonable aplicar la siguiente
restricción:
𝑎

∑ 𝜏̌𝑖 = 0
𝑖=1
La solución obtenida no es única y depende la restricción que se ha
elegido. Sin embargo, ciertas funciones del parámetro del modelo son
estimadas de manera única, independientemente de la restricción.

Cualquier función de los parámetros del modelo que sea una combinación
lineal del miembro del lado izquierdo de las ecuaciones normales puede
estimarse de manera única.
A las funciones que se estiman de manera única independientemente de las
restricciones que se use se les llama “funciones estimables”.

Prueba general de Significación de la Regresión

Como parte fundamental de este procedimiento es escribir las ecuaciones


normales del modelo. Estas ecuaciones siempre podrán obtenerse formando
la función de mínimos cuadrados y derivándola con respecto a cada parámetro
desconocido. Sin embargo, se cuenta con un método más sencillo. Las
siguientes reglas permiten escribir directamente las ecuaciones normales del
modelo de cualquier diseño experimental:

Regla #1
Hay una ecuación normal para cada parámetro del modelo que va a estimarse.

Regla #2
El miembro derecho de cualquier ecuación normal es sólo la suma de todas
las observaciones que contienen el parámetro asociado con esa ecuación
normal particular. Para ilustrar esta regla, considere el modelo con un solo
factor. La primera ecuación normal corresponde al parámetro μ.

Regla #3
El miembro izquierdo de cualquier ecuación normal es la suma de todos los
parámetros del modelo, donde cada parámetro está multiplicado por el
número de veces que aparece en el total del miembro derecho.

Método no Paramétricos en el Análisis de Varianza

La Prueba de Kruskal – Wallis


Esta prueba se utiliza para probar la hipótesis nula de que los “a”
tratamientos son idénticos contra la hipótesis alternativa de que algunos de
los tratamientos generan observaciones que son mayores que otras. Debido a
que el procedimiento está diseñado para ser sensible al probar las diferencias
en las medias, en ocasiones es conveniente considerar la prueba de Kruskal –
Wallis como una prueba de la igualdad de las medias de los tratamientos.

La prueba de Kruskal – Wallis, primero se hace la clasificación en rangos de


las 𝑦𝑖𝑗 observaciones en orden ascendente y cada observación se reemplaza
con su rango, por ejemplo 𝑅𝑖𝑗 , asignándole a la observación menor el rango 1.
En el caso de empates (observaciones que tienen el mismo valor), se asigna el
rango promedio a cada una de las observaciones empates (observaciones que
tienen el mismo valor), se asigna el rango promedio a cada una de las
observaciones empatadas. Sea 𝑅𝑖 la suma de los rangos del tratamiento i-
ésimo. El estadístico de prueba es:
𝑎
1 𝑅𝑖 2 𝑁(𝑁 + 1)2
𝐻 = 2 [∑ − ]
𝑆 𝑛𝑖 4
𝑖=1
Donde 𝑛𝑖 es el número de observaciones del tratamiento i-ésimo, N es el
número total de observaciones y
𝑎 𝑛𝑖
1 𝑁(𝑁 + 1)2
𝑆2 = [∑ ∑ 𝑅𝑖 2 − ]
𝑁−1 4
𝑖=1 𝑗=1

Observe que 𝑆 2 es sólo la varianza de los rangos. Si no hay empaques, 𝑆 2 =


𝑁(𝑁 + 1)/12 , y el estadístico de prueba se simplifica a
𝑎
12 𝑅𝑖 2
𝐻= ∑ − 3(𝑁 + 1)
𝑁(𝑁 + 1) 𝑛𝑖
𝑖=1

Cuando el número de empaques es moderado, habrá pequeñas diferencias


1 𝑅𝑖 2 𝑁(𝑁+1)2 12 𝑅𝑖 2
entre las ecuaciones 𝐻 = 𝑆2 [∑𝑎𝑖=1 − ] y 𝐻 = 𝑁(𝑁+1) ∑𝑎𝑖=1 − 3(𝑁 +
𝑛𝑖 4 𝑛𝑖
2
12 𝑅𝑖
1), y puede usarse la forma más simple 𝐻 = 𝑁(𝑁+1) ∑𝑎𝑖=1 − 3(𝑁 + 1).
𝑛𝑖

Si las 𝑛𝑖 son razonablemente grandes, por ejemplo 𝑛𝑖 ≥ 5, H se distribuye


aproximadamente como 𝑋𝑎−1 2 bajo la hipótesis nula. Por lo tanto, si
𝐻 > 𝑋𝑎,𝑎−1 2 la hipótesis nula se rechaza. También podría usarse el enfoque
del valor P.

También podría gustarte