Está en la página 1de 71

EXPERIMENTOS CON UN SOLO FACTOR: ANALISIS DE

VARIANZA
(EXP. UNA VIA -ANOVA)
Clase 1

Universidad del Atlántico-Barranquilla


Programa de Especialización en Estadística
Aplicada

PROFESORES: RAMON ANTONIO MATOS MAREÑO.


Ph.D.
ALIRIO GERARDINO MORALES. Mg
Plan de la sesión
1. INTRODUCCIÓN
• 1.1 Experimento
• 1.2 Diseño de experimento
• 1.3 Variables
• 1.4 Sujeto o unidad experimental
• 1.5 Observación
• 1.6 Diferentes tipos de variables en el diseño de experimento
• 1.7 Repetición
• 1.8 Aleatorización
2. REALIZACIÓN
• 2.1 Realización del diseño propiamente dicho
• 2.2 Realización de la técnica de análisis de varianza
• 2.3 Estimación de los parámetros del modelo
• 2.4 Verificación de la adecuación del modelo

• 2.5 Comparaciones de medias


• 2.6 Determinación del tamaño de la muestra
• 2.7 Métodos no paramétricos en el análisis de varianza
1. DEFINICIONES y CONCEPTOS
1.1.- EXPERIMENTO

Definición
El término "Experimento" se refiere a la creación y preparación de lotes de
prueba que verifiquen la validez de las hipótesis establecidas sobre las
causas de un determinado problema o defecto, objeto de estudio.

Concepto
En un Experimento, el experimentador escoge ciertos factores para su
estudio, los altera deliberadamente de forma controlada y después,
observa el efecto resultante.
El Experimento puede realizarse bien en laboratorio o bien en el exterior:
En la fábrica, en unos almacenes, en los locales del usuario, etc.
1.2.- DISEÑO DE EXPERIMENTOS
Definición
Metodología estadística destinada a la planificación y análisis de un Experimento.
Concepto
El Diseño de un Experimento debe garantizar que este cumpla ciertos requisitos
mínimos:
- Debe poder comprobar las hipótesis objeto de estudio, no dejándose confundir por
variables insospechadas (=ruido), como errores de medida desproporcionados, etc.
- Debe poder revelar la existencia de cualquier causa importante de variación, aunque
no haya sido adelantada como hipótesis.
- Debe mantener los costes de experimentación a un nivel razonable, en comparación
con el problema objeto de estudio.
- Debe tener un alto grado de seguridad en las respuestas.
- Si el Experimento se realiza en un laboratorio, éste ha de ser, respecto a las variables
estudiadas, un buen indicador de las pruebas que se obtendrían en el taller o "in situ".
- Si el Experimento se realiza durante el desarrollo normal del proceso en estudio, se
tendrá además cuidado de interferir lo menos posible en el trabajo normal y
protegerse de las interferencias no autorizadas o involuntarias en la prueba por parte
del personal adepto.
1.3.- VARIABLE
Definición
Característica de un objeto que puede ser observada y que puede tomar diferentes
valores, tanto en el mismo objeto como entre diferentes objetos.
Concepto
En base a la posibilidad de medida se distinguen dos tipos fundamentales de
variables:
Variables cualitativas:
Son aquellas cuyos valores, de carácter nominal, sólo pueden ser comparados como
diferentes entre sí.
Ejemplos: La variable "color" puede tomar los valores rojo, azul, amarillo, etc.
La variable "empleado" puede tomar los valores Juan, José, Cristina, etc.
Variables continúas:
Son aquellas cuyos valores, de carácter numérico, permiten realizar un mayor
número de comparaciones. Una variable continua permite teóricamente, un infinito
número de valores entre dos valores consecutivos. (En la realidad la precisión de los
instrumentos de medida pone un límite operativo).
Ejemplos: La variable "peso de la tableta de chocolate" puede tomar cualquier valor
entre 95 y 110 gr. La variable "consumo de gasolina por 100 Km" puede tomar
cualquier valor entre 9 y 15 litros etc.
1.4 SUJETO O UNIDAD EXPERIMENTAL

Definición
El sujeto o unidad experimental es la unidad básica sobre la que se efectúa el
proceso de medida.
Ejemplo: El contenido de azúcar en el zumo de naranja producido se medirá
recogiendo cada hora una unidad experimental de 1 litro de zumo.

1.5 OBSERVACIÓN

Definición
Una observación es una toma de medida de una variable y consta entonces de un
valor de la misma. Dependiendo del tipo de Diseño, las observaciones pueden
tomarse a diferentes sujetos o al mismo sujeto de manera secuencial.
1.6.- DIFERENTES TIPOS DE VARIABLES EN EL DISEÑO DE UN
EXPERIMENTO

En un Diseño de Experimento se distinguen los siguientes tipos de variables, según


el contenido conceptual, o papel que tienen en el mismo.

Variable independiente.

Es el factor (causa) que suponemos influye sobre la característica que medimos


(defecto, error, etc.). Para comprobar su influencia, el investigador la manipulará
durante el Experimento, en el sentido que le asignará valores diferentes a cada
observación.
Esta variable se llama también "tratamiento" y cada uno de los valores que se le
asignarán "nivel de tratamiento".
En este Procedimiento se consideran sólo Experimentos con una única variable
independiente.
Si se quiere o necesita manipular más de una variable independiente, será
necesaria la colaboración de un experto en estadística, puesto que el Diseño del
Experimento y la interpretación de los resultados se complican notablemente.
Variable dependiente.
Es aquella variable que se mide en cada observación del Experimento, para
establecer si la variable independiente efectivamente influye sobre sus valores.

Variables extrañas.
Son todas aquellas que el investigador no puede manipular, pero influyen en la
variable dependiente. Son la causa de que las observaciones en un mismo nivel de
tratamiento no necesariamente arrojen el mismo valor de medida.
El conjunto de variables extrañas se denomina generalmente en el Diseño y Análisis
de Experimentos "ruido" o "error experimental".

Variable de bloqueo.
Es una variable que sabemos puede intervenir en los niveles de la variable
dependiente y decidimos eliminar su influencia mediante el control de la misma,
creando bloques de observaciones, en los que esta variable, asume
respectivamente un valor constante. A cada bloque se asignarán todos los niveles
de tratamiento.
Con la creación de bloques se persiguen dos objetivos:
- Aislar el efecto de los tratamientos, eliminando la influencia de la variable de
bloqueo.
- Estimar los efectos de los bloques.
1.7.- REPETICIÓN

Definición
Reiteración de una observación o medida al mismo nivel de tratamiento.
Proporciona una oportunidad para que los efectos de las variables extrañas,
incontroladas se compensen y permite, además, medir el error experimental.

1.8.- ALEATORIZACIÓN

Definición
Técnica utilizada para reducir la influencia no predeterminable de variables
extrañas sobre los resultados del Experimento.
Concepto
La aleatorización consiste en asignar los sujetos a los distintos niveles de
tratamiento al azar, con la esperanza de que los efectos extraños se contrarresten
entre los distintos sujetos y observaciones que componen cada nivel de
tratamiento (condición experimental).
La aleatorización es fundamental en el Diseño de Experimentos ya que:
a) Previene la existencia de sesgo.
b) Evita la dependencia entre observaciones.
c) Confirma la adecuación de los procedimientos estadísticos para el análisis de
los resultados del Experimento.
2.- REALIZACIÓN
2.1.- Realización del Diseño propiamente dicho

Paso 1: Definir claramente la hipótesis a comprobar


Es de importancia fundamental identificar de forma muy específica el objetivo del
Experimento, es decir, la pregunta exacta que se quiere contestar o la hipótesis que
se necesita contrastar.
Esta pregunta básica se formulará por escrito.
Paso 2: Identificar la variable independiente
La variable independiente representa la característica que, suponemos, influye
sobre los valores de la variable dependiente.
Puesto que, para la realización del Experimento, se le asignarán diferentes valores,
hay que asegurarse que esté en nuestro poder manipularla.
Paso 3: Establecer los tratamientos
En base a la naturaleza de la variable, las condiciones reales del proceso o
situación y la pregunta específica que se quiere contestar, se identificarán los
valores o el recorrido de valores de la variable independiente, relevantes para el
Experimento y se establecerán los tratamientos a efectuar.
Paso 4: Decidir el número de repeticiones para cada tratamiento
Es absolutamente aconsejable realizar varias observaciones para cada nivel de
tratamiento (condición experimental), para que los errores de medida e influencias
no controladas de variables extrañas puedan contrarrestarse entre sí.

Ejemplo:
Se desea hacer un estudio de transporte de mercancías.
La idea que se tiene en la cabeza es que el tamaño de los paquetes afecta al
tiempo necesario para la carga del volumen disponible en un remolque.
La variables independiente estará relacionada entonces con el tamaño de los
paquetes a transportar.
Se distinguirán dos tipos de paquetes, los que exceden el tamaño de 60x60x60 cm,
a los que llamarán grandes, y los menores de estas dimensiones, a los que se
llamarán pequeños.

Hipótesis: Hay diferencias entre el tiempo necesario para la carga de un remolque


sólo con mercancías pequeñas, o sólo con mercancías grandes, o la mezcla de
ambas.
Se tiene entonces tres niveles de tratamiento; grande (1), pequeño (2) y mixto (3).
Se decide realizar cuatro observaciones (repeticiones) para cada tratamiento.

 
Paso 5: Definir los sujetos sobre los que se va a realizar la medida
 
Paso 6: Determinar la variable dependiente
Sólo puede existir una única variable dependiente. Esta deberá tener,
necesariamente, un nivel de medida continuo, o lo más próximo a ese extremo
que sea posible.
Cuantas más posibilidades de apreciar diferencias entre distintas observaciones
ofrezca la variable dependiente, más se favorecerá la sensibilidad de la misma a
los distintos tratamientos.
Ejemplo:

En el ejemplo de transporte de mercancías, los sujetos de medición deberían ser


diferentes remolques, pero utilizar varios remolques para cada tratamiento exigirá
una facturación por encima de la normal.
Lo que se puede hacer es dividir un remolque en varias parcelas de igual tamaño
y determinar como sujeto cada una de las parcelas.
Se divide entonces un remolque en 12 cajoneras aprovechables de igual tamaño.
A cada condición experimental se le asignan cuatro cajoneras.
La variable dependiente va ser el tiempo necesario para completar la carga de
una cajonera.
Paso 7: Explicitar el procedimiento de aleatorización
Esta es una parte muy importante del Diseño, ya que asegurará que las diferencias
que se encuentren entre los tratamientos son debidas a ellos mismos y no a
efectos laterales no deseados.
Un procedimiento muy fácil y común para asignar los sujetos a los diferentes
tratamientos al azar es el siguiente:
Numerar los sujetos y hacer para cada sujeto un papel con el número
correspondiente.
Poner todos los papeles en una bolsa y mezclarlos. Extraer, para cada tratamiento,
tantos papeles "a ciegas", cuantas son las observaciones planificadas para el
mismo.
Ejemplo:
Volviendo al ejemplo: se ha dividido el remolque en 12 cajoneras.
Se trata ahora de asignar a cada tratamiento 4 cajoneras.
Se asigna primero un número a cada cajonera y se escribe un papel para cada
número.
Luego se extraen 4 números “ aciegas”: las cajoneras correspondientes se
utilizarán para el tratamiento 1 (paquetes grandes).
Los próximos 4 papelitos que se extraigan indicarán las cajoneras destinadas al
tratamiento 2 (paquetes pequeños), y las 4 cajoneras restantes servirán para el
tratamiento 3 (paquetes mixtos).
 
Tabla N° 1. Cajoneras asignadas a cada tratamiento

Tr 1 6 11 9 1
Tratamientos

Tr 2 2 8 5 10

Tr 3 7 4 3 12
Paso 8: Identificar posibles factores de "ruido" y/o variables de bloqueo
Analizar la futura situación experimental e identificar los factores que puedan,
además de la variable independiente, influir sobre los valores de la variable
dependiente. Según su relevancia y las posibilidades técnicas, la decisión a adoptar
respecto a los factores de ruido y/o variables de bloqueo, será la siguiente:
- O bien tenerlos bajo control (constantes), a lo largo de todas las observaciones.
- O bien integrarlos en el Diseño, como variable de bloqueo.
- O bien transformarlos en una variable independiente. Esto será necesario, aunque
se complique notablemente el Diseño de Experimento desde el punto de vista
estadístico, cuando su influencia sobre la variable dependiente resulte ser
relevante.
- O bien se espera que la aleatorización sea suficiente para que sus efectos se
contrarresten en las repeticiones de cada tratamiento. Esta posibilidad será
aceptable sólo si la variable en cuestión está fuera de nuestro control y se considera
que su influencia es bastante limitada. Su efecto se englobará dentro del "error
experimental", o "ruido".
Ejemplo:
Un posible factor de “ruido” influye en el tiempo necesario para la carga de los
paquetes, mezclándose al efecto del tamaño de los paquetes, puede ser el
cansancio del personal de carga.
Se intenta entonces mantener esta variable lo más constante posible a lo largo del
experimento, realizando siempre solo una observación (= carga de una cajonera)
por día, y siempre a primera hora.
Paso 9: Asegurarse de la aptitud del Diseño del Experimento para contestar
la pregunta inicial
Comprobar que el tipo de resultados que obtendremos del Experimento tal y como
lo hemos planificado, nos proporcionará efectivamente la información que
necesitamos.
El resultado de este paso será el Diseño, propiamente dicho, del Experimento.

Paso 10: Realización del Experimento


Se crearán las condiciones experimentales (tratamientos) y se efectuarán las
observaciones según el plan establecido, teniendo un cuidado particular en evitar
posibles influencias extrañas sobre los valores de la variable dependiente.
Se registrarán los resultados del Experimento, anotando además toda la
información posiblemente relevante sobre las circunstancias prácticas de cada
observación. (Persona que realiza la medición, hora, temperatura, etc...).
Ejemplo: Resultados de las mediciones realizadas sobre los tiempos de carga
Tabla N° 2. Resultados de las mediciones realizadas sobre los tiempos de carga

Tratamiento Tiempos de carga

Tr 1 6,10 5,40 6,80 5,68

Tr 2 10,90 10,20 9,20 11,90

Tr 3 6,70 6,08 7,10 5,93


2.2. Realización de la técnica de Análisis de Varianza
Una vez se ha realizado el experimento, los datos obtenidos deberán ser
procesados mediante técnicas estadísticas apropiadas para la comprobación de
hipótesis.

Cuando el objetivo es juzgar sobre la validez de hipótesis estadísticas


relacionadas con las medias de tratamientos el análisis de varianza es la
herramienta apropiada para ello, se presentan a continuación los elementos
metodológicos de aplicación de esta técnica:

Sean

𝑦𝑖𝑗 son los valores de la variable dependiente evaluada en el tratamiento 𝑖 y la


observación 𝑗.

Se consideran 𝑎 tratamientos y 𝑛 observaciones (replicas).

Bajo estos supuestos los valores de la variable dependiente pueden ser


presentados en la siguiente tabla:
Tabla N° 3. Datos típicos de un experimento de un solo factor

Tratamientos
Observaciones Totales Promedios
(niveles)
1 𝑦11 … 𝑦1𝑛 𝑦1. 𝑦ത1.
2 𝑦21 … 𝑦2𝑛 𝑦2. 𝑦ത2.
. . … . . .
. . … . . .
. . … . . .
a 𝑦𝑎1 … 𝑦𝑎𝑛 𝑦𝑎. 𝑦ത𝑎.
𝑦.. 𝑦ത..
Los valores anteriores se presentan de manera recurrente así:
 
Modelos Estadísticos lineales:
 
Modelo de las medias
 
𝑦𝒊𝒋 = 𝜇𝒊 + 𝜀𝒊𝒋 , 𝑖 = 1, … , 𝑎 ; 𝑗 = 1, … , 𝑛
 
Se considera
𝐸൫𝑦𝒊𝒋൯= 𝜇𝒊. ;ó 𝐸൫𝜀𝒊𝒋൯= 0
 
Modelo de los efectos
 
 
𝑦𝒊𝒋 = 𝜇 +𝜏𝒊 + 𝜀𝒊𝒋, 𝑖 = 1,…,𝑎 ; 𝑗 = 1,…,𝑛
Requisito: que el experimento se lleve a cabo en orden aleatorio para que el
ambiente en el que se apliquen los tratamientos sea lo más uniforme posible.
 
Objetivos: Probar las hipótesis apropiadas acerca de las medias de los
tratamientos y estimarlas.
 
Supuestos:
 𝜀𝒊𝒋 ~𝑵ሺ0, σ2 ሻ, es decir𝑦𝒊𝒋 ~𝑵ሺμ + τi , σ2 ሻ
   yij son independientes.
Tipos de modelos de efectos:
 
Fijos: El experimentador escoge los niveles en los que va a realizar los
experimentos.
 
Aleatorios: Los tratamientos son una muestra de una población más grande de
tratamientos.
 
ANALISIS DEL MODELO CON EFECTOS FIJOS

En la tabla N°1
𝑛
𝑦𝑖 .
𝑦𝑖 .= ෍ 𝑦𝑖𝑗 𝑦ത𝑖 . =
𝑛
𝑗=1

𝑎 𝑛
𝑦. .
𝑦. .= ෍ ෍ 𝑦𝑖𝑗 𝑦ത.. =
𝑁
𝑖=1 𝑗=1

𝑁 = 𝑎 ∙ 𝑛 𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠
El objetivo operativo que se persigue al aplicar la técnica del ANOVA es
conjeturar sobre las hipótesis estadísticas abajo planteadas, es decir:

𝐻0 :𝜇1 = 𝜇2 … = 𝜇𝑎

Probar

𝐻1 :𝜇𝑖 ≠ 𝜇𝑗 ∃ 𝑖,𝑗

Por lo general , se considera como media global, así:

σ 𝑎𝑖=1 𝜇𝑖
=𝜇
𝑎
Esto implica que
𝑎

෍ 𝜏𝑖 =0
𝑖=1
Se quiere:

𝐻0 :𝜏1 = 𝜏2 … = 𝜏𝑎 = 0

Probar

𝐻1 : ∃ 𝑖 𝜏𝑖 ≠ 0

Por ello, se habla de probar la igualdad de las medias o probar que los efectos
de los tratamientos son cero.
Una consideración importante para establecer un criterio sobre el cual juzgar la
veracidad o no de las hipótesis formuladas en la prueba se demuestra a
continuación:

Teorema 1.
𝑎 𝑛 𝑎 𝑛
2 2
෍ ෍ ൫𝑦𝑖𝑗 − 𝑦ത. . ൯ = 𝑛 ෍ ሺ𝑦ത𝑖 − 𝑦ത. . ሻ2 + ෍ ෍ ൫𝑦𝑖𝑗 − 𝑦ത𝑖 . ൯
𝑖=1 𝑗=1 𝑖=1 𝑗 =1

𝑆𝑆𝑇 = 𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 + 𝑆𝑆𝐸


Demostración
𝑎 𝑛 𝑎 𝑛
2 2
. . ൯ = ෍ ෍ ൣሺ𝑦ത
෍ ෍ ൫𝑦𝑖𝑗 − 𝑦ത ത
𝑖 . −𝑦 . . ሻ+ ൫𝑦𝑖𝑗 − 𝑦ത
𝑖. ൯

𝑖=1 𝑗 =1 𝑖=1 𝑗 =1
𝑎 𝑛
2
= ෍ ෍ ቂሺ𝑦ത ത
𝑖 . −𝑦 . . ሻ2 + 2ሺ𝑦ത ത
𝑖 . −𝑦 . . ሻ൫𝑦𝑖𝑗 − 𝑦ത
𝑖 . ൯+ ൫ 𝑖 . ൯ቃ
𝑦𝑖𝑗 − 𝑦ത
𝑖=1 𝑗 =1
𝑎 𝑛 𝑎 𝑛 𝑎 𝑛
2
= ෍ ෍ ሺ𝑦ത ത. . ሻ2 + 2 ෍ ෍ ሺ𝑦ത
𝑖 . −𝑦 ത
𝑖 . −𝑦 . . ሻ൫ 𝑖 . ൯+ ෍ ෍ ൫
𝑦𝑖𝑗 − 𝑦ത 𝑖. ൯
𝑦𝑖𝑗 − 𝑦ത
𝑖=1 𝑗 =1 𝑖=1 𝑗 =1 𝑖=1 𝑗 =1
𝑎 𝑎 𝑛
2
= 𝑛 ෍ ሺ𝑦ത ത
𝑖 . −𝑦 . . ሻ2 + ෍ ෍ ൫𝑦𝑖𝑗 − 𝑦ത
𝑖. ൯
𝑖=1 𝑖=1 𝑗 =1

Ya que
𝑛 𝑛 𝑛 𝑛

෍ ൫ 𝑖 . ൯= ෍ 𝑦𝑖𝑗 − 𝑛𝑦
𝑦𝑖𝑗 − 𝑦ത ത𝑖 . = ෍ 𝑦𝑖𝑗 − ෍ 𝑦𝑖𝑗 = 0
𝑗 =1 𝑗 =1 𝑗 =1 𝑗 =1
Es frecuente encontrar en la literatura la denominación siguiente para las
expresiones utilizadas:

𝑆𝑆𝑇- Variación total de los datos es la combinación de:

 Suma de cuadrados de los errores


𝑆𝑆𝐸- Variación debida al azar (Variación dentro de las muestras) y

 Suma de cuadrados debida a los tratamientos


𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 -Variación debida al azar cuando la hipótesis nula es verdadera
(Variación entre los tratamientos).

𝑆𝑆𝑇 – Tiene 𝑁 − 1 grados de libertad

𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 - Tiene 𝑎 − 1 grados de libertad

𝑆𝑆𝐸- Tiene 𝑎ሺ𝑛 − 1ሻ = 𝑎𝑛 − 𝑎 = 𝑁 − 𝑎 grados de libertad

𝑆𝑖2 - Varianza muestral del tratamiento 𝑖

𝑎 2
σ 𝑖=1 ൫ 𝑖൯
𝑦𝑖𝑗 − 𝑦ത
𝑆𝑖2 = , 𝑖 = 1, … , 𝑎
𝑛−1
La suma de las varianzas de los tratamientos ponderadas puede ser expresada no
solo mediante 𝑆𝑆𝐸 , sino también mediante 𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 , esto se evidencia de la
siguiente manera:
2
ሺ𝑛 − 1ሻ𝑆12
+ ሺ𝑛 −1ሻ𝑆22+ ⋯ + ሺ𝑛 − 1ሻ𝑆𝑎2 σ 𝑎𝑖=1 ቂσ 𝑛𝑗=1൫𝑦𝑖𝑗 − 𝑦ത
𝑖 ൯ቃ 𝑆𝑆𝐸
= =
ሺ𝑛 − 1ሻ+ ሺ𝑛 − 1ሻ+ ⋯ + ሺ𝑛 − 1ሻ σ 𝑎𝑖=1(𝑛 − 1) (𝑁 − 𝑎)

𝑆𝑆𝐸
Es decir,(𝑁−𝑎) es un estimador de la varianza común de cada uno de los 𝑎
tratamientos.

Ahora,

𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 𝑛 σ 𝑛𝑗=1ሺ𝑦ത ത. . ሻ2
𝑖 . −𝑦
=
𝑎−1 𝑎−1
Es una estimación de 𝜎 2 si las medias de los tratamientos son iguales.
A las expresiones obtenidas se les denomina Cuadrados Medios, así:
𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠
𝑀𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒 𝑛𝑡𝑜𝑠 =
𝑎−1

𝑆𝑆𝐸
𝑀𝑆𝑆𝐸 =
𝑁−𝑎

Los cuadrados medios son variables aleatorias con las siguientes propiedades:

Teorema 2.
𝐸ሺ𝑀𝑆𝑆𝐸ሻ= 𝜎2

σ 𝑎 2
𝑛 𝑖=1 𝜏𝑖
ሺ ሻ 2
𝐸 𝑀𝑆𝑆𝑇𝑟𝑎𝑡 = 𝜎 +
𝑎−1
Demostración
𝑎 𝑛
𝑆𝑆𝐸 1 2
𝐸 ሺ𝑀𝑆𝑆𝐸 ሻ = 𝐸 ൤ ൨= 𝐸 ቎෍ ෍ ൫ ത
𝑦𝑖𝑗 − 𝑦𝑖 . ൯ ቏
𝑁−𝑎 𝑁−𝑎
𝑖=1 𝑗 =1
𝑎 𝑛
1
= 𝐸 ቎෍ ෍ ൫
𝑦𝑖𝑗 2 − 2𝑦𝑖𝑗 𝑦
ത ത
𝑖 . +𝑦𝑖. ൯
2

𝑁−𝑎
𝑖=1 𝑗 =1
𝑎 𝑛 𝑎 𝑛 𝑎
1
= 𝐸 ቎෍ ෍ 𝑦𝑖𝑗 2 − 2𝑛 ෍ ෍ 𝑦
ത 2

𝑖. + 𝑛 ෍ 𝑦
2
𝑖. ቏
𝑁−𝑎
𝑖=1 𝑗 =1 𝑖 =1 𝑗 =1 𝑖=1
𝑎 𝑛 𝑎
1 1
= 𝐸 ቎෍ ෍ 𝑦𝑖𝑗 2 − ෍ 𝑦
ത 2
𝑖. ቏
𝑁−𝑎 𝑛
𝑖=1 𝑗 =1 𝑖=1
2
𝑎 𝑛 𝑎 𝑛
1 2 1
= 𝐸 ൦෍ ෍ ൫
𝜇 + 𝜏𝑖 + 𝜀𝑖𝑗 ൯ − ෍ ቌ෍ 𝜇 + 𝜏𝑖 + 𝜀𝑖𝑗 ቍ ൪
𝑁−𝑎 𝑛
𝑖=1 𝑗 =1 𝑖=1 𝑗 =1

𝑎 𝑛
1
= ሺ𝜇 + 𝜏𝑖 ሻ2 + 2ሺ𝜇 + 𝜏𝑖 ሻ𝜀𝑖𝑗 + 𝜀𝑖𝑗2 ൧
𝐸 ቎෍ ෍ ൣ
𝑁−𝑎
𝑖=1 𝑗 =1
𝑎
1 2
− ෍ ቀ𝑛𝜇 + 𝑛𝜏𝑖 + ൫
𝜀𝑖𝑗 + ⋯ + 𝜀𝑖𝑗 ൯
ቁ൩
𝑛
𝑖 =1
𝑎 𝑛
1
= 𝐸 ቎෍ ෍ ൣ𝜇2 + 2𝜇𝜏𝑖 + 𝜏𝑖2 + 2𝜇𝜀𝑖𝑗 + 2𝜏𝑖 𝜀𝑖𝑗 + 𝜀𝑖𝑗2 ൧
𝑁−𝑎
𝑖=1 𝑗 =1
𝑎
1
𝑛 2 𝜇2 + 2𝑛𝜇 ሺ𝜏𝑖 … ሻ+ ሺ𝑛𝜏𝑖 ሻ2 + ⋯ + 𝑛𝜀𝑖𝑗2 ൧൩
− ෍ ൣ
𝑛
𝑖=1
𝑎 𝑎 𝑎 𝑛 𝑎 𝑛
1
= 𝐸 ቎𝑁𝜇2 + 2𝑛𝜇 ෍ 𝜏𝑖 + 𝑛 ෍ 𝜏𝑖2 + 2𝜇 ෍ ෍ 𝜀𝑖𝑗 + 2 ෍ ෍ 𝜀𝑖𝑗 𝜏𝑖
𝑁−𝑎
𝑖=1 𝑖=1 𝑖=1 𝑗 =1 𝑖=1 𝑗 =1
𝑎 𝑛 𝑎

+ ෍ ෍ 𝜀𝑖𝑗2 − ൭𝑁𝜇2 + 𝑛 ෍ 𝜏𝑖2 − 𝑎𝜎 2 ൱൩


𝑖=1 𝑗 =1 𝑖=1
𝑎 𝑎
1
= ൥𝑁𝜇2 + 𝑛 ෍ 𝜏𝑖2 + 𝑁𝜎 2 − ൭𝑁𝜇2 + 𝑛 ෍ 𝜏𝑖2 − 𝑎𝜎 2 ൱൩
𝑁−𝑎
𝑖=1 𝑖=1
𝑎 𝑎
1
= ൥𝑁𝜇2 + 𝑛 ෍ 𝜏𝑖2 + 𝑁𝜎 2 − 𝑁𝜇2 − 𝑛 ෍ 𝜏𝑖2 − 𝑎𝜎 2 ൩= 𝜎 2
𝑁−𝑎
𝑖=1 𝑖=1

Las anteriores consideraciones sirven para formular el teorema que explicita el


análisis estadístico seguido en la aplicación de ANOVA para comprobar la media de
tratamientos.
Teorema 3

Suponga que tiene lugar el esquema de efectos lineales descrito con anterioridad,
es decir,
𝒚𝒊𝒋 ~ 𝑵ሺ
0, σ2 ሻ
𝑛
1
𝐸𝑛𝑡𝑜𝑛𝑐𝑒𝑠, 2
𝑛෍ ሺ
𝑦ത ത
𝑖 . −𝑦 . . ሻ2 ~ 𝜒𝑛2−1
𝜎
𝑗 =1

𝑎 𝑛
1 2
෍ ෍ ൫ ത
𝑦𝑖𝑗 − 𝑦𝑖. ൯ ~ 𝜒𝑎2(𝑛 −1)
𝜎2
𝑖=1 𝑗 =1

𝑆𝑆𝑇𝑟𝑎𝑡 Τ(𝑎 − 1) 𝑀𝑆𝑆𝑇𝑟𝑎𝑡


𝐸𝑛𝑡𝑜𝑛𝑐𝑒𝑠, 𝐹0 = = ~ 𝐹𝑎−1,𝑁−𝑎
𝑆𝑆𝐸 Τ(𝑁 − 𝑎) 𝑀𝑆𝑆𝐸

Entonces 𝐻0 deberá rechazarse y concluirse que hay diferencias en las medias


de los tratamientos.
𝐹0 >𝐹∝, 𝑎−1, 𝑁−𝑎

OJO. También:
𝑎 𝑛
𝑦2..
2
𝑆𝑆𝑇 = ෍ ෍ 𝑦𝑖𝑗 −
𝑁
𝑖=1 𝑗=1

𝑛
1 2 𝑦 2..
𝑆𝑆𝑇𝑟𝑎𝑡 = ෍ 𝑦𝑖 .−
𝑛 𝑁
𝑗=1
Ejemplo 3.1:

Un ingeniero de desarrollo de productos tiene interés en investigar la


resistencia a la tensión de una fibra sintética nueva que se usará para hacer
telas de camisas para caballero. El ingeniero sabe por experiencia previa que la
resistencia a la tensión se afecta por el peso porcentual del algodón utilizado en
la mezcla de materiales de la fibra. Además, sospecha que al aumentar el
contenido de algodón deberá variar ente 10 y 40 por ciento para que el
producto final tenga otras características de calidad que se desean (como la
capacidad de ser sometido a un tratamiento de planchado permanente). El
ingeniero decide probar ejemplares en cinco niveles del peso porcentual del
algodón: 15, 20, 25, 30 y 35 por ciento. También decide probar cinco
ejemplares en cada nivel del contenido de algodón.
Se trata de un experimento con un solo factor con a=5 niveles del factor y n=5
réplicas. Las 25 corridas deberán realizarse de manera aleatoria. Para ilustrar
como puede aleatorizarse el orden de las corridas suponga que las corridas se
enumeran de la siguiente manera:
Tabla N° 4. Ejemplares en cinco niveles del peso porcentual del algodón (corridas)

Peso porcentual del


Número de corrida experimental
algodón

15 1 2 3 4 5
20 6 7 8 9 10
25 11 12 13 14 15
30 16 17 18 19 20
35 21 22 23 24 25

Ahora se selecciona un número aleatorio entre 1 y 25. Suponga que este


número es 8. Entonces la observación numero 8 (20% de algodón) se corre
primero. Este proceso se repetirá hasta que las 25 observaciones tengan
asignada una posición en la secuencia de la prueba. La única restricción sobre
la aleatorización en este caso, es que si se saca de nuevo el mismo número (es
decir 8), se descarta
Suponga que la secuencia de la prueba es:
Tabla N° 5. Secuencia aleatoria de corridas obtenida
Peso porcentual del
Secuencia de prueba Número de corrida (cod)
algodón
1 8 20
2 18 30
3 10 20
4 23 35
5 17 30
6 5 15
7 14 25
8 6 20
9 15 25
10 20 30
11 9 20
12 4 15
13 12 25
14 7 20
15 1 15
16 24 35
17 21 35
18 11 25
19 2 15
20 13 25
21 22 35
22 16 30
23 25 35
24 19 30
25 3 15
Supongamos que el ingeniero corre la prueba en el orden aleatorio que se ha
determinado. En la siguiente tabla se muestran las observaciones que se obtienen
para la resistencia a la tensión.
Tabla N1.
Resultados de la variable resistencia a la tensión según porcentaje de algodón de la
fibra.

Tabla N° 6. Secuencia aleatoria de corridas obtenida

Se usará el análisis de varianza para probar:

𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 = 𝜇5
Probar:൞
𝐻1 : 𝑝𝑜𝑟 𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑒𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒
Para resolver el interrogante anterior, primero se calculan las sumas de cuadrados
como sigue:
5 5 𝑦..2
𝑆𝑆𝑇 = ෍ ෍ 𝑦𝑖𝑗2 −
𝑖=1 𝑗 =1 𝑁

2
(376)
= ሺ7ሻ2 + ሺ7ሻ2 + ሺ15ሻ2 + ⋯ + ሺ15ሻ2 + ሺ11ሻ2 − = 636.96
25
1 2
𝑦..2
𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 = ෍ 𝑦𝑖 −
𝑛 𝑁
𝑖=1

2
1 ሺ376ሻ
= [ሺ49ሻ2 + ⋯ + ሺ54ሻ2 ] − = 475.76
5 25
𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠

= 636.96 − 475.76 = 161.20


Tabla N° 7. Análisis de varianza de la resistencia a la tensión

Fuente de Suma de Grados de Cuadrado 𝑭𝟎 Valor p


variación cuadrados libertad medio

Peso
porcentual del 475.76 4 118.94. 14.76 <0.01
algodón
Error 161.20 20 8.06

Total 636.96 24

Observé que el cuadrado medio entre los tratamientos (118.94) es varias veces
mayor que el cuadrado medio del error (8.06). Esto indica que no es posible que
las medias de los tratamientos sean iguales. En términos formales se puede
118 .94
calcular el cociente entre 𝐹, 𝐹0 = 8.06
= 14.76 y comparar este valor con un punto
porcentual apropiado de la cola superior de la distribución 𝐹4,20 . Suponga que el
investigador ha seleccionado 𝛼 = 0.05 por tanto 𝐹0.05,4,20 = 2.87. Puesto que
𝐹0 = 14.76 > 2.87 se rechaza 𝐻0 y se concluye que por lo menos una de las
medias es diferente, es decir que el peso porcentual del algodón en la fibra afecta
de manera significativa la resistencia a la tensión media.
Ejemplo 3.2:

Codificación de Observaciones
Los cálculos del análisis de Varianza pueden hacerse con frecuencia de manera
más precisa o simplificada codificando las observaciones. Por ejemplo, considere
los datos de la resistencia a la tensión del ejemplo 3-1.

Tabla N° 8. Datos Codificados de la resistencia a la tensión del ejemplo 3-2

Observaciones
Peso
porcentual
del 1 2 3 4 5 Totales ()
algodón

15 -8 -8 0 -4 -6 -26
20 -3 2 -3 3 3 2
25 -1 3 3 4 4 13
30 4 10 7 4 8 33
35 -8 -5 -4 0 -4 -21

Suponga que se resta 15 de cada observación. Los datos codificados se muestran


en la tabla 8. Es sencillo verificar que:
𝟐 𝟐
(𝟏)𝟐 𝟐
𝑺𝑺𝑻 = (−𝟖) + (−𝟖) + ⋯ + (−𝟒) − = 𝟔𝟑𝟔. 𝟗𝟔
𝟐𝟓

(−𝟐𝟔)𝟐 + (𝟐)𝟐 + ⋯ + (−𝟐𝟏)𝟐 (𝟏)𝟐


𝑺𝑺𝑻𝒓𝒂𝒕𝒂𝒎𝒊𝒆𝒏𝒕𝒐𝒔 = − = 𝟒𝟕𝟓. 𝟕𝟔
𝟓 𝟐𝟓
y

𝑺𝑺𝑬 = 𝟏𝟔𝟏. 𝟐𝟎

Al comparar estas sumas de cuadrados con las que se obtuvieron en el ejemplo 3-


1, se observa que al restar una constante de los datos originales las sumas de
cuadrados no se modifican.
Suponga ahora que cada una de las observaciones del ejemplo 3-1 se multiplica
por 2. Es sencillo verificar que las sumas de cuadrados de los datos transformados
son . Estas sumas de cuadrados parecen diferir considerablemente de las que se
obtuvieron en el ejemplo 3-1. Sin embargo, si se dividen por 4 (es decir, ), los
resultados son idénticos. Por ejemplo, para la suma de cuadrados de los
tratamientos, Asimismo, para los datos codificados, el cociente es que es idéntico
al cociente de los datos originales. Por lo tanto, los análisis de varianza son
equivalentes.
Además, de comprobar la veracidad de las hipótesis sobre la igualdad de las
medias el análisis estadístico permite estimar los parámetros en los modelos que
definen los valores de la variable dependiente, así:
2.3.- ESTIMACIÓN DE LOS PARÁMETROS DEL MODELO
Un estimador puntual de 𝜇𝑖 sería 𝜇Ƹ 𝑖 = 𝜇Ƹ+ 𝜏Ƹ ത
𝑖 = 𝑦𝑖 . . Ahora bien, si se supone que
los errores siguen una distribución normal, cada 𝑦ത 𝑖 . es una NID (ሺ
𝜇𝑖 , 𝜎 2 Τ𝑛 ሻ. Por lo
tanto, si 𝜎 2 fuera conocida, podría usarse la distribución normal para definir el
intervalo de confianza. Al utilizar 𝑀𝑆𝐸 como estimador de 𝜎 2 , el intervalo de
confianza se basaría en la distribución 𝑡. Por lo tanto, un intervalo de confianza de
100ሺ1 − 𝛼 ሻ por ciento para la media 𝜇𝑖 del tratamiento 𝑖 − é𝑠𝑖𝑚𝑜 es

𝑀𝑆𝐸 𝑀𝑆𝐸
𝑖. − 𝑡𝛼 Τ2 ,𝑁−𝑎 ඨ
𝑦ത ≤ 𝜇𝑖 ≤ 𝑦ത
𝑖 . + 𝑡𝛼 Τ2 ,𝑁−𝑎 ඨ
𝑛 𝑛

Un intervalo de confianza de 100ሺ1 − 𝛼 ሻ por ciento para la diferencia en las


medias de dos tratamientos cualesquiera, por ejemplo 𝜇𝑖 − 𝜇𝑗 , sería

2𝑀𝑆𝐸 2𝑀𝑆𝐸
𝑦ത ത
𝑖. − 𝑦𝑗 . − 𝑡𝛼 Τ2 ,𝑁−𝑎 ඨ ≤ 𝜇𝑖 − 𝜇𝑗 ≤ 𝑦ത
𝑖. − ത
𝑦𝑗. + 𝑡𝛼 Τ2 ,𝑁−𝑎 ඨ
𝑛 𝑛
Ejemplo 3.3:
Utilizando los datos del ejemplo 3-1 pueden encontrarse las estimaciones de la
media global y de los efectos de los tratamientos como 𝜇Ƹ= 376Τ25 = 15.04 𝑦

𝜏Ƹ ത
1 = 𝑦 ത
1. −𝑦 . . = 9.80 − 15.04 = −5.24

𝜏Ƹ ത
2 = 𝑦 ത
2. −𝑦 . . = 15.40 − 15.04 = +0.36

𝜏Ƹ ത
3 = 𝑦 ത
3. −𝑦 . . = 17.60 − 15.04 = −2.56

𝜏Ƹ ത
4 = 𝑦 ത
4. −𝑦 . . = 21.60 − 15.04 = +6.56

𝜏Ƹ ത
5 = 𝑦 ത
5. −𝑦 . . = 10.80 − 15.04 = −4.24

Un intervalo de confianza de 95% para la media del tratamiento 4 (30% de


algodón) se calcula con la ecuación 3-12 como

8.06 8.06
21.60 − 2.086ඨ ≤ 𝜇4 ≤ 21.60 + 2.086ඨ
5 5

21.60 − 2.65 ≤ 𝜇4 ≤ 21.60 + 2.65

Por lo tanto, el intervalo de confianza de 95% deseado es


18.95 ≤ 𝜇4 ≤ 24.25.
2.4 VERIFICACIÓN DE LA ADECUACIÓN DEL MODELO
Si

𝑌𝐼𝐽 = 𝜇 + 𝜏𝐼 + 𝜀𝐼𝐽 , 𝑦 𝜀𝑖𝑗 ~𝑁ሺ0, 𝜎 2 ሻ, 𝜀𝑖𝑗 − 𝑠𝑜𝑛 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒𝑠.

Entonces, la técnica de ANOVA es una prueba exacta para la hipótesis de que no


hay diferencias en las medias de los tratamientos.

En la práctica estos supuestos no se cumplen siempre. Por ello, en todo análisis


deben realizarse acciones para verificar la adecuación del modelo:

1. Examen de residuales.

Definición: El residual de la 𝑗 − 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖ó𝑛 en el 𝑖 − 𝑡𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜 es.

𝑖𝑗 = 𝑦𝑖𝑗 − ሺ
𝑒𝑖𝑗 = 𝑦𝑖𝑗 − 𝑦ෞ 𝑖 ሻ = 𝑦𝑖𝑗 − 𝑦
𝜇 + 𝜏ෝ ഥ+
.. ሺ𝑦ഥ𝑖. − 𝑦ഥ.. ሻ = 𝑦𝑖𝑗 − 𝑦ഥ.
𝑖.

Los residuales deberán estar sin estructura.


1. Supuesto de normalidad.

 Graficar el histograma de los residuales (la gráfica debe aparecer como


gráfica normal con centro en cero).
 Graficar la probabilidad normal de los residuales (deberá aparecer como
una línea recta). Shapiro- Wilks. .(Fig. 3-4).

Gráfica Cuantil-Cuantil

7 Distribución
Normal
5

3
RESIDUOS

-1

-3

-5
-5 -3 -1 1 3 5 7
Distribución Normal
 Examen de puntos atípicos.
Para detectar puntos atípicos pueden examinarse los residuales
estandarizados:
𝑒𝑖𝑗
𝑑𝑖𝑗 =
ξ 𝑀𝑆𝑆𝐸
Si 𝜀𝑖𝑗 ~𝑁(0,𝜎 2 ), entonces 𝑑𝑖𝑗 ~𝑁ሺ0,1ሻ. Cuando 𝑑𝑖𝑗 es > 3 desviaciones
estándar, entonces la observación correspondiente es un punto atípico
potencial.
1. Supuesto de independencia de las observaciones.

 Graficar los residuales en el orden temporal. (no debe haber tendencias).


.(Fig. 3-5).

Gráfico de Residuos para Resistencia

2
residuos

-2

-4

-6
0 5 10 15 20 25
número de fila
 Graficar los residuales contra los valores ajustados.(Fig. 3-6).

Gráfico de Residuos para Resistencia

2
residuos

-2

-4

-6
9 12 15 18 21 24
predichos
1. Supuesto de igualdad de la varianza.

La prueba para probar igualdad de varianza se formula así:

𝐻 : 𝜎2 = 𝜎2 = ⋯ = 𝜎2 .
൜ 0
𝐻1 : 𝑒𝑙 𝑒𝑛𝑢𝑛𝑐𝑖𝑎𝑑𝑜 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑛𝑜 𝑒𝑠 𝑐𝑖𝑒𝑟𝑡𝑜 𝑝𝑎𝑟𝑎 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎

 El procedimiento utilizado es la prueba de Bartlett.

El estadístico de prueba es.


𝑞
𝜒02 = 2.3026 , 𝑑𝑜𝑛𝑑𝑒
𝑐
𝑎

𝑞 = (𝑁 − 𝑎) log10 𝑆𝑝2 −෍ ሺ
𝑛𝑖 − 1ሻlog10 𝑆𝑖2 ,
𝑖 =1

1
c=1+ ሾσ ai=1ሺ
ni − 1ሻ−1 − (N − a)−1 ሿ
,
3(a−1)

σ𝑎 2
𝑖 =1(𝑛𝑖 − 1)𝑆𝑖
𝑆𝑝2 =
𝑁−𝑎
La hipótesis nula se rechaza cuando:

𝜒02 > 𝜒𝑎2,𝑎 −1


 Prueba de Levene modificada

Utiliza la desviaciones absolutas de las observaciones con respecto a las


medianas

𝑑𝑖 = ห𝑦𝑖𝑗 − 𝑦෥𝑖 ห,𝑖01,2…𝑎;𝑗 = 1,2,… 𝑛𝑖

El estadístico de Levene es el estadístico 𝐹 ANOVA usual para probar la igualdad


de las medias que se aplica a las desviaciones absolutas.
Ejemplo 3.4:

Ya que el supuesto de normalidad no está en entredicho, la prueba de Barlett


puede aplicarse a los datos de la resistencia a la tensión del experimento del peso
porcentual de algodón del ejemplo 3-1. Se calculan primero las varianzas
muestrales de cada tratamiento y se encuentra que 𝑆12 = 11.2, 𝑆22 = 9.8, 𝑆32 =
4.3, 𝑆42 = 6.8 𝑦 𝑆52 = 8.2. Entonces

4ሺ
11.2ሻ+ 4ሺ
9.8ሻ+ 4ሺ4.3ሻ+ 4ሺ
6.8ሻ+ 4(8.2)
𝑆𝑝2 = = 8.06
20
𝑞 = 20 log10 ሺ
8.06ሻ− 4ሾlog10 11.2 + log10 9.8 + log 10 4.3 + log 10 6.8 + log10 8.2ሿ
= 0.45

1 5 1
𝑐 =1+ ൬− ൰= 1.10
3(4) 4 20

Y el estadístico de prueba es


0.45ሻ
𝑥02 = 2.3026 = 0.93

1.10ሻ

2
Puesto que 𝑥0.05, 4 = 9.49, no puede rechazarse la hipótesis nula y se concluye
que las cinco varianzas son iguales. Se trata de la misma conclusión a la que llegó
al analizar la gráfica de los residuales contra los valores ajustados.
Ejemplo 3.5:

Un Ingeniero Civil está interesado en determinar si cuatro métodos diferentes para


estimar la frecuencia de las inundaciones producen estimaciones de la descarga
pico cuando se aplican a la misma cuenca. Cada procedimiento se usa seis veces
en la cuenca, y los datos de las descargas resultantes (en pies cúbicos por
segundo) se muestran en la parte superior de la tabla 7.

Tabla 7. Datos de la descarga pico

Método de
Observaciones ഥ𝒊 .
𝒚 ෥𝒊
𝒚 𝑺𝒊
estimación
1 0.34 0.12 1.23 0.70 1.75 0.12 0.71 0.520 0.66
2 0.91 2.94 2.14 2.36 2.86 4.55 2.63 2.61 1.09
3 6.31 8.37 9.75 6.09 9.82 7.24 7.93 7.81 1.66
4 17.15 11.82 10.95 17.20 14.35 16.82 14.72 15.59 2.77

Método de Desviaciones 𝒅𝒊𝒋 para la prueba de


estimación Levene modificada
1 0.18 0.40 0.71 0.18 1.23 0.40
2 1.70 0.33 0.47 0.25 0.25 1.94
3 1.495 0.565 1.975 1.715 2.015 0.565
4 1.56 3.77 4.64 1.61 1.24 1.23
El análisis de varianza de los datos, el cual se resume en la tabla 8.

Tabla 8. Análisis de Varianza de los datos de la descarga pico

Fuente de Suma de Grados de Cuadrado


𝑭𝟎 Valor p
variación cuadrados libertad medio
Métodos 708.3471 3 236.1157 76.07 <0.001
Error 62.0811 20 3.1041
Total 770.4282 23

Implica que hay una diferencia en las estimaciones de la descarga pico promedio
obtenidas en los cuatro procedimientos. La gráfica de los residuales contra los
valores ajustados, la cual se muestra en la figura 1 es preocupante porque la
forma de embudo con la boca hacia afuera indica que no se satisface el supuesto
de la varianza constante.
Figura 1. Gráfica de los residuales contra las medias de las observaciones
para el ejemplo 3-5.

Se aplicará la prueba de Levene modificada a los datos de la descarga pico. La


parte superior de la tabla 9 contiene las medianas de los tratamientos 𝒚෥𝒊 y la parte
inferior contiene las desviaciones 𝒅𝒊𝒋 alrededor de las medianas. La prueba de
Levene consiste en realizar un análisis de varianza estándar en las 𝒅𝒊𝒋 . El
estadístico de prueba 𝐹 que resulta en este caso es 𝐹0 = 4.55, para el cual el valor
𝑃 es 𝑃 = 0.0137. Por lo tanto, la prueba de Levene rechaza la hipótesis nula de
que las varianzas son iguales, coincidiendo en esencia con el diagnostico que se
hizo a partir del examen visual de la figura 1. Los datos de la descarga pico son un
buen candidato para una transformación de datos.
 Selección empírica de una transformación

Si se conociera la relación entre las observaciones y la media, podría usarse


esta información para la selección de la forma de la transformación.

El objetivo es encontrar una Transformación Estabilizadora de Varianza (TEV)


de las observaciones. Esto es:

Se supone que:

𝐸 ሺ𝑦ሻ = 𝜇 ; 𝜎𝑦 ∝ 𝜇𝛼

Si la TEV tiene la forma: 𝑦 ∗ = 𝑦 𝜆 , entonces si se hace 𝜆 = 1 − 𝛼, los datos


transformados por 𝑦 ∗ tienen varianza constante. En la tabla 9 varias TEV.

Tabla 9. TEV

Relación
𝛼 𝜆 =1−𝛼 TEV Comentario
𝜇 𝑦 𝜎𝑦
Sin
𝜎𝑦 ∝ 𝑐𝑜𝑛𝑠𝑡 0 1
transformar
𝜎𝑦 ∝ 𝜇0.5 0.5 0.5 Raíz Datos de poisson
𝜎𝑦 ∝ 𝜇1 1 0 Log
Raíz
𝜎𝑦 ∝ 𝜇1.5 1.5 -0.5
recíproca
𝜎𝑦 ∝ 𝜇2 2 -1 Recíproco
2.5 COMPARACIONES DE MEDIAS
Se supondrá que al hacer el ANOVA se rechaza la hipótesis nula, es decir hay
diferencias entre las medias de los tratamientos.

 Comparaciones gráficas de medias

Si las medias de los niveles del factor son idénticas, las medias muestrales
observadas 𝑦ത𝑖 . se comportarían como un conjunto de observaciones tomadas
𝜎
al azar de una distribución normal con media 𝑦 ത.. Y desviación estándar .
ξ𝑛
Visualice una distribución normal con la capacidad de ser deslizada sobre un
eje abajo del cual están graficadas 𝑦
ത ത
1. , 𝑦 ത
2. , … 𝑦𝑎 . . Si todas las medias de los son
iguales, deberá haber una posición de esta distribución que haga evidente que
los valores 𝑦
ത𝑖 . se sacaron de la misma distribución. La falla en esta lógica es
que 𝜎 es desconocida.

 Contrastes

DEFINICIÖN:

La combinación lineal de la forma:


𝑎

Γ = ෍ 𝑐𝑖 𝜇𝑖
𝑖 =1

Se llaman contraste.

La prueba de hipótesis sobre contraste se formula así.


𝑎
,,,,,,,,,,‫ۓ‬
ۖ 𝐻0 : ෍ 𝑐𝑖 𝜇𝑖 = 0
𝑖 =1
𝑃𝑟𝑜𝑏𝑎𝑟 𝑎
,,,‫۔‬
ۖ 𝐻1 : ෍ 𝑐𝑖 𝜇𝑖 ≠ 0
,,,,‫ە‬ 𝑖=1

Para juzgar esta prueba hay dos enfoques:


 Utilizando 𝑡 .

La hipótesis nula se rechaza si

ሺσ 𝑎𝑖=1 𝑐𝑖 𝑦𝑖. ሻ2
𝑡0 = ඨ > 𝑡𝛼 ൗ , (𝑁 − 𝑎)
𝑛𝑀𝑆𝑆𝐸 σ 𝑎𝑖=1 𝑐𝑖 2 2

 Utilizando F
 La hipótesis nula se rechaza si

ሺσ 𝑎𝑖=1 𝑐𝑖 𝑦𝑖. ሻ2
𝐹0 = > 𝐹𝛼 ൗ ,𝑁 − 𝑎
𝑛𝑀𝑆𝑆𝐸 σ 𝑎𝑖=1 𝑐𝑖 2 2

 Determinando los intervalos de confianza para un contraste

El intervalo de confianza del 100(1 − 𝛼)% para el contraste σ 𝑎𝑖=1 𝑐𝑖 𝜇𝑖 es:

𝑎 𝑎 𝑎 𝑎 𝑎
𝑀𝑆𝑆𝐸 2
𝑀𝑆𝑆𝐸
෍ 𝑐𝑖 𝑦ത
𝑖. − 𝑡 𝛼 ൗ , 𝑁 − 𝑎 ඩ ෍ 𝑐𝑖 ≤ ෍ 𝑐 𝜇
𝑖 𝑖 ≤ ෍ 𝑐 ത
𝑦
𝑖 𝑖. + 𝑡 𝛼 ൗ , 𝑁 − 𝑎 ඩ ෍ 𝑐𝑖2
2 𝑛 2 𝑛
𝑖=1 𝑖=1 𝑖 =1 𝑖=1 𝑖=1
Ejemplo 3.6:

Considere los datos del ejemplo 3-1. Hay cinco medias de los tratamientos y
cuatro grados de libertad entre estos tratamientos. Suponga que antes de correr el
experimento se especificó la siguiente serie de comparaciones entre las medias de
los tratamientos y sus (contrastes asociados):

Hipótesis Contraste
𝐻0 : 𝜇4 = 𝜇5 𝐶1 = −𝑦4 + 𝑦5
𝐻0 : 𝜇1 + 𝜇3 = 𝜇4 + 𝜇5 𝐶2 = 𝑦1 + 𝑦3 + 𝑦4 − 𝑦5
𝐻0 : 𝜇1 = 𝜇3 𝐶3 = −𝑦1 + 𝑦3
𝐻0 : 4𝜇2 = 𝜇1 + 𝜇3 + 𝜇4 + 𝜇5 𝐶4 = −𝑦1 + 4𝑦2 − 𝑦3 − 𝑦4 − 𝑦5
Observe que los coeficientes de los contrastes son ortogonales. Utilizando los
datos de la tabla N1, se encuentra que los valores numéricos de los contrastes y
de la suma de cuadrados son los siguientes:

𝐶1 = −1(108)+1(54)=-54 (−54)2
𝑆𝑆𝐶1 = = 291.60
5(2)
𝐶2 = 1(49)+1(88)-1(108)-1(54)=-25 (−25)2
𝑆𝑆𝐶2 = = 31.25
5(4)
𝐶3 = +1ሺ49ሻ− 1ሺ88ሻ = −39 (−39)2
𝑆𝑆𝐶3 = = 152.10
5(2)
𝐶4 = −1ሺ49ሻ+ 4ሺ77ሻ− 1ሺ88ሻ− 1ሺ108ሻ− 1ሺ54ሻ (9)2
=9 𝑆𝑆𝐶4 = = 0.81
5(20)
Tabla 9. Análisis de varianza de la resistencia a la tensión

Suma de
Fuente de variación G.L C.m F0 p
cuadrados
Peso porcentual del algodón 475.76 4 118.94 14.76 <0.001
𝐶1 = −𝑦4 + 𝑦5 291.60 1 291.60 36.18 >0.001
𝐶2 = 𝑦1 + 𝑦3 + 𝑦4 − 𝑦5 31.25 1 31.25 3.88 0.06
𝐶3 = −𝑦1 + 𝑦3 152.10 1 152.10 18.87 <0.001
𝐶4 = −𝑦1 + 4𝑦2 − 𝑦3 − 𝑦4
0.81 1 0.81 0.10 0.76
− 𝑦5
Error 161.20 20 8.06
Total 636.96 24

Por los valores p se concluye que hay diferencias significativas entre los niveles 4
y 5 ,1 y 3 del peso porcentual del algodón, pero que el promedio de los niveles 1 y
3 no difieren del promedio de los niveles 1 y 5 con el nivel de significancia 𝛼 = 0.05
y que el nivel 2 no difiere del promedio de los otros cuatros niveles.
Ejemplo 3.7:

Para ilustrar la prueba de Tukey, se usan los datos del experimento del peso
porcentual del algodón del ejemplo 3-1. Con 𝛼 = 0.05 y 𝑓 = 20 grados de libertad
para el error se obtiene que 𝑞0.05 ሺ5,20ሻ= 4.23 (estadístico del rango studentizado)

𝑀𝑆𝐸 8.06
Por tanto se tiene: 𝑇0.05 = 𝑞0.05 ሺ5,20ሻට = 4.23ට = 5.37
𝑛 5

Cualquier para de promedios del peso porcentual del algodón que difiera en valor
absoluto por más de 5.37 implicaría que el par correspondiente de las medias
poblacionales son significativamente diferentes.
Las diferencias en los promedios son:

𝑦ത1 − 𝑦ത2 = 9.8 − 15.4 = −5.6∗


𝑦ത1 − 𝑦ത3 = 9.8 − 17.6 = −7.8∗

𝑦ത1 − 𝑦ത 4 = 9.8 − 21.6 = −11.8
𝑦ത1 − 𝑦ത5 = 9.8 − 10.8 = −1.0∗
𝑦ത2 − 𝑦ത3 = 15.4 − 17.6 = −2.2

𝑦ത2 − 𝑦ത 4 = 15.4 − 21.6 = −6.2
𝑦ത2 − 𝑦ത5 = 15.4 − 10.8 = 4.6∗
𝑦ത3 − 𝑦ത 4 = 17.6 − 21.6 = −4.0
𝑦ത3 − 𝑦ത5 = 17.6 − 10.8 = 6.8∗
𝑦ത 4 −𝑦ത5 = 21.6 − 10.8 = 10.8∗

Los valores marcados con asteriscos indican pares de medias que son
significativamente diferentes.
Ejemplo 3.8:

Utilizando procedimiento LSD, si se usan los datos del experimento del ejemplo 3-
1, la LSD con 𝛼 = 0.05 es

2𝑀𝑆𝐸 2ሺ8.06ሻ
𝐿𝑆𝐷 = 𝑡0.025 ,20 ඨ = 2.086ඨ = 3.75
𝑛 5

Por tanto cualquier par de promedios de los tratamientos que difiera del valor
absoluto por más de 3.75 implicaría que el par correspondiente de medias
poblacionales es diferente.

Las diferencias de los promedios son:



𝑦ത ത
1 −𝑦 2 = 9.8 − 15.4 = −5.6

𝑦ത ത
1 −𝑦 3 = 9.8 − 17.6 = −7.8

𝑦ത 1 −𝑦ത4 = 9.8 − 21.6 = −11.8

𝑦ത ത
1 −𝑦 5 = 9.8 − 10.8 = −1.0
𝑦ത 2 −𝑦ത 3 = 15.4 − 17.6 = −2.2

𝑦ത 2 −𝑦ത4 = 15.4 − 21.6 = −6.2

𝑦ത2 −𝑦ത 5 = 15.4 − 10.8 = 4.6
𝑦ത ത
3 −𝑦 4 = 17.6 − 21.6 = −4.0

𝑦ത3 −𝑦ത 5 = 17.6 − 10.8 = 6.8

𝑦ത 4 −𝑦ത5 = 21.6 − 10.8 = 10.8

Los valores marcados con asteriscos indican pares de medias que son
significativamente diferentes.

Los únicos pares de medias que no difieren significativamente son 1 y 5 y 2 y 3 y


el tratamiento 4 produce una resistencia a la tensión significativamente mayor que
los otros tratamientos.
Ejemplo 3.9:

La prueba del rango múltiple de Duncan puede aplicarse al experimento del


ejemplo 3-1. Recuerde que 𝑀𝑆𝐸 = 8.06, 𝑁 = 25, 𝑛 = 5, y hay 20 grados de libertad
del error. Al arreglar los promedios de los tratamientos en orden ascendente, se
tiene

𝑦ത
1. = 9.8

𝑦ത
5. = 10.8

𝑦ത
2. = 15.4

𝑦ത
3. = 17.6

𝑦ത
4. = 21.6

El error estándar de cada promedio es 𝑆𝑦ത𝑖 = ඥ8.06Τ5 = 1.27. En el conjunto de


rangos significativos de la tabla del estadístico del rango studentizado para 20
grados de libertad y 𝛼 = 0.05, se obtiene 𝑟0.05 ሺ2,20ሻ = 2.95, 𝑟0.05 ሺ3,20ሻ = 3.10,
𝑟0.05 ሺ4,20ሻ = 3.18 𝑦 𝑟0.05 ሺ5,20ሻ = 3.25. Por lo tanto, los rangos de significación
mínima son
𝑅2 = 𝑟0.05 ሺ
2,20ሻ𝑆𝑦ത𝑖 = ሺ
2.95ሻሺ
1.27ሻ = 3.75

𝑅3 = 𝑟0.05 ሺ
3,20ሻ𝑆𝑦ത𝑖 = ሺ
3.10ሻሺ
1.27ሻ = 3.94

𝑅4 = 𝑟0.05 ሺ
4,20ሻ𝑆𝑦ത𝑖 = ሺ
3.18ሻሺ
1.27ሻ = 4.04

𝑅5 = 𝑟0.05 ሺ
5,20ሻ𝑆𝑦ത𝑖 = ሺ
3.25ሻሺ
1.27ሻ = 4.13

Los resultados de las comparaciones serían

4 𝑣𝑠. 1: 21.6 − 9.8 = 11.8 > 4.13(𝑅5 )

4 𝑣𝑠. 5: 21.6 − 10.8 = 10.8 > 4.04(𝑅4 )

4 𝑣𝑠. 2: 21.6 − 15.4 = 6.2 > 3.94(𝑅3 )

4 𝑣𝑠. 3: 21.6 − 17.6 = 4.0 > 3.75(𝑅2 )

3 𝑣𝑠. 1: 17.6 − 9.8 = 7.8 > 4.04(𝑅4 )

3 𝑣𝑠. 5: 17.6 − 10.8 = 6.8 > 3.94(𝑅3 )

3 𝑣𝑠. 2: 17.6 − 15.4 = 2.2 < 3.75(𝑅2 )

2 𝑣𝑠. 1: 15.4 − 9.8 = 5.6 > 3.94(𝑅3 )

2 𝑣𝑠. 5: 15.4 − 10.8 = 4.6 > 3.75(𝑅2 )

5 𝑣𝑠. 1: 10.8 − 9.8 = 1.0 < 3.75(𝑅2 )

Por el análisis se observa que hay diferencias significativas entre todos los pares
de medias con excepción de la 3 y la 2 y la 5 y la 1. Observe que en este ejemplo
la prueba de rango múltiple de Duncan y el método LSD llevan a conclusiones
idénticas.
Ejemplo 3.10:

Para ilustrar la prueba de Dunnett, considere el experimento del ejemplo 3-1,


asumiendo que el tratamiento 5 es el control. En este ejemplo, 𝑎 = 5, 𝑎 − 1 =
4, 𝑓 = 20 𝑦 𝑛𝑖 = 𝑛 = 5. Con el nivel de 5%, en la tabla IX del apéndice se
encuentra 𝑑0.05 ሺ4,20ሻ= 2.65. Por lo tanto, la diferencia crítica es

2𝑀𝑆𝐸 2ሺ8.06ሻ
𝑑0.05 ሺ4,20ሻඨ = 2.65ඨ = 4.76
𝑛 5

Por lo tanto, cualquier media de los tratamientos que difiera del control por màs de
4.76 se declararía significativamente diferente. Las diferencias observadas son
1 𝑣𝑠. 5: 𝑦ത ത5 . = 9.8 − 10.8 = −1.0
1 . −𝑦
2 𝑣𝑠. 5: 𝑦ത2 . −𝑦ത5 . = 15.4 − 10.8 = 4.6
3 𝑣𝑠. 5: 𝑦ത3 . −𝑦ത5 . = 17.6 − 10.8 = 6.8
4 𝑣𝑠. 5: 𝑦ത ത5 . = 21.6 − 10.8 = 10.8
4 . −𝑦

Solo las diferencias 𝑦ത3 . −𝑦ത5 . y 𝑦ത ത5 . indican alguna diferencia significativa


4 . −𝑦
cuando se comparan con el control; por lo tanto, se concluye que 𝜇3 ≠ 𝜇5 y
𝜇4 ≠ 𝜇5 .

Cuando se hace la comparación de los tratamientos con un control, una buena


idea es usar más observaciones para el tratamiento de control (por ejemplo, 𝑛𝑎 )
que para los demás tratamientos, suponiendo un número igual de observaciones
para los 𝑎 − 1 tratamientos restantes. El cociente 𝑛𝑎 Τ𝑛 deberà elegirse de tal
modo que sea aproximadamente igual a la raíz cuadrada del número total de
tratamientos. Es decir, se elige 𝑛𝑎 Τ𝑛 = ξ 𝑎.
2.6 DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA

Ejemplo 3.11:

Considere el experimento de la resistencia a la tensión descrito en el ejemplo 3-1.


Supongamos que el experimentador está interesado en rechazar la hipótesis nula
con una probabilidad de al menos 0.90, si la media de los cinco tratamientos es

𝜇1 = 11 𝜇2 = 12 𝜇3 = 15 𝜇4 = 18 𝜇5 = 19
1 75
Planea utilizar 𝛼 = 0.01 en este caso, puesto que 𝜇ҧ= 5 σ 5𝑖=1 𝜇𝑖 = 5
= 15 y

𝜏1 = 𝜇1 − 𝜇ҧ= 11 − 15 = −4
𝜏2 = 𝜇2 − 𝜇ҧ= 12 − 15 = −3
𝜏3 = 𝜇3 − 𝜇ҧ= 15 − 15 = 0
𝜏4 = 𝜇4 − 𝜇ҧ= 18 − 15 = 3
𝜏5 = 𝜇5 − 𝜇ҧ= 19 − 15 = 4

Por lo tanto σ 5𝑖=1 𝜏𝑖2 = 50. Suponga que el investigador piensa que la desviación
estándar de la resistencia a la tensión con cualquier nivel particular del peso
porcentual del algodón no será mayor que 𝜎 = 3 𝑝𝑠𝑖. Entonces se tiene que:
σ 5 2
2 𝑖=1 𝜏𝑖 𝑛(50)
𝜙 = 2 = 2 = 1.11𝑛
𝑎𝜎 5(3)

Se usa la curva de operación característica para 𝑎 − 1 = 5 − 1 = 4 con 𝑁 − 𝑎 =


𝑎ሺ𝑛 − 1ሻ= 5ሺ𝑛 − 1ሻgrados de libertad del error y 𝛼 = 0.01 como primera conjetura
para el tamaño de la muestra requerido, se prueba con 𝑛 = 4 réplicas. Esto
produce 𝜙2 = 1.11ሺ4ሻ= 4.44,𝜙 = 2.11 y (5) (3) grados de libertad del error. Por
consiguiente en encuentra que 𝛽~0.30. por lo tanto la potencia de la prueba es
aproximadamente 1 − 𝛽 = 0.70, que es menor que el 0.90 requerido, por lo que se
concluye que 𝑛 = 4 no son suficientes procediendo de manera similar se
construye la siguiente tabla:
Tabla 10.

𝒏 𝝓𝟐 𝝓 𝒂ሺ𝒏 − 𝟏ሻ 𝜷 Potencia (𝟏 − 𝜷
4 4.44 2.11 15 0.30 0.70
5 5.55 2.36 20 0.15 0.85
6 6.66 2.58 25 0.04 0.96

Por tanto, deben realizarse al menos 𝑛 = 6 replicas para obtener una prueba con
la potencia requerida.
2.7 MÉTODOS NO PARAMÉTRICOS EN EL ANÁLISIS DE
VARIANZA

Ejemplo 3.12:

En la tabla 11 se muestran los datos del ejemplo 3-1 y sus rangos


correspondiente.
𝑎 𝑛
1 2 𝑁(𝑁 + 1)2
2
𝑆 = ቎෍ ෍ ൫
𝑅𝑖𝑗 ൯ − ቏
𝑁−1 4
𝑖=1 𝑗 =1

1 25ሺ26ሻ2
= ቈ
5497.79 − ቉
24 4

= 53.03
Tabla 11. Datos y rangos para el experimento de la resistencia a la tensión
del ejemplo 3-1

Peso porcentual del algodón


15 20 25 30 35
𝑦1𝑗 𝑅1𝑗 𝑦2𝑗 𝑅2𝑗 𝑦3𝑗 𝑅3𝑗 𝑦4𝑗 𝑅4𝑗 𝑦5𝑗 𝑅5𝑗
7 2.0 12 9.5 14 11.0 19 20.5 7 2.0
7 2.0 17 14.0 18 16.5 25 25.0 10 5.0
15 12.5 12 9.5 18 16.5 22 23.0 11 7.0
11 7.0 18 16.5 19 20.5 19 20.5 15 12.5
9 4.0 18 16.5 19 20.5 23 24.0 11 7.0
𝑅𝑖 27.5 66.0 85.0 113.0 33.5

Y el estadístico de prueba es
𝑎
1 𝑅𝑖2 𝑁(𝑁 + 1)2
𝐻 = 2 ൥෍ − ൩
𝑆 𝑛𝑖 4
𝐼=1

1 25(26)2
= ቈ
5245.0 − ቉
53.03 4

= 19.25
2
Puesto que 𝐻 > 𝑥0.01 ,4 , 4 = 13.28, se rechazaría la hipótesis nula y se concluiría
que los tratamientos difieren.
GRACIAS

También podría gustarte