Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Experimentos Con Un Solo Factor - Analisis de Varianza-2021
Experimentos Con Un Solo Factor - Analisis de Varianza-2021
VARIANZA
(EXP. UNA VIA -ANOVA)
Clase 1
Definición
El término "Experimento" se refiere a la creación y preparación de lotes de
prueba que verifiquen la validez de las hipótesis establecidas sobre las
causas de un determinado problema o defecto, objeto de estudio.
Concepto
En un Experimento, el experimentador escoge ciertos factores para su
estudio, los altera deliberadamente de forma controlada y después,
observa el efecto resultante.
El Experimento puede realizarse bien en laboratorio o bien en el exterior:
En la fábrica, en unos almacenes, en los locales del usuario, etc.
1.2.- DISEÑO DE EXPERIMENTOS
Definición
Metodología estadística destinada a la planificación y análisis de un Experimento.
Concepto
El Diseño de un Experimento debe garantizar que este cumpla ciertos requisitos
mínimos:
- Debe poder comprobar las hipótesis objeto de estudio, no dejándose confundir por
variables insospechadas (=ruido), como errores de medida desproporcionados, etc.
- Debe poder revelar la existencia de cualquier causa importante de variación, aunque
no haya sido adelantada como hipótesis.
- Debe mantener los costes de experimentación a un nivel razonable, en comparación
con el problema objeto de estudio.
- Debe tener un alto grado de seguridad en las respuestas.
- Si el Experimento se realiza en un laboratorio, éste ha de ser, respecto a las variables
estudiadas, un buen indicador de las pruebas que se obtendrían en el taller o "in situ".
- Si el Experimento se realiza durante el desarrollo normal del proceso en estudio, se
tendrá además cuidado de interferir lo menos posible en el trabajo normal y
protegerse de las interferencias no autorizadas o involuntarias en la prueba por parte
del personal adepto.
1.3.- VARIABLE
Definición
Característica de un objeto que puede ser observada y que puede tomar diferentes
valores, tanto en el mismo objeto como entre diferentes objetos.
Concepto
En base a la posibilidad de medida se distinguen dos tipos fundamentales de
variables:
Variables cualitativas:
Son aquellas cuyos valores, de carácter nominal, sólo pueden ser comparados como
diferentes entre sí.
Ejemplos: La variable "color" puede tomar los valores rojo, azul, amarillo, etc.
La variable "empleado" puede tomar los valores Juan, José, Cristina, etc.
Variables continúas:
Son aquellas cuyos valores, de carácter numérico, permiten realizar un mayor
número de comparaciones. Una variable continua permite teóricamente, un infinito
número de valores entre dos valores consecutivos. (En la realidad la precisión de los
instrumentos de medida pone un límite operativo).
Ejemplos: La variable "peso de la tableta de chocolate" puede tomar cualquier valor
entre 95 y 110 gr. La variable "consumo de gasolina por 100 Km" puede tomar
cualquier valor entre 9 y 15 litros etc.
1.4 SUJETO O UNIDAD EXPERIMENTAL
Definición
El sujeto o unidad experimental es la unidad básica sobre la que se efectúa el
proceso de medida.
Ejemplo: El contenido de azúcar en el zumo de naranja producido se medirá
recogiendo cada hora una unidad experimental de 1 litro de zumo.
1.5 OBSERVACIÓN
Definición
Una observación es una toma de medida de una variable y consta entonces de un
valor de la misma. Dependiendo del tipo de Diseño, las observaciones pueden
tomarse a diferentes sujetos o al mismo sujeto de manera secuencial.
1.6.- DIFERENTES TIPOS DE VARIABLES EN EL DISEÑO DE UN
EXPERIMENTO
Variable independiente.
Variables extrañas.
Son todas aquellas que el investigador no puede manipular, pero influyen en la
variable dependiente. Son la causa de que las observaciones en un mismo nivel de
tratamiento no necesariamente arrojen el mismo valor de medida.
El conjunto de variables extrañas se denomina generalmente en el Diseño y Análisis
de Experimentos "ruido" o "error experimental".
Variable de bloqueo.
Es una variable que sabemos puede intervenir en los niveles de la variable
dependiente y decidimos eliminar su influencia mediante el control de la misma,
creando bloques de observaciones, en los que esta variable, asume
respectivamente un valor constante. A cada bloque se asignarán todos los niveles
de tratamiento.
Con la creación de bloques se persiguen dos objetivos:
- Aislar el efecto de los tratamientos, eliminando la influencia de la variable de
bloqueo.
- Estimar los efectos de los bloques.
1.7.- REPETICIÓN
Definición
Reiteración de una observación o medida al mismo nivel de tratamiento.
Proporciona una oportunidad para que los efectos de las variables extrañas,
incontroladas se compensen y permite, además, medir el error experimental.
1.8.- ALEATORIZACIÓN
Definición
Técnica utilizada para reducir la influencia no predeterminable de variables
extrañas sobre los resultados del Experimento.
Concepto
La aleatorización consiste en asignar los sujetos a los distintos niveles de
tratamiento al azar, con la esperanza de que los efectos extraños se contrarresten
entre los distintos sujetos y observaciones que componen cada nivel de
tratamiento (condición experimental).
La aleatorización es fundamental en el Diseño de Experimentos ya que:
a) Previene la existencia de sesgo.
b) Evita la dependencia entre observaciones.
c) Confirma la adecuación de los procedimientos estadísticos para el análisis de
los resultados del Experimento.
2.- REALIZACIÓN
2.1.- Realización del Diseño propiamente dicho
Ejemplo:
Se desea hacer un estudio de transporte de mercancías.
La idea que se tiene en la cabeza es que el tamaño de los paquetes afecta al
tiempo necesario para la carga del volumen disponible en un remolque.
La variables independiente estará relacionada entonces con el tamaño de los
paquetes a transportar.
Se distinguirán dos tipos de paquetes, los que exceden el tamaño de 60x60x60 cm,
a los que llamarán grandes, y los menores de estas dimensiones, a los que se
llamarán pequeños.
Paso 5: Definir los sujetos sobre los que se va a realizar la medida
Paso 6: Determinar la variable dependiente
Sólo puede existir una única variable dependiente. Esta deberá tener,
necesariamente, un nivel de medida continuo, o lo más próximo a ese extremo
que sea posible.
Cuantas más posibilidades de apreciar diferencias entre distintas observaciones
ofrezca la variable dependiente, más se favorecerá la sensibilidad de la misma a
los distintos tratamientos.
Ejemplo:
Tr 1 6 11 9 1
Tratamientos
Tr 2 2 8 5 10
Tr 3 7 4 3 12
Paso 8: Identificar posibles factores de "ruido" y/o variables de bloqueo
Analizar la futura situación experimental e identificar los factores que puedan,
además de la variable independiente, influir sobre los valores de la variable
dependiente. Según su relevancia y las posibilidades técnicas, la decisión a adoptar
respecto a los factores de ruido y/o variables de bloqueo, será la siguiente:
- O bien tenerlos bajo control (constantes), a lo largo de todas las observaciones.
- O bien integrarlos en el Diseño, como variable de bloqueo.
- O bien transformarlos en una variable independiente. Esto será necesario, aunque
se complique notablemente el Diseño de Experimento desde el punto de vista
estadístico, cuando su influencia sobre la variable dependiente resulte ser
relevante.
- O bien se espera que la aleatorización sea suficiente para que sus efectos se
contrarresten en las repeticiones de cada tratamiento. Esta posibilidad será
aceptable sólo si la variable en cuestión está fuera de nuestro control y se considera
que su influencia es bastante limitada. Su efecto se englobará dentro del "error
experimental", o "ruido".
Ejemplo:
Un posible factor de “ruido” influye en el tiempo necesario para la carga de los
paquetes, mezclándose al efecto del tamaño de los paquetes, puede ser el
cansancio del personal de carga.
Se intenta entonces mantener esta variable lo más constante posible a lo largo del
experimento, realizando siempre solo una observación (= carga de una cajonera)
por día, y siempre a primera hora.
Paso 9: Asegurarse de la aptitud del Diseño del Experimento para contestar
la pregunta inicial
Comprobar que el tipo de resultados que obtendremos del Experimento tal y como
lo hemos planificado, nos proporcionará efectivamente la información que
necesitamos.
El resultado de este paso será el Diseño, propiamente dicho, del Experimento.
Sean
Tratamientos
Observaciones Totales Promedios
(niveles)
1 𝑦11 … 𝑦1𝑛 𝑦1. 𝑦ത1.
2 𝑦21 … 𝑦2𝑛 𝑦2. 𝑦ത2.
. . … . . .
. . … . . .
. . … . . .
a 𝑦𝑎1 … 𝑦𝑎𝑛 𝑦𝑎. 𝑦ത𝑎.
𝑦.. 𝑦ത..
Los valores anteriores se presentan de manera recurrente así:
Modelos Estadísticos lineales:
Modelo de las medias
𝑦𝒊𝒋 = 𝜇𝒊 + 𝜀𝒊𝒋 , 𝑖 = 1, … , 𝑎 ; 𝑗 = 1, … , 𝑛
Se considera
𝐸൫𝑦𝒊𝒋൯= 𝜇𝒊. ;ó 𝐸൫𝜀𝒊𝒋൯= 0
Modelo de los efectos
𝑦𝒊𝒋 = 𝜇 +𝜏𝒊 + 𝜀𝒊𝒋, 𝑖 = 1,…,𝑎 ; 𝑗 = 1,…,𝑛
Requisito: que el experimento se lleve a cabo en orden aleatorio para que el
ambiente en el que se apliquen los tratamientos sea lo más uniforme posible.
Objetivos: Probar las hipótesis apropiadas acerca de las medias de los
tratamientos y estimarlas.
Supuestos:
𝜀𝒊𝒋 ~𝑵ሺ0, σ2 ሻ, es decir𝑦𝒊𝒋 ~𝑵ሺμ + τi , σ2 ሻ
yij son independientes.
Tipos de modelos de efectos:
Fijos: El experimentador escoge los niveles en los que va a realizar los
experimentos.
Aleatorios: Los tratamientos son una muestra de una población más grande de
tratamientos.
ANALISIS DEL MODELO CON EFECTOS FIJOS
En la tabla N°1
𝑛
𝑦𝑖 .
𝑦𝑖 .= 𝑦𝑖𝑗 𝑦ത𝑖 . =
𝑛
𝑗=1
𝑎 𝑛
𝑦. .
𝑦. .= 𝑦𝑖𝑗 𝑦ത.. =
𝑁
𝑖=1 𝑗=1
𝑁 = 𝑎 ∙ 𝑛 𝑇𝑜𝑡𝑎𝑙 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠
El objetivo operativo que se persigue al aplicar la técnica del ANOVA es
conjeturar sobre las hipótesis estadísticas abajo planteadas, es decir:
𝐻0 :𝜇1 = 𝜇2 … = 𝜇𝑎
Probar
𝐻1 :𝜇𝑖 ≠ 𝜇𝑗 ∃ 𝑖,𝑗
σ 𝑎𝑖=1 𝜇𝑖
=𝜇
𝑎
Esto implica que
𝑎
𝜏𝑖 =0
𝑖=1
Se quiere:
𝐻0 :𝜏1 = 𝜏2 … = 𝜏𝑎 = 0
Probar
𝐻1 : ∃ 𝑖 𝜏𝑖 ≠ 0
Por ello, se habla de probar la igualdad de las medias o probar que los efectos
de los tratamientos son cero.
Una consideración importante para establecer un criterio sobre el cual juzgar la
veracidad o no de las hipótesis formuladas en la prueba se demuestra a
continuación:
Teorema 1.
𝑎 𝑛 𝑎 𝑛
2 2
൫𝑦𝑖𝑗 − 𝑦ത. . ൯ = 𝑛 ሺ𝑦ത𝑖 − 𝑦ത. . ሻ2 + ൫𝑦𝑖𝑗 − 𝑦ത𝑖 . ൯
𝑖=1 𝑗=1 𝑖=1 𝑗 =1
Ya que
𝑛 𝑛 𝑛 𝑛
൫ 𝑖 . ൯= 𝑦𝑖𝑗 − 𝑛𝑦
𝑦𝑖𝑗 − 𝑦ത ത𝑖 . = 𝑦𝑖𝑗 − 𝑦𝑖𝑗 = 0
𝑗 =1 𝑗 =1 𝑗 =1 𝑗 =1
Es frecuente encontrar en la literatura la denominación siguiente para las
expresiones utilizadas:
𝑎 2
σ 𝑖=1 ൫ 𝑖൯
𝑦𝑖𝑗 − 𝑦ത
𝑆𝑖2 = , 𝑖 = 1, … , 𝑎
𝑛−1
La suma de las varianzas de los tratamientos ponderadas puede ser expresada no
solo mediante 𝑆𝑆𝐸 , sino también mediante 𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 , esto se evidencia de la
siguiente manera:
2
ሺ𝑛 − 1ሻ𝑆12
+ ሺ𝑛 −1ሻ𝑆22+ ⋯ + ሺ𝑛 − 1ሻ𝑆𝑎2 σ 𝑎𝑖=1 ቂσ 𝑛𝑗=1൫𝑦𝑖𝑗 − 𝑦ത
𝑖 ൯ቃ 𝑆𝑆𝐸
= =
ሺ𝑛 − 1ሻ+ ሺ𝑛 − 1ሻ+ ⋯ + ሺ𝑛 − 1ሻ σ 𝑎𝑖=1(𝑛 − 1) (𝑁 − 𝑎)
𝑆𝑆𝐸
Es decir,(𝑁−𝑎) es un estimador de la varianza común de cada uno de los 𝑎
tratamientos.
Ahora,
𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 𝑛 σ 𝑛𝑗=1ሺ𝑦ത ത. . ሻ2
𝑖 . −𝑦
=
𝑎−1 𝑎−1
Es una estimación de 𝜎 2 si las medias de los tratamientos son iguales.
A las expresiones obtenidas se les denomina Cuadrados Medios, así:
𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠
𝑀𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒 𝑛𝑡𝑜𝑠 =
𝑎−1
𝑆𝑆𝐸
𝑀𝑆𝑆𝐸 =
𝑁−𝑎
Los cuadrados medios son variables aleatorias con las siguientes propiedades:
Teorema 2.
𝐸ሺ𝑀𝑆𝑆𝐸ሻ= 𝜎2
σ 𝑎 2
𝑛 𝑖=1 𝜏𝑖
ሺ ሻ 2
𝐸 𝑀𝑆𝑆𝑇𝑟𝑎𝑡 = 𝜎 +
𝑎−1
Demostración
𝑎 𝑛
𝑆𝑆𝐸 1 2
𝐸 ሺ𝑀𝑆𝑆𝐸 ሻ = 𝐸 ൨= 𝐸 ൫ ത
𝑦𝑖𝑗 − 𝑦𝑖 . ൯
𝑁−𝑎 𝑁−𝑎
𝑖=1 𝑗 =1
𝑎 𝑛
1
= 𝐸 ൫
𝑦𝑖𝑗 2 − 2𝑦𝑖𝑗 𝑦
ത ത
𝑖 . +𝑦𝑖. ൯
2
𝑁−𝑎
𝑖=1 𝑗 =1
𝑎 𝑛 𝑎 𝑛 𝑎
1
= 𝐸 𝑦𝑖𝑗 2 − 2𝑛 𝑦
ത 2
ത
𝑖. + 𝑛 𝑦
2
𝑖.
𝑁−𝑎
𝑖=1 𝑗 =1 𝑖 =1 𝑗 =1 𝑖=1
𝑎 𝑛 𝑎
1 1
= 𝐸 𝑦𝑖𝑗 2 − 𝑦
ത 2
𝑖.
𝑁−𝑎 𝑛
𝑖=1 𝑗 =1 𝑖=1
2
𝑎 𝑛 𝑎 𝑛
1 2 1
= 𝐸 ൦ ൫
𝜇 + 𝜏𝑖 + 𝜀𝑖𝑗 ൯ − ቌ 𝜇 + 𝜏𝑖 + 𝜀𝑖𝑗 ቍ ൪
𝑁−𝑎 𝑛
𝑖=1 𝑗 =1 𝑖=1 𝑗 =1
𝑎 𝑛
1
= ሺ𝜇 + 𝜏𝑖 ሻ2 + 2ሺ𝜇 + 𝜏𝑖 ሻ𝜀𝑖𝑗 + 𝜀𝑖𝑗2 ൧
𝐸 ൣ
𝑁−𝑎
𝑖=1 𝑗 =1
𝑎
1 2
− ቀ𝑛𝜇 + 𝑛𝜏𝑖 + ൫
𝜀𝑖𝑗 + ⋯ + 𝜀𝑖𝑗 ൯
ቁ൩
𝑛
𝑖 =1
𝑎 𝑛
1
= 𝐸 ൣ𝜇2 + 2𝜇𝜏𝑖 + 𝜏𝑖2 + 2𝜇𝜀𝑖𝑗 + 2𝜏𝑖 𝜀𝑖𝑗 + 𝜀𝑖𝑗2 ൧
𝑁−𝑎
𝑖=1 𝑗 =1
𝑎
1
𝑛 2 𝜇2 + 2𝑛𝜇 ሺ𝜏𝑖 … ሻ+ ሺ𝑛𝜏𝑖 ሻ2 + ⋯ + 𝑛𝜀𝑖𝑗2 ൧൩
− ൣ
𝑛
𝑖=1
𝑎 𝑎 𝑎 𝑛 𝑎 𝑛
1
= 𝐸 𝑁𝜇2 + 2𝑛𝜇 𝜏𝑖 + 𝑛 𝜏𝑖2 + 2𝜇 𝜀𝑖𝑗 + 2 𝜀𝑖𝑗 𝜏𝑖
𝑁−𝑎
𝑖=1 𝑖=1 𝑖=1 𝑗 =1 𝑖=1 𝑗 =1
𝑎 𝑛 𝑎
Suponga que tiene lugar el esquema de efectos lineales descrito con anterioridad,
es decir,
𝒚𝒊𝒋 ~ 𝑵ሺ
0, σ2 ሻ
𝑛
1
𝐸𝑛𝑡𝑜𝑛𝑐𝑒𝑠, 2
𝑛 ሺ
𝑦ത ത
𝑖 . −𝑦 . . ሻ2 ~ 𝜒𝑛2−1
𝜎
𝑗 =1
𝑎 𝑛
1 2
൫ ത
𝑦𝑖𝑗 − 𝑦𝑖. ൯ ~ 𝜒𝑎2(𝑛 −1)
𝜎2
𝑖=1 𝑗 =1
OJO. También:
𝑎 𝑛
𝑦2..
2
𝑆𝑆𝑇 = 𝑦𝑖𝑗 −
𝑁
𝑖=1 𝑗=1
𝑛
1 2 𝑦 2..
𝑆𝑆𝑇𝑟𝑎𝑡 = 𝑦𝑖 .−
𝑛 𝑁
𝑗=1
Ejemplo 3.1:
15 1 2 3 4 5
20 6 7 8 9 10
25 11 12 13 14 15
30 16 17 18 19 20
35 21 22 23 24 25
𝐻0 : 𝜇1 = 𝜇2 = 𝜇3 = 𝜇4 = 𝜇5
Probar:൞
𝐻1 : 𝑝𝑜𝑟 𝑙𝑜 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑑𝑒 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑒𝑠 𝑑𝑖𝑓𝑒𝑟𝑒𝑛𝑡𝑒
Para resolver el interrogante anterior, primero se calculan las sumas de cuadrados
como sigue:
5 5 𝑦..2
𝑆𝑆𝑇 = 𝑦𝑖𝑗2 −
𝑖=1 𝑗 =1 𝑁
2
(376)
= ሺ7ሻ2 + ሺ7ሻ2 + ሺ15ሻ2 + ⋯ + ሺ15ሻ2 + ሺ11ሻ2 − = 636.96
25
1 2
𝑦..2
𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠 = 𝑦𝑖 −
𝑛 𝑁
𝑖=1
2
1 ሺ376ሻ
= [ሺ49ሻ2 + ⋯ + ሺ54ሻ2 ] − = 475.76
5 25
𝑆𝑆𝐸 = 𝑆𝑆𝑇 − 𝑆𝑆𝑇𝑟𝑎𝑡𝑎𝑚𝑖𝑒𝑛𝑡𝑜𝑠
Peso
porcentual del 475.76 4 118.94. 14.76 <0.01
algodón
Error 161.20 20 8.06
Total 636.96 24
Observé que el cuadrado medio entre los tratamientos (118.94) es varias veces
mayor que el cuadrado medio del error (8.06). Esto indica que no es posible que
las medias de los tratamientos sean iguales. En términos formales se puede
118 .94
calcular el cociente entre 𝐹, 𝐹0 = 8.06
= 14.76 y comparar este valor con un punto
porcentual apropiado de la cola superior de la distribución 𝐹4,20 . Suponga que el
investigador ha seleccionado 𝛼 = 0.05 por tanto 𝐹0.05,4,20 = 2.87. Puesto que
𝐹0 = 14.76 > 2.87 se rechaza 𝐻0 y se concluye que por lo menos una de las
medias es diferente, es decir que el peso porcentual del algodón en la fibra afecta
de manera significativa la resistencia a la tensión media.
Ejemplo 3.2:
Codificación de Observaciones
Los cálculos del análisis de Varianza pueden hacerse con frecuencia de manera
más precisa o simplificada codificando las observaciones. Por ejemplo, considere
los datos de la resistencia a la tensión del ejemplo 3-1.
Observaciones
Peso
porcentual
del 1 2 3 4 5 Totales ()
algodón
15 -8 -8 0 -4 -6 -26
20 -3 2 -3 3 3 2
25 -1 3 3 4 4 13
30 4 10 7 4 8 33
35 -8 -5 -4 0 -4 -21
𝑺𝑺𝑬 = 𝟏𝟔𝟏. 𝟐𝟎
𝑀𝑆𝐸 𝑀𝑆𝐸
𝑖. − 𝑡𝛼 Τ2 ,𝑁−𝑎 ඨ
𝑦ത ≤ 𝜇𝑖 ≤ 𝑦ത
𝑖 . + 𝑡𝛼 Τ2 ,𝑁−𝑎 ඨ
𝑛 𝑛
2𝑀𝑆𝐸 2𝑀𝑆𝐸
𝑦ത ത
𝑖. − 𝑦𝑗 . − 𝑡𝛼 Τ2 ,𝑁−𝑎 ඨ ≤ 𝜇𝑖 − 𝜇𝑗 ≤ 𝑦ത
𝑖. − ത
𝑦𝑗. + 𝑡𝛼 Τ2 ,𝑁−𝑎 ඨ
𝑛 𝑛
Ejemplo 3.3:
Utilizando los datos del ejemplo 3-1 pueden encontrarse las estimaciones de la
media global y de los efectos de los tratamientos como 𝜇Ƹ= 376Τ25 = 15.04 𝑦
𝜏Ƹ ത
1 = 𝑦 ത
1. −𝑦 . . = 9.80 − 15.04 = −5.24
𝜏Ƹ ത
2 = 𝑦 ത
2. −𝑦 . . = 15.40 − 15.04 = +0.36
𝜏Ƹ ത
3 = 𝑦 ത
3. −𝑦 . . = 17.60 − 15.04 = −2.56
𝜏Ƹ ത
4 = 𝑦 ത
4. −𝑦 . . = 21.60 − 15.04 = +6.56
𝜏Ƹ ത
5 = 𝑦 ത
5. −𝑦 . . = 10.80 − 15.04 = −4.24
8.06 8.06
21.60 − 2.086ඨ ≤ 𝜇4 ≤ 21.60 + 2.086ඨ
5 5
1. Examen de residuales.
𝑖𝑗 = 𝑦𝑖𝑗 − ሺ
𝑒𝑖𝑗 = 𝑦𝑖𝑗 − 𝑦ෞ 𝑖 ሻ = 𝑦𝑖𝑗 − 𝑦
𝜇 + 𝜏ෝ ഥ+
.. ሺ𝑦ഥ𝑖. − 𝑦ഥ.. ሻ = 𝑦𝑖𝑗 − 𝑦ഥ.
𝑖.
Gráfica Cuantil-Cuantil
7 Distribución
Normal
5
3
RESIDUOS
-1
-3
-5
-5 -3 -1 1 3 5 7
Distribución Normal
Examen de puntos atípicos.
Para detectar puntos atípicos pueden examinarse los residuales
estandarizados:
𝑒𝑖𝑗
𝑑𝑖𝑗 =
ξ 𝑀𝑆𝑆𝐸
Si 𝜀𝑖𝑗 ~𝑁(0,𝜎 2 ), entonces 𝑑𝑖𝑗 ~𝑁ሺ0,1ሻ. Cuando 𝑑𝑖𝑗 es > 3 desviaciones
estándar, entonces la observación correspondiente es un punto atípico
potencial.
1. Supuesto de independencia de las observaciones.
2
residuos
-2
-4
-6
0 5 10 15 20 25
número de fila
Graficar los residuales contra los valores ajustados.(Fig. 3-6).
2
residuos
-2
-4
-6
9 12 15 18 21 24
predichos
1. Supuesto de igualdad de la varianza.
𝐻 : 𝜎2 = 𝜎2 = ⋯ = 𝜎2 .
൜ 0
𝐻1 : 𝑒𝑙 𝑒𝑛𝑢𝑛𝑐𝑖𝑎𝑑𝑜 𝑎𝑛𝑡𝑒𝑟𝑖𝑜𝑟 𝑛𝑜 𝑒𝑠 𝑐𝑖𝑒𝑟𝑡𝑜 𝑝𝑎𝑟𝑎 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛𝑎 𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎
𝑞 = (𝑁 − 𝑎) log10 𝑆𝑝2 − ሺ
𝑛𝑖 − 1ሻlog10 𝑆𝑖2 ,
𝑖 =1
1
c=1+ ሾσ ai=1ሺ
ni − 1ሻ−1 − (N − a)−1 ሿ
,
3(a−1)
σ𝑎 2
𝑖 =1(𝑛𝑖 − 1)𝑆𝑖
𝑆𝑝2 =
𝑁−𝑎
La hipótesis nula se rechaza cuando:
4ሺ
11.2ሻ+ 4ሺ
9.8ሻ+ 4ሺ4.3ሻ+ 4ሺ
6.8ሻ+ 4(8.2)
𝑆𝑝2 = = 8.06
20
𝑞 = 20 log10 ሺ
8.06ሻ− 4ሾlog10 11.2 + log10 9.8 + log 10 4.3 + log 10 6.8 + log10 8.2ሿ
= 0.45
1 5 1
𝑐 =1+ ൬− ൰= 1.10
3(4) 4 20
Y el estadístico de prueba es
ሺ
0.45ሻ
𝑥02 = 2.3026 = 0.93
ሺ
1.10ሻ
2
Puesto que 𝑥0.05, 4 = 9.49, no puede rechazarse la hipótesis nula y se concluye
que las cinco varianzas son iguales. Se trata de la misma conclusión a la que llegó
al analizar la gráfica de los residuales contra los valores ajustados.
Ejemplo 3.5:
Método de
Observaciones ഥ𝒊 .
𝒚 𝒊
𝒚 𝑺𝒊
estimación
1 0.34 0.12 1.23 0.70 1.75 0.12 0.71 0.520 0.66
2 0.91 2.94 2.14 2.36 2.86 4.55 2.63 2.61 1.09
3 6.31 8.37 9.75 6.09 9.82 7.24 7.93 7.81 1.66
4 17.15 11.82 10.95 17.20 14.35 16.82 14.72 15.59 2.77
Implica que hay una diferencia en las estimaciones de la descarga pico promedio
obtenidas en los cuatro procedimientos. La gráfica de los residuales contra los
valores ajustados, la cual se muestra en la figura 1 es preocupante porque la
forma de embudo con la boca hacia afuera indica que no se satisface el supuesto
de la varianza constante.
Figura 1. Gráfica de los residuales contra las medias de las observaciones
para el ejemplo 3-5.
Se supone que:
𝐸 ሺ𝑦ሻ = 𝜇 ; 𝜎𝑦 ∝ 𝜇𝛼
Tabla 9. TEV
Relación
𝛼 𝜆 =1−𝛼 TEV Comentario
𝜇 𝑦 𝜎𝑦
Sin
𝜎𝑦 ∝ 𝑐𝑜𝑛𝑠𝑡 0 1
transformar
𝜎𝑦 ∝ 𝜇0.5 0.5 0.5 Raíz Datos de poisson
𝜎𝑦 ∝ 𝜇1 1 0 Log
Raíz
𝜎𝑦 ∝ 𝜇1.5 1.5 -0.5
recíproca
𝜎𝑦 ∝ 𝜇2 2 -1 Recíproco
2.5 COMPARACIONES DE MEDIAS
Se supondrá que al hacer el ANOVA se rechaza la hipótesis nula, es decir hay
diferencias entre las medias de los tratamientos.
Si las medias de los niveles del factor son idénticas, las medias muestrales
observadas 𝑦ത𝑖 . se comportarían como un conjunto de observaciones tomadas
𝜎
al azar de una distribución normal con media 𝑦 ത.. Y desviación estándar .
ξ𝑛
Visualice una distribución normal con la capacidad de ser deslizada sobre un
eje abajo del cual están graficadas 𝑦
ത ത
1. , 𝑦 ത
2. , … 𝑦𝑎 . . Si todas las medias de los son
iguales, deberá haber una posición de esta distribución que haga evidente que
los valores 𝑦
ത𝑖 . se sacaron de la misma distribución. La falla en esta lógica es
que 𝜎 es desconocida.
Contrastes
DEFINICIÖN:
Γ = 𝑐𝑖 𝜇𝑖
𝑖 =1
Se llaman contraste.
ሺσ 𝑎𝑖=1 𝑐𝑖 𝑦𝑖. ሻ2
𝑡0 = ඨ > 𝑡𝛼 ൗ , (𝑁 − 𝑎)
𝑛𝑀𝑆𝑆𝐸 σ 𝑎𝑖=1 𝑐𝑖 2 2
Utilizando F
La hipótesis nula se rechaza si
ሺσ 𝑎𝑖=1 𝑐𝑖 𝑦𝑖. ሻ2
𝐹0 = > 𝐹𝛼 ൗ ,𝑁 − 𝑎
𝑛𝑀𝑆𝑆𝐸 σ 𝑎𝑖=1 𝑐𝑖 2 2
𝑎 𝑎 𝑎 𝑎 𝑎
𝑀𝑆𝑆𝐸 2
𝑀𝑆𝑆𝐸
𝑐𝑖 𝑦ത
𝑖. − 𝑡 𝛼 ൗ , 𝑁 − 𝑎 ඩ 𝑐𝑖 ≤ 𝑐 𝜇
𝑖 𝑖 ≤ 𝑐 ത
𝑦
𝑖 𝑖. + 𝑡 𝛼 ൗ , 𝑁 − 𝑎 ඩ 𝑐𝑖2
2 𝑛 2 𝑛
𝑖=1 𝑖=1 𝑖 =1 𝑖=1 𝑖=1
Ejemplo 3.6:
Considere los datos del ejemplo 3-1. Hay cinco medias de los tratamientos y
cuatro grados de libertad entre estos tratamientos. Suponga que antes de correr el
experimento se especificó la siguiente serie de comparaciones entre las medias de
los tratamientos y sus (contrastes asociados):
Hipótesis Contraste
𝐻0 : 𝜇4 = 𝜇5 𝐶1 = −𝑦4 + 𝑦5
𝐻0 : 𝜇1 + 𝜇3 = 𝜇4 + 𝜇5 𝐶2 = 𝑦1 + 𝑦3 + 𝑦4 − 𝑦5
𝐻0 : 𝜇1 = 𝜇3 𝐶3 = −𝑦1 + 𝑦3
𝐻0 : 4𝜇2 = 𝜇1 + 𝜇3 + 𝜇4 + 𝜇5 𝐶4 = −𝑦1 + 4𝑦2 − 𝑦3 − 𝑦4 − 𝑦5
Observe que los coeficientes de los contrastes son ortogonales. Utilizando los
datos de la tabla N1, se encuentra que los valores numéricos de los contrastes y
de la suma de cuadrados son los siguientes:
𝐶1 = −1(108)+1(54)=-54 (−54)2
𝑆𝑆𝐶1 = = 291.60
5(2)
𝐶2 = 1(49)+1(88)-1(108)-1(54)=-25 (−25)2
𝑆𝑆𝐶2 = = 31.25
5(4)
𝐶3 = +1ሺ49ሻ− 1ሺ88ሻ = −39 (−39)2
𝑆𝑆𝐶3 = = 152.10
5(2)
𝐶4 = −1ሺ49ሻ+ 4ሺ77ሻ− 1ሺ88ሻ− 1ሺ108ሻ− 1ሺ54ሻ (9)2
=9 𝑆𝑆𝐶4 = = 0.81
5(20)
Tabla 9. Análisis de varianza de la resistencia a la tensión
Suma de
Fuente de variación G.L C.m F0 p
cuadrados
Peso porcentual del algodón 475.76 4 118.94 14.76 <0.001
𝐶1 = −𝑦4 + 𝑦5 291.60 1 291.60 36.18 >0.001
𝐶2 = 𝑦1 + 𝑦3 + 𝑦4 − 𝑦5 31.25 1 31.25 3.88 0.06
𝐶3 = −𝑦1 + 𝑦3 152.10 1 152.10 18.87 <0.001
𝐶4 = −𝑦1 + 4𝑦2 − 𝑦3 − 𝑦4
0.81 1 0.81 0.10 0.76
− 𝑦5
Error 161.20 20 8.06
Total 636.96 24
Por los valores p se concluye que hay diferencias significativas entre los niveles 4
y 5 ,1 y 3 del peso porcentual del algodón, pero que el promedio de los niveles 1 y
3 no difieren del promedio de los niveles 1 y 5 con el nivel de significancia 𝛼 = 0.05
y que el nivel 2 no difiere del promedio de los otros cuatros niveles.
Ejemplo 3.7:
Para ilustrar la prueba de Tukey, se usan los datos del experimento del peso
porcentual del algodón del ejemplo 3-1. Con 𝛼 = 0.05 y 𝑓 = 20 grados de libertad
para el error se obtiene que 𝑞0.05 ሺ5,20ሻ= 4.23 (estadístico del rango studentizado)
𝑀𝑆𝐸 8.06
Por tanto se tiene: 𝑇0.05 = 𝑞0.05 ሺ5,20ሻට = 4.23ට = 5.37
𝑛 5
Cualquier para de promedios del peso porcentual del algodón que difiera en valor
absoluto por más de 5.37 implicaría que el par correspondiente de las medias
poblacionales son significativamente diferentes.
Las diferencias en los promedios son:
Los valores marcados con asteriscos indican pares de medias que son
significativamente diferentes.
Ejemplo 3.8:
Utilizando procedimiento LSD, si se usan los datos del experimento del ejemplo 3-
1, la LSD con 𝛼 = 0.05 es
2𝑀𝑆𝐸 2ሺ8.06ሻ
𝐿𝑆𝐷 = 𝑡0.025 ,20 ඨ = 2.086ඨ = 3.75
𝑛 5
Por tanto cualquier par de promedios de los tratamientos que difiera del valor
absoluto por más de 3.75 implicaría que el par correspondiente de medias
poblacionales es diferente.
Los valores marcados con asteriscos indican pares de medias que son
significativamente diferentes.
𝑦ത
1. = 9.8
𝑦ത
5. = 10.8
𝑦ത
2. = 15.4
𝑦ത
3. = 17.6
𝑦ത
4. = 21.6
𝑅3 = 𝑟0.05 ሺ
3,20ሻ𝑆𝑦ത𝑖 = ሺ
3.10ሻሺ
1.27ሻ = 3.94
𝑅4 = 𝑟0.05 ሺ
4,20ሻ𝑆𝑦ത𝑖 = ሺ
3.18ሻሺ
1.27ሻ = 4.04
𝑅5 = 𝑟0.05 ሺ
5,20ሻ𝑆𝑦ത𝑖 = ሺ
3.25ሻሺ
1.27ሻ = 4.13
Por el análisis se observa que hay diferencias significativas entre todos los pares
de medias con excepción de la 3 y la 2 y la 5 y la 1. Observe que en este ejemplo
la prueba de rango múltiple de Duncan y el método LSD llevan a conclusiones
idénticas.
Ejemplo 3.10:
2𝑀𝑆𝐸 2ሺ8.06ሻ
𝑑0.05 ሺ4,20ሻඨ = 2.65ඨ = 4.76
𝑛 5
Por lo tanto, cualquier media de los tratamientos que difiera del control por màs de
4.76 se declararía significativamente diferente. Las diferencias observadas son
1 𝑣𝑠. 5: 𝑦ത ത5 . = 9.8 − 10.8 = −1.0
1 . −𝑦
2 𝑣𝑠. 5: 𝑦ത2 . −𝑦ത5 . = 15.4 − 10.8 = 4.6
3 𝑣𝑠. 5: 𝑦ത3 . −𝑦ത5 . = 17.6 − 10.8 = 6.8
4 𝑣𝑠. 5: 𝑦ത ത5 . = 21.6 − 10.8 = 10.8
4 . −𝑦
Ejemplo 3.11:
𝜇1 = 11 𝜇2 = 12 𝜇3 = 15 𝜇4 = 18 𝜇5 = 19
1 75
Planea utilizar 𝛼 = 0.01 en este caso, puesto que 𝜇ҧ= 5 σ 5𝑖=1 𝜇𝑖 = 5
= 15 y
𝜏1 = 𝜇1 − 𝜇ҧ= 11 − 15 = −4
𝜏2 = 𝜇2 − 𝜇ҧ= 12 − 15 = −3
𝜏3 = 𝜇3 − 𝜇ҧ= 15 − 15 = 0
𝜏4 = 𝜇4 − 𝜇ҧ= 18 − 15 = 3
𝜏5 = 𝜇5 − 𝜇ҧ= 19 − 15 = 4
Por lo tanto σ 5𝑖=1 𝜏𝑖2 = 50. Suponga que el investigador piensa que la desviación
estándar de la resistencia a la tensión con cualquier nivel particular del peso
porcentual del algodón no será mayor que 𝜎 = 3 𝑝𝑠𝑖. Entonces se tiene que:
σ 5 2
2 𝑖=1 𝜏𝑖 𝑛(50)
𝜙 = 2 = 2 = 1.11𝑛
𝑎𝜎 5(3)
𝒏 𝝓𝟐 𝝓 𝒂ሺ𝒏 − 𝟏ሻ 𝜷 Potencia (𝟏 − 𝜷
4 4.44 2.11 15 0.30 0.70
5 5.55 2.36 20 0.15 0.85
6 6.66 2.58 25 0.04 0.96
Por tanto, deben realizarse al menos 𝑛 = 6 replicas para obtener una prueba con
la potencia requerida.
2.7 MÉTODOS NO PARAMÉTRICOS EN EL ANÁLISIS DE
VARIANZA
Ejemplo 3.12:
1 25ሺ26ሻ2
= ቈ
5497.79 −
24 4
= 53.03
Tabla 11. Datos y rangos para el experimento de la resistencia a la tensión
del ejemplo 3-1
Y el estadístico de prueba es
𝑎
1 𝑅𝑖2 𝑁(𝑁 + 1)2
𝐻 = 2 − ൩
𝑆 𝑛𝑖 4
𝐼=1
1 25(26)2
= ቈ
5245.0 −
53.03 4
= 19.25
2
Puesto que 𝐻 > 𝑥0.01 ,4 , 4 = 13.28, se rechazaría la hipótesis nula y se concluiría
que los tratamientos difieren.
GRACIAS