Está en la página 1de 26

ANÁLISIS DE LA VARIANZA CON UNO Y

VARIOS FACTORES
 Un procedimiento estadístico que se utiliza para comparar K muestras, recibe
el nombre de Análisis de Varianza el cual permite docimar la hipótesis de
igualdad de medias, mediante la descomposición de la Variabilidad de un
experimento en componentes independientes que puedan asignarse a causas
distintas.

REALIZADO POR OSCAR SOL N.


   procedimiento estadístico que se utiliza para comparar K muestras, recibe el
Un
nombre de Análisis de Varianza el cual permite docimar la hipótesis de igualdad
de medias, mediante la descomposición de la Variabilidad de un experimento en
componentes independientes que puedan asignarse a causas distintas.
 ANALISIS DE VARIANZA UNIFACTORIAL
 Supongamos que disponemos de K tratamientos de la siguiente forma:
Tratamiento Observaciones Totales Promedios
1 y11 y12....................y1n y1 .
2 y21 y22....................y2n y2.
. . . . . .
. . . . . .
. . . . . .
k yk1 yk2. ..................ykn yk.
____________________________________________________________________

REALIZADO POR OSCAR SOL N.


  El modelo matemático que permite trabajar para la información es:

= +  , ,
 
donde
 
 = es la j-ésima observación del tratamiento i-ésimo.
 = media global a todos los tratamientos.
 = tratamiento i-ésimo,
 = error aleatorio o perturbaciones , ,
Además:
,,

REALIZADO POR OSCAR SOL N.


Luego,
   la hipótesis de interés, es
   para algún
La prueba se basara en una comparación de dos estimaciones independientes de
la varianza poblacional común. Estas estimaciones se obtendrán dividiendo la
Variabilidad Total de los datos por la suma total de cuadrados dada por

REALIZADO POR OSCAR SOL N.


  

Donde

REALIZADO POR OSCAR SOL N.


  
Además
 

Por tanto es un estimador insesgado de entre las muestras o tratamientos


Por otro lado
 

Por tanto es un estimador insesgado de dentro de las muestras

REALIZADO POR OSCAR SOL N.


luego,
   el estadístico de prueba es :

y la región critica esta dada por


 

 Regla de decisión: Se rechaza sí

 Nota:

REALIZADO POR OSCAR SOL N.


Por lo general, los resultados del análisis se presentan generalmente en una tabla
conocida como tabla ANOVA que tiene el siguiente formato.

Tabla Anova

Fuente de Grados de Suma de Media de Razón F


Variación Libertad Cuadrados Cuadrados
Tratamientos K-1 SSt CMt=
Error K(n-1) SSE CME= =
Error K(n-1) SSE
Total nk-1 SST
Total nk-1 SST

REALIZADO POR OSCAR SOL N.


Ejemplo: Un fabricante de papel utilizado para fabricar bolsas para caramelos,
está interesado en mejorar la resistencia a la tensión del producto. El grupo de
ingeniería del producto piensa que la resistencia a la tensión es una función de
la concentración de madera dura en la pulpa, y que el rango de interés practico
de las concentraciones de madera dura, está entre 5 y 20%. El equipo de
ingenieros responsable del estudio, decide investigar cuatro niveles de
concentración de madera dura: 5, 10, 15 y 20%. Para ello, deciden fabricar sus
especímenes de prueba para cada nivel de concentración, utilizando una planta
piloto. Los 24 especímenes se someten a prueba en un probador de tensión, en
un orden aleatorio. Mediante el análisis de varianza probar la hipótesis de que
concentraciones de madera dura diferentes afectan la resistencia promedio a la
tensión del papel. Los datos de este experimento aparecen en la siguiente
tabla:

REALIZADO POR OSCAR SOL N.


RESISTENCIA DEL PAPEL A LA TENSION

CONCENTRACION DE MADERA DURA

  5% 10% 15% 20%

  7 12 14 19

  8 17 18 25

  15 13 19 22

  11 18 17 23

  9 19 16 18

  10 15 18 20

Totales 60 94 102 127

Promedios 10.00 15.67 17.00 21.17

Solución:
 En este problema intervienen directamente dos variables:
 i) Resistencia a la tensión del producto.
ii) Concentración de madera dura (%)

REALIZADO POR OSCAR SOL N.


   primera de ellas es llamada Variable Respuesta o Variable Dependiente,
La
justificando este apelativo de dependiente, el hecho de que el investigador
no tiene control alguno sobre ella, puesto que su valores dependen de
elementos aleatorios llamados “errores experimentales”. La segunda variable
recibe el nombre de Factor o Variable Independiente, justificando el
apelativo de independiente por el hecho de que el investigador manipula o
ejerce control sobre ella, pues él decide que tratamientos o condiciones
experimentales incluirá en el problema , los niveles de concentración de
madera dura son: 5, 10, 15 y 20%.

 Las hipótesis son:


    para algún

Calculo de sumas de cuadrados:


  

  7 2
  8 2
    20  2

 383 2
24

 ¿ 512.96
4
y 2i y 2 
SSt  
i 1 6

24


 60 2   94 2  102  2  127  2

 383
2

6 24

 
 Luego el análisis de varianza de los datos de resistencia a la tensión es:

Fuente de Variación Grados de Libertad Suma de Cuadrados Media de Razón


Madera dura Cuadrados F
(%)

Concentración 3 382.79 127.60


de madera dura(%)

Error 20 130.17 6.51 19.60


 

   
Total 23 512.96
 
  Región Critica:

C   y
11 , y12 ,    , y24  / F0  F 0,01,3, 20  .!
 
   {( y11 , y12 ,    , y24 ) / F0  4.94}

De la tabla F-snedecord con 3 y 20 grado de libertad, determinamos

, por tanto la región critica es


 Regla de decisión:
Como , se rechaza H0, es decir, la concentración de madera en la pulpa
afecta de manera significativamente la resistencia del papel.
  
Nota: En algunos casos se pierden algunas observaciones deseadas, es decir, las
observaciones tomadas para cada tratamiento pueden ser distintas. En este caso, se dice
que el diseño no esta balanceado y se puede emplear el análisis de varianza modificando
las formulas para las sumas de cuadrados.
k
 Supongamos que las k muestras aleatorias, son de tamaño , tal que n
i 1
1 n

 Las formulas de calculo para , se entregan en la siguiente definición:


 Definición : (Diseño de un solo factor no balanceado).
 Las formulas para el calculo de las sumas de cuadrados son:

k ni
y 2 
 y
2
SST  ij 
i 1 j 1 N

k
y 2 i y 2 
SSt  
i 1 ni

N

𝑆𝑆𝐸=𝑆𝑆𝑇
  − 𝑆𝑆𝑡
 Luego, la tabla Anova es:

Fuente de Variación Grados de Libertad Suma de Cuadrados Medias de Región


Cuadrados F

Tratamientos

Error
  = 

   
Total
 
INTERVALOS DE CONFIANZA PARA LAS MEDIAS DE LOS TRATAMIENTOS
 
Ahora, construiremos un intervalo de confianza para la media del i-ésimo
tratamiento. Tenemos que:

i     i ; i  1, 2, ...., k

corresponde a la media del i-nésimo tratamiento.


 
Un estimador puntual de
i es ˆ i  y io
Donde  2 
y i  N  i , 
 n 
y i  i
Z   N  0,1

n

Luego:
 
y i  z / 2   i  y i  z / 2 
n n

es un intervalo de confianza cuando 2 es conocido.


Si  es desconocido, utilizamos CME como estimador de  , luego:
2 2

 
y i   i
T   t k  n 1
CME
n

Definición 3. Un intervalo de confianza del 1    100 % para la media del


i-ésimo tratamiento es

CME CME
y i   t   / 2 , k  n  1    i  y i   t   / 2 , k  n  1 
n n

REALIZADO POR OSCAR SOL N.


 También nos interesa encontrar intervalos de confianza para la diferencia
entre las medias de dos tratamientos, es decir,
 Luego un estimador de i   j es y i  y j y la varianza de dicho estimador
es


V y i  y j   
2
n

2
n

2 2
n

Si utilizamos CME como estimador de  , luego el estadístico de prueba es:


2

y i  y j     i   j 
T   t k  n 1
2 CME
n
de donde se puede obtener un intervalo de confianza para i   j
Definición 4: Un intervalo de confianza del 1   100 % para la diferencia entre los medios de
los tratamientos está dado por:

2 CME 2 CME
y i   y j   t   / 2 , k  n  1    i   j  y i   y j   t   / 2 , k  n  1  
n n

Ejemplos 1:
Obtener un intervalo de confianza del 95% para la resistencia promedio a la tensión a 20% de
madera dura. 
Solución: 
La estimación de la resistencia promedio a la tensión al 20% de concentración de madera dura es
ˆ 4  y 4  21.17
Luego, un intervalo de confianza del 95% para la resistencia promedio a la tensión
a 20% de madera dura está dado por:

CME CME
y 4  t 0.025, 20  01    4  y 4  t 0.025, 20  
n n

6.51 6.51
21.17  2.086    4  21.17  2.086 
6 6

19.00   4  23.34
Ejemplo 2:
 
Determinar un intervalo de confianza del 95% para la diferencia entre la
resistencia a la tensión promedio entre 15% y 10% de madera dura.
 
Solución:
 
Un intervalo de confianza del 95% para la diferencia de medias está dado por:

2CME 2CME
y 3  y 2  t 0.025, 20     3   2  y 3  y 2  t  0.025, 20  
n n

 17.00  15.67  2.086  2


 651  3   2  17.00  15.67  2.086  2
 651
6 6

  1.74  3   2  4.40
NOTA:
 
i) Como el intervalo de confianza incluye al cero, luego podemos concluir que
no hay diferencia entre la resistencia a la tensión para esos dos niveles de
madera dura en particular.
ii) Podemos estimar los efectos de cada nivel del factor (resistencia a la
tensión de madera en %) como:

  ˆ1  y1  y   10.00  15.96   5.96

ˆ2  y 2  y   15.67  15.96   0.29

ˆ3  y 3  y   17.00  15.96  1.0

Luego para j= 1, 2, 3, ......., 6


 
y1 j    5.96  e1 j
y2 j    0.29  e2 j
y3 j    1.04  e3 j

y 4 j    5.21  e4 j
Por tanto, la mejor concentración de la madera dura es al 20% puesto que
adiciona al promedio general 5.21 un cierto error aleatorio; mientras que la
peor concentración de madera dura es al 5%, ya que resta al promedio general
5.96 un cierto error aleatorio.
 
 

También podría gustarte