Está en la página 1de 5

Anlisis de Componentes de la Varianza de uno y dos factores

Anlisis de la varianza
El anlisis de la varianza (o Anova: Analysis of variance) es un mtodo para comparar dos
o ms medias, que es necesario porque cuando se quiere comparar ms de dos medias
es incorrecto utilizar repetidamente el contraste basado en la t de Student. por dos
motivos:
En primer lugar, y como se realizaran simultnea e independientemente varios
contrastes de hiptesis, la probabilidad de encontrar alguno significativo por azar
aumentara.
Por otro lado, en cada comparacin la hiptesis nula es que las dos muestras provienen
de la misma poblacin, por lo tanto, cuando se hayan realizado todas las comparaciones,
la hiptesis nula es que todas las muestras provienen de la misma poblacin y, sin
embargo, para cada comparacin, la estimacin de la varianza necesaria para el
contraste es distinta, pues se ha hecho en base a muestras distintas.

Bases del anlisis de la varianza


Supnganse k muestras aleatorias independientes, de tamao n, extradas de una nica
poblacin normal. A partir de ellas existen dos maneras independientes de estimar la
varianza de la poblacin s2
1) Una llamada varianza dentro de los grupos (ya que slo contribuye a ella la varianza
dentro de las muestras), o varianza de error, ocuadrados medios del error, y
habitualmente representada por MSE(Mean Square Error) o MSW (Mean Square Within)
que se calcula como la media de las k varianzas muestrales (cada varianza muestral es
un estimador centrado de s2 y la media de k estimadores centrados es tambin un
estimador centrado y ms eficiente que todos ellos). MSE es un cociente: al numerador
se le llama suma de cuadrados del error y se representa por SSE y al denominador grados
de libertad por ser los trminos independientes de la suma de cuadrados.
2) Otra llamada varianza entre grupos (slo contribuye a ella la varianza entre las
distintas muestras), o varianza de los tratamientos, ocuadrados medios de los
tratamientos y representada por MSA o MSB(Mean Square Between). Se calcula a partir
de la varianza de las medias muestrales y es tambin un cociente; al numerador se le
llama suma de cuadrados de los tratamientos (se le representa por SSA) y al
denominador (k-1) grados de libertad.
MSA y MSE, estiman la varianza poblacional en la hiptesis de que las kmuestras
provengan de la misma poblacin. La distribucin muestral del cociente de dos
estimaciones independientes de la varianza de una poblacin normal es una F con los
grados de libertad correspondientes al numerador y denominador respectivamente, por
lo tanto se puede contrastar dicha hiptesis usando esa distribucin.
Si en base a este contraste se rechaza la hiptesis de que MSE y MSAestimen la misma
varianza, se puede rechazar la hiptesis de que las kmedias provengan de una misma
poblacin.
Aceptando que las muestras provengan de poblaciones con la misma varianza, este
rechazo implica que las medias poblacionales son distintas, de modo que con un nico
contraste se contrasta la igualdad de kmedias.

Existe una tercera manera de estimar la varianza de la poblacin, aunque no es


independiente de las anteriores. Si se consideran las knobservaciones como una nica
muestra, su varianza muestral tambin es un estimador centrado de s2:
Se suele representar por MST, se le denomina varianza total o cuadrados medios totales,
es tambin un cociente y al numerador se le llama suma de cuadrados total y se
representa por SST, y el denominador (kn -1) grados de libertad.
Los resultados de un anova se suelen representar en una tabla como la siguiente:
Fuente de variacin
Entre grupos
Tratamientos
Dentro
Error
Total

G.L.
k-1

SS
SSA

MS
SSA /(k-1)

(n-1)k

SSE

SSE /k(n-1)

kn-1

SST

F
MSA /MSE

F se usa para realizar el contraste de la hiptesis de medias iguales. Laregin crtica para
dicho contraste es F > Fa(k-1,(n-1)k)

Algunas propiedades
Es fcil ver en la tabla anterior que
GLerror+ GLtrata = (n - 1) k + k - 1 = k + k - 1 = nk - 1 = GLtotal
No es tan inmediato, pero las sumas de cuadrados cumplen la misma propiedad,
llamada identidad o propiedad aditiva de la suma de cuadrados:
SST = SSA + SSE
El anlisis de la varianza se puede realizar con tamaos muestrales iguales o distintos,
sin embargo es recomendable iguales tamaos por dos motivos:
1) La F es insensible a pequeas variaciones en la asuncin de igual varianza, si el
tamao es igual.
2) Igual tamao minimiza la probabilidad de error tipo II.

Modelos de Anova
Modelo I o de efectos fijos en el que la H1 supone que las k muestras son muestras de k
poblaciones distintas y fijas.
Modelo II o de efectos aleatorios en el que se supone que las k muestras, se han
seleccionado aleatoriamente de un conjunto de m>k poblaciones.
Un ejemplo de modelo I de anova es el Ejemplo 1, porque en l se asume que existen
cinco poblaciones (sin tratamiento, con poca sal, sin sal, etc.) fijas, de las que se han
extrado las muestras.

Ejemplo1

Se quiere evaluar la eficacia de distintas dosis de un frmaco contra la hipertensin


arterial, comparndola con la de una dieta sin sal. Para ello se seleccionan al azar 25
hipertensos y se distribuyen aleatoriamente en 5 grupos. Al primero de ellos no se le
suministra ningn tratamiento, al segundo una dieta con un contenido pobre en sal, al
tercero una dieta sin sal, al cuarto el frmaco a una dosis determinada y al quinto el
mismo frmaco a otra dosis. Las presiones arteriales sistlicas de los 25 sujetos al

finalizar los tratamientos son:


Un ejemplo de modelo II sera: un investigador est interesado en determinar el
contenido, y sus variaciones, de grasas en las clulas hepticas de cobayas; toma del
animalario 5 cobayas al azar y les realiza, a cada una, 3 biopsias hepticas.

Modelo I o de efectos fijos


Un valor individual se puede escribir en este modelo como
m es la media global, ai es la constante del efecto, o efecto fijo, que diferencia a
las k poblaciones. Tambin se puede escribir:
Representa la desviacin de la observacin j-sima de la muestra i-sima, con respecto a
su media. A este trmino se le suele llamar error aleatorioy, teniendo en cuenta las
asunciones iniciales del anlisis de la varianza son k variables (una para cada muestra),
todas con una distribucin normal de media 0 y varianza s2 .
La hiptesis nula en este anlisis es que todas las medias son iguales

Que puede escribirse en trminos del modelo como:

Modelo II o de efectos aleatorios


En este modelo se asume que las k muestras son muestras aleatorias dek situaciones
distintas y aleatorias. De modo que un valor aislado Yij se puede escribir como:

Donde m es la media global, eij son variables (una para cada muestra) distribuidas
normalmente, con media 0 y varianza s2 (como en el modelo I) y Ai es una variable
distribuida normalmente, independiente de las eij, con media 0 y varianza
La diferencia con respecto al modelo I es que en lugar de los efectos fijos ai ahora se
consideran efectos aleatorios Ai.
Igual que en el modelo I se encuentra que MSE no se modifica en la H1 y que al valor
esperado de MSA se le aade el trmino de componente aadida (que aqu es una
verdadera varianza ya que Ai es una variable aleatoria):

Para llegar a este resultado se utiliza la asuncin de independencia entre Ai y eij y es, por
tanto, muy importante en el modelo y conviene verificar si es correcta en cada caso.

Anlisis de la varianza de dos factores


Es un diseo de anova que permite estudiar simultneamente los efectos de dos fuentes
de variacin.
En el ejemplo 1, en el que se estudiaban diversos tratamientos para la hipertensin
arterial, se podra plantear que, quizs, la evolucin de la misma fuera diferente para los
hombres y las mujeres, en cuyo caso, y si el nmero de hombres y mujeres en cada
muestra no fuera el mismo, podra ocurrir que una parte del efecto atribuido a los
tratamientos fuera debido al sexo.
Ejemplo 2
Se quiere probar la eficacia de un somnfero estudiando posibles diferencias de la misma
por el sexo de los sujetos. Se eligen al azar dos grupos de insomnes varones y otros dos
de mujeres y tanto para los hombres como para las mujeres se suministra a un grupo el
somnfero y a otro un placebo y se mide, en minutos, el tiempo que tardan en dormirse.
Los resultados son:
Placebo
30
50
45
47
38
50
35
46
25
32

Somnfero
35
32
30
25
30
42
30
15
18
23

Hombre

Mujer

Se trata de un anova de dos factores fijos. Llamamos primer factor a la droga que tiene
dos niveles: placebo y somnfero. El segundo factor es el sexo tambin con 2 niveles:
hombres y mujeres. El tamao de las muestras es n=5.
La tabla de anova es:

Fuente de variacin
Somnfero
Sexo
Interaccin
Error
Total

GL

SS
1 696,2
1 105,8
1
0,2
16 1197,6
19 1999,8

MS
696,2
105,8
0,2
74,85

Conclusiones
La estadstica constituye para el investigador la herramienta que le permitir o le indicara
probar datos numricos a travs del Anlisis de la Varianza (ANOVA) la comparacin de
los conjuntos de datos numricos diferentes, significativos, distintos a otros valores o ms
conjuntos de datos. Lo ms importante, es saber la certeza de los datos que se estudian,
qu tengan la condicin necesaria para tomar la decisin ms idnea. Es por ello, que la
importancia del Anlisis de la Varianza aplicado a la Toma de Decisin a las empresas son
aplicadas para proporcionarle la informacin veraz y precisa para la toma de decisiones,
sobre cualquier proceso dentro de la organizacin.

Bibliografa:
V. Abraira, A. Prez de Vargas Mtodos Multivariantes en Bioestadstica. Ed. Centro de
Estudios Ramn Areces. 1996.