Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis de La Varianza Apuntes
Analisis de La Varianza Apuntes
Analisis de La Varianza Apuntes
ndice _______________________________________________________________ 1
TU
UT
UT
UT
UT
UT
UT
UT
UT
UT
UT
UT
UT
UT
UT
UT
UT
UT
UT
UT
_____________________________________________________________ 22
2.5.3. Los cuadrados de las desviaciones. Sumas de cuadrados____________ 23
TU
UT
UT
UT
UT
UT
UT
UT
UT
Pg. 1
UT
UT
UT
UT
UT
_____________________________________________________________ 34
2.3.4. Los cuadrados de las desviaciones. Sumas de cuadrados. ___________ 37
TU
UT
UT
UT
UT
UT
3.5.4. Estadsticos de contraste para el caso en el que ambos factores sean fijos
TU
UT
_____________________________________________________________ 43
4.5.4. Estadsticos de contraste para el caso en el que ambos factores sean
TU
aleatorios______________________________________________________ 44
UT
5.5.4. Estadsticos de contraste para el caso en el que un factor sea fijo y el otro
TU
aleatorio ______________________________________________________ 45
UT
UT
UT
UT
UT
UT
UT
UT
UT
UT
UT
UT
UT
UT
UT
UT
UT
Pg. 2
UT
UT
UT
UT
UT
la rehabilitacin ________________________________________________ 78
UT
Bibliografa _______________________________________________________ 81
TU
UT
UT
Anexo ____________________________________________________________ 83
TU
UT
Pg. 3
Anlisis de varianza
El anlisis de varianza surge directamente asociado con el trabajo experimental. El
procedimiento elemental del trabajo experimental consiste en la manipulacin de una
variable X acompaada por la observacin de otra variable Y que se supone
relacionada con la anterior-. Si a una modificacin en aqulla le sigue un cambio en sta
y adems este cambio tiene lugar en la direccin esperada- estaremos tentados de
afirmar que las modificaciones en el valor de X causan cambios en el valor de Y. Sin
embargo, esta relacin de causalidad no se puede mantener de no haber diseado el
experimento del modo adecuado. Por ejemplo, si no se puede asegurar que todas las
dems variables que han podido influir sobre Y se han mantenido constantes durante el
experimento no se podra afirmar, desde el enfoque clsico de la experimentacin, que
X cause Y. De aqu la obsesin del experimentalista clsico por mantener todo lo
dems constante el imposible ceteris paribus-, modificando nicamente el valor de X.
No es hasta la aparicin de la obra de Sir Ronald A. Fisher The Design of
Experiments que los experimentalistas encuentran una nueva va para dotar de validez
a su trabajo, abandonando el vano objetivo de mantener todo lo dems constante. Se
descubri que la clave para controlar que no eliminar- la influencia de variables
extraas en la variable respuesta se encontraba en la aleatorizacin. El experimentalista
no deba ya preocuparse por mantener las condiciones experimentales constantes. Para
distinguir qu parte de los cambios en la variable respuesta se deba a los factores de
inters y qu parte a otros factores no considerados resultaba suficiente garantizar una
asignacin aleatoria de los individuos las llamadas unidades experimentales- a los
distintos grupos conformados por las modalidades de los factores que se deseaba
estudiar como posibles explicaciones del fenmeno.
Surgi as el anlisis de la varianza como la tcnica estadstica que permite distinguir
qu parte de la variacin en la variable Y que mide el fenmeno en estudio- se debe a
la variacin en la variable explicativa X y qu parte se debe a otros factores.
Pg. 4
PT
sus modalidades- una particin en el universo objeto de estudio. Se tratara, por tanto,
de analizar si los subconjuntos que conforman la correspondiente particin las
subpoblaciones que en la poblacin original induce la variable cualitativa- presentan
diferentes valores promedio en cuanto a la variable cuantitativa. En este caso diramos
que el factor considerado tiene un efecto llamado efecto principal del factor- sobre la
variable dependiente. Adicionalmente, en el caso de que se consideren varias variables
explicativas, cada n-pla de ellas determina una particin adicional en el universo. El
estudio de los promedios en los conjuntos de esta nueva particin puede suponer el
descubrimiento de un efecto de interaccin llamado efecto de interaccin de orden nsimo- entre los factores que conforman la n-pla.
En otras palabras, el anlisis de varianza busca una explicacin a los cambios en el valor
de la variable cuantitativa en el conjunto de individuos que conforma la poblacin y
considera, como posible motivo de estos cambios, la pertenencia de dichos individuos a
los grupos que configurados por los distintos niveles de las variables cualitativas. Este
anlisis en el sentido estricto del trmino2- permite establecer qu parte de la
TP
PT
Se habla as de anlisis unifactorial, con una nica variable explicativa, y multifactorial, con dos o ms
TP
PT
variables explicativas. El trmino anlisis multivariante de la varianza se reserva para el caso en el que el
nmero de variables cuantitativas a explicar es superior a uno.
PT
2
T
Distincin y separacin de las partes de un todo hasta llegar a conocer sus principios o elementos.
TP
Pg. 5
PT
los modelos de diseo experimental que cabe presentar, aunque, por razones de
brevedad y por su especial inters se ha optado por mostrar con cierta profundidad dos
de los ms utilizados.
En concreto, en los siguientes apartados se exponen los fundamentos del anlisis de
varianza para los casos de una nica variable explicativa (anlisis de varianza de un
factor) y de dos variables explicativas (anlisis de varianza bifactorial con interaccin).
Con anterioridad se estudia el caso ms sencillo en el que estamos interesados en
comparar las medias de dos poblaciones, caso particular del anlisis de varianza
unifactorial.
3
TP
PT
Mtodo de investigacin en el que se controlan las condiciones de modo que puede manipularse una o
varias variables independientes para probar una hiptesis sobre una variable dependiente.
Pg. 6
Pg. 7
PT
2
e Y N Y , Y2 sabemos que X N X ; X
nX
2
y que Y N Y ; Y siendo n X y
nY
respectivamente5.
TP
PT
2 2
De aqu se deduce fcilmente6 que X Y N X Y ; X + Y con lo que
n X nY
TP
(X Y ) (
X2
nX
Y )
Y2
PT
nY
De este modo, para contrastar la hiptesis nula de que las medias de ambas poblaciones
son iguales frente a la hiptesis alternativa de que los promedios son diferentes entre los
colectivos se puede recurrir al estadstico
(X Y )
X2
nX
Y2
nY
4
PT
Para comprobar la veracidad de este supuesto deberemos aplicar algn test de bondad de ajuste sobre los
TP
datos muestrales, por ejemplo el test de Kolmogorov-Smirnov, el de Anderson-Darling o el de ShapiroWilks. El test de Kolmogorov-Smirnov se presentar en un apartado posterior.
5
PT
De hecho, el teorema central del lmite garantiza que las medias muestrales X e Y se distribuyen
TP
TP
6
PT
Sabemos que si
Y N Y , Y2 , entonces aX + bY N a X + b Y , a 2 X2 + b 2 Y2 .
Pg. 8
PT
7
TP
PT
1 n
(X i X )2 . A diferencia de la varianza
n 1 i =1
Pg. 9
estadstico
de
n (Z
k
W =
nk
k 1
i =1
k ni
Z .. )
del
test
de
Levene
se
define
como
i.
(Z
i =1 j =1
contraste
Z i. )
ij
PT
W f k 1;n k ; .
2.2.2. Test de Bartlett de homogeneidad de varianzas
TP
8
PT
Pg. 10
T=
(n k ) ln S p2 (ni 1) ln S i2
i =1
1+
1
1
1
3(k 1) i =1 ni 1 n k
k
muestra y S p2 =
1 k
(ni 1)S i2 .
n k i =1
PT
PT
suele representarse con el smbolo S p2 - y que se calcula como una media ponderada -en
funcin de los tamaos de las muestras tomadas de cada una de las poblaciones- de las
cuasivarianzas
S p2 =
TP
n X + nY 2
k21;
TP
concreto,
PT
TP
11
TP
En
PT
correspondientes.
El smbolo
PT
muestrales
PT
Ntese que esta definicin de S p es un caso particular del concepto similar definido en la prueba de
homocedasticidad de Bartlett.
Pg. 11
( X Y ) (
S p2
nX
(n X + nY 2)S p2
2
Y )
S p2
( X Y ) (
TP
Sp
nY
Y )
t nX + nY 2 , ya que12
1
1
+
n X nY
X
PT
n2X + nY 2 .
As, para contrastar la hiptesis nula de igualdad de medias entre las dos poblaciones
(X Y )
1
1
+
n X nY
( X Y ) (
2
X
Y )
2
Y
S
S
+
n X nY
TP
12
PT
= t
Pg. 12
exacta en el muestreo de este estadstico bajo la hiptesis nula de igualdad de las medias
poblacionales. Este hecho hace imposible la formulacin de un criterio de decisin
exacto. Afortunadamente existe una aproximacin a la distribucin de este estadstico
que se conoce como aproximacin de Welch. En circunstancias muy generales el
estadstico
donde =
(X Y )
S X2 SY2
+
n X nY
(n X 1)(nY 1)
(n X 1)(1 c 2 ) + (nY 1)c 2
S X2
y c=
2
X
nX
nX
2
+ SY
.
nY
En =
n(i )
donde n(i ) representa el nmero de individuos de la muestra ordenada que
n
Pg. 13
El
estadstico
de
Kolmogorov-Smirnov
se
calcula
como
i
D = max F (Y(i ) ) : 1 i n donde F es la funcin de distribucin terica.
n
La hiptesis nula se rechaza si el valor del estadstico D es mayor que el valor crtico
que se obtiene en una tabla (ver anexo).
El siguiente grfico presenta el resultado tpico de una prueba de bondad de ajuste de
Kolmogorov-Smirnov. La lnea quebrada es la funcin de distribucin emprica y la
lnea suave es la funcin de distribucin terica que ha sido especificada para el ajuste.
En este caso, la mxima diferencia se da en la observacin nmero 35, para la que la
diferencia entre el percentil emprico y el percentil terico es mayor de 18 puntos. Esta
mxima diferencia es la que determina el estadstico de Kolmogorov-Smirnov que,
contrastado con la correspondiente tabla, nos proporciona una probabilidad crtica
menor del 10% que, para este nivel de significacin, nos llevara a rechazar la hiptesis
nula y a afirmar que tenemos evidencia suficiente para sospechar que los datos no
provienen de la funcin de densidad especificada.
Pg. 14
Grfico 1
Resultado tpico de una prueba de bondad de ajuste de Kolmogorov-Smirnov
Una vez presentado el caso ms simple de comparacin de medias esto es, aqul en el
que estamos interesados en comparar las medias de dos poblaciones- en sus diversas
variantes varianzas conocidas, varianzas desconocidas e iguales, varianzas
desconocidas y distintas- y de describir los tests bsicos para comprobar los supuestos
de homogeneidad de varianzas y de normalidad, dedicamos la siguiente seccin a la
extensin ms natural de este problema. Cmo actuaremos en el caso de que el nmero
de poblaciones sobre los que queremos comparar las medias sea mayor que dos?
Pg. 15
k!
k (k 1)
posibles
=
2!(k 2)!
2
k (k 1)
contrastes de hiptesis
2
PT
k (k 1)
contrastes, y
2
TP
13
PT
k ( k 1)
2
El nivel de significacin es la probabilidad de cometer un error de tipo I, esto es, rechazar una hiptesis
Pg. 16
k ( k 1)
2
k ( k 1)
2
poblaciones. Queda pues patente la necesidad de un mtodo que nos permita resolver el
problema de comparar las medias de k poblaciones sin incrementar innecesariamente el
nivel de significacin. Este mtodo nos lo proporciona la versin ms simple del
anlisis de varianza el anlisis de varianza unifactorial- tal como veremos en los
siguientes apartados.
Grfico 2
Evolucin del nivel de significacin en funcin del nmero de poblaciones k a
comparar
9 10 11 12 13 14 15 16 17 18 19 20
Pg. 17
PT
sobre la igualdad de las medias de k colectivos, superando las dificultades que se han
puesto de manifiesto en el apartado anterior en concreto las referentes al incremento en
la probabilidad de error de tipo I-.
El anlisis de varianza unifactorial es, en esencia, un procedimiento de prueba de
hiptesis que permite elegir entre dos conjeturas opuestas:
una hiptesis nula que afirma la igualdad de las medias de la variable cuantitativa en
el conjunto de las k subpoblaciones inducidas en la poblacin global por la variable
cualitativa
TP
14
PT
One-way Anova
Pg. 18
1
ni
ni
Y
j =1
ij
. Potencialmente, hay k
1 k ni
Yij . Obviamente, el valor de Y.. es nico para la muestra.
n i =1 j =1
Pg. 19
Pg. 20
definidas por los niveles del factor es el mismo y, en consecuencia, coincide con el
valor promedio de toda la poblacin.
En trminos ms precisos, esta hiptesis de partida se concreta en la hiptesis nula
Pg. 21
A partir de la terminologa definida para los datos de la muestra - Yij , Yi. y Y.. - vamos a
definir tres diferencias que nos van a permitir analizar los motivos por los que la
puntuacin en la variable dependiente de un individuo genrico de la muestra se desva
del promedio global.
En concreto, vamos a considerar las siguientes tres diferencias:
desviacin total- y la
del individuo a una determinada modalidad del factor - Yi. Y.. - y la desviacin debida a
otras causas no consideradas en el experimento - Yij Yi. -.
Pg. 22
(Y
k
ni
i =1 j =1
ij
DT - de los individuos respecto a la media resulta ser nula. Es obvio, puesto que
(Y )
ni
(Y
k
ni
i =1 j =1
ij
i =1 j =1
(Y
k
Por su parte
ni
ni
i.
i =1 j =1
ni
i =1 j =1
i =1 j =1
(Y )
k
ij
ni
i =1 j =1
ij
= 0.
i =1
i =1
i =1
(Y
ni
Por ltimo,
j =1
ij
ni
j =1
j =1
Con el fin de evitar que unas desviaciones se compensen con otras a la hora de
agregarlas para el conjunto de individuos podemos optar por elevar todas las
desviaciones al cuadrado. As, todos los valores sern no negativos y al acumularlos
para todos los individuos nos proporcionarn un resultado no negativo.
Siguiendo este camino debemos elevar al cuadrado ambos miembros de la igualdad que
analizaba la desviacin total descomponindola en dos sumandos. La expresin
DT = DE + DNE
se
convertir
al
ser
elevada
al
cuadrado
en
Pg. 23
sumamos para todos los individuos los cuadrados de las desviaciones as como el doble
producto cruzado tendremos tambin una igualdad, que se expresar del siguiente
modo:
DT
= DE 2 + DNE 2 + 2 DE DNE
(Y
k
ni
i =1 j =1
ij
de
modo
ms
explcito,
ni
i =1 j =1
ni
i =1 j =1
ni
i =1 j =1
ni
i =1 j =1
(Y
k
ni
i =1 j =1
ij
DT
= DE 2 + DNE 2
ni
i =1 j =1
ni
i =1 j =1
i =1 j =1
(Y
k
ni
i =1 j =1
ij
n 1 grados de libertad15.
TP
PT
ni
i =1 j =1
TP
15
PT
parmetros que pueden variar de modo independiente. Por ejemplo si en un conjunto hay n elementos y
una restriccin por ejemplo, la suma de los elementos tiene que ser nula- entonces slo pueden variar
libremente n-1 elementos ya que la restriccin existente sobre ellos determina el n-simo. As, el nmero
de grados de libertad viene dado por la diferencia entre el nmero de sumandos potencialmente distintos y
el nmero de restricciones existentes sobre los elementos en este caso n-1-.
Pg. 24
ni
i =1 j =1
i =1
n (Y
k
i =1
i.
Por ltimo, SCE = (Yij Yi. ) recibe el nombre de suma de cuadrados de los
k
ni
i =1 j =1
(Y
ni
j =1
ij
CMTR =
CME =
SCTR
k 1
SCE
nk
Pg. 25
PT
STC
SCTR
SCE
(k 1)CMTR
2
(n k )CME
2
Una vez calculados los cuadrados medios nos encontramos en condiciones de realizar
comparaciones entre ellos. Obviamente, un valor muy elevado de CMTR junto con un
valor muy reducido de CME nos debera llevar a pensar que el factor determina
diferentes promedios en cada una de las subpoblaciones que induce en la poblacin
original; por el contrario, un valor bajo de CMTR y un valor elevado de CME nos
debera hacer pensar en la ineficacia del factor para explicar la variable dependiente.
No obstante, necesitamos conocer cmo de grande debe ser CMTR respecto a CME
para tomar la decisin de rechazar la hiptesis nula de igualdad de medias. La respuesta
la tenemos en el estadstico de contraste del anlisis de varianza unifactorial, que
presentamos en la siguiente seccin.
TP
16
PT
Pg. 26
PT
(k 1)CMTR 2
k21
CMTR
(k 1)
=
= 2 k 1 = Fk 1;n k .
EC =
(
)
n
k
CME
CME
nk
2 (n k )
nk
As, la decisin respecto a la veracidad o falsedad de la hiptesis nula se puede tomar
fcilmente. En el caso de que el valor del estadstico de contraste EC sea mayor o igual
al valor crtico de una F de Fisher-Snedecor de k 1 grados de libertad en el numerador
y n k en el denominador que deja a su derecha un rea igual al nivel de significacin
elegido valor crtico que denotaremos por f k 1;n k ; - se optar por rechazar la hiptesis
nula. En caso contrario, la hiptesis nula se aceptar por no tener evidencia suficiente
para afirmar la existencia de una subpoblacin con una media diferente.
En el caso de que el resultado final de la prueba de hiptesis haya sido la aceptacin de
la hiptesis nula y en consecuencia la no existencia de evidencia suficiente para
sospechar que las subpoblaciones presentan medias diferentes- el anlisis ha finalizado.
Sin embargo, si la hiptesis nula ha sido rechazada hemos encontrado evidencia de que
existe al menos una subpoblacin con una media poblacional diferente para la variable
cuantitativa. El problema es que no sabemos cul o cules son! Para dar respuesta a la
pregunta natural acerca de cules de las subpoblaciones presentan medias distintas de
las medias de las dems poblaciones se han desarrollado los llamados contrastes a
posteriori. De los muchos que existen se presentarn a continuacin los contrastes de
Scheff y de Tukey.
17
TP
PT
El cociente de dos
X
Y
eY
entonces
F ; , siendo los grados de libertad del numerador y los grados de libertad del
denominador.
Pg. 27
PT
PT
CDTukey ;i , j = q r ; ; g .l .( SCE )
CME 1
1
+ , siendo ni el nmero de individuos de la
2 ni n j
18
PT
TP
TP
19
PT
Pg. 28
CDScheff ;i , j =
(k 1) f k 1;nk ; CME 1
ni
1
nj
Grfico 3
Esquema general del proceso de anlisis de varianza unifactorial
Tests de
Bartlett,
Hartley,
Levene...
Tratamiento de la
heterocedasticidad
FIN
NO
INICIO
Homocedasticidad?
S
S
Normalidad?
Anlisis
de varianza
NO
NO
Test de
KolmogorovSmirnov
Aceptamos
Hip. nula?
Tratamiento de la
no normalidad
Test de
Scheff o
Tukey
Contrastes
a posteriori
Pg. 29
Pg. 30
la nomenclatura que vamos a utilizar para referirnos a los promedios de las diferentes
subpoblaciones que determinan los niveles de los factores y sus combinaciones. En este
caso, nos veremos obligados a emplear ms subndices para recoger por separado el
efecto de cada uno de los factores. En concreto:
El smbolo .. (la letra griega seguida de dos puntos como subndice) se utilizar
para referirnos a la puntuacin promedio de la variable dependiente en el conjunto
de la poblacin.
ij .
Se detallan a continuacin las tres hiptesis nulas de un anlisis de varianza bifactorial.
1.2.4. Hiptesis nula sobre el primer factor
La primera hiptesis nula se refiere al primer factor y afirma que ste no tiene ningn
efecto sobre la variable dependiente. En otras palabras, la hiptesis de partida del
anlisis de varianza en relacin con el primer factor es que el valor promedio de la
variable dependiente en todas y cada una de las subpoblaciones definidas por los niveles
de este factor es el mismo y, en consecuencia, coincide con el valor promedio de toda la
poblacin.
Pg. 31
En
trminos
ms
precisos,
esta
primera
hiptesis
nula
afirma
que
Pg. 32
Denotaremos por Yijk al k-simo individuo que en nuestra muestra ha sido asignado
al i-simo nivel del primer factor y al j-simo nivel del segundo factor. Tendremos
un valor de Yijk potencialmente distinto para cada uno de los individuos que
componen nuestra muestra.
kA
1
kA
kB
n
i =1 j =1
nij
kB
Y
i =1 j =1 k =1
ijk
ij
kB
1
kB
n
j =1
nij
Y
j =1 k =1
ijk
. Hay potencialmente k A
ij
valores distintos de Yi.. , uno por cada nivel del primer factor.
kA
1
kA
n
i =1
nij
Y
i =1 k =1
ijk
ij
Pg. 33
1
nivel del primer factor y en el j-simo nivel del segundo. Yij . =
nij
nij
Y
k =1
ijk
. Los
valores potencialmente distintos de Yij . son k A k B uno por cada elemento del
producto cartesiano de los conjuntos formados por los niveles de ambos factores.
Una vez establecida la terminologa propia del anlisis de varianza bifactorial podemos
proceder a analizar las causas por las que el valor de la variable dependiente de cada
individuo se desva del promedio general. Este es el objetivo del siguiente apartado.
1.3.4. Anlisis de las desviaciones de los individuos respecto a la media
global
Obviamente, la variable dependiente puede tomar valores diferentes en cada uno de los
individuos que componen la muestra seleccionada. De hecho, es esta variabilidad la que
estamos tratando de explicar en funcin de los niveles de los factores. Como primer
paso para alcanzar este objetivo vamos a analizar la desviacin del valor de la variable
dependiente respecto al promedio global para cada uno de los individuos que componen
la muestra, esto es, vamos a descomponer la diferencia Yijk Y... , a la que llamaremos
desviacin total y designaremos como DT, en la suma de cuatro elementos. En
concreto, vamos a considerar las siguientes diferencias:
Yi.. Y... , mide la diferencia entre el promedio de la variable dependiente en cada uno
de los k A niveles del primer factor y el promedio global. Recibe el nombre de
desviacin debida al primer factor y la denotamos por DA.
uno de los k B niveles del segundo factor y el promedio global. Recibe el nombre de
desviacin debida al segundo factor y la designamos como DB.
Pg. 34
Esta
diferencia
se
llama
individuo concreto de nuestra muestra el k-simo individuo clasificado en el isimo nivel del primer factor y en el j-simo nivel del segundo factor- y el valor
promedio de aquellos individuos clasificados en los mismos niveles que l. Recibe
el nombre de desviacin no explicada. Nos referiremos a ella utilizando el smbolo
DNE.
Definidas estas cuatro diferencias resulta trivial expresar la desviacin de cada
individuo respecto a la media global Yijk Y...
(Y
ijk
como su
suma, es decir,
Y... ) = (Yi.. Y... ) + (Y. j . Y... ) + (Yij . Yi.. Y. j . + Y... ) + (Yijk Yij . ) o de modo resumido,
DT=DA+DB+DAB+DNE.
Debe notarse que esta igualdad se cumple para todos y cada uno de los individuos de la
muestra y reparte la desviacin total de cada individuo respecto al promedio global
entre el conjunto de factores estudiados, su interaccin y el error aleatorio.
El siguiente paso consiste en agregar estas desviaciones para el conjunto de los
individuos que conforman la muestra de modo que tengamos una descomposicin de la
variacin total de la variable dependiente en funcin de los factores analizados.
Parecera lgico proceder a sumar las desviaciones para todos los individuos de la
muestra. Sin embargo, las propiedades bsicas de los promedios hacen que cuando
sumamos estas diferencias para el conjunto de todos los individuos de la muestra
obtengamos siempre el mismo resultado: la suma es nula. De este modo, la simple
adicin de las desviaciones para todos los individuos no nos sirve como medida de la
dispersin total de stos respecto a los promedios. Debemos evitar la compensacin de
los signos positivos y negativos y para ello optamos por calcular los cuadrados de las
desviaciones. Convertimos as cualquier valor (positivo o negativo) en no negativo,
evitando de este modo la mencionada y no deseada compensacin. Veremos con detalle
cmo hacerlo en el siguiente apartado.
Pg. 35
Si sumamos la desviacin total Yijk Y... para todos los individuos, obtenemos
siempre un valor nulo. En efecto,
(Y
kA
kB
nij
ijk
i =1 j =1 k =1
(Y )
kB
nij
ijk
i =1 j =1 k =1
nij
kB
kA
i =1 j =1 k =1
kB
nij
kA
i =1 j =1 k =1
kB
i =1 j =1
kB
n
i =1 j =1
kA k B
ij k A
n
i =1 j =1
kA
i =1 j =1 k =1
kA
kA
nij
kB
(Y ) = (Y ) (Y ) = 0
kB
nij
i =1 j =1 k =1
kA
ijk
kB
nij
i =1 j =1 k =1
kA
ijk
kB
nij
i =1 j =1 k =1
ijk
ij
Si sumamos Yi.. Y... , es decir la desviacin debida al primer factor para todos los
niveles del primer factor ponderada por el nmero de individuos clasificados en
cada nivel de este factor obtenemos tambin un valor nulo. Es decir,
n (Y
kA
i =1
i.
i ..
nij
nij
kA
k A kB
i =1
i =1
i =1 j =1 k =1
k A kB
i =1 j =1 k =1
n (Y
kB
j =1
.j
. j.
nij
kB
kA
kA
j =1
i =1
i =1 j =1 k =1
kA
kB
nij
i =1 j =1 k =1
(
)
n
Y
Y
+
Y
=
n
Y
n
Y
+
n
Y
ij ij .
i ..
. j.
...
j =1
j =1
j =1
j =1
j =1
Pg. 36
Por ltimo, algo muy similar ocurre si sumamos estas mismas desviaciones dentro
de cada uno de los k B niveles del segundo factor. En concreto:
kA
kA
kA
kA
(
)
n
Y
Y
+
Y
=
n
Y
n
Y
+
n
Y
ij ij .
i ..
. j.
...
ij ij . ij . j . ij ... nijYi.. =
i =1
i =1
i =1
i =1
i =1
] [
(Y
ijk
Y... ) = (Yi.. Y... ) + (Y. j . Y... ) + (Yij . Yi.. Y. j . + Y... ) + (Yijk Yij . )
2
Dado que la identidad DT = (DA + DB + DAB + DNE ) se cumple para cada uno de los
individuos de la muestra ocurrir lo mismo para DT 2 = (DA + DB + DAB + DNE )2 . En
consecuencia, la suma para todos los individuos del primer miembro de la igualdad
coincidir con la suma del segundo miembro, esto es
k A kB
n ij
kA kB
n ij
i =1 j =1 k =1
n ij
k A kB
nij
k A kB
nij
k A kB
nij
DA + DB + DAB + DNE
2
i =1 j =1 k =1
k A kB
i =1 j =1 k =1
i =1 j =1 k =1
i =1 j =1 k =1
k A kB
nij
+ 2 DA DAB + ... +
i =1 j =1 k =1
n ij
+ 2 DAB DNE
i =1 j =1 k =1
Las sumas correspondientes a los dobles productos cruzados de las desviaciones son
Anlisis de varianza. JGM. 9/3/04
Pg. 37
fundamental
n ij
DT
k A kB
i =1 j =1 k =1
del
n ij
anlisis
de
n ij
k A kB
varianza
k A kB
bifactorial
n ij
k A kB
se
resuma
en
nij
i =1 j =1 k =1
i =1 j =1 k =1
i =1 j =1 k =1
i =1 j =1 k =1
expresin matemtica es
nij
kB
kA
i =1 j =1 k =1
kB
nij
i =1 j =1 k =1
kB
(Y
kA
kB
nij
i =1 j =1 k =1
ijk
muestra.
total de la variable dependiente que queda explicada por los diversos niveles del
primer
factor.
nij
Su
nij
expresin
matemtica
es
kB
kA
kB
i =1 j =1 k =1
i =1 j =1 k =1
kA
kB
i =1
j =1
i =1
total de la variable dependiente que queda explicada por los diversos niveles del
segundo
factor.
Su
expresin
matemtica
es
nij
i =1 j =1 k =1
k A kB
nij
i =1 j =1 k =1
kB
j =1
kA
i =1
Pg. 38
n (Y
kB
j =1
.j
. j.
total de la respuesta que queda explicada por la existencia de una interaccin entre
los
dos
factores.
Su
expresin
matemtica
kB
nij
kA
kB
nij
i =1 j =1 k =1
i =1 j =1 k =1
kA
kB
es
Esta
i =1 j =1
n (Y
kB
j =1
ij
ij .
supone un conjunto de k A restricciones. Asimismo, para cada uno de los niveles del
n (Y
kA
i =1
ij
ij .
Yi.. Y. j . + Y... ) = 0 , lo
) (
)(
k Ak B k A + k B 1 = k A 1 k B 1 .
total de la respuesta que no ha podido ser explicada por los factores ni por su
Pg. 39
(Y
kA
interaccin. Su expresin es
kB
nij
i =1 j =1 k =1
ijk
libertad de esta suma de cuadrados podemos razonar considerando que los grados de
libertad de la suma total de cuadrados coincide con la suma de los grados de libertad
de las sumas de cuadrados en los que aqulla se descompone, es decir,
gl (STC ) = gl (SCA) + gl (SCB ) + gl (SCAB ) + gl (SCE ) . Siguiendo este razonamiento
CMA =
SCA
kA 1
CMB =
SCB
kB 1
CMAB =
CME =
SCAB
(k A 1)(k B 1)
SCE
n k Ak B
Pg. 40
Los cuadrados medios de cada una de las fuentes de variacin podran considerarse
como la parte que cada grado de libertad de la correspondiente suma de cuadrados
explica de la variable dependiente20.
TP
PT
En concreto, bajo el supuesto de que las hiptesis nulas correspondientes son ciertas se
cumple21 que:
TP
PT
STC
SCA
SCB
SCAB
(k A 1)CMA
(kB 1)CMB
(k A 1)(k B 1)CMAB
de libertad.
SCE
(n k AkB )CME
2
A partir de los cuadrados medios s podemos realizar comparaciones entre los diversos
factores en lo que se refiere a su capacidad para explicar los cambios en la variable
dependiente. Estas comparaciones entre los diversos cuadrados medios se realizarn a
travs de los estadsticos de contraste cocientes entre ciertos cuadrados medios- que
nos permitirn responder a la pregunta de si las hiptesis nulas que nos hemos
formulado son o no ciertas. A determinar cules son estos estadsticos de contraste esto
es, cules son los cocientes de cuadrados medios relevantes- se dedica el siguiente
apartado.
20
PT
Los cuadrados medios de los factores (A, B e interaccin) y del error constituyen estimaciones
TP
TP
21
PT
Pg. 41
Tal como hemos visto en el apartado anterior, ciertas funciones lineales de los
cuadrados medios se distribuyen en el muestreo siguiendo una distribucin 2 de
grados de libertad que varan segn sea el cuadrado medio considerado.
Por otra parte, necesitamos comparar unos cuadrados medios con otros, lo que podemos
conseguir calculando los cocientes entre ellos.
Sabemos asimismo que el cociente de dos 2 previamente divididas por sus grados de
libertad determina una F de Fisher-Snedecor. En concreto, si X e Y son dos variables
X
La seleccin de los cuadrados medios que deben compararse para dar respuesta a las
hiptesis nulas depende de si los factores que estamos considerando son fijos o
aleatorios.
Pg. 42
Se entiende que un factor es fijo cuando o bien se han tenido en cuenta todos los
posibles niveles o tratamientos de ese factor o bien el investigador slo tiene inters en
comparar el efecto de los niveles estudiados del factor.
Se entiende que un factor es aleatorio cuando los niveles que se han considerado para el
factor constituyen una muestra aleatoria de un universo hipotticamente infinito de
niveles al cual se desea generalizar los resultados obtenidos para esta muestra concreta
de niveles del factor.
En virtud de estas consideraciones, en un modelo bifactorial pueden plantearse las
siguientes tres situaciones22:
TP
PT
CMA
EC A =
=
CME
TP
22
PT
(k A 1)CMA
2 (k A 1)
(n k A k B )CME
2 (n k A k B )
(2k
=
A 1
2
(n k Ak B )
(k A 1)
= F(k A 1);(n k A k B )
(n k A k B )
Pg. 43
(kB 1)CMB
CMB
2 (k B 1)
=
ECB =
CME (n k Ak B )CME
2 (n k Ak B )
(2k
=
1)
2
(n k A k B )
(kB 1)
= F(k B 1);(n k A k B )
(n k Ak B )
A 1
)( k B 1)
2
(n k A k B )
( k A 1)( k B 1);( n k A k B )
(n k Ak B )
Si los niveles que se han considerado para ambos factores no son sino muestras
aleatorias de poblaciones hipotticamente infinitas de niveles de los factores, decimos
que nos encontramos ante un modelo de efectos aleatorios. En este caso, por razones
que escapan al alcance de estas notas y que se pueden consultar en la bibliografa, los
cuadrados medios que deben compararse para dar respuesta a las hiptesis planteadas
son los siguientes:
Para contrastar los efectos de los factores A y B, debemos comparar sus respectivos
cuadrados medios con el correspondiente a la interaccin.
Para contrastar el efecto de la interaccin hay que comparar su cuadrado medio con
el del error.
As, tendremos que bajo el supuesto de que las hiptesis nulas correspondientes son
ciertas se cumple:
CMA
EC A =
=
CMAB
(k A 1)CMA
2 (k A 1)
(k A 1)(k B 1)CMAB
2 (k A 1)(k B 1)
(2k
=
A 1
2
( k A 1)( k B 1)
(k A 1)
Pg. 44
CMB
EC B =
=
CMAB
(k B 1)CMB
2 (k B 1)
(k A 1)(k B 1)CMAB
2 (k A 1)(k B 1)
(2k
=
(2k
A 1
A 1
B 1
)( k B 1)
)( k B 1)
(k B 1)
2
(n k A k B )
( k A 1)( k B 1);( n k A k B )
(n k Ak B )
Por ltimo, cuando en uno de los factores el investigador no tiene inters ms all de los
niveles considerados mientras que desea extrapolar las conclusiones obtenidas en
relacin con los niveles del otro decimos que estamos en un modelo de efectos mixtos.
Supongamos que el primer factor (el A) es aleatorio y que el segundo (el B) es un factor
fijo.
En ese caso, el cociente apropiado para el primer factor (el aleatorio) es el que compara
CMA con CME; el cociente apropiado para el segundo factor (el fijo) es el que compara
CMB con CMAB y el cociente apropiado para la interaccin entre los factores es
CMAB/CME. Es decir, bajo el supuesto de que las hiptesis nulas relevantes son ciertas
se tiene que:
CMA
EC A =
=
CME
(k A 1)CMA
2 (k A 1)
(n k A k B )CME
2 (n k A k B )
CMB
EC B =
=
CMAB
(2k
=
2
(n k Ak B )
(k B 1)CMB
2 (k B 1)
(k A 1)(k B 1)CMAB
2 (k A 1)(k B 1)
A 1
(k A 1)
(n k A k B )
(2k
= F(k A 1);(n k A k B )
B 1
2
( k A 1)( k B 1)
(k B 1)
Pg. 45
A 1
)( k B 1)
2
(n k A k B )
( k A 1)( k B 1);( n k A k B )
(n k Ak B )
EC A =
CMA
f (k A 1);(n k A k B ); entonces se rechaza la hiptesis nula. En caso
CME
contrario se acepta23.
TP
PT
ECB =
CMB
f (k B 1);(n k A k B ); entonces se rechaza la hiptesis nula. En caso
CME
contrario se acepta.
EC AB =
CMAB
f (k A 1)(k B 1);(n k A k B ); entonces se rechaza la hiptesis nula. En caso
CME
contrario se acepta.
TP
23
PT
grados de libertad en el
Pg. 46
CMA
f (k A 1);(k A 1)(k B 1); entonces se rechaza la hiptesis nula. En caso
CMAB
contrario se acepta.
CMB
f (k B 1);(k A 1)(k B 1); entonces se rechaza la hiptesis nula. En caso
CMAB
contrario se acepta.
EC AB =
CMAB
f (k A 1)(k B 1);(n k A k B ); entonces se rechaza la hiptesis nula. En caso
CME
contrario se acepta.
Cuando un factor es aleatorio (A) y el otro es fijo (B) se tiene:
CMA
f (k A 1);(n k A k B ); entonces se rechaza la hiptesis nula. En caso
CME
contrario se acepta.
CMB
f (k B 1);(k A 1)(k B 1); entonces se rechaza la hiptesis nula. En caso
CMAB
contrario se acepta.
Hiptesis
sobre
la
EC AB =
interaccin:
CMAB
f (k A 1)(k B 1);(n k A k B ); entonces se rechaza la hiptesis nula. En caso
CME
contrario se acepta.
Pg. 47
Tabla 1
Ventas semanales en unidades segn la ciudad en que se encuentra el
supermercado
Ventas semanales
Ciudad A
529 658 793 514 663 719 711 606 461 529 498 663 604
495 485 557 353 557 542 614
Ciudad B
804 630 774 717 679 604 620 697 706 615 492 719 787
699 572 523 584 634 580 624
Ciudad C
672 531 443 596 602 502 659 689 675 512 691 733 698
776 561 572 469 581 679 532
Pg. 48
Antes de proceder a decidir por cul de las dos hiptesis apostamos debemos verificar el
cumplimiento de los requisitos de normalidad y homocedasticidad, condiciones
necesarias para poder efectuar un anlisis de varianza unifactorial.
3.5.
Comprobacin
de
los
requisitos
de
normalidad
homocedasticidad
1.3.5. Normalidad
Pg. 49
0,05
0,10
0,15
0,20
0,25
0,30
0,35
0,40
0,45
0,50
0,55
0,60
0,65
0,70
0,75
0,80
0,85
0,90
0,95
1,00
Distribucin
terica24
Diferencia
0,0153
0,1308
0,1863
0,2132
0,2217
0,2702
0,3200
0,3200
0,3660
0,4215
0,4215
0,6006
0,6080
0,6373
0,7808
0,7948
0,7948
0,9007
0,9135
0,9810
0,0347
0,0308
0,0363
0,0132
0,0283
0,0298
0,0300
0,0800
0,0840
0,0785
0,1285
0,0006
0,0420
0,0627
0,0308
0,0052
0,0552
0,0007
0,0365
0,0190
TP
PT
TP
24
PT
Los valores de la distribucin terica se obtienen de modo muy simple. Por ejemplo, veamos cmo
obtener el primero: P Z
353 577,55
= 0,0153 , donde 577,55 es el promedio de ventas en la
103,8
Pg. 50
n (Z
k
W =
nk
k 1
i =1
k ni
(Z
i =1 j =1
Z .. )
i.
Z i. )
ij
sima muestra.
Los clculos se detallan a continuacin:
Pg. 51
Tabla 3
Clculos para la prueba de homocedasticidad de Levene
Yij
Yi.
Z ij
Z i.
529
658
793
514
663
719
711
606
461
529
498
663
604
495
485
557
353
557
542
614
804
630
774
717
679
604
620
697
706
615
492
719
787
699
572
523
584
634
580
624
672
531
443
596
602
502
659
689
675
512
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
577,55
653
653
653
653
653
653
653
653
653
653
653
653
653
653
653
653
653
653
653
653
608,65
608,65
608,65
608,65
608,65
608,65
608,65
608,65
608,65
608,65
48,55
80,45
215,45
63,55
85,45
141,45
133,45
28,45
116,55
48,55
79,55
85,45
26,45
82,55
92,55
20,55
224,55
20,55
35,55
36,45
151
23
121
64
26
49
33
44
53
38
161
66
134
46
81
130
69
19
73
29
63,35
77,65
165,65
12,65
6,65
106,65
50,35
80,35
66,35
96,65
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
83,305
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
70,5
79,415
79,415
79,415
79,415
79,415
79,415
79,415
79,415
79,415
79,415
(Z
Z i. )
ij
1207,91
8,15
17462,30
390,26
4,60
3380,84
2514,52
3009,07
1105,23
1207,91
14,10
4,60
3232,49
0,57
85,47
3938,19
19950,15
3938,19
2280,54
2195,39
6480,25
2256,25
2550,25
42,25
1980,25
462,25
1406,25
702,25
306,25
1056,25
8190,25
20,25
4032,25
600,25
110,25
3540,25
2,25
2652,25
6,25
1722,25
258,08
3,12
7436,48
4457,57
5294,75
741,75
844,77
0,87
170,69
297,05
Pg. 52
691
733
698
776
561
572
469
581
679
532
608,65
608,65
608,65
608,65
608,65
608,65
608,65
608,65
608,65
608,65
82,35
124,35
89,35
167,35
47,65
36,65
139,65
27,65
70,35
76,65
79,415
79,415
79,415
79,415
79,415
79,415
79,415
79,415
79,415
79,415
8,61
2019,15
98,70
7732,56
1009,02
1828,85
3628,26
2679,62
82,17
7,65
n (Z
k
W =
nk
k 1
i =1
k ni
(Z
i =1 j =1
Z .. )
i.
Z i. )
ij
f k 1;n k ;
homocedasticidad si W f k 1;n k ; . En este caso f k 1;n k ; = f 2,57 ,0, 05 = 3,159 , por lo que
no existe evidencia suficiente como para rechazar la hiptesis de homocedasticidad. No
podemos rechazar que las ventas tengan la misma dispersin en las tres ciudades.
Se cumplen, pues, los requisitos de normalidad y homocedasticidad, lo que nos faculta
para poder continuar adelante con el anlisis de varianza.
Pg. 53
A partir de estos promedios vamos a analizar las causas por las que las ventas de los
supermercados en una semana concreta se desvan del promedio global de las ventas en
las tres ciudades. Vamos a descomponer la desviacin total respecto a la media DT- en
dos sumandos: la desviacin debida a que el supermercado se encuentra en una
determinada ciudad y, en consecuencia, la publicidad tiene un contenido determinado
DE- y la desviacin debida a causas ajenas al tipo de mensaje empleado en la
comunicacin DNE-.
La descomposicin de la desviacin total para el conjunto de observaciones se presenta
en la siguiente tabla:
Pg. 54
Tabla 4
Anlisis de las desviaciones respecto a la media global
VENTAS
CIUDAD
DT
DE
DNE
529
658
793
514
663
719
711
606
461
529
498
663
604
495
485
557
353
557
542
614
804
630
774
717
679
604
620
697
706
615
492
719
787
699
572
523
584
634
580
624
672
531
443
596
602
502
659
689
675
512
691
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3
3
3
-84,067
44,933
179,933
-99,067
49,933
105,933
97,933
-7,067
-152,067
-84,067
-115,067
49,933
-9,067
-118,067
-128,067
-56,067
-260,067
-56,067
-71,067
0,933
190,933
16,933
160,933
103,933
65,933
-9,067
6,933
83,933
92,933
1,933
-121,067
105,933
173,933
85,933
-41,067
-90,067
-29,067
20,933
-33,067
10,933
58,933
-82,067
-170,067
-17,067
-11,067
-111,067
45,933
75,933
61,933
-101,067
77,933
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
-35,517
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
39,933
-4,417
-4,417
-4,417
-4,417
-4,417
-4,417
-4,417
-4,417
-4,417
-4,417
-4,417
-48,550
80,450
215,450
-63,550
85,450
141,450
133,450
28,450
-116,550
-48,550
-79,550
85,450
26,450
-82,550
-92,550
-20,550
-224,550
-20,550
-35,550
36,450
151,000
-23,000
121,000
64,000
26,000
-49,000
-33,000
44,000
53,000
-38,000
-161,000
66,000
134,000
46,000
-81,000
-130,000
-69,000
-19,000
-73,000
-29,000
63,350
-77,650
-165,650
-12,650
-6,650
-106,650
50,350
80,350
66,350
-96,650
82,350
Pg. 55
733
698
776
561
572
469
581
679
532
3
3
3
3
3
3
3
3
3
119,933
84,933
162,933
-52,067
-41,067
-144,067
-32,067
65,933
-81,067
-4,417
-4,417
-4,417
-4,417
-4,417
-4,417
-4,417
-4,417
-4,417
124,350
89,350
167,350
-47,650
-36,650
-139,650
-27,650
70,350
-76,650
Tomemos como ejemplo las ventas durante la primera semana del supermercado que se
encuentra en la primera ciudad: en esta semana las ventas del supermercado fueron de
529 unidades y dado que la media global es 613,06, podemos decir que en esta semana
el supermercado de la ciudad A se qued 84,06 unidades por debajo de la media global.
Esta es su desviacin total. Por otra parte, sabemos que el promedio de ventas de este
supermercado a lo largo de las veinte semanas seleccionadas ha sido de
577,55
unidades, esto es, 35,517 unidades por debajo de la media global. Esta es la desviacin
explicada por el hecho de que el mercado se encuentra en la ciudad A o lo que es lo
mismo, la desviacin debida al hecho de emplear un mensaje de amplio horario en su
comunicacin-. Por ltimo, en esta semana concreta el supermercado ha vendido 48,55
unidades menos que su media en las veinte semanas. Esta es la desviacin no explicada.
La igualdad DT=DE+DNE se cumple, como se puede comprobar fcilmente, para todos
los individuos.
Verifiquemos que tambin se cumplen las restricciones que determinarn los grados de
libertad. Efectivamente:
(Y
3
20
i =1 j =1
ij
Y.. ) = 0
[(
) (
) (
)]
)
)
)
(
)
20
Y
Y
=
20
577
,
55
613
,
0
6
+
653
613
,
0
6
+
608
,
65
613
,
0
6
=0
i. ..
3
i =1
20
(Y1 j Y1. ) = 0
j =1
20
(Y2 j Y2. ) = 0
j =1
20
(Y3 j Y3. ) = 0
j =1
Pg. 56
DT
llegamos a la expresin
= DE 2 + DNE 2
o en modo abreviado
La suma total de cuadrados STC = (Yij Y.. ) es, en este caso la suma de 60
3
20
i =1 j =1
(Y
3
20
i =1 j =1
ij
Y.. ) = 0 ,
20
i =1 j =1
es la suma de 3 elementos
i =1
20(Y
3
i.
i =1
grados de libertad.
Por ltimo, SCE = (Yij Yi. )
3
20
i =1 j =1
20
(Y1 j Y1. ) = 0
j =1
20
potencialmente distintos sujeta a las tres restricciones (Y2 j Y2. ) = 0 . As, a esta
j =1
20
(Y3 j Y3. ) = 0
j =1
Pg. 57
La siguiente tabla muestra las sumas de cuadrados con sus correspondientes grados de
libertad:
Tabla 5
Descomposicin de la suma total de cuadrados y grados de libertad
Suma de cuadrados
(Y
Total
20
20(Y
3
Ciudad / contenido de la
comunicacin
i.
i =1
(Y
Error (E)
20
i =1 j =1
Y.. ) =564495,73
n 1 =59
Y.. ) =57512,23
k 1 =2
Yi. ) =506983,50
n k =57
ij
i =1 j =1
Grados de libertad
ij
Obsrvese que en la tabla anterior se cumple la igualdad STC = SCTR + SCE y tambin
se
cumple
una
igualdad
equivalente
para
los
grados
de
libertad
Pg. 58
En concreto, los cuadrados medios para los tratamientos y para el error son los que se
reflejan en la siguiente tabla:
Tabla 6
Cuadrados medios
Cuadrados medios
de la
n (Y
k
Ciudad/contenido
CMTR =
i.
i =1
(Y
k
CME =
Y.. )
= 28756,1
k 1
comunicacin
Error
i.
ni
i =1 j =1
ij
Yi. )
nk
= 8894,4
Ahora vemos que cada grado de libertad del tratamiento explica una mayor parte de la
variacin total que cada grado de libertad del error. A continuacin calcularemos el
estadstico de contraste que estudiar la relacin entre estos dos cuadrados medios.
CMTR
= 3,233 . Por otra parte, bajo la hiptesis nula de que las medias
CME
poblacionales de las ventas son las mismas en las tres ciudades es decir, el contenido
de la comunicacin no influye- sabemos que EC Fk 1;n k = F2,57 . Slo tenemos que
Pg. 59
determinar la probabilidad crtica del resultado que hemos obtenido en nuestra muestra.
Esta probabilidad crtica25 resulta ser 0,0468 lo que, en trminos matemticos significa
TP
PT
TP
25
PT
Pg. 60
Tabla 7
Diferencias entre las medias muestrales. Test de Scheff
Yi. Y j .
Ciudad 1
Ciudad 3
Ciudad 2
Ciudad 1
44,350
75,450
Ciudad 3
-44,350
31,100
Ciudad 2
-75,450
-31,100
Ahora, para cada celda debemos calcular la diferencia crtica de Scheff, que viene dada
por CDScheff =
(k 1) f k 1;nk ; CME 1
ni
1
nj
(k 1) f k 1;nk ; CME 2 =
ni
2
2 3,159 8894,4 = 5619,48 = 74,96 .
20
Este valor es el mismo para todas las comparaciones por el mismo tamao de muestra
en cada ciudad- As, la nica diferencia significativa (segn el criterio de Scheff) se da
entre las ciudades 1 y 2, o lo que es lo mismo, entre un contenido de la publicidad
centrado en la amplitud del horario y otro centrado en la calidad de los productos
ofertados.
Pg. 61
Tabla 8
Valor de la capacidad motriz tras recibir la terapia
Frmaco
NO
NO
8, 10, 9, 12, 10
Rehabilitacin
Suponiendo que la capacidad motriz de los pacientes era equivalente antes de iniciar el
tratamiento existe evidencia suficiente acerca de un efecto real de la rehabilitacin en
la recuperacin de la capacidad motriz? existe evidencia suficiente acerca de un efecto
real del frmaco en la recuperacin de la capacidad motriz? existe evidencia suficiente
acerca de la existencia de un efecto combinado (interaccin) entre el frmaco y la
rehabilitacin?
Pg. 62
promedio
global-.
Esta
primera
hiptesis
nula
se
expresa
as:
Pg. 63
Hiptesis sobre la interaccin entre los factores: el posible efecto que los factores
tienen sobre la variable respuesta es estrictamente aditivo, en el sentido de que el
efecto combinado de la rehabilitacin y el frmaco coincide con la suma de los
efectos individuales de la rehabilitacin y el frmaco. No existe un efecto adicional
debido a la combinacin de ambos tratamientos. Matemticamente, esta hiptesis se
formula del siguiente modo: ij = .. + ( i. .. ) + (.j .. ) (i,j ) {1,2} {1,2}.
Los siguientes apartados desarrollan con detalle el procedimiento para decidir si estas
hiptesis de partida son ciertas o existe evidencia suficiente para considerarlas falsas.
Y11. = 10,2
Y12. = 13,6
Y21. = 9,8
Y22. = 15,6
As, el promedio de capacidad motriz para todos los pacientes (promedio global) es de
12,3. Este promedio se reduce a 11,9 para aquellos pacientes a los que no se ha
Pg. 64
PT
Los resultados para las combinaciones de niveles de los dos factores indican que
los pacientes que no han tomado el frmaco pero han seguido un programa de
rehabilitacin tienen por trmino medio una capacidad motriz de 13,6
los pacientes que han recibido el frmaco pero no han seguido un programa de
rehabilitacin alcanzan una capacidad motriz de 9,8 por trmino medio.
quienes han seguido ambos tratamientos obtienen una capacidad motriz promedio
tras la terapia de 15,6 puntos.
TP
26
PT
Habra que conocer cul es el nivel de capacidad motriz del que parten los pacientes. El modelo supone
que no hay diferencias sustanciales entre los niveles de psicomotricidad inicial de unos y otros pacientes.
En ese sentido se trata de pacientes homogneos.
Pg. 65
FRMACO
REHABILITA
MOTRIZ
(A)
CIN (B)
10
NO
12
10
DT
DA
DB
DAB
DNE
NO
-2,3
-0,4
-2,3
0,6
-0,2
NO
NO
-0,3
-0,4
-2,3
0,6
1,8
NO
NO
-2,3
-0,4
-2,3
0,6
-0,2
NO
NO
-3,3
-0,4
-2,3
0,6
-1,2
10
NO
NO
-2,3
-0,4
-2,3
0,6
-0,2
15
NO
2,7
-0,4
2,3
-0,6
1,4
11
NO
-1,3
-0,4
2,3
-0,6
-2,6
13
NO
0,7
-0,4
2,3
-0,6
-0,6
15
NO
2,7
-0,4
2,3
-0,6
1,4
14
NO
1,7
-0,4
2,3
-0,6
0,4
NO
-4,3
0,4
-2,3
-0,6
-1,8
10
NO
-2,3
0,4
-2,3
-0,6
0,2
NO
-3,3
0,4
-2,3
-0,6
-0,8
12
NO
-0,3
0,4
-2,3
-0,6
2,2
10
NO
-2,3
0,4
-2,3
-0,6
0,2
18
5,7
0,4
2,3
0,6
2,4
14
1,7
0,4
2,3
0,6
-1,6
13
0,7
0,4
2,3
0,6
-2,6
16
3,7
0,4
2,3
0,6
0,4
17
4,7
0,4
2,3
0,6
1,4
Pg. 66
Su desviacin total respecto a la media global (12,3) resulta ser 2,3. En efecto, por
diversos motivos este paciente presenta una capacidad motriz inferior en 2,3 puntos
al promedio de todos los pacientes estudiados.
Pg. 67
decir, 0,2 puntos por debajo de la capacidad motriz promedio de su grupo. Esta
diferencia es la que se recoge en DNE.
Obviamente se cumple la igualdad DT=DA+DB+DAB+DNE. Adems, esta igualdad se
cumple para todos y cada uno de los 20 pacientes incluidos en el modelo.
En cuanto a las restricciones existentes sobre estas desviaciones que determinarn los
grados de libertad de las sumas de cuadrados, puede comprobarse fcilmente a partir de
los datos de la tabla anterior que:
(Y
2
ijk
i =1 j =1 k =1
n (Y
2
i =1
i.
i ..
Y... ) = 0
n (Y
n (Y
n (Y
j =1
.j
. j.
kB
j =1
ij
ij .
kA
i =1
ij
ij .
Pg. 68
Para evitar la compensacin de los signos optamos por elevar todas las desviaciones al
cuadrado y sumarlas para el conjunto de individuos. Sabemos tambin que la suma para
todos los individuos de la muestra de los elementos correspondientes a los dobles
productos cruzados en el cuadrado del cuatrinomio es nula. De aqu que la expresin de
la ecuacin fundamental del anlisis de varianza bifactorial se resuma en
STC=SCA+SCB+SCAB+SCE, siendo:
(Y
2
expresin matemtica es
i =1 j =1 k =1
ijk
n = nij = 20
elementos
distintos,
sujetos
la
restriccin
de
que
i =1 j =1
(Y
2
i =1 j =1 k =1
ijk
SCA o suma de cuadrados del primer factor. Representa la parte de la variacin total
de la variable dependiente que queda explicada por los diversos niveles del primer
(Y
2
i =1 j =1 k =1
i =1
n (Y
2
i =1
i.
i ..
resultan ser k A 1 = 1 .
(Y
2
. j.
i =1 j =1 k =1
Y...
= 10 (Y. j . Y... ) ,.
2
j =1
n (Y
2
j =1
.j
. j.
Pg. 69
dos
factores.
(Y
2
i =1 j =1 k =1
Su
expresin
matemtica
es
i =1 j =1
j =1
conjunto de 2 restricciones. Asimismo, para cada uno de los niveles del segundo
factor - j {1,2}- debe cumplirse que 5 (Yij . Yi.. Y. j . + Y... ) = 0 , lo que aade 2
2
i =1
SCE o suma de cuadrados de los errores, que representa la parte de la variacin total
de la respuesta que no ha podido ser explicada por los factores ni por su interaccin.
(Y
2
Su expresin es
i =1 j =1 k =1
ijk
cuadrados
en
los
que
aqulla
se
descompone,
con
es
decir,
lo
que
Las sumas de cuadrados para nuestro ejemplo y sus grados de libertad son:
Pg. 70
Tabla 10
Descomposicin de la suma total de cuadrados y grados de libertad
Suma de cuadrados
(Y
Total
kA
n (Y
i.
k A 1 =1
n (Y
.j
Y... ) =105,8
k B 1 =1
j =1
. j.
n (Y
Interaccin (AB)
kA
kB
i =1 j =1
ij
i ..
kB
Rehabilitacin (B)
ij .
(Y
Error (E)
kA
kB
nij
i =1 j =1 k =1
como
en
la
tabla
n 1 =20-1=19
Y... ) =3,2
kA
i =1
Ntese
ijk
i =1 j =1 k =1
Frmaco (A)
Y... ) =158,2
nij
kB
Grados de libertad
ijk
Yij . ) =42
anterior
se
cumple
(k
)(
1 kB 1 = 1
n k Ak B =20-4=16
tanto
la
igualdad
Pg. 71
En efecto, para que podamos comparar unas sumas de cuadrados con otras debemos
previamente dividirlas entre sus correspondientes grados de libertad obteniendo de este
modo los llamados cuadrados medios. Los cuadrados medios de cada una de las fuentes
de variacin podran considerarse como la parte que cada grado de libertad de la
correspondiente suma de cuadrados explica de la variable dependiente27.
TP
PT
El clculo de los cuadrados medios para los datos de nuestro ejemplo arroja el siguiente
resultado:
TP
27
PT
Los cuadrados medios de los factores (A, B e interaccin) y del error constituyen estimaciones
Pg. 72
Tabla 11
Cuadrados medios
Cuadrados medios
n (Y
kA
Frmaco (A)
CMA =
i.
i =1
(B)
CMB =
n (Y
(AB)
CMAB =
CME =
j =1
kB
ij
= 105,8
Yi.. Y. j . + Y... )
ij .
(k A 1)(k B 1)
(Y
kB
Y... )
. j.
kB 1
i =1 j =1
kA
Error (E)
.j
n (Y
kA
Interaccin
= 3,2
k A 1
kB
Rehabilitacin
Y... )
i ..
nij
i =1 j =1 k =1
ijk
Yij . )
= 7,2
n k Ak B
42
= 2,625
16
Pg. 73
(k A 1)CMA 2
k A 1
y que
(n k A k B )CME 2
2
n k Ak B
, por lo que
CMA
= Fk A 1;n k Ak B .
CME
CMA
, determinar su probabilidad crtica y
CME
Pg. 74
En nuestro caso EC A =
CMA
3,2
=
= 1,219 . La probabilidad crtica de este cociente
CME 2,625
Grfico 4
Densidad de probabilidad de una F de Fisher-Snedecor de 1 y 16 grados de
libertad
Pg. 75
Grfico 5
Diagrama de caja para la capacidad motriz segn se haya o no administrado el frmaco
Puntuacin en la prueba de psicomotricidad
20
18
16
14
12
10
8
6
N=
10
10
NO
Se le administra o no el frmaco
CMB
= Fk B 1;n k Ak B .
CME
Pg. 76
CMB
, determinar su probabilidad crtica y
CME
CMB 105,8
=
= 40,305 . La probabilidad crtica de este cociente
CME 2,625
Pg. 77
Grfico 6
Diagrama de caja para la capacidad motriz segn se haya o no seguido el programa de
rehabilitacin
20
18
16
14
12
2
14
10
8
6
N=
10
10
NO
se
ha
formulado
matemticamente
la
hiptesis
nula
Pg. 78
La decisin acerca de la veracidad de esta ltima hiptesis nula debe tomarse a partir de
la comparacin de CMAB y CME . En concreto, el cociente entre estos dos cuadrados
medios se distribuye bajo el supuesto de no interaccin como una F(k A 1)(k B 1);n k Ak B .
En nuestro ejemplo, el valor del cociente de estos cuadrados medios resulta ser
EC AB =
CMAB
7,2
=
= 2,743 , valor que deja a su derecha un rea de 0,117 en una F
CME 2,625
Grfico 7
Grfico de perfil (frmaco en abscisas)
15
14
13
12
11
El paciente acude o
10
NO
S
9
NO
Se le administra o no el frmaco
Pg. 79
Este primer grfico nos indica que en la muestra de pacientes la administracin del
frmaco tiene un efecto positivo sobre la capacidad motriz de aquellos que acuden a
rehabilitacin (la pendiente de la recta que discurre por la parte superior del grfico es
positiva) mientras que tiene un pequeo efecto negativo sobre los pacientes que no
acuden a rehabilitacin, que se manifiesta en la ligera pendiente negativa de la recta que
discurre por la parte inferior del grfico.
Grfico 8
Grfico de perfil (rehabilitacin en abscisas)
15
14
13
12
11
Se le administra o n
10
NO
S
9
NO
Por su parte, el segundo grfico nos muestra un efecto positivo de la inclusin del
paciente en un programa de rehabilitacin tanto si se la administra como si no se le
administra el frmaco. No obstante, el efecto positivo de la rehabilitacin es mayor en
aquellos pacientes a los que se le administra el frmaco (mayor pendiente) que en
aquellos a los que no se les administra.
En cualquier caso, la prueba de hiptesis nos lleva a afirmar que estas interacciones
presentes en la muestra no se pueden generalizar a la poblacin.
Pg. 80
Bibliografa
Anderson, D.R.; Sweeney, D.J.; Williams, T.A. (1999); Estadstica Para Administracin
y Economa (7 edicin); Thomson.
Brown, S.R.; Melamed, L.E. (1990); Experimental Design and Analysis; Sage.
Canavos, G.C. (1988); Probabilidad y Estadstica; McGraw-Hill.
Kuehl R.O. (2001); Diseo de Experimentos (2 edicin); Thomson.
Tejedor, F.J. (1999); Anlisis de Varianza; Cuadernos de Estadstica n 3; Hesprides.
Tejedor, F.J. (2003); Aplicaciones Diversas del Anlisis de Varianza; Cuadernos de
Estadstica n 24; Hesprides.
Pg. 81
Otros recursos
Weisstein.
E.W.;
MathWorld--A
HTU
UTH
Wolfram
Web
Resource.
http://mathworld.wolfram.com
HTU
UTH
UTH
HTU
UTH
Pg. 82
Anexo
Valores de los cuantiles superiores de la distribucin del estadstico D de
Kolmogorov-Smirnov
1
0,80
0,85
0,90
0,95
0,99
0,900
0,925
0,950
0,975
0,995
0,684
0,726
0,776
0,842
0,929
0,565
0,597
0,642
0,708
0,828
0,494
0,525
0,564
0,624
0,733
0,446
0,474
0,510
0,565
0,669
0,410
0,436
0,470
0,521
0,618
0,381
0,405
0,438
0,486
0,577
0,358
0,381
0,411
0,457
0,543
0,339
0,360
0,388
0,432
0,514
10
0,322
0,342
0,368
0,410
0,490
11
0,307
0,326
0,352
0,391
0,468
12
0,295
0,313
0,338
0,375
0,450
13
0,284
0,302
0,325
0,361
0,433
14
0,274
0,292
0,314
0,349
0,418
15
0,266
0,283
0,304
0,338
0,404
16
0,258
0,274
0,295
0,328
0,392
17
0,250
0,266
0,286
0,318
0,381
18
0,244
0,259
0,278
0,309
0,371
19
0,237
0,252
0,272
0,301
0,363
20
0,231
0,246
0,264
0,294
0,356
25
0,210
0,220
0,240
0,270
0,320
30
0,190
0,200
0,220
0,240
0,290
35
0,180
0,190
0,210
0,23
0,270
Frmula para
1,07
1,14
1,22
1,36
1,63
n > 35
Fuente: Canavos (1988)
Pg. 83