ANOVA Notas 05 2007

ANLISIS DE LA VARIANZA (ANOVA)
Notas
ndice
1. OBJETIVOS.....................................................................................................................1
2. INTRODUCCIN .............................................................................................................2
2.1. Modelo de constantes fijas (Modelo I)........................................................................................................ 2
2.2. Modelo de componentes de la varianza (Modelo II) .................................................................................. 2
3. NOMENCLATURA...........................................................................................................3
4. SUPOSICIONES .............................................................................................................3
5. LGICA DEL ANOVA......................................................................................................3
6. MODELOS DE EFECTOS FIJOS Y EFECTOS ALEATORIOS.......................................5
6.1. ANOVA de un factor con efectos fijos ........................................................................................................ 6
6.2. ANOVA de un factor con efectos aleatorios............................................................................................... 7
6.3. Solucin del ANOVA de un factor ............................................................................................................ 11
6.4. Resumen del ANOVA de un factor........................................................................................................... 13
6.5. Diferente tamao muestral: diseos no equilibrados ............................................................................... 15
6.6. Conclusiones estadsticas del ANOVA de un factor ................................................................................ 16
7. CONTRASTES ORTOGONALES PARA DISEOS EQUILIBRADOS ..........................17

7.1. Contrastes en diseos aleatorios ............................................................................................................. 18
8. ANOVA DE DOS FACTORES: DISEO COMPLETAMENTE ALEATORIZADO..........19

8.1. Resolucin del ANOVA de dos factores................................................................................................... 22
9. EJEMPLO 1 ...................................................................................................................27
9.1. Planteamiento........................................................................................................................................... 27
9.2. Diseo....................................................................................................................................................... 27
9.3. Procedimiento........................................................................................................................................... 27
9.4. Anlisis exploratorio (descriptivo)............................................................................................................. 28
9.5. Inferencia estadstica: ANOVA ................................................................................................................. 29
9.6. Conclusin ................................................................................................................................................ 33
10. EJEMPLO 2 .................................................................................................................33
1. Objetivos
Comprender los principios y suposiciones subyacentes al anlisis de la varianza (ANOVA);
Conocer los procedimientos de clculo de las suma de cuadrados, de los cuadrados medios o varianzas
y del estadstico F ;
Conocer los posibles contrastes de hiptesis;
Saber distinguir un diseo equilibrado de un diseo no equilibrado;
Saber distinguir un modelo de efectos fijos de un modelo aleatorio y de un modelo mixto;
Conocer el principio y procedimiento de clculo del estadstico F en cada uno de estos modelos.
2. Introduccin
El anlisis de la varianza (ANOVA) es uno de los tests estadsticos ms ampliamente utilizados para probar
la igualdad de ms de dos medias de la poblacin. Es decir:
Hiptesis:
H 0 : 1 = 2 = = k =
H 1 : por lo menos hay una media diferente al resto

Cuando se trata de comparar varias medias cabe la posibilidad de realizar comparaciones dos a dos
utilizando, por ejemplo el test t. Este procedimiento no es correcto. Si, como es habitual, se utiliza un valor
crtico del 5 % para comprobar la hiptesis de ausencia de diferencias entre las medias de las poblaciones,
el nivel de significacin real ser mucho mayor. Aunque todas las muestras procedieran de la misma
poblacin, una media del 5 % de los valores t superarn el valor crtico. Puede demostrarse que en 10
comparaciones independientes uno o ms valores de t superar el valor crtico t0,95 en un 40 % de
ocasiones. Es decir, es relativamente fcil rechazar la hiptesis nula por un valor espreo de t a causa de la
reiteracin de comparaciones. Una segunda razn es la prdida de precisin al estimar la varianza comn
cada dos grupos. Claro est que este problema se soluciona utilizando la varianza global, pero sigue en pie
el problema de la significacin.
2.1. Modelo de constantes fijas (Modelo I)

2.1.1. Clasificacin simple
Corresponde al caso de que un investigador desea comprobar la hiptesis nula de igualdad de las medios
de k poblaciones
, 2 , , k } Cada observacin o individuo se ha clasificado en una de las k
posibles categoras, grupos o poblaciones, todas ellas sometidas a anlisis. Por ejemplo:
Un laboratorio dispone de cuatro mtodos para determinar paratirina en plasma. Se desea comparar la
media de los resultados de una poblacin de referencia a la que se ha realizado las cuatro
determinaciones.
En un centro urbano existen tres laboratorios hospitalarios que realizan determinaciones de colesterol.
Se desea saber si la media anual de determinaciones diarias es la misma en los tres centros.
Se desea comparar la media de determinaciones de hematimetria solicitadas el pasado mes de enero

por los siete diferentes servicios quirrgicos de un hospital de tercer nivel.
2.1.2. Clasificacin mltiple

Cada observacin o individuo se ha clasificado en una de las k r s posibles categoras, grupos o
poblaciones (y nicamente en una de ellas), todas ellas sometidas a anlisis. Por ejemplo:
Un laboratorio dispone de cuatro mtodos para determinar paratirina en plasma y tres instrumentos
analticos donde implementarlos. Se desea comparar la media de los resultados de una poblacin de
referencia a la que se ha realizado las cuatro determinaciones en los tres instrumentos diferentes.
En un centro urbano existen tres laboratorios hospitalarios que realizan determinaciones de colesterol.
Se desea saber si la media anual de determinaciones diarias ha sido la misma en los tres centros
durante los ltimos cinco aos.
Se desea comparar la media de determinaciones de hematimetria solicitadas el pasado mes de enero

por los turnos de maana, tarde y noche de siete diferentes servicios quirrgicos de un hospital de
tercer nivel.
2.2. Modelo de componentes de la varianza (Modelo II)

El modelo de componentes de la varianza corresponde al caso de que un investigador desea comprobar la
hiptesis nula de igualdad de las medios de k poblaciones
, 2 , , k } cuando k puede ser
tericamente infinito, pero que en cualquier caso slo incluye en el estudio una muestra de las posibles
categoras, aunque esta seleccin sea aleatoria y representativa. Por supuesto, las observaciones
individuales pertenecen exclusivamente a una y solo una de las k posibles categoras, grupos o
poblaciones, todas ellas sometidas a anlisis. Aunque los procedimientos de clculo son idnticos, la
2
interpretacin conceptual es radicalmente diferente. En este caso se trata de generalizar las conclusiones a
todas las posibles categoras sin restringirse exclusivamente a las incluidas en el estudio, como sucede en
el modelo I. Por ejemplo:
Un laboratorio desea demostrar que la determinacin de un constituyente bioqumico se afecta por la

temperatura de conservacin. Prepara una serie de alcuotas de especmenes biolgicos a los que
pretende someter un perodo de tiempo variable a diferentes temperaturas. Obviamente, no puede
disponer de todas las temperaturas posibles ni de todos los perodos temporales posibles. Por tanto
elige como representativos de forma aleatoria cinco temperaturas y cinco perodos de tiempo. El
diseo corresponde a un experimento de dos factores analizable mediante un modelo II de ANOVA
cuyas hiptesis nulas seran ni la temperatura, ni el tiempo ni la combinacin de ambos influyen en la
conservacin del constituyente. Si se analizara desde la ptica del modelo I de ANOVA, la conclusin
sera la concentracin de constituyente no se afecta a 7 C, 17 C, 25 C, 30 C, ni a 32 C etc.
3. Nomenclatura
xi j
es la i-sima observacin en el j-simo tratamiento;
es el nmero de tratamientos, grupos o poblaciones estudiadas k = 2,,3, ;
nj
es el nmero de individuos en la jsima muestra. Si todas las k muestras tuvieran el mismo

contingente, se simplificar a n ;
k
N =n j
es el nmero total de observaciones o individuos: N =
xi j
es la suma de todas las observaciones en el j-simo tratamiento;
xii
es la suma de todas las observaciones del i-simo individuo;
xi j
es la media del j-simo tratamiento;
x ii
es la media global de todas las observaciones;
S i j SC i
es la suma de los cuadrados de la diferencia entre las observaciones y la media;
s 2b CMB
es la estimacin de la varianza entre grupos (b de between); CM indica cuadrados
j =1
n
j =1
= n1 + n2 +
+ nk
medios o media de los cuadrados;

2
w
s CMW es la estimacin de la varianza dentro de los grupos (w de within).
4. Suposiciones
1. Las k poblaciones son independientes;
2. El muestreo de cada una de las ( k > 2 ) poblaciones bajo estudio se hizo aleatoriamente;
3. Se trata de poblaciones normales o muestras grandes n j 30 j = 1, 2, , k ;

4. Las variaciones poblacionales son iguales 1 = 2 = = k = .
2
5. Lgica del ANOVA

Cuando se desea contrastar la equivalencia de varios tratamientos o grupos, se efectan observaciones en
muestras de poblaciones (grupos) caracterizadas por haber experimentado un tratamiento o proceder de un
grupo especfico. Las propiedades estadsticas de estas observaciones (localizacin, dispersin, forma)
son analizadas para extraer conclusiones acerca de la significacin del efecto. El contraste de las medias de
los subgrupos se realiza con el ANOVA.
3
Al final de estas notas se ejemplifica una aplicacin sencilla del ANOVA. Un escenario tpico del
laboratorio clnico es el expuesto en dicho ejemplo: un investigador desea conocer el efecto que tienen
varios tratamientos con frmacos sobre una magnitud bioqumica. Para ellos selecciona grupos de
individuos sometidos a estos tratamientos y realiza en cada uno de ellos una medicin de dicha magnitud
bioqumica. Si los tratamientos no afectan a la concentracin de la magnitud es de esperar que las medias
aritmticas de todos los grupos de individuos tratados sean iguales. Si un frmaco influye significativamente
sobre dicha magnitud, el test estadstico detectar esta diferencia como significativa. Es la misma situacin
que cuando se desea comparar diferentes grupos de diagnsticos, poblaciones, instrumentos o
procedimientos analticos, etc. Adems de la variable aleatoria concentracin del constituyente
(habitualmente continua), se asocia una variable clasificadora (habitualmente discreta y que no contiene
error). Esta variable clasificadora se denomina genricamente factor o tratamiento y los diferentes
valores que puede adoptar se denominan niveles o tratamientos. Los modelos ms sencillos contienen
un nico factor de clasificacin (modelos unifactoriales, o de una va one way). Sin embargo no son
excepcionales los modelos que contienen dos (bifactoriales o de dos factores) o ms factores (modelos
multifactoriales). La presencia de ms factores complica obviamente los clculos. En estas notas slo se
estudiarn los modelos con uno y dos factores.
La distribucin de una poblacin de datos se caracteriza completamente con unos parmetros estadsticos
que sintetizan toda la informacin que contiene dicha poblacin. En el caso de una distribucin normal,
media y varianza (o media y desviacin tpica) bastan para caracterizarla por completo. La inferencia
realizada con estos parmetros se denomina paramtrica en oposicin a la que se puede realizar sin
utilizarlos, la inferencia no paramtrica. Por lo general, cuando la distribucin subyacente es normal, la
inferencia paramtrica es ms potente y por tanto ms recomendable que la no paramtrica. sta debe
reservarse para cuando no se puede satisfacer los requisitos de los tests paramtricos.
Media y varianza son pues los dos parmetros que definen una distribucin normal. La varianza es el
parmetro de dispersin o escala de una poblacin que se estima en una muestra a partir de las conocidas
frmulas:
2 = E ( x )
=
s2
donde:
1
N
( y
i =1
1 N
= y 2i 2
N i =1
2
1 n
n
=
xi x )
x2
(
n 1 i =1
n 1
yi
son las observaciones en la poblacin;
xi
son las observaciones en una muestra;
2
s
N
n
es la varianza poblacional;
es la estimacin de la varianza en una muestra;
es el nmero de observaciones;
es el nmero de observaciones en una muestra;
es la media poblacional; y
es la media observada en la muestra.
(a) Si la variabilidad es aproximadamente la misma en cada grupo, su media ser un valor razonablemente
representativo de la variabilidad global. Por lo tanto, disponiendo de las k varianzas y calculando su
media se estima la varianza de la poblacin. Esta estimacin se denomina dentro de los grupos.
s 2w =
1 k 2
s j
k j =1
(b) Otro procedimiento de estimar la variabilidad global es calculando el error estndar de la las k medias
de cada uno de los k grupos que el investigador considera. Si las medias se calculan como:
4
xk =
donde:
xji
1
nk
nk
x
i =1
ki
es la i-sima observacin del grupo j ;
nj
es el nmero de observaciones efectuadas en el grupo j ;
xj
es la media de las observaciones efectuadas en el grupo j .
El error estndar de la media, es ( x ) , es el parmetro que se utiliza para definir la calidad de la

estimacin ya que relaciona el nmero de casos con la variabilidad. Se define como la desviacin tpica
de las medias de los k diferentes grupos, y se calcula como:
es ( x ) =
s
n
de donde se deduce:
sb2 = n ( es ( x ) )
A esta estimacin de la varianza global se denomina entre grupos

Parece razonable pensar que si los grupos han sido extrados de la misma poblacin, o que si el tratamiento
aplicado a cada uno de ellos no produce efectos significativamente diferentes, ambos procedimientos de
estimacin proporcionarn estimaciones de la varianza muy parecidas:
s 2w s 2b
s 2b
s 2w
Si por el contrario, algn grupo estudiado procede de otra poblacin o algn tratamiento aplicado produce
una respuesta distinta de las otras, estas estimaciones diferirn entre ellas y
s 2w s 2b
s 2b
s 2w
El test ANOVA se fundamenta en el clculo de este cociente, denominado estadstico F y su contraste con
el valor tabulado. La distribucin de F depende de los grados de libertad del numerador y del denominador
del cociente. Esencialmente, los grados de libertad son una forma de relacionar el nmero de observaciones
o grupos los datos con las entradas en las tablas estadsticas.
6. Modelos de efectos fijos y efectos aleatorios

El investigador puede utilizar todos los elementos posibles de la variable clasificadora (cuando sea,
lgicamente, un conjunto finito: por ejemplo, gnero que contiene slo dos elementos masculino o
femenino) o una parte de estos de criterios (por ejemplo, edad y limitarse a pacientes de menos de 20
aos, pacientes entre 20 y 50 aos y pacientes de ms de 50 aos, aunque es obvio que puede haber
ms grupos refinando el criterio edad). Como consecuencia existen dos modelos de ANOVA: el modelo fijo
y el modelos aleatorio.
En los modelos de efectos fijos los grupos de tratamiento bajo estudio (por ejemplo tres medicaciones
capaces de producir hepatotoxicidad) representan todos los tratamientos en que el investigador est
interesado. En las conclusiones puede llegarse a la evidencia de que existen (o no) diferencias significativas
entre la hepatotoxicidad marcada por una magnitud bioqumica, a causa del efecto producido por los
diferentes tratamientos estudiados.
En los modelos de efectos aleatorios, se seleccionan al azar los tratamientos para investigar entre un
conjunto de tratamientos mucho ms amplio. Supngase que se dispone de cientos de posibles
tratamientos farmacolgicos capaces de inducir hepatotoxicidad. Por las razones que sean, el investigador
5
se limita a seleccionar aleatoriamente tres de ellos. La conclusin a la que pretende llegar el investigador es
poder afirmar que existen (o no) pruebas significativas de diferencias entre las medias entre los efectos
inducidos por los tratamientos farmacolgicos en general sobre el hgado aunque de hecho slo se haya
estudiado un subconjunto. Bsicamente se trata de generalizar los resultados al conjunto de tratamientos ya
que para ello se ha seleccionado aleatoriamente un subconjunto para la investigacin.
En el modelo de efectos fijos las conclusiones aplican al tratamiento estudiado. Para los efectos aleatorios,
se requiere otra lgica, como se ver mas adelante.
6.1. ANOVA de un factor con efectos fijos

6.1.1. Suma de cuadrados
Para toda observacin x i j se pueden determinar las siguientes diferencias:
(a) diferencia de esta observacin a la media global:
xi j = x i j x
(b) diferencia de esta observacin a la media de su grupo
xi j = x i j x j
Restando ambas:
xi j xi j = ( x i j x ) ( x i j x j )
= xj x
= dj
d j = xi j xi j
xi j = d j + xi j
elevando al cuadrado
( x )
ij
= ( d j + xi j )
= d 2j + ( xi j ) + 2 d j xi j
2
y generalizando
k
( xi j ) = n d 2j +
2
j =1
Como que
x
j =1
ij
( xi j ) + 2 d j xi j
2
j =1
j =1
= 0 se tiene:
k
( xi j ) = n d 2j +
2
j =1
( x )
j =1
ij
y generalizando
k
( xi j )
= n d 2j
j =1 i =1
k
( x
j =1 i =1
SCT
j =1
k
j =1
= SCB
( x )
j =1 i =1
x ) = n( x j x ) +
2
ij
( x
j =1 i =1
SCW
ij
ij
xj)
donde:
( x )
j =1 i =1
ij
( x
j =1 i =1
ij
x)
SCT
expresa la variacin total de los sujetos que

intervienen en torno a la media;
n d 2j
j =1
n ( xj x )
SCB
expresa la variacin grupo a grupo, es decir de las
j =1
medias de cada grupo con relacin a la media

global.
k
( xij )
j =1 i =1
( x
j =1 i =1
ij
x j ) SCW expresa la variacin intragrupo, en torno a la media

2
del grupo;
6.1.2. Grados de libertad
suma de grados de
cuadrados libertad
SCT
( N 1) la nica condicin fija que han de respetar las N observaciones es el valor
de la media total. Sus grados de libertad, ( N 1) , pueden traducirse por el
clculo de la media total implica la prdida de un grado de libertad con
relacin al conjunto de las N puntuaciones
SCB
( k 1)
SCW
(N k)
ya que existen tantas medias de grupos como grupos, el conjunto de k

puntuaciones nicamente tendr como condicin fija el valor de la media total
en el clculo de la media de cada grupo se pierde un grado de libertad. Por
tanto se perdern tantos grados de libertad como grupos
Entre los grados de libertad se establece la misma relacin que para la suma de cuadrados:
g .l.T
( N 1)
g.l.B +
( k 1)
g.l.W
(N k)
6.1.3. Cuadrados medios o varianzas

Dividiendo las sumas de cuadrados por sus respectivos grados de libertad, se obtienen las varianzas.
La estimacin de la varianza total del modelo se har mediante:
(a) La varianza intergrupo, B , cuadrado medio intergrupo o cuadrado medio de los tratamientos es:
2
2B =
SCB
SCB
=
g.l.B
k 1
(b) La varianza intragrupo, W , cuadrado medio intragrupo, cuadrado medio del error experimental es:
2
W2 =
SCW
SCW
=
g .l.W
N k
6.2. ANOVA de un factor con efectos aleatorios

Diseo completamente aleatorizado es aquel en que los tratamientos son asignados al azar a las unidades
experimentales o viceversa. En el modelo unifactorial la variable analizada (dependiente) se hace depender
de un solo factor (variable independiente). El resto de causas de variacin se engloban en el componente
aleatorio del error experimental.
Una variable sobre la que acta un factor que se presenta bajo un nmero de k niveles o tratamientos y
con n unidades experimentales por grupo.
Suposiciones bsicas (similares a la regresin)
Aditividad;
Linealidad;
Normalidad;
Independencia;
Homogeneidad de varianzas.
La variable dependiente xi j puede ser representada por el modelo estadstico lineal:
xi j = + j + i j
donde: xi j
es el valor de la variable dependiente X del sujeto i para el tratamiento j ;
i = 1, 2, , n
j = 1, 2, , k
es el efecto medio verdadero;
es el efecto verdadero del j-simo tratamiento o nivel del factor A (la variable independiente
incluida en el modelo);
i j
efecto verdadero de la i-sima unidad del j-simo tratamiento (incluir los efectos de
variables extraas). Es una variable aleatoria N 0,
).
6.2.1. Suposiciones bsicas del modelo general
(a) i j se distribuye idnticamente y normal: i j DNI 0,
que xi j DNI i ,
) . Esto implica mutuamente (y viceversa)
(b) j :en el caso que el investigador est interesado en los k tratamientos o niveles del factor presentes
k
en el experimento se tendr
j =1
= 0 y el modelo se denominar modelo de efectos fijos o
modelo I. Si por el contrario, el investigador est interesado en una poblacin de niveles del factor e
los que nicamente est presente en el experimento una muestra aleatoria, entonces
j DNI ( 0, 2 ) y se denomina modelo de efectos aleatorios, modelo de componentes de la
varianza o modelo II;

(c) : el efecto total y verdadero producido por el nivel o tratamiento j es:
j = + j
donde
es la media poblacional de todas las observaciones de cada uno de los grupos
si
xi j = + j + i j
xi j = j + i j
por tanto:
i j = xi j j
y de
j = j
se obtiene:
xi j
= +
xi j
= +
(x
ij
que se estima:
) =
(x
ij
x) =
(x
i j
) + ( xi j j )
) + ( xi j j )
x ) + ( xi j x j )
xj = xj x
i j = xi j xi
1 n
1 n
x
=
x ( + i + i j ) = + i + i j
ij n
n j =1
j =1
xj =
x =
1
N
1
N
xi j =
j =1
+ i + i x =
j =1
N n
+
N N
i +i
j = a j = ( x j x )
La mejor estimacin de
(x
ij
) = ( j ) + ( x i j j )
se obtendr substituyendo las medias por la estimacin muestral:
(x
Y las estimaciones de j y i
ij
x ) = ( x j x ) + ( xi j x j )
son:
j = x j x 1
ij = x i j x j
x =
1
N
xi j =
1
N
( + j + i j ) = +
j = 1 i =1
n
j = ( x j x ) = ( + j + ij ) +
N
E ( j ) = +
donde:
E ( i ) = 0 ,ya que E ( j ) = +
n
N
n
N
j =1
j =1
n
N
j =1
j =1
+ i
+ E ( i )
( )
j
y por tanto, para que E
= j es preciso
que:
Para que la estimacin sea insesgada debe cumplir: x j =
1 n
1 n
x
=
(
ij n
n j =1
j =1
= + j + i j
n
N
j =1
j =1
Por lo tanto se requiere que
j =1
= 0
Generalizando (y sumando) los cuadrados de x i j x

n
( x i j x )
= 0
= 0 para estimar insesgadamente el parmetro j como j
(condicin para el modelo de efectos fijos).
) = (x
= n(x j x )
j =1 i =1
x ) + ( xi j x j )
j =1
( x
j =1 i =1
SCT
SCB
total
tratamientos
ij
xj)
SCW
+ error experimental
Teorema fundamental del ANOVA

Este teorema permite dividir la variacin total asociada a un conjunto de datos en dos componentes de
variabilidad:
(a) la asociada a los efectos de los tratamientos; y
(b) la asociada a otras fuentes de variacin (error experimental)
Se demuestra que son independientes los trminos de la suma:
k
n (x j x ) +
2
j =1
( x
j =1 i =1
i, j
xj)
y que divididos por siguen una distribucin k 1, n k . El cociente de dos independientes, divididas
2
por sus respectivos grados de libertad, se distribuye como:
F 1 , 2
donde: 1
es el nmero de grados de libertad del numerador; y
es el nmero de grados de libertad del denominador.
SCB
2k 1
2
SCW
2N k
2
luego:
SCB
2
k 1
SCW
2
N k
cuadrado medio intergrupos de tratamientos

grados de libertad ( k 1)
cuadrado medio intragrupo, o error experimental
grados de libertad ( N k )
F permite contrastar la H 0 que puede ser:
10
F k 1 , N k
H 0 : x1 = x 2 = = x k
H 0 : 1 = 0
es decir, no hay diferencias en trminos estadsticos entre las medias de distintos grupos, tratamientos o
niveles.
6.3. Solucin del ANOVA de un factor

6.3.1. Tabulacin
Recapitulando, la tabla original de datos aparecer como:
datos
1
x11
2
x21
x1 2
x2 2
x1 n
x
i =1
medias de grupo
x1
k
xk 1
xk 2
x2 n
totales de grupo
xk n
n
1i
i =1
2i
i =1
x2
ki
xk
6.3.2. Clculos
Recordando que
n
( xi j )
= n d 2j
j =1 i =1
k
j =1
( xi j x ) = n ( x j x ) +
j =1 i =1
SCT
j =1
= SCB
( x )
k
SCW
(a) Suma de cuadrados totales SCT

Se vio como la SCT era:
k
( x
j =1 i =1
desarrollando el segundo trmino:
11
ij
j =1 i =1
x)
ij
( x
se proceder ahora a calcular SCT , SCB , y SCW
SCT =
j =1 i =1
ij
xj )
( x
ij x)
j =1 i =1
( x
2
ij
j =1 i =1
k
+ x 2 2 xi j x )
xi2j + N x 2 2 x xi j
j =1 i =1
j =1 i =1
k n
xi j
k
n
j =1 i =1
2
= xi j + N
N
j =1 i =1
k n
xi j
2 j =1 i =1
k n
xi j
k
n
j =1 i =1

= xi2j +
N
j =1 i =1
k n
xi j
k
n
j =1 i =1
= xi2j
N
j =1 i =1
k n
xi j
j =1 i =1
2
N
k n
xi j
j =1 i = 1
(b) Suma de cuadrados totales SCB

Se vio como la SCB era:
k
SCB = n ( x j x )
j =1
desarrollando el segundo trmino:

k
n (x j x )
j =1
= n ( x 2j + x 2 2 x j x )
j =1
n x
j =1
2
j
+ k n x2 2x n x j
j =1
n
xi j
k
i =1
= n
n
j =1
k n
xi j
+ k n j =1 i =1
k n
x
xi j
i
j
k
i =1
+ j =1 i =1
=
n
N
j =1
2
n
xi j
k
i =1
ya que: n
n
j =1
k n
x
xi j
i
j
k
i =1 j =1 i =1
n
N
j =1
n
x
j =1 i =1
ij
y k n= N
12
k n
xi j
2 j =1 i =1
n
k xi j
n i =1
j =1 n
k n
k n
x
i j xi j
j =1 i =1
j =1 i =1
2
N
2
(c) Suma de cuadrados totales SCW

Se vio como la SCW era:
SCT = SCB + SCW

(d) Determinacin de grados de libertad
Total:
N 1
Tratamientos:
k 1
Error experimental:
N k
(e) Clculo de los cuadrados medios de los tratamientos ( CMB ) y del error experimental ( CMW )
CMB =
CMW =
suma de cuadrados de los tratamientos

SCB
=
grados de libertad de los tratamientos
k 1
suma de cuadrados del error experimental
SCW
=
grados de libertad del error experimental
N k
(f) Clculo de F
CMB
CMW
F =
que se interpretar frente a Fk 1 , N k
6.3.3. Tabla de ANOVA
Todos estos clculos se agrupan habitualmente en forma de tabla (de ANOVA) que tiene la siguiente forma:
fuente de
variacin
suma de
cuadrados
grados de
libertad
cuadrados
medios
intergrupo o
intertratamiento
SCB
k 1
CMB
intragrupo o error
experimental
total
SCW
N k
CMW
SCT
N 1
F =
CMB
CMW
6.3.4. interpretacin del estadstico F

La interpretacin del estadstico F calculado se comparar con el tabulado con ( k 1) y
(N k)
grados
de libertad al nivel de significacin elegido. Si el valor F obtenido es menor que el tabulado se acepta la
H 0 de que no existen diferencias en la media de los grupos o tratamientos (al menos en alguna de ellas).
6.4. Resumen del ANOVA de un factor

6.1.1. Modelo de efectos fijos
Cuando el investigador se interesa solamente por los niveles presentes en el experimento.
Restricin:
k
j =1
H 0 : toda variacin es debida al error experimental. Si se cumple, la media de los cuadrados (la varianza)
que depende de la fuente de variacin, los tratamientos, ser igual al error experimental y F=1. En caso
contrario los tratamientos aadirn variabilidad al error experimental.
Los cuadrados medios sern:
13
(a) Media de cuadrados totales. No intervendr en los clculos de F, pero por coherencia se la menciona:
N 1
( x
i =1 j =1
k
2
1
x
=
n
2j + 2
)
i, j
N
1
j =1
(b) Media de cuadrados esperada de los tratamientos, numerador en el clculo de F :

k
k
1
2
1
n (x j x j ) =
n 2j + 2
n 1 j =1
k 1 j =1
(c) Media de cuadrados esperada del error experimental, denominador en el clculo de F :
N k
( x
i =1 j =1
i, j
2
x j ) = 2
6.4.2. Modelo de efectos aleatorios

Cuando el investigador se interesa solamente por una poblacin de niveles (tericamente infinita) de la que
slo una muestra aleatoria est presente en el experimento. Es decir:
N ( 0, 2 )
H 0 : toda variacin es debida al error experimental. Si se cumple, la media de los cuadrados (la varianza)
que depende de la fuente de variacin, los tratamientos, ser igual al error experimental y F = 1 , porque el
CMB ser igual al CMW . En caso contrario, los tratamientos aadirn variabilidad al error experimental y
F >1 .
Los cuadrados medios sern:
(a) Media de cuadrados esperada de los tratamientos, CMB , numerador en el clculo de F :
k
1
2
n ( x j x j ) = n 2j + 2
k 1 j =1
Bajo la H 0 el CMB est formado por dos componentes: el error experimental y el error debido al
tratamiento, es decir al factor en estudio. En el trmino de la derecha, el primer sumando

corresponde al efecto de los tratamientos y el segundo al experimental.
(b) Media de cuadrados esperada del error experimental, CMW , denominador en el clculo de F :
N k
( x
i =1 j =1
i, j
2
x j ) = 2
Por tanto hay dos componentes: el error experimental y el error debido al tratamiento, es decir al factor
en estudio.
modelo
fuente de variacin
(en todos)
intragrupos (experimental)
H0
2
efectos fijos
tratamiento
efectos
aleatorios
tratamiento
14
CM bajo
H1
2
k
1
2
+
n 2j
k 1 j =1
2 + n 2
6.5. Diferente tamao muestral: diseos no equilibrados

Hasta ahora se han considerado diseos en que cada tratamiento consta de un mismo nmero de
observaciones experimentales. Esto es deseable porque simplifica los clculos pero no siempre es posible.
xi, j = + j + i, j
El modelo general ser:

donde: j = 1, 2, , k
son los tratamientos;
i = 1, 2, , n k
son los casos en cada grupo o tratamiento; y
N = n1 + n 2 + + n k =
n
j =1
es el nmero total de observaciones.
Las tablas sern similares:
fuente de
variacin
entre grupos
dentro de los
grupos o
error
experimental
total
suma de cuadrados
2
nj
k nj
x i j
i
j
k
i =1
j =1 i =1
SCB =
ni
N
j =1
g. de
l.
k 1
SCW = SCT SCB
k nj
x i j

j =1 i =1
nj
SCT = x 2i j
j =1 i =1
CMB =
CMW =
N k
CM bajo
H0
H1
CM
SCB
k 1
SCW
k 1
2 +
2
j =1
F
2
j
F=
CMB
CMW
k 1
N 1
Tabla de ANOVA para el modelo de efectos fijos en diseo no equilibrado
fuente de
variacin
suma de cuadrados
entre grupos
nj
k nj
x i j
i
j
k
i =1
j =1 i =1
SCB =
ni
N
j =1
dentro de los
grupos o
error
experimental
SCW = SCT SCB
total
k nj
x i j
j =1 i =1
nj
SCT = x 2i j
j =1 i =1
g. de
l.
CM
CM bajo la
H0
H1
k 1
CMB =
CMB
k 1
2 + n 0 2 2
N k
CMW =
SCW
k 1
N 1
Tabla de ANOVA para el modelo de efectos aleatorios en diseo no equilibrado
n 2j
k
1
j =1
2
donde: n 0 =
nj k
k 1 j =1
nj
j =1
2 =
2
N
n 2j
j =1
=
N ( k 1)
( SCE SCW ) N ( k 1)
k
N 2 n 2j
j =1
15
F=
CMB
CMW
Es decir, la nica diferencia est en que bajo la H 1 , la media de cuadrados es diferente.
6.6. Conclusiones estadsticas del ANOVA de un factor

Se pueden extraer tres tipos de conclusiones:
(a) hiptesis acerca del efecto de los tratamientos;
(b) estimaciones de los componentes de la varianza;
(c) estimacin de los efectos medios de los tratamientos (intervalos de confianza para las medias de los
tratamientos.
6.6.1. Hiptesis acerca del efecto de los tratamientos
La H 0 : no hay diferencias entre los efectos de los k tratamientos.
En el modelo de efectos fijos:
1 = 0 F =
media de cuadrados de los tratamientos

media de cuadrados del error experimental
frente a Ft 1, N t ( ) .
Si F < Ft 1, N t ( ) no se rechaza la H 0 ; si F > Ft 1, N t ( ) se rechaza la H 0 y se puede afirmar que
hay diferencias entre algunas medias.
Para investigar qu medias son diferentes se procede al estudio de comparaciones de contrastes entre
medias posteriores al ANOVA. Entre los tests ms populares estn:
(a) test del recorrido mltiple de Duncan para diseos equilibrados;
(b) test de la diferencia honestamente significativa de Tukey (HSD) o diferencia mnima significativa,
basado en la distribucin t ;
(c) test de Scheff que permite contrastar diferencias entre medias y entre combinaciones lineales, incluso
en diseos no equilibrados;
(d) test de comparaciones mltiples de Tukey, como el anterior permite contrastar diferencias entre medias
y entre combinaciones lineales, pero requiere que el diseo sea equilibrado.
1. Contrastes directos de medias
2. Contrastes de combinaciones lineares de medias
Las combinaciones lineares son sumas ponderadas cuyos pesos, ponderaciones o coeficientes no son
iguales. De forma genrica:
C m = w1 x1 + w 2 x 2 + + w k x k
donde: C m
es el valor de una determinada comparacin entre medias;
w1 , w 2 , , w k son las k ponderaciones para una determinacin dada, con el requisito de que
k
w
j =1
=0;
x1 , x 2 , , x k son las k medias de cada grupo.

Por ejemplo, en un experimento con tres grupos o tratamientos
( A, B ,C )
donde el ANOVA ha demostrado
que existen medias significativamente diferentes, se desea investigar las posibles (combinaciones) de
diferencias entre los mencionados tres grupos o tratamientos:
16
w1
w2
w3
Cm
A vs B
C 1 = 1 x1 + ( 1) x 2 + 0 x 3
A vs C
C 2 = 1 x1 + 0 x 2 + ( 1) x 3
B vs C
C 3 = 0 x1 + 1 x 2 + ( 1) x 3
A vs B vs C
1
1
C 4 = x1 + x 2 + ( 1) x 3
2
2
La interpretacin estadstica de la inferencia sobre diferencias entre medias viene dada por un test t :
t =
=
w12 w22
w2k
+
+ +
n1 n 2
nk
donde: s d = CMW
s d = CMW
w
j =1
1
( x1 x 2 )
sd
1
Cm
sd
que cuando se trata de un diseo equilibrado equivale a
2
j
y se compara con una t g . del . de w ( ) .
7. Contrastes ortogonales para diseos equilibrados

Ortogonal significa aqu independiente y representa que la suma de los coeficientes de dos comparaciones
es nula. Los contrastes con combinaciones lineales de medias cuya suma de coeficientes sean cero, se
denominan contrastes ortogonales.
Pueden realizarse a partir de las observaciones de los tratamientos porque la suma de cuadrados del
ANOVA se puede descomponer en k 1 sumas: tantas como grados de libertad de forma que a cada
componente le corresponde un grado de libertad.
Para comprobar la significacin de un contraste, se calculan:
Cm
1
n1
n2
nk
i =1
i =1
i =1
n1
n2
nk
i =1
i =1
i =1
n1
n2
nk
i =1
i =1
i =1
C 1 = w11 x i 1 + w1 2 x i 2 + + w1 k x i k
C 2 = w2 1 x i 2 + w2 2 x i 2 + + w2 k x i k
C k = wk 1 x i k + wk 2 x i k + + wk k x i k
Dos contrastes sern ortogonales cuando:

k
w
j =1
i1
wi 2 = 0
17
en general los contrastes sern ortogonales cuando:

k
w
j =1
ir
wi s = 0
En diseos equilibrados se denomina suma de cuadrados del contraste ( SCC ) al valor
SCC =
C 2j
k
w
j =1
donde: C j
2
i j
es un componente de la suma de cuadrados de los tratamientos con un grado de libertad.
Cada contraste es un componente de la varianza de la suma de cuadrados de los tratamientos debiendo

verificar:
SCB = SCC 1 + SCC 2 + + SCC k 1

Y puesto que el nmero de grados de libertad es uno, el valor de la media de cuadrados es el mismo que el
de la suma de cuadrados.
El valor del estadstico F correspondiente a un contraste es:
FC 1 =
FC 2 =
FC k 1 =
CMC 1
CMWE
CMC 2
CMWE
CMC k 1
CMWE
que son interpretados de la forma habitual comparando las F observadas con F1, k 1 .
7.1. Contrastes en diseos aleatorios
La H 0 es no hay diferencias entre los efectos medios de todos los tratamientos de la poblacin de la que
se obtienen al azar una muestra de k tratamientos incluidos en el estudio. Se trata, pues, de contrastar:
H 0 : 2 = 0
siguiendo los mismos clculos.
Diferencias entre modelos:
Ms conceptual que operativo;
Las conclusiones se refieren a poblaciones diferentes: en el modelo de efectos aleatorios permite mayor
generalizacin
En diseos ms complicados (bifactoriales, etc.) las F sern diferentes.

Estimacin de los componentes de la varianza
En ambos modelos, equilibrados o no, la mejor estimacin de la variabilidad de poblacin, , es el error
2
experimental CMW. En el modelo de efectos aleatorios es posible estimar como:

2
2 =
CMB CMW
coeficiente de 2 en CMB
denominador que vara segn est o no equilibrado.
18
7.1.1. Intervalos de confianza de las medias

La estimacin puntual de la media i de cada grupo es x i :
=
x
n
Y que CMW es una estimacin no sesgada de :
2
sx =
CMW
n
xi t
CMW
n
de donde:
donde: t
depende del nivel de significacin y de los grados de libertad de w .
8. ANOVA de dos factores: diseo completamente aleatorizado

Hasta este punto el modelo unifactorial aleatorizado con k tratamientos era:
i = 1, 2, , n

j = 1, 2, , k
xi j = + j + i j
Supngase que hay dos factores
( A, B)
cada uno de ellos con a y b niveles respectivamente. El modelo
pasa a ser ahora:
xi pq = + p + q + ( p q ) + i pq
donde: x i p q
i = 1, 2, , n
p = 1, 2, , a
q = 1, 2, , b
es el i-simo resultado de la unidad experimental con n observaciones, sometida a los

tratamientos A y B para la combinacin de tratamientos a b ;
es el efecto medio verdadero;

es el efecto (verdadero) del p-simo tratamiento o nivel del factor A (primera variable
independiente introducida en el modelo);
es el efecto (verdadero) del q-simo tratamiento o nivel del factor B (segunda variable
independiente introducida en el modelo);
p q es el efecto (verdadero) de la interaccin entre el p-simo tratamiento o nivel del factor A

y el q-simo tratamiento o nivel del factor B ;
i p q es el efecto (verdadero) de la i-sima unidad experimental en la p,q-sima combinacin de
tratamientos.
Asumiendo que:
es una constante
i p q DNI ( 0, 2 )
Suponiendo el modelo
xi pq = + p + q + ( p q ) + i pq
Las condiciones de i p q implican a su vez que:

19
x i p q DNI ( p q , 2 ) ,
donde:
pq
es la media global (verdadera) producida por la accin de A y B , la media de puntuacin
de cada casilla.
Se tiene, por tanto:
p q = + p + q + ( ) p q
xi p q = pq + p + q + ( ) p q + i p q
Definicin de los efectos principales y error experimental:
p = p
p = + p
q = q
q = +q
i p q = x i p q p q
Teniendo en cuenta:
xi p q = + p + q + ( ) p q + i p q
y
p = + p
q = +q
se tiene:
xi p q = + ( p ) + ( q ) + ( ) p q + ( x i p q p q )
Para que sea realmente una identidad, deber verificarse que:
( )
pq
= + pq p q
que definen la p,q-sima interaccin:
( ) p q
= + pq p q
( ) = + p q ( p ) ( p )
pq
p = + p
= ( + p q ) ( p + p )
q = + q
Es decir, la interaccin ( ) p q es el resultado de restar al efecto + p q
) de las casillas o celdas
los efectos principales p y q .

Volviendo al modelo general
xi p q = + ( p ) + ( q ) + ( + p q p q ) + ( xi p q p q )
cuya mejor estimacin se obtendr substituyendo las medias poblaciones por la medias muestrales:
xi pq = x + ( x p x ) + ( x q x ) + ( x + x pq x p x q ) + ( xi pq x pq )
es decir,
(x
i pq
(x
x ) + ( x q x ) + ( x + x pq x p xq ) + ( xi pq x pq )
se tiene que
20
pq
ap
= p
= xp x
bq
= q
= xq x
( ) p q
(a b) pq
= + p q p q
= x + x pq x p xq
Como quiera que se desea que tales estimaciones sean insesgadas, se tiene:
E(a p )
E (bq )
E(a b
) pq
a
a
=
0
a p = 0
p =1
p =1
b
b
= p
0
b
0
=
=
q
q
q =1
q =1
= q
a
a
( ) = 0
( a b ) = 0
= ( ) p q
pq
pq
p =1
p =1
( ) p q = 0 ( a b ) p q = 0
q =1
q =1
Elevando al cuadrado y sumando la expresin
(x
i pq
(x
x ) + ( x q x ) + ( x + x pq x p xq ) + ( xi pq x pq )
y teniendo en cuenta que la suma de los productos cruzados se anula, se tiene
(x
i pq
suma de cuadrados totales

a
= b n (x p x ) +
2
variacin debida al factor A
p =1
+ a n ( xq x ) +
2
variacin debida al factor B
q =1
+ n ( x + x p q x p x q ) +
2
variacin debida a la interaccin
p =1 q =1
( x
i =1 p =1 q =1
i pq
x pq )
error experimental
Cada una de las sumas de cuadrados es independiente de las restantes;
Cada una de las sumas de cuadrados, divida por
se distribuye como una donde son los
grados de libertad:
SCA
2a 1
2
SCB
2b 1
2
SC ( AB )
2a 1 , b 1
2
SCW
2N ab
2
21
Por tanto,
SCA
a 1
SCB
CMB =
b 1
CMA =
CM ( AB ) =
CMW =
SC ( AB )
( a 1)( b 1)
SCW
N ab
y como:
SCA
2
g . de l. de A
SCB 2
g . de l. de B
2g . de l . de A
2g . de l . de B
= Fg . de l . de A , g . de l . de B
se tiene:
SCA
( a 1) F
CMA
=
a 1 , N ab
SCW
CMW
N
a
b
(
)
SCB
( b 1) F
CMB
=
b 1 , N ab
SCW
CMW
N
a
b
(
)
8.1. Resolucin del ANOVA de dos factores
En este punto, la descomposicin de la suma de cuadrados es en tres partes:
(a) Los factores;
(b) La interaccin entre factores;
(c) El error experimental.
Es decir,
SCW =
( x
i =1 p =1 q =1
=
i pq x )
SCT = n ( x p q x )
p =1 q =1
( x )
i pq
i =1 p =1 q =1
p =1 q =1
(x )
i pq
n a b
x i p q
i =1 p =1 q =1
n a b
x i p q
i = 1 p =1 q =1
SCB = SCW SCT

donde: N =
x
i =1 p =1 q =1
i pq
Con lo que la tabla de ANOVA adquiere este nuevo aspecto (por ejemplo, en el caso en que el factor A
tiene dos niveles y el B tres niveles:
22
ap
a1
bq
totales de
grupo
totales de grupo
por efectos B
a2
b1
b2
b3
b1
b2
b3
x111
x1 2 1
x1 3 1
x 2 11
x2 21
x2 31
x11 2
x1 2 2
x1 3 2
x21 2
x2 2 2
x2 3 2
x11 n
x1 2 n
x1 3 n
x21 n
x2 2 n
x2 3 n
x11 i
x21i
i =1
x
p =1 i = 1
i =1
x1 2 i
x1 2
q =1 i =1
x1 3
p =1 i =1
x21
p 3i
q =1 i =1
p2i
i =1
x1 q i
x11
x2 3 i
i =1
p =1 i =1
x1 3 i
p1i
i =1
totales de
grupo por
efectos A
medias de
grupo
x2 2 i
i =1
x2 2
2qi
x2 3
En los totales de grupo figuran los resultados de sumar los valores de todas las observaciones para cada
combinacin de tratamientos.
El objetivo de los diseos factoriales es determinar qu parte de la variacin entre grupos (o tratamientos)
es atribuible a cada uno de los factores en estudio y que parte a la interaccin.
( A + B ) )no deben ser

( A B ) ). La suma de los
Los efectos conjuntos del factor A y del factor B (que aqu se representa como
confundidos con el efecto de la interaccin (que aqu se representa como
cuadrados que cuantifica los efectos debidos a cada uno de los factores y a la interaccin entre ellos ser:
2
2
n a b
n a b
x i p q x i p q
a
b
i =1 p =1 q = 1
i =1 p =1 q = 1
SC ( A + B ) =
n
N
p =1 q =1
La suma de cuadrados que cuantifica los efectos de los factores principales A y B ser, respectivamente:
2
2
b n
n a b
x1 q i x i p q
a
q =1 i =1
i =1 p =1 q =1
SC ( A ) =
b
n
N
p =1
23
2
2
a n
n a b
x1 q i x i p q
b
p =1 i =1
i =1 p =1 q =1
SC ( B ) =
an
N
q =1
Restando estas dos sumas de cuadrados a la correspondiente a los efectos conjuntos se obtendr la suma
de cuadrados de la interaccin entre A y B :
SC ( A B) = SC ( A + B ) ( SC ( A ) + SC ( B ) )
Hasta ahora los grados de libertad asociados a cada fuente de variacin eran:
fuente de variacin
entre grupos o tratamientos
ab 1
error experimental (intragrupo)
N ab
total
N 1
Verificndose que
N 1 = ( a b 1) + ( N a b )
Cuando aparece la interaccin entre A y B , hay que descomponer tambin los grados de libertad
correspondientes a la fuente de variacin entre grupos o tratamientos entre los factores principales y la
interaccin:
fuente de variacin
grupo o tratamiento A
grupo o tratamiento B
interaccin ( A B )
( a 1)( b 1)
total entre grupos o tratamientos
ab 1
Verificndose que
a b 1 = ( a 1) + ( b 1) +
a 1
b 1
( ( a 1)( b 1) )
Con la suma de cuadrados y los grados de libertad pueden calcularse las medias de cuadrados y elaborarse
la tabla de ANOVA completa
fuente de
variacin
entre grupos
SC
CM
SC ( A )
a 1
CM ( A )
SC ( B )
b 1
CM ( B )
SC ( A B )
( a 1)( b 1)
CM ( A B )
interaccin
( A B)
ab 1
total entre grupos o tratamientos

intragrupos
(experimental)
total
SCW
N ab
SCT
N 1
CMW
Las suposiciones respecto a los parmetros en un diseo factorial de dos factores pueden adoptar las
siguientes formas:
ambos efectos son fijos (modelo I);
ambos efectos son aleatorios (modelo de componentes de la varianza o modelo II);
un efecto es fijo y el otro aleatorio (modelo mixto o modelo III).
24
En el de efectos fijos (modelo I), el investigador est interesado en comprobar la significacin de los a
niveles del factor o tratamiento A y los b niveles del factor o tratamiento B (todos ellos presentes en el
experimento u observacin) adems de la interaccin
( A B)
entre ambos factores.
En el de efectos aleatorios (modelo de componentes de la varianza o modelo II), el investigador est

interesado en comprobar la significacin de los efectos del tratamiento A a travs de una muestra de a
niveles de este factor o tratamiento escogidos aleatoriamente entre todos los posibles (tericamente
infinitos) y los efectos del tratamiento B a travs de una muestra de b niveles de este factor o tratamiento
escogidos aleatoriamente entre todos los posibles (tericamente infinitos), adems de la interaccin
( A B)

En el modelo de efectos mixtos (modelo III), el investigador est interesado en comprobar la significacin de
los efectos de un tratamiento (por ejemplo, el A ) cuyos niveles estn todos ellos presentes en el
experimento u observacin y los efectos de otro tratamiento (por ejemplo, el B ) a travs de una muestra de
b niveles de este factor o tratamiento escogidos aleatoriamente entre todos los posibles (tericamente
infinitos), adems de la interaccin
( A B)
Si se cumple la H 0 , la varianza esperada de todas las fuentes de variacin ( A) , ( B ) , ( A B ) ,
( ) . Si no se cumple la
a la varianza del error experimental
) ser igual
H 0 , se debe a que alguno de los factores
principales o su interaccin aaden una variacin adicional a . Segn cada modelo, estas varianzas o
cuadrados medios bajo la H 0 o bajo la hiptesis alternativa H 1 son:
2
intragrupos (experimental)
H0
2
CM bajo
H1
2
entre grupos
2 + n b
modelo
fuente de variacin
(en todos)
efectos fijos
2p
p =1
+ na
q =1
interaccin
efectos
aleatorios
entre grupos
efectos mixtos
entre grupos
b 1
( ) p q
+ n
p =1 q =1 ( a 1) ( b 1)
a
2 + n b 2 + n 2
2 + n a 2 + n 2
2 + n 2
interaccin
3
( A B)
2q
a 1
( A B)
+ nb
2
p =1
interaccin
( A B)
2p
a 1
+ n 2
2 + n a 2
2 + n 2
Bajo estos modelos se pueden contrastar las siguientes hiptesis
Se considerar nicamente la posibilidad de que por ejemplo sea A el factor de efectos fijos y B el factor
de efectos aleatorios. En caso contrario basta con intercambiar la notacin, cosa que obviamente es trivial,
salvo que exista un factor con preeminencia sobre el otro (modelos jerrquicos).
25
modelo
( ) p q
2
efectos fijos
2p = 0
2q = 0
efectos aleatorios
2 = 0
2 = 0
2 = 0
efectos mixtos
2p = 0
2 = 0
2 = 0
=0
El cociente entre cuadrado medio estudiado y el cuadrado medio intragrupos o error experimental seala la
importancia relativa de este componente
fuentes de
variacin
factor A
CM ( B )
CMW
F=
CM ( B )
CM ( A B )
CM ( A B )
CMW
F=
CM ( A B )
CM (W )
F=
factor B
interaccin
modelo
efectos aleatorios
CM ( A )
F=
CM ( A B )
efectos fijos
CM ( A )
F=
CMW
( A B)
F=
efectos mixtos
CM ( A )
F=
CMW
CM ( B )
F=
CM ( A B )
F=
CM ( A B )
CM (W )
Si en el modelo de efectos fijos el contraste de hiptesis concluye que la interaccin no es significativa,

puede aadirse a la suma de cuadrados de la interaccin la suma de cuadrados del error experimental de
modo que, dividiendo por el nmero de grados de libertad resultante:
( a 1)( b 1) + ( N a b ) = N a b + 1
2
se pueda estimar la variacin experimental ( CMW ) o y reformular el modelo:
xi p q = + p + q + i p q
En caso de que no exista interaccin significativa, se complica la interaccin porque el significado de efecto
principal se diluye (de hecho, la interaccin se puede considerar otro efecto ms) y porque el clculo de
F pudiera resultar inapropiado ya que los cuadrados medios pueden estar sesgados.
Si en el modelo de efectos aleatorios el contraste de hiptesis concluye que la interaccin es significativa,
puede estimarse la varianza respectiva de cada factor:
SC ( A ) = s 2 + n s 2( A B ) + b n s 2( A)
SC ( B ) = s 2 + n s 2( A B ) + a n s 2( B )
SC ( A B ) = s 2 + n s 2( A B )
donde: s ( AB ) =
2
s ( A) =
2
2
( B)
SC ( A B ) SCW
;
n
SC ( A ) SCW n s 2( A B )
bn
SC ( B ) SCW n s 2( A B )
an
SC ( A ) SC ( A B )
;
bn
SC ( B ) SC ( A B )
.
an
26
Por ltimo, si en el modelo de efectos mixtos, el contraste de hiptesis concluye que la interaccin es
significativa, puede estimarse la varianza respectiva de cada factor (teniendo en cuenta en el caso que se
considera que el factor A es fijo y por tanto no tiene variabilidad):
SC ( B ) = s 2 + a n s 2( B )
SC ( A B ) = s 2 + n s 2( A B )
2
donde: s ( AB )
tiene el mismo valor de antes; y:
s 2( B ) =
SC ( B ) SCW
.
an
9. Ejemplo 1
9.1. Planteamiento
Se desea comparar las diferencias en las concentraciones de un marcador de hepatopata (AST) en
pacientes sometidos a cuatro tratamientos mdicos.
El investigador plantea realizar un experimento consistente en medir este constituyente del plasma en
cuatro grupos de pacientes afectados de una determinada enfermedad a los que se ha tratado con sendos
frmacos que se identificarn como A , B , C y D .
9.2. Diseo
El investigador decide utilizar un diseo de anlisis de la varianza de efectos fijos, unifactorial y equilibrado.
9.3. Procedimiento
Para verificar o rechazar la hiptesis de que los tratamientos no afectan a la concentracin de AST, se
selecciona un total de N = 100 pacientes a los que asigna n j = 25 (diseo equilibrado) a cada uno de los
cuatro grupos de forma aleatoria y procede a la determinacin en cada paciente la concentracin cataltica
de AST.
A efectos de este ejemplo se asumir que los valores analticos se distribuyen segn la ley normal. Los
resultados (ficticios) obtenidos son:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
26,589
43,612
26,349
17,307
20,943
19,471
31,357
31,792
31,567
15,326
28,888
12,096
22,201
29,285
39,556
16,127
28,982
34,015
46,446
45,859
24,438
14,570
11,693
24,439
44,798
18,366
28,361
34,189
21,264
32,307
14,567
16,095
40,438
25,171
52,711
45,328
40,628
27,844
32,657
21,342
20,344
32,478
19,800
22,725
26,718
33,168
32,435
11,454
34,995
25,977
25,151
18,511
47,200
31,339
34,920
34,085
5,385
8,735
27,345
32,120
27
16
17
18
19
20
21
22
23
24
25
28,875
27,510
28,356
18,327
27,052
25,377
40,554
1,487
27,422
29,795
32,479
27,120
11,047
32,268
10,966
22,431
34,271
39,297
26,474
34,551
37,659
31,658
20,548
35,363
27,480
12,639
21,196
17,529
34,848
14,616
25,232
22,046
35,406
21,375
26,263
18,562
22,184
28,235
38,872
16,642
9.4. Anlisis exploratorio (descriptivo)

El estudio estadstico descriptivo realizado con el programa MS-Excel es:
Media
26,044 27,870 27,695 26,306
Error tpico
1,816
2,100
2,093
1,949
Mediana
27,422 28,361 26,718 26,263
Moda
#N/A
#N/A
#N/A
#N/A
Desviacin estndar
9,078 10,500 10,466
9,745
Varianza de la muestra
82,408 110,240 109,539 94,968
Curtosis
1,338 -0,673 -0,237
0,119
Coeficiente de asimetra
-0,530
0,027
0,593 -0,267
Rango
42,125 35,480 40,072 41,815
Mnimo
1,487 10,966 12,639
5,385
Mximo
43,612 46,446 52,711 47,200
Suma
651,093 696,759 692,380 657,640
Cuenta
25
25
25
25
Nivel de confianza (95,0%)
3,747
4,334
4,320
4,023
La misma informacin proporcionada por el paquete estadstico R es:
A
Min.
: 1.487
1st Qu.:20.943
Median :27.422
Mean
:26.044
3rd Qu.:29.795
Max.
:43.612
B
Min.
:10.97
1st Qu.:21.26
Median :28.36
Mean
:27.87
3rd Qu.:34.19
Max.
:46.45
C
Min.
:12.64
1st Qu.:20.34
Median :26.72
Mean
:27.70
3rd Qu.:34.85
Max.
:52.71
D
Min.
: 5.385
1st Qu.:21.375
Median :26.263
Mean
:26.305
3rd Qu.:33.168
Max.
:47.200
La representacin grfica, el diagrama de cajas es el grfico que proporciona ms informacin y ms visual,

utilizando el paquete estadstico R es la siguiente. Los grupos A a D se identifican como 1 a 4. En
ordenadas se representa el valor numrico de la variable medida, AST.
28
50
40
30
20
10
0
Del grfico de cajas y del anlisis descriptivo se deduce que la media es prcticamente idntica en todos los
grupos, as como la dispersin a pesar de ser considerablemente amplia.
9.5. Inferencia estadstica: ANOVA

En ANOVA se desea comprobar la siguiente hiptesis:
H 0 : 1 = 2 = 3 = 4
H 1 : las medias no son todas iguales al menos hay una que no lo es

= 0, 05
Si las medias son iguales (si es cierta la H 0 : 1 = 2 = = k = ) se interpretar como que todos los
pacientes proceden de la misma poblacin, que no existen diferencias significativas entre los cuatro cuadros
patolgicos, que pueden combinarse entre ellos, etc.
El ANOVA compara la variacin dentro de las muestras con la variacin entre las muestras para evaluar la
igualdad de las medias de la poblacin. Si las observaciones dentro de una muestra son de valores
similares (poca variacin interna) y las medias son diferentes a travs de muestras (gran variacin
intermuestral) entonces se dice que existe una diferencia significativa entre las medias de la poblacin.
Para demostrar la H 0 se calculan dos estimaciones de la varianza global de la poblacin :
2
(a) Una estimacin de la varianza dentro de los tratamientos que es independiente de H 0 : no hay que
suponer que las medias son iguales y se tratan por separado.
(b) Una estimacin de la varianza entre tratamientos que se basa en suponer que la H 0 es cierta(las
medias son iguales) y se hace un pool de datos para estimar la varianza.
9.5.1. Notacin
Antes de proseguir con el ejemplo, conviene repasar la notacin utilizada:
es el nmero de tratamientos, en este ejemplo, k = 4 ;
nj
es el nmero de observaciones realizadas en cada uno de los k grupos de tratamiento;
29
es el nmero total de observaciones. Es la suma de las n j observaciones realizadas:
N =
n
j =1
xi j
= n1 + n2 +
+ nk
es la i-sima observacin en el j-simo tratamiento. Por ejemplo: la tercera observacin del

cuarto tratamiento es 11,454
xi j
es la suma de todas las observaciones en el j-simo tratamiento, por ejemplo
x i 4 = 657,6400085
xii
es la suma de todas las observaciones del i-simo individuo;
xi j
es la media del j-simo tratamiento, por ejemplo x i 3 = 27,695 ;
x ii
es la media global de todas las observaciones, en el ejemplo: x ii = 425,403 ;
S i j SC i
es la suma de los cuadrados de la diferencia entre las observaciones y la media;
s 2b CMB
es la estimacin de la varianza entre grupos (b de between); CM indica cuadrados

medios o media de los cuadrados;
2
w
s CMW es la estimacin de la varianza dentro de los grupos (w de within)

9.5.2. Suposiciones
1. Las muestras son aleatorias de cada una de las tres poblaciones bajo estudio;
2. La distribucin de la AST es aproximadamente normal;
3. Las tres poblaciones son independientes;
4. Las varianzas de las poblaciones son iguales:
12 = 22 =
= 2k
9.5.3. Seleccin del estadstico

El estadstico a calcular es F , la proporcin entre la varianza entre grupos y la varianza dentro de los
grupos:
F =
s 2b
s 2w
CM b
CM w
Los grados de libertad del numerador ( g . de l. 1 ) y del denominador ( g . de l. 2 ):
g . de l. b = b = k 1
g . de l. w = w = N k
es decir,
g . de l. b = b = k 1 = 3
g . de l. w = w = N k = 96
9.5.4. Regla de decisin
En ANOVA se rechaza la H 0 (no hay diferencias entre las medias de las subpoblaciones) si el estadstico
es mayor que el valor crtico F 1 , 2 ( ) que se encuentra en las correspondientes tablas.
La regla de decisin es:
30
Rechazar H 0 si F F 1 , 2 ( ) y, alternativamente, no rechazar H 0 si F F 1 , 2 ( )

9.5.5. Procedimiento de clculo
Si se deseara realizar los clculos manualmente, utilizando por ejemplo una hoja de clculo, se dispondrn
tantas filas como casos y las columnas que corresponden a los clculos intermedios:
n
x
A
xx
(x x)
26,59
0,546
0,298
43,61
-38,796
1505,138
28,98 -81,258 6602,815 16,10 -93,443 8731,643 32,43 -62,534 3910,452
26,35
26,349
694,286
34,02
34,015
1157,041 40,44
40,438
17,31
-2680,57 7185428,8 46,45
46,446
2157,273 25,17
20,94
36,425
45,86
45,859
2103,040 52,71
19,47
19,471
379,109
24,44
31,36
31,357
983,252
14,57
31,79
31,792
1010,712
-6,035
B
xx
(x x)
16,13 -11,743
C
xx
137,896 14,57 -13,128
(x x)
172,341 33,17
D
xx
(x x)
6,862
47,090
1635,218 11,45
11,454
131,201
25,171
633,557 34,99
34,995
1224,626
52,711
2778,417 25,98
25,977
674,830
24,438
597,239 45,33
45,328
2054,582 25,15
25,151
632,584
14,570
212,283 40,63
40,628
1650,638 18,51
18,511
342,653
11,69
11,693
136,715 27,84
27,844
775,276 47,20
47,200
2227,880
31,57
31,567
996,461
24,44
24,439
597,251 32,66
32,657
1066,509 31,34
31,339
982,153
10
15,33
15,326
234,882
44,80
44,798
2006,868 21,34
21,342
455,481 34,92
34,920
1219,387
11
28,89
28,888
834,526
18,37
18,366
337,294 20,34
20,344
413,878 34,08
34,085
1161,768
12
12,10
12,096
146,304
28,36
28,361
804,329 32,48
32,478
1054,808 5,39
5,385
29,002
13
22,20
22,201
492,867
34,19
34,189
1168,909 19,80
19,800
392,049
8,73
8,735
76,299
14
29,29
29,285
857,621
21,26
21,264
452,162 22,72
22,725
516,403 27,35
27,345
747,774
15
39,56
39,556
1564,658
32,31
32,307
1043,723 26,72
26,718
713,865 32,12
32,120
1031,710
16
28,87
28,875
833,742
32,48
32,479
1054,894 37,66
37,659
1418,194 25,23
25,232
636,666
17
27,51
27,510
756,819
27,12
27,120
735,492 31,66
31,658
1002,236 22,05
22,046
486,045
18
28,36
28,356
804,085
11,05
11,047
122,030 20,55
20,548
422,209 35,41
35,406
1253,613
19
18,33
18,327
335,876
32,27
32,268
1041,215 35,36
35,363
1250,518 21,38
21,375
456,899
20
27,05
27,052
731,825
10,97
10,966
120,253 27,48
27,480
755,163 26,26
26,263
689,755
21
25,38
25,377
643,980
22,43
22,431
503,163 12,64
12,639
159,735 18,56
18,562
344,554
22
40,55
40,554
1644,621
34,27
34,271
1174,530 21,20
21,196
449,258 22,18
22,184
492,121
23
1,49
1,487
2,211
39,30
39,297
1544,262 17,53
17,529
307,249 28,23
28,235
797,209
24
27,42
27,422
751,966
26,47
26,474
700,896 34,85
34,848
1214,407 38,87
38,872
1511,046
25
29,79
29,795
887,713
34,55
34,551
1193,753 14,62
14,616
213,631 16,64
16,642
276,967
Las medias de cada tratamiento son
xi j =
1
nj
ni
x
i =1
ij
es decir
A
B
C
D
suma
26,044
27,870
27,695
26,306
2,636
La media global es
xii
1
=
N
nj
x
j =1 i =1
31
ij
es decir:
xii
1
=
N
nj
x
j = 1 i =1
ij
1
2697,87 = 26,979
100
Para calcular la suma de cuadrados entre grupos se suman las diferencias al cuadrado entre las medias
de cada tratamiento y la media global
SCB =
n (x
j =1
ij
x ii )
que en el ejemplo representan:
SCB =
n (x
j =1
x ii ) = 25 2,636 = 65,892
2
ij
La suma de cuadrados dentro de los grupos (tambin denominada cuadrados debidos al error) se calcula
sumando las diferencias al cuadrado de cada observacin y la media de su grupo respectivo:
SCW =
ni
( x
ij
j =1 i =1
xi j )
De modo que la suma de cuadrados dentro de los grupos ser:
A
B
C
D
Suma (SCW)
1977,8
2645,749
2628,928
2279,242
9531,7
La suma de cuadrados total se calcula sumando las diferencias al cuadrado entre cada observacin y la
media global:
SCT =
ni
(x
j =1 i =1
ij
xii )
Pero teniendo en cuenta que:
SCT = SCB + SCW

puede calcularse directamente:
SCT = 65,892 + 9531, 7 = 9597,6

9.5.5. Organizacin de los clculos
Con el fin de organizar los clculos se acostumbra a establecer una tabla. Las dos siguientes forman parte
de la respuesta del programa MS Excel:
RESUMEN
grupos
recuento
suma
promedio
varianza
A
B
C
D
25
25
25
25
651,093
696,758
692,380
657,640
26,043
27,870
27,695
26,305
82,407
110,239
109,538
94,968
32
fuente de
variacin
ANLISIS DE VARIANZA
suma de grados de media de F
cuadrados libertad cuadrados
Entre grupos
Dentro de los grupos
65,891
9531,710
3
96
Total
9597,602
99
21,963 0,221
99,288
probabilidad valor crtico

de F
0,881
2,699
Por su parte el paquete estadstico R ofrece el siguiente resultado:

Response: z$AST
Df
Sum Sq
z$factor
3
65.9
Residuals 96
9531.7
Mean Sq
22.0
99.3
F value
0.2212
Pr(>F)
0.8814
9.6. Conclusin
Se acepta la hiptesis nula H 0 ya que el valor observado de F es inferior al valor crtico para el nivel de
probabilidad fijado, = 0, 005 . En otras palabras, se dispone de suficiente evidencia (evidencia
significativa) para demostrar que la afectacin heptica debida a la influencia de los tratamientos A, B, C no
es la misma.
10. Ejemplo 2
El investigador selecciona otras cuatro entidades patolgicas y realiza idntico experimento. Los resultados
encontrados ahora son:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
18,76
28,66
41,34
46,39
30,84
20,51
29,94
24,12
18,52
11,10
16,37
33,93
27,30
8,58
25,90
11,82
27,18
1,35
31,82
29,55
53,49
40,35
40,88
48,99
35,39
29,94
62,82
53,74
54,58
58,49
43,66
53,03
31,90
29,92
51,42
47,36
27,74
59,72
49,00
44,09
30,53
21,59
13,6
38,19
37,22
30,3
22,82
21,88
12,87
29,62
23,08
44,55
27,3
28,87
19,39
39,15
44,28
28,56
21,1
22,22
60,81
41,92
35,65
42,75
46,25
33,42
53,77
51,35
56,53
57,73
47,09
50,58
30,44
48,74
58,63
46,41
39,43
37,36
40,24
44,39
33
21 19,87 47,21
22 22,17 71,33
23 34,29 45,10
24 21,36 39,17
25 21,43 57,10
La estadstica descriptiva en el programa MS-Excel es:
E
Media
Error tpico
Mediana
Moda
Desviacin estndar
Varianza de la muestra
Curtosis
Coeficiente de asimetra
Rango
Mnimo
Mximo
Suma
Cuenta
Nivel de confianza(95,0%)
Y en el paquete estadstico R:
E
F
Min.
: 1.35
Min.
:27.74
1st Qu.:18.76
1st Qu.:40.35
Median :24.12
Median :47.36
Mean
:24.12
Mean
:47.06
3rd Qu.:29.94
3rd Qu.:53.74
Max.
:46.39
Max.
:71.33
29,78
12,62
32,57
6,049
22,83
45,73
47,24
50,36
54,11
50,93
24,125
2,022
24,123
#N/A
10,112
102,245
0,409
-0,052
45,041
1,352
46,393
603,113
25
4,174
47,057
2,210
47,359
#N/A
11,048
122,065
-0,323
0,021
43,592
27,742
71,334
1176,427
25
4,561
G
Min.
: 6.049
1st Qu.:21.590
Median :27.300
Mean
:26.439
3rd Qu.:30.530
Max.
:44.550
El correspondiente diagrama de cajas es:
34
26,439
1,957
27,297
#N/A
9,784
95,718
-0,229
0,017
38,497
6,049
44,546
660,982
25
4,038
H
Min.
:30.44
1st Qu.:41.92
Median :47.09
Mean
:46.87
3rd Qu.:51.35
Max.
:60.81
H
46,874
1,595
47,090
#N/A
7,974
63,591
-0,487
-0,232
30,371
30,438
60,809
1171,850
25
3,292
70
60
50
40
30
20
10
0
El ANOVA correspondiente, ya en forma de tabla es:
RESUMEN
grupos
recuento
suma
promedio
varianza
E
F
G
H
25
25
25
25
603,113
1176,427
660,982
1171,850
24,125
47,057
26,439
46,874
102,245
122,065
95,718
63,591
ANLISIS DE VARIANZA
fuente de
variacin
suma de grados de media de

F
cuadrados libertad cuadrados
Entre grupos
Dentro de los grupos
11821,922
9206,841
3
96
Total
21028,763
99
3940,641 41,1
95,905
probabilidad
valor crtico
de F
0,000
2,699
Analysis of Variance Table

Response: z2$AST2
Df
Sum Sq
Mean Sq
F value
Pr(>F)
z2$Factor2
3 11822.5
3940.8
41.091
< 2.2e-16 ***
Residuals
96
9207.0
95.9
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
35
Concluyndose que al ser la F observada (41,09) mayor que la F tabulada (2,70), existen diferencias
significativas entre las medias de los cuatro grupos de patologa considerados en este experimento
unifactorial, de efectos fijos y equilibrado.
36

ANOVA Notas 05 2007

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

ANOVA Notas 05 2007

Cargado por

Copyright:

Formatos disponibles

ANLISIS DE LA VARIANZA (ANOVA)

7. CONTRASTES ORTOGONALES PARA DISEOS EQUILIBRADOS ..........................17

8. ANOVA DE DOS FACTORES: DISEO COMPLETAMENTE ALEATORIZADO..........19

10. EJEMPLO 2 .................................................................................................................33

Comprender los principios y suposiciones subyacentes al anlisis de la varianza (ANOVA);

Conocer los posibles contrastes de hiptesis;

Saber distinguir un diseo equilibrado de un diseo no equilibrado;

Saber distinguir un modelo de efectos fijos de un modelo aleatorio y de un modelo mixto;

H 1 : por lo menos hay una media diferente al resto

2.1. Modelo de constantes fijas (Modelo I)

, 2 , , k } Cada observacin o individuo se ha clasificado en una de las k

Se desea comparar la media de determinaciones de hematimetria solicitadas el pasado mes de enero

2.1.2. Clasificacin mltiple

Se desea comparar la media de determinaciones de hematimetria solicitadas el pasado mes de enero

2.2. Modelo de componentes de la varianza (Modelo II)

, 2 , , k } cuando k puede ser

Un laboratorio desea demostrar que la determinacin de un constituyente bioqumico se afecta por la

es la i-sima observacin en el j-simo tratamiento;

es el nmero de tratamientos, grupos o poblaciones estudiadas k = 2,,3, ;

es el nmero de individuos en la jsima muestra. Si todas las k muestras tuvieran el mismo

es el nmero total de observaciones o individuos: N =

es la suma de todas las observaciones en el j-simo tratamiento;

es la suma de todas las observaciones del i-simo individuo;

es la media del j-simo tratamiento;

es la media global de todas las observaciones;

es la suma de los cuadrados de la diferencia entre las observaciones y la media;

es la estimacin de la varianza entre grupos (b de between); CM indica cuadrados

medios o media de los cuadrados;

s CMW es la estimacin de la varianza dentro de los grupos (w de within).

3. Se trata de poblaciones normales o muestras grandes n j 30 j = 1, 2, , k ;

5. Lgica del ANOVA

son las observaciones en la poblacin;

son las observaciones en una muestra;

es la i-sima observacin del grupo j ;

es el nmero de observaciones efectuadas en el grupo j ;

es la media de las observaciones efectuadas en el grupo j .

El error estndar de la media, es ( x ) , es el parmetro que se utiliza para definir la calidad de la

A esta estimacin de la varianza global se denomina entre grupos

6. Modelos de efectos fijos y efectos aleatorios

6.1. ANOVA de un factor con efectos fijos

expresa la variacin total de los sujetos que

expresa la variacin grupo a grupo, es decir de las

medias de cada grupo con relacin a la media

x j ) SCW expresa la variacin intragrupo, en torno a la media

ya que existen tantas medias de grupos como grupos, el conjunto de k

6.1.3. Cuadrados medios o varianzas

6.2. ANOVA de un factor con efectos aleatorios

Suposiciones bsicas (similares a la regresin)

La variable dependiente xi j puede ser representada por el modelo estadstico lineal:

es el valor de la variable dependiente X del sujeto i para el tratamiento j ;

es el efecto medio verdadero;

variables extraas). Es una variable aleatoria N 0,

6.2.1. Suposiciones bsicas del modelo general

(a) i j se distribuye idnticamente y normal: i j DNI 0,

) . Esto implica mutuamente (y viceversa)

= 0 y el modelo se denominar modelo de efectos fijos o

j DNI ( 0, 2 ) y se denomina modelo de efectos aleatorios, modelo de componentes de la

varianza o modelo II;

es la media poblacional de todas las observaciones de cada uno de los grupos

se obtendr substituyendo las medias por la estimacin muestral:

Para que la estimacin sea insesgada debe cumplir: x j =

Por lo tanto se requiere que

Generalizando (y sumando) los cuadrados de x i j x

= 0 para estimar insesgadamente el parmetro j como j