Documentos de Académico
Documentos de Profesional
Documentos de Cultura
BIOMETRA AVANZADA
Notas de clase
2010
2
1. Introduccin y repaso de notacin del anlisis de varianza
Cuando planeamos un estudio cientfico podemos realizar un experimento o un estudio
observacional. En el experimento nosotros decidimos qu tratamiento recibe cada
unidad, mientras que en el estudio observacional el tratamiento ya viene asignado a la
unidad. Esto implica que en el experimento podemos hablar con mayor confianza de
causa-efecto, mientras que en el estudio observacional es ms difcil estar seguros de
que nuestro tratamiento es la causa de lo que estamos observando.
A 22 20 21 18 16 14 Y1 111 Y1 18.5
B 12 14 15 10 9 Y2 60 Y2 12.0
C 7 9 7 6 Y3 29 Y3 7.25
Y 200
La notacin que usaremos ser la siguiente: tenemos t tratamientos (en este caso t 3 ),
cada uno con ni repeticiones (en este caso n1 6, n2 5 y n3 4 ).
i i ni n
SCDentro=SCResidual=SCError=SCRes Yij Yi SCTot-SCTrat
2
i, j
3
Y2
SCTot Yij2
2
3062 200 395.3333
i, j
n 15
Yi2 Y2 1112 602 292 2002
SCTrat 317.0833
i ni n 6 5 4 15
SCRes SCTot-SCTrat=78.2500
H 0 : 1 2 ... t
H a : al menos una i es diferente
4
2. Diseos completamente aleatorizados y en bloques completos
aleatorizados
El anlisis de la varianza discutido anteriormente requiere independencia de todas
las observaciones. En un experimento, esto se logra realizando una aleatorizacin
completa de los tratamientos a las unidades experimentales (es decir, cada unidad
experimental tiene la misma probabilidad de recibir cualquiera de los tratamientos,
independientemente del tratamiento asignado a unidades vecinas). Este diseo se llama
completamente aleatorizado (DCA). La versin observacional anloga consiste en
tomar muestras aleatorias de cada uno de los grupos o poblaciones.
5
La notacin que usaremos ser la misma que para el DCA: tenemos t tratamientos, cada
uno con n repeticiones (=bloques). En este caso Yij denota la observacin del
i simo tratamiento en el bloque j. Ahora tendremos una fuente adicional de variabi-
lidad: los bloques. Las sumas de cuadrados se calculan de la siguiente manera:
i, j
6
3. Supuestos del anlisis de la varianza
Para que las conclusiones obtenidas de un anlisis de varianza sean vlidas se deben
satisfacer ciertas condiciones (supuestos). En la prctica nunca estamos seguros que estas
condiciones se satisfacen en un problema dado, pero usando los datos observados
podemos verificar (aproximadamente) si los supuestos se cumplen o no.
Los modelos lineales para ANOVA que hemos estudiado pueden verse como casos
especiales del modelo:
Yij ij ij
donde ij representa la media de la observacin ij-sima (por ejemplo en un DCA media
general, ij i ) y ij el error experimental (o efecto de la ij-sima unidad
experimental, o efecto ambiental).
7
Para obtener residuos en InfoStat debemos marcar en las opciones del anlisis de
varianza Guardar Residuos, Guardar Predichos, Guardar Residuos Estudentizados,
y Guardar Abs(Residuos). Los residuos son los definidos anteriormente, y dependen,
por supuesto, del diseo experimental usado. Los valores predichos son Yij , los residuos
estudentizados son los residuos divididos por su desviacin estndar (como siempre
tienen media 0, es una forma de estandarizarlos), y los abs(residuos) son los valores
absolutos de los residuos (recordemos que hay residuos positivos y negativos). Al
seleccionar estas opciones, se generarn nuevas columnas en los datos incluyendo estos
valores.
Una vez que tenemos los residuales podemos graficarlos mediante histogramas o el Q-Q
plot. Mediante este ltimo grfico, si los residuos son normales (y por lo tanto, los errores
lo son), se grafican los valores de los residuos (o residuos estudentizados) versus los
valores tericos que esperaramos si la distribucin fuese normal. Si la distribucin es
normal, entonces observaramos los puntos alineados en una recta. Si hay problemas,
entonces los puntos no se vern sobre la recta.
8
270
Residuos Observados
135
-135
-270
-270 -135 0 135 270
Cuantiles de una Normal
Shapiro-Wilks (modificado)
9
Ejemplo con varianzas heterogneas
70
Ejemplo con varianzas homogneas
300
35
RDUO_Rendimiento
RDUO_PN
150
0
0
-35
-150
-70
18 31 44 57 70 -300
PRED_PN 1750.0 2187.5 2625.0 3062.5 3500.0
PRED_Rendimiento
Para este supuesto tambin se pueden realizar pruebas especficas. Entre las pruebas formales para
verificar este supuesto tenemos la prueba de Hartley ( Fmax ), Levene, etc. Estas pruebas contrastan
la hiptesis nula H 0 : 12 22 ... t2 con una alternativa general (las varianzas no son iguales).
Ver en la seccin 7.4 del libro de Ott los detalles de estas pruebas.
La prueba de Levene consiste en realizar un anlisis de varianza con el mismo modelo del original,
pero usando como variable dependiente (Y) a los valores absolutos de los residuales. Es la nica
prueba que podemos aplicar en todos los diseos que estudiaremos en este curso.
La prueba de Fmax consiste en realizar el cociente entre las varianzas mxima y mnima, compa-
rando este cociente con un valor tabular (Tabla 12 en el libro). Solamente es vlida para datos
provenientes de un DCA. Si el valor de Fmax es mayor que el valor tabular, la hiptesis nula se
rechaza (es decir, el supuesto no se cumple).
Si se detecta que los supuestos no se cumplen algunas medidas comnmente usadas son la
transformacin de datos, el anlisis parcial (por ejemplo comparando slo algunos de los
tratamientos) y el uso de otros mtodos especficamente diseados para el problema particular (por
ejemplo, mtodos no paramtricos)
La transformacin logartmica, Y log Y o Y log(Y 1) , se usa para datos que exhiben efectos
multiplicativos (una forma de falta de aditividad) o cuyas varianzas son proporcionales al cuadrado
de las medias.
10
La transformacin raz cuadrada, Y Y o Y Y 0.5 , se usa para datos con varianzas que
cambian proporcionalmente a la media, como es frecuentemente el caso de recuentos de insectos u
otros organismos.
La transformacin arco seno, Y arcsen Y , se usa para datos expresados como porcentajes. Los
porcentajes deben estar basados en un denominador comn (por ejemplo, porcentaje de
germinacin calculado a partir de 50 semillas bajo distintos tratamientos). Si todos los datos estn
entre el 30 y el 70% esta transformacin no es necesaria.
Para presentar resultados de anlisis con datos transformados, todas las tablas estadsticas deben
mostrar los anlisis con los datos transformados. Adems, se pueden agregar las medias y los
lmites de confianza retransformados a la escala original. Las varianzas, errores estndar y
coeficientes de variacin no se deben retransformar a la escala original.
Para el anlisis de varianza, el libro de texto presenta algunas grficas (Tabla 14) de valores de
potencia (1 ) para distintos tamaos muestrales y efectos de tratamiento. El efecto de
tratamiento se define como
n i2
t 2
Se puede observar que se deben formular todos los valores de i
i . Para simplificar, se
puede usar una forma equivalente en la que solamente se indica la alternativa de tener al menos un
par de medias que son diferentes en D unidades (es decir, D es la diferencia mnima que se desea
detectar con una potencia (1 ) dada:
nD 2
2t 2
En InfoStat, se pueden usar el men Clculo del tamao muestral para dos muestras
independientes y para anlisis de varianza.
11
211.52
Para usar la Tabla 14, observemos que 1.72 , por lo que la potencia es
2 4 2
aproximadamente 0.81:
12
13
5. Comparaciones mltiples
Recordemos que la hiptesis alternativa general del anlisis de la varianza es al menos
una de las medias es diferente. Cuando rechazamos la hiptesis nula estamos
concluyendo que hay diferencias, pero no sabemos exactamente cules de las medias son
diferentes. Una forma de responder a esta pregunta es planteando las siguientes hiptesis:
H 0 : 1 2 ; H 0 : 1 3 ; H0 : 1 4 ; ... H0 : 3 4
Para probar cada una de estas hiptesis podemos usar un estadstico t para dos muestras
independientes. Por ejemplo, para la primera,
Y Y
t 1 2
s p n11 n12
El problema de este enfoque es que se estn realizando mltiples inferencias sobre los
mismos datos, por lo que los errores de tipo I de cada una de las pruebas pueden
acumularse. Es decir, para todo el experimento, la probabilidad de rechazar al menos una
de estas hiptesis errneamente va a ser mayor del 5%. En otras palabras, podemos
detectar diferencias que no existen con mucha mayor frecuencia de lo esperado.
Cuando los tamaos de muestra son iguales, esta prueba se simplifica. Vamos a declarar
una diferencia significativa si t t 2 :
Yi Y j Yi Y j 2CME
t o Yi Y j t DMS
sp 1
ni 1
nj 2CME 2 2 n
n
2CME
Si definimos DMS t , estaremos declarando la diferencia significativa si
2 n
Yi Y j DMS . Podemos observar que este caso la diferencia mnima significativa es la
misma para todas las comparaciones.
14
2. El siguiente paso es ordenar las medias de mayor a menor:
Tratamiento 1 2 5 3 4
Media 52.925 42.025 37.700 34.150 21.975
52.925-21.975=30.95 >DMS
52.925-34.150=18.775 >DMS
52.925-37.700=15.225 >DMS
52.925-42.025=10.90 >DMS
42.025-21.975=7.785 >DMS
42.025-34.150=7.785 >DMS
42.025-37.700=4.325 <DMS
37.700-21.175=15.725 >DMS
37.700-34.150=3.55 <DMS
34.150-21.975=12.175 >DMS
4. Por ltimo ponemos letras iguales a las medias que no son significativamente
diferentes:
Tratamiento 1 2 5 3 4
Media 52.925 a 42.025 b 37.700 bc 34.150 c 21.975 d
Tratamiento Y
Trat. 3 35.7
Trat. 1 34.0
Trat. 5 33.9
Trat. 4 25.1
Trat. 2 24.7
Trat. 6 22.8
a. El primer paso va a ser comparar la media del tratamiento 3 con todas las que le siguen
(es decir, Y3 con Y1 , Y3 con Y5 , Y3 con Y4 , Y3 con Y2 , Y3 con Y6 ). Vamos a conectar con
una lnea las medias que no son significativamente diferentes (es decir, aqullas cuya
diferencia sea menor que DMS)
15
Tratamiento Y
Trat. 3 35.7
Trat. 1 34.0
Trat. 5 33.9
Trat. 4 25.1
Trat. 2 24.7
Trat. 6 22.8
b. Ahora compararemos Y1 con todas las medias que le siguen, y conectaremos con lneas
las medias que no son significativamente diferentes de Y1 :
Tratamiento Y
Trat. 3 35.7
Trat. 1 34.0
Trat. 5 33.9
Trat. 4 25.1
Trat. 2 24.7
Trat. 6 22.8
c. Cuando seguimos el proceso para Y5 , observamos que la media que le sigue, Y4 , tiene
una diferencia mayor que DMS, y por lo tanto no podemos poner una lnea que una Y5
con una media que est ms abajo.
Tratamiento Y
Trat. 3 35.7
Trat. 1 34.0
Trat. 5 33.9
Trat. 4 25.1
Trat. 2 24.7
Trat. 6 22.8
e. Observar que hay una lnea (uniendo las medias 1 y 5) que est de ms, ya que las
medias 1 y 5 ya aparecen unidas por la lnea que va desde la media 3 hasta la media 5.
Por lo tanto, eliminamos la lnea redundante.
16
Tratamiento Y
Trat. 3 35.7
Trat. 1 34.0
Trat. 5 33.9
Trat. 4 25.1
Trat. 2 24.7
Trat. 6 22.8
f. Ahora podemos dejar las lneas, o cambiar las lneas por letras iguales:
Tratamiento Y
Trat. 3 35.7 a
Trat. 1 34.0 a
Trat. 5 33.9 a
Trat. 4 25.1 b
Trat. 2 24.7 bc
Trat. 6 22.8 c
g. Se debe observar que las medias que no estn unidas por lneas verticales (o la misma
letra) son significativamente diferentes entre s.
Por otro lado, si consideramos a todas las comparaciones posibles como una sola
hiptesis, entonces realizar error de tipo I es decir que por lo menos un par de medias es
diferente cuando todas las medias son iguales. La probabilidad de cometer el error de tipo
I para todas las comparaciones en conjunto se denomina tasa de error por experimento,
E .
17
veces, y cada vez realizaremos las comparaciones de a pares correspondientes. Los
resultados se resumen en la siguiente tabla:
Comparaciones
Simulacin
A vs. B A vs. C B vs. C
1 NS NS NS
2 * NS NS
3 NS NS NS
4 NS * *
5 NS NS NS
6 * NS NS
7 NS NS NS
8 * * *
9 NS * NS
10 NS NS NS
11 NS NS NS
12 NS NS NS
13 NS NS *
14 NS NS NS
15 NS NS NS
16 NS NS NS
17 NS NS NS
18 NS * *
19 NS NS NS
20 NS NS NS
Por otro lado, observamos que hay 20 experimentos, y hemos cometido error de tipo I
en 7 de ellos. Por lo tanto la tasa de error por experimento es 0.35.
Con el objeto de controlar la tasa de error para todo el experimento (es decir, todas las
comparaciones), se pueden aplicar modificaciones a la prueba de DMS. La ms sencilla
consiste en corregir el nivel de significancia de la prueba para tener en cuenta la
18
multiplicidad de comparaciones que se estn realizando. Si llamamos I al nivel de
significancia para una comparacin individual (que es el que consideramos en DMS), y
E al nivel de significancia para todo el experimento (que es lo que querramos controlar
para no declarar demasiadas diferencias significativas falsamente), la desigualdad de
Bonferroni nos dice que E m I , donde m es el nmero de comparaciones que nos
interesa realizar en todo el experimento. Para todos los pares posibles, m t (t 1) / 2 . Por
lo tanto, si queremos que la tasa de error para todo el experimento no sea mayor de
0.05 , por ejemplo, si hay t=5 tratamientos podemos realizar una prueba de DMS
usando un nivel de significancia igual a / m 0.05/10 0.005 . Es decir, la frmula de
DMS para la prueba de Bonferroni ahora es
2CME 2CME
BON=t t0.0025
2m n n
Prueba de Tukey
La prueba de Tukey se desarrolla con esta idea en mente, y consiste en usar un nivel
crtico mayor que el DMS. Este valor crtico es
CME
W q (t , ) ,
n
donde q (t , ) se busca en la tabla 10 del libro con t tratamientos y grados de libertad
en el cuadrado medio del error. Si los tamaos de muestra son desiguales, el mtodo se
llama prueba de Tukey-Kramer y el valor crtico es
CME 1 1
Wij q (t , ) .
2 ni n j
CME 26.3395
W q (t , ) 4.37 11.21
n 4
19
52.925-21.975=30.95 >W
52.925-34.150=18.775 >W
52.925-37.700=15.225 >W
52.925-42.025=10.90 <W
42.025-21.975=20.05 >W
42.025-34.150=7.785 <W
42.025-37.700=4.325 <W
37.700-21.175=15.725 >W
37.700-34.150=3.55 <W
34.150-21.975=12.175 >W
Tratamiento 1 2 5 3 4
Media 52.925 a 42.025 ab 37.700 b 34.150 b 21.975 c
Como podemos apreciar, esta prueba es ms conservadora que DMS (encuentra menos
diferencias significativas).
Para realizar comparaciones mltiples en SAS, debemos usar el comando MEANS. Por
ejemplo, para los datos del ejercicio 2 (laboratorio 2),
proc glm;
class bloque tratam;
model plantas = bloque tratam;
means tratam / lsd;
means tratam / bon;
means tratam / tukey;
run;
20
Class Level Information
Bloque 4 1234
Alpha 0.05
A 87.250 4 tratB
B 80.000 4 tratC
C 57.500 4 tratA
21
Bonferroni (Dunn) t Tests for plantas
Note: This test controls the Type I experimentwise error rate, but it generally has a higher Type II
error rate than REGWQ.
Alpha 0.05
A 87.250 4 tratB
B 80.000 4 tratC
C 57.500 4 tratA
Alpha 0.05
A 87.250 4 tratB
B 80.000 4 tratC
C 57.500 4 tratA
22
6. Contrastes
Si los tratamientos tienen una estructura dada (no son simplemente 5 variedades, por
ejemplo), existen otras hiptesis que pueden resultar de mucho ms inters que las que
probamos con DMS. stas pueden escribirse como combinaciones lineales de medias.
Por ejemplo,
L ci i
Las ci son los coeficientes de la combinacin lineal. Un contraste se define como una
combinacin lineal con c i 0. Por ejemplo supongamos que estamos probando las
siguientes 5 dietas en pavos:
Grupo Dieta
1 Control
2 Nivel 1, suplemento A
3 Nivel 2, suplemento A
4 Nivel 1, suplemento B
5 Nivel 2, suplemento B
L ci i ci Yi Y ciYi
2
var Yi ci2
L ci2 var
ni
ci2
CME
ni
23
L L
H 0 : L 0, H a : L 0 t , rechazamos H 0 cuando t t 2; dfe .
s.e. L CME
c n
2
i
i
Debemos observar que el numerador tiene 1 grado de libertad, y por lo tanto la suma de
cuadrados es igual al cuadrado medio.
El mtodo que hemos presentado, basado en la prueba t o F, controla la tasa de error por
comparacin (igual que el DMS). Esto es porque est diseado para contrastes
individuales. Si cada uno de los contrastes est diseado para responder a una pregunta
separada, el mtodo de t o F tambin puede usarse y la acumulacin de errores no ser
tan importante. Matemticamente estos contrastes se denominan ortogonales. Dos
contrastes L1 ai i y L2 bi i son ortogonales si ai bi 0 . Un conjunto de
contrastes es ortogonal si todos los pares posibles de contrastes son ortogonales entre s.
Si tenemos t tratamientos, no podemos tener ms de t 1 contrastes ortogonales en un
conjunto dado (los grados de libertad de tratamientos). En el ejemplo de los pavos un
conjunto ortogonal de inters podra ser
Grupo L1 L2 L3 L4
1 4 0 0 0
2 -1 1 0 1
3 -1 -1 0 1
4 -1 0 1 -1
5 -1 0 -1 -1
Observar que L1 compara la dieta control con el promedio de las otras, L2 compara los
dos niveles del suplemento A, L3 compara los dos niveles del suplemento B, y L4
24
compara el promedio de las dos formulaciones de A con el promedio de las dos
formulaciones de B.
Si tenemos muchos contrastes no ortogonales a priori (lo que har que Bonferroni sea
muy ineficiente) o si tenemos contrastes a posteriori podemos usar un procedimiento
que controla la tasa de error por experimento: la prueba de Scheff.
Prueba de Scheff
Este procedimiento puede usarse para cualquier contraste, ya que controla la tasa de error
para todos los contrastes posibles, sean estos sugeridos por los datos, ortogonales, no
ortogonales, de a pares, etc. Dado que es una prueba tan general, tiende a ser muy
conservadora (por ejemplo, casi nunca se la usa para comparaciones de a pares, que son
un caso particular de contrastes a priori no ortogonales).
Rechazar H 0 si F (t 1) F ; t 1,dfe
donde t es el nmero de tratamientos usados. (El texto presenta una versin equivalente
de la prueba de Scheff que usa el estadstico t, no el estadstico F)
Para realizar pruebas F en contrastes podemos usar Infostat o SAS. En Infostat debemos
abrir la ventana de contrastes, indicando los tratamientos y los coeficientes. Opcional-
mente podemos solicitar que se verifique la ortogonalidad de los contrastes. Para el
ejemplo de las dietas de pavos,
25
Contrastes
Tratamiento SC gl CM F valor p
Contraste1 3060357.61 1 3060357.61 118.57 <0.0001
Contraste2 450300.50 1 450300.50 17.45 0.0013
Contraste3 41616.13 1 41616.13 1.61 0.2282
Contraste4 739170.06 1 739170.06 28.64 0.0002
Total 4291444.30 4 1072861.08 41.57 <0.0001
26
7. Diseo de cuadrado latino
Analista
Da 1 2 3 4
L Trat A Trat A Trat B Trat A
Ma Trat C Trat B Trat C Trat C
Mi Trat D Trat D Trat A Trat B
J Trat B Trat C Trat D Trat D
Podemos ver que si hubiese un efecto de da (por ejemplo, los lunes no son tan confiables
como los mircoles), entonces algunos tratamientos pueden verse afectados (por ejemplo,
el A aparece 3 veces en lunes). Para evitar esto podramos hacer que cada da tambin sea
un bloque completo (es decir, que todos los tratamientos estn representados). Un posible
arreglo de tratamientos sera:
Analista
Da 1 2 3 4
L Trat A Trat D Trat B Trat C
Ma Trat C Trat B Trat D Trat A
Mi Trat D Trat C Trat A Trat B
J Trat B Trat A Trat C Trat D
Este diseo se denomina cuadrado latino, y tiene la ventaja de controlar dos fuentes de
variacin (en nuestro ejemplo el analista y el da). Es bastante rgido, ya que requiere,
para t tratamientos, t filas y t columnas. Su principal desventaja es que las diferencias
entre los tratamientos no deben estar afectadas por las filas o las columnas (es decir, si el
tratamiento A es mejor que el B, debe serlo en los 4 analistas). La forma ms comn de
aleatorizar los tratamientos es eligiendo al azar de una tabla de cuadrados latinos uno del
tamao deseado (o armar uno en forma no aleatoria), y despus aleatorizar los nmeros
de filas, los nmeros de columnas y los nmeros de tratamientos.
La notacin que usaremos ser la misma que para el DBCA: tenemos t tratamientos,
Yijk denota la observacin del i simo tratamiento en la fila j y la columna k.
27
Ahora tendremos dos fuentes adicionales de variabilidad: las filas y las columnas. Las
sumas de cuadrados se calculan de la siguiente manera:
SCTotal=SCTot Yijk Y Yijk2 Y 2
2 2
t
Yi2 Y
2
SCTratamientos=SCTrat t Yi Y
2
2
i i t t
2 2
SCFilas= t Y j Y
2 Y
j Y
2
j j t t
Y2 k Y
2
SCColumnas= t Yk Y
2
2
k k t t
SCResidual=SCError=SCRes SCTot-SCTrat-SCFilas-SCCol
Las hiptesis que probamos, los supuestos y los mtodos de comparaciones mltiples se
aplican de la misma manera que lo que hemos estudiado para DCA y DBCA.
Ejemplo: ste es el ejercicio 15.8 del libro de Ott (leer la descripcin del mismo all).
28
Class Level Information
fila 4 1234
col 4 1234
trat 4 1234
Para analizar los mismo datos en Infostat debemos seleccionar fila, columna y tratam
como variables de clasificacin:
29
30
8. Experimentos factoriales con dos factores
Existen muchas situaciones en las que los tratamientos representan combinaciones de dos
o ms variables independientes (=factores). Por ejemplo, supongamos que queremos
estudiar el efecto de dos factores: la presencia (o ausencia) de antibitico y la presencia
(o ausencia) de vitamina B12 en la dieta de cerdos. Si combinamos los dos niveles de
antibitico (0mg, 40mg) con los dos niveles de B12 (0mg, 5mg), tendremos cuatro
tratamientos:
Supongamos que aplicamos cada uno de estos cuatro tratamientos a 5 cerdos, segn un
diseo completamente aleatorizado, y registramos el aumento de peso en cada uno.
Por una parte observamos que al pasar de 0 a 40 de antibitico sin vitamina B12 el
aumento del promedio es 5. Si podramos suponer que ese efecto positivo del antibitico
en ausencia de B12 es el mismo que el efecto que el antibitico tendra en presencia de
B12, entonces 4 3 5 50.
Resumiendo, bajo el supuesto que el efecto de un factor es el mismo en ambos niveles del
otro factor, podemos calcular una media dadas las otras 3. Cuando esto sucede decimos
que los efectos son aditivos (podemos sumarlos) y no sera necesario probar los cuatro
tratamientos (con tres sera suficiente).
Ahora supongamos que esto no se cumple, sino que 4 60 (por ejemplo debido a que la
presencia de ambos suplementos es ms beneficiosa que la presencia de uno de ellos por
31
separado). En este caso s necesitamos estudiar las cuatro combinaciones, y no podemos
prescindir de ninguna. Cuando esto sucede decimos que los efectos no son aditivos sino
que existe interaccin entre los factores. Grficamente,
Efectos Aditivos
60
Media 50
B12=0
40
B12=5
30
20
0 10 20 30 40
Antibitico
60
50
Media
B12=0
40
B12=5
30
20
0 10 20 30 40
Antibitico
32
12 11 1 2 1 1 2 1
22 21 2 2 2 1 2 1
Si hubiese interaccin esta igualdad no se cumplira. Por lo tanto, el trmino ij
representa la interaccin entre ambos factores. Los trminos i y j representan los
efectos principales del primer y segundo factor respectivamente. Estos efectos
principales pueden interpretarse como el efecto de un factor promediado sobre todos los
niveles del otro factor (ya discutiremos este concepto ms adelante).
Para armar nuestra tabla de ANOVA supongamos que el primer factor lo llamamos A, y
este factor tiene a niveles. Similarmente, el factor B tiene b niveles, y tenemos n
observaciones por tratamiento (combinacin de niveles de A y B).
nab
Yi2 Y
2
SCA bn Yi Y
2
i i bn abn
2 2
SCB= an Y j Y
Y j Y
2
j j an abn
2
Y Yij2
SCAB=SCTratamientos-SCA-SCB= SCA SCB
n nab
SCResidual=SCError=SCRes SCTot-SCA-SCB-SCAB
33
Las hiptesis que probamos son tres:
H 0 : 11 12 ... ab 0
H 0 : 1 2 ... a 0
H 0 : 1 2 ... b 0
La primera hiptesis que debemos probar siempre es si hay o no hay interaccin. Si hay
interaccin, las hiptesis de efectos principales no tienen demasiado sentido y por lo tanto
no deberamos interpretarlas (excepto bajo ciertas circunstancias).
Vamos a ver nuevamente el ejemplo presentado antes (factorial 2x2) para entender mejor
los conceptos de efectos principales e interacciones. Supongamos que observamos tres
cerdos en cada tratamiento (DCA) y observamos la ganancia diaria de peso:
Bajo el nivel 0 de antibitico (factor A) podemos estimar el efecto simple del factor B:
Y12 Y11 1.22 1.19 0.03
Similarmente el efecto simple del factor B cuando el factor A est en su segundo nivel se
estima como:
Y22 Y21 1.54 1.03 0.51
El efecto principal del factor B es el promedio de estos dos efectos simples, y es tambin
la diferencia entre las medias de los niveles de B:
.51 .03
Y2 Y1 0.27
2
Si los efectos simples no son significativamente diferentes, entonces s tiene sentido
promediarlos para obtener el efecto principal. Pero si los efectos simple son
significativamente diferentes, entonces estamos en presencia de interaccin y no tendra
sentido promediarlos. Por lo tanto, la interaccin puede estimarse mediante la diferencia
de los efectos simples:
Interaccin: Y22 Y21 Y12 Y11 0.51 0.03 0.48
Como ejercicio, calcular los efectos simples y principal del factor A. Verificar que
usando estos efectos simples la interaccin es la misma. (Esto tiene sentido, ya que la
interaccin es un concepto que comprende los dos factores.)
34
El programa SAS para este ejemplo sigue a continuacin.
data cerdos;
input tratam antib vitb12 ganpeso;
datalines;
1 0 0 1.30
1 0 0 1.19
1 0 0 1.08
2 40 0 1.05
2 40 0 1.00
2 40 0 1.05
3 0 5 1.26
3 0 5 1.21
3 0 5 1.19
4 40 5 1.52
4 40 5 1.56
4 40 5 1.55
proc glm;
class antib vitb12;
model ganpeso = antib vitb12 antib*vitb12;
run;
antib 2 0 40
vitb12 2 05
35
Otra manera de ver este problema es mediante contrastes. Olvidndonos por un momento
de los dos factores, nosotros tenemos aqu un DCA con 4 tratamientos. Mediante
contrastes apropiados podemos probar las mismas hiptesis (adems podramos escribir
contrastes para efectos simples de ser necesario):
proc glm;
class tratam;
model ganpeso = tratam;
contrast 'Ef. ppal. A' tratam -1 1 -1 1;
contrast 'Ef. ppal. B' tratam -1 -1 1 1;
contrast 'Interac. AB' tratam 1 -1 -1 1;
run;
tratam 4 1234
36
Interaccin ordenada y no ordenada
Interaccin Ordenada
50
40 B=1
Media
30
B=2
20
10 B=3
0
0 1 2 3 4 5
A
Interaccin No Ordenada
25
20 B=1
Media
15
B=2
10
5 B=3
0
0 1 2 3 4 5
A
37
Pruebas de comparaciones mltiples, contrastes, intervalos de confianza, etc.
Para realizar comparaciones o contrastes podemos hacerlo con dos tipos de medias:
1. las medias de niveles de cada factor. Por ejemplo, 1 2 es la diferencia entre
el primer nivel de A y el segundo nivel de A. Es un efecto principal.
2. las medias de tratamientos (combinaciones de niveles niveles de cada factor). Por
ejemplo, 12 11 es la diferencia entre el primer nivel de B y el segundo nivel de
B cuando el factor A est en su primer nivel. Es un efecto simple.
Las medias de niveles de cada factor se calculan a partir de ms observaciones que las
medias de tratamientos, por lo que las frmulas que hemos estudiado deben corregirse
apropiadamente. En el ejemplo de los cerdos, para calcular 1 Y1 debemos promediar
bn 2 3 6 observaciones; mientras que para calcular 12 Y12 debemos promediar
n 3 observaciones. Esto hace que los errores estndar de las diferencias dependan de
qu tipo de media estamos considerando. Por ejemplo,
s.e. Y1 Y2
2CME
bn
s.e. Y3 Y1
2CME
an
38
9. Experimentos factoriales con tres o ms factores
Para experimentos con tres o ms factores las ideas bsicas del anlisis son las mismas
que para dos factores, aunque todo se complica por la existencia de interacciones dobles,
triples, etc. Veamos con un ejemplo qu significara cada uno de los efectos e
interacciones en un factorial 2x2x2. Por ejemplo, supongamos que queremos estudiar el
efecto de la presencia (o ausencia) de antibitico, la presencia (o ausencia) de vitamina
B12 y el sexo en la dieta de cerdos. Si combinamos los dos niveles de antibitico (0mg,
40mg) con los dos niveles de B12 (0mg, 5mg), y los dos sexos tendremos ocho
tratamientos:
Supongamos que aplicamos cada uno de estos ocho tratamientos a 5 cerdos, segn un
diseo completamente aleatorizado, y registramos el aumento de peso en cada uno.
Debemos observar que ahora tenemos tres efectos principales, tres interacciones dobles y
una interaccin triple. Los efectos principales tienen la misma interpretacin que antes:
representan las comparaciones entre niveles de un factor promediadas sobre los niveles
de los otros dos factores. Por ejemplo, el efecto principal de sexo es la comparacin entre
los 4 tratamientos con nivel 1 de sexo (trat. 1-4) y los 4 tratamientos con nivel 2 de sexo
(trat. 5-8).
Las interacciones dobles son comparaciones entre las diferencias de niveles de un factor
en cada nivel del otro promediadas sobre los niveles del factor no incluido en la
interaccin. Por ejemplo, la interaccin doble entre antibitico y vitamina es la siguiente
comparacin:
111 112 121 122 211 212 221 222
2 2 2 2
Observar que los niveles de sexo (tercer ndice) estn promediados, ya que la interaccin
considerada es entre antibitico y vitamina.
39
La interaccin triple se puede interpretar como que la interaccin doble entre dos de los
factores en un nivel dado del factor restante no es la misma que la interaccin doble en el
otro nivel del factor restante. Por ejemplo, la interaccin triple podra interpretarse como
que la interaccin entre el antibitico y la vitamina no es la misma en machos que en
hembras:
111 121 211 221 112 122 212 222
Para armar nuestra tabla de ANOVA supongamos que el primer factor lo llamamos A, y
este factor tiene a niveles. Similarmente, el factor B tiene b niveles, el factor C tiene c
niveles y tenemos n observaciones por tratamiento (combinacin de niveles de A, B y C).
Las frmulas para las sumas de cuadrados pueden consultarse en la pgina 907 del texto.
La siguiente es la tabla de ANOVA:
40
La estrategia general para analizar esta tabla es la misma que para factoriales con dos
factores: empezar a probar la interaccin de mayor orden, seguir con las dobles de
acuerdo al resultado de la prueba de la interaccin triple, etc. Un diagrama que nos puede
ayudar en esto es el siguiente (ver pgina 909 en el texto):
41
10. Modelos de efectos aleatorios y mixtos
Supongamos que nos interesa estudiar si hay diferencias en calidad segn la variedad en
semillas de trigo comercializadas por cierta compaa. Para este estudio elegimos al azar
5 variedades (de entre las 40 variedades disponibles) y de cada variedad elegimos 10
muestras al azar de 50 semillas cada una, en las que medimos el porcentaje de
germinacin, peso, densidad, etc. El modelo para cada una de las variables dependientes
sera
Yij i ij
Como en otros modelos estudiados antes, aqu i representa el efecto de la variedad y ij
el error. La principal diferencia es que el efecto de la variedad es una variable aleatoria.
Debemos observar que si hicisemos el estudio nuevamente, las variedades elegidas
seran diferentes (se escogen al azar cada vez). Por otra parte, si las nicas variedades de
inters fuesen las cinco variedades del estudio, el efecto de la variedad ( i ) sera fijo
(esta situacin sera similar a todos los ejemplos estudiados hasta ahora: al hacer el
estudio de nuevo, las muestras seran diferentes pero las variedades seran las mismas).
Como en todos los ejemplos anteriores, el error siempre es una variable aleatoria y la
media general es fija:
i ~ N 0, 2 , ij ~ N 0, 2
Ambos efectos son independientes.
Otra manera de ver que la hiptesis que estamos probando es la mencionada es mediante
el estudio de los cuadrados medios esperados. Un cuadrado medio esperado es el valor
promedio que obtendramos si repitisemos nuestro experimento infinidad de veces,
calculsemos cada vez un cuadrado medio, y promedisemos estos valores. Debemos
observar que segn estemos trabajando con efectos fijos o aleatorios el proceso de repetir
el experimento va a ser diferente: en el caso de efectos fijos el proceso significa
realeatorizar las unidades experimentales a los tratamientos, mientras que con efectos
aleatorios deberamos reelegir aleatoriamente los tratamientos y luego realeatorizar las
unidades experimentales a los tratamientos elegidos. Los cuadrados medios esperados
son cantidades poblacionales cuyo clculo requiere bastante teora. Para el ejemplo que
estamos considerando son los siguientes:
42
Fuente de variacin Cuadrado Medio Esperado
Efectos Fijos Efectos Aleatorios
Tratamiento ni (t 1) 2 n 2
2 2
Error 2 2
Aqu podemos ver la justificacin para la prueba F: bajo la hiptesis nula tanto el
numerador como el denominador tienen el mismo valor esperado, mientras que bajo la
hiptesis alternativa el numerador tiene un valor esperado ms alto que el denominador
(de ah que rechacemos la hiptesis nula para valores altos del estadstico).
Yijk i j ij ijk
j ~ N 0, 2 , ij ~ N 0,
2
ijk ~ N 0, 2
43
Los cuadrados medios esperados para factoriales pueden resumirse en la siguiente tabla:
Error 2 2 2
A partir de esta tabla es bastante directo encontrar las hiptesis y la forma de construir
estadsticos F para probarlas. La clave es siempre encontrar un numerador y un
denominador para el estadstico F que tengan el mismo valor esperado bajo la hiptesis
nula. Por ejemplo, en el modelo mixto para probar el efecto principal del factor A
tenemos que H 0 : 1 2 ... a 0 , y para probarla podemos construir el siguiente
CMA
estadstico: F . Todas estas frmulas son vlidas slo si los datos son
CMAB
balanceados (igual nmero de repeticiones por combinacin de niveles de factores). En
caso contrario se debe usar otra metodologa.
Como ejemplo en SAS, consideremos el modelo mixto discutido antes con 5 dosis de
fertilizante (fijas) y 4 variedades (aleatorias).
44
Class Level Information
fertil 5 12345
varied 4 1234
Tests of Hypotheses Using the Type III MS for fertil*varied as an Error Term
45
2 CME .346
CMAB-CME 1.34654 .34625
2
.500
n 2
CMB-CME 60.04425 .34625
2 5.970
an 5 2
Las frmulas de cuadrados medios esperados a partir de las cuales podemos deducir estas
estimaciones de las varianzas son vlidas slo para igual nmero de repeticiones. Para
nmero desigual de repeticiones, situaciones con estimados negativos, etc. debemos usar
otro mtodo llamado REML (implementado en SAS Proc Mixed o en el mdulo de
modelos mixtos de InfoStat, pero que no lo estudiamos en este curso).
Para realizar el mismo ejemplo en Infostat, debemos indicar directamente en las especifi-
caciones del modelo el denominador de los estadsticos F de todos los efectos que usen
como denominador algo diferente del cuadrado medio de error. En nuestro ejemplo, notar
que en modelo escribimos FERTIL\FERTIL*VARIEDAD (sin espacios intermedios)
Anlisis de la varianza
Variable N R R Aj CV
rendim 40 0.97 0.93 9.06
46
11. Diseos anidados
Consideremos los siguientes dos ejemplos:
47
La tabla de ANOVA es la siguiente:
Los cuadrados medios esperados para anidados pueden resumirse en la siguiente tabla:
B(A) 2 n 2 2 n 2
Error 2 2
A partir de esta tabla es bastante directo encontrar las hiptesis y la forma de construir
estadsticos F para probarlas. La clave es la misma de la clase anterior: encontrar un
numerador y un denominador para el estadstico F que tengan el mismo valor esperado
bajo la hiptesis nula. Por ejemplo, en el modelo mixto para probar el efecto principal del
factor A tenemos que H 0 : 1 2 ... a 0 , y para probarla podemos construir el
CMA
siguiente estadstico: F . Todas estas frmulas son vlidas slo si los datos
CMB(A)
son balanceados (igual nmero de repeticiones por nivel de B, e igual nmero de niveles
de B por nivel de A). En caso contrario se debe usar otra metodologa (como Proc Mixed
en SAS o el mdulo de modelos mixtos en InfoStat, que hemos mencionado para casos
desbalanceados en modelos de efectos aleatorio o mixtos estudiados en el captulo
anterior).
48
Como ejemplo en SAS e Infostat, consideremos el modelo mixto del ejemplo 1 con 2
marcas de jugo, 6 cartones por marca y 2 muestras por cartn.
marca 2 ab
carton 12 1 2 3 4 5 6 7 8 9 10 11 12
49
Tests of Hypotheses Using the Type III MS for carton(marca) as an Error Term
Level of N vitam
marca
Mean Std Dev
a 12 527.250000 144.145838
b 12 425.916667 104.715596
Anlisis de la varianza
Variable N R R Aj CV
Columna4 24 0.98 0.96 5.44
50
12. Diseo de parcelas divididas
Hemos visto en distintos ejemplos cmo la manera en que aleatorizamos (asignamos los
tratamientos a las unidades experimentales) define el diseo del experimento. Por
ejemplo, si todos los tratamientos estn asignados al azar en cada grupo de unidades
experimentales tenemos un diseo en bloques completos aleatorizados.
Este experimento tiene 2 factores, pero la forma en que hemos aleatorizado estos factores
no es la usual para los experimentos factoriales. Debemos observar que primero hemos
aleatorizado los niveles de un factor (fertilizante) a las parcelas completas y luego hemos
aleatorizado los niveles del otro factor (variedad) a las subparcelas. Debemos notar que la
aleatorizacin es ms restringida que si hubisemos aleatorizado todas las 12
combinaciones.
Qu ganamos con este diseo? Por una parte, pueden existir razones prcticas para
usarlo: por ejemplo es posible que logremos una mejor aplicacin del fertilizante si lo
aplicamos a parcelas grandes. Por otra parte debemos observar tambin que cada parcela
(completa) est funcionando como un bloque para el segundo factor, ya que todos los
niveles del segundo factor (en nuestro ejemplo variedad) estn presentes en cada parcela
completa. Esto hace que este factor gane en precisin.
En este diseo tenemos al menos dos factores: uno cuyos niveles se aleatorizan a las
parcelas completas y otro cuyos niveles se aleatorizan a las subparcelas. Las parcelas
completas pueden estar ordenadas en forma completamente aleatoria (como en nuestro
ejemplo), en forma de bloques completos, etc. El modelo para observaciones
provenientes de un diseo en parcelas divididas con parcelas completas en un DCA es
Yijk i k (i ) j ij ijk
Los cuadrados medios esperados (ambos factores se consideran fijos) para este diseo
son
51
Fuente de Parcelas completas en DCA Parcelas completas en DBCA
variacin CM Esperado gl CM Esperado gl
Bloques - - 2 b 2 ab k2 (n 1) n-1
A 2 b 2 nbi2 (a 1) a-1
2 b 2 nbi2 (a 1) a-1
B 2 na 2j (b 1) b-1
2 na 2j (b 1) b-1
AB 2 nij2 (a 1)(b 1) (a-1)(b-1)
2 nij2 (a 1)(b 1) (a-1)(b-1)
A partir de esta tabla es bastante directo encontrar las hiptesis y la forma de construir
estadsticos F para probarlas. Es claro que para probar el efecto principal del factor A (y
el efecto de bloques) debemos usar como denominador el error de parcela completa
(error 1), ya que la aleatorizacin de niveles de este factor se hizo sobre las parcelas
completas. Similarmente, para probar efecto principal de B o interaccin debemos usar
como denominador el error de subparcela (error 2).
Para realizar los clculos de las sumas de cuadrados veamos el siguiente ejemplo, en el
que hay dos niveles de irrigacin (aplicados a parcelas completas en un DCA con 3
repeticiones) y 2 variedades (aplicados a subparcelas).
Variedad 1 2
Totales 341 253
52
SC B = (3412+2532)/6 - 5942/12 = 645.33
SC AB = (1642++1292)/3 - 5942/12 - SC A - SC B = 5.33
SC Error 2 = SCTotal - SCParcelas Completas - SC B - SC AB = 237.33
data a;
input riego $ variedad repet rendim;
datalines;
sin 1 1 63
sin 1 2 52
sin 1 3 49
sin 2 1 33
sin 2 2 43
sin 2 3 48
con 1 1 53
con 1 2 69
con 1 3 55
con 2 1 38
con 2 2 49
con 2 3 42
proc glm data=a;
class riego variedad repet;
model rendim = riego repet(riego) variedad riego*variedad;
test h=riego e=repet(riego);
run;
variedad 2 12
repet 3 123
53
Source DF Type III SS Mean Square F Value Pr > F
Tests of Hypotheses Using the Type III MS for repet(riego) as an Error Term
54
Para realizar comparaciones de medias, contrastes, intervalos de confianza, etc.,
necesitamos conocer el error estndar de la diferencia de dos medias. Es claro que si la
diferencia es de dos medias de niveles de A, el error correcto es el Error 1 (error de
parcela completa), mientras que si la diferencia es entre dos medias de niveles de B el
error correcto es el Error 2 (error de subparcela). El problema est en comparar dos
medias a nivel de subparcela pero provenientes de dos parcelas completas diferentes. En
este caso se usa un promedio ponderado de los errores, y un valor de t aproximado.
dos medias Y j Y j
2CME2 t gl 2
de B Y 2 Y3
na
dos medias Yij Yij
de B en el 2CME2
mismo Y 11 Y12 n
t gl 2
nivel de A
dos medias Yij Yij
de A en el (b 1)CME2 CME1 (b 1)CME2 t gl 2 CME1 t gl1
mismo o Y 11 Y21 2 t
(b 1)CME2 CME1
nb
distinto
nivel de B Y 11 Y32
55
13. Repaso de regresin lineal simple
Hasta ahora hemos estudiado la relacin entre una variable dependiente (Y) y
tratamientos (uno o ms factores) simplemente considerando que cada tratamiento tiene
su media, y nos interesaba comparar estas medias mediante hiptesis apropiadas. Ahora
vamos a enfatizar la relacin que existe entre dos variables cuantitativas: una
independiente y otra dependiente. Por ejemplo la cantidad de protena en la dieta y el
aumento de peso. La variable que nosotros variamos a voluntad es la variable
independiente, y sobre la que nos interesa estudiar el efecto es la variable dependiente.
Por ejemplo, queremos ver cul es el promedio de ganancia de peso cuando agregamos
10%, 15%, 20% y 25% de protena a la dieta.
10
8
Y
6
4
2
0 5 10
x
Un modelo ms realista es pensar que la lnea recta representa la relacin entre la media
de las Y para un valor dado de x y la variable independiente: Y 0 1 x . Otra forma
de escribir este modelo es
Y 0 1 x
donde es el error aleatorio y representa la diferencia entre el valor de Y y su media Y
(o lo que es lo mismo, entre el valor observado y la recta). La media de estos errores
aleatorio para un valor dado de x es 0 (es decir, los valores positivos y negativos se
balancean) y por lo tanto ambas formulaciones de este modelo estocstico son
equivalentes.
56
Problema: los parmetros de la recta 0 , 1 son desconocidos, por lo que
necesitaremos una muestra de N observaciones x1 , Y1 ,..., xN , YN para estimarlos. La
recta que obtendremos ser la recta estimada:
Y 0 1 x
La diferencia entre cada valor observado Yi y el valor correspondiente sobre la recta
estimada se llama error de prediccin o residual, y se denomina como e Y Y . i i i
Observar que esto no es lo mismo que el error aleatorio i , que es la diferencia entre cada
valor observado y la recta verdadera (poblacional).
Para estimar la recta vamos a usar el mtodo de mnimos cuadrados, que consiste en
elegir los parmetros 0 , 1 que minimicen la suma de los cuadrados de los errores de
prediccin:
N N
2
N N
N
S xx ( X i X ) X X i
2
i
2
N
i 1 i 1 i 1
N N N N
S xy ( X i X )(Yi Y ) X iYi X i Yi N
i 1 i 1 i 1 i 1
Ejemplo: Relacin entre el peso de gallinas (lb) y el consumo de alimento durante 1 ao.
Peso Consumo
4.6 87.1
5.1 93.1
4.8 89.8
4.4 91.4
5.9 99.5
4.7 92.1
5.1 95.5
5.2 99.3
4.9 93.4
5.1 94.4
57
102
98
PRED_Consumo
94
90
86
4.0 4.5 5.0 5.5 6.0
Peso
Yi 0 1 xi i
Vamos a asumir que este es el modelo correcto, que los 1 ,..., N son independientes y
tienen distribucin normal con media 0 y varianza constante:
i ~ N 0,
La tabla de anlisis de varianza que nos permite partir la variabilidad total es:
58
Las frmulas para estas sumas de cuadrados son:
Y
2
SCTotal SYY Yi Y Yi
2 2 i
N
S
SCRegresin Yi Y
2
1 XY
x 2
,
0 N S xx 1
S xx
El estimador de 2 es el cuadrado medio residual.
H 0 : 1 0, H a : 1 0
0
t 1 , gl N 2
s
S xx
Esta ltima prueba es la ms importante en regresin lineal: si no podemos rechazar H 0
entonces estamos concluyendo que no hay una relacin lineal entre el promedio de las Y
y las x. Otro estadstico alternativo es el estadstico para esta prueba es
F CMReg y debemos rechazar H 0 si F F . Para encontrar el valor tabular de
CME
F debemos buscar en la tabla correspondiente con 1 y N-2 grados de libertad. Podemos
verificar que tanto para el valor observado como para el tabular, F t 2 y por lo tanto
ambas pruebas siempre van a conducir a las mismas conclusiones.
59
14. Regresin polinomial
Supongamos que tenemos 4 tratamientos, que son las dosis de fertilizante nitrogenado 0,
50, 100 y 200. Realizamos un experimento con estos tratamientos en un DCA con 5
repeticiones. Ahora tenemos dos opciones para analizar estos datos: ANOVA y regresin.
Podemos ver la diferencia entre ambos modelos. En el ANOVA estamos ajustando una
media diferente para cada dosis ( i i ) mientras que en regresin lineal simple la
media de cada dosis se calcula a partir de la ecuacin lineal. En ANOVA tenemos cuatro
parmetros (aparecen 5 en las frmulas pero la suma de los efectos es cero, as que
efectivamente son 4); mientras que en regresin lineal simple tenemos slo dos
parmetros (intercepto y pendiente).
Cul de los dos modelos ser mejor? Por una parte el ANOVA siempre tendr una SCE
ms pequea (o a lo sumo igual) que la de la regresin, pero los grados de libertad
tambin son menos (ANOVA tiene ms parmetros que regresin lineal simple), por lo
que no sabemos lo que pasa con el CME. Si el modelo de regresin ajusta bien (es decir,
explica bien los datos) entonces ser ms til (podramos predecir qu pasa con una dosis
de 75, por ejemplo). Aunque el modelo de regresin no ajusta, el de ANOVA siempre lo
har, ya que no hay ninguna funcin a la que las medias deban ajustarse: simplemente
cada tratamiento tiene su media.
Cmo podemos probar si el modelo de regresin lineal simple ajusta bien? La forma
ms sencilla e intuitiva de hacerlo es a travs de la comparacin de las sumas de cuadrado
de error de ambos modelos: si son bastante parecidas, entonces razonablemente podremos
decir que el modelo de regresin lineal ajusta bien. Si la del ANOVA es sustancialmente
menor, entonces obviamente las medias no siguen una relacin de lnea recta sino que
necesitaramos otro modelo para explicar su relacin. Es decir, necesitaremos dos tablas
de ANOVA: una para el modelo de ANOVA y otra para el modelo de regresin lineal
simple. Denotaremos como SCEANOVA y SCEREG a las sumas de cuadrado de error de
ambos modelos. Podemos construir un estadstico F como
SCE REG -SCE ANOVA
F
gleREG -gleANOVA
CME ANOVA
60
Este estadstico permitir probar las hiptesis:
H 0 : Y 0 1 x
H a : el modelo no ajusta
La regin de rechazo son los valores F F , con los grados de libertad apropiados.
Debemos notar que para probar esta hiptesis necesitamos que haya valores de Y
repetidos para al menos algunos de los valores de x, cosa que no siempre sucede en
regresin.
61
En Infostat usamos el men Regresin lineal, con las opciones de Error Puro para
probar la falta de ajuste, y en la solapa Polinomios podemos seleccionar el orden
deseado.
Variable N R R Aj
rendim 25 0.48 0.46
62
Rendimiento de Tomate
54.0
50.5
Rendim
47.0
43.5
40.0
6 8 10 12 14
humedad
63
Rendimiento de Tomate
54.0
50.5
Rendim
47.0
43.5
40.0
6 8 10 12 14
humedad
9
8
7
6
Prdida
5
4
3
2
1
0
0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9
Humedad
64
9
8
7
6
Prdida
5
4
3
2
1
0
3 4 5 6 7 8
Tiempo
65
El intercepto tiene la misma interpretacin que en regresin lineal simple: promedio de
las Y cuando todas las x valen 0. Recordemos que esto no siempre tiene una
interpretacin prctica (en este ejemplo no la tiene). La principal dificultad de este
modelo es la interpretacin de las pendientes (ahora llamadas pendientes parciales o
coeficientes de regresin parciales). El parmetro 1 es el cambio en el promedio de las
Y cuando x1 aumenta una unidad y x2 permanece constante. Es decir, un coeficiente de
regresin parcial se interpreta manteniendo todas las otras variables independientes
constantes. El trmino parcial enfatiza que no es una pendiente absoluta, sino una
pendiente en la direccin de la variable x1 (es decir, movindonos a lo largo del eje x1 ).
Para visualizar modelos de regresin mltiple y observar cmo funcionan las pendientes
parciales, recomiendo visitar la pgina
http://www.ats.ucla.edu/stat/sas/faq/spplot/reg_int_cont.htm
En esta pgina tambin se pueden apreciar modelos con interacciones (trminos con
x1 x2 ) y trminos cuadrticos.
Los supuestos son los mismos que realizamos en regresin simple (observar que los
errores i son los mismos): independencia, varianza constante, normalidad y modelo
correcto (es decir, no hay necesidad de trminos cuadrticos, etc. en ninguna de las
variables independientes, ni tampoco de productos entre las variables independientes).
Para ajustar este modelo debemos usar programas estadsticos, y a que los clculos
manuales son muy complicados. El ejemplo analizado en SAS e Infostat nos da los
siguientes resultados:
data fruta;
input tiempo humedad perdida;
datalines;
4 .6 4.3
5 .6 5.5
6 .6 6.8
7 .6 8.0
4 .7 4.0
5 .7 5.2
6 .7 6.6
7 .7 7.5
4 .8 2.0
5 .8 4.0
6 .8 5.7
7 .8 6.5
proc reg ;
model perdida=tiempo humedad;
run;
66
The REG Procedure
Model: MODEL1
Dependent Variable: perdida
Analysis of Variance
Parameter Estimates
Variable N R R Aj
perdida 12 0.96 0.95
67
Cuadro de Anlisis de la Varianza (SC tipo III)
F.V. SC gl CM F valor p
Modelo 31.12 2 15.56 104.13 <0.0001
tiempo 26.00 1 26.00 174.01 <0.0001
humedad 5.12 1 5.12 34.26 0.0002
Error 1.35 9 0.15
Total 32.47 11
Cmo sabemos si este modelo es razonable para ajustar estos datos? Tenemos dos
formas bsicas: el coeficiente de determinacin R 2 y los grficos residuales vs.
predichos. El coeficiente de determinacin es la proporcin de la variabilidad total
explicada por la regresin:
SCRegresin
R2
SCTotal
Este coeficiente siempre est entre 0 y 1, y cuanto ms cerca de 1 est mejor ser el
ajuste. Observar que si tuvisemos una regresin lineal simple, R 2 es simplemente el
cuadrado del coeficiente de correlacin lineal.
error estndar s . Como la frmula para este error estndar es muy complicada,
i
H0 : 2 0
H a : 2 0 (>0, 0)
t 2
s
2
t son los del error. Lo ms importante que tenemos que tener en cuenta al realizar
inferencias acerca de un coeficiente de regresin parcial es que la inferencia se hace en
presencia de todas las otras variables independientes en el modelo (es decir, es una
prueba parcial).
68
H 0 : Y 0 2 x2 i (modelo reducido)
H a : Y 0 1 x1 2 x2 3 x3 i (modelo completo)
Ahora ajustamos ambos modelos y obtenemos las sumas de cuadrados y los grados de
libertad del error. La suma de cuadrados para probar nuestra hiptesis va a ser la
diferencia en las sumas de cuadrados:
SCH=SCError(reducido)-SCError(completo)
glH=glerror(reducido)-glerror(completo)
SCH
CMH=
glH
69
16. Seleccin de variables en regresin mltiple
Recordemos que los objetivos de un modelo de regresin son dos: encontrar un
modelo que ajuste bien (es decir, que est cerca de los datos observados) y que sea til
para predecir observaciones futuras razonablemente bien. Por lo tanto no siempre
queremos usar todas las variables independientes disponibles sino slo aqullas que sean
importantes. El problema de decidir cules son las importantes es bastante complicado,
ya que vimos que las pruebas parciales pueden ocultar informacin de inters. Entre los
mtodos ms comunes para seleccionar variables tenemos el mtodo de r-cuadrado, el de
r-cuadrado ajustado, el de seleccin forward, el de seleccin backward y el de
seleccin stepwise.
Si la cantidad de posibles regresores es muy grande, el uso de todos los modelos posibles
es dificultoso (por ejemplo, si hay 20 posibles regresores la cantidad de modelos es
1048575). Para evitar tener que ajustar todos estos modelos, se han desarrollado otros
mtodos de seleccin. El mtodo forward comienza con el mejor modelo de una
variable (regresin lineal simple), luego agrega una segunda variable y selecciona el
mejor modelo entre los que tienen la primera seleccionada y alguna de las otras. Sigue
agregando variables hasta que el agregado de cualquier otra variable no es significativo (a
un nivel predeterminado llamado SLENTRY, tpicamente .10-.15). Este mtodo no
garantiza que encontraremos el mejor modelo, pero posiblemente encuentre un modelo
razonable.
70
significativas segn los resultados de las pruebas parciales (a un nivel predeterminado,
SLSTAY).
El mtodo stepwise comienza como el forward, pero despus de incorporar una nueva
variable independiente trata de eliminar alguna de las que estaban ya en el modelo (si no
es significativa en la prueba parcial). Contina incorporando y eliminando variables hasta
que ninguna de las que quedan afuera pueden agregarse al modelo (porque su nivel de
significancia es mayor que el SLENTRY) y ninguna de las incorporadas al modelo
pueden eliminarse (porque su nivel de significancia es menor de SLSTAY).
71
The REG Procedure
Model: MODEL1
Dependent Variable: y
1 0.6262 x3
1 0.1596 x2
1 0.0677 x1
1 0.0633 x5
1 0.0536 x7
1 0.0458 x4
1 0.0371 x6
2 0.8509 x2 x3
2 0.7939 x1 x3
2 0.6350 x3 x5
2 0.6286 x3 x6
2 0.6271 x3 x7
2 0.6270 x3 x4
2 0.2749 x2 x7
2 0.0996 x4 x7
2 0.0719 x4 x6
3 0.9050 x1 x2 x3
3 0.8572 x2 x3 x7
3 0.8568 x2 x3 x5
72
Number in R-Square Variables in Model
Model
3 0.8531 x2 x3 x6
3 0.8510 x2 x3 x4
3 0.1727 x1 x5 x6
3 0.1428 x4 x5 x6
4 0.9102 x1 x2 x3 x5
4 0.9090 x1 x2 x3 x4
4 0.2328 x4 x5 x6 x7
5 0.9135 x1 x2 x3 x4 x5
5 0.9113 x1 x2 x3 x5 x7
5 0.9110 x1 x2 x3 x5 x6
5 0.9109 x1 x2 x3 x4 x7
5 0.3315 x1 x2 x4 x5 x6
6 0.9150 x1 x2 x3 x4 x5 x7
6 0.9141 x1 x2 x3 x4 x5 x6
6 0.9137 x1 x2 x3 x5 x6 x7
6 0.9136 x1 x2 x3 x4 x6 x7
6 0.8691 x2 x3 x4 x5 x6 x7
6 0.8105 x1 x3 x4 x5 x6 x7
6 0.5028 x1 x2 x4 x5 x6 x7
7 0.9171 x1 x2 x3 x4 x5 x6 x7
73
The REG Procedure
Model: MODEL1
Dependent Variable: y
3 0.8871 0.9050 x1 x2 x3
4 0.8863 0.9102 x1 x2 x3 x5
4 0.8847 0.9090 x1 x2 x3 x4
5 0.8826 0.9135 x1 x2 x3 x4 x5
4 0.8815 0.9065 x1 x2 x3 x7
4 0.8810 0.9061 x1 x2 x3 x6
5 0.8797 0.9113 x1 x2 x3 x5 x7
5 0.8792 0.9110 x1 x2 x3 x5 x6
5 0.8791 0.9109 x1 x2 x3 x4 x7
5 0.8776 0.9098 x1 x2 x3 x4 x6
5 0.8774 0.9096 x1 x2 x3 x6 x7
6 0.8758 0.9150 x1 x2 x3 x4 x5 x7
6 0.8744 0.9141 x1 x2 x3 x4 x5 x6
6 0.8739 0.9137 x1 x2 x3 x5 x6 x7
6 0.8738 0.9136 x1 x2 x3 x4 x6 x7
7 0.8687 0.9171 x1 x2 x3 x4 x5 x6 x7
1 -.0164 0.0371 x6
3 -.0179 0.1428 x4 x5 x6
2 -.0373 0.0719 x4 x6
74
The REG Procedure
Model: MODEL1
Dependent Variable: y altura
Analysis of Variance
Analysis of Variance
75
Forward Selection: Step 3
Variable x1 Entered: R-Square = 0.9050 and C(p) = 1.7509
Analysis of Variance
No other variable met the 0.1500 significance level for entry into the model.
76
The REG Procedure
Model: MODEL1
Dependent Variable: y altura
Analysis of Variance
Analysis of Variance
77
Variable Parameter Standard Type II SS F Value Pr > F
Estimate Error
Analysis of Variance
78
Backward Elimination: Step 3
Variable x4 Removed: R-Square = 0.9102 and C(p) = 2.9910
Analysis of Variance
Analysis of Variance
79
Variable Parameter Standard Type II SS F Value Pr > F
Estimate Error
Analysis of Variance
80
Stepwise Selection: Step 2
Variable x2 Entered: R-Square = 0.8509 and C(p) = 7.5778
Analysis of Variance
Analysis of Variance
81
All variables left in the model are significant at the 0.1500 level.
No other variable met the 0.1500 significance level for entry into the model.
Para realizar seleccin de variables en regresin mltiple, la versin actual de Infostat usa
los siguientes mtodos: backward, forward, stepwise, r-cuadrado ajustado, minimizar
cuadrado medio de error, y minimizar ECM de prediccin. El mtodo de minimizar
cuadrado medio de error es aproximadamente equivalente al mtodo de maximizar r-
cuadrado para modelos de 1 variable, 2 variables, etc. que usa SAS (method= rsquare).
82
17. Anlisis de covarianza
Existen muchas situaciones en las que deseamos estudiar una respuesta (Y, variable
dependiente) en funcin de uno o ms tratamientos (factor/es) y de una o ms variables x
(regresores). Es decir, nos interesa combinar en el mismo modelo un ANOVA y una
regresin.
Ejemplos:
Y: rendimiento de un cultivo
x: fertilidad de la parcela
Tratamiento: variedad
Y: calidad de la grama en un campo de golf (medida por la velocidad con que una bola de
golf rueda por la grama).
x: humedad del suelo
Tratamiento: cultivares
83
Consideremos el siguiente ejemplo. Se estudia el efecto de cuatro dietas sobre el peso
final de cerdos, y se registra el peso inicial de los mismos. Se usaron 6 animales por dieta,
en un DCA.
data dietas;
input dieta pesoinic pesofin;
datalines;
1 5.0 17.0
1 7.0 21.0
1 5.0 18.0
1 4.0 11.0
1 3.0 6.0
1 6.0 23.0
2 7.0 24.0
2 7.0 26.0
2 8.0 23.0
2 6.0 23.0
2 5.0 18.0
2 9.0 30.0
3 5.0 20.0
3 4.0 13.0
3 3.0 14.0
3 7.0 22.0
3 6.0 23.0
3 5.0 16.0
4 10.0 30.0
4 9.0 28.0
4 8.0 22.0
4 7.0 20.0
4 11.0 31.0
4 9.0 25.0
El modelo que estamos usando es el descripto anteriormente, que en este ejemplo es:
Animales de la dieta 1: Y1 j 1 x1 j 1 j
Animales de la dieta 2: Y2 j 2 x2 j 2 j
Animales de la dieta 3: Y3 j 3 x3 j 3 j
Animales de la dieta 4: Y4 j 4 x4 j 4 j
Podemos ver que en cada caso el modelo corresponde a una lnea recta con intercepto
diferente i y la misma pendiente . Es decir, tenemos lneas paralelas. Si
graficamos estos datos podemos ver que el modelo es razonable:
84
Relacin entre peso inicial y final
32.0
21.2
15.8
10.4
5.0
2.5 5.0 7.5 10.0 12.5
peso inicial
dieta 1 dieta 2
dieta 3 dieta 4
Para comparar las medias de las distintas dietas vemos que tenemos dos opciones:
comparamos cada media de Y sin tener en cuenta las x, o comparamos las medias de Y
estimadas en cierto valor comn de x. La primera opcin es lo que haramos si usamos un
modelo sin la covariable, y podramos tener el problema que la dieta que tena los
animales ms pesados nos dara mayores pesos finales no porque fuese mejor sino porque
el azar hizo que tuviera los animales de mayor peso inicial (En el ejemplo la dieta 4 tena
los animales ms pesados inicialmente, y sus pesos finales tambin estuvieron entre los
ms altos).
Una comparacin ms razonable es aquella que compara las dietas a un nivel comn de x
(por ejemplo en x x ). Esta comparacin la realiza una prueba parcial (tipo III), ya
que compara algunos efectos en el modelo ajustando por todos los otros trminos del
modelo (en este caso la covariable). Cmo calculamos el valor de media de Y cuando
x x ? Para eso usamos la frmula de regresin, reemplazando x por x :
Animales de la dieta 1: Y1 1 x
Animales de la dieta 2: Y x
2 2
Animales de la dieta 3: Y3 3 x
Animales de la dieta 4: Y4 4 x
85
stas son las medias ajustadas, que en SAS se denominan least squares means. La
prueba de tipo III prueba la igualdad de medias ajustadas, o lo que es lo mismo, la
igualdad de los i . Debemos observar que debido a que las lneas son paralelas, da lo
mismo comparar en x x o en cualquier otro valor de x: siempre estaremos comparando
igualdad de i (se puede probar que en x x se logra la prueba ms eficiente).
La opcin solution del comando model nos da los estimadores de los parmetros del
modelo y la opcin ss3 nos muestra slo las pruebas de tipo III (parciales).
dieta 4 1234
86
Source DF Type III SS Mean Square F Value Pr > F
dieta 4 0.000000000 B . . .
1 20.5750000
2 22.4750000
3 22.5750000
4 18.3750000
Variable N R R Aj CV
pesofin 24 0.888 0.865 10.809
87
Test:LSD Fisher Alfa:=0.05 DMS:=2.74301
Error: 5.1526 gl: 19
dieta Medias n
4 18.375 6 A
1 20.575 6 A B
2 22.475 6 B
3 22.575 6 B
Letras distintas indican diferencias significativas(p<= 0.05)
Los supuestos que hacemos son los de todo modelo lineal (independencia de errores,
normalidad de errores y homogeneidad de las varianzas de los errores), adems de los
especficos del modelo de regresin usado (validez del modelo de lneas rectas paralelas).
Para verificar los primeros supuestos usamos los residuales como siempre, y para
verificar el supuesto de paralelismo podemos probar la hiptesis de no interaccin entre
los tratamientos y la covariable:
H 0 : Yij i xij ij
H a : Yij i xij i xij ij
Aqu vemos que si la hiptesis nula es falsa, entonces tenemos un modelo con lneas
rectas con pendientes diferentes para cada tratamiento:
Animales de la dieta 1: Y1 j 1 1 x1 j 1 j
Animales de la dieta 2: Y2 j 2 2 x2 j 2 j
Animales de la dieta 3: Y3 j 3 3 x3 j 3 j
Animales de la dieta 4: Y4 j 4 4 x4 j 4 j
Para hacer esto en SAS simplemente ajustamos un modelo con interaccin, y probamos la
significancia de sta (prueba de tipo III):
proc glm;
class dieta;
model pesofin = dieta pesoinic dieta*pesoinic;
run;
88
Source DF Type III SS Mean Square F Value Pr > F
El ejemplo que hemos visto era bastante simple: un factor, una covariable y un diseo
completamente aleatorizado. La extensin a casos ms complejos es directa: podemos
tener ms de un factor, podemos tener ms de una covariable y podemos tener trminos
polinomiales en una covariable. Adems podemos tener cualquier diseo experimental
(bloques, cuadrado latino, parcela dividida, etc.).
89
18. Documentacin y comunicacin de resultados
Esto es lo que presentamos en la primera clase de AGRO 5005:
Etapas que debemos seguir para obtener informacin buena a partir de los
datos:
En esta conferencia vamos a tratar de discutir algunas ideas que permitan lograr
eficazmente la etapa 4, comunicar los resultados.
La comunicacin puede ser verbal o escrita. La comunicacin verbal puede ser desde
una comunicacin informal hasta una presentacin formal. La comunicacin escrita
tambin vara desde memorandos e informes de proyecto dentro de la misma
organizacin (interna) hasta cartas, folletos de divulgacin, artculos cientficos y libros
(externa). En todos los casos tenemos que tener en cuenta la audiencia (hacia quin nos
estamos comunicando).
Muestras sesgadas: ste es posiblemente uno de los problemas centrales que nos
encontramos. Las conclusiones pueden ser correctas pero se refieren a la poblacin
equivocada. Recordemos que si no existe la aleatorizacin no podemos realizar la
inferencia estadstica correctamente. Se requiere de una planificacin adecuada del
estudio.
90
una planificacin adecuada para que la cantidad de repeticiones sea suficiente como para
detectar con una probabilidad alta una diferencia que exista en la poblacin y que sea de
inters para el investigacor.
Los anlisis primarios se hacen para responder las preguntas de investigacin que se
indicaron en los objetivos del estudio.
91
Informe estadstico
a. Resumen
b. Introduccin
c. Diseo experimental y procedimientos del estudio
d. Estadsticos descriptivos
e. Metodologa estadstica
f. Resultados y conclusiones
g. Discusin
h. Lista de datos y salidas de computacin relevantes
Bibliografa
Referencias adicionales
InfoStat (2008). InfoStat, versin 2008. Manual del Usuario. Grupo InfoStat, FCA,
Universidad Nacional de Crdoba. Primera Edicin, Editorial Brujas Argentina.
http://www.infostat.com.ar
Der, Geoff y B. Everitt (2002). A Handbook of Statistical Analyses Using SAS. 2da. Ed.
Boca Raton (FL): Chapman and Hall.
92
Biometra Avanzada - AGRO 6600
Prontuario Segundo Semestre 2009-2010
Nmero de horas crdito: 3 (tres). Se realizarn dos conferencias semanales de 50 minutos cada
una y un laboratorio semanal de 3 horas.
Descripcin: Estudio avanzado del anlisis de varianza, covarianza y regresin mltiple; mtodos
de anlisis y diseos experimentales aplicados a problemas de investigacin en las ciencias
agrcolas, biolgicas y ambientales. Los estudiantes disean experimentos, analizan datos y usan
programas estadsticos de computacin. Se suponen conocimientos previos de estadstica
bsica.
Propsito del curso: En este curso aprenderemos los fundamentos del diseo y anlisis de los
experimentos ms comnmente usados en las ciencias agrcolas y biolgicas. Daremos un
nfasis especial a la discusin de problemas reales y a la interpretacin de resultados
procesados con la computadora (programas SAS e Infostat).
Objetivos: Se espera que al finalizar el curso el estudiante
conozca y aplique los principales diseos experimentales (completamente aleatorizado,
bloques completos aleatorizados, cuadrados latinos, parcelas divididas, etc.) y los
modelos usados para su anlisis (modelos con un criterio de clasificacin, con
submuestreo, factoriales, de efectos fijos, aleatorios y mixtos).
conozca las ventajas y las limitaciones de los modelos comnmente usados.
pueda disear y analizar experimentos, obteniendo conclusiones vlidas.
conozca y aplique regresin polinomial y mltiple en situaciones experimentales.
analice los modelos estudiados usando Infostat y SAS, y extraiga conclusiones vlidas a
partir de las salidas de computacin.
Profesores:
Dr. Ral E. Macchiavelli (conferencia, laboratorio de lunes). Oficina: P-217A
Telfono: 787-832-4040 ext. 3020 (oficina), 2313 (departamento)
raul.macchiavelli@upr.edu , http://academic.uprm.edu/rmacchia
Horas de oficina: martes 8:00-9:30 y viernes 10:30-12 (otros horarios llamando previamente)
Dra. Linda Wessel Beaver (laboratorio de martes). Oficina: P-110
Telfono: 787- 833-2865 (oficina), 787-832-4040 ext. 2313 (departamento),
lindawessel.beaver@upr.edu
Horas de oficina: lunes 7:30-9:30 y martes 7:30-9:30 am (otros horarios llamando previamente)
93
Dra. Stefanie Whitmire (laboratorio de jueves). Oficina: Edificio B, Oficina 315
Telfono: 787-832-4040 ext. 2092, stefanie.whitmire@upr.edu
Horas de oficina: Martes y jueves 10:00-11:30 (otros horarios por cita previa)
94
Laboratorios
Tema Fecha aproximada
Lab. Lunes Lab. Martes Lab. Juev.
1. Repaso de notacin. Introduccin a SAS. 21enero 19 enero 28 enero
2. Diseo completamente aleatorizado y en bloques. 25 enero 26 enero 4 febrero
3. Supuestos del anlisis de varianza. 1 febrero 9 febrero 11 febrero
4. Comparaciones mltiples. 8 febrero 16 febrero 18 febrero
5. Contrastes. 19 febrero 23 febrero 25 febrero
6. Diseo cuadrado latino y factorial 2x2. 1 marzo 2 marzo 4 marzo
7. Experimento factorial 3x2x2. 8 marzo 9 marzo 11 marzo
8. Contrastes y comparaciones mltiples en 15 marzo 16 marzo 18 marzo
factoriales.
9. Efectos aleatorios y mixtos. Diseos anidados. 5 abril 23 marzo 25 marzo
10. Diseo en parcelas divididas. 12 abril 6 abril 8 abril
11. Regresin lineal simple y polinomial. 26 abril 20 abril 22 abril
12. Regresin multiple. Seleccin de variables. 3 mayo 27 abril 29 abril
13. Anlisis de covarianza. 10 mayo 4 mayo 6 mayo
Estrategias instruccionales:
95
Exmenes parciales: dos exmenes parciales, tentativamente los das mircoles 3 de marzo y 7
de abril a las 7 pm. Durante los exmenes se proveern las frmulas necesarias, y los
estudiantes podrn usar calculadora y el libro (no se permiten notas de clase ni fotocopias). Los
exmenes de aos anteriores estarn disponibles en la pgina web del curso.
Examen Final: el examen final ser un trabajo integrador del material estudiado durante el
curso. Durante los exmenes se proveern las frmulas necesarias, y los estudiantes podrn
usar calculadora y el libro (no se permiten notas de clase ni fotocopias). Los exmenes de aos
anteriores estarn disponibles en la pgina web del curso.
La calificacin final se basar en un promedio ponderado de las notas de
Asistencia y participacin (10%)
Quizes (20%)
Exmenes parciales (22% cada uno)
Examen final (26%)
Sistema de calificacin:
Der, Geoff y B. Everitt (2002). A Handbook of Statistical Analyses Using SAS. 2da. Ed. Boca Raton
(FL): Chapman and Hall.
Mead, R., R. Curnow y A. Hasted (2003) Statistical Methods in Agriculture and Experimental
Biology. 3ra. Ed. Boca Raton (FL): Chapman and Hall.
96