Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Presentado por:
YECID ANTONIO BALTAZAR VIDAL
Director:
GUILLERMO MARTÍNEZ FLÓREZ
Universidad de Córdoba
Facultad de Ciencias Básicas
Departamento de Matemáticas y Estadı́stica
Programa Estadı́stica
Monterı́a-2016
Contenido
1. RESUMEN 5
2. INTRODUCCIÓN 5
4. OBJETIVOS. 8
4.1. Objetivo general. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.2. Objetivos especı́ficos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
5. JUSTIFICACIÓN. 8
6. MARCO TEÓRICO. 9
6.1. Diseño Experimental. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
6.1.1. Conceptos Básicos del Diseño Experimental. . . . . . . . . . . . 9
6.1.2. Estructuras del Diseño Experimental . . . . . . . . . . . . . . . 12
6.2. Diseño Completamente al Azar (DCA). . . . . . . . . . . . . . . . . . . 12
6.2.1. Modelo Estadı́stico y Supuestos. . . . . . . . . . . . . . . . . . . 13
6.2.2. Modelos de Efectos Fijos y Aleatorios . . . . . . . . . . . . . . . 15
6.2.3. Estimación de Parámetros . . . . . . . . . . . . . . . . . . . . . 16
6.2.4. Hipótesis de Interés . . . . . . . . . . . . . . . . . . . . . . . . . 17
6.2.5. Análisis de Varianza (ANAVA) . . . . . . . . . . . . . . . . . . 17
6.2.6. Pruebas de Hipótesis y Errores Estándar . . . . . . . . . . . . . 19
6.3. Pruebas de Validación de los Supuestos del Modelo . . . . . . . . . . . 20
6.3.1. Pruebas de Homogeneidad de Varianzas . . . . . . . . . . . . . 21
6.3.2. Prueba de Normalidad de los Errores de Shapiro - Wilk . . . . . 22
6.3.3. Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . 22
6.3.4. Transformaciones Más Frecuentes para Homogenizar Varianzas . 24
2
6.4. Comparaciones Múltiples . . . . . . . . . . . . . . . . . . . . . . . . . . 26
6.4.1. Metodo de las Diferencias Mı́nimas Significativas (DMS) . . . . 26
6.4.2. La Prueba de Intervalos Múltiples de Duncan. . . . . . . . . . . 27
6.4.3. Prueba Honesta de Tukey . . . . . . . . . . . . . . . . . . . . . 28
6.4.4. Prueba de Scheffé . . . . . . . . . . . . . . . . . . . . . . . . . . 29
6.4.5. Prueba de Bonferroni . . . . . . . . . . . . . . . . . . . . . . . . 29
6.4.6. Comparación de Medias de Tratamientos con un Control (Prueba
de Dunnett) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
6.4.7. Contrastes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
6.4.8. Polinomios Ortogonales . . . . . . . . . . . . . . . . . . . . . . . 33
6.5. Diseño en Bloques Completamente Aleatorizados . . . . . . . . . . . . 36
6.5.1. Aleatorización en el Diseño en Bloques al Azar . . . . . . . . . 37
6.5.2. Modelo Estadı́stico . . . . . . . . . . . . . . . . . . . . . . . . . 37
6.5.3. Pruebas de Hipótesis y Análisis de Varianza . . . . . . . . . . . 37
6.6. Muestreo en Unidades Experimentales . . . . . . . . . . . . . . . . . . 39
6.6.1. Muestreo de Unidades Experimentales en un DCA. . . . . . . . 40
6.6.2. Descomposición de la Suma de Cuadrados Total (DCA) . . . . . 41
6.6.3. Diseño de Bloques Completamente al Azar con Muestreo en las
Unidades Experimentales . . . . . . . . . . . . . . . . . . . . . . 42
6.7. Experimentos Factoriales . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.7.1. Conceptos Básicos . . . . . . . . . . . . . . . . . . . . . . . . . 45
6.7.2. Efectos de un Factor . . . . . . . . . . . . . . . . . . . . . . . . 46
6.8. Experimento Factorial Bajo un Diseño Completamente al Azar . . . . 47
6.8.1. Análisis de Varianza . . . . . . . . . . . . . . . . . . . . . . . . 49
6.8.2. Errores Estándar para Medias de Efectos Principales e Interacción 50
6.9. Entorno R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
7. METODOLOGÍA. 52
8. RECURSOS INSTITUCIONALES. 52
3
9. CRONOGRAMA DE ACTIVIDADES. 53
10.BIBLIOGRAFÍA. 54
4
1. RESUMEN
Este trabajo busca implementar el análisis estadı́stico de diseños experimentales con
apoyo computacional a tráves del software Estadı́stico R. El método de estimación que
usaremos para los párametros del modelo estimado es el de los mı́nimos cúadrados
ordinarios el cual se implementa en R utilizando la función lm, este método se usara
debido a todas las propiedades que tienen los estimadores que se encuentran a tráves de
este método; y para el respectivo análisis de estos diseños usaremos la libreria agricolae
la cual contiene una gran cantidad de fuciones que nos ayudaran con el principal objetivo
de este trabajo , con esta implementación computacional se realizaran varios ejemplos
los cuales serán plasmados en un blog de acceso libre para que toda la comunidad que
necesite esta información pueda acceder a ella y puedan utilizarla para el respectivo
análisis de algún diseño experimental que se le presente en una situación real.
P alabras claves : Diseños experimentales, mı́nimos cuadrados ordina-
rios entorno R, blog.
2. INTRODUCCIÓN
Los modelos de diseño de experimentos son modelos estadı́sticos clásicos cuyo objetivo
es averiguar si unos determinados factores influyen en una variable de interés y, si existe
influencia de algún factor, cuantificar dicha influencia. Unos ejemplos donde habrı́a que
utilizar estos modelos son los siguientes:
5
cuenta el tipo de programa utilizado y el tipo de fichero que se comprime.
Encontrar las condiciones experimentales con las que se consigue un valor extremo
en la variable de interés o respuesta.
6
Comparar las respuestas en diferentes niveles de observación de variables contro-
ladas.
La Estadı́stica hoy dı́a es una herramienta valiosa que facilita acciones en el desarrollo
de las sociedades humanas; su aplicación se direcciona a la recolección, análisis de
información e interpretación de resultados obtenidos en un estudio; ya sea de carácter
académico o cientı́fico. En muchas ocasiones para el análisis de esta información se
requiere el uso de paquetes especializados como SAS, SPSS, MINITAB, entre otros. Para
usar estos paquetes se requiere una licencia la cual tiene una gran inversión económica
y en muchas ocasiones las entidades no disponen del presupuesto para ello, situación
que limita a los usuarios a resolver problemas en esta área; situaciones que han llevado
a que estos usen de una forma ilegal estos paquetes.
7
4. OBJETIVOS.
Compartir una herramienta útil y de libre acceso para análisis respectivo de diseños
experimentales usando el lenguaje y entorno del software estadı́stico libre R.
Elaborar un blog con este contenido para que toda la comunidad académica e
investigadores tengan acceso a esta herramienta.
5. JUSTIFICACIÓN.
Debido a la problemática que enfrenta la comunidad académica (estudiantes, profe-
sores, investigadores, etc) con programas estadı́sticos de libre acceso que soporten el
análisis de problemas que requieran el uso de diferentes métodos estadı́sticos, de aqui
nace la idea de ofrecer R como una solución alternativa a dicha problematica ya que
este es eficiente, de libre acceso y fácil manejo, ya que en la actualidad son muchas las
ocasiones, donde los investigadores desean saber el comportamiento de una variable en
función de un factor el cual presenta distintos niveles, el interés de estos es verificar si
existe diferencia entre estos niveles; para resolver esta hipotesis se formula un diseño
de experimentos, para la realización del análisis estadı́stico de estos diseños se necesita
el uso de paquetes estadı́sticos los cuales en su mayoria nos exigen una licencia para su
8
funcionamiento dicha licencia tiene un gran costo económico.
Este trabajo se direcciona a ofrecer el entorno R como solución alternativa a dicha si-
tuación debido a que este es un software libre y por tanto es fácil obtenerlo.
R ofrece una gran gamma de librerı́as de las cuales solo algunas de ellas serán usadas
para la creación de algoritmos que ayuden a la estimación de los parámetros y calcúlos
respectivos en el análisis de dichos diseños.
Se creará un sitio web (blog) que contenga los algoritmos que se realizaran en el tra-
bajo los cuales serán útiles para resolver problemas que necesiten el uso de diseño de
experimentos; estos algoritmos estarán acompañados con un respectivo ejemplo el cual
ayudara que el usuario pueda entender de manera fácil dichos algoritmos para que ası́
le sea útil en la solución de problemas reales o prácticos.
6. MARCO TEÓRICO.
9
El tratamiento es el procedimiento cuyo efecto se mide y se compara con otros
tratamientos.
La unidad experimental puede ser un animal, una parcela, una planta, un me-
dio de cultivo, una persona, un grupo de personas, 10 pollos en galpón, etc. El
tratamiento puede ser una dosis de cal, una variedad, un tipo de fertilizante, un
programa de aspersión , una combinación temperatura-humedad, una dieta, un
método de aplicación, etc. Cuando se mide el efecto de un tratamiento, se mide en
una unidad de muestreo, cierta fracción de la unidad experimental, por lo tanto
la unidad de muestreo puede ser la unidad completa.
10
Cuando un tratamiento aparece más de una vez en un experimento se dice que
esta repetido.
El control del error experimental puede lograrse mediante la escogencia del diseño
experimental adecuado, es decir, por medio de diseños como el de bloques com-
pletos aleatorizados (DBCA) o cuadrados latinos (DCL), el uso de observaciones
concominantes (Covariables) y una apropiada elección del tamaño y la forma de
las unidades experimentales.
Los tratamientos deben ser elegidos de tal forma que esten acordes con el estudio
que se quiere realizar, con los objetivos, con el problema que se está planteando,
es decir, con las hipótesis de interés.
Aleatorización.
La aleatorización es la disposición de los tratamientos dentro del campo expe-
rimental. La funcion de la aleatorización es la de asegurarse que se obtengan
estimativas válidas del error experimental.
11
6.1.2. Estructuras del Diseño Experimental
Según Hinkelmann & kempthorne (1994), cuando se realiza un diseño es esencial tener
en cuanta dos estructuras básicas, las cuales hay que identificar y distinguir, estas son:
La estructura de tratamiento y la estructura de diseño.
Estructura de Tratamiento.
Según la naturaleza del experimento, en esta fase se debe determinar, el número
de tratamientos, combinaciones de tratamientos que se van a estudiar y a com-
parar. Los tratamientos estan determinados por el número de factores que se van
a comparar para medir sus efectos. Si es un factor únicamente, la estructura
de tratamientos está formada por un conjunto de tratamientos, en este caso se
habla de una vı́a de clasificación. Si hay más de un factor, los tratamientos son
combinaciones de niveles de los factores y se habla de clasificación a dos vias y
más, dependiendo del número de factores (experimentos factoriales).
Estructura de Diseño
Se determina con la agrupación de las unidades experimentales en bloques o gru-
pos homogéneos, de tal manera que las condiciones bajo las cuales se observan los
tratamientos sean las más homogéneas posible. Si todas las unidades experimen-
tales se dan bajo las mismas condiciones, se tiene sólo un grupo y los tratamientos
se pueden asignar en forma completamente aleatoria a las unidades experimenta-
les, en este caso se tiene un diseño completamente aleatorio (DCA), Si se necesita
más de un grupo (bloques) de unidades experimentales, donde las unidades dentro
del grupo son más homogéneas que las unidades entre grupos distintos, entonces
se habla de diseños en bloques.
12
son igualmente controladas. En este tipo de diseño los tratamientos se asignan a las
unidades experimentales en forma completamente aleatoria.
Si se tienen t tratamientos y n unidades experimentales, con n > t, se puede aplicar el
primer tratamiento a r1 unidades experimentales escogidas al azar del total n, se asigna
el segundo tratamiento a r2 unidades experimentales a partir de las n − r1 restantes,
asi hasta llegar a asignar el tratamiento t a la rt últimas unidades experimentales.
i = 1, 2, · · · , rj y j = 1, 2, · · · , t,
donde,
13
ij : Es el error aleatorio que se comete en la i − ésima unidad experimental del
j − ésimo tratamiento.
t: Es el número de tratamientos.
Para llevar a cabo las pruebas de hipótesis del modelo se necesita asignarle una distribu-
ción a los errores, la más común es la distribución normal, dadas las caracterı́sticas que
tiene esta variable aleatoria y para poder llegar teorı́camente a encontrar un estadı́stico
de prueba basado en la teorı́a de la inferencia estadı́stica clásica. Ası́, se supone que los
errores tienen distribución normal, son independientes e identicamente distribuidos, tie-
nen media cero, varianza constante, todas estas caracterı́sticas de los errores se resume
en la siguiente notación:
iid
ij ∼ N (0,σ 2 ) .
Dado que los estadı́sticos de prueba están construidos bajo estos supuestos, posterior-
mente para dar mayor credibilidad a los resultados obtenidos estos deben ser validados
con los datos que se obtengan del experimento.
14
6.2.2. Modelos de Efectos Fijos y Aleatorios
Por la naturaleza del modelo, el objetivo no se centra en las medias de los tra-
tamientos, sino en la variabilidad de éstos, porque al no existir tal variabilidad,
el comportamiento de los tratamientos serı́a similar. Entonces el objetivo central
15
es estimar la variación entre las medias de los tratamientos. En este caso si el
experimento se repite no se tienen siempre los mismos tratamientos, puesto que
por cada ensayo hay seleción de los tratamientos a tener en cuenta. el supuesto
sobre los efectos de los tratamientos es que. τj ∼ N (0, στ2 ) .
Ahora:
rj 2 rj rj
2 2 Y.j2
(rj − 1) Sj2 = Yij2 − rj Y .j = Yij2 −
P P P
Yij − Y .j = rj
= SCEEj , siendo SCEEj
i=1 i=1 i=1
la suma de cuadrados de los errores para el tratamiento j-ésimo. Entonces,
Pt
SCEEj
2 j=1
σ
b = . (3)
n− t
Para el estimador de µj , µ
bj = Y ·j se tiene, de acuerdo a la teorı́a estadı́stica que:
2
bj ∼ N µj , σrj
µ para j = 1, 2, ..., t.
16
6.2.4. Hipótesis de Interés
En el modelo de efectos fijos se desea probar si los efectos de los diferentes tratamientos
es difeerente de cero o también si las medias de los diferentes conjuntos de tratamientos
presentan diferencias estadı́sticas. El experimentador puede probar los siguientes tipos
de hipótesis.
P
H0 : cj µj = a, para un conjunto de constantes c1, c2, . . . , ct y a.
H0 : µ1 = µ2 = · · · = µt y
! v
t u t
X uX Cj2
ee cj µ
bj =σ
bt (5)
j=1
r
j=1 j
t
P
es decir, para probar la hipótesis nula H0 : cj µj = a se debe calcular
j=1
t
P Pt
bj − a
cj µ bj − a
cj µ
j=1 j=1
tc = != s , (7)
Pt Pt C2
j
ee cj µ
bj σ
b rj
j=1 j=1
rechazandose H0 sı́ |tc | > t(1−α/2, n−t) . Las pruebas de hipótesis de los casos 2 y 3 se
obtienen como casos particulares de la hipótesis del caso 1.
Si se tienen rj observaciones para cada tratamiento, los datos del experimento se pueden
representar mediante la matriz dada en la Tabla
17
Cuadro 1: Tabla de totales para un DCA.
repetición/T T O 1 2 3 ... j ... t
1 Y11 Y12 Y13 ... Y1j ... Y1t
2 Y21 Y22 Y23 ... Y2j ... Y2t
3 Y31 Y32 Y33 ... Y3j ... Y3t
.. .. .. .. .. ..
. . . . ... . ... .
rj Yr1 1 Yr 2 2 Yr3 3 ... Yrj j ... Yrt t
Total Y·1 Y·2 Y·3 ... Y·j ... Y·t
Media Y ·1 Y ·2 Y ·3 ... Y ·j ... Y ·t
18
6.2.6. Pruebas de Hipótesis y Errores Estándar
Ası́ mismo, cuando el investigador desea llevar a cabo cualquier prueba para un trata-
miento en particular, esta se puede realizar utilizando en este caso el error estándar de
estimación para una media de tratamiento, el cual viene dado por:
19
s
CMEE
SY ·j = (11)
rj
y cualquier inferencia para el j − ésimo tratamiento se debe realizar con este error.
Como se mencionó al inicio de este capı́tulo, existen ciertos supuestos sobre los errores
del modelo en los que se basa el ANAVA, los cuales son:
1. Los errores tienen distribución normal con media cero, E (ij ) = 0 y varianza
constante, V (ij ) = σ 2 .
0
2. Son variables aleatorias independientes, es decir, para i 6= i , Cov (i , i0 ) = 0.
En la práctica los errores se estiman con los datos experimentales que se obtienen en
campo; para un DCA la estimación se lleva a cabo mediante la expresión
es decir, los errores estimados se calculan por tratamiento, restándole a los datos obte-
nidos de cada tratamiento la media de ese tratamiento.
Los dos supuestos del modelo más importantes a cumplirse, se refieren a la normalidad
y la homogeneidad de varianza de los errores, puesto que de hecho los tratamientos son
asignados aleatoriamente a las unidades experimentales al inicio de todo experimento
y esto garantiza, en cierta forma la independencia de los errores. A continuación se
presentan los algoritmos para llevar a cabo las pruebas de homogeneidad de varianza y
normalidad.
20
6.3.1. Pruebas de Homogeneidad de Varianzas
Prueba de Hartley
donde σj2 representa la varianza del j − ésimo tratamiento y además donde todos
los tratamientos tienen el mismo número de repeticiones, es decir r1 = r2 = · · · =
rt = r. Hartley propone la siguiente estadı́stica para llevar a cabo la prueba de
hipótesis
M ax Sj2
j
FM ax = ,
M in Sj2
j
Prueba de Bartlett
Es una prueba más liberal que la anterior. Para llevar a cabo la prueba de hipótesis
dada en, los tratamientos no necesariamente deben tener el mismo número de
repeticiones. La estadı́stica dada por Bartlett esta definida por:
" t
#
1 X
χ2 = vj ln Sj2 ; j = 1, 2, . . . , t
v ln (CMEE ) −
C j=1
!
t t 1 1
1
P P
donde: vj = rj − 1; v = vj y C = 1 + 3(t−1) − y la hipótesis nula
j=1 j=1 vj v
H0 se rechaza sı́ χ2 > χ2(α, t−1) .
21
6.3.2. Prueba de Normalidad de los Errores de Shapiro - Wilk
Para llevar a cabo esta prueba inicialmente se calculan los errores del modelo bajo un
diseño completamente al azar, los cuales vienen dados por la expresión
posteriormente se ordenan los errores de menor a mayor, e(1) , e(2) , · · · , e(n) , eliminando
el término que queda en la mitad de los datos, si el número de observaciones fuese impar,
el paso siguiente es realizar las diferencias d(1) = e(n) − e(1) , d(2) = e(n−1) − e(2) , · · · , es
decir, el más grande menos el más pequeño, el segundo más grande menos el segundo
más pequeño, etc; hasta llegar a los dos datos del centro; posteriormente estas diferencias
se ponderan, en ese orden, por los términos ak,n , los cuales se encuentran en la Tabla
dada por Shapiro - Wilk, es decir se realizan los productos ak,n ∗ d(k) , posteriormente
se calcula la estadı́stica
" #2
1 X
SW = ak,n ∗ d(k) (13)
SCEE k
La hipótesis nula, H0 , es rechazada sı́ SW < Wα, n siendo Wα, n el valor de la estadı́stica
de Shapiro - Wilk al nivel de significancia α.
6.3.3. Transformaciones
Es muy frecuente que después de llevar a cabo un análisis de varianza a una serie
de datos, los residuos estimados no se ajusten a una distribución normal o no tengan
varianza homogenea, otro caso muy común es que la falta de normalidad lleve a una
22
relación funcional entre la media y la varianza de las poblaciones estudiadas, ocasio-
nando heterogeneidad entre las varianzas muestrales. Algunos autores consideran que
una transformación apropiada de los datos puede homogeneizar las varianzas y puede
aproximar los residuos a una distribución normal.
Los anteriores problemas se pueden mejorar alterando la forma de los datos, al aplicarles
una función matemática a las observaciones.
Según Peña (1987) las razones más fuertes para transformar son:
Una relación muy importante entre los datos originales y los transformados es la si-
guiente, si Yi son los datos originales y zi = T (Yi ) los transformados, se cumple la
siguiente propiedad:
2
Sz2 = T Y × Sy2 .
z=T Y y (14)
23
lo que quiere indicar que si se tiene varias poblaciones, entonces la transformación afecta
de igual forma la media y la varianza de cada una de ellas.
24
se puede utilizar una transformación de potencia, dada por.
necesario realizar varias transformaciones sobre las medias muestrales a fin de conseguir
una curva de ajuste entre σ y µ.
Para conseguir simetrı́a, las transformaciones usualmente son las mismas estudiadas
para conseguir homogeneidad de varianza, entre ellas se tienen las siguientes: la trans-
25
formación cuadrática,Y 2 , es utilizada cuando la distribución de los datos originales
tiene asimétria positiva, ya que comprime la escala para valores pequeños y la expande
√
para valores altos, mientras que las transformaciones Y , Ln (Y ) y 1/Y, comprime los
valores altos y expanden los valores bajos.
Supóngase que después de haber rechazado la hipótesis nula, con la prueba F del analisis
de varianza, se desea probar que:
0
H0 : µj = µj 0 , para j 6= j .
Y ·j − Y ·j0
t0 = s . (16)
CMEE r1j + 1
r 0
j
26
donde la cantidad v
u !
u 1 1
DM S = t(1− α2 , n−t)
tCMEE + (18)
rj rj 0
Uno de los procedimientos más conocidos y aplicados para comparar medias de tra-
tamientos es el dado por Duncan(1955), y conocido como comparación por intervalos
múltiples de Duncan. Este procedimiento exige que los tratamientos tengan el mismo
número de repeticiones, es decir que r1 = r2 = · · · = rt . Para llevar a cabo esta prueba
inicialmente se calcula el error estándar para una media de tratamiento dado por:
r
CMEE
SY ·j = . (20)
r
27
con la segunda media mas pequeña, entonces hay p = t − 1 medias entre las compa-
radas; entonces ahora el valor de la tabla se busca con Qα (t − 1, glEE ) , asi se sigue
hasta llegar a comparar la media más grande con la segunda media más grande, cuyo
valor en la tabla será ahora Qα (2, glEE ) . Con el resto de comparaciones la metodologı́a
es similar, asi cuando usted compara la segunda media más grande con la media más
pequeña, existen p = t − 1, medias entre estas dos, por lo tanto el valor de la tabla
será Qα (t − 1, glEE ) . Se puede seguir el procedimiento hasta comparar las t (t − 1) /2
medias de tratamientos en el experimento.
Para cada comparación entre medias de tratamiento se calcula el valor Rp = Qα (p, glEE )SY ·j
para p = 2, 3...t, y la hipótesis nula de igualdad de medias entre los tratamientos com-
parados se rechaza sı́
Y .j − Y 0 > Rp .
.j
En este procedimiento se debe tener tener en cuenta que si dos medias no difieren
significativamente, entonces cualquier otra media entre estas dos no debe diferir con
las comparadas inicialmente.
28
diferentes si el valor absoluto de sus diferencias muestrales excede el valor, esto es
Y .j − Y 0 > Tα = qα (t, glEE ) S , (22)
.j Y .j
r
CMEE
donde SY .j esta definida como SY .j = , debe notarse que en todas las compa-
r
raciones sólo se usa el valor crı́tico Tα de la tabla de Tukey.
Una ventaja de esta prueba es su robustez frente a la violación de los supuestos del
ANAVA, además que no necesita igual número de repeticiones por tratamiento. Es una
prueba bastante conservadora, más que la de Tukey, se pueden llevar a cabo cualquiera
de las posibles comparaciones entre medias de tratamientos.
En esta prueba la hipótesis nula es:
0
H0 : µj = µj 0 , para toda j 6= j , se rechaza sı́
s
Y .j − Y ·j 0 > (t − 1) F(α, t−1, v) CMEE 1 + 1 ,
q
(23)
rj rj 0
donde: v = glEE .
29
donde p es el número de comparaciones que se piensan llevar a cabo y t(α/2p, v) es el valor
tabulado de la estadı́stica de Bonferroni al nivel de significancia α.
H0 : µj = µt contra H1 : µj 6= µt ,
6.4.7. Contrastes
30
H0 : (µ1 + µ2 ) − (µ3 + µ4 ) = 0 contra H1 : (µ1 + µ2 ) − (µ3 + µ4 ) 6= 0.
Estudiamos ahora como se llega a un estadı́stico de prueba para corroborar esta hipóte-
sis.
Definición: Un contraste es toda combinación lineal de medias de tratamiento, donde
la suma algebráica de sus coeficientes es igual a cero. En general una combinación lineal
o contraste es de la forma:
t
X
Z1 = c11 µ1 + c12 µ2 + · · · + c1t µt = c1j µj (26)
j=1
Pt c1j
donde se cumple que j=1 = 0.
rj
Si los tratamientos tienen el mismo número de repeticiones, la condición anterior se
reduce a:
t
X
c1j = 0. (27)
j=1
Entonces es posible escribir una prueba de hipótesis que involucre grupo de medias de
tratamientos a partir del concepto de lo que es un contraste. Si Z1 es el contraste que
representa una comparación de medias entonces las hipótesis estadı́sticas se escriben
como se muestra a continuación:
t
P t
P
H0 : Z1 = c1j µj = 0 contra H1 : Z1 = c1j µj 6= 0.
j=1 j=1
Un estimador del contraste dado en (25) basandose en las medias de los tratamientos
es:
t
X
Zb1 = C11 Y ,1 + C12 Y ,2 + · · · + C1t Y .t = C1j Y .j , (28)
j=1
donde los Y .j son los promedios procedentes de muestras aleatorias de tamaño rj . Sı́ las
muestras provienen de poblaciones normales e independientes, entonces por el teorema
central del lı́mite se tiene que:
σj2
Y.j ∼ N µj , σj2 ⇒ Y .j ∼ N µj , .
rj
31
De estos resultados se llega a:
" t # t t
X X X
E Zk = E
b Ckj Y .j = Ckj E Y .j = Ckj µj . (29)
j=1 j=1 j=1
y
" t
# t t t 2
X X
2
X 2 j
σ2 X Ckj
V Zbk = V Ckj Y .j = Ckj V Y .j = Ckj = σ2 , (30)
j=1 j=1 j=1
rj j=1
r j
H0 : Z1 = 0 contra H1 : Z1 6= 0 (32)
2
Zbk
SCZck = t
para totales (34)
rj Cj2
P
j=1
H0 : Zk = 0 contra H1 : Zk 6= 0
32
tenga un segundo estadı́stico de prueba, que es el más utilizado, que el anterior,
es dado por
CMZbk
F = ∼ F1,glEE . (36)
CMEE
Contrastes Ortogonales
Dos contrastes
puesto que los contrastes que se analizan son independientes dos a dos, lo que
conlleva a que la variación que se deduce de uno de los contrastes no es posible
volverla a tener en otro contraste.
Como se aclará anteriormente cuando los niveles del factor en estudio son cuantitativos,
tales como dosis de un medicamento, raciones en una dieta, distancia de siembra, tiempo
de maduración de un producto, etc, hacer un análisis de comparaciones múltiples tiene
33
poco sentido ya que lo que interesa es la relación entre la variable medida y los niveles
del factor cuantitativo aplicado, es decir, la función matemática que explica la variable
respuesta en función de los niveles del factor en estudio, en estos casos el análisis de
regresión, discutido en capı́tulos anteriores es lo más aconsejable.
En situaciones en la que los niveles del factor son equidistantes o igualmente espaciados,
puede simplificarse mucho el ajuste de modelos polinomiales por el método de mı́nimos
cuadrados. El procedimiento utiliza los coeficientes de los contrastes ortogonales que
se fundamenta en la siguiente explicación (ver Gómez 1997).
Para un factor A con tres niveles, los efectos del factor estan formados por dos compo-
nentes: lineal y cuadrático
34
Notese que tanto AL como AC representan un contraste, por esto, para determinar la
significancia, o presencia, de cada efecto se plantean las siguientes hipótesis nulas con
respecto a los contrastes anteriores:
H0 : AL = 0 ⇔ 21 (µ2 − µ0 ) = 0 ⇔ µ2 − µ0 = 0 ⇔ µ0 − µ2 = 0
Ası́, los coeficientes ortogonales para el efecto lineal son: 1, 0 y -1 y para el efecto
cuadrático son 1, -2 y 1.
En general, realizando el ajuste del polinomio por mı́nimos cuadrados, se pueden obtie-
ner los efectos lineal, cuadrático, cúbico etc. Igualmente, tambien se puede obtener la
suma de cuadrados de cada efecto, lo cual permite determinar la contribución de cada
término del polinomio.
Al igual que en contrastes ortogonales, si t niveles del factor se analizan en un experi-
mento, es posible extraer efectos polinomiales hasta de orden t − 1.
El modelo estadı́stico del polinomio es:
35
contrastes ortogonales. Ası́, se cumple que:
SCT T O = SCE. Linear + SCE. Cuadrático + SCE. C úbico + SCE. Cuartico + ... + SCE. t−1
t−1
X
= SCE. K , (41)
K=1
Las estimaciones por mı́nimos cuadrados de los parámetros del modelo polinomial son:
t
P
Y ·j Pj (Y )
j=1
α
bj = t
para j = 0, 1, 2, ...., t − 1,
P 2
[Pi (Y )]
j=1
es decir,
t
P t
P t
P
C0j Y .j C1j Y ·j Ckj Y .j
j=1 j=1 j=1
α
b0 = t
= Y ·· , α
b1 = t
, ··· , α
bk = t
,
2 2 2
P P P
C0j C1j Ckj
j=1 j=1 j=1
donde los coeficientes Ckj son dados en la Tabla de poligonos ortogonales para el efecto
lineal (P1 (x)) , cuadrático (P2 (x)) , cúbico(P3 (x)) , etc.
36
6.5.1. Aleatorización en el Diseño en Bloques al Azar
Los tratamientos se deben aleatorizar dentro de cada uno de los bloques, en forma
independiente. Por ejemplo, si el ensayo en campo consta de cinco tratamientos (t1, t2,
t3, t4, t5 ) y tres bloques, una de las posibles distribuciones de los tratamientos a las
parcelas puede ser:
donde
37
Ası́, las pruebas de hipótesis correspondientes son:
1. Para los tratamientos: Ho : µ·1 = µ·2 = · · · = µ·t contra H1 : µ·j 6= µ·j 0 para
0
algún j 6= j ,
2. Para los Bloques: Ho : µ1· = µ2· = · · · = µr· contra H1 : µi· 6= µi· para algún
0
i 6= i .
0
H0 : τ1 = τ2 = · · · = τt contra H1 : τj 6= τj 0 para algún j 6= j .
Además,
r Pt t
Yij2 ,
P P
Y·· = n= r = tr, glBloques = r − 1, glT T O = t − 1 y
i=1 j=1 j=1
38
Cuadro 4: ANAVA para un DBCA
F.V. gl SC CM Fc FT abla
SCBloques CMBloques
Bloques r−1 SCBloques CMBloques = r−1 CMEE
Fα, (r−1), (r−1)(t−1)
SCT T O CMT T O
TTO t−1 SCT T O CMT T O = t−1 CMEE
Fα, t−1,(r−1)(t−1)
SCEE
EE (r − 1) (t − 1) SCEE CMEE = (r−1)(t−1)
glEE = (r − 1) (t − 1) .
39
Para medir una variable en una unidad experimental se puede usar:
X Toda la Unidad experimental, en cuyo caso se tiene un solo error en el modelo.
X Muestrear dentro de la unidad experimental, lo cual ocaciona otra fuente de error en
el modelo. La diferencia entre el valor muestral y el de la unidad experimental completa
constituye el error de muestreo, por lo cual es importante utilizar una buena técnica de
selección de las muestras.
para, i = 1, 2, · · · ; r, j = 1, 2, · · · , t; y k = 1, 2, · · · , s
donde
40
iid iid
Los supuestos para los dos terminos de error son: ij ∼ N (0, σ 2 ) y θijk ∼
N (0, σθ2 ).
donde,
r X
t X
s
X
2 Y···2
SCT otal = Yijk − F C, siendo F C = , (49)
i=1 j=1 k=1
rst
41
t
1 X 2
SCT T O = Y − FC (50)
rs j=1 ·j·
r t t r t
1 XX 2 1 X 2 1 XX 2
SCEE = Yij· − Y·j· = Y − F C − SCT T O (51)
s i=1 j=1 rs j=1 s i=1 j=1 ij·
Asi mismo, los grados de libertad para el error experimental y de muestreo son:
t
X t
X r X
X t
glEE = (rj −1) = (r −1) = t(r −1) y glEM = (s−1) = rt(s−1). (52)
j=1 j=1 i=1 j=1
En el caso que el diseño sea en bloques completos al azar, con una estructura de tra-
tamiento simple, el modelo que se ajusta a la situación para una variable respuesta Y
es:
Yijk = µ + β i +τ j +ij +θijk ; (53)
con: i = 1, 2, · · · r; j = 1, 2, · · · , t; y k = 1, 2, · · · , s, donde
42
r es el número de repeticiones del tratamiento j−ésimo.
Los supuestos para los dos terminos de error son los mismos del DCA:
iid iid
ij ∼ N (0, σ 2 ) y θijk ∼ N (0, σθ2 ).
donde,
r X
X t X
s
2
SCT otal = Yijk − F C, (55)
i=1 j=1 k=1
2 r P
t P
s
Y··· P
con FC = rst
y Y··· = Yijk ,
i=1 j=1 k=1
r
1 X 2
SCBloques = Y − F C, (56)
st i=1 i··
t
1 X 2
SCT T O = Y − F C, (57)
sr j=1 ·j·
43
r t
1 XX 2
SCEE = Y − F C − SCB − SCT T O (58)
s i=1 j=1 ij·
Cuadro 6: ANAVA y cuadrados medios esperados para un DBCA con muestreo en las
UE
F.V. gl SC CM E [CM ] Fc
ts CMBloques
σθ2 + sσ%2 + βi2
P
Bloques r−1 SCBloques CMBloques r−1 CMEE
rs CMT T O
σθ2 + sσ%2 + τj2
P
TTO t−1 SCT T O CMT T O t−1 CMEE
En inumerables experimentos del sector agrı́cola, industrial, salud, ingenierı́l etc, hay
que experimentar con combinaciones de dos o más factores o grupos de tratamientos.
Los experimentos factoriales permiten examinar las interacciones entre los distintos
niveles de los factores estudiados, para posteriormente determinar cuál combinación de
niveles de éstos optimiza la respuesta. En este tipo de experimento, todos los niveles
de un factor se combinan con los niveles de los otros factores, estas combinaciones de
niveles es lo que corresponde a los tratamientos. Cuando dos factores interactúan la
respuesta a los cambios de un factor está condicionada por el nivel del otro factor.
Las dimensiones de un experimento factorial se ı́ndican de acuerdo al número de factores
que se esten estudiando, o que intervienen en el experimento, y al número de niveles de
cada factor. Ası́ la expresión 2 × 2 hace referencia a un experimento factorial con dos
factores y dos niveles por factor, mientras que la expresión 3 × 4 × 2, hace referencia
44
a una estructura de tratamiento factorial con tres factores, el primero con tres niveles,
el segundo con cuatro niveles y el tercero con dos niveles. Cuando todos los factores
estudiados tienen el mismo número de niveles, digamos n, entonces se dice que se tiene
un factorial simétrico, ası́, para p factores con n niveles cada uno se dice que se tiene
un experimento factorial pn . Por ejemplo, la notación 23 indica un ensayo con tres
factores y dos niveles por factor, mientras que un ensayo con dos factores y tres niveles
por nivel se nota 32
Cabe anotar que en algunos libros no se habla de experimentos factoriales, sino de
diseños factoriales, tal denominación es incorrecta puesto que la estructura de diseño se
refiere a la forma como las unidades experimentales se colocan en campo, para controlar
el error experimental, ası́ el investigador puede tener un experimento factorial 2x2 en un
DCA o en un DBCA, o en un DCL es decir la combinación de los factores hace referencia
a la estructura de los tratamientos y la parte de control del error a la estructura de
diseño, por lo tanto hay que diferenciar los dos conceptos.
45
la letra mayúscula al factor, subindexadas con los números 1, 2, 3, .., n. Por ejemplo para
el factor temperatura (letra T) que tiene 3 niveles, estos se denotarı́an por t1 , t2 y t3 . En
un experimento factorial es importante saber que los factores actuan simultáneamente
sobre las unidades experimentales para obtener la respuesta o variable dependiente.
El efecto de un factor a un sólo nivel de otro factor o una sola combinación de otros
factores se conoce como efecto simple. Cuando se tienen dos factores, si se promedian
esos efectos simples se obtiene un efecto principal. El efecto principal de un factor es
una comparación entre las respuestas esperadas para los diferentes niveles de un factor,
promediados sobre todos los niveles de todos los otros factores.
Ejemplo:
(Martı́nez y Martı́nez, 1997) Se tiene un experimento con dos factores: nitrógeno (N)
con niveles 0 y 100 kg/ha y fósforo (P) con niveles 0 y 50 kg/ha. Los resultados obtenidos
al combinar estos dos factores son ilustrados a continuación.
p1 − p0 50 70
46
(n1 p0 − n0 p0 ) + (n1 p1 − n0 p1 ) 30 + 50
[N] = = = 40.
2 2
Si se rechaza H0 , el paso siguiente es analizar las medias de celda µij y se pierde interés
en las pruebas independientes de los efectos principales de los factores A y B, puesto
que los factores están actuando en forma simultánea o conjunta.
Se estudiará ahora el caso de un modelo de efectos fijos con dos factores A y B, con
a y b niveles respectivamente, en un experimento factorial bajo un DCA. El modelo
estadı́stico para este caso es:
47
con i = 1, 2, 3, · · · , r, j = 1, 2, 3, · · · , a y k = 1, 2, 3, ..., b.
Donde
Yijk es la respuesta en la i − ésima unidad experimental para el j − ésimo nivel del
factor A y el k − ésimo nivel del factor B.
µ es la media general común a todos los tratamientos.
αj es el efecto principal del j − ésimo nivel del factor A.
βk es el efecto principal del k − ésimo nivel del factor B.
(αβ)jk es el efecto del j − ésimo nivel del factor A con el k − ésimo nivel del factor B.
ijk es el error aleatorio en la i − ésima unidad experimental para el j − ésimo nivel
del factor A y el k − ésimo nivel del factor B.
Para estimar los parámetros del modelo se debe suponer que
a
P b
P a P
P b
αj = βk = (αβ)jk = 0
j=1 k=1 j=1 k=1
iid
y además se supone que ijk ∼ N (0,σ 2 ).
Ya sea para un DCA o un DBCA, la información de cada unidad experimental se puede
resumir como se ilustra a continuación
48
Cuadro 9: Tabla de totales para los factores A y B
A/B b1 b2 Y·j·
a1 Y·11 Y·12 Y·1·
a2 Y·21 Y·22 Y·2·
Y··k Y··1 Y··2 Y···
2) H0 : αj = 0 contra H1 : αj 6= 0 (65)
3) H0 : βk = 0 contra H1 : βk 6= 0. (66)
Las estadı́sticas de prueba para corroborar estas hipótesis quedan expresadas como se
muestran en la Tabla del análisis de varianza respectivo.
Donde,
r X
X a X
b
2
SCT otal = Yijk − F C, (67)
i=1 j=1 k=1
49
Cuadro 10: ANAVA para un experimento factorial 2 × 2 bajo un DCA
F.V. gl SC CM Fc Ftabla
CMT T O
TTO ab − 1 SCT T O CMT T O CMEE
Fα, ab−1, ab(r−1)
CMA
A a−1 SCA CMA CMEE
Fα, a−1, ab(r−1)
CMB
B b−1 SCB CMB CMEE
Fα, b−1, ab(r−1)
CMAB
AB (a − 1) (b − 1) SCAB CMAB CMEE
Fα, (a−1)(b−1), ab(r−1)
EE ab (r − 1) SCEE CMEE
Total abr − 1 SCT otal
2 r P
a P
b
Y... P
con F C = rab
y Y··· = Yijk ,
i=1 j=1 k=1
a X
b 2
X Y·jk
SCT T O = − F C, (68)
j=1 k=1
r
a 2
X Y·j·
SCA = − F C, (69)
j=1
rb
b
X Y2 ··k
SCB = − F C, (70)
k=1
ra
SCAB = SCT T O − SCA − SCB , (71)
Los errores estándar para las medias de efectos principales vienen dados por:
50
3) Mientras que el error estándar para una media de la interacción viene dado por:
p
SY .jk = CMEE /r. (75)
6.9. Entorno R.
51
R dispone de una comunidad de desarrolladores/usuarios detrás que se dedican
constantemente a la mejora y a la ampliación de las funcionalidades y capacidades
del programa. Nosotros mismos podemos ser desarrolladores de R
Precio: Gratuito.
7. METODOLOGÍA.
Inicialmente se realizará una revisión bibliográfica de todos los conceptos estadı́sticos
que son esenciales para la elaboración de este trabajo, como son los modelos de regresión
lineal y no lineal. Un modelo de regresión lineal, es una función que depende de los
valores de la variable aleatoria y otras cantidades que caracterizan a una población en
particular y que se denominan parámetros del modelo. Los modelos lineales son una
herramienta muy utilizada para el análisis de datos que presentan una relación causa-
efecto. Por otra parte, la verificación de los supuestos del modelo de regresión lineal, son
importantes dado el uso que el experimentador desee darle a dicho modelo, es decir, que
tan adecuado es mi modelo para realizar inferencias con el, o simplemente establecer
una relación entre la variable respuesta y un conjunto de variables explicativas.
Dado que se usará el software R, se revisará literatura sobre éste, ası́ como las librerı́as
con las que se trabajará para la construcción de las funciones.
Después de seleccionar estas funciones que estén ı́ntimamente relacionadas a la teorı́a de
estimación estadı́stica, se procederá a crear los algoritmos para la solución de problemas.
8. RECURSOS INSTITUCIONALES.
La contribución que harı́an la Universidad de Córdoba y el Departamento de Ma-
temáticas y Estadı́stica, para la elaboración del proyecto serı́a la de facilitar la sala de
Internet, la biblioteca Central y la biblioteca especializada que se encuentra a cargo del
52
Departamento, lo cual servirı́a para hacer consultas.
9. CRONOGRAMA DE ACTIVIDADES.
El trabajo de grado tendrá una duración aproximada de 3 meses, contando a partir de la
aprobación del proyecto. En la siguiente tabla se muestran las actividades a desarrollar
y sus respectivas duraciones en semanas:
Tiempo en semanas
Actividades 1 2 3 4 5 6 7 8 9 10 11 12
Revisión de literatura y
X X X X X X X X
marco teórico
Contrastación de las fuentes
X X X X X
bibliográficas
Asesorı́as con el director del
X X X X X X X X X X
proyecto
Entrega de informes y ade-
X X X X X X X
lantos parciales
Sustentación de los adelan-
X X X X X X X
tos ante el asesor
Elaboración del informe fi-
X X
nal
Elaboración del blog X X X
53
10. BIBLIOGRAFÍA.
[ 1 ] Martı́nez R. y Martı́nez N. Diseño de Experimentos. Fondo Nacional Universitario.
1997
[ 2 ] Montgomery D. y Runger, G. Probabilidad y Estadı́stica Aplicadas a la Ingenierı́a.
McGraw Hill. 1997.
54