Está en la página 1de 21

ÍNDICE

PÁG.

Unidad II.- Diseño de experimentos de un factor

2

2.1.- Estrategia de experimentación

2

2.1.- Objetivos de un diseño de experimento

2

2.3.- Experimento con un solo factor completamente aleatorizado

3

2.3.1.- Términos utilizados para una mejor comprensión de la

3

2.3.2.- El análisis de varianza (ANDEVA o ANOVA)

4

2.3.4.- El modelo estadístico lineal

7

2.3.5.- Diseño experimental completamente aleatorizado

8

2.3.6.- El modelo de efectos fijos

12

2.3.7.- El modelo de efectos aleatorios

16

2.3.8.- La suma total de cuadrados

17

2.3.9.- La tabla de ANDEVA

18

2.3.10.- El diseño desbalanceado

19

2.3.11.-

i
i

19

2.3.12.- Intervalo d/confianza p/la diferencia d/medias d/2 tratamientos

19

2.3.13.- Análisis de residuales y verificación del modelo

19

2.4.- Pruebas sobre medias de tratamientos individuales

20

2.4.1.- Comparación gráfica de medias

20

2.4.2.- Método de la diferencia significativa mínima de Fisher

20

2.4.3.- Otros métodos para pruebas sobre la diferencia d/medias d/2 tratamientos

20

2.5.- Determinación del tamaño de la muestra en experimentos con un solo factor

20

UNIDAD II.- DISEÑO DE EXPERIMENTOS DE UN FACTOR

Competencias específicas a desarrollar:

Aplicará el Análisis de Varianza con el objeto de procesar la información y tomar una decisión en base a los resultados obtenidos.

Interpretará los resultados de los experimentos, para elegir la mejor opción.

2.1.- Estrategia de experimentación

El diseño experimental utiliza técnicas como la regresión múltiple, la superficie de respuesta, el diseño de parámetros y varias extensiones del análisis de varianza, así como los análisis gráficos y las comparaciones múltiples. Diseñar un experimento significa planear un experimento de modo que reúna la información pertinente al problema bajo investigación. El D.E. es la secuencia completa de pasos tomados con antelación, para asegurar que los datos se obtendrán apropiadamente de modo que permitan un análisis objetivo que conduzca a deducciones válidas con respecto al problema bajo estudio.

2.1.- Objetivos de un diseño de experimento

1. Proporcionar la máxima cantidad de información pertinente al problema bajo investigación.

2. El diseño, plan o programa debe ser tan simple como sea posible.

3. Proporcionar métodos que permitan obtener la mayor cantidad de información válida acerca de una investigación, teniendo en cuenta el factor costo y el uso adecuado del material disponible mediante métodos que permitan disminuir el error experimental.

Etapas de un diseño de experimentos.

1. Enunciado o planteamiento del problema.

2. Formulación de hipótesis.

3. Proposición de la técnica experimental y el diseño.

4. Examen de sucesos posibles y referencias en que se basan las razones para la indagación que asegure que el experimento proporcionar la información requerida y en la extensión adecuada.

5. Consideración de los posibles resultados desde el punto de vista de los procedimientos estadísticos que se aplicarán, para asegurar que se satisfagan las condiciones necesarias y sean válidos estos procedimientos.

6. Ejecución del experimento.

7. Aplicación de las técnicas estadísticas a los resultados experimentales.

8. Extracción de conclusiones con medidas de la confiabilidad de las estimaciones generadas.

9. Valoración de la investigación completa y contrastación con otras investigaciones del mismo problema o similares.

2

2.3.- Experimento con un solo factor completamente aleatorizado

Muchas comparaciones, como las antes mencionadas, se hacen con base en el diseño completamente al azar (DCA), que es el más simple de todos los diseños que se utilizan para comparar dos o más tratamientos, dado que sólo consideran dos fuentes de variabilidad: los tratamientos y el error aleatorio. Este diseño se llama completamente al azar porque todas las corridas experimentales se realizan en orden aleatorio completo. De esta manera, si durante el estudio se hacen en total N pruebas, éstas se corren al azar, de manera que los posibles efectos ambientales y temporales se vayan repartiendo equitativamente entre los tratamientos.

2.3.1.- Términos utilizados para una mejor comprensión de la unidad.

Unidad experimental: son los objetos, individuos, intervalos de espacio o tiempo sobre los que se experimenta.

Variable de interés o respuesta: es la variable que se desea estudiar y controlar su variabilidad.

Factor: son las variables independientes que pueden influir en la variabilidad de la variable de interés.

Niveles: cada uno de los resultados de un factor. Según sean elegidos por el experimentador o elegidos al azar de una amplia población se denominan factores de efectos fijos o factores de efectos aleatorios.

Tratamiento: es una combinación específica de los niveles de los factores en estudio.

Observación experimental: es cada medición de la variable respuesta.

Tamaño del Experimento: es el número total de observaciones recogidas en el diseño.

Diseño Equilibrado o Balanceado: es aquel en el que todos los tratamientos son asignados a un número igual de unidades experimentales.

Agrupamiento. Colocación de un conjunto de unidades experimentales homogéneo en grupos, de modo que los diferentes grupos puedan sujetarse a distintos tratamientos.

Bloqueo. Distribución de las unidades experimentales en bloques, de manera que las unidades dentro de un bloque sean relativamente homogéneas, de esta manera, la mayor parte de la variación predecible entre las unidades queda confundida con el efecto de los bloques.

Confusión. Cuando los efectos de dos o más factores no se pueden separar.

3

2.3.2.- El análisis de varianza (ANDEVA o ANOVA)

La técnica del Análisis de la Varianza (ANDEVA) es una de las técnicas más utilizadas en los análisis de los datos de los diseños experimentales. Se utiliza cuando queremos contrastar más de dos medias, por lo que puede verse como una extensión de la prueba t para diferencias de dos medias.

El ANDEVA usado para analizar experimentos, es un método muy flexible que permite construir modelos estadísticos para el análisis de los datos experimentales. Básicamente es un procedimiento que permite dividir la varianza de la variable dependiente, generalmente variable continua, en dos o más componentes, cada uno de los cuales puede ser atribuido a una fuente (variable o factor) identificable y la otra al error experimental. Las variables independientes son generalmente nominales, son los Factores en estudio y hacen grupos o tratamientos.

Los modelos que permite construir el ANDEVA pueden ser reducidos al cociente entre dos varianzas, el numerador es la varianza del modelo como los tratamientos, bloques, etc. y el denominador es la varianza de los errores. Por ejemplo en un caso de Andeva unifactorial ó anova

one way el valor “F” calculado es

2

2

.

El ANDEVA está basado en ciertos supuestos, unos más posibles que otros Es evidente que cuantos más factores introduzcamos se espera que quede menos cantidad de variación residual (error) por explicar. Pero siempre quedará alguna variación residual.

Suposiciones del Análisis de Varianza En cada ocasión que se realice un análisis de varianza (ANDEVA), rutinariamente deben examinarse los datos para determinar si estos indican alguna desviación de los supuestos que rigen dicho análisis. Por lo tanto, es recomendable realizar un análisis de las suposiciones en las que se basa el ANDEVA junto con el análisis mismo. Sólo después de hacer este análisis de suposiciones y que éstas se cumplan razonablemente, se puede expresar con cierta confianza la validez de los resultados estadísticos.

4

Las suposiciones en las que se basa el ANDEVA son las siguientes:

Los errores de los datos son normales.

Varianzas son homogéneas.

Independencia de medias y varianzas

Aditividad del modelo

Normalidad de los errores: Es relativamente fácil hacer pruebas de normalidad de los errores con programas estadísticos computacionales, ya sea con un gráfico QQ plot o la prueba de normalidad de Shapiro Wilks. En la primera prueba el valor “r” de correlación debe ser mayor a 0.95 y en la segunda prueba el valor “p” de la prueba de hipótesis debe ser mayor a 0.05, estar en H0. El programa INFOSTAT puede calcular los errores de cada dato y hace ambas pruebas. Sin embargo este requisito no es tan importante como la Independencia de las Observaciones, pues en general el ANDEVA es una prueba robusta. Esto quiere decir que, aunque los errores de las observaciones no sean normales, las medias de los tratamientos son aproximadamente normales debido al Teorema Central del Límite. Sin embargo, si los errores de los datos son extremadamente no-normales, es posible transformar los datos para cubrir este requisito, o bien emplear métodos no paramétricos.

Homogeneidad de varianzas de los diferentes tratamientos: Es muy importante para el modelo verificar su hay homogeneidad de las varianzas de los diferentes tratamientos, pues si esto no se cumple se pueden invalidar los resultados de una HA. Una población heterogénea en varianzas no permite detectar si las diferencias observadas se deben diferencias de promedios o de las varianzas.

Para corroborar o refutar las afirmaciones hechas respecto de la hipótesis de la homogeneidad de las varianzas de los grupos o tratamientos respecto a la variable dependiente, se dispone de la prueba de Levene de homogeneidad de varianzas. Esta prueba funciona como un estadístico F de la distribución “F ” de Fisher, donde la H0 consiste en suponer que las varianzas de los errores absolutos de los distintos grupos son iguales. Se rechazará esta H0 en el caso de que la significación del estadístico sea menor que 0,05. El estadístico de Levene se hace realizando una ANDEVA una vía con los errores en valor absoluto, INFOSTAT calcula este tipo de error.

5

Independencia de promedios y varianzas: Que un promedio mayor no tenga independencia entre medias y varianzas es un caso especial de falta de homogeneidad de varianzas. En algunos datos existe una relación definida entre las medias y sus varianzas, por ejemplo el número de hojas de plantas de tomate de un mes y de tres meses, en ambos casos no solo hay diferencias de promedios sino también de varianzas, a más edad mayor promedio y varianza. Este problema se puede manejar con un buen diseño del experimento. Sin embargo esta relación suele ser la causa más común de heterogeneidad de varianza. Una correlación positiva entre medias y varianzas es una forma de detectar el problema, ó cuando se observa un amplio rango entre las medias. El estadístico de Levene también detecta este problema.

Aditividad del modelo Una prueba ANDEVA supone que los datos siguen un modelo lineal aditivo. Para cada diseño experimental se construye un modelo matemático lineal aditivo, para el caso de un diseño completamente aleatorio, DCA, es = ̅ ± ± . La ecuación expresa que el valor de

cualquier unidad experimental está compuesta por la media general, más o menos el efecto de tratamiento y más o menos un termino de error característico de cada dato . En este modelo

los términos se suman, si esto no ocurre así, el ANDEVA nos puede llevar a conclusiones incorrectas. La falta de aditividad puede ocurrir por un mal diseño del experimento, por ejemplo si se prueban diferentes dosis de fertilizante, pero cada dosis se prueba en una especie de planta diferente, puede resultar una interacción entre dosis de fertilizante y especie de planta que rompa el modelo aditivo.

¿Qué hacer cuando el modelo no funciona? La violación o falta de apego a cualquiera de estas suposiciones indica que los resultados podrían no tener validez. Dependiendo del tipo de problema, puede haber solución o no al objetivo buscado en el experimento. El dilema más fuerte con el que ha de luchar el experimentador es el de la falta de homogeneidad de varianzas, ya que si esto ocurre, no podemos saber si las diferencias entre los tratamientos se deben a promedios diferentes o varianzas diferentes.

La falta de normalidad no es tan importante, pues la prueba ANDEVA es robusta a este problema y, en casos extremos, se puede optar por el uso de transformaciones. En general para los casos en

6

que los supuestos de normalidad, homogeneidad, independencia de medias-varianzas o aditividad

no se cumplen, puedo usar transformaciones de datos, las más usadas son:

Logaritmo Log (x), útil cuando los datos crecen en sentido exponencial o cuando las

desviaciones estándares de las muestra sean aproximadamente

proporcionales a los promedios o hay evidencia de efectos principales multiplicativos de

los tratamientos en vez de aditividad.

La transformación + 0.5 útil cuando los números observados son pequeños 0-10, por

ejemplo son acontecimientos pocos comunes, tienen una posibilidad muy baja de ocurrir

en cualquier individuo. Estos datos tienden a seguir una distribución de Poisson.

La transformación /100 cuando los datos son expresados en por ciento o son

proporciones de la muestra total. Por lo general estos datos tienen una distribución

binomial y no de una distribución normal como se espera.

Como último recurso, ante datos dudosos de análisis se puede usar el uso de métodos de estadística

no paramétrica. Es importante mencionar que el empleo de estadística no paramétrica o el uso de

transformaciones no eliminan el problema de la falta de aleatoriedad de las unidades

experimentales, errores por un mal diseño del experimento o por una mala toma de datos, es decir,

la ejecución incorrecta de un experimento no tiene más remedio que repetir el experimento

corrigiendo los errores por falta de diseño o mal manejo.

2.3.4.- El modelo estadístico lineal

El modelo aditivo lineal deberá ser formulado para incluir el término correspondiente el error de muestreo:

= + + +

Donde:

µ= es el verdadero efecto medio i= es el efecto del i-esimo tratamiento ij= es el efecto de la j-esima unidad experimental sujeta a la i-esimo tratamiento (o error de muestreo) ijl= es igual que el efecto

7

Y= Es un estimador de µ (Yi-Y)= Es un estimador de los efectos de tratamiento i (Yij-Yi)= es el estimador del error experimental ij (Yijl-Yij)= es un estimador del error de muestreo ijl

Hipotesis nula y alterna:

Ho: µ1=µ2=µ3=…=µk Ha: µ1µ2µ3µk Es decir; Ho: no existe diferencia significativa entre los tratamientos. Ha: existe diferencia significativa entre los tratamientos.

Cuadro de ANOVA en caso de submuestreo

los tratamientos. Cuadro de ANOVA en caso de submuestreo 2.3.5.- Diseño experimental completamente aleatorizado En

2.3.5.- Diseño experimental completamente aleatorizado

En el Diseño de Experimentos al Completo Azar, el experimentador asigna las unidades experimentales a los tratamientos al azar, con la única restricción del número de observaciones que se tomarán en cada tratamiento. Es el más sencillo y se origina por la asignación aleatoria de tratamientos a un conjunto de unidades experimentales.

Para aleatorizar una tabla de números aleatorios resulta conveniente para elegir las unidades experimentales que recibirá cada tratamiento. Si cada tratamiento ha de repetirse cuatro veces, los primeros cuatro números aleatorios obtenidos se asignarán al tratamiento A, los siguientes cuatro números aleatorios al tratamiento B, y así sucesivamente.

El diseño al completo azar se utiliza cuando las condiciones del sitio o lugar experimental son totalmente homogéneas

Entonces, los valores

determinan por completo las propiedades estadísticas del diseño. Naturalmente, este

tipo de diseño se utiliza en experimentos que no incluyen factores bloque. El modelo matemático

Sea ni el número de observaciones en el i-ésimo tratamiento, i = 1,

n1,n2,

,I.

,nI,

es de la forma: Respuesta = Constante + Efecto tratamiento + Error.

8

El diseño al completo azar tiene varias ventajas y desventajas entre estas se pueden mencionar las siguientes:

Ventajas:

a) Su sencillez (estadístico fácil). Aun cuando el dato de algunos tratamiento se hayan perdido, o rechacen por alguna causa el método de análisis sigue siendo sencillo. La pérdida relativa de información debida a los datos faltantes, es de menos importancia que en cualquier otro sistema.

b) La flexibilidad. Puede utilizarse cualquier número de tratamientos y repeticiones y pueden variar a voluntad del investigador el número de repeticiones de un tratamiento a otro, pero no es recomendable sino existe una buena razón. Todo el material experimental disponible puede usarse, lo cual es una ventaja en experimentos preliminares pequeños donde el material experimental de que se dispone es escaso.

c) El número de grados de libertad es máximo en comparación con otros modelos, el modelo estadístico sigue siendo fácil aun cuando se pierdan unidades experimentales.

d) Aun cuando el dato de algún tratamiento se hayan perdido, o rechacen por alguna causa el método de análisis sigue siendo sencillo

Desventajas:

a) La principal estriba en su grado de precisión, algún otro diseño suele ser capaz de estimar el error estándar por unidad experimental (error experimental) con un mayor grado de precisión

b) No siempre puede garantizarse condiciones de homogeneidad. No se asegura, ninguna forma para aseverar que las unidades reciben un tratamiento similar a aquellas que reciben otro tratamiento, toda la variación que existe entre las unidades pasa a formar parte del error experimental.

¿Por qué aleatorizar?

Para transformar la variabilidad sistemática no planificada en variabilidad no planificada o ruido aleatorio; en otros términos: prevenir contra la introducción de sesgos en el experimento. La aleatorización evita la dependencia entre observaciones y valida muchos de los procedimientos estadísticos más comunes.

¿Cuándo puede ser apropiada la aleatorización?

La aleatorización puede ser apropiada si:

a)

El material experimental es homogéneo.

b)

Donde es probable que una parte apreciable de las unidades se destruyan o no

respondan

c)

En experimentos pequeños en donde la mayor precisión de otros diseños no

compensa la pérdida de grados de libertad del error.

9

PROCEDIMIENTO DE ANÁLISIS

Procedimiento

a) Determinar el número de unidades experimentales (n) y numerarlas. Es posible obtener “n” al multiplicar el número de tratamientos por el número de repeticiones n = ( t * r).

b) Asignar el número de unidades experimentales a cada tratamiento utilizando una tabla de números aleatorios o bien cualquier otra herramienta que sirva para el mismo propósito. Por ejemplo si cada tratamiento ha de repetirse cuatro veces, los primeros cuatro números aleatorios obtenidos se asignarán al tratamiento A, los siguientes cuatro números aleatorios al tratamiento B, y así sucesivamente.

c) Una vez hecha la distribución anterior (liberal b) se numeran las unidades experimentales y se localizan los tratamientos de acuerdo al número que les corresponde y se obtiene así las distribución de campo.

Modelo Estadístico

Yij =

µ

+

t i

En donde:

+ εij

Yij

Variable respuesta de la ij-esima unidad experimental

µ

Efecto de la media general

t i

Efecto del i-esimo tratamiento

εij

Efecto del error experimental asociado a la i-esima unidad experimental

Análisis de Varianza

Hipótesis Nula Ho:

estudio)

t i = 0 (Los i tratamientos tienen el mismo efecto sobre la variable en

Hipótesis Alterna Ha:

en estudio, al menos uno produce un resultado distinto)

t i ¹ 0 (No todos los tratamientos tienen el mismo efecto sobre la variable

Tabla de Datos

Tratamientos

Repeticiones

 

Yi.

1

2

3

4

r

 

1

Y11

Y12

Y12

.

.

.

Y1r

Y1 .

2

Y21

Y22

Y23

.

.

.

Y2r

Y2 .

3

Y31

Y32

Y33

.

.

.

Y3r

Y3 .

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

R

Yt1

Yt2

Yt3

.

.

.

Ytr

Y

10

Supuestos

Los supuestos que validan el análisis varianza son:

1. Los errores son independientes

2. Los errores están normalmente distribuidos con media cero y varianza constante

3. Existe homogeneidad de varianza entre los tratamientos.

Fuentes de variación y grados de libertad.

Para el análisis de varianza se construye una tabla de análisis de varianza y se completan los datos. Existen sólo dos fuentes de variación en el diseño completamente aleatorio: entre unidades experimentales dentro de un tratamiento, la cual denominamos error experimental y aquella entre medias de tratamiento.

Tabla de Análisis de Varianza

 

Grados

     

Ft

Fuentes de

Variación

de

Libertad

Suma

Cuadrados

de

Cuadrados

Medios

Fc Calculada

Requerida

Tratamien-

t

1

∑[(Y2 /r

Sctrat/gltotal

Scmedios/Cmerror

 

tos

 

Y2 )/(tr)]

Error

t

( r 1)

Sctotal

-

Scerror/glerror

   
 

SCtrat

Total

t

r -1

∑∑[

(Yij-

     
 

Y2

)/

(tr) ]

Los grados de libertad son uno menos que el número de observaciones para cada fuente de variación.

Regla de Decisión

Rechazar la hipótesis Ho. Si Fc > Ft (Gltrat, Gl error, α )

Aceptar la Hipótesis

Ha. Si Fc < Ft (Gltrat, Gl error, α )

Ft = Valor tabular .

Coeficiente de Variación

Se puede considerar como medida relativa de la variación que no es posible controlar en el experimento (error experimental), por costumbre se utiliza como que se controló adecuadamente el error cuanto el coeficiente de variación es menor de 20.

11

El coeficiente de variación se calcula por medio de la fórmula siguiente:

CV = ( Raiz(CM) / Y

Y

= Y

/ tr

)*100

2.3.6.- El modelo de efectos fijos

Sean µ, µ2… µk las medias de k poblaciones, y sea µla media de todas las poblaciones. Se define j como: j = µj-µ. ij = Yijj. En estas condiciones el modelo de efectos fijos puede ponerse como

condiciones el modelo de efectos fijos puede ponerse como Esta última igualdad establece que cualquier desviación

Esta última igualdad establece que cualquier desviación de una observación con respecto a la media global se debe a dos posibles causas: A la diferencia en el tratamiento o a un error aleatorio.

Si se rechaza la hipótesis nula H0: j=0, los datos de la muestra deben de demostrar que la desviación total que se debe a los tratamientos es, suficientemente más grande, que la que se debe al error aleatorio.

Los parámetros µ, µ2… µk y µ son desconocidos, pero pueden estimarse con base en las observaciones de k muestra aleatorias.

Para la tabla anterior se define:

pero pueden estimarse con base en las observaciones de k muestra aleatorias. Para la tabla anterior
pero pueden estimarse con base en las observaciones de k muestra aleatorias. Para la tabla anterior
pero pueden estimarse con base en las observaciones de k muestra aleatorias. Para la tabla anterior
pero pueden estimarse con base en las observaciones de k muestra aleatorias. Para la tabla anterior

12

Al sustituir Se obtiene: Donde se ha descompuesto la desviación de una observación con respecto

Al sustituir

Al sustituir Se obtiene: Donde se ha descompuesto la desviación de una observación con respecto a

Se obtiene:

Al sustituir Se obtiene: Donde se ha descompuesto la desviación de una observación con respecto a

Donde se ha descompuesto la desviación de una observación con respecto a la media total de la muestra en dos componentes, la desviación de la media del tratamiento con respecto a la media total y la desviación de la observación con respecto a la media del tratamiento.

Para determinar un estadístico de prueba, elevando al cuadrado y sumando para todo i,j; se tiene:

elevando al cuadrado y sumando para todo i,j; se tiene: El doble producto vale 0. Quedando

El doble producto vale 0. Quedando pues la formula reducida a

doble producto vale 0. Quedando pues la formula reducida a El término de la izquierda STC

El término de la izquierda STC es la suma total de cuadrados.

El siguiente término es SCTR la suma de cuadrados de los tratamientos.

Y el último término es SCE la suma de cuadrados de los errores.

La expresión anterior se reduce a

STC = SCTR + SCE

SCE mide la cantidad de variación de las observaciones debidas a un error aleatorio.

Puede demostrarse que bajo la hipótesis nula (H0: j = 0) y bajo la suposición de que ij sigue una normal N (0; 2 ) entonces:

SCTR/2

y por tanto STC/2 también sigue una chi-cuadrado.

y

SCE/2 son 2 variables aleatorias independientes con una distribución chi-cuadrada,

13

Como STC tiene N-1 grado de libertad, pues la suma de las desviaciones

N-1 grado de libertad, pues la suma de las desviaciones Y SCTR tiene k-1 grado de

Y SCTR tiene k-1 grado de libertad, pues

de las desviaciones Y SCTR tiene k-1 grado de libertad, pues Esta restricción surge del hecho

Esta restricción surge del hecho de que

de libertad, pues Esta restricción surge del hecho de que Por tanto, se tiene que SCE

Por tanto, se tiene que SCE tendrá (N-1)-(k-1) = (N-k) grados de libertad. Luego, resumiendo:

(N-1)-(k-1) = (N-k) grados de libertad. Luego, resumiendo: Por tanto Este cociente es el estadístico apropiado
(N-1)-(k-1) = (N-k) grados de libertad. Luego, resumiendo: Por tanto Este cociente es el estadístico apropiado

Por tanto

= (N-k) grados de libertad. Luego, resumiendo: Por tanto Este cociente es el estadístico apropiado para

Este cociente es el estadístico apropiado para probar la hipótesis nula H0: j = 0.

Esto puede verificarse de la siguiente forma: Si definimos al cuadrado medio de los tratamientos

como

de la siguiente forma: Si definimos al cuadrado medio de los tratamientos como Y el cuadrado

Y el cuadrado medio de los errores

14

Puede demostrarse que Donde s 2 es la varianza común de los errores. Si H

Puede demostrarse que

Puede demostrarse que Donde s 2 es la varianza común de los errores. Si H 0

Donde s 2 es la varianza común de los errores.

Si H0 es cierta, entonces j = 0 para cualquier j por tanto

es cierta, entonces  j = 0 para cualquier j por tanto Luego, E(CMTR)=s 2 .

Luego, E(CMTR)=s 2 . Es decir, tanto CME como CMTR son dos estimadores insesgados de 2 . Pero si H0 no es cierta, CMTR > CME dado que el sumando anterior es siempre positivo. En otras palabras, cuanto mayor sea la diferencia entre las medias de los tratamientos y la media global, mayor será CMTR. Pero una ocurrencia de este tipo sugiere que las medias de los k tratamientos no son todas iguales. En consecuencia, la hipótesis nula será rechazada si

En consecuencia, la hipótesis nula será rechazada si Se encuentra dentro de una región crítica superior

Se encuentra dentro de una región crítica superior de tamaño .

El análisis anterior constituye la técnica del análisis de la varianza para un experimento con un solo factor completamente aleatorizado. Todo ello se resume en la Tabla ANOVA.

15

2.3.7.- El modelo de efectos aleatorios Para el caso de efectos aleatorios se formuló la

2.3.7.- El modelo de efectos aleatorios

Para el caso de efectos aleatorios se formuló la suposición de que los niveles empleados en el experimento fueran seleccionados en forma aleatoria de una población de posibles niveles. Además se supondrá que

una población de posibles niveles. Además se supondrá que t 2 j . La descomposición en
t 2
t 2

j. La descomposición en suma de cuadrados y del

análisis de la varianza es igual a la del caso de efectos fijos para un experimento con un solo factor,

pero en este caso el valor esperado del cuadrado medio del tratamiento es diferente.

Dadas muestras del mismo tamaño, n, para todos los niveles, se puede demostrar que

medio del tratamiento es diferente. Dadas muestras del mismo tamaño, n, para todos los niveles, se

16

La región apropiada de rechazo sigue siendo la misma ya que un valor grande del cociente entre

CMTR y CME sugiere que debe rechazarse la hipótesis nula H0

y CME sugiere que debe rechazarse la hipótesis nula H 0 t 2 = 0. En

t 2 = 0.

En el análisis de la varianza, la estadística F también es más robusta entre varianzas desiguales siempre y cuando los tamaños de la muestra de los tratamientos sean iguales. Esto para el caso de efectos fijos.

El resultado no se extiende para el caso de efectos aleatorios en el que la violación de la hipótesis de varianzas iguales generalmente tendrá efectos considerables sobre las inferencias aún para muestras del mismo tamaño. La hipótesis crucial en el desarrollo del análisis de la varianza es que los errores aleatorios sean independientes. Si los errores son interdependientes, el tamaño real de la región crítica puede ser, en forma sustancial, más grande (5 ó 6 veces) que el tamaño dictado al seleccionar la probabilidad de tipo I.

2.3.8.- La suma total de cuadrados

Cuadrados de “Yi”

Datos

I

II

III

IV

Suma

A

15.68

38.94

29.38

123.43

207.43

B

745.84

726.84

1,037.48

907.82

3,417.98

C

1,246.09

1,204.78

1,350.56

1,473.02

5,274.46

D

1,688.39

1,935.12

2,371.69

1,745.57

7,740.77

E

2,391.21

2,266.71

2,538.14

2,461.15

9,657.22

Suma

6,087.21

6,172.40

7,327.26

6,710.99

26,297.85

a. Cuadrados de Tratamientos

SCtrat = Σ(Yi)2 / r

Donde “Yi” totales de tratamientos y “r” el número de repeticiones en cada tratamiento. Cuando el número de repeticiones no es el mismo para todos los tratamientos (se ha perdido un dato), el cuadrado de un total debe ser dividido entre el número de repeticiones y así sucesivamente para cada tratamiento, los resultados así obtenidos se suman para obtener el total.

SCtrat = 26,202.89 - 21,815.65 = 4,387.24

b. Suma de Cuadrados Totales (Sctot).

SCtot

= 26,297.85 - 21,815.65 = 4,482.20

c. Suma de cuadrados del error (Sce)

17

Sce = Sctrat - SCtot

Sce = 4,482.20 4,387.24 = 94.96

d) Cuadrados Medios de Tratamientos (CMtrat)

Los cuadrados medios de los tratamientos están dados por la suma de cuadrados del error (Cce) dividido entre el número de repeticiones (r).

CMtrat = Sce /r

CMtrat = 4,387.24/4 = 1,096.81

e) Cuadrados medios del error (Cme)

Los cuadrados medios del error están dados por la suma de cuadrados del error (Sce) dividido entre del error.

Cme = Sce/Gle

Cme = 94.96/15 = 6.33

2.3.9.- La tabla de ANDEVA

Causa de Grados de Suma de Cuadrados Cuadrado “FCalculado” Variación Libertad SC Medio, CM GL
Causa
de
Grados
de
Suma de Cuadrados
Cuadrado
“FCalculado”
Variación
Libertad
SC
Medio, CM
GL
“S 2”
2
Tratamientos
2
(∑
)
− (∑
)
1
1
1
2
“t – 1”
2
Error
“(n -1) –
(t
SC total - SCtratamientos
–1)
2
Total
− (∑
)
1
∑( ) 2
“n – 1 “
1
18

2.3.10.- El diseño desbalanceado

2.3.11.-

2.3.12.- Intervalo d/confianza p/la diferencia d/medias d/2 tratamientos 2.3.13.- Análisis de residuales y verificación del modelo.

i
i

Para muestras de tamaño diferente, el efecto de violar la suposición de varianzas iguales cuando se comparan dos medias puede ser sustancial. Dado que esta misma suposición se formula cuando se contrasta k medias, veamos cómo puede detectarse la violación de estos supuestos.

cómo puede detectarse la violación de estos supuestos. i j . Dado que El residuo correspondiente,

ij. Dado que

la violación de estos supuestos. i j . Dado que El residuo correspondiente, denotado por e

El residuo correspondiente, denotado por eij, se define por

residuo correspondiente, denotado por e ij , se define por Los residuos no son estimados en

Los residuos no son estimados en el sentido de estimación de parámetros, sino como estimadores ij con base en las medias muestrales

como estimadores i j con base en las medias muestrales Si es cierta la suposición de
como estimadores i j con base en las medias muestrales Si es cierta la suposición de

Si es cierta la suposición de que los errores aleatorios tienen la misma varianza para los k niveles de población, entonces la gráfica de los residuos para cada tratamiento no revelará ninguna diferencia apreciable de los residuos alrededor de cero.

Para normalizar la escala de magnitudes es preferible utilizar los residuos estandarizados

es preferible utilizar los residuos estandarizados Entonces, dado que los errores aleatorios se encuentran

Entonces, dado que los errores aleatorios se encuentran normalmente distribuidos, un residuo estandarizado rara vez se encuentra más allá de ±3.

También se encuentra en la literatura estadística procedimientos para verificar la hipótesis de igualdad entre las k varianzas. Por ejemplo las pruebas de Bartlett y las pruebas de Hartley.

En el análisis de la varianza, la estadística F también es más robusta entre varianzas desiguales siempre y cuando los tamaños de la muestra de los tratamientos sean iguales. Esto para el caso de efectos fijos.

El resultado no se extiende para el caso de efectos aleatorios en el que la violación de la hipótesis de varianzas iguales generalmente tendrá efectos considerables sobre las inferencias aún para muestras del mismo tamaño. La hipótesis crucial en el desarrollo del análisis de la varianza es que

19

los errores aleatorios sean independientes. Si los errores son interdependientes, el tamaño real de la región crítica puede ser, en forma sustancial, más grande (5 ó 6 veces) que el tamaño dictado al seleccionar la probabilidad de tipo I.

2.4.- Pruebas sobre medias de tratamientos individuales 2.4.1.- Comparación gráfica de medias 2.4.2.- Método de la diferencia significativa mínima de Fisher 2.4.3.- Otros métodos para pruebas sobre la diferencia d/medias d/2 tratamientos

2.5.- Determinación del tamaño de la muestra en experimentos con un solo factor

Para decidir el número de réplicas que se hará por cada tratamiento (tamaño de muestra), si se esperan diferencias pequeñas entre tratamientos será necesario un tamaño grande de muestra. Estimar el tamaño muestral muchas veces requiere cierto conocimiento previo sobre la varianza del error experimental. Si se recurre a la experiencia en los diseños se involucran un solo factor vara entre cinco y diez. Inclinándose por un extremo de este rango e incluso salirse de ese rango, tomando en cuenta las siguientes consideraciones:

1. Cuando se espera poca variabilidad entre los tratamientos, mayor será la cantidad de réplicas si se quiere detectar diferencias significativas y viceversa. Si se esperan grandes diferencias, quizá con pocas réplicas sea sucinte.

2. Si se espera mucha variación dentro de cada tratamiento, debido a variación de fuentes no controladas como métodos de medición, medio ambiente, materia prima, etc., entonces será necesario más replicas.

3. Si son varios tratamientos (cuatro o más), entonces este es un punto favorable para reducir el número de réplicas.

Además de lo anterior, considerar los costos y tiempo del experimento global. De aquí que si se toman en cuenta las consideraciones de arriba se puede establecer el tamaño de muestra que permita responder en una primera fase las preguntas más importantes que se quieren responder con el experimento.

TAREA - Relación de problemas

1.- Prob. 12-1, Págs. 577, 579 Montgomery

2.- Prob. 14.51, págs. 596, 597 Berenson

3.- Prob. 9, pág. 421 Devore

20

4.- Prob. 12.7, pág. 436 Canavos 5.- Prob. 11, págs. 507, 508 Anderson 6.- Prob. 13.7 págs. 519, 520 Walpole 7.- Prob. 3-1, Págs. 119 Montgomery DE 8.- Prob. 3-4, Págs. 119 Montgomery DE 9.- Prob. 3-6, Págs. 120 Montgomery DE

10.- Prob. 3-8, Págs. 120 Montgomery DE

Bibliografía básica.

La propuesta en el programa