Está en la página 1de 25

Proyectos de Investigación Ambiental I

Análisis estadístico de
un diseño experimental
TEMAS

Semana 11
Diseño de experimentos
Etapas en el diseño de Análisis
experimentos Utilizando métodos estadísticos inferenciales se evaluará si las
Entender y delimitar el problema u objeto de diferencias o efectos muestrales (experimentales) son lo
estudio
suficientemente grandes para que garanticen diferencias
poblacionales (o a nivel proceso). La técnica estadística central en
Elegir la(s) variable(s) de respuesta que será el análisis de los experimentos es el llamado análisis de
medida en cada punto del diseño y verificar
que se mide de manera confiable varianza (ANOVA)

Determinar cuáles factores deben estudiarse o


Interpretación
investigarse, de acuerdo a la supuesta
influencia que tienen sobre la respuesta
Se debe analizar con detalle lo que ha pasado en el experimento,
desde contrastar las conjeturas iniciales con los resultados del
experimento, hasta observar los nuevos aprendizajes que sobre el
Seleccionar los niveles de cada factor, así
como el diseño experimental adecuado a los proceso se lograron, verificar supuestos y elegir el tratamiento
factores que se tienen y al objetivo del ganador, siempre con apoyo de las pruebas estadísticas.
experimento

Control y conclusiones finales


Planear y organizar el trabajo experimental
Para concluir, se recomienda decidir qué medidas implementar
para generalizar el resultado del estudio y para garantizar que las
Realizar el experimento
mejoras se mantengan. Además, es preciso organizar una
presentación para difundir los logros.
Gutierrez y De La Vara (2008)
PRINCIPIOS BÁSICOS
Aleatorización Repetición Bloqueo
Significa que las corridas Es correr más de una vez Consiste en tomar en cuenta
experimentales deben ser un tratamiento o una todos los factores que
aleatorias y con material combinación de factores. puedan afectar la respuesta
también seleccionado Repetir es volver a realizar observada. Con esto, el
aleatoriamente. Con esto un tratamiento, pero no subconjunto de datos que
aumenta la probabilidad de inmediatamente después de se obtengan dentro de
cumplir el requisito de haber corrido el mismo cada bloque (nivel
independencia de los tratamiento, sino cuando particular del factor
errores. También asegura corresponda de acuerdo con bloqueado), debe resultar
que las pequeñas diferencias la aleatorización. Las más homogéneo que el
provocadas por materiales, repeticiones permiten conjunto total de datos.
equipo y todos los factores distinguir mejor qué parte Ej. si se quieren comparar 4
no controlados, se repartan de la variabilidad total de máquinas, es importante tomar
de manera homogénea en los datos se debe al error en cuenta al operador de las
máquinas, en especial si se cree
todos los tratamientos. aleatorio y cuál a los
que la habilidad y los
factores. conocimientos del operador
pueden influir en el resultado.
CLASIFICACIÓN DE LOS DISEÑOS
ESTÁNDAR
1. Diseños completamente aleatorios (DCA)
• Ausencia de bloques.
• Cada unidad experimental tiene la misma probabilidad de recibir cualquier
tratamiento, el cual se repite en dos o más ocasiones.
• Son apropiados para los casos en el que el material experimental es
completamente homogéneo.
2. Diseños de bloques completamente aleatorizados (DBCA)
• Las unidades experimentales se agrupan en dos o más bloques completos.
• En cada unidad experimental se alojan una vez los tratamientos.
• Son apropiados en casos donde se observa una cierta tendencia de
variación en el material experimental.
3. Diseños aleatorios de bloques incompletos (DBI)
• No todos los tratamientos se encuentran representados en cada bloque.
• Son apropiados en casos donde ensayan muchos tratamientos.
• Se agrupan en bloque más pequeños.
Diseño completamente
al azar y ANOVA

Se utilizan para comparar dos o


más tratamientos, dado que sólo
consideran dos fuentes de
variabilidad: los tratamientos y el
error aleatorio.
TAMAÑO DE MUESTRA
Una decisión importante en cualquier diseño de experimentos es decidir el número de réplicas que se hará por cada
tratamiento (tamaño de muestra). Por lo general, si se esperan diferencias pequeñas entre tratamientos será
necesario un mayor tamaño de muestra. Aunque existen varios métodos para estimar el tamaño muestral, muchas
veces tienen poca aplicabilidad porque requieren cierto conocimiento previo sobre la varianza del error experimental.

Por experiencia, en la mayoría de las situaciones experimentales con un solo factor, la cantidad de réplicas varía
entre cinco y diez; incluso, podría llegar hasta 30. La tendencia podría inclinarse por un extremo de este rango e
incluso salirse de éste, de acuerdo con las siguientes consideraciones:
1. A menor diferencia que se espera en los tratamientos, mayor será la cantidad de réplicas si se quieren detectar
diferencias significativas, y viceversa, es decir, si se esperan grandes diferencias quizá con pocas réplicas sea
suficiente.
2. Si se espera mucha variación dentro de cada tratamiento, debido a la variación de fuentes no controladas como
métodos de medición, medio ambiente, materia prima, etc., entonces se necesitarán más réplicas.
3. Si son varios tratamientos (cuatro o más), entonces éste es un punto favorable para reducir el número de
réplicas.

Además de lo anterior, es preciso considerar los costos y el tiempo global del experimento. De aquí que si se
toman en cuenta las consideraciones antes expuestas se podrá establecer el tamaño de muestra que permita
responder en una primera fase las preguntas más importantes que se plantearon con el experimento
TAMAÑO DE MUESTRA por intervalo de confianza
Gutiérrez, H. y De la Vara, R. (2012) deducen la fórmula del tamaño de muestra a partir de
la diferencia máxima en las comparaciones o pruebas de rango múltiple LSD:
intervalo explican sobre el tamaño de muestra:

𝐿𝑆𝐷=𝑡 𝛼
2
,𝑁−𝑘
2 𝐶𝑀𝐸
𝑛 √
… … …(𝑎 )

Supongamos que el experimentador ya tiene el número de tratamientos que desea probar, k,


y que tomando en cuenta las consideraciones antes citadas tiene una propuesta inicial del
número de réplicas por tratamiento que va a utilizar, n0. También tiene una idea aproximada
del valor de s (la desviación estándar del error aleatorio), así como una idea de la magnitud
de las diferencias, dT, entre tratamientos que le interesa detectar. Despejando n de la
fórmula en “a”, se obtiene:

donde:
N=kn0
( )
2 2
2 𝑡𝛼 𝜎 n0: propuesta inicial para el número de réplicas
,𝑁−𝑘
2
𝑛= : Nivel de significación
𝑑 𝑇2
=CME
dT= diferencia máxima entre las medias (LSD)
TAMAÑO DE MUESTRA por intervalo de confianza

Ejemplo:
Un ingeniero desea verificar si cierto tipo de fertilizante impacta en el crecimiento de una
planta. Para esto, diseña un experimento con 5 tipos de fertilizantes. ¿Cuántos ejemplares de
cada nivel deberá probar considerando un nivel de significación de 5%. Asimismo, una
propuesta inicial para el número de réplicas es 6, además sabe que una estimación de la
dispersión es 2,5 cm y la diferencia máxima entre las medias 3,8 cm
K=5
n0=6
N= kn0= (5)(6)=30
N-k=30-5=25

a/2 =0,025 a/2 =0,025


=2,5
dT= 3,8
1-a =0,95

= = 3,67
t(0,975,25)=2,060
Se necesitará n=4 réplicas
Otra forma
Ejemplo
Un ingeniero de desarrollo de productos desea
investigar la resistencia a la tensión de una fibra
sintética nueva que se utilizará para hacer tela de
camisas. El ingeniero sabe por experiencia que la
resistencia a la tensión se afecta por el peso
porcentual del algodón utilizado en la mezcla de
materiales de fibra. Además, sospecha que al
aumentar el contenido de algodón se incrementará
la resistencia, al menos al principio. El ingeniero
decide probar ejemplares en cinco niveles del peso
porcentual del algodón: 15, 20, 25, 30 y 35 por
ciento. ¿Cuántos ejemplares de cada nivel deberá
probar considerando un nivel de significación de 5%,
potencia de prueba de 0,8 y si sabe que una
estimación de la dispersión es 2,5 lb/pulgadas2 y la
diferencia máxima entre las medias 6,5 lb/pulgadas2
Potencia y tamaño de la muestra
ANOVA de un solo factor
α = 0.05 Desviación estándar asumida = 2.5
Factores: 1 Número de niveles: 5

Número de
réplicas por
tratamientos
Ejemplo de aleatorización
Nro. Peso
Secuencia
Un ingeniero de desarrollo de productos de la prueba Corrida
porcentual
desea investigar la resistencia a la algodón
tensión de una fibra sintética nueva que 1 8 20 Utilizando una hoja de
2 18 30
se utilizará para hacer tela de camisas. cálculo se puede generar las
3 10 20
El ingeniero sabe por experiencia que la
resistencia a la tensión se afecta por el
4 23 35 coridas aleatorias
5 17 30 =ALEATORIO.ENTRE(1;25)
peso porcentual del algodón utilizado en 6 5 15
la mezcla de materiales de fibra. 7 14 25
Además, sospecha que al aumentar el 8 6 20
contenido de algodón se incrementará la 9 15 25
resistencia, al menos al principio. El 10 20 30
ingeniero decide probar ejemplares en 11 9 20
cinco niveles del peso porcentual del 12 4 15
algodón: 15, 20, 25, 30 y 35 por ciento. 13 12 25 Datos de resistencia a la
También decide probar cinco ejemplares 14 7 20 tensión (en lb/pulgadas2)
15 1 15
en cada nivel del contenido de algodón. Peso
16 24 35 Observaciones
Las 25 corridas serán: porcentual
Peso 17 21 35 del algodón
porcentual del Número de corrida experimental 18 11 25
algodón
15 7 7 15 11 9
19 2 15 20 12 17 12 18 18
15 1 2 3 4 5
20 13 25
20 6 7 8 9 10 25 14 18 18 19 19
21 22 35
25 11 12 13 14 15 30 19 25 22 19 23
22 16 30
30 16 17 18 19 20 23 25 35 35 7 10 11 15 11
35 21 22 23 24 25 24 19 30
25 3 15
ANOVA PARA EL DISEÑO COMPLETAMENTE AL
AZAR (DCA)
El ANOVA es la técnica utilizada en el análisis de datos experimentales que consiste
en separar la variación total en las partes con las que contribuye cada fuente de
variación en el experimento. En DCA la variabilidad total se separa en la variabilidad
debida a los tratamientos y la debida al error.

Tabla de ANOVA para el DCA

Yij = m + ti + eij
Donde:
m :Media global
ti : Efecto del tratamiento i
eij : Es el error atribuible a la medición Yij
ANOVA DE UN FACTOR

Triola (2018)
Aplicación
Un ingeniero de desarrollo de productos desea investigar la resistencia a la tensión de una fibra
sintética nueva que se utilizará para hacer tela de camisas. El ingeniero sabe por experiencia
que la resistencia a la tensión se afecta por el peso porcentual del algodón utilizado en la
mezcla de materiales de fibra. Además, sospecha que al aumentar el contenido de algodón se
incrementará la resistencia, al menos al principio. El ingeniero decide probar ejemplares en
cinco niveles del peso porcentual del algodón: 15, 20, 25, 30 y 35 por ciento. También decide
probar cinco ejemplares en cada nivel del contenido de algodón. Los datos de resistencia a la
tensión se muestran a continuación:
Peso porcentual del Analice los datos y concluya al nivel de significación
Observaciones
algodón de 5%:
15 7 7 15 11 9 1. ¿El peso porcentual de algodón influye en la
20 12 17 12 18 18 resistencia a la tensión?
25 14 18 18 19 19 2. ¿Qué peso o (pesos porcentuales) recomendaría
30 19 25 22 19 23 utilizar para incrementar la resistencia a la
35 7 10 11 15 11 tensión?
Yij = m + ti + eij
Supuestos del modelo:
donde:
Yij : Es la j-ésima medición de la resistencia a la tensión en 1. Los errores provienen de una
la fibra que contiene el i-ésimo peso porcentual de población normal
algodón 2. Las varianzas poblacionales son
m :Media global iguales
ti : Efecto del porcentaje de algodón i 3. Los errores son independientes
eij : Es el error aleatorio atribuible a la medición Y ij
Paso1. Estimación de los errores
Minitab: Estadísticos/ANOVA/Modelo lineal general/Ajustar modelo lineal general
Paso2. Analizando el cumplimiento de los supuestos

Normalidad
H0:Los errores sí provienen de una población normal
H1:Los errores no provienen de una población normal
a=0.05
Criterio de rechazo y no rechazo de Ho
Si valor p ≤ α  Se rechaza Ho
Si valor p > α  No se rechaza Ho

Como valor p= 0.170 > 0.05 No se rechaza Ho.


Por lo tanto, a un nivel de significación de 5%, se asume
que los errores provienen de una población normal
Paso2. Analizando el cumplimiento de los supuestos

Homocedasticidad

a=0.05
Criterio de rechazo y no rechazo de Ho
Si valor p ≤ α  Se rechaza Ho
Si valor p > α  No se rechaza Ho

Como valor p= 0.920> 0.05 No se


rechaza Ho.
Por lo tanto, a un nivel de significación de
5%, se asume que los errores tienen
igual varianza en cada tratamiento
Paso2. Analizando el cumplimiento de los supuestos

Independencia de errores
Al analizar la gráfica de los residuales
vs tiempo no se aprecia correlación
entre los residuales (es decir no se
observa tendencia a tener corridas de
residuales positivos y negativos)
Paso3. Análisis de la varianza

a=0.05

Criterio de rechazo y no rechazo de Ho


Si valor p ≤ α  Se rechaza Ho
Si valor p > α  No se rechaza Ho

Como valor p= 0 < 0.05 Sí se rechaza Ho.


Por lo tanto, a un nivel de significación de 5%, la evidencia muestral es suficiente para afirmar que el
peso porcentual de algodón influye en la resistencia a la tensión.
Paso4. Pruebas de comparaciones múltiples
Minitab: Estadísticas/ANOVA/Modelo lineal general/comparaciones

a=0.05

Agrupar información utilizando el método de Tukey y una confianza de 95%


Peso
porcentual N Media Agrupación
30 5 21.6 A

25 5 17.6 A B

20 5 15.4 B C

35 5 10.8 C D

15 5 9.8 D

Las medias que no comparten una letra son significativamente diferentes.

A un nivel de significación de 5%, con 30 como peso porcentual de algodón, se obtiene una
mayor resistencia a la tensión, comparado con el resto de tratamientos.
Aplicaciones
Aplicaciones

1. Se hace un estudio sobre la efectividad de tres marcas de spray para matar


moscas. Para ello, cada producto se aplica a un grupo de 100 moscas, y se cuenta
el número de moscas muertas expresado en porcentajes. Se hacen seis réplicas y
los resultados obtenidos se muestran a continuación.

a) Formule la hipótesis adecuada y el modelo estadístico.


b) ¿Existe diferencia entre la efectividad promedio de los productos en spray?
c) ¿Hay algún spray mejor? Argumente su respuesta.
d) Dé un intervalo al 95% de confianza para la efectividad promedio (porcentaje) de cada
una de las marcas.
e) Dibuje las gráficas de medias y los diagramas de caja simultáneos, después interprételos.
f) Verifique los supuestos de normalidad y de igual varianza entre las marcas.
Aplicaciones

En un centro de investigación se realiza un estudio para comparar varios tratamientos que, al aplicarse previamente
a los frijoles crudos, reducen su tiempo de cocción. Estos tratamientos son a base de bicarbonato de sodio (NaHCO3)
y cloruro de sodio o sal común (NaCl). El primer tratamiento es el de control, que consiste en no aplicar ningún
tratamiento. El tratamiento T2 es el remojo en agua con bicarbonato de sodio, el T3 es remojar en agua con sal
común y el T4 es remojar en agua con una combinación de ambos ingredientes en proporciones iguales. La variable
de respuesta es el tiempo de cocción en minutos. Los datos se muestran en la siguiente tabla:

a) ¿De qué manera el experimentador debe aleatorizar los experimentos y el material experimental?
b) Dé ejemplos de factores que deben estar fijos durante las pruebas experimentales, para que no afecten los resultados y
las conclusiones.
c) Formule y pruebe la hipótesis de que las medias de los tratamientos son iguales.
d) Obtenga el diagrama de caja y el gráfico de medias, después interprételos.
e) ¿Hay algún tratamiento mejor? ¿Cuál es el tiempo de cocción esperado para el mejor tratamiento?
f) Algo importante a cuidar en un experimento es que no haya efectos colaterales no deseados, causados por el tratamiento
ganador; en este caso, piense en los posibles efectos colaterales que podría causar el mejor tratamiento.
g) ¿Se cumplen los supuestos del modelo? Verifique gráficamente.
h) Pruebe la hipótesis de igualdad de varianzas entre tratamientos (que corresponde a un supuesto)
Gutierrez y De La vara (2008). Análisis y diseño de experimentos. Segunda
edición, McGraw-hill/INTERAMERICANA

También podría gustarte