Está en la página 1de 18

Instituto Tecnológico Superior de Coatzacoalcos

Carrera: Ingeniería Industrial

Ciclo escolar: Agosto-Diciembre

Asignatura: Estadística inferencial 2

Unidad: 3 Diseño de experimentos de un factor

Alumno: Elba Erika López Morales

No. De control: 22080958 semestre: 4 Grupo: C

Docente: Bricio Jiménez Ventura

Fecha: /02/2024

1
Índice
Introducción................................................................................................................................................3
1.1 Introducción a la estadística inferencial...........................................................................................4
1.2 Muestreo: Introducción al muestreo y tipos de muestreos............................................................6
1.3 Teorema del límite central.................................................................................................................9
1.4 Distribuciones fundamentales para el muestreo...........................................................................12
1.4.1 distribución muestral de la media............................................................................................13
1.4.2 distribución muestral de la diferencia de medias...................................................................14
1.4.3 distribución muestral de la proporción....................................................................................16
1.4.4 distribución muestral de la diferencia de proporciones........................................................18
1.4.5 distribución t-student.................................................................................................................20
1.4.6 Distribución muestral de la varianza.......................................................................................22
1.4.7 distribución muestral de la relación de varianzas..................................................................23
Conclusión................................................................................................................................................25
Glosario.....................................................................................................................................................26
Bibliografía................................................................................................................................................27

2
Introducción

Su objetivo principal de la estadística inferencial es que esta investigación se tratarán temas


de interés enfocados en el tema de diseño de experimentos de un factor como los son: la familia
de diseños para comparar tratamientos, modelo de efectos fijos, diseño completamente aleatorio
ANOVA, comparaciones o pruebas de rangos múltiples y verificación de los supuestos del
modelo. El diseño de experimentos ha resultado ser una herramienta de gran impacto para el
progreso de la industria. Contribuye a conocer los procesos de una manera más profunda, lo cual
permite hacer mejoras en calidad y bajar los costos de producción por medio de métodos
científicos

En el trabajo que se presentara a continuación hablaremos acerca de los diseños experimentales


para un factor, en donde principalmente entendemos como diseño experimental al esquema
de cómo realizar un experimento. El objetivo fundamental de los diseños experimentales radica
en el determinar si existe una diferencia significativa entre los diferentes tratamientos del
experimento y en caso que la respuesta es afirmativa, cuál sería la magnitud de esta diferencia.
El Diseño de Experimentos tuvo su inicio teórico a partir de 1935 por Sir Ronald A. Fisher, quién
sentó la base de la teoría del Diseño Experimental y que a la fecha se encuentra bastante
desarrollada y ampliada. Actualmente las aplicaciones son múltiples, especialmente en la
investigación de las ciencias naturales, ingeniería, laboratorios y casi todas las ramas de las
ciencias sociales.

3
3.1 Familia de diseños para comparar tratamientos

A diferencia fundamental entre estos diseños es el número de factores de bloque que incorporan o
controlan de forma explícita durante el experimento. La comparación de los tratamientos en
cuanto a la respuesta media que logran, en cualquiera de estos diseños, se hace mediante la
hipótesis que se prueba con la técnica estadística llamada Análisis de Varianza (ANOVA) con
uno, dos, tres o cuatro criterios de clasificación, dependiendo del número de factores de bloques
incorporados al diseño.

Diseño Factores de bloqueo

ANOVA con Modelo estadístico

DCA 0 Un criterio

DBCA 1 Dos criterios

DCL 2 Tres criterios

DCGL 3 Cuatro criterios

Y es la variable de salida, la media global, el efecto del i-ésimo tratamiento, error aleatorio, y,
son los efectos de tres factores de bloqueo. El modelo estadístico que describe el comportamiento
de la variable observada Y en cada diseño, incorpora un término adicional por cada factor de
bloqueo controlado. De acuerdo con los modelos dados en la tabla, para cada diseño comparativo
se tienen al menos dos fuentes de variabilidad: los tratamientos o niveles del factor de interés y el
error aleatorio. Se agrega una nueva fuente de variabilidad por cada factor de bloque que se
controla directamente. Se observa que los diseños suponen que no hay efectos de interacción
entre los factores, lo cual sería lo deseable que ocurra; de no ocurrir así, tal efecto se recarga al
error y el problema de comparación no se resuelve con éxito. Un efecto de interacción entre dos
factores hace referencia a que el efecto de cada factor depende del nivel en que se encuentra el
otro.

4
El modelo estadístico que describe el comportamiento de la variable observada Y en cada diseño,
incorpora un término adicional por cada factor de bloqueo controlado. De acuerdo con los
modelos dados en la tabla, para cada diseño comparativo se tienen al menos dos fuentes de
variabilidad: los tratamientos o niveles del factor de interés y el error aleatorio. Se agrega una
nueva fuente de variabilidad por cada factor de bloque que se controla directamente.

Se observa que los diseños suponen que no hay efectos de interacción entre los factores, lo cual
sería lo deseable que ocurra; de no ocurrir así, tal efecto se recarga al error y el problema de
comparación no se resuelve con éxito.La diferencia fundamental entre estos diseños es el número
de factores de bloque que incorporan o controlan de forma explícita durante el experimento.

La comparación de los tratamientos en cuanto a la respuesta media que logran, en cualquiera de


estos diseños, se hace mediante la hipótesis que se prueba con la técnica estadística llamada
Análisis de Varianza (ANOVA) con uno, dos, tres o cuatro criterios de clasificación,
dependiendo del número de factores de bloques incorporados al diseño.

5
3.2 El modelo de efectos fijos

El modelo de efectos fijos (es cuando se estudian todos los posibles tratamientos) de análisis de
la varianza se aplica a situaciones en las que el experimentador ha sometido al grupo o material
analizado a varios factores, cada uno de los cuales le afecta sólo a la media, permaneciendo la
"variable respuesta" con una distribución normal. Este modelo se supone cuando el investigador
se interesa únicamente por los niveles del factor presentes en el experimento, por lo que
cualquier variación observada en las puntuaciones se deberá al error experimental. Donde es el
parámetro de escala común a todos los tratamientos, llamado media global,; es un parámetro
que mide el efecto del tratamiento y es el error atribuible a la medición . Este modelo
implica que en el diseño completamente al azar actuarían a lo más dos fuentes de variabilidad:
Los tratamientos y el error aleatorio. La media global dela variable de respuesta no se considera
una fuente de variabilidad por ser una constante común a todos los tratamientos, que hace las
veces de punto de referencia con respecto al cuál se comparan las respuestas medias de los
tratamientos. Si la respuesta media de un tratamiento particular es ¨muy diferente¨ de la
respuesta media global, es un síntoma de que existe un efecto de dicho tratamiento, ya que como
se verá más adelante. La diferencia que debe tener las medias entre sí para concluir que hay un
efecto (que los tratamientos son diferentes), nos lo dice el análisis de varianza (ANOVA).En la
práctica puede suceder que los tratamientos que se desea comparar sean demasiados como para
experimentar con todos. Cuando esto sucede es conveniente comparar sólo una muestra de la
población de tratamientos, de modo que pasa a ser una variable aleatoria con su propia varianza
que deberá estimarse a partir de los datos. En este capítulo sólo se presenta el caso en que todos
los tratamientos que se tienen se prueban, es decir, se supone una población pequeña de
tratamientos, lo cual hace posible compararlos a todos. En este caso, el modelo dado por la
ecuación (2.2) se llama modelo de efectos fijos.

Si la respuesta media de un tratamiento particular es ¨muy diferente¨ de la respuesta


media global , es un síntoma de que existe un efecto de dicho tratamiento, ya que como se verá
más adelante. La diferencia que debe tener las medias entre sí para concluir que hay un efecto
(que los tratamientos son diferentes), nos lo dice el análisis de varianza (ANOVA)

6
Estos modelos sirven para controlar la heterogeneidad inobservable, en particular cuando esta es
constante en el tiempo y está correlacionada con las variables independientes. Esta constante
puede ser eliminada de los datos a través de la diferenciación, por ejemplo, teniendo una primera
diferencia con la cual se eliminarán los componentes del modelo invariables en el tiempo.

Hay dos supuestos comunes hechos sobre el efecto individual específico, el supuesto de efectos
aleatorios y la asunción de efectos fijos. La hipótesis de efectos aleatorios (hecho en un modelo
de efectos aleatorios), es que.los efectos específicos individuales no están correlacionados con las
variables independientes. El supuesto del modelo de efectos fijos es que el efecto específico
individual está correlacionado con las variables independientes. Si la hipótesis de efectos
aleatorios se mantiene, el modelo de efectos aleatorios es más eficiente que el modelo de efectos
fijos. Sin embargo, si este supuesto no se cumple (es decir, si la prueba de Durbin-Watson falla),
el modelo de efectos aleatorios no es consistente.

Pasos en el modelo de efectos fijos para los datos de muestra


1. Calcular las medias de grupo y la Gran media
2. Calcular k = número de grupos, n = número de observaciones por grupo, N = número total de
observaciones (KxN)

3. Calcular SS-total (o la varianza total) como: (Cada puntuación - gran media) ^ 2 resume a
continuación

4. Calcular SS-tratar (o efecto del tratamiento) como: (Cada grupo medio-Grand media) ^ 2 xn
después se suman

5. Calcular SS-error (error o efecto) como (Cada puntuación - Su media del grupo) ^ 2 a
continuación resume

6. Calcular df-total: N-1, gl-tratamiento: k-1 y df-error k (n-1)

7. Calcular Mean Square MS-treat: SS-treat/df-treat, luego MS-error: SS-error/df-error

8. Calcular el valor obtenido f: MS-treat/MS-error.

7
3.3 Diseño completamente aleatorio y ANOVA

Muchas comparaciones, como las antes mencionadas, se hacen con base en el diseño
completamente al azar (DCA), que es el más simple de todos los diseños que se utilizan para
comparar dos o más tratamientos, dado que sólo consideran dos fuentes de variabilidad: los
tratamientos y el error aleatorio. En la siguiente unidad veremos diseños que consideran la
influencia de otras fuentes de variabilidad (bloques). Este diseño se llama completamente al azar
porque todas las corridas experimentales se realizan en orden aleatorio completo. De esta manera,
si durante el estudio se hacen en total N pruebas, éstas se corren al azar, de manera que los
posibles efectos ambientales y temporales se vayan repartiendo equitativamente entre los
tratamientos. Ejemplo 1 Comparación de cuatro métodos de ensamble. Un equipo de mejora
investiga el efecto de cuatro métodos de ensamble A, B, C y D, sobre el tiempo de ensamble en
minutos con un nivel de significancia de 0.05. En primera instancia, la estrategia experimental es
aplicar cuatro veces los cuatro métodos de ensamble en orden completamente aleatorio (las 16
pruebas en orden aleatorio). Los tiempos de ensamble obtenidos se muestran en la tabla 2.1. Si se
usa el diseño completamente al azar (DCA), se supone que, además del método de ensamble, no
existe ningún otro factor que influya de manera significativa sobre la variable de respuesta
(tiempo de ensamble)

Ejemplo 2 Comparación de cuatro tipos


de cuero. Un fabricante de calzado desea mejorar la calidad de las suelas, las cuales se pueden
hacer con uno de los cuatro tipos de cuero A, B, C y D disponibles en el mercado. Para ello,
prueba los cueros con una máquina que hace pasar los zapatos por una superficie abrasiva; la
suela de éstos se desgasta al pasarla por dicha superficie. Como criterio de desgaste se usa la
pérdida de peso después de un número fijo de ciclos. Se prueban en orden aleatorio 24 zapatos,

8
seis de cada tipo de cuero. Al hacer las pruebas en orden completamente al azar se evitan sesgos
y las mediciones en un tipo de cuero resultan independientes de las demás. Los datos (en
miligramos) sobre el desgaste de cada tipo de cuero se muestran en la tabla 2.2.

El análisis de la varianza de un criterio (ANOVA de un criterio) es una metodología para analizar


la variación entre muestras y la variación al interior de las mismas con varianzas, en lugar de
rangos. Como tal, es un método estadístico útil para comparar dos o más medias poblacionales.
El objetivo del análisis de varianza en el DCA es probar las hipótesis de igualdad de los
tratamientos con respecto a la media de la correspondiente variable de respuesta

Método entre El segundo método para estimar la varianza común de la población produce una
estimación válida sólo si la hipótesis nula es cierta. Para entender el método entre recuerde el
teorema del límite central. Este importante teorema en estadística establece que la distribución de
las medias muestrales tiende a una distribución normal conforme crece el tamaño de la muestra,
con una media µ y una desviación estándar δ√n. Si el error estándar de la media es δ√n, entonces
la varianza de la distribución es igual al error estándar al cuadrado, δ2√n. Esta varianza es una
medida de las diferencias entre todas las medias muestrales que puedan obtenerse de la
distribución y la media de la población. La raíz cuadrada de esta varianza es el error estándar de
la media, es decir, la diferencia estándar entre una media muestral y la media poblacional.

9
3.4 Comparaciones o pruebas de rangos múltiples

El análisis de varianza es un procedimiento poderoso para probar la homogeneidad de un


conjunto de medias. Sin embargo, si rechazamos la hipótesis nula ( ) y aceptamos la alterna (que
no todas las medias son iguales) aún no sabemos cuáles de las medias poblacionales son iguales y
cuáles son diferentes.

Comparación de parejas de medias de tratamientos.

Cuando no se rechaza la H0: 1 = 2 = 3, el objetivo del experimento está cubierto y

la conclusión es que los tratamientos no son diferentes. Si por el contrario se rechaza

H0, y por consiguiente se acepta la H1: No todas las poblaciones tienen la misma media,

es necesario investigar cuáles tratamientos resultaron diferentes, o cuáles provocan la diferencia.

Estas interrogantes se responden probando la igualdad de todos los posibles pares de medias, para
lo cual se han propuesto varios métodos, conocidos como

métodos de comparaciones múltiples o pruebas de rango múltiple. La diferencia

primordial entre los métodos radica en la potencia que tienen para detectar las diferencias entre
las medias. Se dice que una prueba es más potente si es capaz de detectar diferencias más
pequeñas.

Hay varios métodos estándar para realizar comparaciones pareadas que apoyen la credibilidad de
la tasa de error tipo I.

Método de la diferencia mínima significativa de Fisher (método LSD).

Una vez que se rechazó en el ANOVA, el problema es probar la igualdad de todos los posibles
pares de medias con la hipótesis:

Comparación o pruebas de rangos múltiples 63

para toda . Para tratamientos se tienen en total pares de medias. Por ejemplo, si existen posibles
pares de medias. El estadístico de prueba para cada una de las hipótesis dadas es la

10
correspondiente diferencia en valor absoluto entre sus medias muestrales . Se rechaza la hipótesis
si ocurre que donde el valor de se lee en las tablas de la distribución T de student con grados de
libertad que corresponde al error, el es el cuadrado medio del error y se obtiene de la tabla
ANOVA, y son el número de observaciones para los tratamientos , respectivamente. La LSD se
llama diferencia mínima significativa de Fisher, ya que es la diferencia mínima que debe existir
entre dos medias muestrales para considerar que los tratamientos correspondientes son
significativamente diferentes. Así, cada diferencia de medias muestrales que si el diseño es
balanceado, es decir, si

, la diferencia mínima significativa se reduce a:

(2.15)

En caso de rechazar se acepta la hipótesis alternativa la cual nos dice que las medias de los
tratamientos son diferentes. El método LSD tiene una potencia importante, por lo que en
ocasiones declara significativas aun pequeñas diferencias.

Ilustremos esta prueba continuando con el ejemplo 1, en el cual, con el ANOVA se rechazó la
hipótesis nula y se aceptó que al menos un par de medias de tratamientos (métodos de ensamble)
son diferentes entre sí. Para investigar cuáles pares de medias son estadísticamente diferentes se
prueban los seis posibles pares de hipótesis:

(2.16)

Utilizando el método de LSD. EN el ANOVA se observa que los grados de libertad del error
son , y que el cuadrado medio del error es . Si usamos una significación predefinida de , de la
tabla de la distribución T.

-------------------------------------------------------------

11
En la ventana de captura se solicitará el rango de celdas donde se encuentran los datos
para la variable dependiente Rango de entrada y para la(s) variable(s)represora(s)
Rango de entrada (para los datos de X1 y X2, se sombrean ambos simultáneamente
con el ratón, en este caso a partir de la columna 2)

Utilizando Minitab

En Minitab la secuencia de captura para la regresión lineal simple o múltiple en lahoja


de cálculo una vez capturada las columnas de datos seleccionamos por default está
indicado en una hoja nueva, seleccionamos además cualquiera de las opciones de
residuos, grafica de residuales, y curva de regresión ajustada y aceptar y tendremos el
resultado.
12
La ventana desplegada en respuesta indicamos la variable de respuesta, en este caso
es resistencia y en predictor indicamos porcentaje de fibra activando también cualquiera
de las opciones posibles, terminando en aceptar.

Nota: De la ventana de captura aparecen automáticamente en el cuadro de la izquierda


la información de la tabla, en respuesta.

3.5 verificación de los supuestos del modelo

Regresión no lineal es un método para encontrar un modelo no lineal para la relación


entre la variable dependiente y un conjunto de variables independientes. A diferencia de
la regresión lineal tradicional, que está restringida a la estimación de modelos lineales,
la regresión no lineal puede estimar modelos con relaciones arbitrarias entre las

13
variables independientes y las dependientes. Esto se lleva a cabo usando algoritmos de
estimación iterativos. Tenga en cuenta que este procedimiento no es necesario para
modelos polinomiales simples de la forma

Ejemplo. ¿Puede pronosticarse la población basándose en el tiempo Un diagrama de


dispersión muestra que parece haber una estrecha relación entre la población y el
tiempo, pero la relación es no lineal y por eso exige la utilización de los métodos de
estimación especiales del procedimiento Regresión no lineal. Creando una ecuación
adecuada, como la del modelo logístico de crecimiento poblacional, podemos obtener
una buena estimación del modelo, lo que nos permitirá hacer predicciones sobre la
población para épocas que no se han sido medidas.

.Estadísticas. Para las iteraciones: estimaciones de los parámetros y suma de


cuadrados residual. Para los modelos: suma de cuadrados para regresión, residual,
total corregido y no corregido, estimaciones de los parámetros, errores estándar
asintóticos y matriz de correlaciones asintóticas de estimaciones de los parámetros.

Cuando las variables 𝑋 y 𝑌 se relacionan según una línea curva, se habla de


regresión no lineal o curvilínea. Aquí se puede distinguir entre regresión parabólica,
exponencial, potencial etc. Supongamos que al hacer la representación gráfica
correspondiente la distribución bidimensional. Se observa una clara relación entre las
dos variables, pero desde luego, esa relación no es lineal

𝑌 = 𝛽0+ 𝛽1 𝑋 + 𝜀

Parábola de regresión

Donde a, b y c son los parámetros. El problema consiste, por tanto, en determinar


dichos parámetros para una distribución dada. Seguiremos para ello, un razonamiento
similar al que hicimos en el caso del modelo de regresión lineal simple, utilizando el
procedimiento de ajuste de los mínimos cuadrados, es decir, haciendo que la suma de
los cuadrados de las desviaciones con respecto a la curva de regresión sea mínima:

14
Donde, siguiendo la notación habitual, 𝑦𝑖 son los valores observados de la variable
dependiente, e 𝑦𝑖 los valores estimados según el modelo; por tanto, podemos
escribir D de la forma:

Función Exponencial, Potencial y Logarítmica El problema de ajustar un modelo

potencial, de la forma 𝑌 = 𝐴𝑋𝑏 y uno exponencial 𝑌 = 𝐴𝑋𝑋 se reduce al de la función


lineal, con solo tomar logaritmos Como vemos es la ecuación de una recta:𝑌 = 𝑎 +𝑏𝑋,
donde ahora 𝑎 = 𝑙𝑜𝑔𝐴. De modo que el problema es sencillo, basta con transformar 𝑌
en 𝑙𝑜𝑔𝑌 y 𝑋 en 𝑙𝑜𝑔𝑋 y ajustar una recta a los valores transformados. El parámetro 𝑏 del
modelo potencial coincide con el coeficiente de regresión de la recta ajustada a
los datos transformados, y 𝐴 lo obtenemos mediante el antilog (b).

Conclusión

El análisis de la regresión constituye métodos que se utiliza para conocer las


relaciones y significación entre series de datos. Es de suma importancia para la
industria ya que se están presentando variables de repuesta e independientes las
cuales interactúan para originar las características de un proceso en particular y por
ende analizar, predecir y examinar valores y el grado de fuerza de dichas variables. La
finalidad de una función de regresión es la de estimar los valores de una variable con
base a los valores conocidos de la otra, una ecuación de regresión explica los valores

15
de una variable en términos de otra, es decir, se puede intuir una relación de causa y
efecto entre dos o mas variables.

La regresión lineal múltiple analiza la relación de dos o mas variables continuas,


cuando analiza dos variables a esta se le conoce como variables que pueden
corresponder a variables cualitativas. Como se comento en un inicio es importante
tener en cuenta que la magnitud de cada coeficiente parcial de regresión depende de
las unidades en las que se mida la variable predictora a la que corresponde, por lo que
su magnitud no está asociada con la importancia de cada predictor.

Se puede concluir que los temas abarcados son muy complejos, estos son muy
importantes, ya que nos ayudan hacer cálculos, posibles sucesos y a la toma de
decisiones, esto puede inferir tanto en nuestra vida laboral, ya que con esto se puede
calcular sistemas de producción, que prefieren los consumidores y ayudarnos a tomar
decisiones que mejoren el funcionamiento

Glosario

 Bivariantes: provienen de la observación simultánea de dos variables ( 𝑋, 𝑌) en


una muestra de n individuos. Los datos serán parejas de valores,
numéricos o no numéricos, de la forma: (𝑥1,𝑦1),(𝑥2,𝑦2),…,(𝑥𝑛,𝑦𝑛). Se

16
obtienen de sumar frecuencias conjuntas (absolutas o relativas) por filas y por
columnas.
 Variable regresora: se le conoce como variable independiente, explicativa,
exógena o regresora.
 Hipótesis: es un enunciado no verificado, que se intenta confirmar o refutar. Si
es confirmada, la hipótesis se denomina enunciado verificado. La hipótesis es
una conjetura que requiere una contrastación con la experiencia.
 Margen de error: es una estadística que expresa la cantidad de error de
muestreo aleatorio en los resultados de una encuesta. Cuanto mayor sea el
margen de error, menos confianza se debe tener en que el resultado de una
encuesta reflejaría el resultado de una encuesta de toda la población.
 Variable continua: es aquella que puede tomar un número infinito de valores
entre dos valores cualesquiera de una característica.
 Método: es una forma organizada y sistemática de poder alcanzar un
determinado objetivo. El método se entiende entonces como una serie de
pasos que se deben seguir para cumplir un objetivo

17
Bibliografía

18

También podría gustarte