Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Fecha: /02/2024
1
Índice
Introducción................................................................................................................................................3
1.1 Introducción a la estadística inferencial...........................................................................................4
1.2 Muestreo: Introducción al muestreo y tipos de muestreos............................................................6
1.3 Teorema del límite central.................................................................................................................9
1.4 Distribuciones fundamentales para el muestreo...........................................................................12
1.4.1 distribución muestral de la media............................................................................................13
1.4.2 distribución muestral de la diferencia de medias...................................................................14
1.4.3 distribución muestral de la proporción....................................................................................16
1.4.4 distribución muestral de la diferencia de proporciones........................................................18
1.4.5 distribución t-student.................................................................................................................20
1.4.6 Distribución muestral de la varianza.......................................................................................22
1.4.7 distribución muestral de la relación de varianzas..................................................................23
Conclusión................................................................................................................................................25
Glosario.....................................................................................................................................................26
Bibliografía................................................................................................................................................27
2
Introducción
3
3.1 Familia de diseños para comparar tratamientos
A diferencia fundamental entre estos diseños es el número de factores de bloque que incorporan o
controlan de forma explícita durante el experimento. La comparación de los tratamientos en
cuanto a la respuesta media que logran, en cualquiera de estos diseños, se hace mediante la
hipótesis que se prueba con la técnica estadística llamada Análisis de Varianza (ANOVA) con
uno, dos, tres o cuatro criterios de clasificación, dependiendo del número de factores de bloques
incorporados al diseño.
DCA 0 Un criterio
Y es la variable de salida, la media global, el efecto del i-ésimo tratamiento, error aleatorio, y,
son los efectos de tres factores de bloqueo. El modelo estadístico que describe el comportamiento
de la variable observada Y en cada diseño, incorpora un término adicional por cada factor de
bloqueo controlado. De acuerdo con los modelos dados en la tabla, para cada diseño comparativo
se tienen al menos dos fuentes de variabilidad: los tratamientos o niveles del factor de interés y el
error aleatorio. Se agrega una nueva fuente de variabilidad por cada factor de bloque que se
controla directamente. Se observa que los diseños suponen que no hay efectos de interacción
entre los factores, lo cual sería lo deseable que ocurra; de no ocurrir así, tal efecto se recarga al
error y el problema de comparación no se resuelve con éxito. Un efecto de interacción entre dos
factores hace referencia a que el efecto de cada factor depende del nivel en que se encuentra el
otro.
4
El modelo estadístico que describe el comportamiento de la variable observada Y en cada diseño,
incorpora un término adicional por cada factor de bloqueo controlado. De acuerdo con los
modelos dados en la tabla, para cada diseño comparativo se tienen al menos dos fuentes de
variabilidad: los tratamientos o niveles del factor de interés y el error aleatorio. Se agrega una
nueva fuente de variabilidad por cada factor de bloque que se controla directamente.
Se observa que los diseños suponen que no hay efectos de interacción entre los factores, lo cual
sería lo deseable que ocurra; de no ocurrir así, tal efecto se recarga al error y el problema de
comparación no se resuelve con éxito.La diferencia fundamental entre estos diseños es el número
de factores de bloque que incorporan o controlan de forma explícita durante el experimento.
5
3.2 El modelo de efectos fijos
El modelo de efectos fijos (es cuando se estudian todos los posibles tratamientos) de análisis de
la varianza se aplica a situaciones en las que el experimentador ha sometido al grupo o material
analizado a varios factores, cada uno de los cuales le afecta sólo a la media, permaneciendo la
"variable respuesta" con una distribución normal. Este modelo se supone cuando el investigador
se interesa únicamente por los niveles del factor presentes en el experimento, por lo que
cualquier variación observada en las puntuaciones se deberá al error experimental. Donde es el
parámetro de escala común a todos los tratamientos, llamado media global,; es un parámetro
que mide el efecto del tratamiento y es el error atribuible a la medición . Este modelo
implica que en el diseño completamente al azar actuarían a lo más dos fuentes de variabilidad:
Los tratamientos y el error aleatorio. La media global dela variable de respuesta no se considera
una fuente de variabilidad por ser una constante común a todos los tratamientos, que hace las
veces de punto de referencia con respecto al cuál se comparan las respuestas medias de los
tratamientos. Si la respuesta media de un tratamiento particular es ¨muy diferente¨ de la
respuesta media global, es un síntoma de que existe un efecto de dicho tratamiento, ya que como
se verá más adelante. La diferencia que debe tener las medias entre sí para concluir que hay un
efecto (que los tratamientos son diferentes), nos lo dice el análisis de varianza (ANOVA).En la
práctica puede suceder que los tratamientos que se desea comparar sean demasiados como para
experimentar con todos. Cuando esto sucede es conveniente comparar sólo una muestra de la
población de tratamientos, de modo que pasa a ser una variable aleatoria con su propia varianza
que deberá estimarse a partir de los datos. En este capítulo sólo se presenta el caso en que todos
los tratamientos que se tienen se prueban, es decir, se supone una población pequeña de
tratamientos, lo cual hace posible compararlos a todos. En este caso, el modelo dado por la
ecuación (2.2) se llama modelo de efectos fijos.
6
Estos modelos sirven para controlar la heterogeneidad inobservable, en particular cuando esta es
constante en el tiempo y está correlacionada con las variables independientes. Esta constante
puede ser eliminada de los datos a través de la diferenciación, por ejemplo, teniendo una primera
diferencia con la cual se eliminarán los componentes del modelo invariables en el tiempo.
Hay dos supuestos comunes hechos sobre el efecto individual específico, el supuesto de efectos
aleatorios y la asunción de efectos fijos. La hipótesis de efectos aleatorios (hecho en un modelo
de efectos aleatorios), es que.los efectos específicos individuales no están correlacionados con las
variables independientes. El supuesto del modelo de efectos fijos es que el efecto específico
individual está correlacionado con las variables independientes. Si la hipótesis de efectos
aleatorios se mantiene, el modelo de efectos aleatorios es más eficiente que el modelo de efectos
fijos. Sin embargo, si este supuesto no se cumple (es decir, si la prueba de Durbin-Watson falla),
el modelo de efectos aleatorios no es consistente.
3. Calcular SS-total (o la varianza total) como: (Cada puntuación - gran media) ^ 2 resume a
continuación
4. Calcular SS-tratar (o efecto del tratamiento) como: (Cada grupo medio-Grand media) ^ 2 xn
después se suman
5. Calcular SS-error (error o efecto) como (Cada puntuación - Su media del grupo) ^ 2 a
continuación resume
7
3.3 Diseño completamente aleatorio y ANOVA
Muchas comparaciones, como las antes mencionadas, se hacen con base en el diseño
completamente al azar (DCA), que es el más simple de todos los diseños que se utilizan para
comparar dos o más tratamientos, dado que sólo consideran dos fuentes de variabilidad: los
tratamientos y el error aleatorio. En la siguiente unidad veremos diseños que consideran la
influencia de otras fuentes de variabilidad (bloques). Este diseño se llama completamente al azar
porque todas las corridas experimentales se realizan en orden aleatorio completo. De esta manera,
si durante el estudio se hacen en total N pruebas, éstas se corren al azar, de manera que los
posibles efectos ambientales y temporales se vayan repartiendo equitativamente entre los
tratamientos. Ejemplo 1 Comparación de cuatro métodos de ensamble. Un equipo de mejora
investiga el efecto de cuatro métodos de ensamble A, B, C y D, sobre el tiempo de ensamble en
minutos con un nivel de significancia de 0.05. En primera instancia, la estrategia experimental es
aplicar cuatro veces los cuatro métodos de ensamble en orden completamente aleatorio (las 16
pruebas en orden aleatorio). Los tiempos de ensamble obtenidos se muestran en la tabla 2.1. Si se
usa el diseño completamente al azar (DCA), se supone que, además del método de ensamble, no
existe ningún otro factor que influya de manera significativa sobre la variable de respuesta
(tiempo de ensamble)
8
seis de cada tipo de cuero. Al hacer las pruebas en orden completamente al azar se evitan sesgos
y las mediciones en un tipo de cuero resultan independientes de las demás. Los datos (en
miligramos) sobre el desgaste de cada tipo de cuero se muestran en la tabla 2.2.
Método entre El segundo método para estimar la varianza común de la población produce una
estimación válida sólo si la hipótesis nula es cierta. Para entender el método entre recuerde el
teorema del límite central. Este importante teorema en estadística establece que la distribución de
las medias muestrales tiende a una distribución normal conforme crece el tamaño de la muestra,
con una media µ y una desviación estándar δ√n. Si el error estándar de la media es δ√n, entonces
la varianza de la distribución es igual al error estándar al cuadrado, δ2√n. Esta varianza es una
medida de las diferencias entre todas las medias muestrales que puedan obtenerse de la
distribución y la media de la población. La raíz cuadrada de esta varianza es el error estándar de
la media, es decir, la diferencia estándar entre una media muestral y la media poblacional.
9
3.4 Comparaciones o pruebas de rangos múltiples
H0, y por consiguiente se acepta la H1: No todas las poblaciones tienen la misma media,
Estas interrogantes se responden probando la igualdad de todos los posibles pares de medias, para
lo cual se han propuesto varios métodos, conocidos como
primordial entre los métodos radica en la potencia que tienen para detectar las diferencias entre
las medias. Se dice que una prueba es más potente si es capaz de detectar diferencias más
pequeñas.
Hay varios métodos estándar para realizar comparaciones pareadas que apoyen la credibilidad de
la tasa de error tipo I.
Una vez que se rechazó en el ANOVA, el problema es probar la igualdad de todos los posibles
pares de medias con la hipótesis:
para toda . Para tratamientos se tienen en total pares de medias. Por ejemplo, si existen posibles
pares de medias. El estadístico de prueba para cada una de las hipótesis dadas es la
10
correspondiente diferencia en valor absoluto entre sus medias muestrales . Se rechaza la hipótesis
si ocurre que donde el valor de se lee en las tablas de la distribución T de student con grados de
libertad que corresponde al error, el es el cuadrado medio del error y se obtiene de la tabla
ANOVA, y son el número de observaciones para los tratamientos , respectivamente. La LSD se
llama diferencia mínima significativa de Fisher, ya que es la diferencia mínima que debe existir
entre dos medias muestrales para considerar que los tratamientos correspondientes son
significativamente diferentes. Así, cada diferencia de medias muestrales que si el diseño es
balanceado, es decir, si
(2.15)
En caso de rechazar se acepta la hipótesis alternativa la cual nos dice que las medias de los
tratamientos son diferentes. El método LSD tiene una potencia importante, por lo que en
ocasiones declara significativas aun pequeñas diferencias.
Ilustremos esta prueba continuando con el ejemplo 1, en el cual, con el ANOVA se rechazó la
hipótesis nula y se aceptó que al menos un par de medias de tratamientos (métodos de ensamble)
son diferentes entre sí. Para investigar cuáles pares de medias son estadísticamente diferentes se
prueban los seis posibles pares de hipótesis:
(2.16)
Utilizando el método de LSD. EN el ANOVA se observa que los grados de libertad del error
son , y que el cuadrado medio del error es . Si usamos una significación predefinida de , de la
tabla de la distribución T.
-------------------------------------------------------------
11
En la ventana de captura se solicitará el rango de celdas donde se encuentran los datos
para la variable dependiente Rango de entrada y para la(s) variable(s)represora(s)
Rango de entrada (para los datos de X1 y X2, se sombrean ambos simultáneamente
con el ratón, en este caso a partir de la columna 2)
Utilizando Minitab
13
variables independientes y las dependientes. Esto se lleva a cabo usando algoritmos de
estimación iterativos. Tenga en cuenta que este procedimiento no es necesario para
modelos polinomiales simples de la forma
𝑌 = 𝛽0+ 𝛽1 𝑋 + 𝜀
Parábola de regresión
14
Donde, siguiendo la notación habitual, 𝑦𝑖 son los valores observados de la variable
dependiente, e 𝑦𝑖 los valores estimados según el modelo; por tanto, podemos
escribir D de la forma:
Conclusión
15
de una variable en términos de otra, es decir, se puede intuir una relación de causa y
efecto entre dos o mas variables.
Se puede concluir que los temas abarcados son muy complejos, estos son muy
importantes, ya que nos ayudan hacer cálculos, posibles sucesos y a la toma de
decisiones, esto puede inferir tanto en nuestra vida laboral, ya que con esto se puede
calcular sistemas de producción, que prefieren los consumidores y ayudarnos a tomar
decisiones que mejoren el funcionamiento
Glosario
16
obtienen de sumar frecuencias conjuntas (absolutas o relativas) por filas y por
columnas.
Variable regresora: se le conoce como variable independiente, explicativa,
exógena o regresora.
Hipótesis: es un enunciado no verificado, que se intenta confirmar o refutar. Si
es confirmada, la hipótesis se denomina enunciado verificado. La hipótesis es
una conjetura que requiere una contrastación con la experiencia.
Margen de error: es una estadística que expresa la cantidad de error de
muestreo aleatorio en los resultados de una encuesta. Cuanto mayor sea el
margen de error, menos confianza se debe tener en que el resultado de una
encuesta reflejaría el resultado de una encuesta de toda la población.
Variable continua: es aquella que puede tomar un número infinito de valores
entre dos valores cualesquiera de una característica.
Método: es una forma organizada y sistemática de poder alcanzar un
determinado objetivo. El método se entiende entonces como una serie de
pasos que se deben seguir para cumplir un objetivo
17
Bibliografía
18