Está en la página 1de 63

Experimentos con Uno y

Dos Tratamientos
Elementos de inferencia estadística
Libro de Texto
Identificar los elementos de la inferencia estadística y su importancia
en los diseños experimentales.

Explicar el papel de las distribuciones de probabilidad en la inferencia


estadística, así como la estimación puntual y por intervalo.
Objetivos de Describir las pruebas para la media y la varianza, así como los
conceptos básicos de prueba de hipótesis.
aprendizaje
Identificar las pruebas para la igualdad de varianzas.

Distinguir las pruebas para comparar medias con muestras


independientes y muestras pareadas.
Mapa
conceptual
Una población o universo es una colección o
totalidad de posibles individuos, especímenes,
objetos o medidas de interés sobre los que se
Población y hace un estudio.

muestra,
Las poblaciones pueden ser finitas o infinitas.
parámetros y
estadísticos Si es finita y pequeña se pueden medir todos los
individuos para tener un conocimiento “exacto”
de las características (parámetros) de esa
población.
Ejemplo
• Un parámetro que podría ser de interés
es la proporción p de productos
defectuosos, o la media, p, de alguna
variable medida a los productos.
• Si la población es infinita o grande es
imposible e incosteable medir a todos
los individuos, en este caso se tendrá
que sacar una muestra representativa
de dicha población, y con base en las
características medidas en la muestra
(estadísticos) se podrán hacer
afirmaciones acerca de los parámetros
de la población.
Ejemplo:
• Base de Datos de Pesos

• Muestrear distintos Tamaños de


Muestra
• Probar la normalidad de los datos para
los tamaños de muestra
seleccionados.
El objetivo de la inferencia estadística es
hacer afirmaciones válidas acerca de la
población o proceso con base en la
información contenida en una muestra.
Estas afirmaciones tienen por objetivo
INFERENCIA coadyuvar en la toma de decisiones.

ESTADISTICA La inferencia estadística por lo general se


divide en estimación y prueba de hipótesis,
y se apoya en cantidades o datos
estadísticos calculados a partir de las
observaciones en la muestra.
ESTADISTICOS Y
PARAMETROS
• Un estadístico se define como cualquier
función de los datos muéstrales que no
contiene parámetros desconocidos.
• Un ejemplo de estadístico es la media
muestral 𝑥 con la cual se tratan de hacer
afirmaciones sobre la media, , que es
un parámetro poblacional.
• La distribución de probabilidad o
distribución de una variable aleatoria X
DISTRIBUCIONES DE relaciona el conjunto de valores posibles de
X (rango de X), con la probabilidad asociada

PROBABILIDAD E a cada uno de estos valores y los representa


a través de una tabla o por medio de una
función planteada como una fórmula.
INFERENCIA
DISTRIBUCIONES
DE PROBABILIDAD
E INFERENCIA

• Por ejemplo, sea la


variable aleatoria dada por
el estadístico media
muestral, 𝑋, entonces al
conocer su distribución de
probabilidad podremos
saber cuáles son los
valores que puede tomar 𝑋
y cuáles son más
probables.
Ejemplo de
Distribución de
Probabilidad
Número de items Defectuosos en una
muestra de tamaño 3 extraída de un lote de
100 ítems.
Distribuciones de
Probabilidad Usadas en
Intervalos de Confianza

• Las distribuciones de probabilidad que


más se usan en intervalos de confianza
y pruebas de hipótesis son las
distribuciones: normal, T de Student,
ji-cuadrada y F.
• Se puede utilizar la hoja de cálculo de Excel (o algo
Uso de Excel equivalente) para calcular las probabilidades con la
distribución normal. Para ello se utiliza la siguiente función:
• DISTR.NORM.N(x, media, desv_estándar, acum)
donde en la celda x se da el valor de referencia para el cálculo
de probabilidades (P(X  x)), en media se da el valor de la
media, , de la distribución normal con la que se quiere
obtener probabilidades, y en desv_estándar se declara el valor
de la desviación estándar, , de la distribución normal.
• Por último, acum es un valor lógico que determina la forma de
la función, si el argumento acum es VERDADERO (se da un
1), la función DISTR.NORM devuelve la función de
distribución acumulada (P(X  x); si es FALSO (se da un 0),
devuelve la función de densidad de probabilidad, es decir, da
f(x).
• Un estimador puntual de un parámetro desconocido es un
estadístico que genera un valor numérico simple, que se
utiliza para hacer una estimación del valor del parámetro
desconocido; por ejemplo, tres parámetros sobre los que
con frecuencia se desea hacer inferencia son:

ESTIMACION · La media p del proceso (población).


· La varianza  2 o la desviación estándar  del proceso.

PUNTUAL · La proporción p de artículos defectuosos.


· Los estimadores puntuales (estadísticos) más recomendados
para estimar estos parámetros son, respectivamente:
 = 𝑋.
· La media muestral ෝ
· La varianza muestral 
ෝ 2 = S 2.
· La proporción de defectuosos en la muestra, 𝑝ො = x/n, donde
x es el número de artículos defectuosos en una muestra de
tamaño n.
Ejemplo

• Para estimar el grosor promedio de los


discos producidos por un proceso, durante
una semana se toma una muestra de n =
125 discos, y se obtiene que la media
muestral es 𝑥 = 1.179.
• Este valor puede usarse como una
estimación puntual de (la media del
proceso).
Estimación por intervalo

La estimación puntual de un parámetro se genera a través de un


estadístico, y como el valor de éste es aleatorio porque depende de los
elementos que fueron seleccionados en la muestra, entonces la estimación
que se hace sobre el parámetro dependerá y variará de una muestra a otra.

De esta forma, cuando se quiere tener mayor certidumbre sobre el


verdadero valor del parámetro poblacional, será necesario obtener la
información sobre qué tan precisa es la estimación puntual.

Así, la estimación puntual dirá poco sobre el parámetro cuando la variación


entre una estimación y otra es muy grande.
Desviación Estándar de
la Distribución de los
Promedios
• Una forma de saber qué tan variable es el
estimador, consiste en calcular la
desviación estándar o error estándar del
estadístico, visto como una variable
aleatoria.
• Por ejemplo, consideremos la desviación
estándar S y la media 𝑋 de una muestra
de tamaño n.
• Puesto que 𝑋 es una variable aleatoria,
ésta tiene su propia desviación o error
estándar, que se puede estimar mediante
𝜎
ൗ 𝑛.
Intervalo de Confianza

• Construir un intervalo al 100(1 - )% de confianza para un parámetro


desconocido , consiste en estimar dos números (estadísticos) L y U, de manera
que la probabilidad de que  se encuentre entre ellos sea 1 - , es decir.
P(L <  < U)= 1 - 
donde L y U forman el intervalo de confianza buscado [L, U].
• Sea X1,X2, … Xn una muestra
aleatoria de tamaño n de una
población, con una distribución
normal con media  y varianza
Intervalo de 2, ambas desconocidas. El
procedimiento general para
Confianza Para deducir el intervalo consiste en
partir de un estadístico que
Una Media involucra al parámetro de interés
y que tiene una distribución
conocida. Tal estadístico es:

el cual sigue una distribución t de


Student con n - 1 grados de
libertad.
Intervalo de confianza para
una media
• En las funciones estadísticas de Microsoft
Office Excel, en una tabla de esta
distribución o en su gráfica se pueden
ubicar dos valores críticos 𝑡/2 y − 𝑡/2 .

De aquí, despejando hasta dejar sólo en medio


de las desigualdades al parámetro de interés, se
llega a que:
Ejemplo
• En un proceso de inyección de plástico una característica de
calidad del producto (disco) es su grosor, el cual debe ser de
1.20 mm con una tolerancia de ±0.10 mm. Así, el grosor del
disco debe estar dentro de la especificación inferior, EI =
1.10, y la superior, ES = 1.30, para considerar que el proceso
de inyección fue satisfactorio. Para evaluar esta característica
de calidad, durante una semana se hace un muestreo
sistemático en una línea de producción, y se obtienen 25
muestras de tamaño 5 cada una. Por lo tanto, al final se tiene
una muestra de n = 125 y se obtiene la media muestral, 𝑋 =
1.179 mm y la varianza, S2 = 0.00071, por lo que la
estimación del error estándar de la media es:
Solución
• El intervalo al 95% de confianza para la media  del grosor de los discos
está dado por :

𝑆 0,02665
• 𝑋 𝑡𝛼/2 = 1.179  1.97928 = 1.179  0,00472
𝑛 11,1803

• Se puede afirmar entonces que con una confianza de 95%, la media  de


grosor de los discos se encuentra en el intervalo [1.174, 1.184].

• En el cálculo anterior al valor de 0.00472 se le conoce como error de


estimación, porque hasta en 0.00472 puede diferir el estimador puntual 𝑋
del parámetro poblacional .
Tamaño de la Muestra
• En ocasiones es necesario calcular el
tamaño de muestra n para lograr que la
estimación de una media poblacional 
tenga como error máximo a un número
E.

• En este caso, como el error de


𝑆
estimación está dado por E = 𝑡𝛼/2 𝑛,
entonces despejando n se obtiene que:
Ejemplo
En el caso del grosor medio de los discos
si se desea un error máximo de
estimación de E = 0.004, entonces se
requiere un tamaño de muestra de:

(1.97928)(0.00071)
𝑛= = 174
0,0042
• De manera similar a como se obtiene el intervalo
para la media, es posible deducir intervalos de
confianza para cualquier parámetro.

Intervalo • En particular, para construir un intervalo de


confianza para la varianza 2, la distribución de
referencia es una ji-cuadrada con n - 1 grados de
libertad, ya que bajo el supuesto de que la

Para la variable de interés tiene una distribución normal


con media y varianza desconocidas, el estadístico
(n - l)S2/2

Varianza sigue la distribución ji-cuadrada con n - 1 grados


de libertad.
Intervalo
de
donde son puntos críticos de
Confianza
la distribución ji-cuadrada con n - 1 grados
de libertad y se generan mediante funciones Para la
de Microsoft Office Excel o bien se leen de
una tabla de esta distribución para el valor de
 dado. Es decir,
Varianza
• En el proceso de fabricación de discos para
computadoras, una de las variables críticas es
el rendimiento de formato. Se toma una
muestra aleatoria de n = 10 discos duros de la
producción del turno de la mañana. Se
formatean y se reporta el rendimiento de cada
disco. Los datos obtenidos son: 96.11, 91.06,
Ejemplo 93.38, 88.52, 89.57, 92.63, 85.20, 91.41, 89.79,
92.62. Con base en estos datos interesa estimar
puntualmente y por intervalo la media y la
desviación estándar para la población de discos
de dicho turno.
Estimación Puntual
y Por Intervalo
Para la Media Suponiendo distribución normal, el intervalo al 95% de
confianza para la media u está dado por:
Estimación
Por
Intervalo
Para La
varianza
En la elaboración de envases de plástico es necesario garantizar que cierto tipo de botella en posición

Ejercicio en
vertical tenga una resistencia mínima de 20 kg de fuerza. Para garantizar esto, en el pasado se
realizaba una prueba del tipo pasa-no-pasa, donde se aplicaba la fuerza de 20 kg y se veía si la botella
resistía o no. En la actualidad se realiza una prueba exacta, en la que mediante un equipo se aplica
fuerza a la botella hasta que ésta cede, y el equipo registra la resistencia que alcanzó la botella.

Clase Un
Para evaluar esto se han obtenido los siguientes datos mediante pruebas destructivas:

28.3 26.8 26.6 26.5 28.1 24.8 27.4 26.2 29.4 28.6 24.9 25.2 30.4 27.7 27.0 26.1 28.1

Tratamiento 26.9 28.0 27.6 25.6 29.5 27.6 27.3 26.2 27.7 27.2 25.9 26.5 28.3 26.5 29.1 23.7 29.7

26.8 29.5 28.4 26.3 28.1 28.7 27.0 25.5 26.9 27.2 27.6 25.5 28.3 27.4 28.8 25.0 25.3

27.7 25.2 28.6 27.9 28.7

1. Haga un análisis exploratorio de estos datos. Obtenga un histograma y vea el comportamiento de


los datos obtenidos.

2. Estime, con una confianza de 95%, ¿cuál es la resistencia promedio de los envases?

3. Antes del estudio se suponía que = 25. Dada la evidencia de los datos, ¿tal supuesto es
correcto?

4. Con los datos anteriores estime, con una confianza de 95%, ¿cuál es la desviación estándar
poblacional (del proceso)?
Bajo el supuesto de que el número de
artículos defectuosos en una muestra sigue

Intervalo de una distribución binomial, y suponiendo


que se inspecciona una cantidad grande de n
artículos y se encuentra una proporción p de
Confianza Para defectuosos, se puede construir un intervalo
de confianza para la proporción poblacional

la Proporciòn p, apoyándose en la aproximación de la


distribución binomial por la normal. En
estas condiciones se puede afirmar que la
proporción muestral 𝑝ො sigue una
distribución normal con media p y varianza
𝑝(1−𝑝)
.
𝑛
Con el uso de la misma argumentación que
en el intervalo para la media, se deduce que
el intervalo de confianza para la proporción
es de la forma:
Se quiere estimar la proporción p
de artículos defectuosos en un
lote de 2000 (población). Para
ello, se toma una muestra
aleatoria de n = 100 artículos y se
encuentra que de éstos, x = 5, son
Ejemplo defectuosos.
Por lo tanto, un estimador puntual
de p es 𝑝Ƹ = 5/100 = 0.050.

Si se quiere estimar p por


intervalo, entonces de acuerdo
con lo explicado antes, un
intervalo al 95% de confianza
está dado por:
Con una confianza de 95%, p
está entre 0.007 y 0.093, en
términos porcentuales entre
Cont… Ejemplo 0.7% y 9.3%.
En el cálculo anterior, al valor
de 0.043 se le conoce como
error de estimación, porque
hasta en ese valor puede diferir
𝑝Ƹ de p.
Resumen de
fórmulas
para
intervalos de
confianza.
Ejemplo de Intervalos de
Confianza Dos Tratamientos
Se prueban 10 partes diferentes en cada
nivel de temperatura y se mide el
encogimiento sufrido en unidades de
porcentaje multiplicado por 10. Los
resultados son:

• Dé un intervalo de confianza para la


diferencia de medias.
• ¿Cuál temperatura provoca un
encogimiento menor? Compare las
varianzas en cada temperatura.
• Dibuje los diagramas de cajas
simultáneos e interprete.
Procedimiento Para Pruebas
de Hipótesis

Paso #1. Establecer las hipótesis nula y alternativa.

Paso #2. Establecer el nivel de confianza.

Paso #3. Establecer el estadístico de prueba.

Paso #4. Establecer la region de aceptación.


PLANTEAMIENTO DE UNA
HIPOTESIS ESTADISTICA

• Una hipótesis estadística es una afirmación sobre


los valores de los parámetros de una población o
proceso, que es susceptible de probarse a partir
de la información contenida en una muestra
representativa que es obtenida de la población.
EJEMPLO

• La afirmación “este proceso produce menos de 8% de


defectuosos” se puede plantear estadísticamente, en términos de
la proporción p desconocida de artículos defectuosos que
genera el proceso, como se hace a continuación.

H0: p = 0.08 (la proporción de defectuosos es 0.08)


HA : p < 0.08 (la proporción es menor a 0.08)

• A la expresión H0: p = 0.08 se le conoce como hipótesis nula y


HA : p < 0.08 se le llama hipótesis alternativa.
Continuación del Ejemplo
Supongamos ahora que la afirmación a probar es “este proceso produce 8%
de defectuosos”. Observe que la afirmación señala que su falsedad se da.
tanto si se observan menos de 8% de defectuosos como si se observan más de
8% de defectuosos. En este sentido, el planteamiento estadístico debe ser:

H0: p = 0.08 (la proporción de defectuosos es 0.08)


Ha : p ≠ 0.08 (la proporción es diferente a 0.08)
ESTADISTICO DE
PRUEBA
• Una vez planteada la hipótesis, se toma
una muestra aleatoria de la población de
estudio o se obtienen datos mediante un
experimento planeado de acuerdo con la
hipótesis.

• El estadístico de prueba es un número


calculado a partir de los datos y la
hipótesis nula, cuya magnitud permite
discernir si se rechaza o no la hipótesis
nula H0.

donde 𝑝Ƹ es la proporción de defectuosos que se encontró en una muestra de n artículos inspeccionados.


ESTADISTICO DE
PRUEBA
Si H0 es verdadera, el estadístico z0 sigue
aproximadamente la distribución normal estándar.

La aproximación es mejor mientras más grande es


el valor de n. En general, se requiere np > 10 para
una buena aproximación: en este caso, con np >
120 unidades inspeccionadas sería suficiente.
Supóngase que se toma una muestra de n =
150 piezas y de ellas x = 20 son defectuosas.
ESTADISTICO Vamos a ver si esto implica una diferencia
DE PRUEBA suficiente para rechazar que p = 0.08.
ESTADISTICO
DE PRUEBA
𝑥 20
𝑝Ƹ = = 150 = 0.133
𝑛
CRITERIO DE RECHAZO
• El estadístico de prueba, construido bajo el supuesto de que H0 es verdad, es una variable
aleatoria con distribución conocida.
• Si efectivamente H0 es verdad, el valor del estadístico de prueba debería caer dentro del
rango de valores más probables de su distribución asociada, el cual se conoce como
región de aceptación.
• Si cae en una de las colas de su distribución asociada, fuera del rango de valores más
probables (en la región de rechazo), es evidencia en contra de que este valor pertenece a
dicha distribución. De aquí se deduce que debe estar mal el supuesto bajo el cual se
construyó, es decir. H0 debe ser falsa.
CRITERIO DE
RECHAZO
• El estadístico de prueba, construido bajo
el supuesto de que H0 es verdad, es una
variable aleatoria con distribución
conocida.
• Si efectivamente H0 es verdad, el valor
del estadístico de prueba debería caer
dentro del rango de valores más probables
de su distribución asociada, el cual se
conoce como región de aceptación.
CRITERIO DE RECHAZO
• Para probar la hipótesis sobre la proporción se calcula el
estadístico de prueba Z0 y se verifica si cae en la región
de rechazo o aceptación.
• En pruebas de hipótesis unilaterales de cola izquierda se
rechaza H0 si 𝑍0 < −𝑍𝛼
• En pruebas de hipótesis unilaterales de cola derecha se
rechaza H0 si 𝑍0 > 𝑍𝛼
• En pruebas de hipótesis bilaterales se rechaza H0 si 𝑍0 <
−𝑍𝛼/2 𝑜 𝑍0 > 𝑍𝛼/2
CONCLUSION
• Si se quiere probar la hipótesis bilateral con una
confianza de 95%, entonces 𝑍𝛼/2 = 1.96; además,
como 𝑝Ƹ = 0.133 y 𝑍0 = 2.41, entonces 𝑍0 > 1,96;
por lo tanto, se rechaza H0 : p = 0.08. De alguna
forma, esto ya se intuía, puesto que la proporción
muestral había sido 𝑝Ƹ = 0.13.
Una situación de frecuente interés es investigar
la igualdad de las proporciones de dos
poblaciones o tratamientos, es decir, se
requiere probar la siguiente hipótesis:
Comparación H0 : p 1 = p 2
de Ha: p1 ≠ p2
Proporciones
donde p, y p2 son las proporciones de cada una
de las poblaciones o tratamientos.
Ejemplo
Para evaluar dos fármacos contra cierta enfermedad se integran dos
grupos formados por dos muestras aleatorias de n1 = n2 = 100
personas cada una.
A cada grupo se le suministra un fármaco diferente. Transcurrido el
tiempo de prueba se observan x1 = 65 y x2 = 75 personas que se
recuperaron con el fármaco en los grupos correspondientes.
Para ver si estas diferencias son significativas a favor del fármaco
2, se necesita probar la hipótesis de igualdad de proporciones. Para
ello, bajo el supuesto de distribución binomial, el estadístico de
prueba z0 está dado por:
En caso de que la hipótesis alterativa
fuera unilateral, entonces z0 se
compara con z .

Solución
En el caso de los fármacos, como p = (65 +
75)/( 100 + 100) = 0.70; entonces,

Como |z0 | = 1.543 no es mayor que z0,025 = 1.96, entonces no se


rechaza H0, por lo que no hay evidencia suficiente para afirmar
que un fármaco es mejor que el otro.
En las secciones anteriores se probó la hipótesis de igualdad de las medias
de dos poblaciones o tratamientos, suponiendo que las dos muestras son
independientes. Esta suposición se justifica por la manera en que se
obtienen los datos; es decir, a la muestra a la que se le aplica el
tratamiento 1 es independiente de la muestra para el tratamiento 2, y los
Poblaciones datos se obtienen en orden completamente al azar.

Pareadas
(Comparaciòn Con esto se justifica la suposición de que no existe relación directa entre
los datos en el primer tratamiento con los datos en el segundo.
de dos medias
con muestras
dependientes) El orden completamente al azar significa que las unidades se asignan de
manera aleatoria a los tratamientos, mientras que las pruebas o corridas
experimentales se hacen en orden estrictamente aleatorio, lo cual se hace
con la idea de evitar cualquier sesgo que pudiera favorecer a uno de los
tratamientos.
En muchas situaciones experimentales no
conviene o no es posible tomar muestras
independientes, sino que la mejor estrategia
es tomar muestras pareadas.
Poblaciones
Pareadas Esto significa que los datos de ambos
tratamientos se van obteniendo por pares, de
forma que cada par son datos que tienen algo
en común; por ejemplo, que a la misma
unidad experimental o espécimen de prueba
se le apliquen los tratamientos a comparar.
A los mismos pacientes se les aplican
dos medicamentos (tratamientos)
para el dolor en distintas ocasiones;
los tratamientos a comparar son los
dos medicamentos.
Ejemplos
A las mismas piezas se les hace una
prueba de dureza con distintos
instrumentos; aquí se quieren
comparar los instrumentos.
Ejemplo:
Comparación de
Dos Básculas
• Se desea ver si dos básculas
están sincronizadas. Para ello
se toma una muestra aleatoria
de 10 especímenes y cada uno
se pesa en ambas básculas,
cuidando que el orden en que
se utilizan sea elegido al azar.
El trabajo lo realiza el mismo
operador y los datos
obtenidos se muestran a
continuación.
• La comparación de las básculas se puede evaluar probando
la siguiente hipótesis:

𝐻0 : 𝜇1 = 𝜇2
𝐻𝑎 : 𝜇1 ≠ 𝜇2

Solución donde 𝜇1 es el peso promedio poblacional que mide la báscula


1 y 𝜇2 es el peso promedio poblacional que mide la báscula 2.
Entonces, estas hipótesis, en el caso pareado. se plantean de
manera equivalente como:

𝐻0 : 𝜇𝐷 = 0
𝐻𝑎 : 𝜇𝐷 ≠ 0
𝑑 −0.022 • Como el valor p = 0.055 es mayor
Estadístico 𝑡𝑜 = 𝑆𝐷
ൗ 𝑛
= 0.0287
ൗ 10
= -2.20 que  = 0.05 no se rechaza H0 a un
nivel de significancia de  = 0.05.
de Prueba • Es decir, no hay suficiente
evidencia en contra de la
sincronización de las básculas.

• Sin embargo, esta conclusión es


bastante endeble dado que el valor
p es muy similar al valor a. De
hecho, con a = 0.06 se concluiría lo
contrario, y el experimentador
debería considerar la posibilidad de
asumir este riesgo de 6% y rechazar
la sincronización de las básculas.
Poblaciones Pareadas: Caso más general

En una fábrica de autos se tiene la conjetura


o hipótesis de que el número de impurezas
en la pintura de los cofres de los autos es
diferente, dependiendo de si el auto pasó
con el cofre cerrado o abierto por los hornos
de secado. Se decide correr un experimento
para comparar el número promedio de
impurezas en cada situación del cofre
(tratamientos). Se consideró que no era
adecuado utilizar muestras independientes,
ya que se sabía que los días de la semana o
los turnos podían tener influencia en el
número de impurezas. Estos dos factores se
incluyen en el estudio como el criterio de
apareamiento, como se muestra en la tabla.
Así, en cada combinación de día y turno se
asignaron carros con el cofre levantado y
cerrado.
Solución
𝐻0 : 𝜇𝐷 = 0
𝐻𝑎 ∶ 𝜇𝐷 ≠ 0
Resumen:
Procedimientos
de Prueba de
Hipótesis de Un
Parámetro
Resumen;
Procedimientos de
Prueba de
Hipótesis de Dos
Parámetros

También podría gustarte