Está en la página 1de 99

ESCUELA SUPERIOR POLITÉCNICA DE

CHIMBORAZO
FACULTAD DE CIENCIAS
ESCUELA DE BIOQUÍMICA Y FARMACIA
BIOMETRÍA Y DISEÑO EXPERIMENTAL
INFERENCIA ESTADÍSTICA

Profesor: Dr. Jaime Béjar S.


Estadística Inferencial

Por ejemplo se estima un parámetro poblacional a partir de un estadístico de la


muestra, tal como la media aritmética.
Una hipótesis es un enunciado acerca de un parámetro poblacional

Definición:
El primer paso consiste en establecer la hipótesis que se debe probar. Ésta
recibe el nombre de hipótesis nula, la cual se designa H0.La letra mayúscula H
representa la hipótesis, y el subíndice cero implica que “no hay diferencia”. Por lo
general se incluye un término no en la hipótesis nula, que significa que “no hay
cambio”. En términos generales, la hipótesis nula se formula para realizar una
prueba. O se rechaza o no se rechaza. Es una afirmación que no se rechaza a
menos que la información de la muestra ofrezca evidencia convincente de que es
falsa.
Cabe hacer hincapié en que, si la hipótesis nula no se rechaza con base en los
datos de la muestra, no es posible decir que la hipótesis nula sea verdadera. En
otras palabras, el hecho de no rechazar una hipótesis no prueba que H0 sea
verdadera, sino que no rechazamos H0. Para probar sin lugar a dudas que la
hipótesis nula es verdadera, sería necesario conocer el parámetro poblacional. Para
determinarlo, habría que probar, entrevistar o contar cada elemento de la población.
Esto no resulta factible. La alternativa consiste en tomar una muestra de la
población.

También debe destacarse que con frecuencia la hipótesis nula inicia con las
expresiones: “No existe diferencia significativa entre…” o “La resistencia media del
vidrio a los impactos no es significativamente diferente de…” Al seleccionar una
muestra de una población, el estadístico de la muestra es numéricamente distinto
del parámetro poblacional hipotético.
Tarea en clases: elaboración de hipótesis.
Para ilustrar cómo es posible rechazar una hipótesis verdadera, suponga que una
farmacia adquiere cierto producto. Los proveedores participan en una licitación y
el que presenta la cotización más baja obtiene el contrato. Suponga que mediante
un control de calidad con el que cuente dicha farmacia especifique el tiempo de
entrega del producto entre los envíos que llegan. Si más de 6% de las entregas
realizadas no cumple con la disposición de entrega a tiempo, el envío se rechaza.
La hipótesis nula consiste en que el envío del producto tiene un 6% o menos que
no satisface las entregas a tiempo. La hipótesis alternativa consiste en que más
de 6% de las entregas se entregan con retraso.
No obstante, hay la posibilidad de que en el muestreo se haya tomado
justo las ocasiones que hubo entrega con retraso y todo el resto de
entregas haya sido hecho a tiempo. En este caso, menos de 6% de todo el
envío no satisfacía las normas, y rechazarlo fue un error. En términos de la
prueba de hipótesis, rechazamos la hipótesis nula de que el envío cumplía
con las normas cuando se debió aceptar. Al rechazar la hipótesis nula, se
incurrió en un error tipo I.
En la gráfica siguiente se presenta la región de rechazo de una prueba de
significancia que se efectuará más adelante en este capítulo.
Ejemplo

Una industria farmacéutica produce la vacuna Sabin contra la poliomielitis. La


producción semanal de vacunas Sabin tiene una distribución normal, con una
media de 200 y una desviación estándar de 16. Hace poco, con motivo de la
expansión del mercado, se introdujeron nuevos métodos de producción y se
contrató a más empleados. El Gerente General pretende investigar si hubo
algún cambio en la producción semanal de la vacuna Savin. En otras palabras,
¿la cantidad media de vacunas que se produjeron en la planta es diferente de
200 vacunas semanales con un nivel de significancia de 0.01? Sabiendo que el
año pasado se trabajó 50 semanas en donde se determinó que el número
promedio de vacunas fue de 203.5
Solución

En este ejemplo, tenemos dos datos importantes: 1) la población de


la producción semanal sigue una distribución normal, y 2) la
desviación estándar de esta distribución normal es de 16 vacunas
por semana. Por ello, es apropiado utilizar el estadístico z para
resolver este problema.

Paso 1: Se establecen las hipótesis nula y alternativa. La


hipótesis nula es: “la media de la población es de 200”.
La hipótesis alternativa es: “la media es diferente de 200”
o “la media no es de 200”. Estas dos hipótesis se
expresan de la siguiente manera:
Ésta es una prueba de dos colas, pues la hipótesis alternativa no indica
dirección alguna.

Paso 2: Se selecciona el nivel de significancia. Como ya se indicó, se


utiliza el nivel de significancia de 0.01. Éste es , la probabilidad de cometer
un error tipo I, que es la probabilidad de rechazar una hipótesis nula
verdadera.
Paso 3: Se selecciona el estadístico de prueba. El estadístico de prueba de una muestra
grande es z.
Paso 4: Se formula la regla de decisión. La regla de decisión se formula al
encontrar los valores críticos de z con ayuda de tablas. Como se trata de una
prueba de dos colas, la mitad de 0.01, o 0.005, se localiza en cada cola. Por
consiguiente, el área en la que no se rechaza H0, que se ubica entre las dos
colas, es 0.99.
Consultando z crítico en tablas se halla el valor de 0.4951 que corresponde al
área entre 0 y el valor crítico.
Por lo tanto, la regla de decisión es: rechazar la hipótesis nula y aceptar la
hipótesis alternativa (que indica que la media de la población no es 200) si el
valor z calculado no se encuentra entre -2.58 y 2.58. La hipótesis nula no se
rechaza si z se ubica entre -2.58 y 2.58.
Paso 5: Se toma una decisión y se interpreta el resultado. Se toma
una muestra de la población (producción semanal), se calcula z, se
aplica la regla de decisión y se llega a la decisión de rechazar o no H0.
La cantidad media de escritorios que se produjeron el año pasado (50
semanas, pues la planta cerró 2 semanas por vacaciones) es de 203.5.
La desviación estándar de la población es de 16 vacunas semanales. Al
calcular el valor z a partir de la última fórmula, se obtiene:
Como 1.55 no cae en la región de rechazo, H0 no se rechaza. La conclusión
es: la media de la población no es distinta de 200. Esta información se
resume en la siguiente figura:
Por lo tanto, se informa al Gerente General que la
evidencia de la muestra no indica que la tasa de
producción en la planta haya cambiado de 200
semanales. La diferencia de 3.5 unidades entre la
producción semanal histórica y la del año pasado puede
atribuirse razonablemente al error de muestreo.
EJERCICIOS
a)
Por lo tanto,
𝑃𝑃 = 0.8997 − 0.8070 = 0.0919
c)
a)
Por lo tanto,
𝑃𝑃 = 0.8586 − 0.2767 = 0.5819
Cuando se desea probar una hipótesis, se compara el estadístico
de la prueba con un valor crítico. Se toma la decisión de rechazar
la hipótesis nula o de no hacerlo. Así, por ejemplo, si el valor
crítico es de 1.96 y el valor calculado del estadístico de prueba
es de 2.19, la decisión consiste en rechazar la hipótesis nula.
Una alternativa de llevar este proceso es utilizando el valor p (p-
value), donde se compara la probabilidad, denominada valor p,
con el nivel de significancia. Si el valor p es menor que el nivel de
significancia, H0 se rechaza. Si es mayor que el nivel de
significancia, H0 no se rechaza.
¿Cómo calcular el valor p?

Retomando el ejemplo de las vacunas en el que se probó la hipótesis nula relativa a que la cantidad de vacunas
producidas a la semana fue de 200. No se rechazó la hipótesis nula, pues el valor z de 1.55 cayó en la región
comprendida entre -2.58 y 2.58. Se decidió no rechazar la hipótesis nula si el valor calculado de z caía en esta
región. La probabilidad de hallar un valor z de 1.55 o más es de 0.0606, que se calcula mediante la diferencia de
0.5000 - 0.4394. En otras palabras, la probabilidad de obtener un > 203.5 si = 200 es de 0.0606. Para
calcular el valor p, es necesario concentrarse en la región menor a -1.55, así como en los valores superiores a
1.55 (pues la región de rechazo se localiza en ambas colas). El valor p de dos colas es de 0.1212, que se calcula
así: 2(0.0606). El valor p de 0.1212 es mayor que el nivel de significancia de 0.01 que se estableció al inicio, así
que no se rechaza H0. En la siguiente gráfica se muestran los detalles. En general, el área se duplica en una
prueba de dos colas. Entonces, el valor p se compara con facilidad con el nivel de significancia. Se aplica la
misma regla de decisión en el caso de una prueba de una cola.
Solución con Excel
Solución con MegaStat
Ya que p>α, se acepta la hipótesis nula; esto es que la media muestral es igual a 50.
Solución con Minitab
Ya que p>α, se acepta la hipótesis nula; esto es que la media muestral es igual a 50.
Comparación de la media de una muestra pequeña (𝑛𝑛 <30)
con un valor referencial

Suposición: Distribución aproximadamente Normal

H0: 𝜇𝜇 = 𝜇𝜇0

H1: 𝜇𝜇 ≠ 𝜇𝜇0

El estadístico por utilizarse es el estadístico 𝒕𝒕 con 𝑛𝑛 − 1


grados de libertad.
Ejercicio

Buscar evidencias de error sistemático significativo en los resultados generados por un nuevo
método para determinar selenourea en agua (Aller, AJ. And Robles, L.C., 1998, Analyst, 123:
919).

Cantidad adicionada de selenourea a un recipiente de agua destilada: 50 ng mL-1

Los valores obtenidos son los siguientes:


50.4, 50.7, 49.1, 49.0, 51.1

Suposición: las determinaciones de selenourea están distribuidos aproximadamente en forma


normal

Como ejercicio puramente didáctico resolverlo mediante, Excel, MegaStat y Minitab


Solución con Excel
Solución con MegaStat
Ya que 𝑡𝑡𝑐𝑐𝑐𝑐𝑐𝑐 < 𝑡𝑡𝑐𝑐𝑐𝑐𝑐𝑐𝑐 se acepta la hipótesis nula; esto es, con un nivel de signifi
cancia del 5%, no existe diferencia estadísticamente significativa entre la
media de la muestra y el valor referencia de 50.0 ng/mL de concentración de
selenourea.
Solución con Minitab
Ya que p>α, se acepta la hipótesis nula; esto es que la media muestral es igual a 50.
SI

NO

SI

NO
Cuando las muestras son de más de 30 datos y desvíaciones conocidas,
el zcalc se lo obtiene como sigue:

𝑥𝑥̅1 − 𝑥𝑥̅2
𝑧𝑧 =
𝑠𝑠12 𝑠𝑠22
𝑛𝑛1 + 𝑛𝑛2
Cuando las muestras son independientes y de menos de 30 datos ,
el tcalc se lo obtiene como sigue:

Donde Sp es la desviación estándar conjunta.


Por lo tanto, cuando se comparan las medias entre dos muestras lo que primero
Debe analizarse son las varianzas. Para esto último se dispone de la prueba F:

Prueba F
𝐻𝐻0 : 𝜎𝜎12 = 𝜎𝜎22
𝐻𝐻1 : 𝜎𝜎12 ≠ 𝜎𝜎22

El estadístico de prueba es el F
𝑠𝑠12
𝐹𝐹 = 2
𝑠𝑠2

Con 𝑠𝑠12 > 𝑠𝑠22 ; Si 𝐹𝐹 < 𝐹𝐹𝑐𝑐𝑐𝑐𝑐𝑐𝑐 se acepta la hipótesis nula caso contrario se rechaza.
Ejercicio

En un ejercicio Inter laboratorio dos laboratorios analíticos ejecutan un


método estándar para determinar [Cd] en μg/L de una muestra de agua
de río altamente contaminada. Cada laboratorio efectúa 8 réplicas.

Lab. A 20.7 27.5 30.4 23.9 21.7 24.1 24.8 28.9


Lab. B 20.9 21.4 24.9 20.5 19.7 26.3 22.4 20.2

Suposiciones: Dos muestras independientes (A y B) de distribución


aproximadamente normal.
𝐻𝐻0 : 𝜇𝜇1 = 𝜇𝜇2
𝐻𝐻1 : 𝜇𝜇1 ≠ 𝜇𝜇2

A continuación se asume que el nivel de significancia es del 0.05 y


que las dos muestras son independientes.

En este caso se usará el estadístico t por tratarse de muestras de


menos de 30 datos. Además deberá primero demostrarse
mediante el estadístico F si las varianzas son o no iguales.
Solución con Excel
Solución con Excel
Solución con Excel
Solución con MegaStat

NOTA: Los datos deben colocarse en columnas y no en filas.


Solución con Minitab

PRUEBA F
Solución con Minitab

Ya que 𝑝𝑝 > 𝛼𝛼 se concluye que las varianzas de las dos poblaciones son iguales.
Solución con Minitab

PRUEBA t
Solución con Minitab

PRUEBA t

Ya que 𝑝𝑝 > 𝛼𝛼 se concluye que las medias de las dos poblaciones son iguales.
Muestras dependientes
• Recordemos que para muestras pequeñas independientes se utilizan
el estadístico t determinado por las expresiones siguientes, ya vistas
anteriormente.
• En el caso de que las muestras sean dependientes; se debe usar la
prueba t apareada:
Ejercicios
(ejercicio 4 +
siguientes)
Ejercicios
(ejercicio 4 +
siguientes)
ANOVA
ANOVA de una Disponemos de 𝑘𝑘 r poblaciones, generalmente correspondientes a r
sola vía tratamientos experimentales. Cada uno de los tratamientos Ti, (i=1,
…, 𝑘𝑘r) se supone que tiene distribución normal con media µi y

(basado en varianza σ2, común a todos ellos, es decir se trata de poblaciones


normales y homoscedásticas. De cada una de las poblaciones (o

apuntes del tratamientos), tomamos una muestra de tamaño ni.

Las observaciones obtenidas se pueden recoger en una tabla de la


prof. José Luis forma

Villardón) 𝑇𝑇1
𝑦𝑦11
𝑇𝑇2
𝑦𝑦21
… 𝑇𝑇𝑘𝑘
… 𝑦𝑦𝑘𝑘1
⋮ ⋮ ⋱ ⋮
𝑦𝑦1𝑛𝑛1 𝑦𝑦2𝑛𝑛2 … 𝑦𝑦𝑘𝑘𝑛𝑛𝑘𝑘

es decir, xij es la observación j del grupo experimental i.

Se denota 𝑥𝑥como
Llamaos ̅ , … , 𝑥𝑥𝑥𝑥̅𝑘𝑘̅1a, 𝑥𝑥las
1 , 𝑥𝑥̅𝑘𝑘 a lasmuestrales
̅2 , …medias medias muestrales
de los de los grupos
grupos y 𝑥𝑥̅ ay 𝑥𝑥la̅
amedia
la media de todas
de todas laslas observaciones.
observaciones.
El análisis de la varianza se basa en la descomposición de la
variabilidad total en dos partes, una parte debida a la
variabilidad entre las distintas poblaciones o tratamientos
(variabilidad entre grupos o variabilidad explicada por el
diseño) y otra parte que puede considerarse como la
variabilidad intrínseca de las observaciones (variabilidad
dentro de los grupos o residual).

𝑆𝑆𝑆𝑆 = 𝑆𝑆𝑆𝑆𝑆𝑆 + 𝑆𝑆𝑆𝑆𝑆𝑆


La variabilidad entre grupos

𝑘𝑘
2
𝑆𝑆𝑆𝑆𝑆𝑆 = � 𝑛𝑛𝑖𝑖 𝑦𝑦𝑖𝑖 − 𝑦𝑦�
𝑖𝑖=1

mide la discrepancia entre los grupos y la media global, de


forma que si no hay diferencias entre ellos (la hipótesis nula no
se rechaza) obtendremos variabilidades pequeñas. Si, por el
contrario, la hipótesis nula se rechaza, cabe esperar que la
variabilidad entre grupos sea grande.
La variabilidad dentro de los grupos

𝑘𝑘 𝑛𝑛𝑖𝑖
2
𝑆𝑆𝑆𝑆𝑆𝑆 = � � 𝑦𝑦𝑖𝑖𝑖𝑖 − 𝑦𝑦�𝑖𝑖
𝑖𝑖=1 𝑗𝑗=1

mide la variabilidad intrínseca de las observaciones, es decir, si


el experimento está bien diseñado y no se incluyen factores de
variación distintos al estudiado, debe ser error puramente
aleatorio producido como resultado de la variabilidad
biológica del material experimental.
El contraste del análisis de la varianza se basa en la
comparación de la variabilidad entre y la variabilidad dentro,
rechazaremos la hipótesis nula siempre que la variabilidad
“entre” sea grande, pero utilizando como patrón de
comparación la variabilidad “dentro”. Es decir, aceptaremos
un efecto de los tratamientos siempre que estos produzcan
mayores diferencias en las unidades experimentales que las
que habría sin la aplicación de los mismos.

La información completa se resume en la tabla siguiente. Es la


que se conoce como tabla de ANOVA y resume toda la
información necesaria para realizar el correspondiente
contraste.
Tabla ANOVA

Fuente de Media
Suma de cuadrados g.l. F
variación cuadrática
𝑘𝑘
Entre
𝑆𝑆𝑆𝑆𝑆𝑆 = � 𝑛𝑛𝑖𝑖 𝑦𝑦𝑖𝑖 − 𝑦𝑦� 2 𝑘𝑘 − 1 𝑀𝑀𝑀𝑀𝑀𝑀 = 𝑆𝑆𝑆𝑆𝑆𝑆 𝐹𝐹 = 𝑀𝑀𝑀𝑀𝑀𝑀
tratamientos 𝑖𝑖=1
𝑘𝑘 − 1 𝑀𝑀𝑀𝑀𝑀𝑀
𝑘𝑘 𝑛𝑛𝑖𝑖
Dentro de los
𝑛𝑛 − 𝑘𝑘 𝑀𝑀𝑀𝑀𝑀𝑀 = 𝑆𝑆𝑆𝑆𝑆𝑆
2
𝑆𝑆𝑆𝑆𝑆𝑆 = � � 𝑦𝑦𝑖𝑖𝑖𝑖 − 𝑦𝑦�𝑖𝑖
tratamientos 𝑖𝑖=1 𝑗𝑗=1
𝑛𝑛 − 𝑘𝑘
𝑘𝑘 𝑛𝑛𝑖𝑖
2
Total 𝑆𝑆𝑆𝑆 = � � 𝑦𝑦𝑖𝑖𝑖𝑖 − 𝑦𝑦� 𝑛𝑛 − 1
𝑖𝑖=1 𝑗𝑗=1
Ejercicio
TRATAMIENTOS
Observaciones 1 2 3
1 20 15 12
2 18 20 15
3 18 13 18
4 23 12 20
5 22 16 18
6 17 17 17
7 15 21 10
8 13 15 24
9 21 13 16
Solución con Excel
Solución con Excel

Tabla ANOVA
Fuente de Suma de Media
Decisión:
g.l. F
variación cuadrados cuadrática

Entre Puesto que Fcal<Fcrít no se rechaza la H0;


36.2222 2 18.1111 1.4404
tratamientos es decir, no existe evidencia estadística
Dentro de los
para afirmar que los tres programas
tratamientos
301.7778 24 12.5741 difieren.
Total 338 26
Solución con MegaStat
Solución con MegaStat

Comparison of Groups
,0.0

,0.0

,0.0

,0.0

,0.0

,0.0

,0.0

,0.0

,0.0

,0.0

,0.0
1 2 3

Ya que 𝑝𝑝 > 𝛼𝛼 se concluye que no existe evidencia estadísticamente significativa para rechazar H0.
Solución con Minitab

Método 1 de ingreso de datos:


Solución con Minitab

Método 2 de ingreso de datos:


Solución con Minitab
Solución con Minitab

Ya que 𝑝𝑝 > 𝛼𝛼 se concluye que no existe evidencia estadísticamente significativa para rechazar H0.

También podría gustarte