Está en la página 1de 35

UNIDAD 1: INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL

 Ciencia de recolectar, describir e interpretar datos


 Es la ciencia y arte de manejar las variaciones, de modo que se obtengan resultados confiables
 Es un conjunto de métodos que nos permitan tomas decisiones en momentos de incertidumbre
 Es la ciencia pura y aplicada que crea, desarrolla y aplica técnicas de modo que pueda evaluarse la
incertidumbre de inferencias inductivas

AREAS DE LA ESTADÍSTICA
I ESTADISTICA DESCRIPTIVA
Es un conjunto de métodos que han sido desarrollados para tratar la recolección, el análisis y la descripción de datos
muestrales

II TEORIA DE LA PROBABILIDAD
Estudio de la incertidumbre

III INFERENCIA ESTADÍSTICA


Fase de la estadística que trata del de hacer inferencias (predecir) sobre algunas características de una población con
base en la información contenida en una muestra

IV DISEÑO DE EXPERIMENTOS
Saber el efecto que tienen ciertas condiciones o factores sobre el resultado de un proceso o fenómeno

POBLACIÓN
 Es la colección, o conjunto, de individuos, objetos o eventos cuyas propiedades serán analizadas

 Es el conjunto de todos los elementos de interés en determinado estudio

MUESTRA
 Es un subconjunto de la población

 Es un conjunto de objetos o mediciones seleccionados de la población de interés

RAZONES PARA LLEVAR A CABO UN MUESTREO


 Población muy grande
 Costo
 Fatiga Aburrimiento
 La información pierde valore en poco tiempo
 La inspección de ciertos artículos que al examinarlos causa destrucción
VARIABLE
Característica de interés sobre cada elemento individual de una población o muestra
 Variable Cualitativa o de atributos: Variable que clasifica o describe un elemento de una población. Las
operaciones aritméticas, como sumar y obtener promedios, no son significativas para datos que resultan de una
variable cualitativa
 Variable Cuantitativa o numérica: Variable que cuantifica un elemento de una población. Las operaciones
aritméticas, como sumar y obtener promedios, si son significativas para datos que resultan de una variable
cuantitativa

VARIABLE ALEATORIA
Una variable aleatoria es una descripción numérica del resultado de un experimento
Las variables aleatorias deben tomar valores numéricos a cada uno de los resultados experimentales.
El valor numérico de la variable aleatoria depende del resultado del experimento. Una variable aleatoria puede ser
discreta o continua, depende del tipo de valores numéricos que asuma.

Variable aleatoria discreta: asume ya sea un número finito de valores o una sucesión infinita de valores tales como 0, 1,
2, . . ., por ejemplo,
el siguiente experimento: un contador presenta el examen para certificarse como contador público. El examen tiene
cuatro partes. Defina una variable aleatoria x como x = número de partes del examen aprobadas. Ésta es una variable
aleatoria discreta porque puede tomar el número finito de valores 0, 1, 2, 3 o 4.

Otro ejemplo de una variable aleatoria discreta considere el experimento de observar los automóviles que llegan a una
caseta de peaje. La variable aleatoria que interesa es x =número de automóviles que llega a la caseta de peaje en un
día. Los valores que puede tomar la variable aleatoria son los de la secuencia 0, 1, 2, etc. Así, x es una variable
aleatoria discreta que toma un de los valores de esta sucesión infinita.

Variable aleatoria continua: puede tomar cualquier valor numérico dentro de un intervalo o colección de Intervalos.

Los resultados experimentales están basados en escalas de medición tales como tiempo, peso, distancia y temperatura
pueden ser descritos por variables aleatorias continuas.

Ejemplo
Sea el experimento Variable aleatoria (x) Valores posibles que puede tomar (x)
Observar las llamadas telefónicas x = tiempo en minutos entre dos x ≥ 0 ejemplo: 1.26 minutos, 2.751
que llegan a la oficina de atención llamadas consecutivas minutos, 4.3333 minutos, etc.

El distancia entre Lagos y León x = No de Km donde se localiza el 0 ≤ x ≤ 45


para el servicio de ambulancia de accidente
emergencia
UNIDAD 2: INFERENCIA ESTADÍSTICA: ESTIMACIÓN
DISTRIBUCIÓN MUESTRAL DE LA MEDIA (m CONOCIDA)
La distribución muestral de x́ es la distribución de probabilidad de todos los posibles valores de la media
muestra x́

El director de personal de Electronics Associates Inc. (EAI) se le ha encargado elaborar un perfil de los 2,500
gerentes de la empresa. Las características a determinar son su sueldo medio anual, y la proporción de ello que
ha completado el programa de capacitación de la empresa.

A. Consultando los archivos de la empresa se calculan la media poblacional y la desviación estándar,


además la situación de la capacitación que indican que 1,500 de los 2,500 gerentes han completado el
programa respectivo

Media poblacional μ=$ 51,800

Desviación Estándar poblacional σ =$ 4,000

proporción de la población P=1500 /2500=0.60

A estos resultados son parámetros de la población

B. Selección de muestras

Si se selección una muestra de tamaño 30, se tienen los siguientes resultados


La selección repetida de muestras aleatorias ejemplo 500, sus resultados son diferentes y son denominados
estadísticos muestrales y son utilizados para estimar los parámetros de la población
Como los distintos valores que toma son resultado de distintas muestras aleatorias simples, a
la distribución de probabilidad de x́ se le conoce como distribución muestral de x́ .
Conocer esta distribución muestral y sus propiedades permitirá hacer declaraciones de
probabilidad de qué tan cerca está la media muestral de la media poblacional μ
En la práctica sólo se selecciona una muestra aleatoria simple de la población. En esta
sección el proceso de muestreo se repitió 500 veces para ilustrar que es posible tomar
muchas muestras diferentes y que diferentes muestras darán valores distintos de los
estadísticos muestrales x́ y ṕ .

Propiedades de la distribución muestral de x́


Valor esperado de x́ E ( x́ )=μ o de otra forma x́=μ

Donde:
E ( x́ )=valor esperado de x́
μ=media poblacional

Cuando el valor esperado de un estimador puntual es igual al parámetro poblacional, se dice


que el estimador puntual es insesgado.

la diferencia entre σ x́ y σ, a la desviación estándar de x́ , σ x́ , se le llama error


estándar
de la media y ayuda a determinar qué tan lejos puede estar la media muestral de la media
poblacional. En muchos estudios no sabemos si los datos provienen de una distribución
normal, por lo tanto
Cuando la población de la que se tomó la muestra aleatoria simple no tiene distribución
normal, el teorema del límite central ayuda a determinar la forma de la distribución muestral
de x́ .
TEOREMA DEL LÍMITE CENTRAL:
Cuando se seleccionan muestras aleatorias simples de tamaño n de una población, la
distribución de muestreo de la media muestral x́ puede aproximarse mediante una
distribución normal a medida que el tamaño de la muestra se hace grande
x́−μ
Z=
σ
√n
Contestar la siguiente interrogante:
El Director de personal desea saber cuál es la probabilidad de que x́ esté entre $51,300 y
σ 4,000
$52,300 con x́= =730.30
√ 30

p (51,300 ≤ x ≤ 52,300 )= p (−0.68 ≤ z ≤ 0.68 )=0.7517−0.2483=0.5034


La proporción muestral ṕ es el estimador puntual de la proporción poblacional p. La
fórmula para calcular la proporción muestral es
x
ṕ= Donde:
n
x = número de elementos de la muestra que poseen la característica de interés
n = tamaño de la muestra

Propiedades de la distribución muestral de ṕ

Si la población es finita y n/N ≤ 0.05 se usará

Pero, si la población es finita y n/N > 0.05 entonces deberá usar el factor de corrección para una población finita.
DISTRIBUCIÓN MUESTRAL DE LA MEDIA ( DESCONOCIDA)

 Si la desviación estándar es desconocida y el tamaño de la muestra es pequeña, se deberá calcular la


desviación estándar muestral “s”. Y es razonable de deducir que con muestras pequeñas muy poco se
sabe de la distribución muestral exacta, a menos de que supongamos que la muestra proviene de una
población normal. Según esta suposición, puede probarse que:
 Teorema: Si x́ es la media de una muestra aleatoria de tamaño n tomada de una población normal
que tiene media µ y varianza σ 2 , entonces

x́−μ
t=
s / √n

 Es el valor de una variable aleatoria con distribución t y parámetro v = n – 1 grados de libertad

DISTRIBUCIÓN t STUDENT
DISTRIBUCIÓN MUESTRAL DE LA VARIANZA
Puesto que la s2 no puede ser negativa, sospecharíamos que esta distribución muestral no es una curva normal;
en realidad, está relacionada con la distribución gamma y se denomina distribución Ji-cuadrada.

Teorema: Si s2 es la varianza de una muestra aleatoria de tamaño n tomada de una población normal cuya
varianza es s2,entonces:
2 ( n−1 ) s2
χ= 2
σ

Es un valor de una variable aleatoria que tiene la distribución ji-cuadrada con parámetro v = n – 1 grados de
libertad
DISTRIBUCIÓN F
Un problema muy semejante al de encontrar la distribución de la varianza muestral es el de calcular la razón de
las varianzas de dos muestras aleatorias independientes. Este problema es importante ya que aparece en
pruebas en las cuales queremos determinar si dos muestras provienen de poblaciones que tienen varianzas
iguales

Teorema: si s 21 y s22 son las varianzas de muestras aleatorias independientes de tamaño n1 y n 2


respectivamente, tomadas de dos poblaciones normales que tienen la misma varianza, entonces
2
s
F= 12
s2

Es un valor de una variable aleatoria que tiene distribución F con parámetros


v 1=n1−1 y v 2=n2−1
DISTRIBUCIONES MUESTRALES Y ESTIMADORES.

Definición.
La distribución muestral de la media es la distribución de probabilidad de medias muestrales,
donde todas las muestras tienen el mismo tamaño n. (En general, la distribución de muestreo de
cualquier estadístico es la distribución de probabilidad de dicho estadístico).

Notación para la distribución muestral de x́


Si se seleccionan todas las muestras aleatorias de tamaño n de una población con media µ y
desviación estándar σ, la media de las medias de muestra se denota con μx́ de modo que
μx́ =μ

También la desviación estándar de las medias de muestra se denota con σ x́ de manera que

σ
σ x́ =
√n
σ x́ suele denominarse el error estándar de la media.

APLICACIÓN DEL TEOREMA DEL LIMITE CENTRAL

Se aplica cuando el tamaño de la muestra es mayor que 30, o si la población original se distribuye
normalmente, debe tratar la distribución de medias de muestra como si fuera una distribución normal
con media µ y desviación estándar σ / √ n

 Cuando trabaje con un valor individual de una población que se distribuye


normalmente, use

x−μ
z=
σ

 Cuando trabaje con una media de alguna muestra (o grupo), asegúrese de utilizar el
valor de σ / √ n para la desviación estándar de las medias de muestra, use

x́−μ
z=
σ /√n

EJEMPLO: Seguridad del teleférico


Un teleférico en Vail, Colorado, lleva a los esquiadores a la cima de la montaña. Hay una placa que
indica que su capacidad máxima es de 12 personas o 2004 libras. Dicha capacidad se excedería si
12 personas tienen pesos con una media mayor que 2004/12=167 libras. Puesto que los hombres
suelen pesar más que las mujeres, el “peor de los casos” implicaría a 12 pasajeros hombres. Los
pesos de los hombres se distribuyen normalmente, con una media de 172 libras y una desviación
estándar de 29 libras (según datos del National Health Survey).
a. Calcule la probabilidad de que, al seleccionar aleatoriamente a un hombre, su peso sea mayor
de 167 libras.
b. Calcule la probabilidad de que 12 hombres que se seleccionaron al azar tengan una media
mayor de 167 libras (de manera que su peso total sea mayor que la máxima capacidad del
teleférico de 2004 libras).

Una compañía de electrónica fabrica resistores que tienen una resistencia promedio de 100 ohms y
una desviación estándar de 10 ohms. La distribución de la resistencia es normal. Encuentre la
probabilidad de que, al tomar una muestra de 25 resistores, la resistencia promedio de éstos
a) será menor que 95 ohms.
b) Mayor a 110 ohms
c) Entre 90 y 95 oms

ESTIMACION

Resultados de la encuesta “cámara vigilante”: ¿Qué nos dicen?


El Star Tribune, es un periódico de Minneapolis-Saint Paul, patrocinó una encuesta que se diseño
para revelar opiniones acerca de la “cámara vigilante”, consistente en cámaras que se colocan para
identificar conductores que se pasan la luz roja. Las cámaras fotografían las placas de los
automóviles que no respetan las luces rojas y, tiempo después, los propietarios de dichos autos
reciben las respectivas multas de tránsito por correo. El periódico patrocinó la encuesta porque la
legislación pendiente de Minnesota aprobaría el uso de cámaras para expedir multas de tránsito
(agradecemos a Beth Hentges, quien proporcionó la información del periódico).
Los encuestadores preguntaron a 829 adultos de Minnesota y encontraron que el 51% se oponía a
legalizar las cámaras vigilantes. Estos resultados de encuesta, como la mayoría de los resultados de
este tipo, plantean preguntas interesantes como las siguientes:
 Si sólo se encuestó a 829 adultos, ¿sería posible concluir algo acerca de la población de
todos los adultos de Minnesota?
 Puesto que sólo 829 adultos fueron encuestados, ¿Qué tan precisos son los resultados?
 ¿Es el tamaño de muestra de 829 suficientemente grande como para arrojar resultados
significativos?
 ¿Cómo se seleccionó a las personas que respondieron la encuesta? ¿Se seleccionaron de
forma que sean representativas de la población?

Las encuestas son un componente importante del modo actual de vida. Afectan directamente los
programas de televisión que vemos, los productos que compramos, los funcionarios que elegimos y la
ropa que usamos. Si bien ya son parte integral de nuestra vida, por desgracia la mayoría no somos
capaces de interpretar correctamente los resultados de las encuestas. Este capítulo contiene los
conceptos de estadística que necesitamos para tales interpretaciones. Plantearemos preguntas del
tipo de las que listamos. Analizaremos los resultados de la encuesta del Star Tribune y, en el proceso,
aprenderemos mucho acerca de las encuestas en general.

“Se estima que el 51% de los adultos de Minnesota se oponen al uso de la cámara vigilante, con un
margen de error de mas o menos 3.4 puntos porcentuales”.
Con base en los resultados de la encuesta, tenemos una confianza del 95% de que los límites de
47.6% y 54.4% contienen el porcentaje real de adultos de Minnesota que se oponen a la cámara
vigilante. Es probable que el porcentaje de adultos de Minnesota que se oponen sea cualquier valor
entre 47.6% y 54.4%.

Definición
Un estimado puntual es un valor individual (o punto) que se usa para aproximar un parámetro de
población.

Un intervalo de confianza (o estimado del intervalo) es una gama (o un intervalo) de valores que
se usan para estimar el valor real de un parámetro de población. El intervalo de confianza suele
abreviarse como IC.

El nivel de confianza es la probabilidad 1−α (a veces se expresa como el valor de porcentaje


equivalente), que es la proporción de veces que el intervalo de confianza realmente contiene el
parámetro de población, suponiendo que el proceso de estimación se repite un gran número de
veces. (El nivel de confianza también se conoce como grado de confianza, o coeficiente de
confianza).

Interpretación de un intervalo de confianza


Debemos ser cuidadosos para interpretar los intervalos de confianza correctamente. Hay una
interpretación correcta, así como muchas diferentes y creativas interpretaciones erróneas del
intervalo de confianza 0.476 < p < 0.544.

Correcta: “Tenemos una confianza del 95% de que el intervalo de 0.476 a 0.544 realmente contiene el
valor verdadero de p”. Lo anterior significa que, si seleccionamos muchas muestras diferentes de
tamaño 829 y construimos los intervalos de confianza correspondientes, el 95% de ellos podrían
contener realmente el valor de la proporción poblacional p, (Nótese que en esta interpretación
correcta, el nivel de 95% se refiere a la tasa de éxitos del proceso que se utiliza para estimar la
proporción y no a la proporción de la población en sí).

Errónea: “Existe un 95% de posibilidades de que el valor real de p esté entre 0.476 y 0.544”.

Definición
Un valor crítico es el número que está en la frontera que separa las estadísticas de muestra que
probablemente ocurrirán, de aquellos que no tienen posibilidades de ocurrir. El número z α / 2 es un
valor crítico que es una puntuación z con la propiedad de que separa un área de α /2 en la cola
derecha de la distribución normal estándar.

Margen de error
Cuando se utilizan los datos de una muestra aleatoria simple para estimar una media o proporción
poblacional, el margen de error, que se denota con E, es la diferencia máxima probable (con
probabilidad 1 −α ¿ entre la media muestral x́ y la media poblacional µ ó la proporción
muestral ^p que se observa y el valor real de la proporción poblacional p. El margen de error E
también se conoce como error máximo del estimado.
ESTIMACIÓN POR INTERVALOS

OBJETIVO: Encontrar el verdadero valor de la población (parámetro) a través del contenido de una
muestra (estadístico)

MEDIA:

PROPORCIÓN: ^p

DESVIACIÓN ESTÁNDAR:

ESTIMACIÓN DE LA MEDIA DE UNA POBLACIÓN

Muestras grandes n > 30 datos

Intervalo de confianza

σ
Error estándar de la media σ x́ =
√n
σ
Error de estimación o margen de error E=z α /2 |x́−μ|
√n

2 2
( z α /2 ) σ
Tamaño de la muestra n=
E2

Ejemplos
Pesos de osos La salud de la población de osos en el parque nacional de Yellowstone se controla por
mediciones periódicas que se toman a osos anestesiados. Una muestra de 54 osos tiene un peso
medio de 182.9 lb. Suponga que se sabe que σ es 121.8 lb, encuentre un estimado del intervalo de
confianza del 99% de la media poblacional de todos estos pesos de osos.
Niveles de cotinina en fumadores Cuando las personas fuman, la nicotina que absorben se convierte
en cotinina, que puede medirse. Una muestra de 40 fumadores tiene una media del nivel de cotinina
de 172.5, suponga que se sabe que σ es119.5, calcule el estimado del intervalo de confianza del 90%
de la media del nivel de cotinina para todos los fumadores.

Tamaño de muestra para la media del CI de estudiantes de estadística La prueba Weschler del CI se
diseñó para que la media sea 100 y la desviación estándar sea 15, para la población de adultos
normales. Calcule el tamaño de la muestra necesario para estimar la media de la puntuación de CI de
estudiantes de estadística. Queremos tener un nivel de confianza del 95% de que nuestra media
muestral está dentro de dos puntos de CI de la media real.

Tamaño de muestra para ver televisión Nielsen Media Research quiere estimar la media de la
cantidad de tiempo (en minutos) que los estudiantes universitarios que estudian tiempo completo
emplean viendo la televisión cada dia de la semana. Calcule el tamaño de muestra necesario para
estimar esta media con un margen de error de 15 minutos. Suponga que se desea un nivel de
confianza del 96%. Suponga también que un estudio piloto mostró que la desviación estándar se
estima en 112.2 minutos.

Muestras pequeñas n ≤ 30 datos

Intervalo de confianza

Ejemplos
Al ensayar un nuevo método de producción, se seleccionaron 18 empleados al azar, y se les pidió lo
probaran. La tasa reproducción promedio muestral para los 18 empleados fue 80 partes por hora, y la
desviación estándar muestral fue 10 partes por hora, Determine intervalos de confianza del 90 y 95%
de la tasa de producción promedio poblacional con el nuevo método, suponiendo que la población
tiene una distribución normal de probabilidades.

Costos hospitalarios por choque. Se realizó un estudio para estimar los costos hospitalarios para
víctimas de accidente que usaban cinturones de seguridad. 20 casos que se seleccionaron
aleatoriamente presentan una distribución que parece tener forma de campana, con una media de
$9,004 y una desviación estándar de $5,629 (según datos del departamento del transporte de
Estados Unidos). Construya el intervalo de confianza del 99% para la media de todos los costos de
este tipo.

Estimación de contaminación por automóviles. En una muestra de 7 automóviles, cada uno se verificó
para emisiones de óxido nitroso (en gramos por milla), de esto se obtuvieron los resultados
siguientes: 0.06, 0.11, 0.16, 0.15, 0.14, 0.08, 0.15 (según datos de la Environmente Protección
Agency). Suponiendo que esta muestra sea representativa de los automóviles en circulación,
construya un estimado del intervalo de confianza del 98% de la cantidad media de emisiones de óxido
nitroso para todos los automóviles. Si la agencia de protección ambiental requiere que las emisiones
de óxido nitroso sean menores que 0.165 gramos/milla. ¿Sería posible concluir con seguridad que se
está cumpliendo tal requisito?

ESTIMACIÓN DE LA PROPORCIÓN DE UNA POBLACIÓN (muestras grandes)

^p (1− ^p ) p^ (1− ^p )
Intervalo de confianza ^p−z α /2
√ n √
≤ P≤ ^p + z α / 2
n

^p (1− ^p )
Error de estimación ó margen de error E=z α /2
√ n

Tamaño de la muestra
( z α /2 ) p^ (1− ^p )
n=
E2

Ejemplos
Compras en internet En una encuesta de Gallup se encuestaron 1025 adultos, que se seleccionaron
aleatoriamente; el 29% de ellos dijeron que usaban internet para comprar al menos cinco veces al
año.

a. Calcule el estimado puntual del porcentaje de adultos que usan Internet para hacer compras.
b. Encuentre un estimado del intervalo de confianza del 99% del porcentaje de adultos que usan
internet para hacer compras.

Encuesta de la pena de muerte En una encuesta de Gallup, que se realizo entre 491 adultos
seleccionados al azar, se les preguntó si estaban a favor de la pena de muerte para una persona
convicta por homicidio; el 65% de ellos dijeron que estaban a favor.

a. Calcule el estimado puntual del porcentaje de adultos que están a favor de la pena de muerte
b. Calcule un estimado de intervalo de confianza del 95% de adultos que están a favor de la
pena de muerte.
c. ¿Podemos concluir con seguridad que la mayoría de los adultos están a favor de la pena de
muerte? Explique.

Tamaño de la muestra para jugadores del golf zurdos Como fabricante de equipos de golf, la Spalding
Corporation quiere estimar la proporción de golfistas que son zurdos. (La compañía piensa usar tal
información en la planeación del número de juegos de palos de golf a fabricar para diestros y zurdos).
¿Cuántos golfistas deben encuestarse si queremos un nivel de confianza del 99% de que la
proporción muestral tenga un margen de error de 0.025?

a. Suponga que no hay información disponible que pueda usarse como un estimado de ^p
b. Suponga que tenemos un estimado de ^p que se encontró en un estudio previo, el cual
sugiere que el 15% de los golfistas son zurdos (según un reporte de USA Today).

ESTIMACIÓN POR INTERVALO PARA LA VARIANZA POBLACIONAL

( n−1 ) s 2 2 ( n−1 ) s2
≤σ ≤
χ α / ¿22 χ (1−α /2)2

donde los valores 2 están basados en una distribución chi-cuadrada con n-1 grados de libertad y donde 1-α es el
coeficiente de confianza
2
La notación χ α denota el valor de la distribución chi-cuadrada que proporciona un área o probabilidad α a la
derecha del valor χ 2α
2 2 2
χ ( 1−α /2 ) ≤χ ≤χ α/ 2
En un estudio sobre la contaminación del aire efectuado por una estimación experimental, las siguientes
cantidades de benceno soluble suspendido en materia orgánica (en microgramos por metro cúbico) fueron
obtenidos en ocho diferentes muestras de aire: 2.2, 1.8, 3.1, 2.0, 2.4, 2.0, 2.1, y 1.2. Suponiendo que la
población muestreada sea normal, constrúyase un intervalo con un nivel de confianza del 90%, 95% y 99%
para varianza y desviación estándar correspondiente

Una muestra aleatoria de los archivos de una compañía que contienen información detallada indican que las
órdenes de compra de cierta pieza de maquinaria fueron entregados en 10, 12, 19, 14, 15, 18, 11, y 13 días.
Constrúyase un intervalo de confianza del 90%, 95% y 99% para la varianza y desviación estándar del
tiempo que tarda la compañía en surtir una orden para una pieza de esa clase de maquinaria.

UNIDAD 3: PRUEBAS DE HIPÓTESIS CON UNA MUESTRA


Un fabricante de bebidas considera que la botella de dos litros de sus productos contiene un promedio mínimo
de 67.7 onzas líquidas (1999 ml.). Un equipo investigador selecciona una muestra 36 botellas de dos litros y
medirá sus contenidos para investigar la afirmación del fabricante. Suponga que en estudios anteriores arrojo
una desviación estándar de 4.03 onzas y el equipo investigador tomó la decisión de rechazar la afirmación del
fabricante si el promedio de la muestra es inferior a 66.3 onzas

X = 66.3

P= 0.0188
µ = 67.7

Rechazar la
afirmación
Puesto que la decisión se basa en una muestra, existe la posibilidad de que el promedio muestral sea inferior a
66.3, a pesar de que la media real del contenido de llenado sea de 67.7. Y existe también la posibilidad de que
sea mayor a 66.3 onzas, no obstante, de que la media real de llenado sea, digamos 66.7 onzas

X = 66.3

P= 0.2743

µ = 66.7
Rechazar la
Aceptar la afirmación
afirmación

Se acepta la afirmación Se rechaza la afirmación

Decisión Correcta Error de tipo I


La afirmación es verdadera
(α)

Error de tipo II Decisión Correcta


La afirmación es falsa
(β)

En la prueba de hipótesis se comienza proponiendo una hipótesis tentativa acerca de un parámetro poblacional
(afirmación). Esta hipótesis tentativa se llama hipótesis nula y se represente con Ho. A continuación, se define
otra hipótesis, llamada alternativa, que es la opuesta de lo que se afirma en la hipótesis nula y se representa
con Ha.

Del ejemplo del fabricante de bebidas:


Hipótesis nula Ho: µ ≥ 67.7 ml
Hipótesis alterna Ha: µ < 67.7 ml

Prueba en situaciones de toma de decisión


Cuando se prueba una hipótesis de investigación o
la validez de una afirmación
FORMAS PARA DEFINIR LAS HIPÓTESIS NULA Y ALTERNATIVA

Pruebas unilaterales Prueba bilateral


Ho: µ ≥ µo Ho: µ ≤ µo Ho: µ = µo
Ha: µ < µo Ha: µ > µo Ha: µ ≠ µo

Ho: P ≥ Po Ho: P ≤ Po Ho: P = Po


Ha: P < Po Ha: P > Po Ha: P ≠ Po

Ho: 2 ≥ 2o Ho: 2 ≤ 2o Ho: 2 = 2o


Ha: 2 < 2o Ha: 2 > 2o Ha: 2 ≠ 2o

Ejemplo cuando se prueba una hipótesis de investigación

Considere un determinado modelo de automóvil en el que el rendimiento de la gasolina es 24 millas por galón.
Un grupo de investigación elabora un nuevo sistema de inyección de combustible diseñado para dar un mejor
rendimiento en millas por galón de gasolina. Para evaluar el nuevo sistema se fabrican varios de éstos, se
instalan en los automóviles y se someten a pruebas controladas de manejo. En este caso, el grupo de
investigación busca evidencias para concluir que el nuevo sistema aumenta la media del rendimiento.

Ejemplo para probar la validez de una afirmación

Una operación de la línea de producción está diseñada para llenar cajas con un peso medio de 32 onzas de
detergente para lavar. Con periodicidad se selecciona una muestra de los empaques y se pesan para determinar
si se están llenando de manera insuficiente o en demasía. Si los datos muestrales llevan a la conclusión de que
hay llenado insuficiente o excesivo, la producción se suspende y se ajusta al llenado correcto. Formule las
hipótesis nula y alternativa que ayudarán a determinar si se debe detener la producción y ajustar el peso

PASOS PARA PROBAR UNA HIPÓTESIS

1. Definir las hipótesis nula y alternativa


2. Establecer los criterios de rechazo
3. Calcular el estadístico de prueba
4. Tomar una decisión
5. Conclusión
PRUEBA DE HIPOTESIS PARA LA MEDIA DE POBLACIÓN CON  CONOCIDA (MUESTRAS GRANDES n ≥
100)

ESTADÍSTICO HIPÓTESIS ALTERNA CRITERIOS DE RECHAZO


Rechazar Ho. Si:
Ha:  < o z < -z
Ha:  > o z > z
Ha:  ≠ o z < -zó z > z

Una operación de línea de montaje automotriz tiene una media del tiempo de terminación de 2.2 minutos. Debido al efecto
del tiempo de terminación sobre las operaciones anteriores y siguientes de ensamble, es importante mantener esa norma de
2.2 minutos. Una muestra aleatoria de 45 tiempos da como resultado una media del tiempo de 2.39 minutos. Por
estudios anteriores se sabe que desviación estándar es de 0.5 minutos. Emplee un nivel de significancia de 0.02 y
pruebe si la operación cumple con su norma de 2.2 minutos

La compañía embotelladora Hudson Valley distribuye cerveza de raíz en botellas cuya etiqueta indica un contenido de 32
onzas. La oficina de pesas y medidas de Estados Unidos selecciona aleatoriamente 50 de estas botellas, mide su contenido
y obtiene una media de muestra de 31.8 oz.. Por estudios anteriores se sabe que la desviación estándar de población es de
0.75 oz. Utilizando un nivel de significancia de 0.01, pruebe la aseveración de la oficina de que la compañía está estafando a
los consumidores.

PRUEBA DE HIPOTESIS PARA LA MEDIA DE POBLACIÓN CON  DESCONOCIDA (MUESTRAS


PEQUEÑAS n ¿ 100)

Rechazar Ho. Si:


Ha:  < o t < -t
Ha:  > o t > z
Ha:  ≠ o t < -tó t > t
Con v = n – 1 grados de libertad

Los neumáticos nuevos fabricados por una empresa deben durar, en promedio, cuando menos 28,000 millas. Las pruebas
con 30 neumáticos dan como resultado de la muestra 27,500 millas de duración, con una desviación estándar muestral de
1,000 millas. Si se usa un nivel de significancia de 0.05, pruebe si hay evidencia suficiente para rechazar la aseveración de
la media mínima de 28,000 millas.
Un proceso de fabricación de jabón de tocador debe producir un promedio de 120 barras por lote. No se desea tener
cantidades mayores ni menores que el estándar. Una muestra de 10 lotes dio como resultado las siguientes cantidades de
barras de jabón.
108 118 120 122 119 113 124 122 120 123
Con un nivel de significancia de 0.05, pruebe si los resultados de esta muestra indican que el proceso de manufactura está
trabajando en forma correcta.

PRUEBA DE HIPOTESIS PARA LA PROPORCIÓN DE POBLACIÓN

Rechazar Ho. Si:


Ha: p < po z < -z
Ha: p > po z > z
Ha: p ≠ po z < -zó z >z

La máquina llenadora en una operación de producción se debe ajustar si hay más del 8% de los envases con falta de
llenado. En una muestra aleatoria de 80 envases de la producción del día, había 9 faltos de llenado. ¿Indican los resultados
de la muestra que se debe ajustar la llenadora? Use un nivel de significancia de 0.02. ¿Cuál es el valor p?

El Gerente de Control de Calidad de la Telektronic Company considera que la producción de máquinas contestadoras
telefónicas está “Fuera de control” cuando la tasa global de defectos excede el 4%. Pruebas con una muestra aleatoria de
150 máquinas revelaron que nueve de ellas tenían defectos, así que el porcentaje de muestra de defectos es del 6%. El
gerente de producción dice que se trata meramente de una diferencia casual y que la producción no está realmente fuera de
control y es innecesario tomar medidas correctivas. Utilice un nivel de significancia de 0.05 para probar la afirmación del
gerente de producción. ¿Cree usted que sea necesario tomar medidas correctivas?

PRUEBA DE HIPOTESIS PARA LA VARIANZA DE POBLACIÓN


Si 12 determinaciones de calor específico del hierro tienen una desviación estándar muestral de 0.0086, pruebe la hipótesis
nula de que  = 0.010 para tales determinaciones. Use la hipótesis alternativa de  ≠ 0.010 y el nivel de significancia de  =
0.01

Al jugar 10 rondas de golf en su propio campo, un jugador profesional promedio 71.3, con una desviación estándar muestral
de 1.32. Pruebe la hipótesis nula de que la consistencia de su juego en su propio campo en realidad se midió por  = 1.20,
contra la alternativa de que es menos consistente. Utilice un nivel de significancia de  = 0.05
UNIDAD 4: PRUEBA DE HIPÓTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE
DATOS NUMÉRICOS
PRUEBA DE HIPOTESIS PARA LA DIFERENCIA DE DOS MEDIAS POBLACIONALES CON 1 Y 2
CONOCIDAS (MUESTRAS GRANDES)

Rechazar Ho. Si:


( x́1 −x́2 ) −D0 Ha:  - 2 < D0 z < -z
z=
σ 21 σ 22 Ha:  - 2 > D0
√ +
n1 n2 Ha:  - 2 ≠ D0 z > z

D0 es la diferencia hipotética z < -zó z > z


entre μ1 y μ 2

Se diseña una línea de producción suponiendo que la diferencia entre la media de los tiempos de ensamble entre dos
operaciones es de 5 minutos. En pruebas independientes para las dos operaciones se obtuvieron los siguientes resultados.

Operación A Operación B

Con  = 0.02, pruebe Ho: 1 – 2 = 5 minutos contra la alternativa Ha: 1 – 2 ≠ 5 minutos de la diferencia entre la media de
los tiempos de ensamblado.

Almacenes Dorados, S. A., rediseña los carriles de las cajas en sus supermercados en todo el país. Se sugieren dos
diseños. En pruebas con clientes se determinaron los tiempos de cobro en las cajas a la salida de dos almacenes, donde se
instalaron los dos nuevos sistemas. El resumen de los resultados obtenidos es el siguiente:

Sistema A Sistema B

Trate de determinar, con un nivel de significancia de 0.05, si hay una diferencia entre los tiempos de cobro en caja para los
dos sistemas. ¿Cuál sistema prefiere?
PRUEBA DE HIPOTESIS PARA LA DIFERENCIA DE DOS MEDIAS POBLACIONALES CON 1 Y 2
DESCONOCIDAS (MUESTRAS PEQUEÑAS)

( x́1− x́2 ) −D0 Rechazar Ho. Si:


t=
1 1 Ha:  - 2 < D0 t < -t
√(s2 +
n1 n2 ) Ha:  - 2 > D0
Ha:  - 2 ≠ D0 t > z

t < -tó t > t

v = n1 + n2 - 2 grados de libertad
D0 es la diferencia hipotética
entre μ1 y μ 2

Una empresa estudia los tiempos de entrega de dos proveedores de materia prima. En general, está satisfecha con el
proveedor A, y lo conservará si la media de su tiempo de entrega es igual o menor que la del proveedor B. Sin embargo, si
observa que la media del tiempo de entrega del proveedor B es menor que el del proveedor A, comenzará a comprar con el
proveedor B. Suponga que unas muestras independientes dan las siguientes características de tiempo de entrega para los
dos proveedores.

Proveedor A Proveedor B
n1 = 50 n2 = 30
X1 = 14 días X2 = 12.5 días
s1 = 3 días s2 = 2 días

Con  = 0.05. ¿Cuál es su conclusión?, ¿Qué acción recomendaría usted respecto a elección de proveedor?

En un Programa de capacitación industrial, algunos aprendices son instruidos con el método A, el cual consiste en
instrucción mecanizada, y algunos son capacitados con el método B, que entraña también la atención personal de un
instructor. Si muestras aleatorias de tamaño 10 son tomadas de grandes grupos de aprendices capacitados por cada uno de
estos métodos, y las calificaciones que obtuvieron de una prueba de aprovechamiento son

Método A: 71 75 65 69 73 66 68 71 74 68

Método B: 72 77 84 78 69 70 77 73 65 75

Úsese un nivel de significancia de 0.05 para probar la afirmación de que el método B es más eficaz. Supóngase que las
poblaciones muestreadas pueden aproximarse con distribuciones normales que tienen la misma varianza.
PRUEBA DE HIPOTESIS PARA MUESTRAS PAREADAS (ANTES Y DESPUES)

Rechazar Ho. Si:


d́−μd Ha: d < 0 t < -t
t=
sd Ha: d > 0
√n t > z
μd es la diferencia hipotética Ha: d ≠ 
t < -tó t > t

En un estudio de la eficacia del ejercicio físico en la reducción de peso, un grupo de 16 personas se inscribieron en un
programa de ejercicio físico por un mes y mostraron los siguientes resultados.

Peso antes (lbs): 209, 178, 169, 212, 180, 192, 158, 180, 170, 153, 183, 165, 201, 179, 243, 144

Peso después (lbs) 193, 171, 170, 207, 177, 190, 159, 180, 164, 152, 179, 162, 199, 173, 231, 140

Empléese el nivel de significancia 0.01 para probar si el programa prescrito de ejercicio es eficaz.

Eficacia de la hipnosis en la reducción del dolor Se realizó un estudio para investigar la eficacia
de la hipnosis en la reducción del dolor. Los resultados de sujetos seleccionados al azar se incluyen
en la tabla adjunta (basada en “An Analysis of Factors That Contribute to the Efficacy of Hipnotic
Analgesia”, de Price y Barber, Journal of Abnormal Psychology, vol. 96, núm. 1). Los valores se
tomaron antes y después de la hipnosis; la unidad de medición son centímetros, en una escala de
dolor.
a. Utilice un nivel de significancia 0.05 para probar la afirmación de que las mediciones
sensoriales son más bajas después de la hipnosis.
b. ¿Parece ser eficaz la hipnosis en la reducción del dolor?

Sujeto A B C D E F G H
Antes 6.6 6.5 9.0 10.3 11.3 8.1 6.3 11.6
Después 6.8 2.4 7.4 8.5 8.1 6.1 3.4 2.0

PRUEBA DE HIPOTESIS PARA LA RAZÓN DE DOS VARIANZAS POBLACIONALES


Las pruebas de resistencia a la tracción en 10 puntos de soldadura en un dispositivo semiconductor produjeron los
siguientes resultados para romper la soldadura (en libras)
18.8 12.7 13.2 16.9 10.6 18.8 11.1 14.3 17.0 12.5
Otro conjunto de ocho puntos fueron probados después de recubrir el dispositivo para determinar si la resistencia a la
tracción se incrementa con el recubrimiento, obteniendo los siguientes resultados
24.9 23.6 19.8 22.1 20.4 21.6 21.8 22.5
Empléese un nivel de significancia de 0.02 para probar si las varianzas de ambas muestras son significativamente diferentes

Una hipótesis de investigación sostiene que la varianza de las distancias de frenado de los automóviles sobre pavimento
húmedo es mayor que la varianza de las distancias de frenado de los automóviles sobre pavimento seco. En un estudio a 16
automóviles que iban a una misma velocidad se les hizo frenar sobre pavimento húmedo y después sobre pavimento seco.
En pavimento húmedo la desviación estándar de las distancias de frenado fue 32 pies. Sobre pavimento seco la desviación
estándar es 16 pies.
Con 0.05 como nivel de significancia, ¿los datos muestrales justifican la conclusión de que en las distancias de frenado
sobre pavimento húmedo la varianza es mayor que sobre pavimento seco?

UNIDAD 5: PRUEBA DE HIPÓTESIS CON DOS MUESTRAS Y VARIAS


MUESTRAS DE DATOS CATEGÓRICOS
PRUEBA DE HIPOTESIS PARA LA DIFERENCIA DE DOS PROPORCIONES POBLACIONALES
Rechazar Ho. Si:
( ṕ 1− ṕ2 ) Ha: p1 - p2 < 0 z < -z
z=
1 1 Ha: p1 - p2 > 0
√ ṕ ( 1− ṕ )
( +
n 1 n2 ) Ha: p1 - p2 ≠ 0 z > z

z < -zó z > z


n ṕ + n ṕ
ṕ= 1 1 2 2
n 1+ n2

Inspecciones con resultado no aprobatorio Efectuando revisiones a tiendas de partes de


automóvil, el Arizona Department of Weights and Measures realizó 100 inspecciones a tiendas de
Autozone y encontró que el 63% de esas inspecciones no aprobaron la norma. Entre 37 inspecciones
a las tiendas de NAPA Auto Parts, el 81% no aprobó. Utilice un nivel de significancia de 0.05 para
determinar si existe una diferencia significativa entre estas dos tasas de no aprobación. ¿Parece que
alguna tienda es una mejor opción para los consumidores?

Se hizo un estudio de 413 niños que fueron hospitalizados como resultado de choques de vehículos
de motor. De 290 niños que no llevaban cinturón de seguridad, 50 sufrieron lesiones severas. De 123
niños que llevaban cinturón de seguridad, 16 sufrieron lesiones severas (basado en datos de
“Morbyditi Among Pedriatic Motor Vehicle Crash Victims: The Effectiveness of seat Belts”, por Osberg
y Discala, Amerikan Journal of Publi Health, vol. 82, núm. 3) ¿Hay suficientes indicios de muestra
para concluir, en el nivel de significancia de 0.05, que la proporción de lesiones severas es menor en
niños que llevan cinturones de seguridad?

PRUEBA DE BONDAD DE AJUSTE

En esta sección se estudia el caso en que cada elemento de una población corresponde a una y sólo a una de varias clases
o categorías. A una población como esta se le denomina población multinomial, la cual se puede entender como una
extensión de la distribución binomial al caso en el que hay tres o más categorías de resultados. En cada ensayo de un
experimento multinomial, uno y sólo uno de los resultados ocurre. Se supone que cada ensayo es independiente y que en
todos ellos las probabilidades para los resultados permanecen constantes.

DISTRIBUCIÓN MULTINOMIAL DE PRUEBAS DE BONDAD DE AJUSTE: RESUMEN


1. Establecer las hipótesis nula y alternativa:
Ho: la población tiene una distribución multinomial con la probabilidad específica de cada una de las k categorías
Ha: la población no tiene una distribución multinomial con la probabilidad específica de cada una de las k categorías
2. Seleccionar una muestra aleatoria y anotar las frecuencias observadas fi en cada categoría.
3. Suponer que la hipótesis nula es verdadera y determinar la frecuencia esperada ei en cada categoría multiplicando la
probabilidad de esa categoría por el tamaño de la muestra.
2 2
Rechazar Ho. Si: χ >χ α

considere el estudio sobre participación de mercado que realizó la firma Scott Marketing Research. A lo largo de los años,
las participaciones en el mercado se han estabilizado en 30% para la empresa A, 50% para la B y 20% para la C. Hace
poco, la empresa C desarrolló un producto nuevo y mejorado para sustituir uno de los que tenía en circulación, y pidió a la
firma Scott Marketing Research que determinara si el nuevo producto modificaría su participación de mercado. Considere
que para este estudio la firma de investigación ha empleado un panel de 200 consumidores. A cada individuo se le pide que
indique su preferencia entre el producto de la empresa A, el de la empresa B o el nuevo producto de la empresa C. Las 200
respuestas obtenidas se presentan a continuación en forma resumida. El nivel de significancia que se usará es α = 0.05
PRUEBA DE INDEPENDENCIA

(f ij −eij )2 Rechazar Ho. Si:


Prueba de χ 2=Σ i Σ j
eij
independencia Ha: Las variables χ 2 > χ 2α
Con v = (n – 1)(m – 1) grados de libertad no son
Ho: Las variables son independientes
independientes n = No. de renglones y m = No. de
columnas
Ha: Las variables no f ij =frecuencia observada
son independientes e ij =frecuencia esperada

( total del renglóni ) (total columna j)


e ij =
tamaño de lamuestra

Los datos de partes defectuosas procedentes de tres proveedores son los siguientes.

DEPORTE PREFERIDO
PROVEEDOR BUENA DEFECTOS DEFECTOS GRAVES
PEQUEÑOS
A 90 3 7
B 170 18 7
C 135 6 9

Use un nivel de significancia de 0.05 y demuestre si hay independencia entre proveedor y calidad de las partes. ¿Qué dice el
resultado de su análisis al departamento de compras?
Para determinar si en realidad existe una relación entre el aprovechamiento de un empleado en el
programa de capacitación y su rendimiento real en el trabajo, consideramos una muestra de 400
casos de sus archivos que son muy detallados y obtenemos los resultados que se advierten en la
siguiente tabla

Aprovechamiento en el programa de entrenamiento


Debajo del Promedio Sobre el promedio
promedio
Éxito en el Deficiente 23 60 29
trabajo Promedio 28 79 60
(Calificación del Muy buena 9 49 63
patrón

Con un nivel de significancia 0.01 pruébese la hipótesis nula de que el aprovechamiento en el


programa de capacitación y el éxito en el trabajo son independientes

También podría gustarte