Documentos de Académico
Documentos de Profesional
Documentos de Cultura
3er semestre
Clave:
LIC 01142315/TSU 02142315
Presentación de la unidad
En la presente unidad:
La teoría del muestro permite obtener información acerca de una población finita a
través de muestras extraídas al azar; sin embargo, es más práctico y
frecuentemente más importante inferir información de una población mediante
varias muestras extraídas de ella.
Por ello, para una población en particular, los parámetros son fijos y frecuentemente
desconocidos, mientras que los estadísticos varían dependiendo de la muestra.
Desviación estándar s
_
Proporción p p
Dado que las inferencias estadísticas que se hacen acerca de la población se realizan por
medio de muestras, lo natural es usar la media y la varianza (estadísticos) como
estimadores de los parámetros correspondientes.
Para analizar el sesgo, considérese que se toman una gran cantidad de muestras de una
población con media y que se determina la media de cada una de las muestras,
_
obteniendo los valores xi , con éstos es posible construir una distribución cuya media
_
x tiene un valor que puede estar cercano o no al valor de la media poblacional . Si el
_
valor de la de la media de la distribución de medias x es cercano al de la población
_
, se dice que x es un estimador insesgado de .
Si la media de la distribución muestral de un estadístico es igual a su correspondiente
parámetro, el estadístico se llama estimador insesgado del parámetro, si no es igual se
denomina estimador sesgado. Los valores correspondientes de tales estadísticos se
conocen como estimaciones insesgadas o sesgadas, respectivamente. Hay dos tipos de
estimación de parámetros.
Competencia específica
Si se consideran todas las posibles muestras de tamaño n que pueden extraerse de una
__
población y que se calcula la media xi de cada una de las muestras, con estos valores
se puede construir una distribución de la cual también se puede encontrar la media __
x
como usualmente se ha hecho.
Por la forma en que se calcula __ , puede verse que un estimador puntual es una función
x
de un conjunto de observaciones de la población y es un “punto” en el sentido de que se
refiere a un sólo valor.
Puede ser claro que por medio de las muestras es posible hacer una estimación de
cualquiera de los parámetros de una población, de manera que no es fácil determinar cuál
de los estadísticos es el más apropiado. Los siguientes cuatro criterios permiten hacer esta
elección:
_
E x .
Ahora bien, aun cuando lo anterior se cumpla, puede ocurrir algo como lo mostrado
en la siguiente gráfica:
__
x
En este caso, la elección del estimador, usando sólo este criterio, no resulta
suficiente.
En general, existen tres tipos de información que se desea conocer sobre una distribución:
Por supuesto, querríamos conocer esta misma información respecto a una distribución
muestral, por ejemplo la distribución muestral de x . Con el siguiente ejemplo, se muestra
la manera en que se procede para obtener la información y dar respuesta a las preguntas
previas.
Ejemplo (1) Considere que en la siguiente tabla se representa a toda una población, que
consiste en el número de pizzas que la sucursal de cierta empresa vende en
una hora determinada del día:
b) Haz una lista de todas las posibles muestras de tamaño 2 que se pueden
generar de dicha población, considerando que se hace un muestreo con
remplazo (son 25 en total).
c) Determina la media de cada una de las muestras y verifica que se obtienen los
valores de la tabla del inciso d). Con los datos de la tabla del inciso a), completa
la distribución de medias muestrales:
__
x 2 2.5 3 4 4.5 5 5.5 6 7 7.5 8 8.5 9
__
1 1 4 2 2
P X x
25 25 25 25 25
5.60
__
x
2 x 3.720 y x 1.923
__ Frecuencia de
Límites de clase Marca de clase x
clase
2.0 – 3.4 2.7 4
3.4 – 4.8 4
4.8 – 6.2 9
6.2 – 7.6 4
7.6 - 9.0 4
2 2 2 x
Otro ejercicio interesante, mucho menos costoso en tiempo y que se recomienda hacer, es
construir la distribución de medias muestrales cuando el muestreo se realiza sin
restitución. Si se consideran los casos n 2 y n 3 , en cada uno de ellos sólo hay 10
muestras, y las conclusiones son parecidas; éstas se enuncian a continuación:
Sin embargo, todo el análisis se puede llevar a cabo porque se conoce a toda la población
y consecuentemente, se conocen sus parámetros. Sin embargo, lo más frecuente es que
no sea posible trabajar con todos los elementos de la población, porque ésta es muy
grande, sino únicamente con una muestra (pequeña en comparación con el tamaño de la
población). En este caso, la distribución de probabilidad que se usa es denominada t de
Student.
x
Para la distribución t de Student, la “estandarización” es t
s
n
La t calculada de esta manera, tiene una función de probabilidad t de Student con n 1
grados de libertad.
Ejemplo (2)
Una compañía fabricante de lámparas, asegura que éstas tienen una vida media útil de
60 meses y una desviación estándar de 6 meses, para verificar la información, una
empresa prueba una muestra aleatoria de 50 lámparas.
Este resultado significa que la probabilidad es de 0.0094, o bien, que en el 0.94% de las
ocasiones que se tome una muestra se tendrán lámparas que duren menos de 58 meses.
Aunque debe aclararse que esto será así sólo si la información que proporciona el
fabricante es cierta.
Ejemplo (3)
Un fabricante de cigarrillos afirma que su producto tiene un contenido promedio de
nicotina de 1.83 miligramos. Se toma una muestra aleatoria de 8 de estos cigarrillos y se
determina que el contenido de nicotina de cada uno de ellos es: 2.0, 1.7, 2.1, 1.9, 2.2,
2.1, 2.0 y 1.6 miligramos.
Solución:
a) Para determinar la media de la muestra.
n
x i
x i 1
n
2.0 1.7 2.1 1.9 2.2 2.1 2.0 1.6
8
1.95
7
0.0429
Probabilidad de 0.9
Lo anterior quiere decir que con una certeza del 90%, la información del fabricante es
cierta; por lo tanto, la afirmación del fabricante no es cierta con el nivel de certeza que
dijo tener.
Como ya se mencionó, hay tres cosas que es deseable conocer acerca de una
distribución:
N n
Tendrá desviación estándar x o x
n n N 1
respectivamente.
N n
El término es conocido como factor de corrección por población
N 1
finita y puede omitirse cuando n 0.05 N , es decir, cuando el tamaño de la
muestra es menos del 5% del tamaño de la población.
Si para una población normal se quiere conocer la probabilidad de que un valor esté
contenido entre la media y una desviación estándar usando la gráfica para la distribución
normal, fácilmente puede verse que la región en la que debería estar el valor es la parte
central y se puede tener una idea del valor esperado:
3 3
2 2
Por otra parte, y sabiendo que la gráfica es simétrica, la probabilidad se puede escribir:
P x P x P x
P 1 z 0 P 0 z 1
2P 0 z 1 2P 1 z 0
P x 2 0.3413
0.6826
P 2 x 2 95.44%
P 3 x 3 99.74%
Solución: se expresa la probabilidad dada en términos del intervalo donde puede estar
contenido el valor normalizado y se despeja :
P 1.96 z 1.96 0.95
__
x
P 1.96 1.96 0.95
n
__
P 1.96 x 1.96 0.95
n n
__
P 1.96 x 1.96 0.95
n n
__
P 1.96 x 1.96 0.95
n n
Nivel de
99.7 99.0 98.0 96.0 95.5 95.0 90.0 80.0 68.3
confianza
z 3.00 2.58 2.33 2.05 2.00 1.96 1.65 1.28 1.00
__
La “fórmula” significa que, conociendo x y , puede encontrarse un intervalo que
contenga a con una confianza dada. Otras formas de expresar el intervalo de
confianza:
x z x , x z x y x z ,xz
n n
Una encuesta reveló que el 80% de las amas de casa compran sus artículos de
primera necesidad en las tiendas de autoservicio.
Un estudio indicó que el 60% de los hombres de entre 28 y 50 años creen que los
dos cónyuges deben compartir los gastos del hogar.
npq
En el caso de la varianza se tiene que 2
n2
Considérese una población en la que los elementos son o éxitos o fracasos, en la que la
probabilidad de éxito es p , siendo q 1 p la probabilidad de fracaso.
pq
la desviación estándar es
__
p n
La distribución construida se denomina distribución muestral de proporciones y tiene
las siguientes características:
Ejemplo (7)
Se desea estimar el porcentaje de varones adultos de cierta ciudad que fuman al menos
una cajetilla de cigarrillos al día. Supóngase que se toma una muestra aleatoria de 300
individuos y que de ellos, 36 individuos fuman.
Responder las siguientes tres preguntas, que también fueron respondidas para .
__
Es decir, con una probabilidad de 0.95, la estimación de la muestra p no difiere de p por
más de 0.037 unidades, lo que da una buena idea de la exactitud del valor de muestra
0.12 como estimación de p .
n
1.96 0.12 0.88
2
0.02 2
1014
0.12 1.96
0.12 0.88 p 0.12 1.96 0.12 0.88
300 300
0.083 p 0.157
Es necesario aclarar que la solución a cada uno de estos incisos está basada en
métodos de muestras grandes; afortunadamente los métodos son bastante buenos
también para muestras pequeñas, siempre que np 5 para p 0.5 y nq 5 para
p 0.5 .
Para realizar una prueba de hipótesis es necesario establecer dos hipótesis estadísticas,
conocidas como hipótesis nula e hipótesis alternativa, respectivamente.
La hipótesis nula H 0 siempre se usa para establecer que el parámetro de interés, que es
desconocido, es igual a un valor dado. Por ejemplo, si no se conoce la media poblacional
µ, la hipótesis nula es: H 0 : 0
La hipótesis alternativa H1 establece que el parámetro es menor que (<), mayor que (>), o
diferente de (≠) el valor especificado.
Ejemplo (8)
Se sabe que la tasa de incineración de un sólido es una variable aleatoria que puede
describirse mediante una distribución de probabilidad.
cm
Se quiere saber si la media de la taza de incineración (parámetro) es distinta de 50
s
Expresar la hipótesis nula y la hipótesis alternativa:
Solución:
Como en la hipótesis nula H 0 se establece que el parámetro desconocido es igual a un
valor especificado que sí se conoce, se tiene que la hipótesis nula es:
cm
H 0 : 50
s
Ejemplo (9)
Solución:
Lo primero que se debe identificar es el parámetro de interés, que en este caso es la
media poblacional.
Puesto que una decisión está basada en variables aleatorias, es posible asignarle
probabilidades a los errores, y éstos son representados como:
α = P (error tipo I)
= P (rechazar 𝐻0 | 𝐻0 es verdadera)
α también recibe por nombre nivel de significancia.
β = P( error tipo II)
= P (no rechazar 𝐻0 | 𝐻0 es falsa)
𝜎 es conocida.
𝜎 es desconocida, el tamaño de la muestra es pequeño y la población es normal.
A continuación se analizan los tres casos presentados al inicio de este apartado, aunque
no en el mismo orden.
H 0 : 0
1) El primer juego de hipótesis es
H 1 : 0
No se debe rechazar H 0 si z z 0 z
2 2
1
Región de rechazo Región de rechazo
Región de no
2 rechazo de Ho 2
z 0 z
2 2
1
Región de rechazo
Región de no
rechazo de Ho
0 z
H 0 : 0
3) El tercer juego de hipótesis es:
H 1 : 0
La regla de decisión se define como:
Se debe rechazar H 0 si z0 z
No se debe rechazar H 0 si z0 z
1
Región de rechazo
Región de no
rechazo de Ho
z 0
Ejemplo (10)
Una muestra aleatoria de 100 muertes registradas en México durante el año pasado,
muestra una vida promedio de 71.8 años. Suponiendo una desviación estándar
poblacional de 8.9 años, ¿esto parece indicar que la vida media hoy en día es diferente
que 70 años? Utilice un nivel de significancia de 0.05.
Solución:
Siguiendo los pasos descritos anteriormente:
Parámetro media poblacional (µ)
Hipótesis nula H 0 : 70 años
Hipótesis alternativa H1 : 70 años
Nivel de significancia 0.05
Probabilidad del 0.95
95% de confianza
1
Región de rechazo Región de rechazo
Región de no
rechazo de Ho
z 1.96 z 1.96 z0 2.02
2 2
Ejemplo (11)
Del ejemplo anterior se vio que la media es distinta a 70 años, ahora se tiene interés en
saber si la vida media, hoy en día, es mayor que 70 años. Utilice un nivel de significancia
de 0.05.
Región de rechazo
Región de no
rechazo de Ho
z 1.645 z0 2.02
A continuación se analizan los tres casos presentados al inicio de este apartado, aunque
no en el mismo orden.
H 0 : 0
1) El primer juego de hipótesis es
H 1 : 0
La regla de decisión se define como:
Se debe rechazar H 0 si t0 t o t 0 t
2 2
No se debe rechazar H 0 si t t 0 t
2 2
H 0 : 0
2) El segundo juego de hipótesis es:
H 1 : 0
La regla de decisión se define como:
Se debe rechazar H 0 si t0 t , n 1
No se debe rechazar H 0 si t0 t , n 1
1
Región de rechazo
Región de no
rechazo de Ho
t
H 0 : 0
3) El tercer juego de hipótesis es:
H 1 : 0
La regla de decisión se define como:
Se debe rechazar H 0 si t0 t , n 1
No se debe rechazar H 0 si t0 t , n 1
1
Región de rechazo
Región de no
rechazo de Ho
t
El instituto eléctrico Edison publica cifras del número anual de kilowatt-hora (kWh) que
gastan varios aparatos electrodomésticos. Se afirma que una aspiradora gasta un
promedio de 46 kWh al año. Si una muestra aleatoria de 12 hogares indica que las
aspiradoras gastan un promedio de 42 kWh al año con una desviación estándar de 11.9
kWh. ¿La información de la muestra sugiere, a un nivel de significancia de 0.05, que las
aspiradoras gastan en promedio menos de 46 kWh anualmente? Suponga que el gasto
de kWh es normal.
Solución:
Siguiendo los pasos descritos anteriormente:
Así, regresando al ejemplo (10), acerca de las muertes registradas en México, el intervalo
de confianza del 95% se determina haciendo:
8.9 8.9
71 .8 1.96 0 71 .8 1.96
100 100
70 .0556 0 73 .5444
Solución:
Siguiendo los pasos descritos para la prueba de hipótesis:
200
Valor crítico z 2.33
8) Decisión No rechazar H 0 porque z0 z
Conclusión La información contenida en la muestra
no permite afirmar que la proporción es
menor que 0.4
Se considera que una medicina comúnmente prescrita para aliviar la tensión nerviosa es
efectiva en el 60% de los casos. Resultados experimentales con un nuevo medicamento
muestran que 70 de 100 adultos que padecen de tensión nerviosa, tuvieron alivio al
tomar el medicamento. ¿La evidencia es suficiente para concluir que el nuevo
medicamento es más eficaz que la que prescrita comúnmente? Utilizar un nivel de
confianza de 95%.
Solución:
Siguiendo los pasos descritos para la prueba de hipótesis:
100
Valor crítico z 1.65
8) Decisión Rechazar H 0 porque z0 z y
aceptar H1
Conclusión Se puede afirmar que la nueva
medicina es más eficaz a la que se
prescribe actualmente.
__
Se sabe que con un valor observado p , no rechazar H 0 con una confianza 1001 %
implica:
z z0 z
2 2
Es decir
__
p p0
z z |
2 p0 1 p0 2
De donde se obtiene:
__
p0 1 p0 __
p0 1 p0
p z p0 p z
2 n 2 n
Así, retomando el ejemplo (14) tenemos que el intervalo de confianza del 95% se
desarrolla de la siguiente manera:
0.71 0.7 0.71 0.7
0.7 1.96 p0 0.7 1.96
100 100
0.7 0.089 p0 0.7 0.089
0.6101 p0 0.789
Actividad 4. Problemario
Autoevaluación
Cierre de la unidad
En la segunda parte de esta unidad se usaron los contenidos previos para el cálculo de los
estimadores puntual y por intervalo de la proporción. Se revisó, además, la metodología
para dar certeza a las hipótesis de investigación y se usaron al realizar pruebas de
hipótesis para la media y la proporción.
Fuentes de consulta