Documentos de Académico
Documentos de Profesional
Documentos de Cultura
SESP U2 Contenido PDF
SESP U2 Contenido PDF
3º semestre
Clave:
LIC. 01142315
Unidad 2
Estadística inferencial para una población
Estadística para la investigación en seguridad pública
Unidad 2. Estadística inferencial para una población
Índice
Presentación.................................................................................................................................................................................................... 2
Propósitos........................................................................................................................................................................................................ 5
Competencia a desarrollar ............................................................................................................................................................................... 5
Estimación puntual y por intervalo de la media ................................................................................................................................................ 5
Cierre............................................................................................................................................................................................................. 45
Fuentes de consulta ...................................................................................................................................................................................... 46
Presentación
En la presente unidad:
Se describe el propósito de la estadística inferencial. Se presenta el significado de estimador puntual, por intervalo y de distribución
muestral, y se analiza cómo obtener conclusiones acerca de una población a partir de una muestra.
Se estudian dos distribuciones muestrales: la de la media y la de la proporción.
Se presentan condiciones, características y metodología para determinar sus estimadores puntuales y por intervalo.
Se analiza el significado de realizar una prueba de hipótesis, de la metodología que se sigue, y se realizan pruebas de hipótesis
para la media y la proporción.
Se muestra la relación entre una prueba de hipótesis y un intervalo de confianza.
La teoría del muestro permite obtener información acerca de una población finita a través de muestras extraídas al azar; sin
embargo, es más práctico y frecuentemente más importante inferir información de una población mediante varias muestras
extraídas de ella.
Lo anterior se hace con la inferencia estadística o estadística inferencial, basándose en la teoría del muestro y el objetivo es estimar
una medida descriptiva de la población (por ejemplo, la media o la varianza) a partir de la medida descriptiva de la muestra (media o
varianza muestral); a los primeros se les llama parámetros y a los segundos estadísticos.
Por ello, para una población en particular, los parámetros son fijos y frecuentemente desconocidos, mientras que los estadísticos varían
dependiendo de la muestra.
A continuación se muestran algunos de los parámetros más comunes y sus correspondientes estadísticos:
Medida descriptiva Parámetro Estadístico
Media _
x
Varianza 2 s2
Desviación estándar s
Proporción p _
p
Dado que las inferencias estadísticas que se hacen acerca de la población se realizan por medio de muestras, lo natural es usar la media y
la varianza (estadísticos) como estimadores de los parámetros correspondientes.
Para analizar el sesgo, considérese que se toman una gran cantidad de muestras de una población con media y que se determina la
_
media de cada una de las muestras, obteniendo los valores xi , con éstos es posible construir una distribución cuya media x tiene un
_
valor que puede estar cercano o no al valor de la media poblacional . Si el valor de la de la media de la distribución de medias x es
_
_
cercano al de la población , se dice que x es un estimador insesgado de .
Si la media de la distribución muestral de un estadístico es igual a su correspondiente parámetro, el estadístico se llama estimador
insesgado del parámetro; si no es igual se denomina estimador sesgado. Los valores correspondientes de tales estadísticos se conocen
como estimaciones insesgadas o sesgadas, respectivamente. Hay dos tipos de estimación de parámetros.
Es importante no confundir un estimador puntual con una estimación puntual; debe recordarse que la segunda es un valor particular
obtenido de un estimador puntual.
Propósitos
Al término de esta unidad lograrás:
Competencia a desarrollar
Analiza la información de una muestra para identificar las dinámicas de la población de estudio, mediante la
resolución de problemas con técnicas de estadística inferencial.
de las muestras, con estos valores se puede construir una distribución de la cual también se puede encontrar la media __ como
x
usualmente se ha hecho.
Por la forma en que se calcula __ , puede verse que un estimador puntual es una función de un conjunto de observaciones de la población
x
__
Del mismo modo, la información contenida en las xi calculadas permite construir un intervalo dentro del cual puede estar contenido el valor
del parámetro .
Puede ser claro que por medio de las muestras es posible hacer una estimación de cualquiera de los parámetros de una población, de
manera que no es fácil determinar cuál de los estadísticos es el más apropiado. Los siguientes cuatro criterios permiten hacer esta
elección:
1. Inestabilidad: Es preferible usar un estimador no sesgado, es decir, cuando ocurre que la esperanza del estadístico es igual al
valor del parámetro, por ejemplo:
_
E x .
Ahora bien, aun cuando lo anterior se cumpla, puede ocurrir algo como lo mostrado en la siguiente gráfica:
__
x
En este caso, la elección del estimador, usando sólo este criterio, no resulta suficiente.
2. Consistencia: Se dice que el estimador del parámetro es consistente si el valor del estimador se aproxima al valor del
parámetro de la población cuando el tamaño de la muestra se hace más y más grande.
E x x De aquí puede apreciarse que conforme n se hace más grande el cociente se hace cada vez más
pequeño, por lo que la desviación se acerca más al cero; ahora bien, que la desviación estándar sea
cercana a cero, significa que los valores de x se encuentran muy cerca y alrededor del valor de .
x
n
3. Eficiencia: Se dice que el estimador del parámetro es eficiente cuando tiene la menor de las varianzas entre todos los posibles
estimadores.
4. Suficiencia: Se dice que el estimador es suficiente si genera tanta o más información acerca del parámetro de la que podría
proporcionar otro estimador cuando se utiliza la misma muestra.
En general, existen tres tipos de información que se desea conocer sobre una distribución:
Por supuesto, querríamos conocer esta misma información respecto a una distribución muestral, como la distribución muestral de x . Con
el siguiente ejemplo, se muestra la manera en que se procede para obtener la información y dar respuesta a las preguntas previas.
Ejemplo 1. Considere que en la siguiente tabla se representa a toda una población, que consiste en el número de asaltos que la sucursal
de cierta empresa tiene en una hora determinada del día:
A continuación:
b) Haz una lista de todas las posibles muestras de tamaño 2 que se pueden generar de dicha población, considerando que se hace un
muestreo con remplazo (son 25 en total).
Núm. de
2 3 6 8 9
pizzas
2
c) Determina la media de cada una de las muestras y verifica la obtención de los valores de la tabla que se muestra a continuación.
Con los datos de la tabla del inciso b), completa la distribución de medias muestrales:
__
x 2 2.5 3 4 4.5 5 5.5 6 7 7.5 8 8.5 9
__
P X x 1 1 4 2 2
25 25 25 25 25
d) Haz los cálculos pertinentes para demostrar que la media de la distribución de medias muestrales es:
5.60
__
x
e) Haz los cálculos pertinentes para demostrar que la varianza y la desviación estándar de la distribución de medias muestrales son,
respectivamente:
2 x 3.720 y x 1.923
f) Grafica las distribuciones de probabilidad de los incisos b) y d) y analiza las gráficas usando los valores de las medias y
desviaciones estándar para cada distribución.
A continuación se hará un tratamiento común que consiste en agrupar las medias en intervalos; recuérdese que existen distintos criterios
para determinar el número k de intervalos. Si se usa el criterio 2 k n 25 , siendo k el menor número que cumple con la desigualdad, se
2 2
concluye que k 4 , es decir, se deben usar cuatro intervalos; sin embargo, también se puede determinar el número de intervalos haciendo
k n 25 .
g) Para el presente ejercicio, se considera el que k 5 . Realiza los cálculos necesarios y completa la tabla siguiente.
Marca de clase x
__
Límites de clase Frecuencia de clase
2.0 – 3.4 2.7 4
3.4 – 4.8 4
4.8 – 6.2 9
6.2 – 7.6 4
7.6 - 9.0 4
Tratar de generar una distribución de medias muestrales para muestras de tamaño 3 es un ejercicio que puede llevarse a cabo con un poco
de paciencia y que lleva a casi las mismas conclusiones que las descritas anteriormente; el único cambio es que 2 3 2 x , lo que da una
pista sobre la relación existente entre la varianza de la población y la varianza de la distribución de medias muestrales.
Otro ejercicio interesante, mucho menos costoso en tiempo y que se recomienda hacer, es construir la distribución de medias muestrales
cuando el muestreo se realiza sin restitución. Si se consideran los casos n 2 y n 3 , en cada uno de ellos sólo hay 10 muestras, y las
conclusiones son parecidas; éstas se enuncian a continuación:
En resumen, la distribución de medias muestrales es normal con media y varianza 2 x . Esto significa que es posible calcular la
2
__
probabilidad de que un valor de x se encuentre en un rango de valores, para lo que se deberá estandarizar mediante z x .
n
Como puede apreciarse, a través de la información generada de una muestra, es posible caracterizar a toda una población, ya que la
distribución de medias muestrales se comporta como una distribución normal.
Sin embargo, todo el análisis se puede llevar a cabo porque se conoce a toda la población y consecuentemente, se conocen sus
parámetros. Sin embargo, lo más frecuente es que no sea posible trabajar con todos los elementos de la población, porque ésta es muy
grande, sino únicamente con una muestra (pequeña en comparación con el tamaño de la población). En este caso, la distribución de
probabilidad que se usa es denominada t de Student.
Ejemplo 2
Una compañía fabricante de lámparas de seguridad industrial, asegura que éstas tienen una vida media útil de 60 meses y una desviación
estándar de 6 meses. Para verificar la información, una empresa prueba una muestra aleatoria de 50 lámparas de seguridad industrial.
a) ¿Qué tipo de distribución se puede usar para inferir sobre la media poblacional? Justificar.
b) ¿Cuál es la estandarización pertinente?
c) ¿Cuál es la probabilidad de encontrar una muestra con una vida útil promedio de menos de 58 meses?
Solución:
a) Como el tamaño de muestra es grande n 30 y la desviación estándar es conocida, se puede usar la distribución normal.
x x x
b) La estandarización que se puede usar es z .
x
n
__
c) Lo que se pide es P x 58 . Para determinar el valor de esta probabilidad, primero se debe estandarizar x 58 , es decir:
__
58 60
z
6
50
2
50
6
2.35
Al consultar en la tabla para la distribución normal:
__
P x 2.35 0.0094
Este resultado significa que la probabilidad es de 0.0094, o bien, que en el 0.94% de las ocasiones que se tome una muestra se tendrán lámparas
que duren menos de 58 meses. Aunque debe aclararse que esto será así sólo si la información que proporciona el fabricante es cierta.
Ejemplo 3
Un fabricante de armas afirma que su producto tiene un contenido promedio de níquel de 1.83 gramos. Se toma una muestra aleatoria de 8 de
estas armas y se determina que el contenido de níquel de cada uno de ellos es: 2.0, 1.7, 2.1, 1.9, 2.2, 2.1, 2.0 y 1.6 gramos.
a) Calcular la media y la desviación estándar de la muestra.
b) ¿Qué tipo de distribución se puede usar para inferir sobre la media poblacional? Justificar.
c) ¿Cuál es la estandarización pertinente?
d) Con esta información, y con una certeza del 95%, se quiere responder la pregunta: ¿la afirmación del fabricante es cierta?
Solución:
a) Para determinar la media de la muestra.
n
x i
x i 1
n
2.0 1.7 2.1 1.9 2.2 2.1 2.0 1.6
8
1.95
Para determinar la desviación estándar de la muestra, primero se calcula la varianza:
2
n __
xi x
s 2 i 1
n 1
2.0 1.95 2 1.7 1.95 2 2.1 1.95 2 1.9 1.95 2
2.2 1.95 2 2.1 1.95 2 2.0 1.95 2 1.6 1.95 2
7
0.0429
Entonces, la desviación estándar es s 0.2071 .
b) Como no conocemos el valor de , se estima a partir de s ; además, la muestra es pequeña por lo que se debe usar la
distribución t de Student para inferir sobre la media poblacional.
x
c) La estandarización que se usa para la distribución t de Student es t .
s
n
Al buscar el valor de t en la distribución t de Student con 7 grados de libertad, se ve que t está contenida en la región del 90%.
Probabilidad de 0.9
Lo anterior quiere decir que con una certeza del 90%, la información del fabricante es cierta; por lo tanto, la afirmación del fabricante no es cierta
con el nivel de certeza que dijo tener.
Como ya se mencionó, hay tres cosas que es deseable conocer acerca de una distribución:
El siguiente enunciado, conocido como el teorema del límite central, proporciona información sobre los tres aspectos.
Si se toman todas las muestras posibles, de tamaño n, sin reemplazamiento, de una población finita de tamaño N, con media µ y desviación
estándar σ, entonces la distribución de las medias muestrales:
Será de tipo normal cuando la población de la que proceden las muestras es de tipo normal; en caso contrario, se aproximará a una
normal para valores grandes de n n 30 .
N n
Tendrá desviación estándar x o x , respectivamente.
n n N 1
N n
El término es conocido como factor de corrección por población finita y puede omitirse cuando n 0.05 N , es decir,
N 1
cuando el tamaño de la muestra es menos del 5% del tamaño de la población.
Si para una población normal se quiere conocer la probabilidad de que un valor esté contenido entre la media y una desviación estándar
usando la gráfica para la distribución normal, fácilmente puede verse que la región en la que debería estar el valor es la parte central y se
puede tener una idea del valor esperado:
3 3
2 2
Por otra parte, y sabiendo que la gráfica es simétrica, la probabilidad se puede escribir:
P x P x P x
P 1 z 0 P 0 z 1
2P 0 z 1 2P 1 z 0
P x 2 0.3413
0.6826
P 2 x 2 95.44%
P 3 x 3 99.74%
Sin embargo, en muchas ocasiones lo que se desea conocer es la probabilidad de que la media poblacional esté contenida en un cierto
rango de valores, si se conoce el valor de la media de una muestra.
A continuación se muestra cómo determinar un intervalo para el cual existe una probabilidad conocida de que la media poblacional esté
contenida en dicho intervalo.
Ejemplo 4
Se desea saber entre qué valores puede estar la media de la población delictiva con una probabilidad del 0.95.
Solución: Se expresa la probabilidad dada en términos del intervalo donde puede estar contenido el valor normalizado y se despeja :
__
P 1.96 x 1.96 0.95
n n
__
P 1.96 x 1.96 0.95
n n
__ __
P x 1.96 x 1.96 0.95 .
n n
Esto quiere decir que la media de la población se encuentra contenida en el rango dado por x 1.96 x 1.96 ,
__ __
n n
que también puede ser expresado como un intervalo x 1.96 , x 1.96 ; a este intervalo se le denomina intervalo de
__ __
n n
confianza para una probabilidad de 0.95.
El resultado encontrado significa que para una población delictiva el intervalo de confianza depende de la media de la muestra,
sin embargo, aunque cada muestra que se tome proporciona un intervalo diferente, esta metodología garantiza que la media de
la población delictiva está contenida en el 95% de ellos.
La siguiente tabla de valores permite determinar el valor correspondiente de z para un intervalo de confianza dado.
Nivel de
99.7 99.0 98.0 96.0 95.5 95.0 90.0 80.0 68.3
confianza
Cuando se está considerando la distribución muestral de medias para estimar , el intervalo de confianza para la media poblacional se
encuentra con la expresión dada a continuación, siendo z el valor correspondiente al nivel de confianza deseado:
__
__
x z x z
n n
__
La “fórmula” significa que, conociendo x y , puede encontrarse un intervalo que contenga a con una confianza dada. Otras formas de
x z x , x z x y
x z
,xz
n n
Frecuentemente, la información que se obtiene de una muestra es solamente un sí o un no. Por ejemplo:
Una encuesta reveló que el 80% de las mujeres jóvenes fueron asaltadas en tiendas de autoservicio.
Un estudio indicó que el 60% de los Policías de género masculino de entre 28 y 50 años creen que los dos cónyuges deben
compartir los gastos del hogar.
Estos ejemplos muestran el significado de proporción: “fracción, razón o porcentaje que indica la parte de la muestra de la población que
posee un rasgo de interés particular” (Lind, Marchal y Wathen, 2008, p. 310).
__
x
El valor de la proporción se determina mediante p , siendo x el número de éxitos y n el número de elementos de la muestra; este
n
valor se usa como un estimador de la proporción de éxitos en la población de estudio.
Debido a la forma de encontrar la proporción, es natural pensar en una distribución binomial como el modelo para las proporciones, siempre
y cuando el tamaño de la muestra sea pequeño n 30 ya que en caso contrario, resulta mucho mejor utilizar la aproximación normal
a la binomial.
Por lo anterior, se utiliza la distribución normal para calcular la estimación de la proporción por intervalo; que equivale a encontrar el
intervalo de confianza para p poblacional.
__
x
Se sabe que p y que la variable x tiene un modelo de probabilidad binomial, cuya media es np y varianza npq , por tanto,
n
np
__ p.
p n
Lo anterior quiere decir que la media de la distribución muestral de proporciones es la probabilidad de éxito p.
npq
En el caso de la varianza se tiene que 2 .
n2
Considérese una población en la que los elementos son o éxitos o fracasos, en la que la probabilidad de éxito es p , siendo q 1 p la
probabilidad de fracaso.
__
Si se obtienen todas las posibles muestras de tamaño n y para cada muestra se determina la proporción p de éxito y con esta
información se construye una distribución de probabilidad; ésta tiene las siguientes propiedades:
La media es __ p .
p
La desviación estándar es __
pq .
p n
La distribución construida se denomina distribución muestral de proporciones y tiene las siguientes características:
es z p p .
pq
n
En este caso, la mejor manera de explicar cómo se determina un intervalo de confianza para las proporciones es la siguiente:
Ejemplo 7
Se desea estimar el porcentaje de varones adultos de cierta ciudad que cometen al menos un delito al día. Supóngase que se toma una muestra
aleatoria de 300 individuos y que, de ellos, 36 individuos cometen delitos.
Responder las siguientes tres preguntas, que también fueron respondidas para .
Por principio debemos resaltar el hecho de que el tamaño de muestra es lo bastante grande para justificar el uso de los métodos de la curva normal.
__
a) Como la proporción de la muestra p x tiene una distribución normal entonces tiene:
n
media p
y desviación estándar pq
pq
n 300
__
Se considera una probabilidad de 0.95 de que p se encuentre a una distancia menor de 1.96 desviaciones estándar de p , es decir, el error de
estimación debe ser menor que 1.96 pq ; por otra parte, como p es desconocida, debe estimarse haciendo:
300
__
x
p
n
36
0.12
300
(0.12 )(0.88 )
1.96 0.037
300
__
Es decir, con una probabilidad de 0.95, la estimación de la muestra p no difiere de p por más de 0.037 unidades, lo que da una buena idea de la
b) Para determinar el tamaño de la muestra necesaria, para obtener una precisión dada en la estimación de p , se selecciona n de
__
manera que el número apropiado de desviaciones estándar de p sea igual al error máximo deseado en la estimación.
Sea e el error de estimación máximo seleccionado y sea z el valor correspondiente a la probabilidad deseada para no exceder este
pq z 2 pq
error máximo. Entonces n debe satisfacer la ecuación z e , de donde n 2 .
n e
Para el problema que estamos resolviendo, sabemos que p no se conoce, de manera que debe estimarse según el valor de la
__
muestra, es decir, usando p 0.12 y para e 0.02 y z 1.96 tenemos:
n
1.96 2 0.12 0.88
0.02 2
1014
Por tanto, se necesitará una muestra adicional de 714 para obtener la precisión deseada de la estimación.
__ __
c) El intervalo de confianza del 95% para p se calcula usando el mismo razonamiento que para , sólo que p toma el lugar de x ,
con lo que se tiene:
__ __ __ __
__ __
pq pq
p 1.96 p p 1.96
n n
0.12 1.96
0.12 0.88 p 0.12 1.96 0.12 0.88
300 300
0.083 p 0.157
Por tanto, un intervalo de confianza al 95% para p está dado por 0.083 p 0.157 .
Es necesario aclarar que la solución a cada uno de estos incisos está basada en métodos de muestras grandes; afortunadamente los métodos son
bastante buenos también para muestras pequeñas, siempre que np 5 para p 0.5 y nq 5 para p 0.5 .
Prueba de hipótesis
Una hipótesis estadística es una aseveración o conjetura respecto a una o más poblaciones; por lo anterior, es muy importante tener claro
que una hipótesis estadística se formula sobre la población o distribución que se está estudiando, no sobre la muestra.
Para realizar una prueba de hipótesis es necesario establecer dos hipótesis estadísticas, conocidas como hipótesis nula e hipótesis
alternativa, respectivamente.
La hipótesis nula H 0 siempre se usa para establecer que el parámetro de interés, que es desconocido, es igual a un valor dado. Por
La hipótesis alternativa H1 establece que el parámetro es menor que (<), mayor que (>), o diferente de (≠) el valor especificado.
Ejemplo 8
Se sabe que la tasa de incineración de un residuo hospitalario es una variable aleatoria que puede describirse mediante una distribución de
probabilidad.
cm
Se quiere saber si la media de la taza de incineración (parámetro) es distinta de 50 .
s
Expresar la hipótesis nula y la hipótesis alternativa:
Solución:
Como en la hipótesis nula H0 se establece que el parámetro desconocido es igual a un valor especificado que sí se conoce, se tiene que la
hipótesis nula es:
cm
H 0 : 50
s
En el caso de la hipótesis alternativa H1 , ésta es para establecer que el parámetro es diferente del valor especificado para
0 , por lo que la
hipótesis alternativa o hipótesis de investigación es:
cm
H1 : 50
s
Al procedimiento mediante el cual se toma la decisión sobre una hipótesis en particular, se le denomina prueba de hipótesis.
Los procedimientos para realizar una prueba de hipótesis dependen de la información contenida en una muestra aleatoria de la población
de interés; si la información es consistente con la hipótesis, se concluye que ésta es verdadera, y en caso contrario que es falsa.
La hipótesis nula H 0 debe formularse de manera que al rechazarla se apoye la conclusión de la investigación; mientras que la hipótesis de
Ejemplo 9
Se seleccionará una muestra aleatoria de toletes policiales producidos con un nuevo método y se medirá el contenido de plástico. Se quiere saber
si el contenido medio de plástico por tolete policial es menor que 500 gramos.
Solución:
Lo primero que se debe identificar es el parámetro de interés, que en este caso es la media poblacional. En segundo lugar, debe establecerse
claramente lo que se quiere probar; según el enunciado, se quiere probar que la media sea menor o igual a 500 gramos, es decir, que: 500 g
Por tanto, la formulación del juego de hipótesis es:
H 0 : 500 g
H1 : 500g
Al tomar decisiones, se pueden cometer dos tipos de errores, cuyos nombres y descripciones son:
Error tipo I. Se refiere al hecho de rechazar la hipótesis nula H 0 cuando ésta es verdadera.
Error tipo II. Hace referencia al hecho de no rechazar la hipótesis nula H 0 cuando ésta es falsa.
Puesto que una decisión está basada en variables aleatorias, es posible asignarle probabilidades a los errores, y éstos son representados
como:
α = P (error tipo I)
= P (rechazar 𝐻0 | 𝐻0 es verdadera)
α también recibe por nombre nivel de significancia.
β = P( error tipo II)
= P (no rechazar 𝐻0 | 𝐻0 es falsa)
3. Especificar la hipótesis alternativa H1 , tomando en cuenta que se trata de la hipótesis de investigación, esto quiere decir que se
4. Escoger un nivel de significancia para α (controla la probabilidad de cometer el error tipo I).
5. Escoger una estadística de prueba apropiada.
6. Tomar una muestra aleatoria del parámetro.
7. Con los datos, calcular el estadístico de prueba.
8. Decidir si H 0 debe ser o no rechazada y reportar los resultados en el contexto del problema.
Debido a lo descrito anteriormente, las pruebas de hipótesis para un parámetro poblacional asumen una de estas tres formas:
A continuación se describirá cómo se realiza la prueba de hipótesis para la media poblacional, y luego se resolverá un ejemplo, en los
casos en los que:
𝜎 es conocida.
𝜎 es desconocida, el tamaño de la muestra es pequeño y la población es normal.
Si la hipótesis nula es verdadera, el z0 que se calcula caerá en la región de no rechazo de H 0 , en caso contrario, z0 caerá en la región de
rechazo, lo que significa que la muestra produjo un valor inusual del estadístico de prueba; lo anterior quiere decir que la información
Se debe rechazar H 0 si z 0 z o z 0 z
2 2
No se debe rechazar H 0 si z z 0 z
2 2
1
Región de rechazo Región de rechazo
Región de no
2 rechazo de Ho 2
z 0 z
2 2
Se debe rechazar
H 0 si z0 z .
No se debe rechazar H 0 si z0 z .
1
Región de rechazo
Región de no
rechazo de Ho
0 z
Se debe rechazar
H 0 si z0 z .
No se debe rechazar H 0 si z0 z .
1
Región de rechazo
Región de no
rechazo de Ho
z 0
Ejemplo 10
Una muestra aleatoria de 100 muertes de elementos de seguridad registradas en México durante el año pasado, muestra una vida
promedio de 71.8 años. Suponiendo una desviación estándar poblacional de 8.9 años, ¿esto parece indicar que la vida media de los
elementos de seguridad hoy en día es diferente que hace 70 años? Utilice un nivel de significancia de 0.05.
Solución:
1
Región de rechazo Región de rechazo
Región de no
rechazo de Ho
z 1.96 z 1.96 z0 2.02
2 2
Ejemplo 11
Del ejemplo anterior se vio que la media de hace 70 años es distinta, ahora se tiene interés en saber si la vida media de los elementos
de seguridad, hoy en día, es mayor que 70 años. Utilice un nivel de significancia de 0.05.
Región de rechazo
Región de no
rechazo de Ho
z 1.645 z0 2.02
x 0
El estadístico de prueba es t0 , es decir, una distribución t de Student con n-1 grados de libertad.
s
n
A continuación se analizan los tres casos presentados al inicio de este apartado, aunque no en el mismo orden.
Se debe rechazar H 0 si t 0 t o t 0 t .
2 2
No se debe rechazar H 0 si t t 0 t .
2 2
1
Región de rechazo Región de rechazo
Región de no
2 rechazo de Ho 2
t 0 t
2 2
Se debe rechazar H 0 si t0 t ,n 1 .
No se debe rechazar H 0 si t0 t ,n 1 .
1
Región de rechazo
Región de no
rechazo de Ho
t
1
Región de rechazo
Región de no
rechazo de Ho
t
Ejemplo 12
El Centro Preventivo y de Reinserción Social Nezahualcóyotl publica cifras del número anual de kilowatt-hora (kWh) que gastan varios equipos de
seguridad. Se afirma que una cámara gasta un promedio de 46 kWh al año. Si una muestra aleatoria de 12 celdas indica que las cámaras gastan
un promedio de 42 kWh al año con una desviación estándar de 11.9 kWh. ¿La información de la muestra sugiere, a un nivel de significancia de
0.05, que las cámaras gastan en promedio menos de 46 kWh anualmente? Suponga que el gasto de kWh es normal.
Solución:
5) Estadística t0
__
6) Datos x 42 kWh , s 11.9kWh
42 46
7) Estandarización t0 1.16 ,
11 .9
12
con 11 grados de libertad
Valor crítico t0.05,11 1.796
8) Decisión No rechazar 𝐻0 pues t0 t ,n1
Conclusión La información contenida en la
muestra no permite afirmar que el gasto promedio de kWh es menor que 46.
La prueba de hipótesis para la inferencia estadística está estrechamente relacionada con el enfoque de intervalo de confianza porque la
estimación del intervalo de confianza incluye el cálculo de límites para los que es “razonable” que el parámetro en cuestión se encuentre
dentro de ellos.
Para el caso de que una media poblacional µ con 𝜎 2 conocida, la prueba de hipótesis y la estimación del intervalo de confianza se basan en
x
la variable aleatoria estandarizada z
.
n
La prueba de H 0 : 0 contra H1 : 0 a un nivel de confianza de 1001 % equivale a calcular un intervalo de confianza de
1001 % sobre µ y rechazar 𝐻0 si 𝜇0 no está dentro del intervalo calculado y de no rechazarla si 𝜇0 está dentro del intervalo de
confianza.
z z0 z
2 2
__
x 0
z z
2 2
n
__
__
x z 0 x z
2 n 2 n
Así, regresando al ejemplo 10, acerca de las muertes de elementos de seguridad registradas en México, el intervalo de confianza del 95%
se determina haciendo:
8.9 8.9
71 .8 1.96 0 71 .8 1.96
100 100
70 .0556 0 73 .5444
Como 𝜇0 = 70 no está en el intervalo, se rechaza 𝐻0 . Con esto, se llega a la conclusión de que la vida media de los elementos de seguridad
hoy día es diferente que 70 años.
Las pruebas de hipótesis para la proporción asumen una de las siguientes formas:
H 0 : p p0
H 1 : p p0
H 0 : p p0
H 1 : p p0
H 0 : p p0
H 1 : p p0
Las dos primeras son denominadas pruebas de una cola y la tercera prueba de dos colas. En este caso, el estadístico a utilizar es:
p p0
z0
p0 1 p0
n
Ejemplo 13
Un informe reciente de la industria de seguros indicó que el 40% de las personas víctimas de asalto había sido víctima de por lo menos un
asalto los pasados cinco años. Un grupo de asesoría decidió investigar dicha afirmación, pues creía que la información era muy grande. Una
muestra de 200 asaltos de este año mostró que 74 personas también fueron víctimas los pasados cinco años, utilizando un nivel de
confianza del 99%.
Solución:
Ejemplo 14
Se considera que una medicina comúnmente prescrita para aliviar deseos de matar de una persona es efectiva en el 60% de
los casos. Resultados experimentales con un nuevo medicamento muestran que 70 de 100 adultos que padecen de estos
deseos tuvieron alivio al tomar el medicamento. ¿La evidencia es suficiente para concluir que el nuevo medicamento es más
eficaz que el prescrito comúnmente? Utilizar un nivel de confianza de 95%.
Solución:
5) Estadística de prueba z0
6) Datos p 0.7 , q 0.3 , n 100
0.7 0.6
z0 2.04
0.60 1 0.60
7) Estandarización
100
Valor crítico z 1.65
Conclusión Se puede afirmar que la nueva medicina es más eficaz a la que se prescribe
actualmente.
Igual que la prueba de hipótesis de la media se relaciona con su intervalo de confianza, la prueba de hipótesis de la proporción también se
relaciona con su respectivo intervalo de confianza.
En el caso de una proporción poblacional p , la estructura de la prueba de hipótesis y la de la estimación del intervalo se basan en la
__
variable aleatoria z p p0 , mientras que la prueba de H 0 : p p0 contra H1 : p p0 a un nivel de confianza 1001 % es
p0 1 p0
0
n
equivalente a calcular un intervalo de confianza de 1001 % sobre p .
Por tanto, se rechaza H 0 si p0 no está dentro del intervalo de confianza, y si p0 está dentro del intervalo de confianza, la hipótesis no se
rechaza.
__
Se sabe que con un valor observado p , no rechazar H 0 con una confianza 1001 % implica:
z z0 z
2 2
Es decir,
__
p p0
z z |
2 p0 1 p0 2
De donde se obtiene:
__
p0 1 p0 __
p0 1 p0
p z p0 p z
2 n 2 n
Así, retomando el ejemplo 14, tenemos que el intervalo de confianza del 95% se desarrolla de la siguiente manera:
Como p0 0.6 cae fuera del intervalo de confianza, entonces rechazamos H 0 con lo cual llegamos a la misma conclusión acerca de la
mayor eficacia del nuevo medicamento.
Cierre
En la primera parte de la unidad revisaste cómo se construye la metodología para hacer inferencia sobre una población, cómo se genera
una distribución muestral de medias, la manera de determinar los estadísticos que la caracterizan y la forma en que éstos se relacionan con
sus parámetros correspondientes. También se conoció una nueva distribución de probabilidad para muestras pequeñas, el significado de
estimador puntual y por intervalo, así como la metodología para encontrarlos.
En la segunda parte de esta unidad se usaron los contenidos previos para el cálculo de los estimadores puntual y por intervalo de la
proporción. Se revisó, además, la metodología para dar certeza a las hipótesis de investigación y se usaron al realizar pruebas de hipótesis
para la media y la proporción.
Con todo lo anterior se presentaron los conocimientos y herramientas necesarios para comparar dos muestras poblacionales
independientes para interpretar información que oriente en la toma de decisiones a través de técnicas de estadística inferencial.
Fuentes de consulta
(s. a.). (s. f.). El problema de la estimación de la proporción de la población. Recuperado de http://goo.gl/N1mlXa
(s. a.). (s. f.). Test de hipótesis. Recuperado de http://goo.gl/bCxhbM
Álvarez, G. (s. f.). Prueba de hipótesis. Recuperado de http://goo.gl/t7x7hw
Hoel, P. G. (1991). Estadística elemental (4ª ed.). México: CECSA.
Kazmier, L. y Díaz, A. (2006). Estadística aplicada a la administración y a la economía (4ª ed.). España: McGraw-Hill.
Lind, D. A., Marchal, W. G. y Whaten, S. A. (2008). Estadística aplicada a los negocios y la economía (13ª ed.). México: McGraw-
Hill.
Lind, D. A., Mason, R. D. y Marchal, W. G. (2001). Estadística para administración y economía (3ª ed.). México: McGraw-Hill.
Mayes, A. C. y Mayes, D. G. (1980). Fundamentos de estadística para economía. México: Limusa.
Naiman, A., Rosenfeld, R. y Zirkel, G. (1987). Introducción a la estadística (3ª ed.). México: McGraw-Hill.
Nieves, A. y Domínguez, F. C. (2010). Probabilidad y estadística para ingeniería. México: McGraw-Hill.
Pagano, R. R. (2011). Estadística para las ciencias del comportamiento (9ª ed.). México: Cengage Learning.
Ross, S. M. (2008). Introducción a la estadística. España: Reverté.