SESP U2 Contenido PDF

Nombre de la asignatura
Estadística para la investigación en seguridad pública
3º semestre
Clave:
LIC. 01142315
Unidad 2
Estadística inferencial para una población
Unidad 2. Estadística inferencial para una población
Índice
Presentación.................................................................................................................................................................................................... 2
Propósitos........................................................................................................................................................................................................ 5
Competencia a desarrollar ............................................................................................................................................................................... 5
Estimación puntual y por intervalo de la media ................................................................................................................................................ 5
Estimador puntual y sus propiedades ........................................................................................................................................................... 6

Distribución muestral de la media, normal y “t de Student” ........................................................................................................................... 8
Teorema del límite central .......................................................................................................................................................................... 17
Intervalo de confianza para la media .......................................................................................................................................................... 18
Estimación puntual y por intervalo de la proporción ....................................................................................................................................... 21
Estimador puntual y sus propiedades ......................................................................................................................................................... 22

Distribución muestral de la proporción ....................................................................................................................................................... 23
Cálculo de un intervalo de confianza para la proporción ............................................................................................................................ 24
Prueba de hipótesis ....................................................................................................................................................................................... 27
Conceptos generales de la metodología .................................................................................................................................................... 28

Prueba de hipótesis de la media ................................................................................................................................................................ 30
Relación entre una prueba de hipótesis de la media y un intervalo de confianza ....................................................................................... 39
Prueba de hipótesis de la proporción ......................................................................................................................................................... 40
Relación entre una prueba de hipótesis de la proporción y un intervalo de confianza ................................................................................ 43
Cierre............................................................................................................................................................................................................. 45
Fuentes de consulta ...................................................................................................................................................................................... 46
División de Ciencias Sociales y Administrativas / Seguridad Pública 1

Presentación
En la presente unidad:
 Se describe el propósito de la estadística inferencial. Se presenta el significado de estimador puntual, por intervalo y de distribución
muestral, y se analiza cómo obtener conclusiones acerca de una población a partir de una muestra.
 Se estudian dos distribuciones muestrales: la de la media y la de la proporción.
 Se presentan condiciones, características y metodología para determinar sus estimadores puntuales y por intervalo.
 Se analiza el significado de realizar una prueba de hipótesis, de la metodología que se sigue, y se realizan pruebas de hipótesis
para la media y la proporción.
 Se muestra la relación entre una prueba de hipótesis y un intervalo de confianza.
La teoría del muestro permite obtener información acerca de una población finita a través de muestras extraídas al azar; sin
embargo, es más práctico y frecuentemente más importante inferir información de una población mediante varias muestras
extraídas de ella.
Lo anterior se hace con la inferencia estadística o estadística inferencial, basándose en la teoría del muestro y el objetivo es estimar
una medida descriptiva de la población (por ejemplo, la media o la varianza) a partir de la medida descriptiva de la muestra (media o
varianza muestral); a los primeros se les llama parámetros y a los segundos estadísticos.
Por ello, para una población en particular, los parámetros son fijos y frecuentemente desconocidos, mientras que los estadísticos varían
dependiendo de la muestra.

A continuación se muestran algunos de los parámetros más comunes y sus correspondientes estadísticos:
Medida descriptiva Parámetro Estadístico
Media  _
x
Varianza 2 s2
Desviación estándar  s
Proporción p _
p
Los principales tipos de inferencia que se realizan son:
 Estimación puntual o por intervalo

 Prueba de hipótesis
Dado que las inferencias estadísticas que se hacen acerca de la población se realizan por medio de muestras, lo natural es usar la media y
la varianza (estadísticos) como estimadores de los parámetros correspondientes.
Para poder llevar a cabo lo anterior, existen dos problemas:
 Determinar si la estimación está sesgada.

 Determinar la cercanía del valor del estadístico con el valor del parámetro que se está estimando.

Para analizar el sesgo, considérese que se toman una gran cantidad de muestras de una población con media  y que se determina la
_
media de cada una de las muestras, obteniendo los valores xi , con éstos es posible construir una distribución cuya media  x  tiene un
_
 
valor que puede estar cercano o no al valor de la media poblacional  . Si el valor de la de la media de la distribución de medias  x  es
_
 
_
cercano al de la población   , se dice que x es un estimador insesgado de .
Si la media de la distribución muestral de un estadístico es igual a su correspondiente parámetro, el estadístico se llama estimador
insesgado del parámetro; si no es igual se denomina estimador sesgado. Los valores correspondientes de tales estadísticos se conocen
como estimaciones insesgadas o sesgadas, respectivamente. Hay dos tipos de estimación de parámetros.
1. Estimación puntual: Es la que está dada por un valor numérico.

2. Estimación por intervalo: Está dada por dos números, entre los que, muy probablemente, está el valor del parámetro poblacional.
Es importante no confundir un estimador puntual con una estimación puntual; debe recordarse que la segunda es un valor particular
obtenido de un estimador puntual.

Propósitos
Al término de esta unidad lograrás:
 Comprender los alcances de la estadística inferencial.

 Comprender el significado de estimador puntual y por intervalo.
 Determinar los estimadores puntuales y por intervalo de las distribuciones muestrales de la media y la
proporción.
 Comprender y utilizar la metodología de las pruebas de hipótesis para la media y la proporción.
 Reconocer la relación entre una prueba de hipótesis y un intervalo de confianza.
Competencia a desarrollar
 Analiza la información de una muestra para identificar las dinámicas de la población de estudio, mediante la
resolución de problemas con técnicas de estadística inferencial.
Estimación puntual y por intervalo de la media

 __ 
Si se consideran todas las posibles muestras de tamaño n que pueden extraerse de una población y se calcula la media  xi  de cada una
 
de las muestras, con estos valores se puede construir una distribución de la cual también se puede encontrar la media  __ como
x
usualmente se ha hecho.

Por la forma en que se calcula  __ , puede verse que un estimador puntual es una función de un conjunto de observaciones de la población
x
y es un “punto” en el sentido de que se refiere a un sólo valor.
__
Del mismo modo, la información contenida en las xi calculadas permite construir un intervalo dentro del cual puede estar contenido el valor
del parámetro  .
Estimador puntual y sus propiedades
Puede ser claro que por medio de las muestras es posible hacer una estimación de cualquiera de los parámetros de una población, de
manera que no es fácil determinar cuál de los estadísticos es el más apropiado. Los siguientes cuatro criterios permiten hacer esta
elección:
1. Inestabilidad: Es preferible usar un estimador no sesgado, es decir, cuando ocurre que la esperanza del estadístico es igual al
valor del parámetro, por ejemplo:
_
E  x   .
 
Ahora bien, aun cuando lo anterior se cumpla, puede ocurrir algo como lo mostrado en la siguiente gráfica:

 __
x
En este caso, la elección del estimador, usando sólo este criterio, no resulta suficiente.
2. Consistencia: Se dice que el estimador del parámetro es consistente si el valor del estimador se aproxima al valor del
parámetro de la población cuando el tamaño de la muestra se hace más y más grande.
Por ejemplo, para la distribución muestral de medias tenemos que:
E x    x   De aquí puede apreciarse que conforme n se hace más grande el cociente se hace cada vez más
pequeño, por lo que la desviación se acerca más al cero; ahora bien, que la desviación estándar sea
cercana a cero, significa que los valores de x se encuentran muy cerca y alrededor del valor de  .

x 
n
3. Eficiencia: Se dice que el estimador del parámetro es eficiente cuando tiene la menor de las varianzas entre todos los posibles
estimadores.
4. Suficiencia: Se dice que el estimador es suficiente si genera tanta o más información acerca del parámetro de la que podría
proporcionar otro estimador cuando se utiliza la misma muestra.

Distribución muestral de la media, normal y “t de Student”
En general, existen tres tipos de información que se desea conocer sobre una distribución:
¿Dónde está el centro?

¿Qué tanto varía?
¿Cómo está repartida?
Por supuesto, querríamos conocer esta misma información respecto a una distribución muestral, como la distribución muestral de x . Con
el siguiente ejemplo, se muestra la manera en que se procede para obtener la información y dar respuesta a las preguntas previas.
Ejemplo 1. Considere que en la siguiente tabla se representa a toda una población, que consiste en el número de asaltos que la sucursal
de cierta empresa tiene en una hora determinada del día:
Sucursal Número de asaltos

Calle Real 2
Puente grande 3
Plaza 6
El centro 8
Niño perdido 9
A continuación:
a) Haz los cálculos pertinentes para demostrar que:

  5.60 ,   7.440 y   2.728

2
b) Haz una lista de todas las posibles muestras de tamaño 2 que se pueden generar de dicha población, considerando que se hace un
muestreo con remplazo (son 25 en total).
Núm. de
2 3 6 8 9
pizzas
2
c) Determina la media de cada una de las muestras y verifica la obtención de los valores de la tabla que se muestra a continuación.
Con los datos de la tabla del inciso b), completa la distribución de medias muestrales:
__
x 2 2.5 3 4 4.5 5 5.5 6 7 7.5 8 8.5 9
 __

P X  x  1 1 4 2 2
 
25 25 25 25 25
d) Haz los cálculos pertinentes para demostrar que la media de la distribución de medias muestrales es:
  5.60
__
x

e) Haz los cálculos pertinentes para demostrar que la varianza y la desviación estándar de la distribución de medias muestrales son,
respectivamente:
 2 x  3.720 y  x  1.923
f) Grafica las distribuciones de probabilidad de los incisos b) y d) y analiza las gráficas usando los valores de las medias y
desviaciones estándar para cada distribución.
A continuación se hará un tratamiento común que consiste en agrupar las medias en intervalos; recuérdese que existen distintos criterios
para determinar el número k de intervalos. Si se usa el criterio 2 k  n  25 , siendo k el menor número que cumple con la desigualdad, se
2 2
concluye que k  4 , es decir, se deben usar cuatro intervalos; sin embargo, también se puede determinar el número de intervalos haciendo
k n 25 .
g) Para el presente ejercicio, se considera el que k  5 . Realiza los cálculos necesarios y completa la tabla siguiente.
Marca de clase  x 
__
Límites de clase Frecuencia de clase
 
2.0 – 3.4 2.7 4
3.4 – 4.8 4
4.8 – 6.2 9
6.2 – 7.6 4
7.6 - 9.0 4
h) Grafica el histograma para los datos del inciso g).

Al analizar los resultados obtenidos hasta ahora, es posible ver que:
 La media de la población y la media de la distribución de medias muestrales es igual, es decir:

 __
x .
 La varianza de la población es el doble de varianza de la distribución de medias muestrales, es decir:
 2  2 2 x .
 El rango de la población es el mismo que el de la distribución de medias muestrales.

 La población tenía una distribución de probabilidad uniforme, mientras que la distribución de medias muestrales parece ser una
distribución normal.
Tratar de generar una distribución de medias muestrales para muestras de tamaño 3 es un ejercicio que puede llevarse a cabo con un poco
de paciencia y que lleva a casi las mismas conclusiones que las descritas anteriormente; el único cambio es que  2  3 2 x , lo que da una
pista sobre la relación existente entre la varianza de la población y la varianza de la distribución de medias muestrales.
Otro ejercicio interesante, mucho menos costoso en tiempo y que se recomienda hacer, es construir la distribución de medias muestrales
cuando el muestreo se realiza sin restitución. Si se consideran los casos n  2 y n  3 , en cada uno de ellos sólo hay 10 muestras, y las
conclusiones son parecidas; éstas se enuncian a continuación:
 La media de la población y la media de la distribución de medias muestrales es igual, es decir:

 __
x .
 La varianza de la población es n veces la varianza de la distribución de medias muestrales, es decir:
 2  n 2 x .
__

 El rango de la población es el mismo que el de la distribución de medias muestrales.

 La distribución de medias muestrales tiende a una distribución normal conforme aumenta el tamaño de la muestra.
En resumen, la distribución de medias muestrales es normal con media  y varianza  2 x   . Esto significa que es posible calcular la
2
__
probabilidad de que un valor de x se encuentre en un rango de valores, para lo que se deberá estandarizar mediante z  x   .

n
Como puede apreciarse, a través de la información generada de una muestra, es posible caracterizar a toda una población, ya que la
distribución de medias muestrales se comporta como una distribución normal.
Sin embargo, todo el análisis se puede llevar a cabo porque se conoce a toda la población y consecuentemente, se conocen sus
parámetros. Sin embargo, lo más frecuente es que no sea posible trabajar con todos los elementos de la población, porque ésta es muy
grande, sino únicamente con una muestra (pequeña en comparación con el tamaño de la población). En este caso, la distribución de
probabilidad que se usa es denominada t de Student.
Las condiciones bajo las que se usa esta distribución son:
 Población con distribución normal. Si esto no sucede, no es posible usar t de Student.

 Varianza desconocida. Por tal motivo, se debe estimar mediante la varianza muestral.
Las características de la distribución t de Student son (Nieves y Domínguez, 2010, p. 382):
1. Tiene media igual a cero.

2. Están distribuidas simétricamente alrededor de su media.

3. Hay una distribución diferente para cada grado de libertad.
4. Tienen varianzas mayores que 1, pero, a medida que aumenta el número de grados de libertad, la varianza tiende a 1.
5. En comparación con la distribución normal estándar, las curvas son más bajas en la media, pero sus colas son más altas.
Para la distribución t de Student, la “estandarización” es: t  x   .

s
n
La t calculada de esta manera tiene una función de probabilidad t de Student con n  1 grados de libertad.
Ejemplo 2
Una compañía fabricante de lámparas de seguridad industrial, asegura que éstas tienen una vida media útil de 60 meses y una desviación
estándar de 6 meses. Para verificar la información, una empresa prueba una muestra aleatoria de 50 lámparas de seguridad industrial.
a) ¿Qué tipo de distribución se puede usar para inferir sobre la media poblacional? Justificar.
b) ¿Cuál es la estandarización pertinente?
c) ¿Cuál es la probabilidad de encontrar una muestra con una vida útil promedio de menos de 58 meses?
Solución:
a) Como el tamaño de muestra es grande n  30  y la desviación estándar es conocida, se puede usar la distribución normal.
x  x x  
b) La estandarización que se puede usar es z   .
x 
n

__
c) Lo que se pide es P  x  58  . Para determinar el valor de esta probabilidad, primero se debe estandarizar x  58 , es decir:
__
 
58  60
z
6
50
2
 50
6
 2.35
Al consultar en la tabla para la distribución normal:
__ 
P  x  2.35   0.0094
 
Este resultado significa que la probabilidad es de 0.0094, o bien, que en el 0.94% de las ocasiones que se tome una muestra se tendrán lámparas
que duren menos de 58 meses. Aunque debe aclararse que esto será así sólo si la información que proporciona el fabricante es cierta.
Ejemplo 3
Un fabricante de armas afirma que su producto tiene un contenido promedio de níquel de 1.83 gramos. Se toma una muestra aleatoria de 8 de
estas armas y se determina que el contenido de níquel de cada uno de ellos es: 2.0, 1.7, 2.1, 1.9, 2.2, 2.1, 2.0 y 1.6 gramos.
a) Calcular la media y la desviación estándar de la muestra.
b) ¿Qué tipo de distribución se puede usar para inferir sobre la media poblacional? Justificar.
c) ¿Cuál es la estandarización pertinente?
d) Con esta información, y con una certeza del 95%, se quiere responder la pregunta: ¿la afirmación del fabricante es cierta?

Solución:
a) Para determinar la media de la muestra.
n
x i
x i 1
n
2.0  1.7  2.1  1.9  2.2  2.1  2.0  1.6

8
 1.95
Para determinar la desviación estándar de la muestra, primero se calcula la varianza:
2
 n __

  xi  x
s 2  i 1  
n 1
2.0  1.95 2  1.7  1.95 2  2.1  1.95 2  1.9  1.95 2 

2.2  1.95 2  2.1  1.95 2  2.0  1.95 2  1.6  1.95 2
7
 0.0429
Entonces, la desviación estándar es s  0.2071 .
b) Como no conocemos el valor de  , se estima a partir de s ; además, la muestra es pequeña por lo que se debe usar la
distribución t de Student para inferir sobre la media poblacional.
x
c) La estandarización que se usa para la distribución t de Student es t .
s
n

d) Al sustituir en la expresión anterior, y realizar los cálculos indicados, se tiene:

x
t
s
n
1.95  1.83

0.207
8
 1.64
Al buscar el valor de t en la distribución t de Student con 7 grados de libertad, se ve que t está contenida en la región del 90%.
Probabilidad de 0.9
 t0.05,7 t  1.64 t0.05,7

 1.89 1.89
Lo anterior quiere decir que con una certeza del 90%, la información del fabricante es cierta; por lo tanto, la afirmación del fabricante no es cierta
con el nivel de certeza que dijo tener.

Teorema del límite central
Como ya se mencionó, hay tres cosas que es deseable conocer acerca de una distribución:
 ¿Dónde está el centro?

 ¿Qué tanto varía?
 ¿Cómo está repartida?
El siguiente enunciado, conocido como el teorema del límite central, proporciona información sobre los tres aspectos.
Si se toman todas las muestras posibles, de tamaño n, sin reemplazamiento, de una población finita de tamaño N, con media µ y desviación
estándar σ, entonces la distribución de las medias muestrales:
 Será de tipo normal cuando la población de la que proceden las muestras es de tipo normal; en caso contrario, se aproximará a una
normal para valores grandes de n n  30 .
 Tendrá media  .

__
x
  N n
 Tendrá desviación estándar  x  o x  , respectivamente.
n n N 1
N n
El término es conocido como factor de corrección por población finita y puede omitirse cuando n  0.05 N , es decir,
N 1
cuando el tamaño de la muestra es menos del 5% del tamaño de la población.

Intervalo de confianza para la media
Si para una población normal se quiere conocer la probabilidad de que un valor esté contenido entre la media y una desviación estándar
usando la gráfica para la distribución normal, fácilmente puede verse que la región en la que debería estar el valor es la parte central y se
puede tener una idea del valor esperado:
  3       3
  2    2
Por otra parte, y sabiendo que la gráfica es simétrica, la probabilidad se puede escribir:
P      x       P      x    P    x     
 P   1  z  0  P  0  z  1 
 2P  0  z  1  2P  1  z  0 
Al buscar en la tabla correspondiente, se concluye:
P      x       2  0.3413 
 0.6826
De manera similar, se puede demostrar que:
P   2  x    2   95.44%
P   3  x    3   99.74%

Sin embargo, en muchas ocasiones lo que se desea conocer es la probabilidad de que la media poblacional esté contenida en un cierto
rango de valores, si se conoce el valor de la media de una muestra.
A continuación se muestra cómo determinar un intervalo para el cual existe una probabilidad conocida de que la media poblacional esté
contenida en dicho intervalo.
Ejemplo 4
Se desea saber entre qué valores puede estar la media de la población delictiva con una probabilidad del 0.95.
Solución: Se expresa la probabilidad dada en términos del intervalo donde puede estar contenido el valor normalizado y se despeja  :
P  1.96  z  1.96  0.95

 __ 
 x  
P  1.96   1.96   0.95

 
 n 
  __
 
P  1.96  x    1.96   0.95
 n n
  __
 
P 1.96    x  1.96   0.95
 n n
  __
 
P  1.96    x  1.96   0.95
 n n
De donde, finalmente, se obtiene que:

__  __
 
P  x  1.96    x  1.96   0.95 .
 n n
Esto quiere decir que la media de la población se encuentra contenida en el rango dado por x  1.96     x  1.96  ,
__ __
n n
que también puede ser expresado como un intervalo  x  1.96  , x  1.96   ; a este intervalo se le denomina intervalo de
__ __
 n n
confianza para una probabilidad de 0.95.
El resultado encontrado significa que para una población delictiva el intervalo de confianza depende de la media de la muestra,
sin embargo, aunque cada muestra que se tome proporciona un intervalo diferente, esta metodología garantiza que la media de
la población delictiva está contenida en el 95% de ellos.
La siguiente tabla de valores permite determinar el valor correspondiente de z para un intervalo de confianza dado.
Nivel de
99.7 99.0 98.0 96.0 95.5 95.0 90.0 80.0 68.3
confianza
z 3.00 2.58 2.33 2.05 2.00 1.96 1.65 1.28 1.00
Cuando se está considerando la distribución muestral de medias para estimar  , el intervalo de confianza para la media poblacional se
encuentra con la expresión dada a continuación, siendo z el valor correspondiente al nivel de confianza deseado:
__
 __

x z    x z
n n

__
La “fórmula” significa que, conociendo x y  , puede encontrarse un intervalo que contenga a  con una confianza dada. Otras formas de
expresar el intervalo de confianza:
x  z x , x  z x  y 
x  z
  
,xz 
 n n
Estimación puntual y por intervalo de la proporción
Frecuentemente, la información que se obtiene de una muestra es solamente un sí o un no. Por ejemplo:
 Una encuesta reveló que el 80% de las mujeres jóvenes fueron asaltadas en tiendas de autoservicio.
 Un estudio indicó que el 60% de los Policías de género masculino de entre 28 y 50 años creen que los dos cónyuges deben
compartir los gastos del hogar.
Estos ejemplos muestran el significado de proporción: “fracción, razón o porcentaje que indica la parte de la muestra de la población que
posee un rasgo de interés particular” (Lind, Marchal y Wathen, 2008, p. 310).
__
x
El valor de la proporción se determina mediante p  , siendo x el número de éxitos y n el número de elementos de la muestra; este
n
valor se usa como un estimador de la proporción de éxitos en la población de estudio.

Debido a la forma de encontrar la proporción, es natural pensar en una distribución binomial como el modelo para las proporciones, siempre
y cuando el tamaño de la muestra sea pequeño n  30 ya que en caso contrario, resulta mucho mejor utilizar la aproximación normal
a la binomial.
Por lo anterior, se utiliza la distribución normal para calcular la estimación de la proporción por intervalo; que equivale a encontrar el
intervalo de confianza para p poblacional.
Estimador puntual y sus propiedades
__
x
Se sabe que p  y que la variable x tiene un modelo de probabilidad binomial, cuya media es np y varianza npq , por tanto,
n
np
 
__  p.
p n
Lo anterior quiere decir que la media de la distribución muestral de proporciones es la probabilidad de éxito  p.
npq
En el caso de la varianza se tiene que  2  .
n2

Distribución muestral de la proporción
Considérese una población en la que los elementos son o éxitos o fracasos, en la que la probabilidad de éxito es p , siendo q 1 p la
probabilidad de fracaso.
__
Si se obtienen todas las posibles muestras de tamaño n y para cada muestra se determina la proporción p de éxito y con esta
información se construye una distribución de probabilidad; ésta tiene las siguientes propiedades:
 La media es __  p .
p
 La desviación estándar es   __
pq .
p n
La distribución construida se denomina distribución muestral de proporciones y tiene las siguientes características:
1. Proviene de una población con distribución binomial:

a. Los datos de la muestra son el resultado de contar.
b. Únicamente hay dos resultados posibles: éxito o fracaso.
c. La probabilidad de éxito es constante de un evento a otro.
d. Los eventos son independientes.
2. Si se cumple que n p  5 y n q  5 se puede recurrir a la distribución normal para aproximar a la binomial y la estandarización
__
es z  p  p .
pq
n

Cálculo de un intervalo de confianza para la proporción
En este caso, la mejor manera de explicar cómo se determina un intervalo de confianza para las proporciones es la siguiente:
Ejemplo 7
Se desea estimar el porcentaje de varones adultos de cierta ciudad que cometen al menos un delito al día. Supóngase que se toma una muestra
aleatoria de 300 individuos y que, de ellos, 36 individuos cometen delitos.
Responder las siguientes tres preguntas, que también fueron respondidas para  .
a) ¿Cuál es la exactitud de la proporción de la muestra como estimación de p ?

b) ¿Qué tamaño de muestra se necesitaría si deseamos una probabilidad de 0.95 de que el error de la estimación no exceda a 0.02
unidades?
c) ¿Cuál es el intervalo de confianza a 95% para p ?
Solución:
Por principio debemos resaltar el hecho de que el tamaño de muestra es lo bastante grande para justificar el uso de los métodos de la curva normal.
__
a) Como la proporción de la muestra p  x tiene una distribución normal entonces tiene:
n
 media p

 y desviación estándar pq

pq
n 300
__
Se considera una probabilidad de 0.95 de que p se encuentre a una distancia menor de 1.96 desviaciones estándar de p , es decir, el error de
estimación debe ser menor que 1.96 pq ; por otra parte, como p es desconocida, debe estimarse haciendo:
300
__
x
p
n
36
  0.12
300
Por tanto, el error de estimación es aproximadamente:
(0.12 )(0.88 )
1.96  0.037
300
__
Es decir, con una probabilidad de 0.95, la estimación de la muestra p no difiere de p por más de 0.037 unidades, lo que da una buena idea de la
exactitud del valor de muestra 0.12 como estimación de p .
b) Para determinar el tamaño de la muestra necesaria, para obtener una precisión dada en la estimación de p , se selecciona n de
__
manera que el número apropiado de desviaciones estándar de p sea igual al error máximo deseado en la estimación.

Sea e el error de estimación máximo seleccionado y sea z el valor correspondiente a la probabilidad deseada para no exceder este
pq z 2 pq
error máximo. Entonces n debe satisfacer la ecuación z  e , de donde n  2 .
n e
Para el problema que estamos resolviendo, sabemos que p no se conoce, de manera que debe estimarse según el valor de la
__
muestra, es decir, usando p  0.12 y para e  0.02 y z  1.96 tenemos:
n
1.96 2 0.12 0.88 
0.02 2
 1014
Por tanto, se necesitará una muestra adicional de 714 para obtener la precisión deseada de la estimación.
__ __
c) El intervalo de confianza del 95% para p se calcula usando el mismo razonamiento que para  , sólo que p toma el lugar de x ,
con lo que se tiene:
__ __ __ __
__ __
pq pq
p  1.96  p  p  1.96
n n
0.12  1.96
0.12 0.88   p  0.12  1.96 0.12 0.88 
300 300
0.083  p  0.157
Por tanto, un intervalo de confianza al 95% para p está dado por 0.083  p  0.157 .

Es necesario aclarar que la solución a cada uno de estos incisos está basada en métodos de muestras grandes; afortunadamente los métodos son
bastante buenos también para muestras pequeñas, siempre que np  5 para p  0.5 y nq  5 para p  0.5 .
Prueba de hipótesis
Una hipótesis estadística es una aseveración o conjetura respecto a una o más poblaciones; por lo anterior, es muy importante tener claro
que una hipótesis estadística se formula sobre la población o distribución que se está estudiando, no sobre la muestra.
Para realizar una prueba de hipótesis es necesario establecer dos hipótesis estadísticas, conocidas como hipótesis nula e hipótesis
alternativa, respectivamente.
La hipótesis nula H 0 siempre se usa para establecer que el parámetro de interés, que es desconocido, es igual a un valor dado. Por
ejemplo, si no se conoce la media poblacional µ, la hipótesis nula es: H 0 :   0 .
La hipótesis alternativa H1 establece que el parámetro es menor que (<), mayor que (>), o diferente de (≠) el valor especificado.
Ejemplo 8
Se sabe que la tasa de incineración de un residuo hospitalario es una variable aleatoria que puede describirse mediante una distribución de
probabilidad.
cm
Se quiere saber si la media de la taza de incineración (parámetro) es distinta de 50 .
s
Expresar la hipótesis nula y la hipótesis alternativa:

Solución:
Como en la hipótesis nula H0 se establece que el parámetro desconocido es igual a un valor especificado que sí se conoce, se tiene que la
hipótesis nula es:
cm
H 0 :   50
s
En el caso de la hipótesis alternativa H1 , ésta es para establecer que el parámetro es diferente del valor especificado para
 0 , por lo que la
hipótesis alternativa o hipótesis de investigación es:
cm
H1 :   50
s
Conceptos generales de la metodología
Al procedimiento mediante el cual se toma la decisión sobre una hipótesis en particular, se le denomina prueba de hipótesis.
Los procedimientos para realizar una prueba de hipótesis dependen de la información contenida en una muestra aleatoria de la población
de interés; si la información es consistente con la hipótesis, se concluye que ésta es verdadera, y en caso contrario que es falsa.
La hipótesis nula H 0 debe formularse de manera que al rechazarla se apoye la conclusión de la investigación; mientras que la hipótesis de
investigación debe expresarse como la hipótesis alternativa H1 .
Ejemplo 9
Se seleccionará una muestra aleatoria de toletes policiales producidos con un nuevo método y se medirá el contenido de plástico. Se quiere saber
si el contenido medio de plástico por tolete policial es menor que 500 gramos.

Solución:
Lo primero que se debe identificar es el parámetro de interés, que en este caso es la media poblacional. En segundo lugar, debe establecerse
claramente lo que se quiere probar; según el enunciado, se quiere probar que la media sea menor o igual a 500 gramos, es decir, que:   500 g
Por tanto, la formulación del juego de hipótesis es:
H 0 :   500 g
H1 :   500g
Al tomar decisiones, se pueden cometer dos tipos de errores, cuyos nombres y descripciones son:
 Error tipo I. Se refiere al hecho de rechazar la hipótesis nula H 0 cuando ésta es verdadera.
 Error tipo II. Hace referencia al hecho de no rechazar la hipótesis nula H 0 cuando ésta es falsa.
Podemos resumirlos en el siguiente cuadro:
Decisión H 0 es verdadera H0 es falsa
No rechazar H0 No error Error tipo II
Rechazar H0 Error tipo I No error
Puesto que una decisión está basada en variables aleatorias, es posible asignarle probabilidades a los errores, y éstos son representados
como:

 α = P (error tipo I)
= P (rechazar 𝐻0 | 𝐻0 es verdadera)
α también recibe por nombre nivel de significancia.
 β = P( error tipo II)
= P (no rechazar 𝐻0 | 𝐻0 es falsa)
A continuación se describe el procedimiento general para realizar una prueba de hipótesis:
1. Leer cuidadosamente el problema para identificar el parámetro de interés.

2. Estructurar la hipótesis nula H 0 , sin olvidar que contiene a la igualdad.
3. Especificar la hipótesis alternativa H1 , tomando en cuenta que se trata de la hipótesis de investigación, esto quiere decir que se
espera rechazar H 0 y, en consecuencia, aceptar H1 .
4. Escoger un nivel de significancia para α (controla la probabilidad de cometer el error tipo I).
5. Escoger una estadística de prueba apropiada.
6. Tomar una muestra aleatoria del parámetro.
7. Con los datos, calcular el estadístico de prueba.
8. Decidir si H 0 debe ser o no rechazada y reportar los resultados en el contexto del problema.
Prueba de hipótesis de la media
Debido a lo descrito anteriormente, las pruebas de hipótesis para un parámetro poblacional asumen una de estas tres formas:

 H 0 :   0 Ésta es denominada prueba de cola derecha.


H 1 :   0
 H 0 :   0 Ésta es denominada prueba de cola izquierda.


H 1 :   0
 H 0 :   0 Ésta es denominada prueba de dos colas.


H 1 :   0
A continuación se describirá cómo se realiza la prueba de hipótesis para la media poblacional, y luego se resolverá un ejemplo, en los
casos en los que:
 𝜎 es conocida.
 𝜎 es desconocida, el tamaño de la muestra es pequeño y la población es normal.
Prueba de hipótesis para la media poblacional con 𝛔 conocida
Los supuestos para poder realizar la prueba de hipótesis son:
 La población o distribución de interés tiene media µ y varianza 𝜎 2 .

 La población se distribuye normalmente y es aplicable el teorema de límite central.
x  0
 El estadístico de prueba es z0  .

n
A continuación se analizan los tres casos presentados al inicio de este apartado, aunque no en el mismo orden.
1) El primer juego de hipótesis es  H 0 :   0


H 1 :    0

Si la hipótesis nula es verdadera, el z0 que se calcula caerá en la región de no rechazo de H 0 , en caso contrario, z0 caerá en la región de
rechazo, lo que significa que la muestra produjo un valor inusual del estadístico de prueba; lo anterior quiere decir que la información
contenida en la muestra no apoya el supuesto de que H 0 es verdadera.
La regla de decisión se define como:
 Se debe rechazar H 0 si z 0  z o z 0   z
2 2
 No se debe rechazar H 0 si  z  z 0  z 
2 2
1
Región de rechazo Región de rechazo
 Región de no 
2 rechazo de Ho 2
 z 0 z
2 2
2) El segundo juego de hipótesis es:  H 0 :   0


H 1 :    0
 Se debe rechazar
H 0 si z0  z .
 No se debe rechazar H 0 si z0  z .

1
Región de rechazo
Región de no

rechazo de Ho
0 z
3) El tercer juego de hipótesis es:  H 0 :   0


H 1 :   0
 Se debe rechazar
H 0 si z0   z .
 No se debe rechazar H 0 si z0   z .
1
Región de rechazo
Región de no

rechazo de Ho
 z 0
Ejemplo 10
Una muestra aleatoria de 100 muertes de elementos de seguridad registradas en México durante el año pasado, muestra una vida
promedio de 71.8 años. Suponiendo una desviación estándar poblacional de 8.9 años, ¿esto parece indicar que la vida media de los
elementos de seguridad hoy en día es diferente que hace 70 años? Utilice un nivel de significancia de 0.05.

Solución:
Siguiendo los pasos descritos anteriormente:
 Parámetro Media poblacional (µ)

 Hipótesis nula H 0 :   70 años
 Hipótesis alternativa H1 :   70 años
 Nivel de significancia   0.05
Probabilidad del 0.95
95% de confianza
 Estadística z0
__
 Datos x  71 .8 años ,   8.9 años
 71 .8  70
Estandarización z0   2.02
8.9
100
Valor crítico z  1.96
2
 Decisión Rechazar H0 dado que z 0  z

2
Conclusión La vida media hoy día es diferente que hace 70 años.
1
Región de no
rechazo de Ho
 z  1.96 z  1.96 z0  2.02
2 2

Ejemplo 11
Del ejemplo anterior se vio que la media de hace 70 años es distinta, ahora se tiene interés en saber si la vida media de los elementos
de seguridad, hoy en día, es mayor que 70 años. Utilice un nivel de significancia de 0.05.
Solución: Siguiendo los pasos descritos con anterioridad tenemos:
1) Parámetro Media poblacional (µ)

2) Hipótesis nula H 0 :   70 años
3) Hipótesis alternativa H1 :   70 años
4) Nivel de significancia   0.05
Probabilidad del 0.95
95% de confianza
5) Estadística z0
__
6) Datos x  71 .8 años ,   8.9 años
71 .8  70
7) Estandarización z0   2.02
8.9
100
8) Decisión Rechazar 𝐻0 y aceptar 𝐻1

dado que z0  z
Conclusión La vida media de los elementos de seguridad hoy día es mayor
a 70 años.

Región de rechazo
Región de no

rechazo de Ho
z  1.645 z0  2.02
Prueba de hipótesis para la media poblacional con 𝛔 no conocida
Los supuestos para poder realizar la prueba de hipótesis son:
 El tamaño de muestra es pequeño.

 La media  y varianza  2 son desconocidas.
__
 Tenemos una muestra aleatoria de tamaño n de una población normal de la cual se determinan x y s2 .
x  0
 El estadístico de prueba es t0  , es decir, una distribución t de Student con n-1 grados de libertad.
s
n
A continuación se analizan los tres casos presentados al inicio de este apartado, aunque no en el mismo orden.
1) El primer juego de hipótesis es  H 0 :   0


H 1 :    0

 Se debe rechazar H 0 si t 0  t o t 0   t .
2 2
 No se debe rechazar H 0 si  t  t 0  t .
2 2
1
 Región de no 
2 rechazo de Ho 2
 t 0 t
2 2
2) El segundo juego de hipótesis es:  H 0 :   0


H 1 :    0
 Se debe rechazar H 0 si t0  t ,n 1 .
 No se debe rechazar H 0 si t0  t ,n 1 .
1
Región de rechazo
Región de no

rechazo de Ho
t

3) El tercer juego de hipótesis es:  H 0 :   0


H 1 :    0
 Se debe rechazar H 0 si t0  t ,n 1 .
 No se debe rechazar H 0 si t0  t ,n 1 .
1
Región de rechazo
Región de no

rechazo de Ho
 t
Ejemplo 12
El Centro Preventivo y de Reinserción Social Nezahualcóyotl publica cifras del número anual de kilowatt-hora (kWh) que gastan varios equipos de
seguridad. Se afirma que una cámara gasta un promedio de 46 kWh al año. Si una muestra aleatoria de 12 celdas indica que las cámaras gastan
un promedio de 42 kWh al año con una desviación estándar de 11.9 kWh. ¿La información de la muestra sugiere, a un nivel de significancia de
0.05, que las cámaras gastan en promedio menos de 46 kWh anualmente? Suponga que el gasto de kWh es normal.
Solución:
Siguiendo los pasos descritos anteriormente:
1) Parámetro Media poblacional (µ)

2) Hipótesis nula H 0 :   46 kWh
3) Hipótesis alternativa H1 :   46kWh

5) Estadística t0
__
6) Datos x  42 kWh , s  11.9kWh
42  46
7) Estandarización t0   1.16 ,
11 .9
12
con 11 grados de libertad
Valor crítico t0.05,11  1.796
8) Decisión No rechazar 𝐻0 pues t0  t ,n1
Conclusión La información contenida en la
muestra no permite afirmar que el gasto promedio de kWh es menor que 46.
Relación entre una prueba de hipótesis de la media y un intervalo de confianza
La prueba de hipótesis para la inferencia estadística está estrechamente relacionada con el enfoque de intervalo de confianza porque la
estimación del intervalo de confianza incluye el cálculo de límites para los que es “razonable” que el parámetro en cuestión se encuentre
dentro de ellos.
Para el caso de que una media poblacional µ con 𝜎 2 conocida, la prueba de hipótesis y la estimación del intervalo de confianza se basan en
x
la variable aleatoria estandarizada z 
 .
n
La prueba de H 0 :   0 contra H1 :   0 a un nivel de confianza de 1001   % equivale a calcular un intervalo de confianza de
1001   % sobre µ y rechazar 𝐻0 si 𝜇0 no está dentro del intervalo calculado y de no rechazarla si 𝜇0 está dentro del intervalo de
confianza.

Con un valor observado 𝑥̅ , no rechazar 𝐻0 con una confianza 1001   % implica:
 z  z0  z
2 2
__
x  0
 z   z
2  2
n
__
 __

x  z  0  x  z
2 n 2 n
Así, regresando al ejemplo 10, acerca de las muertes de elementos de seguridad registradas en México, el intervalo de confianza del 95%
se determina haciendo:
8.9 8.9
71 .8  1.96  0  71 .8  1.96
100 100
70 .0556  0  73 .5444
Como 𝜇0 = 70 no está en el intervalo, se rechaza 𝐻0 . Con esto, se llega a la conclusión de que la vida media de los elementos de seguridad
hoy día es diferente que 70 años.
Prueba de hipótesis de la proporción
Las pruebas de hipótesis para la proporción asumen una de las siguientes formas:
 H 0 : p  p0

  H 1 : p  p0

 H 0 : p  p0

  H 1 : p  p0
 H 0 : p  p0

  H 1 : p  p0
Las dos primeras son denominadas pruebas de una cola y la tercera prueba de dos colas. En este caso, el estadístico a utilizar es:
p  p0
z0 
p0 1  p0 
n
Ejemplo 13
Un informe reciente de la industria de seguros indicó que el 40% de las personas víctimas de asalto había sido víctima de por lo menos un
asalto los pasados cinco años. Un grupo de asesoría decidió investigar dicha afirmación, pues creía que la información era muy grande. Una
muestra de 200 asaltos de este año mostró que 74 personas también fueron víctimas los pasados cinco años, utilizando un nivel de
confianza del 99%.
Solución:
Siguiendo los pasos descritos para la prueba de hipótesis:
1) Parámetro Proporción poblacional (p)

2) Hipótesis nula H 0 : p  0.4
3) Hipótesis alternativa H1 : p  0.4
5) Estadística de prueba z0
6) Datos p  0.37 , q  0.63 , n  200

7) Estandarización 0.37  0.40

z0   0.87
0.40 1  0.40 
200
Valor crítico z  2.33
8) Decisión No rechazar H 0 porque z0  z
Conclusión La información contenida en la muestra
no permite afirmar que la proporción es menor que 0.4.
Ejemplo 14
Se considera que una medicina comúnmente prescrita para aliviar deseos de matar de una persona es efectiva en el 60% de
los casos. Resultados experimentales con un nuevo medicamento muestran que 70 de 100 adultos que padecen de estos
deseos tuvieron alivio al tomar el medicamento. ¿La evidencia es suficiente para concluir que el nuevo medicamento es más
eficaz que el prescrito comúnmente? Utilizar un nivel de confianza de 95%.
Solución:
Siguiendo los pasos descritos para la prueba de hipótesis:
1) Parámetro Proporción poblacional (p)
2) Hipótesis nula H 0 : p  0.6

3) Hipótesis alternativa H1 : p  0.6

5) Estadística de prueba z0
6) Datos p  0.7 , q  0.3 , n  100
0.7  0.6
z0   2.04
0.60 1  0.60 
7) Estandarización
100
8) Decisión Rechazar H 0 porque z0  z y

aceptar H1
Conclusión Se puede afirmar que la nueva medicina es más eficaz a la que se prescribe
actualmente.
Relación entre una prueba de hipótesis de la proporción y un intervalo de confianza
Igual que la prueba de hipótesis de la media se relaciona con su intervalo de confianza, la prueba de hipótesis de la proporción también se
relaciona con su respectivo intervalo de confianza.

En el caso de una proporción poblacional p , la estructura de la prueba de hipótesis y la de la estimación del intervalo se basan en la
__
variable aleatoria z  p  p0 , mientras que la prueba de H 0 : p  p0 contra H1 : p  p0 a un nivel de confianza 1001   % es
p0 1  p0 
0
n
equivalente a calcular un intervalo de confianza de 1001   % sobre p .
Por tanto, se rechaza H 0 si p0 no está dentro del intervalo de confianza, y si p0 está dentro del intervalo de confianza, la hipótesis no se
rechaza.
__
Se sabe que con un valor observado p , no rechazar H 0 con una confianza 1001   % implica:
 z  z0  z
2 2
Es decir,
__
p  p0
 z   z |
2 p0 1  p0  2
De donde se obtiene:
__
p0 1  p0  __
p0 1  p0 
p  z  p0  p  z
2 n 2 n

Así, retomando el ejemplo 14, tenemos que el intervalo de confianza del 95% se desarrolla de la siguiente manera:
0.71  0.7 0.71  0.7

0.7  1.96  p0  0.7  1.96
100 100
0.7  0.089  p0  0.7  0.089
0.6101  p0  0.789
Como p0  0.6 cae fuera del intervalo de confianza, entonces rechazamos H 0 con lo cual llegamos a la misma conclusión acerca de la
mayor eficacia del nuevo medicamento.
Cierre
En la primera parte de la unidad revisaste cómo se construye la metodología para hacer inferencia sobre una población, cómo se genera
una distribución muestral de medias, la manera de determinar los estadísticos que la caracterizan y la forma en que éstos se relacionan con
sus parámetros correspondientes. También se conoció una nueva distribución de probabilidad para muestras pequeñas, el significado de
estimador puntual y por intervalo, así como la metodología para encontrarlos.
En la segunda parte de esta unidad se usaron los contenidos previos para el cálculo de los estimadores puntual y por intervalo de la
proporción. Se revisó, además, la metodología para dar certeza a las hipótesis de investigación y se usaron al realizar pruebas de hipótesis
para la media y la proporción.
Con todo lo anterior se presentaron los conocimientos y herramientas necesarios para comparar dos muestras poblacionales
independientes para interpretar información que oriente en la toma de decisiones a través de técnicas de estadística inferencial.

Fuentes de consulta
 (s. a.). (s. f.). El problema de la estimación de la proporción de la población. Recuperado de http://goo.gl/N1mlXa
 (s. a.). (s. f.). Test de hipótesis. Recuperado de http://goo.gl/bCxhbM
 Álvarez, G. (s. f.). Prueba de hipótesis. Recuperado de http://goo.gl/t7x7hw
 Hoel, P. G. (1991). Estadística elemental (4ª ed.). México: CECSA.
 Kazmier, L. y Díaz, A. (2006). Estadística aplicada a la administración y a la economía (4ª ed.). España: McGraw-Hill.
 Lind, D. A., Marchal, W. G. y Whaten, S. A. (2008). Estadística aplicada a los negocios y la economía (13ª ed.). México: McGraw-
Hill.
 Lind, D. A., Mason, R. D. y Marchal, W. G. (2001). Estadística para administración y economía (3ª ed.). México: McGraw-Hill.
 Mayes, A. C. y Mayes, D. G. (1980). Fundamentos de estadística para economía. México: Limusa.
 Naiman, A., Rosenfeld, R. y Zirkel, G. (1987). Introducción a la estadística (3ª ed.). México: McGraw-Hill.
 Nieves, A. y Domínguez, F. C. (2010). Probabilidad y estadística para ingeniería. México: McGraw-Hill.
 Pagano, R. R. (2011). Estadística para las ciencias del comportamiento (9ª ed.). México: Cengage Learning.
 Ross, S. M. (2008). Introducción a la estadística. España: Reverté.

SESP U2 Contenido PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

SESP U2 Contenido PDF

Cargado por

Copyright:

Formatos disponibles

Nombre de la asignatura

Estadística para la investigación en seguridad pública

Estimador puntual y sus propiedades ........................................................................................................................................................... 6

Estimación puntual y por intervalo de la proporción ....................................................................................................................................... 21

Estimador puntual y sus propiedades ......................................................................................................................................................... 22

Prueba de hipótesis ....................................................................................................................................................................................... 27

Conceptos generales de la metodología .................................................................................................................................................... 28

División de Ciencias Sociales y Administrativas / Seguridad Pública 1

División de Ciencias Sociales y Administrativas / Seguridad Pública 2

Los principales tipos de inferencia que se realizan son:

 Estimación puntual o por intervalo

Para poder llevar a cabo lo anterior, existen dos problemas:

 Determinar si la estimación está sesgada.

División de Ciencias Sociales y Administrativas / Seguridad Pública 3

1. Estimación puntual: Es la que está dada por un valor numérico.

División de Ciencias Sociales y Administrativas / Seguridad Pública 4

 Comprender los alcances de la estadística inferencial.

Estimación puntual y por intervalo de la media

División de Ciencias Sociales y Administrativas / Seguridad Pública 5

y es un “punto” en el sentido de que se refiere a un sólo valor.

Estimador puntual y sus propiedades

División de Ciencias Sociales y Administrativas / Seguridad Pública 6

Por ejemplo, para la distribución muestral de medias tenemos que:

División de Ciencias Sociales y Administrativas / Seguridad Pública 7

Distribución muestral de la media, normal y “t de Student”

¿Dónde está el centro?

Sucursal Número de asaltos

a) Haz los cálculos pertinentes para demostrar que:

División de Ciencias Sociales y Administrativas / Seguridad Pública 8

  5.60 ,   7.440 y   2.728

División de Ciencias Sociales y Administrativas / Seguridad Pública 9

h) Grafica el histograma para los datos del inciso g).

División de Ciencias Sociales y Administrativas / Seguridad Pública 10

Al analizar los resultados obtenidos hasta ahora, es posible ver que:

 La media de la población y la media de la distribución de medias muestrales es igual, es decir:

 El rango de la población es el mismo que el de la distribución de medias muestrales.

 La media de la población y la media de la distribución de medias muestrales es igual, es decir:

División de Ciencias Sociales y Administrativas / Seguridad Pública 11

 El rango de la población es el mismo que el de la distribución de medias muestrales.

Las condiciones bajo las que se usa esta distribución son:

 Población con distribución normal. Si esto no sucede, no es posible usar t de Student.

Las características de la distribución t de Student son (Nieves y Domínguez, 2010, p. 382):

1. Tiene media igual a cero.

División de Ciencias Sociales y Administrativas / Seguridad Pública 12

2. Están distribuidas simétricamente alrededor de su media.

Para la distribución t de Student, la “estandarización” es: t  x   .

División de Ciencias Sociales y Administrativas / Seguridad Pública 13

División de Ciencias Sociales y Administrativas / Seguridad Pública 14

División de Ciencias Sociales y Administrativas / Seguridad Pública 15

d) Al sustituir en la expresión anterior, y realizar los cálculos indicados, se tiene:

 t0.05,7 t  1.64 t0.05,7

División de Ciencias Sociales y Administrativas / Seguridad Pública 16

Teorema del límite central

 ¿Dónde está el centro?

 Tendrá media  .

División de Ciencias Sociales y Administrativas / Seguridad Pública 17

Intervalo de confianza para la media

Al buscar en la tabla correspondiente, se concluye:

De manera similar, se puede demostrar que:

División de Ciencias Sociales y Administrativas / Seguridad Pública 18

P  1.96  z  1.96  0.95

De donde, finalmente, se obtiene que:

División de Ciencias Sociales y Administrativas / Seguridad Pública 19