Documentos de Académico
Documentos de Profesional
Documentos de Cultura
4
13. Muestreo y distribuciones muestrales
Todo estudio estadístico está asociado a un conjunto de referencia llamado
población. Cuando las poblaciones son muy grandes o infinitas, una investigación
sobre la totalidad de sus individuos resulta prácticamente imposible, o al menos
impráctica. Por ello es un procedimiento muy usual analizar un subconjunto
representativo de la población (al cual se le denomina muestra), y a partir de la
información obtenida de la muestra, hacer inferencias o sacar conclusiones
respecto a la población de donde se obtuvo (Hernández, 2015).
Existen diversas razones prácticas para preferir el análisis de una muestra por
sobre el estudio de toda una población. A continuación, se presentan algunas de
esas razones:
5
Después de seleccionar un marco, se debe obtener una muestra de este. Existen
2 métodos para seleccionar muestras:
6
muestreo aleatorio simple, el muestreo sistemático, el muestreo estratificados y
el muestreo por conglomerados (ver figura 51). Estos métodos de muestreo
varían en cuanto al costo, exactitud y complejidad (Levine, 2014).
Muestreo
Muestreo no deliberado
aleatorio o no
probabilistico Muestreo de
juicio
Muestreo
Tipos de
aleatorio
muestreo
simple
Muestreo
Muestreo sistemático
aleatorio o
probabilistico Muestreo
estratificado
Muestreo por
conglomerados
7
Consideremos la siguiente situación: se tiene una población de cuatro
profesionales recién graduados de la ingeniería mecatrónica (𝑁 = 4) y se quieren
muestras de dos ingenieros a la vez (𝑛 = 2) para entrevistarlos. Existen 𝑁 𝐶𝑛
AB AC AD
BC BD CD
Uno de los métodos más sencillos consiste en enumerar todos los elementos de
la población, escribir los números en fichas o bolas, poner luego estos objetos
numerados en una caja, bolsa o urna y mezclarlos completamente. Finalmente,
se sacan, uno a uno, los 𝑛 objetos deseados (Bonilla, 2016).
Otro método, más técnico y confiable, consiste en usar números aleatorios. Estos
números pueden generarse mediante programas de computadora o mediante
una tabla de números aleatorios (la mayoría de los libros de estadística incluyen
una en sus apéndices).
8
Tabla 46: Tabla de números aleatorios
42048
38733
47327
82242
37636
49539
…
Los números escogidos son: 420, 387, 473, 376, 495, 439, 371, 110, 454 y 552.
9
Nótese que después del 473 sigue el 822, el cual no se tomó porque los
elementos de la población están numerados del 000 al 799. Si al estar leyendo
la tabla, apareciera un número repetido este también tendría que omitirse.
b) Muestreo sistemático
A veces la población a ser muestreada está ordenada, por ejemplo, una lista
alfabetizada de personas con licencias de conducir, una lista de usuarios de la
compañía de energía eléctrica por direcciones de servicio o una lista de clientes
por números de cuenta. En estas y otras situaciones, se escoge un elemento al
azar de los primeros 𝑘 elementos y, a continuación, cada 𝑘-ésimo elemento de
ahí en adelante se incluye en la muestra.
𝑁
𝑘=
𝑛
𝑁
recibe el nombre de razón de muestreo. Si el resultado del cociente no es un
𝑛
entero, entonces debe redondearse al entero más cercano. Para seleccionar una
muestra sistemática, se elige al azar el primer elemento a ser seleccionado de
los primeros 𝑘 elementos de la población. Luego se seleccionan los 𝑛 − 1
elementos restantes eligiendo cada k-ésimo elemento sucesivo de la población.
10
primera selección en la muestra. Por ejemplo, si el primer número aleatorio que
se elige es 005, las selecciones siguientes serían 025, 045, 065, 085, 105, 125,
…, 765 y 785.
c) Muestreo estratificado
Una vez definidos los estratos, se aplica el muestreo aleatorio simple en cada
grupo o estrato con el fin de formar la muestra. La cantidad de elementos que
se toman de cada estrato debe ser correspondiente a la proporción de este en
relación con la población completa.
11
En el muestreo por conglomerados la población se divide en grupos o
conglomerados a partir de los límites naturales geográficos o de otra clase. A
continuación, se selecciona una muestra aleatoria de estos conglomerados,
asumiendo que cada uno de ellos es representativo de la población.
12
13.2 Distribuciones muestrales
Cuando se selecciona una muestra aleatoria de una población, las medidas
numéricas descriptivas (media, varianza, desviación típica, etc.) que se calculen
de la muestra se denominan estadísticos. Si tomamos varias muestras
aleatorias de una población, los estadísticos resultantes para cada muestra no
necesariamente serán iguales, y lo más probable es que variarán de una muestra
a otra; es decir, estos estadísticos son variables aleatorias. Las distribuciones de
probabilidad para estadísticos se llaman distribuciones muestrales.
13
13.2.2 Distribución muestral de medias
Una distribución muestral de medias se define como el
conjunto de todas las medias que se pueden calcular en
todas las muestras posibles que se pueden extraer de una
determinada población (Bonilla, 2016).
𝑁
En una población finita de tamaño 𝑁, podemos tener ( 𝑛 ) muestras diferentes
𝑁
de un mismo tamaño 𝑛. Supongamos que ( 𝑛 ) = 𝑟, y que 𝑚1 , 𝑚2 , 𝑚3 , … , 𝑚𝑟 son
Propiedades de la distribución
𝜇𝑥̅ = 𝜇
𝜎 𝑁−𝑛
𝜎𝑥̅ = √
√𝑛 𝑁 − 1
14
Observe que el error estándar de la media disminuye cuando 𝑛 aumenta.
𝑁−𝑛
Nota: a la expresión √ se le conoce como factor de corrección para
𝑁−1
poblaciones finitas.
Ejemplo. Una familia tiene 5 hijos, cuyas edades son: 16, 13, 10, 7 y 4 años,
respectivamente. Tome todas las muestras posibles de edades de tamaño 𝑛 = 2 y
verifique las propiedades de la distribución muestral de medias.
Solución
Tabla 47: Cálculos poblacionales Cálculos poblacionales
𝒙 (𝒙 − 𝝁) 𝟐
∑ 𝑥 50
4 36 𝜇= = = 10
𝑁 5
7 9
10 0 (𝑥 − 𝜇)2 90
13 9 𝜎=√ = √ = √18
𝑁 5
16 36
50 90
Fuente: Elaboración propia
Tabla 48: Cálculos en las muestras
Muestra ̅
𝒙 ̅ − 𝝁𝒙̅ )𝟐
(𝒙
Cálculos en las muestras
(4,7) 5.5 20.25
(4,10) 7.0 9 𝑟 = ( 52 ) = 10 → Número de muestras
(4,13) 8.5 2.25
(4,16) 10 0 ∑ 𝑥̅ 100
𝜇𝑥̅ = = = 10
(7,10) 8.5 2.25 𝑟 10
(7,13) 10 0
(𝑥̅ − 𝜇𝑥̅ )2 67.5
(7,16) 11.5 2.25 𝜎𝑥̅ = √ =√ = √6.75
2.25 𝑟 10
(10,13) 11.5
(10,16) 13 9
(13,16) 14.5 20.25
∑ 90 67.5
Fuente: Elaboración propia
1) 𝜇𝑥̅ = 𝜇 = 10
15
13.2.3 Distribución muestral de proporciones
El objetivo de muchas encuestas por muestreo es establecer la proporción (o
porcentaje) de individuos de una determinada población que poseen una
característica específica (Hernández, 2015). Por ejemplo, el porcentaje de
personas que votará en la próxima elección de alcaldes y diputados, la
proporción de individuos que estarían de acuerdo en que se aprobara el aborto
terapéutico, el porcentaje de artículos defectuosos producidos por cierta
máquina, etc.
16
Al registrar los éxitos y los fracasos en una muestra de tamaño 𝑛, si escribimos
1 cuando se obtiene un éxito y 0 cuando se obtiene un fracaso, obtendríamos
una secuencia como la siguiente:
0, 1, 1, 1, 0, 1, 0, … , 0
∑ 𝑥 0 + 1 + 1 + 1 + 0 + 1 + 0 + ⋯ + 0 𝑥1
𝑥̅ = = =
𝑛 𝑛 𝑛
Propiedades de la distribución
de la población 𝑃.
𝜇𝑝̂ = 𝑃
𝑝̂ (1 − 𝑝̂ )
𝜎𝑝̂ = √
𝑛
• En una población finita (o muestreo sin reemplazo)
𝑝̂ (1 − 𝑝̂ ) 𝑁 − 𝑛
𝜎𝑥̅ = √ √
𝑛 𝑁−1
17
13.3 Teorema del límite central
El teorema del límite central es, probablemente, el más importante de toda la
estadística inferencial, pues asegura que toda distribución muestral se aproxima
a la normal al incrementarse el tamaño de la muestra, sin importar la forma de
la distribución de la población.
18
diferencia en la forma de la distribución muestral. Ahora tiene casi forma de
montículo, pero todavía es simétrica alrededor de la media 𝜇 = 3.5.
19
la distribución normal, todavía centrada en 𝜇 = 3.5. La figura 56b muestra
espectacularmente que la distribución de 𝑥̅ es aproximadamente normal con
base en una muestra de sólo 𝑛 = 4. Este fenómeno es el resultado del teorema
del límite central.
20
En resumen, el teorema del límite central se cumple en las siguientes
condiciones:
21
Figura 57. Aplicación del teorema del límite central para distintas poblaciones.
Fuente: por Lind (2012)
La importancia del teorema del límite central radica en el hecho que nos permite
usar estadísticos de muestra para hacer inferencias con respecto a los
parámetros de población, sin saber sobre la forma de la distribución de esa
población más que lo que podamos obtener de la muestra (Levin,2004).
22
13.3.1 Aplicación del teorema del límite central
para distribuciones muestrales de medias
En cualquier investigación, no es práctico obtener todas las medias muestrales;
sino que basta con tomar una sola muestra aleatoria de la población en estudio
y aplicar el teorema del límite central para realizar inferencias.
𝑥̅ − 𝜇
𝑍=
𝜎𝑥̅
𝜎
𝜎𝑥̅ =
√𝑛
Cuando se trabaja con poblaciones finitas y, además, el tamaño de la muestra
𝑛
tomada representa al menos el 5% de la población (𝑁 ≥ 0.05) es preciso usar el
𝑁−𝑛
factor de corrección para poblaciones finitas √ 𝑁−1 de modo que el error estándar
𝜎 𝑁−𝑛
𝜎𝑥̅ = √
√𝑛 𝑁−1
23
Tabla 49: Condiciones para el cálculo del error estándar de la media
𝜎 𝑛 𝜎 𝑛 𝜎 𝑁−𝑛
𝜎𝑥̅ = Si < 0.05 → 𝜎𝑥̅ = Si ≥ 0.05 → 𝜎𝑥̅ = √
√𝑛 𝑁 √𝑛 𝑁 √𝑛 𝑁−1
𝑝̂ − 𝑃
𝑍=
𝜎𝑝̂
24
En el caso de 𝑝̂ , se considera que el tamaño de la muestra es grande cuando se
cumplen las dos condiciones siguientes:
a) 𝑛𝑃 > 5
b) 𝑛(1 − 𝑃) > 5
𝑃𝑄
𝜎𝑝̂ = √
𝑛
𝑛 𝑃𝑄 𝑁−𝑛
𝑃𝑄 𝑛 𝑃𝑄 Si ≥ 0.05 → 𝜎𝑝̂ = √ 𝑛 √ 𝑁−1
𝜎𝑝̂ = √ Si < 0.05 → 𝜎𝑝̂ = √ 𝑁
𝑛 𝑁 𝑛
Dónde:
𝑃 = Proporción poblacional 𝑄 =1−𝑃
25
Clase 14| Estimación
Estadística
14. Estimación estadística
En la clase anterior se abordaron las distintas estrategias con las que puede
seleccionarse una muestra a partir de una población para luego calcular medias,
desviaciones típicas y otros estadísticos muestrales. Estos estadísticos son las
herramientas que se usarán en estadística inferencial para hacer
generalizaciones acerca de una población usando la información contenida en
una muestra.
Hasta este punto debemos estar bien conscientes de que las poblaciones son
generalmente muy grandes como para ser estudiadas en su totalidad. Esto
requiere que se seleccionen muestras que nos permitan obtener información
(estadísticos) que se pueda utilizar más adelante para hacer inferencias sobre
las poblaciones (ver figura 58).
26
La estimación estadística es un proceso que consiste en
usar un estadístico muestral para predecir o generalizar el
correspondiente parámetro poblacional desconocido.
Media 𝑥̅ 𝜇 | 𝑥̅ − 𝜇 |
Proporción 𝑝̂ 𝑃 | 𝑝̂ − 𝑃 |
En general 𝜃̂ 𝜃 | 𝜃̂ − 𝜃 |
27
14.2 Estimación puntual
Para que un estadístico sea considerado un “buen estimador” puntual del
parámetro que va a estimar, debe cumplir con tres características:
28
En la figura 60 se muestra la distribución muestral de dos estimadores: uno con
una varianza pequeña y el otro con una varianza significativamente más alta.
𝑥 1 1
• 𝐸[ ̂𝑝 ] = 𝐸 [𝑛] = 𝑛 𝐸[𝑥] = 𝑛 (𝑛𝑃) = 𝑃 , 𝑝̂ es un estimador insesgado de 𝑃.
29
𝑥 1 𝑛𝑃𝑄 𝑃𝑄
• 𝑉𝑎𝑟(𝑝̂ ) = 𝑉𝑎𝑟 ( ) = 𝑉𝑎𝑟(𝑥) = = , 𝑝̂ es un estimador consistente ya
𝑛 𝑛2 𝑛2 𝑛
Ejemplo. Una variable aleatoria X sigue una ley normal con 𝜎 = 1.2 y media 𝜇
desconocida. Si las observaciones: 6.1, 7.2, 8.4, 7.6, 5.6, 7.8, 6.3, 9.1, 7.1, 8.8
constituyen una muestra aleatoria de esa población, encuentre un estimador
puntual para 𝜇.
Solución
30
Un procedimiento alternativo de estimación consiste en calcular un intervalo
dentro del cual, considerando cierto riesgo, se esperaría encontrar el verdadero
valor del parámetro.
𝑃(𝐿1 ≤ 𝜃 ≤ 𝐿2 ) = 1 − 𝛼
Por ejemplo, cuando trabajamos con un nivel de confianza del 90% (1 − 𝛼 = 0.90),
esperamos, con un 90% de probabilidad, que el intervalo construido contenga
el verdadero valor del parámetro, y asumimos un riesgo del 10% de que no lo
contenga.
31
Figura 61. Límites de confianza para estimar 𝜇.
Fuente: Elaboración propia.
𝑃 (−𝑍𝛼 ≤ 𝑍 ≤ 𝑍𝛼 ) = 1 − 𝛼
2 2
𝑥̅ − 𝜇
𝑃 (−𝑍𝛼 ≤ 𝜎 ≤ 𝑍𝛼2 ) = 1 − 𝛼
2
√𝑛
𝜎 𝜎
𝑃 (𝑥̅ − 𝑍𝛼 ≤ 𝜇 ≤ 𝑥̅ + 𝑍𝛼 )= 1−𝛼
2 √𝑛 2 √𝑛
𝜎
𝜇: 𝑥̅ ± 𝑍𝛼 ( )
2 √𝑛
32
El valor de 𝑍𝛼 depende exclusivamente del nivel de confianza con el que se esté
2
Para obtener los valores mostrados en la tabla 52, debemos dividir entre 2 el
nivel de confianza y luego buscar en la tabla normal el valor de 𝑍 que le
corresponde a esa área.
𝜎
Recordemos que 𝜎𝑥̅ = es el error estándar de la media y depende
√𝑛
𝜎
𝐸 = 𝑍𝛼 𝜎𝑥̅ = 𝑍𝛼
2 2 √𝑛
En la medida en que se aumenta el nivel de confianza, se aumenta también el
valor de 𝑍𝛼 y por tanto también el error muestral. Esto hace que el intervalo
2
Podría pensarse que deberíamos utilizar un alto nivel de confianza, como 99%,
en todos los problemas sobre estimaciones. Después de todo, parece ser que un
33
alto nivel de confianza significa un alto grado de precisión en lo que a la
estimación concierne. En la práctica, sin embargo, altos niveles de confianza
producen intervalos de confianza grandes, y éstos, de hecho, dan estimaciones
bastante imprecisas (Levin, 2004).
En resumen, tenemos:
𝜎
𝜎𝑥̅ = 𝐸𝑟𝑟𝑜𝑟 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟 𝑑𝑒 𝑙𝑎 𝑚𝑒𝑑𝑖𝑎 =
√𝑛
𝜎
𝐸 = 𝐸𝑟𝑟𝑜𝑟 𝑚𝑢𝑒𝑠𝑡𝑟𝑎𝑙 = 𝑍𝛼 ( )
2 √𝑛
𝜎 𝜎
𝜇 = [ 𝑥 − 𝑍𝛼 ( ) , 𝑥̅ + 𝑍𝛼 ( )]
2 √𝑛 2 √𝑛
de la muestra.
b) Calcule los intervalos de confianza del 95% y del 99% para estimar la
concentración de zinc en el rio
Solución
34
Una primera observación importante es que el enunciado del problema NO indica
que la desviación típica se haya obtenido a partir de la muestra; por tanto,
debemos asumir que se trata de una desviación típica poblacional 𝜎.
𝜇 = 𝑥̅ = 2.6 𝑔𝑟/𝑚𝑙
𝜎
𝜇 = 𝑥 ± 𝑍𝛼 ( )
2 √𝑛
0.3
𝜇 = 2.6 ± 1.96 ( )
√36
0.3 0.3
𝜇 = [2.6 − 1.96 ( ) , 2.6 + 1.96 ( )]
Figura 62. Cálculo de 𝑍𝛼 . √36 √36
2
Fuente: Elaboración propia. 𝜇 ∈ [ 2.502, 2.698 ] 𝑔𝑟/𝑚𝑙
𝜎
𝜇 = 𝑥 ± 𝑍𝛼 ( )
2 √𝑛
0.3
𝜇 = 2.6 ± 2.575 ( )
√36
0.3 0.3
𝜇 = [2.6 − 2.575 ( ) , 2.6 + 2.575 ( )]
Figura 63. Cálculo de 𝑍𝛼 . √36 √36
2
Fuente: Elaboración propia. 𝜇 ∈ [ 2.4713, 2.7288 ] 𝑔𝑟/𝑚𝑙
35
En el ejemplo anterior puede observarse que, al aumentar el nivel de confianza
también aumenta la amplitud del intervalo.
En esta situación, el teorema del límite central nos habilita para usar 𝑠 como un
estimador puntual de 𝜎; es decir, podemos hacer:
∑(𝑥𝑖 − 𝑥̅ )2
𝜎=𝑠=√
𝑛−1
Ejemplo. Para estimar el tiempo promedio que emplea al montar cierto tipo de
componente de computadora, un ingeniero industrial de una compañía electrónica
midió el tiempo de montaje a 40 técnicos. La media que obtuvo fue de 12.73
minutos y una desviación estándar de 2.06 minutos.
Solución
𝜎 2.06
a) 𝜎𝑥̅ = = = 0.3257
√𝑛 √40
36
b) Nivel de confianza de 90%
𝜎
𝜇 = 𝑥 ± 𝑍𝛼 ( )
2 √𝑛
2.06
𝜇 = 12.73 ± 1.645 ( )
√40
[12.73 − 0.5358, 12.73 + 0.5358]
Figura 63. Cálculo de 𝑍𝛼 .
2
𝜇 ∈ [ 12.1942, 13.2658 ] 𝑚𝑖𝑛
Fuente: Elaboración propia.
𝜎 𝑁−𝑛
𝜎𝑥̅ = √
√𝑛 𝑁−1
37
14.3.2 Intervalos de confianza para estimar
proporciones poblacionales
De acuerdo con la distribución
muestral para proporciones
𝑝̂ − 𝑃
𝑍=
√𝑃𝑄
𝑛
se distribuye de manera
aproximadamente normal
estándar cuando el tamaño de la Figura 64. Límites de confianza para estimar 𝑃.
muestra 𝑛 es grande. Fuente: Elaboración propia
𝑃 (−𝑍𝛼 ≤ 𝑍 ≤ 𝑍𝛼 ) = 1 − 𝛼
2 2
𝑝̂ − 𝑃
𝑃 −𝑍𝛼 ≤ ≤ 𝑍𝛼 =1−𝛼
√𝑝̂ 𝑞̂
2 2
( 𝑛 )
𝑝̂ 𝑞̂ 𝑝̂ 𝑞̂
𝑃 (𝑝̂ − 𝑍𝛼 √ ≤ 𝑃 ≤ 𝑝̂ + 𝑍𝛼 √ ) = 1 − 𝛼
2 𝑛 2 𝑛
̂ 𝑞̂
𝑝
𝑃: 𝑝̂ ± 𝑍𝛼 √
2 𝑛
38
𝑝̂ 𝑞̂
Recordemos que 𝜎𝑝̂ = √ es el error estándar de la proporción y depende
𝑛
̂ 𝑞̂
𝑝 𝑁−𝑛
𝜎𝑝̂ = √ √
𝑛 𝑁−1
𝑝̂ 𝑞̂
𝐸 = 𝑍𝛼 𝜎𝑝̂ = 𝑍𝛼 √
2 2 𝑛
Solución
39
𝑃 = 𝑝̂ = 0.43
̂ 𝑞̂
𝑝
𝑃 = 𝑝̂ ± 𝑍𝛼 √
2 𝑛
(0.43)(0.57)
𝑃 = 0.43 ± 1.81 √
Figura 65. Cálculo de 𝑧𝛼 .
400
2
Fuente: Elaboración propia. 𝑃 = [0.43 − 0.0448, 0.43 + 0.0480]
P ∈ [ 0.3852, 0.4748 ]
𝑝̂ 𝑞̂ (0.43)(0.57)
𝐸 = 𝑍𝛼 √ = 1.81 √ = 0.0448 ≅ 4.5%
2 𝑛 400
40
14.4 Elección del tamaño de una muestra
Antes de llevar a cabo una investigación por muestreo, el investigador debe
conocer el tamaño de la muestra con la cual trabajará. La elección del tamaño
de la muestra es un procedimiento muy importante puesto que el uso de una
muestra demasiado grande implica costos elevados y no siempre aportará mayor
exactitud en los resultados; por otra parte, el tamaño de la muestra es
demasiado pequeño se puede llegar a resultados no válidos o poco significativos.
El margen de error que un investigador puede tolerar depende de qué tan crítico
es el parámetro que se está estimando. Algunas tareas extremadamente
delicadas requieren de resultados exactos: los procedimientos médicos vitales
de los cuales dependen vidas humanas, o la producción de piezas de una
máquina que deba cumplir medidas precisas, pueden tolerar sólo un pequeño
error. En otros casos, los errores más grandes pueden tener consecuencias
menos graves (Webster, 2001).
𝜎
𝐸 = 𝑍𝛼 ( )
2 √𝑛
41
Al despejar 𝑛 de esta expresión, se obtiene:
2
𝑍𝛼 𝜎
2
𝑛=( )
𝐸
confianza que se va a usar para calcular la estimación por intervalo. Nótese que
para usar esta ecuación es necesario contar con el valor de la desviación
estándar poblacional 𝜎 (de registros históricos); sin embargo, cuando este valor
no se conozca, puede estimarse mediante la desviación estándar muestral 𝑠,
utilizando una muestra piloto de cualquier tamaño razonable (𝑛 ≥ 30).
𝜎 𝑁−𝑛
𝐸 = 𝑍𝛼 √
2 √𝑛 𝑁−1
𝐸 2 𝑛(𝑁 − 1) = 𝑍 2 𝜎 2 (𝑁 − 𝑛)
𝐸 2 𝑛(𝑁 − 1) = 𝑍 2 𝜎 2 𝑁 − 𝑍 2 𝜎 2 𝑛
Distribuyendo el producto del miembro
𝐸 2 𝑛(𝑁 − 1) + 𝑍 2 𝜎 2 𝑛 = 𝑍 2 𝜎 2 𝑁 derecho
𝑛[𝐸 2 (𝑁 − 1) + 𝑍 2 𝜎 2 ] = 𝑍 2 𝜎 2 𝑁 Factor común 𝑛 en el miembro izquierdo
𝑍2𝜎2𝑁
𝑛= 2
𝐸 (𝑁 − 1) + 𝑍 2 𝜎 2
42
Ejemplo. Se quiere estimar mediante muestreo el kilometraje promedio de los
vehículos en uso de varios ministerios públicos. De registros anteriores se ha
obtenido que un estimador aceptable de la desviación estándar de la población es
de 8600 kilómetros. Se desea que el error de la estimación no sea mayor de 1200
kilómetros para un nivel de confianza del 90%.
Solución
a) Para un nivel de confianza del 90% el valor de 𝑍𝛼 que debe usarse es 1.645
2
𝑍𝛼 𝜎 2 1.645 × 8600 2
𝑛=( 2 ) =( ) = 138.98 ≅ 139
𝐸 1200
43
𝑝̂ 𝑞̂
𝐸 = 𝑍𝛼 √
2 𝑛
𝑍 2 𝑝̂ 𝑞̂
𝑛=
𝐸2
𝑝̂ 𝑞̂ 𝑁 − 𝑛
𝐸 = 𝑍𝛼 √ √
2 𝑛 𝑁−1
𝑍 2 𝑝̂ 𝑞̂ 𝑁
𝑛=
𝐸 2 (𝑁 − 1) + 𝑍 2 𝑝̂ 𝑞̂
44
Ejemplo. Un ingeniero industrial labora en el departamento de control de calidad
de una empresa y está interesado en saber el porcentaje de artículos defectuosos
de la producción mensual de la empresa. Para ello decide tomar una muestra
aleatoria de la producción mensual de artículos de tal manera que el error de
estimación no sea mayor del 4% con una probabilidad del 95%. Determine cuál
debe ser el tamaño de la muestra, si:
Solución
a) Para un nivel de confianza del 95% el valor de 𝑍𝛼 que debe usarse es 1.96 (ver
2
tabla 52). Dado que no tenemos información sobre las estimaciones iniciales,
usamos 𝑝̂ = 0.5 𝑦 𝑞̂ = 0.5
𝑍 2 𝑝̂ 𝑞̂ (1.96)2 (0.5)(0.5)
𝑛= = = 600.25 ≅ 601
𝐸2 (0.04)2
𝑍 2 𝑝̂ 𝑞̂ (1.96)2 (0.12)(0.88)
𝑛= = = 253.55 ≅ 254
𝐸2 (0.04)2
𝑍 2 𝑝̂ 𝑞̂ 𝑁 (1.96)2 (0.12)(0.88)(500)
𝑛= = = 168.46 ≅ 169
𝐸 2 (𝑁 − 1) + 𝑍 2 𝑝̂ 𝑞̂ 0.042 (500 − 1) + (1.96)2 (0.12)(0.88)
En este problema podemos observar que la incorporación de algún conocimiento
previo sobre la población puede disminuir sensiblemente el tamaño de la
muestra.
45
Clase 15| Prueba de hipótesis
15. Prueba de hipótesis
Habitualmente el problema al que se enfrentan los científicos e ingenieros no es
tanto la estimación de un parámetro poblacional, sino el diseño de un
procedimiento de decisión que se base en datos experimentales y que pueda
producir una conclusión acerca de algún sistema científico. Por ejemplo, un
ingeniero quizás tenga que decidir, con base en datos muestrales, si hay alguna
diferencia en la productividad de dos tipos de máquinas; o tal vez un
investigador médico puede decidir, con base en evidencia experimental, si el
consumir bebidas alcohólicas incrementa el riesgo de sufrir diabetes en los seres
humanos. En cada uno de estos casos el científico o ingeniero postula o
conjetura algo acerca de un sistema, para después utilizar datos experimentales
y tomar una decisión basada en ellos.
46
Con los ejemplos anteriores, puede observar que las hipótesis, tal como están
formuladas, son meras suposiciones, y que, por lo tanto, tienen que someterse
a comprobación, ya que estas pueden ser o no verdaderas.
Un medio seguro para probar una hipótesis es investigar a toda la población; sin
embargo, esto es impráctico en la mayoría de las situaciones y a veces casi
imposible.
47
El razonamiento empleado en una prueba de hipótesis es similar a un juicio en
un tribunal. Al procesar a una persona por robo (en la analogía, esta sería la
hipótesis nula), el tribunal debe decidir entre inocencia y culpabilidad. Cuando
el juicio se inicia, se supone que la persona acusada es inocente. El proceso
recaba y presenta toda evidencia disponible en un intento para contradecir la
hipótesis de inocencia y por tanto obtener una condena. Si hay evidencia
suficiente contra inocencia, el tribunal rechazará la hipótesis de inocencia y
declarará culpable al demandado. Si el proceso no presenta suficiente evidencia
para demostrar que el demandado es culpable, el tribunal le hallará no culpable
(Mendenhall, 2010). Note que esto no demuestra que el demandado es inocente,
sino sólo que no hubo evidencia suficiente para concluir que el demandado era
culpable.
a) Una máquina debe llenar y empacar bolsas de dos libras de azúcar refinada.
Se cree que las bolsas contienen menos de esa cantidad.
𝐻0 : 𝜇 = 2
𝐻1 : 𝜇 < 2
b) Una firma independiente, que realiza encuestas de opinión, asegura que el
candidato del partido X cuenta con el 35% del electorado. No obstante, el partido
del candidato quiere probar que el porcentaje es mayor.
𝐻0 : 𝑃 = 0.35
𝐻1 : 𝑃 > 0.35
c) Una máquina elabora piezas mecánicas cuyo diámetro debe ser de 4 mm. Se
sospecha que la máquina no está funcionando correctamente.
𝐻0 : 𝜇 = 4
𝐻1 : 𝜇 ≠ 4
d) El rendimiento promedio de cada manzana cultivada, medido en quintales de
producción, es diferente cuando se utiliza el fertilizante X o el fertilizante Y.
𝐻0 : 𝜇𝑥 = 𝜇𝑦
𝐻1 : 𝜇𝑥 ≠ 𝜇𝑦
48
Nótese que, en todos estos ejemplos, la hipótesis nula 𝐻0 representa la creencia
previa sobre el parámetro poblacional y tradicionalmente contiene alguna
referencia de un signo de igualdad como “=”, “≥”, “≤”.
49
La probabilidad de cometer un error tipo I se llama nivel de significancia.
50
zona de aceptación y la zona de rechazo. La zona de rechazo tiene un
área correspondiente a 𝛼 (el nivel de significancia) y su posición en la
curva normal está dada por la hipótesis alterna 𝐻1 . El valor de 𝑍 que está
en la frontera de ambas zonas se conoce como valor critico o valor
frontera.
1. Planteamiento de la hipótesis
𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 ≠ 𝜇0 𝐻1 : 𝜇 < 𝜇0 𝐻1 : 𝜇 > 𝜇0
2. Definir límites de aceptación y rechazo
51
3. Calcular estadístico de contraste
𝑋̅ − 𝜇0
𝑍𝑐 = 𝜎
√𝑛
52
En este caso, el estadístico de contraste estaría dado por:
𝑝̂ − 𝑃0
𝑍𝑐 =
√𝑃0 𝑄0
𝑛
Solución
1. Planteamiento de la hipótesis
𝐻1 : 𝑃 < 0.95
53
2. Definir límites de aceptación y rechazo
𝑍𝛼 = −1.645
𝑝̂ − 𝑃0 0.92 − 0.95
𝑍𝑐 = = = −1.69
𝑃0 𝑄0
√ √(0.95)(0.05)
𝑛 150
54
Clase 16| Muestreo pequeño
16. Muestreo pequeño
En las dos clases anteriores estudiamos métodos de estimación de parámetros
y prueba de hipótesis, con base en muestras grandes (𝐧 ≥ 𝟑𝟎); sin embargo, en
ciertos escenarios es necesario hacer inferencias usando muestras pequeñas por
razones de tiempo y reducción de costos. Por ejemplo, para un fabricante
automotriz que esté probando la resistencia al impacto de los autos en su último
modelo, destruir a propósito 30 vehículos de lujo puede volverse muy costoso e
innecesario; para un laboratorio médico que quiere probar su nueva vacuna
contra un virus, encontrar 30 personas dispuestas a actuar como conejillo de
indias puede resultar muy complicado.
∑(𝑥𝑖 −𝑥̅ )2
estándar muestral 𝑠 = √ 𝑛−1
estará cerca de la desviación estándar poblacional
𝑋̅ −𝜇
𝜎 y, por lo tanto, el estadístico 𝑍 = 𝑠 es aproximadamente normal estándar,
⁄ 𝑛
√
55
por lo que se pueden buscar las probabilidades relacionadas con esta cantidad
en la tabla normal estándar (tabla 𝑍).
¿Qué se puede hacer si 𝑋̅ es la media de una muestra pequeña (𝑛 < 30) extraída
de una población con 𝜎 desconocida? En este caso, 𝑠 podría no estar cercano a
𝜎, y 𝑋̅ puede no ser aproximadamente normal. Si no se sabe nada sobre la
población de la que se extrajo la muestra, entonces no hay ningún método fácil
para hacer inferencias; sin embargo, si la población es aproximadamente
normal, 𝑋̅ lo será incluso cuando el tamaño de la muestra 𝑛 sea pequeño. Lo
𝑋̅−𝜇
anterior propicia que aún se pueda usar el estadístico 𝑠 , pero debido a que 𝑠
⁄ 𝑛
√
Distribución 𝒕 de Student
𝑣 =𝑛−1
2. 𝜎 es desconocida.
56
Si 𝜎 es conocida, la distribución 𝑍 se usa inclusive si la muestra es pequeña.
Además, si no puede asumirse una población normal, debe aumentarse el
tamaño de la muestra para utilizar la distribución Z.
57
16.1.1 Propiedades matemáticas de la
distribución t
Algunas propiedades matemáticas de la distribución 𝑡 son:
▪ Al igual que la distribución 𝑍, la distribución 𝑡 tiene una media de cero, es
simétrica respecto a la media y oscila entre −∞ y +∞.
𝑣+1
−
𝑡2 1
▪ La función de densidad de la distribución 𝑡 es 𝑓(𝑡) = 𝐴 (1 + 𝑣
)
58
16.1.2 Uso de la tabla t
Los valores críticos 𝑡(𝛼, 𝑣) para los grados de libertad adecuados se encuentran
en la tabla de la distribución 𝑡 (ver tabla 55). Esta tabla difiere en su construcción
de la tabla 𝑍 que usamos antes. Las columnas de la tabla presentan algunos
valores para el área 𝛼 de la cola derecha o izquierda de la curva 𝑡. Las filas de
la tabla representan los grados de libertad 𝑣. Los valores críticos se encuentran
en las celdas de la tabla.
Por ejemplo:
𝑡(0.05, 17) = 1.74
significa que para 𝑣 = 17
grados de libertad,
𝑃(𝑡 ≥ 1.74) = 0.05
59
16.2 Intervalos de confianza para muestras
pequeñas (𝜎 desconocida)
Para construir el intervalo con un nivel de
confianza 1 − 𝛼 y con 𝑣 = 𝑛 − 1 grados de
libertad, emplearemos la siguiente
expresión:
𝑠
𝜇 = 𝑋̅ ± 𝑡(𝛼/2,𝑣)
√𝑛
La expresión para calcular la desviación Figura 69. Intervalos de confianza
estándar muestral es: con la distribución 𝑡.
∑(𝑥𝑖 − 𝑥̅ ) Fuente: por Navidi (2008)
𝑠=√
𝑛−1
60
aproximadamente normal, debemos emplear una distribución 𝑡 con 𝑣 = 8 − 1 = 7
grados de libertad.
a) Nivel de confianza del 95%
61
• El cálculo del estadístico de contraste del paso 3 se realizará mediante la
siguiente expresión:
𝑋̅ − 𝜇0
𝑡𝑐 = 𝑠
√𝑛
Solución
Datos: 𝑛 = 10 , 𝑣 = 10 − 1 = 9 , 𝛼 = 0.05
∑ 𝑥 208.9
𝑥̅ = = = 20.89
𝑛 10
∑(𝑥𝑖 − 𝑥̅ )
𝑠=√ = 1.8735
𝑛−1
1. Planteamiento de la hipótesis
62
𝐻1 : 𝜇 > 20 𝑐𝑚 (la medida mejora)
La hipótesis alterna 𝐻1 nos indica que debemos realizar una prueba con cola a la
derecha.
𝑡𝛼 = 𝑡(0.05,9) = 1.833
𝑋̅ − 𝜇0 20.89 − 20
𝑡𝑐 = 𝑠 = = 1.502
1.8735
√𝑛 √10
1.502 ≤ 1.833
63
Referencias citadas en UNIDAD 4
• Anderson, D. & Williams, T. (2008). Estadística para administración y
economía (décima edición). México: Cengage Learning Editores.
Videos enlazados
• Manuel Luque. (2 de mayo de 2020). PROBLEMA MUESTREO ALEATORIO
ESTRATIFICADO. [archivo de video]. Recuperado de
https://youtu.be/DkcYhbBK8HA
64
• Guillermo Calderón. (19 de agosto de 2020). Intervalos de confianza para
estimar medias poblacionales. [archivo de video]. Recuperado de
https://youtu.be/9gxTITRNFLg
65
Glosario de los términos citados en la
UNIDAD 4
66