Está en la página 1de 12

UNIDAD III: INFERENCIA ESTADÍSTICA

TEMA
DISTRIBUCIONES EN EL MUESTREO
9.1. INTRODUCCIÓN
9.2. MUESTREO ALEATORIO
9.3. DISTRIBUCIONES MUESTRALES DE ESTADÍGRAFOS
9.4. TEOREMA CENTRAL DEL LÍMITE Y LA DISTRIBUCIÓN MUESTRAL DE LA MEDIA
9.5. DISTRIBUCIÓN MUESTRAL DE UNA PROPORCIÓN MUESTRAL
9.6. DISTRIBUCIÓN MUESTRAL DE LA DIFERENCIA DE DOS ESTADÍGRAFOS
INDEPENDIENTES
9.6.1. Distribución muestral de la diferencia de medias muestrales independientes de dos
poblaciones
9.6.2. Distribución muestral de la diferencia de proporciones de dos poblaciones
9.7. FACTOR DE CORRECCIÓN DE POBLACIÓN FINITA
9.8. LA DISTRIBUCIÓN T DE STUDENT

9.1. INTRODUCCIÓN
En los temas anteriores se obtuvieron las herramientas matemáticas de probabilidad y variables
aleatorias, de modo que ahora se puede responder la pregunta deductiva fundamental de la estadística:
¿qué puede esperarse de una muestra aleatoria extraída de una población conocida?
Sin embargo, antes de abordar esta pregunta, es necesario repetir una advertencia importante: la
manera de recolectar datos es por lo menos tan importante como la forma de analizarlos. En particular,
una muestra debe ser representativa de la población y, a menudo, el muestreo aleatorio es la mejor
manera para lograr lo anterior. Si la muestra no es aleatoria, puede estar tan sesgada que es más que
inútil.

9.2. MUESTREO ALEATORIO


Ya que las distribuciones de probabilidad son modelos teóricos para las distribuciones de
frecuencias relativas poblacionales, se pude considerar las muestras seleccionadas de las poblaciones
como observaciones de variables aleatorias; la probabilidad de observar ciertos resultados de la muestra
dependerá de la manera de seleccionar la muestra. Como se dijo anteriormente, estas probabilidades
desempeñan un papel importante en la inferencia estadística.
El procedimiento de muestreo menos complicado se conoce como muestreo aleatorio simple.
El muestreo aleatorio simple, o MAS por sus siglas, da a cada muestra diferente de la población, la
misma probabilidad de ser seleccionada. Supóngase, como ilustración, que queremos seleccionar una
muestra de  = 2 de una población que contiene  = 4 elementos (escogemos un valor de N pequeño
para simplificar el estudio). Si los símbolos  , 
,   representan los cuatro elementos, entonces
habrá seis diferentes muestras que pueden ser seleccionadas.
Observaciones
Muestra de la muestra
 ; 

 ; 
1

 ; 
2


; 
3


; 
4

 ; 
5
6
Si se seleccionara la muestra de manera que las seis muestras tuvieran la misma posibilidad de
ser seleccionadas (probabilidad de 1/6), se llamaría muestra aleatoria simple (o simplemente, muestra
aleatoria).
Se puede probar que el número de maneras de seleccionar  = 2 elementos de un conjunto de
 = 4, denotado por el símbolo 
, es
4! 4∗3∗2∗1

= = = 6 1
2! 2! 2 ∗ 12 ∗ 1
Se deduce entonces que, de forma general, para calcular el número de maneras de seleccionar
muestras de tamaño , de una población de  individuos, es

El símbolo n! (léase factorial n) se usa para representar el producto  − 1 − 2 … .3 ∗ 2 ∗ 1. El 0!=1.
1

151
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015
UNIDAD III: INFERENCIA ESTADÍSTICA
!
 =
!  − !

Definición 9.1.
Sean  y  los números de elementos en la población y en la muestra, respectivamente. Si se realiza el
muestreo de manera que cada una de las  muestras tengan la misma probabilidad de ser
seleccionada, se diría que el muestreo es aleatorio simple y la muestra aleatoria.

Es fácil entender el significado de un muestreo aleatorio, pero es mucho más difícil seleccionar
realmente una muestra aleatoria en una situación práctica. Se necesita conocer este concepto de
muestreo para algunos casos en este tema; sin embargo, se desarrollará más adelante el tema de
seleccionar realmente muestras aleatorias.

9.3. DISTRIBUCIONES MUESTRALES DE ESTADÍGRAFOS


Se utilizarán dichas variables, los estadígrafos, calculadas a partir de mediciones muestrales,
para estimar y tomar decisiones acerca de parámetros poblacionales. Estas cantidades, como los datos
muestrels de las cuales se obtuvieron, varían de una muestra a la otra, de manera aleatoria. Por
ejemplo, si calculara las medias muestrales de dos muestras diferentes, seleccionadas de la misma
población, casi seguro tendrían valores distintos. Por consiguiente, los estadígrafos muestrales, como la
media muestral ̅ y la desviación típica , son variables aleatorias.
Si calculamos un estadígrafo muestral, por ejemplo la media ̅ , a partir de un conjunto específico
de datos, ¿qué tan cerca de la media poblacional  estará?¿Cuál es la probabilidad de que la media
muestral se desvíe de la media poblacional  en más de una cantidad determinada? Para contestar
estas preguntas necesitamos conocer la distribución de probabilidad o la distribución muestral de la
media muestral.

Definición 9.2.
La distribución de probabilidad de un estadígrafo se llama distribución de muestreo (o muestral) del
mismo.

Se puede obtener la distribución muestral de un estadígrafo de dos maneras. Se la puede


deducir matemáticamente, un tema fuera de nuestro alcance en este curso, o se puede calcular
aproximadamente con la técnica de Montecarlo2. Se obtiene esta aproximación simulando un muestreo
repetitivo de un número fijo, , de observaciones de una población dada. Se calcula el valor del
estadígrafo cada vez que se selecciona, al azar, una muestra de la población. Se registran las
observaciones de la población y se repite el proceso de muestreo. Si se repite dicho proceso un gran
número de veces, la distribución de frecuencias relativas de los valores calculados para el estadígrafo
proporcionará una aproximación de su distribución muestral. Dicha aproximación será válida solamente
para la población y el tamaño de muestra utilizados en el método Montecarlo. Demostraremos el uso de
este procedimiento a continuación.

9.4. TEOREMA CENTRAL DEL LÍMITE Y LA DISTRIBUCIÓN MUESTRAL DE


LA MEDIA
La distribución en el muestreo de la media muestral ̅ tiene algunas propiedades únicas. Si se
obtiene una muestra aleatoria de  observaciones de una población con media  y desviación típica , la
distribución muestral de ̅ tendra una media  (la misma media de la población muestreada) y una
desviación típica ⁄√. La desviación típica de la distribución muestral de un estadígrafo se llama error
típico de la variable estadígrafo. Así, la desviación típica de la distribución muestral de media muestral
se denomina error típico de la media. Pero la propiedad más importante es un resultado conocido
como el Teorema Central del Límite. Este teorema (que se aplica tanto a la media muestral como a la
suma muestral) establece que, cuando el tamaño de la muestra  es grande, la distribución muestral de
la media (o suma muestral) tendrá aproximadamente una distribución normal. Por lo tanto, para la
mayoría de los casos, las distribuciones en el muestreo de la media muestral ̅ se presenta como se
indica en el gráfico 9.1.

2
La técnica de simular un proceso que contiene elementos aleatorios y de repetir el proceso una y otra vez
para observar cómo se comporta, se llama método de Montecarlo (muestrear, observar el valor del estadígrafo y
luego, repetir el proceso una y otra vez).
152
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015
UNIDAD III: INFERENCIA ESTADÍSTICA

TEOREMA CENTRAL DEL LÍMITE


Si se seleccionan muestras aleatorias de  observaciones de una población con media  y desviación
típica  finita, entonces, cuando  es grande, la distribución en el muestreo de la media muestral ̅
tendrá aproximadamente una distribución normal con una media igual a  y un erro típico de ⁄√. La
aproximación será cada vez más exacta a medida que  se haga cada vez mayor.

muestrales ∑#$ # que también tienden a tener una distribución de muestreo normal, con media igual a
El Teorema Central del Límite se puede reformular para aplicarlo a la suma de las mediciones

 y error típico de ⁄√, a medida que  se hace mayor.

0,0250 0,0250 +
*

,← 1,96 ⁄√ →,0← 1,96 ⁄√ →,


µ

Gráfico 9.1. Distribución de muestreo de la media muestral ̅


Se puede deducir matemáticamente la media y el error típico de la distribución muestral de ̅ y
también puede demostrarse matemáticamente el Teorema Central del Límite, pero las demostraciones
quedan fuera del alcance de este curso. Podemos, sin embargo, presentar algunos experimentos de
Montecarlo que apoyan las afirmaciones.
El gráfico 9.2 da la distribución de probabilidad para un número observado  en la tirada de un
solo dado. La media de esta distribución es  = 3,5 y su desviación típica es  = 1,71. Entonces, el
gráfico 9.2 es la distribución teórica de una población de valores de tirada de dado – es decir, la
distribución de las observaciones obtenida si se lanzara un dado una y otra vez un número infinito de
veces.

p(x)
1/5
1/6
1/8
0
0
0
1 2 3 4 5 6 x

Gráfico 9.2. Distribución de probabilidad para , el número que aparece en una sola tirada de dado
Ahora, supóngase que queremos aproximar la distribución de muestreo de la media ̅ de una
muestra  = 5 observaciones, seleccionadas de la población de las tiradas del dado. Podemos obtener
esta aproximación al llevar a cabo un experimento de Montecarlo. Como primer paso, se saca una
muestra de  = 5 mediciones de la población al tirar un dado cinco veces, y observamos los números
 = 3, 5, 1, 3 2. Después repetimos este procedimiento de muestreo, haciendo cada vez  = 5
observaciones y anotándolas, hasta tener un total de 100 muestras. Se presentan, en la tabla 9.1, estos
100 conjuntos de observaciones con sus sumas y sus medias muestrales.
El histograma de frecuencias absolutas para las 100 medias muestarles, que se ve en el gráfico
9.3, es una aproximación para la distribución muestral de la media ̅ de una muestra aleatoria  = 5
tiradas de un dado. La aproximación habría sido mejor, si hubiéramos repetido nuestro procedimiento de
Montecarlo un mayor número de veces, pero los resultados de las 100 repeticiones de la muestra
ilustran las propiedades de la distribución en el muestreo de una media muestral. El histograma de
frecuencias de las 100 tiradas del dado, en el gráfico 9.3, tiene su centro sobre la media poblacional
 = 3,5. También se puede observar que el intervalos  ± 2(̅  (donde (̅ = ⁄√ = 1,71⁄√5 = 0,76)
incluye la mayoría de las medias muestrales. Pero más sorprendente es la forma de la distribución
muestral. Aunque se muestreó solamente  = 5 observaciones de una población con una distribución de
probabilidad perfectamente uniforme (gráfico 9.2), la distribución de las medias muestrales en el gráfico
9.3 tiene forma de montículo y parece ser aproximadamente normal.

153
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015
UNIDAD III: INFERENCIA ESTADÍSTICA

Tabla 9.1. Muestreo de la población de tiradas de un dado


Número
1 # ̅ 1 # ̅
Número de
de Mediciones Mediciones
muestra
muestra
1 3 5 1 3 2 14 2,8 51 2 3 5 3 2 15 3,0
2 3 1 1 4 6 15 3,0 52 1 1 1 2 4 9 1,8
3 1 3 1 6 1 12 2,4 53 2 6 3 4 5 20 4,0
4 4 5 3 3 2 17 3,4 54 1 2 2 1 1 7 1,4
5 3 1 3 5 2 14 2,8 55 2 4 4 6 2 18 3,6
6 2 4 4 2 4 16 3,2 56 3 2 5 4 5 19 3,8
7 4 2 5 5 3 19 3,8 57 2 4 2 4 5 17 3,4
8 3 5 5 5 5 23 4,6 58 5 5 4 3 2 19 3,8
9 6 5 5 1 6 23 4,6 59 5 4 4 6 3 22 4,4
10 5 1 6 1 6 19 3,8 60 3 2 5 3 1 14 2,8
11 1 1 1 5 3 11 2,2 61 2 1 4 1 3 11 2,2
12 3 4 2 4 4 17 3,4 62 4 1 1 5 2 13 2,6
13 1 5 1 5 4 16 3,2 63 2 3 1 2 3 11 2,2
14 6 3 4 2 5 20 4,0 64 2 3 3 2 6 16 3,2
15 2 6 2 1 5 16 3,2 65 4 3 5 2 6 20 4,0
16 1 5 1 2 5 14 2,8 66 3 1 3 3 4 14 2,8
17 3 5 1 1 2 12 2,4 67 4 6 1 3 6 20 4,0
18 2 3 4 3 5 17 3,4 68 2 4 6 6 3 21 4,2
19 5 1 6 3 1 16 3,2 69 4 1 6 5 5 21 4,2
20 1 6 4 4 1 16 3,2 70 6 6 6 4 5 27 5,4
21 6 4 2 3 5 20 4,0 71 2 2 5 6 3 18 3,6
22 1 3 5 4 1 14 2,8 72 6 6 6 1 6 25 5,0
23 2 6 5 2 6 21 4,2 73 4 4 4 3 1 16 3,2
24 3 5 1 3 5 17 3,4 74 4 4 5 4 2 19 3,8
25 5 2 4 4 3 18 3,6 75 4 5 4 1 4 18 3,6
26 6 1 1 1 6 15 3,0 76 5 3 2 4 3 17 3,4
27 1 4 1 2 6 14 2,8 77 1 3 3 1 5 13 2,6
28 3 1 2 1 5 12 2,4 78 4 1 5 5 3 18 3,6
29 1 5 5 4 5 20 4,0 79 4 5 6 5 4 24 4,8
30 4 3 5 5 2 19 3,8 80 1 5 3 4 2 15 3,0
31 4 1 6 1 1 13 2,6 81 4 3 4 6 3 20 4,0
32 3 4 6 1 2 16 3,2 82 5 4 2 1 6 18 3,6
33 3 5 5 2 2 17 3,4 83 1 3 2 2 5 13 2,6
34 1 1 5 6 3 16 3,2 84 5 4 1 4 6 20 4,0
35 2 6 1 6 2 17 3,4 85 2 4 2 5 5 18 3,6
36 2 4 3 1 3 13 2,6 86 1 6 3 1 6 17 3,4
37 1 5 1 5 2 14 2,8 87 2 2 4 3 2 13 2,6
38 6 6 5 3 3 23 4,6 88 4 4 5 4 4 21 4,2
39 3 3 5 2 1 14 2,8 89 2 5 4 3 4 18 3,6
40 2 6 6 6 5 25 5,0 90 5 1 6 4 3 19 3,8
41 5 5 2 3 4 19 3,8 91 5 2 5 6 3 21 4,2
42 6 4 1 6 2 19 3,8 92 6 4 1 2 1 14 2,8
43 2 5 3 1 4 15 3,0 93 6 3 1 5 2 17 3,4
44 4 2 3 2 1 12 2,4 94 1 3 6 4 2 16 3,2
45 4 4 5 4 4 21 4,2 95 6 1 4 2 2 15 3,0
46 5 4 5 5 4 23 4,6 96 1 1 2 3 1 8 1,6
47 6 6 6 2 1 21 4,2 97 6 2 5 1 6 20 4,0
48 2 1 5 5 4 17 3,4 98 3 1 1 4 1 10 2,0
49 6 4 3 1 5 19 3,8 99 5 2 1 6 1 15 3,0
50 4 4 4 4 4 20 4,0 100 2 4 3 4 6 19 3,8

19

17

15

13
Frecuencia

11

|← 2(̅ → |← 2(̅ →|0


0,1 0,5 0,9 1,3 1,7 2,1 2,5 2,9 3,3 3,7 4,1 4,5 4,9 5,3 5,7

 = 3,5

Gráfico 9.3. Histograma para las medias muestrales de los 100 experimentos de tirar un dado 5 veces.
154
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015
UNIDAD III: INFERENCIA ESTADÍSTICA
Si realizamos el experimento para n=3 y n=4 este fenómeno seguiría repitiéndose y a medida
que el n va aumentando la distribución de la media sigue teniendo una distribución normal. Este
fenómeno es el resultado del Teorema Central del Límite, tal y como se encuentran en el texto.
Se dan las propiedades de la distribución muestral para la media muestral en el siguiente
recuadro.

+
DISTRIBUCIÓN EN EL MUESTREO DE LA MEDIA MUESTRAL *
1. Si se seleccionara una muestra aleatoria de  mediciones de una población con media  y
desviación típica , la distribución de muestreo de la media muestral ̅ tendrá una media
34 = 

Y un error típico
34 =
√
2. Si la población tiene una distribución normal, entonces la distribución de muestreo de ̅ será
exactamente una distribución normal.

3. Si la distribución poblacional no es normal, la distribución de muestreo de ̅ será


aproximadamente una distribución normal para muestras grandes (por el Teorema Central del
Límite).

Ejemplo 9.1. Supóngase que se selecciona una muestra aleatoria de  = 25 observaciones de una población con
 = 8 y  = 0,6.
a) Hallar la probabilidad aproximada de que la media muestral ̅ sea menor que 7,9.
b) Obtener la probabilidad aproximada de que la media muestral ̅ sea mayor que 7,9.
c) Hallar la probabilidad aproximada de que la media muestral ̅ esté dentro de 0,1 de la media poblacional
 = 8.
Solución
a) La distribución en el muestreo de ̅ tendrá una media (̅ =  = 8 y un error típico
 0,6
34 = = = 0,12
√ √25
Sin importar la forma de la distribución de la población. Es probable que para una muestra con  = 25
(debido al Teorema Central del Límite) la distribución de muestreo de ̅ tenga aproximadamente una
distribución normal. Por lo tanto, la probabilidad de que ̅ sea menor que 7,9 es aproximada por el área
sombreada debajo de la distribución normal en el gráfico 9.4. A fin de encontrar esta área, necesitamos
calcular el valor de 6 que corresponde a ̅ = 7,9. Este valor es la distancia entre ̅ = 7,9 y (̅ =  = 8,
expresada en desviación normales tipificadas de la distribución de muestreo.
̅ −  7,9 − 8
6= = = −0,83
(̅ 0,12
De la tabla 3, encontramos que el área correspondiente a 6 = −0,83 es 0,2033. Por lo tanto,
784 < 7,9 ≡ 7; < −0,83 = 0,2033
Densidad

P(X ¯
<7,9)=P(Z<-0,83)

7,9 8

Gráfico 9.4. Probabilidad de que 84 sea menor que 7,9 para el ejemplo 9.1.
b) El evento que ̅ es mayor que 7,9, es el complemento del evento que ̅ es menor que 7,9. Así, la
probabilidad de que ̅ exceda a 7,9 es
784 > 7,9 ≡ 7; > −0,83 = 1 − 7; < −0,83 = 1 − 0,2033 = 0,7967

155
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015
UNIDAD III: INFERENCIA ESTADÍSTICA
c) La probabilidad de que ̅ esté dentro de 0,1 de  = 8, es el área sombreada en el gráfico 9.5. Para calcular
dicha probabilidad debemos tener en cuenta las probabilidades de que ̅ > 7,9 y que ̅ < 8,1, y a
continuación obtendremos el área bajo la distribución muestral de la media muestral entre 7,9 y 8,1.

77,9 < 84 < 8,1 ≡ 76 < ; < 6



6 = −0,83
8,1 − 8
6
= = 0,83
0,12
77,9 < 84 < 8,1 ≡ 7−0,83 < ; < 0,83 = =0,83 − =−0,83 = 0,7967 − 0,2033 = 0,5934
1,1

0,9
Densidad

0,6

0,3

0,0
6,27 7,13 8,00 8,87 9,73
Media

Gráfico 9.5. Probabilidad de que la media tenga un valor entre 7,9 y 8,1 ó que la media esté dentro de 0,1
de la media poblacional
Ejemplo 9.2. Para evitar problemas con Defensa al Consumidor, un embotellador de bebidas tiene que estar
razonablemente seguro de que los envases de 250 cc contienen realmente 250 cc de la bebida. Para ello el
embotellador selecciona al azar 10 botellas por hora y mide el volumen de bebida en cada una de ellas para
estimar si una máquina embotelladora funciona satisfactoriamente. Se utiliza la media de las 10 mediciones del
contenido para decidir si hay que reajustar la cantidad de líquido por botella suministrado por la máquina. Si los
registros muestran que la cantidad de la bebida por envase tiene una desviación típica de 5 cc, y si se ajustó la
máquina embotelladora para descargar, en promedio, 253 cc por botella, ¿cuál será la probabilidad aproximada de
que la media muestral de las 10 botellas para la prueba sea menor que 250 cc?
Solución La media de la distribución de muestreo de la media muestral, es idéntica a la media de la
población de los contenidos de las botellas, a saber,  = 253 >>, y el error típico de la distribución muestral,
denotada por 34 , es
 5
34 = = = 1,58
√ √10
Aunque  es apenas 10, es probable – para este tipo de datos – que la distribución muestral de ̅ sea
aproximadamente normal, gracias al Teorema Central del Límite. Entonces la distribución muestral de ̅ aparecerá
como se ilustra en el gráfico 9.7.
0,06

0,04
Densidad

0,03

0,01

0,00
217,29 235,15 253,00 270,85 288,71

Media

Gráfico 9.6. Probabilidad de que el volumen promedio de bebida en el envase sea menor a 250 cc.
La probabilidad de que ̅ sea menor que 250cc es aproximadamente igual al área sombreada debajo de la curva
normal del gráfico 9.6. Esta área será igual a =6. Al expresar la distancia entre 250 cc y 253 cc, en término de
desvíos normales tipificados 6, obtenemos
̅ −  250 − 253
6= = = −1,89
(̅ 1,58
El área se encuentra tabulada en la Tabla 3, que para 6 = −1,89, es 0,0294. Entonces, la probabilidad de que ̅
sea menor que 250 cc, es
784 < 250 >> ≡ 7; < −1,89 = =−1,89 = 0,0294
O bien, si la máquina embotelladora se ajusta para descargar una media de 253 cc, la descarga media ̅ de una
muestra de 10 botellas será menor que 250 cc, con una probabilidad aproximadamente igual a 0,0294. Cuando
ocurre esta señal de peligro (̅ es menor que 250 cc), el embotellador toma una muestra más grande para verificar

156
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015
UNIDAD III: INFERENCIA ESTADÍSTICA
el ajuste de la máquina llenadora. Nótese que el Teorema Central del Límite desempeña un papel en la solución de
este problema, porque justifica la aproximación normal para la distribución muestral de la media muestral.

Sugerencias para la resolución de problemas


Antes de tratar de calcular la probabilidad de que un estadígrafo ̅ esté en algún intervalo, signase los
pasos siguientes:
1. Calcular la media y el error típico de la distribución de muestreo de ̅ .
2. Trazar un croquis aproximado de la distribución muestral. Localícese la media  y utilícese el
valor de 34 para obtener la localización aproximada de los extremos de la distribución.
3. Localizar el intervalo en el esquema que se hizo en el paso 2, y sombrear el área
correspondiente a la probabilidad que se quiere calcular.
4. Obtener la(s) puntuación(es) 6 asociada(s) al (a los) valor(es) que interesa(n) en el problema.
Utilícese la tabla 3, para evaluar la probabilidad.
5. Una vez obtenida la respuesta, verifíquese el croquis de la distribución de muestreo, para ver si
su respuesta está de acuerdo con el área sombreada. Este procedimiento proporciona un
control aproximado de los cálculos.

9.5. DISTRIBUCIÓN MUESTRAL DE UNA PROPORCIÓN MUESTRAL


Tomando los ejemplos prácticos de experimentos binomiales sobre encuestas de la preferencia
de los consumidores o de sus opiniones, obtenemos información para estimar la proporción ? de las
personas en la población que tienen ciertas características, como estar a favor de una cuestión particular
o producto de consumo. Si se selecciona una muestra aleatoria de  personas de la población y si  de

8
ellas tienen la característica en cuestión, entonces se utiliza la proporción muestral
@A =
>
Para estimar la proporción poblacional @. Como la proporción muestral @A es la variable aleatoria
binomial 8 multiplicada por una constante 1⁄>, su distribución de muestreo tendrá la misma forma que la
distribución de probabilidad binomial para 8. Como la distribución de probabilidad binomial, se puede
aproximar por la normal cuando el tamaño c es grande.
Ya que la media y la desviación típica de una variable aleatoria binomial 8 son
 = >@ y  = B>@1 − @
Para este caso, se infiere que la media y el error típico de la proporción
3
@A = C , son
1 1
DE = 3  = >@ = @
> >

1 1 @1 − @
DE = 3 = B>@1 − @ = F
> > >
Por lo tanto, para tamaños muestrales grandes, la distribución muestral de @A aparece como se
indica en el gráfico 9.7. Se dan las propiedades de la distribución muestral de @A en el siguiente recuadro.

PROPIEDADES DE LA DISTRIBUCIÓN EN EL MUESTREO DE LA PROPORCIÓN MUESTRAL G

1. Si se selecciona una muestra aleatoria de > observaciones de una población binomial, con un
parámetro @, la distribución de muestreo de la proporción muestral.
8
@A =
>
Tendrá una media
DE = @
Y un erro típico
@1 − @
DE = F
>
2. Cuando el tamaño muestral  es grandes, la distribución en el muestreo de @A será
aproximadamente normal. La aproximación será adecuada si
DE − 2DE y DE + 2DE
Caen en un intervalo de 0 a 1.

157
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015
UNIDAD III: INFERENCIA ESTADÍSTICA

@A
0,0250 0,0250

@
µ

,← 1,96 ⁄√ →,0← 1,96 ⁄√ →,

Gráfico 9.7. Distribución de muestreo de la proporción muestral @A

Ejemplo 9.3. Según el INDEC, el 55.5% de los adultos jóvenes (grupo etario entre 20 y 29 años) residentes en la
Argentina han completado la enseñanza media. Si se toma una muestra aleatoria de 200 personas residentes en
Argentina, ¿cuál es la probabilidad que no más del 50% hayan completado la enseñanza media, en dicho grupo
etario?

El valor esperado de la distribución muestral de la proporción es @ = 0,555. Esto, junto con el tamaño de la muestra
de c= 200, se utiliza para determinar el error típico de la distribución muestral y el valor de 6 correspondiente a una
proporción de la muestra de @A = 0,50.
@1 − @ 0,5551 − 0,555
IJJKJ Lí?N>K = @E = F =F = 0,0351
> 200
@E − @ 0,50 − 0,555
6= = = −1,57
@E 0,0351
Al consultar la tabla de la distribución normal estandarizada, el área de 6 = −1,57 es 0,0582. Entonces, la
probabilidad de que nomás del 50% de la población adulto joven de la Argentina haya terminado la enseñanza
media es de 0,0582.

Nota: Aunque la distribución binomial es discreta y la normal continua, no hemos utilizado la


corrección por continuidad para encontrar esta solución. Tal corrección no genera mucha
diferencia en los resultados cuando los tamaños de muestra son grandes y el número de éxitos
tiene una gran cantidad de valores posibles. Debido a los tamaños de muestra que suelen
emplearse al abordar la distribución muestral de la proporción, por lo general esta corrección no
se utiliza en estas aplicaciones.

9.6. DISTRIBUCIÓN MUESTRAL DE LA DIFERENCIA DE DOS


ESTADÍGRAFOS INDEPENDIENTES
Muchos estudios estadísticos comparan par de medias o proporciones muestrales. Por ejemplo,
se desearía saber si existe una diferencia entre dos medias poblacionales, y se utilizaría la diferencia de
medias muestrales para llegar a una conclusión. Estas distribuciones muestrales, que surgen de
seleccionar infinitas muestras de dos poblaciones, calcular sus medias muestrales (o proporciones
muestrales) y realizar la diferencia entre ellas y obtener la distribución de probabilidad de esas
diferencias, tienen propiedades específicas que se detallan en el siguiente recuadro:

Suponga que los estadígrafos 8 y 8


tienen medias y varianzas  ; 
 y 
; 

, respectivamente.
Entonces, la distribución muestral de la diferencia de los estadígrafos tendrá las siguientes propiedades.
1. La media de la distribución muestral de la diferencia es:
μPQ RPS  = μ − μ

2. La varianza de la distribución en el muestreo de la diferencia es igual a la suma de sus


varianzas:
σP

Q RPS 
= 
+ 

3. Si 8 y 8
tienen exacta o aproximadamente una distribución normal, entonces la distribución
muestral de la diferencia será exacta o aproximadamente normal.

Pueden aplicarse las propiedades de la distribución de muestreo de la diferencia entre dos


variables estadísticas independientes para deducir las propiedades de las distribuciones muestrales de
la diferencia de dos medias muestrales y la diferencia de dos proporciones muestrales.
158
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015
UNIDAD III: INFERENCIA ESTADÍSTICA

9.6.1. Distribución muestral de la diferencia de medias muestrales


independientes de dos poblaciones
A continuación describiremos la distribución en el muestreo de la diferencia ̅ − ̅
 entre dos
medias muestrales independientes. Supondremos que se calcularon ̅ y ̅
, a partir de variables
aleatorias independientes de  y 
observaciones de poblaciones con medias y varianzas  , 
 y

, 

. Entonces, según las propiedades de la distribución en el muestreo para la diferencia entre dos
estadígrafos, la media de la distribución muestral de ̅ − ̅
 es
UV+ W RV+X  = UY4W − UY4X = UW − UX
Para encontrar el error típico de la distribución muestral ̅ − ̅
, se necesita evaluar las
varianzas de ̅ y ̅
. Según la distribución en muestreo de la media muestral, el error típico de la media
muestral ̅ de una variable aleatoria de  observaciones de una población con varianza 
, es
Z
Z[+ =
√\
La varianza de ̅ , el cuadrado de (̅ , es
ZX
ZX[+ =
\
Por lo tanto, para nuestro ejemplo, los errores típicos y las varianzas de ̅ y ̅
son, respectivamente
ZW ZXW
Z[+W = ZX[+W =
√\W \W
ZX ZXX
Z[+X = ZX[+X =
√\X \X
Entonces, como la varianza de la diferencia entre dos variables estadísticas es igual a la suma de sus
varianzas, se tiene
ZXW ZXX
]V
X
= ZX*+W + ZX*+X = +
\W \X
+ W RV
+X

Y su error típico
ZX ZX
]V+ W RV+X  = ^ZX*+W + ZX*+X = F W + X
\W \X
La forma de la distribución en el muestreo de ̅ − ̅
 dependerá de la naturaleza de la población
muestreada cuando los tamaños muestrales  y 
son pequeños. Cuando  y 
son grandes, la
distribución muestral de ̅ − ̅
 será aproximadamente normal, ya que ̅ y ̅
tendrán distribuciones
aproximadamente normales cuando  y 
son grandes, según el Teorema Central del Límite.
Las propiedades de la distribución en el muestreo de la diferencia de dos medias muestrales
independientes se resumen en el recuadro siguiente.

Suponga que se seleccionaron dos muestras aleatorias independientes de  

observaciones, de poblaciones con media y varianza  ; 


 y 
; 

, respectivamente. Entonces, la
distribución muestral de la diferencia de medias muestrales tendrá las siguientes propiedades:
1. La media y el error típico de ̅ − ̅
 son:
UV+ W RV+X  = UW − UX
ZX ZX
]V+ W RV+X  = ^ZX*+W + ZX*+X = F W + X
\W \X
2. La distribución muestral de ̅ − ̅
 será aproximadamente normal si  
son grandes.

9.6.2.Distribución muestral de la diferencia de proporciones de dos


poblaciones
En otro problema estadístico común es necesario hacer la comparación de dos parámetros
dicotómicos poblacionales, @ @
, basándose en dos muestra aleatorias independientes de > >

observaciones, respectivamente, seleccionadas de las dos poblaciones en estudio. Puede demostrarse,


a partir de las propiedades de la distribución muestral de la diferencia entre dos estadígrafos, que la
distribución de la diferencia de proporciones muestrales tiene una distribución aproximadamente normal,
con una media y un error típico como se indica en el siguiente recuadro.

159
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015
UNIDAD III: INFERENCIA ESTADÍSTICA

Suponga que se seleccionaron dos muestras aleatorias independientes de > >

observaciones, de poblaciones binomiales con parámetros @ @


, respetivamente. Entonces, la
distribución muestral de la diferencia de proporciones muestrales
8 8

@A − @A
 = _ − `
> >

tendrá las siguientes propiedades:


1. La media y el error típico de @A − @A
 son:
μDEQ RDES  = π − π

@ 1 − @  @
1 − @

σDEQ RDES  = ^DE
Q + DE
S = F +
> >

2. La distribución muestral de @A − @A


será aproximadamente normal cuando > >
son
grandes.

9.7. FACTOR DE CORRECCIÓN DE POBLACIÓN FINITA


En la estandarización de ̅ , el denominador de la transformación era ⁄√. El cálculo del error
típico se realizó suponiendo que la muestra extraída provenía de una población infinita, o de una
población finita cuyas extracciones eran con reposición. ¿Pero qué ocurre cuando el muestreo no es de
este tipo (o sea, cuando la población es finita y el muesreo es sin reposición)? En este caso, el error
típico no puede ser ⁄√, sino una cantidad menor, por el hecho lógico de que la desviación típica de 
debe tender a cero a medida que el tamaño muestral  se aproxima al tamaño poblacional . Esto es, si
cada una de las muestras constituídas por la totalidad de la población  = , entonces las medias
muestrales ̅ serán todas idénticas e iguales a la media poblacional . No existirá variación en los
valores de ̅ , de modo que (̅
= 0. Este no es el caso para ⁄√, pues esta expresión tiende a cero
cuando  → ∞ y no cuando  → .
Si el tamaño de la muestra es pequeño en relación con el de la población (digamos 10% o
menos), entonces la fórmula de transformación será aproximadamente correcta aún en el muestreo sin
reposición. En este caso, por lo general, no se toma en cuenta el factor de corrección. Sin embargo,
cuando el tamaño de la muestra es mayor que el 10% de , el denominador de la fórmula
correspondiente a 6 debe multiplicarse por un factor de corrección. Este factor, llamado factor de
corrección de población finita, se define de la siguiente manera:

p − \
cdefgh ij eghhjeekó\ Ggh Ggmndekó\ ok\kfd = F
p − W

Notese que este factor de corrección será siempre un número menor a 1. Multiplicando el
denominador de la fórmula de transformación por este factor, disminuiremos el valor del error típico (tal
como deseamos). La estandarización de 6, incluyendoe l factor de corrección, está dada por:

Estandarización de q incluyendo el factor de corrección


+−r
*
q=
Z p − \
^
√\ p − W

9.8. LA DISTRIBUCIÓN T DE STUDENT


Si 84 es la media de una muestra grande de tamaño  de una población con media  y varianza
 , entonces el teorema central del límite especifica que 84~, 
⁄. La cantidad 84 − vt⁄√u

tiene una distribución normal con media 0 y varianza 1. Además, la desviación típica muestral  estará
cerca de la desviación estándar  poblacional. Por esta razón la cantidad 84 − vt⁄√u es
aproximadamente normal con media 0 y varianza 1, por lo que se pueden buscar las probabilidades
relacionadas con esta cantidad en la tabla normal estándar (Tabla 6).
¿Qué se puede hacer si 84 es la media de una muestra pequeña? Si éste es pequeño,  podría no
estar cercano a , y 84 puede no tener una distribución aproximadamente normal. Si no se sabe nada

para calcular las probabilidades de 84. Sin embargo, si la población de la cual proviene la muestra es
acerca de la población de la que la muestra pequeña fue extraída, entonces no hay ningún método fácil

aproximadamente normal, 84 lo será incluso cuando el tamaño de la muestra sea pequeño. Lo anterior
propicia que aún se puede utilizar la cantidad 84 − vt⁄√u, pero debido a que  no está
necesariamente cercana a , esta cantidad no tendría una distribución normal. En su lugar, tiene la

160
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015
UNIDAD III: INFERENCIA ESTADÍSTICA
distribución t de Student con  − 1 grados de libertad, que se denota por LR . El número de grados de
libertad para la distribución L es uno menos que el tamaño muestral.

Sea 8 , 8
, … , 8 una muestra pequeña de una población normal con media . Entonces, la cantidad
84 − 

v 

Tiene una distribución t de Student con  − 1 grados de libertad, denotada por f\RW .
Cuando  es grande, la distribución de la cantidad 84 − vt⁄√u es muy cercana a la curva normal,
de esta forma la curva normal puede utilizarse en lugar de la t de Student.

El siguiente teorema da la función de densidad de la variable aleatoria T.

Sea Z una variable aleatoria normal estándar y V una variable aleatoria ji cuadrada con
υ grados de libertad. Si Z y V son independientes, entonces la distribución de la variable
aleatoria T, donde
Z
T=
V υ
está dada por
− (υ +1) 2
Γ[(υ + 1) 2]  t 2 
h(t ) = 1 + 
Γ(υ 2 ) πυ  υ 
Esta se conoce como la distribución t con υ grados de libertad.

La función de densidad de probabilidad de la distribución L de Student es diferente para los


distintos grados de libertad. El gráfico 9.9 presenta gráficas de la función de densidad de probabilidad
para diferentes elecciones de grados de libertad. Las curvas tienen una forma similar a la curva normal,
o 6, con media 0 y desviación típica 1. Sin embargo, las curvas L son más extendidas. Por ejemplo, la
curva L con un grado de libertad corresponde a un tamaño muestral de 2. Cuando se extraen muestras
de tamaño 2, ocurrirá con frecuencia que la desviación típica muestral  sea mucho más pequeña que ,
lo que llevará a que el valor de 84 − vt⁄√u sea muy grande, en valor absoluto. Por esta razón, la
curva de L con un grado de libertad tiene mucha más área en las colas. Para tamaños muestrales más
grandes, el valor de  es menos probable que esté lejos de  y la curva L es más cercana a la curva
normal. Con diez grados de libertad (correspondiendo a un tamaño muestral de 11), la diferencia entre la
curva L y la curva normal no es grande. Si una curva L con 30 grados de libertad estuviese dibujada en el

6
gráfico 9.8, sería indistinguible de la curva normal.

Lw
L

L

-5,00 -2,50 0,00 2,50 5,00

Gráfico 9.8: Gráficos de la función de densidad de probabilidad de la variable L de Student para diferentes
t

gados de libertad. La curva normal con media 0 y varianza 1 (curva de 6) es graficada para comparar. Las curvas
de L están más extendidas que la normal, pero la cantidad de extensión adicional disminuye conforme aumenta el
número de grados de libertad.

Al muestrear de poblaciones normales, se puede mostrar que x y s2 son independientes, y en


consecuencia lo son Z y V.

Sean X1,X2,…,Xn variables aleatorias independientes que son todas normales con media µ y σ . Sea
n
x ( xi − x ) 2
n
x=∑ i y s =∑2

i =1 n i =1 n −1
Entonces la variable aleatoria
x−µ
t=
s/ n
tiene una distribución t con υ = n − 1 grados de libertad.

161
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015
UNIDAD III: INFERENCIA ESTADÍSTICA
La distribución de t es similar a la distribución de z, pues ambas son simétricas alrededor de una
media de cero. Ambas distribuciones tienen forma de campana, pero la distribución t es más variable,
debido al hecho de que los valores t dependen de las fluctuaciones de dos cantidades, x y s2, mientras
que los valores z dependen sólo de los cambios de x de una muestra a otra. La distribución de t difiere
de la de z en que la varianza de t depende del tamaño de la muestra n y siempre es mayor que 1.

Se acostumbra representar con tα el valor t por arriba del cual encontramos un área igual a α. De
aquí, el valor t con 10 grados de libertad, que deja un área de 0.025 a la derecha, es t = 2.228. Como la
distribución t es simétrica alrededor de una media 0, tenemos t1 - α = -tα; es decir, el valor t que deja un
área de 1 – α a la derecha y por tanto un área de α a la izquierda, es igual al valor t negativo que deja un
área de α en la cola derecha de la distribución (gráfico 9.9). Esto es; t0,95= -t0,05, t0,99=-t0,01, etc. Por
ejemplo, el valor t con υ = 14 grados de libertad que deja un área de 0,025 a la izquierda, y por tanto un
área de 0,975 a la derecha es: t0,975= -t0,025 = -2,145.

Gráfico 9.9. Propiedad de simetría de la distribución t.

¿Para qué se utiliza la distribución t?


La distribución t se usa de manera extensa en problemas que tienen que ver con inferencia
acerca de la media de la población o en problemas que implican muestras comparativas (es decir, en
casos donde se trata de determinar si las medias de dos muestras son significativamente diferentes). El
alumno debe notar que el uso de la distribución t para el estadígrafo
x−µ
T=
s/ n
requiere que X1, X2, … Xn sea normal. El uso de la distribución t y la consideración del tamaño de la
muestra no se relacionan con el teorema del límite central. El uso de la distribución normal estándar en
lugar de T para n ≥ 30 solamente implica que S es un estimador suficientemente bueno de σ en este
caso.

162
Cátedra de Cálculo Estadístico y Biometría – Facultad de Ciencias Agrarias – UNCUYO / Ciclo 2015

También podría gustarte