Está en la página 1de 14

DISTRIBUCIONES MUESTRALES

Teoría del Muestreo:

Uno de los propósitos de la inferencia estadística es estimar las características poblacionales


desconocidas, examinando la información obtenida de una muestra, de una población. El
punto de interés es la muestra, la cual debe ser representativa de la población objeto de
estudio.

Una muestra es un medio utilizado para inferir algo acerca de una población mediante la
selección de una parte de la misma.

Hay que seguir ciertos procedimientos de selección para asegurar de que las muestras
reflejen fielmente a la población de la que proceden, ya que solo se pueden hacer
afirmaciones probabilísticas sobre una población cuando se usan muestras representativas
de la misma.

Población: es el conjunto de todos los posibles individuos, objetos o medidas de interés para
un estadístico en una investigación particular.

Muestra: es una porción, o parte, de una población de interés.

Parámetro: es cualquier característica numérica de una población. (N,  ,  ,  2 , etc.)


2
Estadístico: es cualquier característica numérica de una muestra. (n, x , s, s , etc.)

En muchos casos, la muestra es la única forma de inferir algo acerca de una población.

Muestreo de la población:

Algunas de las principales razones por las que el muestreo es necesario son:

1. La naturaleza destructiva ciertas pruebas.

2. La imposibilidad física de revisar todos los integrantes de la población.

3. El costo de estudiar a todos los integrantes de una población, frecuentemente es


prohibitivo.

4. En ocasiones se necesitaría mucho tiempo para entrevistar a toda la población.

A continuación veremos los usos del muestreo en diversos campos:

 Política: las muestras de las opiniones de los votantes se usan para que los
candidatos midan la opinión pública y el apoyo en las elecciones.

 Educación: las muestras de las calificaciones de los exámenes de estudiantes se


usan para determinar la eficiencia de una técnica o programa de enseñanza.
 Industria: muestras de los productos de una línea de ensamblaje sirve al propósito
de controlar la calidad.

 Medicina: muestras de medidas de azúcar en la sangre de pacientes diabéticos


prueban la eficacia de una técnica o de un nuevo fármaco.

 Agricultura: las muestras del maíz cosechado en una parcela proyectan en la


producción los efectos de un fertilizante nuevo.

 Gobierno: una muestra de opiniones de los votantes se usaría para determinar los
criterios del público sobre cuestiones relacionadas con el bienestar y la seguridad
nacional.

Métodos de muestreo probabilístico:

En general hay dos tipos de muestras: la muestra probabilística y la muestra.

1. Muestra probabilística: es la muestra que se selecciona de manera que cada


integrante de la población en estudio tenga una probabilidad conocida (no igual a
cero) de ser incluido en la muestra.

Si se realiza el muestreo probabilístico, cada integrante de la población tiene la posibilidad de


ser seleccionado.

2. Muestra no probabilística: aquí no todos los integrantes tienen probabilidad de


ser incluidos en la muestra, por lo que los resultados pueden estar sesgados, lo
que significa que tales resultados de la muestra pueden no ser representativos de
la población (en general cuando hay participación humana).

El sesgo muestral es un tipo de error no muestral. El sesgo muestral se refiere a una


tendencia sistemática inherente a un método de muestreo que da estimaciones de un
parámetro que son, en promedio, menores (sesgo negativo), o mayores (sesgo positivo) que
el parámetro real.

Los métodos más comunes para muestreos aleatorios son:

1. Muestreo aleatorio simple: muestra seleccionada de manera que todos los


miembros de la población tienen la misma probabilidad de ser seleccionados.

Ejemplo:

Supongamos que una población consta de 845 empleados de una empresa industrial. Se
necesita seleccionar una muestra de 50 a partir de esta población.

El método adecuado consiste en recurrir a una tabla de números aleatorios que viene en
todos los libros de estadística especialmente construida para tal efecto. Como su nombre
lo indica, estos números han sido generados por un proceso aleatorio (en este caso, por
una computadora). Para cada dígito de un número, la probabilidad de 0, 1, 2, …., 9 es la
misma. Así, la probabilidad de que una persona con número 011 sea elegido, es la misma
que la de otra persona con el número 722, o el 356. Por lo tanto, quedan eliminados así
los sesgos en el proceso de selección.
2. Muestreo aleatorio sistemático: aquí los los integrantes o elementos de la
población se ordenan en alguna forma (por ejemplo alfabéticamente) en un archivo
según la fecha en que se reciben, o por algún otro método. Se selecciona al azar
un punto de partida, y después se elige para la muestra cada k-ésimo elemento de
la población

Ejemplo:

Supongamos que la población de interés consta de 8000 facturas colocadas en cajas


archivadas y se necesita seleccionar una muestra de 100 a partir de esta población

Se toma un punto de partida aleatoria en la tabla de números aleatorios, por ejemplo


350, y luego nos vamos cada k-ésimo (ejemplo 50) por lo que la primera factura sería
350, 400, 450, 500, 550, etc.

Ya que la primera factura se seleccionó al azar, todas las facturas tienen la misma
posibilidad de ser seleccionadas para la muestra, obteniendo así una muestra
probabilística.

3. Muestreo aleatorio estratificado proporcional: aquí se requiere separar a la


población en subgrupos, denominados estratos, y de elegir después una muestra
proporcional en cada uno de los estratos.

Ejemplo:

El problema consiste en estudiar lo que gastaron en publicidad las 352 empresas más
grandes en Chile, Supongamos que el objetivo de este estudio es determinar si las
empresas que ganan más, gastan más en publicidad, que lo que destinan a eso las
empresas con menor rentabilidad o en déficit. Considere que las 352 empresas se
dividieron en cinco estratos y que hay que tomar una muestra de 50 de ellas para un
estudio intensivo.

Estrato Ganancia Nº de % del total Nº muestreado


empresas
1 30% y más 8 2 1
2 20 a 30% 35 10 5
3 10 a 20% 189 54 27
4 0 a 10% 115 33 16
5 Déficit 5 1 1
Total 352 100 50

El muestreo aleatorio estratificado proporcional tiene la ventaja, en algunos casos, de


reflejar con mayor precisión las características de la población, que el muestreo aleatorio
simple o el aleatorio sistemático.
4. Muestreo por conglomerados: éste se emplea frecuentemente para reducir el
costo de muestrear una población dispersa en un área geográfica grande.

Ejemplo:

Supongamos que se desea efectuar un reconocimiento para determinar los puntos de


vista de industriales respecto a las políticas de estado referentes a la protección
ambiental. Si se seleccionara una muestra aleatoria de industriales y personalmente se
comunicara con cada uno, ello tomaría mucho tiempo y sería demasiado costoso.

En vez de eso, podríamos emplear el muestreo por conglomeración subdividiendo una


zona extensa en áreas menores, llamadas unidades primarias. Supongamos que Chile
se divide en regiones (16) llamadas unidades primarias y después seleccionamos al azar
4 áreas menores, por ejemplo 3, 7, 4 y 12 y se concentran los esfuerzos en éstas. Luego
tomamos una muestra aleatoria simple de los industriales de cada región y así
entrevistarlos para saber su opinión. En otras palabras una combinación del muestreo por
conglomeración y el muestreo aleatorio simple.

Estas son utilizadas generalmente por instituciones sociales como iglesias, hospitales,
escuelas y prisiones.

Error de Muestreo:

Ya sabemos de la importancia de seleccionar una muestra de manera que cada elemento o


individuo de la población tenga una probabilidad real de ser escogido. Para lograr esto,
podría elegirse un muestreo aleatorio simple, uno sistemático, uno estratificado o uno por
conglomeración. Sin embargo, es poco probable que una media muestral sea idéntica a la
media poblacional. De igual forma, la desviación estándar u otra medida calculada a partir de
la muestra, probablemente no sería exactamente igual al valor correspondiente de la
población. Por lo tanto podemos esperar que haya alguna diferencia entre un valor
estadístico de muestra, como la media muestral respectiva, y el correspondiente parámetro
de población.

Error de muestreo: es la diferencia entre un valor estadístico de muestra y su pará metro de


población correspondiente.

x  E
Cualquier medida conlleva algún error. Si se usa la media para medir, estimar, la media
poblacional  , entonces la media muestral, como medida, conlleva algún error.

Ejemplo:

Supongamos que una población de cinco empleados de producción tiene índices de


eficiencia de 97, 103, 96, 99 y 105. Considere además que se selecciona una muestra
de dos índices (97 y 105) de la población para calcular el índice medio de la misma.
Tal media sería x1  101 . Se selecciona otra muestra de dos: 103 y 96 con una Se
selecciona otra muestra de dos: 103 y 96 con una x 2  99,5 . La media de todos los
índices (población)

x  E
101  100  1 1
99,5  100  0,5 ( 2)

Cada diferencia, 1 y -0,5, es el error que habría al evaluar la media poblacional con
base en la media muestral, donde estos errores de muestreo de deben al azar. La
cantidad de estos errores será diferente de una muestra a otra.

Ya sabemos que hay posibilidad de que se produzca en error de muestreo cuando se usan
los resultados de una muestra para determinar un parámetro de población.

Entonces uno se pregunta:

¿Por qué hay que creerle a una muestra para inferir un parámetro de población si se
producen estos errores de muestreo?

Distribución de muestreo de medias muestrales:

Es una distribución probabilística que consta de todas las medias muestrales posibles de un
tamaño de muestra dado de una población, y la probabilidad de que suceda asociada a cada
media muestral.

En el ejemplo anterior se mostró que las medias muestrales de un tamaño específico varían
de una muestra a otra.

Ejemplo:

La empresa industrial Gamma tiene siete empleados de producción (población). El


sueldo por hora de cada trabajador se presenta a continuación:

Empleado Sueldo (en dólares)


A 7
B 7
C 8
D 8
E 7
F 8
G 9
1. ¿Cuál es la media poblacional?
2. ¿Cuál es la distribución de muestreo de medias para una muestra de tamaño
2?
3. ¿Cuál es la media de la distribución de muestreo?
4. ¿Qué observaciones podemos formularnos con respecto a la población y a la
distribución muestral?

Respuesta.

77889
1.   US $7,71
5

N! 7!
2. N Cn    21
n!  N  n ! 2! 7  2 !

Medias muestrales de todas las muestras posibles de tamaño de 2 empleados.

Muestra Empleados Sueldo por hora (dólares) suma Media ( x )


1 AB 7 7 14 7
2 AC 7 8 15 7,5
3 AD 7 8 15 7,5
4 AE 7 7 14 7
5 AF 7 8 15 7,5
6 AG 7 9 16 8
7 BC 7 8 15 7,5
8 BD 7 8 15 7,5
9 BE 7 7 14 7
10 BF 7 8 15 7,5
11 BG 7 9 16 8
12 CD 8 8 16 8
13 CE 8 7 15 7,5
14 CF 8 8 16 8
15 CG 8 9 17 8,5
16 DE 8 7 15 7,5
17 DF 8 8 16 8
18 DG 8 9 17 8,5
19 EF 7 8 15 7,5
20 EG 7 9 16 8
21 FG 8 9 17 8,5
Distribución de muestreo de medias muestrales tamaño 2

Media muestral ( x ) Número de medias P(x)


7 3 0,1429
7,5 9 0,4285
8 6 0,2857
8,5 3 0,1429
Total 21 1,0000

7  7,5  .........  8,5


3. x   US $7,71
21

Distribución de valores de población y medias muestrales

4. Podemos hacer las siguientes observaciones:

 La media de las medias muestrales es igual a la media poblacional:

   x  US $7,71
 La dispersión en loa distribución de las medias muestrales es menor que la que
corresponde a los valores de la población. Las medias muestrales varían de 7 a 8,5 y
los valores de la población van de 7 a 9.

 La forma de la distribución de muestreo de las medias muestrales, y la forma de la


distribución de frecuencias de los valores de la población, son diferentes. La primera
distribución tiene forma de campana y su aspecto se aproxima al de la distribución
probabilística normal.

Por lo tanto, se considera el proceso de muestreo como uno repetido del valor estadístico a
partir de su distribución muestral. Esta distribución de muestreo se utiliza luego para medir la
probabilidad de un resultado específico.
Teorema del límite central:

Si se seleccionan de cualquier población todas las muestras seleccionadas de un tamaño


determinado, la distribución de las medias muestrales se acercará a uno del tipo normal. Esta
aproximación aumenta en el caso de muestras más grandes.

Estimaciones puntuales e intervalos de confianza.

En la mayoría de los casos es necesario calcular la media poblacional, pero generalmente se


desconoce este parámetro de la población. Al único número que se utiliza para evaluar un
parámetro de población se le llama estimación puntual.

Estimación Puntual: es un valor, calculado a partir de la información de muestreo, que se


utiliza para estimar el parámetro de población.

x es una estimación puntual de 


p es una estimación puntual de P
Ejemplo:

Supongamos que una empresa desea calcular la edad promedio de compradores de equipos
de música. Se selecciona una muestra aleatoria de 40 clientes que compraron estos equipos,
se determina la edad de cada uno y se calcula la edad media de los seleccionados.. el valor
medio es una estimación puntual de la media poblacional.

Sin embargo, un valor estimado puntual representa solo una parte de la historia. Al tiempo
que se espera que la estimación puntual se acerque al parámetro poblacional, quisiéramos
medir qué tan cerca se encuentra. Un intervalo de confianza cumple con este propósito.

Intervalo de confianza: Es una gama de valores obtenidos a partir de datos de muestreo, de


modo que el parámetro sucede dentro de esa variedad a una probabilidad específica. La
probabilidad específica en cuestión se llama nivel de confianza.

Cuando el tamaño de la muestra, n, es al menos igual a 30, generalmente se acepta que el


teorema del límite central asegurará una distribución normal de las medias muestrales. Por lo
tanto si las medias muestrales se distribuyen en forma normal, en los cálculos se puede
utilizar la distribución normal estándar, es decir, Z.

S
Intervalo de confianza de para la media poblacional XZ
n
donde,

X es la media muestral.
Z es el grado o nivel de confianza seleccionado.
S es la desviación estándar de la muestra.
n es el tamaño de la muestra.

S
Intervalo de confianza de 95% para la media poblacional X  1,96
n
S
Intervalo de confianza de 95% para la media poblacional X  2,58
n
¿Cómo se obtienen los valores de 1,96 y 2,58?

El 95% y 99% se refieren al porcentaje de veces que los intervalos construidos similarmente
incluirían al parámetro de población que se estima.

Ejemplo, el de 95% se refiere al 95% central de las observaciones. Por lo tanto el 5%


restante se divide por partes iguales entre los extremos.

El teorema del límite central nos dice que la distribución de muestreo de las medias
muestrales se aproxima ala normal. Por lo tanto utilizaremos la distribución normal estándar
para calcular los valores de Z adecuados.
Hay otros niveles de confianza que pueden ser utilizados, por ejemplo, 80%, 90%, 92%,
94%, y 96%. Formule los intervalos de confianza de la media poblacional para para éstos
niveles de confianza.

Respuesta:
S
Intervalo de confianza de 80% para la media poblacional X  1,28
n
S
Intervalo de confianza de 90% para la media poblacional X  1,65
n
S
Intervalo de confianza de 92% para la media poblacional X  1,75
n
S
Intervalo de confianza de 94% para la media poblacional X  1,88
n
S
Intervalo de confianza de 96% para la media poblacional X  2,05
n

Ejemplo

En un experimento se trata de seleccionar una muestra aleatoria de 232 gerentes de nivel


medio. Un elemento de interés es su ingreso mensual. La media muestral es de $4.520.000 y
la desviación estándar en la muestra es $205.000

1. ¿Cuál es el ingreso medio estimado de todos los gerentes de nivel medio (la
población)?

2. ¿Cuál es el intervalo de confianza de 95% para la media poblacional?

3. Cuáles son los límites del intervalo de confianza de 95% para la media poblacional?

4. ¿Qué grado de confianza se está usando?

5. Interprete los resultados.

Respuesta

1. La estimación puntual de la media de la población es de $4.520.000

2. El intervalo de confianza de 95% para la media poblacional está entre:

$205.000
$4.520.000  1,96  $4.493790 y $4.546.211
235
3. Los puntos extremos del intervalo de confianza se denominan límites de confianza,
siendo estos $4.493790 y $4.546.211
4. La medida de confianza que tiene una persona se denomina grado de confianza o
nivel de confianza. En este caso es de 0,95.

5. Con un 95% de seguridad sabemos que la media poblacional se encuentra entre


$4.493790 y $4.546.211 .

Intervalos de confianza para una proporción poblacional.

La teoría y el procedimiento para determinar un estimador puntual y un estimador de


intervalo para una proporción de población se asemejan mucho a los de la media poblacional

p es una estimación puntual de P


Una estimación puntual para una proporción poblacional se obtiene dividiendo el número de
éxitos en la muestra, entre el número total muestreado.

Ejemplo

Supongamos que 150 de las 600 personas muestreadas afirmaron que prefieren una nueva
bebida que probaron, en comparación con el que consumen regularmente. ¿Cuál es la mejor
estimación de la proporción de la población que está a favor de la nueva bebida?

Respuesta

N º de éxitos en la muestra 150


p   0,25  25% es una estimación puntual
N º total muestreado 600

de la proporción poblacional ( P ).

p1  p 
Intervalo de confianza de para la proporción poblacional p Z
n
donde,

p es la proporción muestral.
Z es el grado o nivel de confianza seleccionado.
n es el tamaño de la muestra.
Ejemplo

Supongamos que 1800 de 2250 trabajadores que se muestrean en Cencosud dijeron que
planean poner a votación una propuesta para irse a paro. Si se utiliza un nivel de 0,98.

1. ¿Cuál es el intervalo de confianza para la proporción poblacional?


2. ¿A qué conclusión se llegaría si el quórum mínimo solicitado para aceptar el paro es
de 0,75?

Respuesta

1800
p  0,8
2250
1.
0,81  0,8
0,8  2,58  0,778 y 0,852
2250
2. Que el paro va.

Factor de corrección para población finita.

Las poblaciones que se han muestreado hasta ahora han sido muy grandes o se supone que
son infinitas. ¿Qué sucede si la población es finita y ni siquiera muy grande? En tales casos
se necesita hacer algunos ajustes

Para una población finita, donde el número total de objetos es N y el tamaño de la muestra
es n, se hace el siguiente ajuste a los errores estándares de la media y de las proporciones
muestrales.

S  N n
XZ  
n  n  1 
Intervalo de confianza de para la media poblacional

p1  p   N  n 
p Z  
n  n  1 
Intervalo de confianza de para la proporción poblacional

Ejemplo

Hay 250 familias en el pequeño poblado de Peralillo. Una encuesta con 40 de ellas reveló
que la contribución media mensual a la iglesia es de $30.000 con una desviación estándar de
$5.000. establezca un intervalo de confianza de 95% para la contribución media mensual.

$5.000  250  40 
$30.000  1,96    $26.404 y $33.596
40  40  1 

También podría gustarte