Está en la página 1de 45

Capitulo I.

Muestreo Estadístico 1

CAPITULO I: MUESTREO ESTADÍSTICO

1.1 INTRODUCCION.
Cabe recordar que el objetivo de la estadística es hacer inferencias acerca de una
población con base en la información contenida en una muestra. Este mismo objetivo
motiva el estudio del problema. Vamos a considerar el problema de muestreo de una
población que no es, necesariamente, muy grande.

Cada observación o elemento tomado de la población contiene cierta cantidad de


información acerca del parámetro o parámetros de interés. Como la información cuesta
dinero, se debe determinar que tanta información se debe comprar. Demasiada poca
información impide realizar buenas estimaciones, mientras que mucha información
ocasiona un despilfarro de dinero. La cantidad de información obtenida en la muestra
depende del número de elementos muestreados y de la cantidad de variación en los
datos. Este último factor puede ser controlado por el método de selección de la muestra,
llamado el diseño de la encuesta por muestreo.

Los investigadores de mercado a menudo realizan estudios para obtener información


sobre las preferencias de las personas. Los auditores suelen seleccionar muestras de las
facturas no cobradas de una empresa, y, a partir de ella, realizan inferencias sobre la
población. Los directores de personal a menudo necesitan información sobre las
actitudes de los empleados hacia nuevos métodos de producción y creen conveniente
tomar una muestra de todos los trabajadores.
DEFINICION. muestreo es el proceso por el cual se realizan inferencias a la población
examinando solo una parte de ella, cuyo propósito es proporcionar diferentes tipos de
información estadística de naturaleza cuantitativa y cualitativa del todo mediante el
examen o análisis de un poco de unidades seleccionadas.
VENTAJAS DEL MUESTREO
- Costo reducido. El costo total de un estudio por muestra es mucho menor en
comparación con el censo
- Mayor rapidez. Un número pequeño de observaciones pueden recolectarse y
procesarse más rápido que un censo y dar resultados más oportunos.
- Mayor alcance. Tiene mayor alcance frente al censo con relación a la variedad
de información dada su flexibilidad, adaptabilidad y posibilidad de estudiar la
interrelación de varios factores.
- Mayor exactitud. Un estudio muestral posibilita mayor exactitud por
practicarse un mejor control sobre la recolección y procesamiento de datos.
Entrenamiento intenso y mejor equipo a los encuestadores.
- Único método de estudio. Se emplea en estudios donde el examen de las
unidades implica su destrucción.
TIPOS DE MUESTREO
1. Muestreo no probabilístico. Proceso por el cual no se
puede asignar objetivamente probabilidades a los elementos seleccionados y por
consiguiente no se puede determinar la precisión de los resultados en términos de
probabilidad.
Capitulo I. Muestreo Estadístico 2

2. Muestreo probabilístico. Es el proceso por el cual cada


elemento de la población tiene una probabilidad perfectamente conocida de ser incluida en la
muestra. Tenemos los siguientes tipos:
Muestreo al azar simple
Es aquella en la que los elementos se escogen del total de la población en forma
individual con una oportunidad igual e independiente .Por lo general se utiliza una tabla
de números aleatorios.
Por ejemplo, seleccionar una muestra al azar simple es similar a la que se realiza en la
extracción aleatoria de números en una lotería.
Muestra al azar sistemático
Una muestra aleatoria sistemática es aquella en que sus elementos se eligen de la
población a intervalos uniformes a partir de un listado ordenado. El k-ésimo elemento
de la muestra es kN/n, donde n es el tamaño de la muestra y N el tamaño de la
población.
Por ejemplo, al elegir una muestra sistemática de 100 alumnos de un colegio que tiene
3000 alumnos, k 3000/100 30. El primero se elige en forma aleatoria de los 30
primeros de la lista y los demás sistemáticamente cada 30 alumnos de la lista.
Muestreo aleatorio estratificado
Primero se clasifican a los elementos de la población en subgrupos separados de
acuerdo con una o más características importantes (estratos). Después se obtiene por
separado una muestra aleatoria simple o sistemática en cada estrato. El tamaño de cada
submuestra debe ser proporcional al tamaño del estrato para asegurar representatividad.
Por ejemplo, para obtener una muestra aleatoria de 600 electores de una población de
600,000 electores de los cuales 300,0000 son de clase baja, 200,000 de clase media y
100,000 de clase alta. Se deben elegir al azar 300 de clase baja, 200 de clase media y
100 de clase alta.
Muestreo aleatorio agrupado
Denominado también por conglomerados. Los elementos de la población se dividen en
forma natural en subgrupos. Luego se eligen al azar los subgrupos que forman la
muestra.
Por ejemplo, al estudiar los pensiones que se pagan en los colegios particulares donde
no es posible tener una lista de todas las pensiones, pero puede obtenerse una lista de los
colegios particulares (grupos). Entonces, con esta lista puede obtener una muestra
aleatoria de colegios y así obtener las pensiones que se pagan en estos colegios.

1.2. NOCIONES BÁSICAS EN LA INVESTIGACIÓN POR MUESTREO

TERMINOS TÉCNICOS

ELEMENTO O UNIDAD DE OBSERVACIÓN: Un elemento es un objeto que posee


la información que busca el investigador y acerca del cual se hacen inferencias.

Ejemplo: Se realiza una encuesta de opinión sobre Intención de voto en las próximas
elecciones presidenciales en el Perú.
En este caso un elemento es un votante, persona mayor de 18 años y con D.N.I.,
registrado en Lima Metropolitana.

POBLACIÓN OBJETIVO: es un conjunto de elementos sobre los cuales deseamos


hacer alguna inferencia.
Capitulo I. Muestreo Estadístico 3

En nuestro ejemplo, la población objetivo debería ser:


 ¿Todos los adultos que pueden votar?
 ¿Todos los votantes registrados?
 ¿Todas las personas que votaron en la última elección?

La elección de la población objetivo afectará los resultados.

UNIDAD DE MUESTREO: es un elemento o unidad que contiene el elemento, que


está disponible para ser seleccionado en alguna etapa del proceso. En nuestro ejemplo,
una unidad de muestreo puede ser un votante registrado en Lima Metropolitana.

En los residentes de una ciudad, la unidad puede ser:


 una persona.
 los miembros de una familia.
 personas que viven en una manzana.

En el muestreo de una cosecha agrícola la unidad puede ser:


 un lote.
 una granja.
 Un área de terreno, cuya forma y dimensiones dependen del investigador.

Considerando otro ejemplo, supongamos que Unique quiere evaluar la respuesta de los
consumidores a una línea nueva de lápices labiales y quiere obtener una muestra de
mujeres mayores de 18 años, en este caso la unidad de muestreo sería igual a un
elemento. En forma alternativa, la unidad de muestreo serían las familias. En este último
caso, las familias participarían en la muestra y se entrevistarían a todas las mujeres
mayores de 18 años en cada familia.

MARCO MUESTRAL: Es la lista de unidades de muestreo.

Si especificamos al votante individual como la unidad de muestreo, una lista de todos


los votantes registrados puede servir como el marco para una encuesta de opinión
pública.

Para las encuestas telefónicas, el marco de muestreo podría ser, una lista de todos los
números telefónicos residenciales de la ciudad.

Para las entrevistas personales, una lista de las direcciones de todas las calles.
Para una encuesta de agricultura, una lista de todas las granjas o un mapa de las áreas
que contienen granjas.

MUESTRA: subgrupo de los elementos de la población que se selecciona para


participar en un estudio determinado.

Los datos son obtenidos de los elementos de la muestra y son usados para describir a la
población. Considérese al votante individual como la unidad de muestreo y a la lista de
votantes registrados como el marco.
Capitulo I. Muestreo Estadístico 4

En la encuesta de opinión publica cierto número de votantes (la muestra) van a ser
entrevistados para determinar su preferencia en las próximas elecciones.
Podemos usar la información obtenida de estos votantes para hacer inferencia acerca de
la preferencia de los votantes en una población determinada.

PARÁMETRO: Es una medida utilizada para describir alguna característica de una


población., y para determinar su valor es necesario utilizar la información de la
población completa.
Los parámetros de la población o parámetros poblacionales son constantes desconocidas
asociadas a características de una o más variables. Dada una variable Y, los parámetros
de interés más utilizados son:

TOTAL POBLACIONAL: Y
n

Yi 1
i

suma de los valores de Yi en la población y se representa por Y

MEDIA POBLACIONAL: Y
N

Y i
Y i 1
N

VARIANZA POBLACIONAL: 2
N

 (Y i  Y )2
2  i 1

PROPORCIÓN POBLACIONAL DE UNIDADES EN UNA CLASE C:

Sea C un subconjunto de una Población. Sea Y una variable definida por

1 si iC
Yi  
0 si iC
N
1
P
N
Y i
i 1 Proporción de unidades de la Población que pertenecen a C.

Observemos que una proporción P es la media de una variable particular.


Capitulo I. Muestreo Estadístico 5

RAZÓN POBLACIONAL

Sean Y, X dos variables de estudio. Se define la RAZÓN entre Y y X mediante

TOTALY  MEDIAY 
R 
TOTAL X  MEDIA X 

ESTADÍSTICO O ESTADÍGRAFO
Es una medida usada para describir alguna característica de la muestra y la toma de
decisiones contienen un grado de incertidumbre.
Los estadígrafos más utilizados son:
i) MEDIA MUESTRAL: y
ii) PROPORCIÓN MUESTRAL: p̂
2
iii) VARIANZA MUESTRAL: s

ESTIMADOR Y ESTIMACIÓN
Un estimador de un parámetro poblacional ˆ (media, total, razón, proporción en la
población) es una función cuyo dominio es el conjunto S (muestras posibles) y su
recorrido coincide con posibles valores que puede tomar el parámetro  .
En otros términos, un estimador se interpreta como un procedimiento, generalmente
establecido a través de una fórmula, mediante el cual a cada muestra de muestras
posibles, se le asigna un número que se reconoce como posible valor de  .
Muestras posibles Prob. De Selección

Muestra Estimador Estimación

seleccionada (Fórmula) Número

característica

A estimar
de la
población

Si se imagina que este procedimiento se repite con todas las muestras posibles, los datos
que proporcionan cada una de ellas al ingresar al estimador (fórmula) darán como
resultado números (estimaciones) los cuales, en general, diferirán de muestra en
muestra. Es decir, que para cada muestra posible se obtiene un número (no
necesariamente distinto).
Capitulo I. Muestreo Estadístico 6

1.3. MUESTREO ALEATORIO SIMPLE

Es una Técnica de muestreo probabilístico en la que cada elemento de la población tiene


probabilidad de selección idéntica y conocida. Cada elemento se elige en forma
independiente de los demás y la muestra se toma mediante un procedimiento aleatorio a
partir del marco muestral.
Si un tamaño de muestra n es seleccionado de una población de tamaño N de tal manera
que cada muestra posible de tamaño n tiene la misma probabilidad de ser seleccionada,
el procedimiento de muestreo se denomina muestreo irrestricto aleatorio. A la muestra
así obtenida se le llama muestra irrestricta aleatoria
El muestro aleatorio simple es la forma más sencilla de muestreo de probabilidad y
proporciona la base teórica de las formas más complejas. Existen dos formas de extraer
una muestra aleatoria simple: con reemplazo, donde la misma unidad se puede incluir
más de una vez en la muestra, y sin reemplazo, donde todas las unidades de la muestra
son distintas.
Números de muestras.
n
a) Si el muestreo es con remplazo, dada una población de tamaño N, hay N
formas posibles de seleccionar una muestra de tamaño n.
b) Si el muestreo es sin remplazo.
i) considerando el orden.
Dada una población de tamaño N, el número de muestras posibles de
tamaño n que pueden seleccionarse sin remplazo y considerando el orden es:

ii) sin considerar el orden

PROBABILIDAD DE SELECCIÓN DE UNA MUESTRA DE TAMAÑO n.

a) Muestreo con remplazo.

b) Muestreo sin remplazo.


i) considerando el orden.
=
ii) sin considerar el orden.
=
Nota: La probabilidad de que un elemento de la población se encuentre en la muestra
es: , tanto para muestreo con y sin remplazo.

Para extraer una muestra aleatoria simple, necesitamos una lista de todas las unidades de
observación que pertenecen a la población; esta lista es el MARCO MUESTRAL. En
este tipo de muestra, la unidad de muestreo y la unidad de observación coinciden. Cada
unidad tiene asignado un número, y se elige una muestra de modo que:

(1) cada unidad tenga la misma posibilidad de aparecer en la muestra y


(2) la selección de una unidad no tenga influencia de las demás unidades ya
elegidas.
Capitulo I. Muestreo Estadístico 7

Cuando se usan estas tablas para seleccionar una muestra aleatoria simple, el primer
paso es la enumeración de las unidades de la población del 1 al N. Si el primer dígito de
N es un número entre 5 y 9, el siguiente método de selección es el adecuado.

Supongamos que N = 528 y queremos n =10. Tomemos por ejemplo tres columnas de la
Tabla Nº 1, digamos la 25, 26 y 27. Recorramos hacia abajo cada columna
seleccionando los 10 primeros números distintos , entre 001 y 528. Estos son: 36, 509,
364, 417, 348, 127, 149, 186, 290 y 162. Para los dos últimos números saltamos a las
columnas 30 a 32.

Cuando el primer dígito de N es menor que 5, algunos pueden preferir este método si n
es pequeño y se dispone de una tabla de números aleatorios bastante grande.

SELECCIÓN DE UNA MUESTRA ALEATORIA SIMPLE UTILIZANDO UNA


TABLA DE NUMEROS ALEATORIOS
Tabla Nº 1: UN MILLAR DE DÍGITOS ALEATORIOS
00-04 05-09 10-14 15-19 20-24 25-29 30-34 35-39 40-44 45-49
0 54463 22662 65905 70639 79365 67382 29085 69831 47058 8186
1 15389 85205 18850 39226 42249 90669 96325 23248 60933 26927
2 85941 40756 82414 02015 13858 78030 16269 65978 01385 15345
3 61149 69440 11286 88218 58925 03638 52862 62733 33451 77455
4 05219 81619 10651 67079 92511 59888 84502 72095 83463 75577

5 47417 98326 87719 92294 6614 50948 64886 20002 97365 30976
6 28357 94070 20652 35774 16249 75019 21145 05217 47286 76305
7 17783 00015 10806 83091 91530 36466 39981 62481 49177 7579
8 40950 84820 29881 85966 62800 70326 84740 62660 77379 90279
9 82995 64157 66164 41180 10089 41757 78258 96488 88629 37231

10 96754 17676 55659 44105 47361 34833 86679 23930 53249 27083
11 34357 88040 53364 71726 45690 66334 60332 22554 90600 71113
12 06318 37403 49927 57715 50423 67372 63116 48888 21505 80182
13 62111 52820 07243 79931 89292 84767 85693 73947 22278 11551
14 47534 09243 67879 00544 23410 12740 02540 54440 32949 13491

15 98614 75993 84460 62846 59844 14922 48730 73443 48167 34770
16 24856 03648 44898 09351 98795 18644 39765 71058 90368 44104
17 96887 12479 80621 66223 86085 78285 02432 53342 42846 94771
18 90801 21472 42815 77408 37390 76766 52615 32141 30268 18106
19 55165 77312 83666 36028 28420 70219 81369 41943 47366 41067

Fuente: Cochran, William. Técnicas de Muestreo.

Un segundo método es el siguiente, cuando N = 128. En una serie de números de tres


dígitos se substrae 200 de todos los números que hay entre 201 y 400, se substrae 400
de todos los números entre 401 y 600, 600 de todos los números entre 601 y 800, 800 de
todos los números entre 801 y 999 y desde luego 000 de todos los números entre 000 y
Capitulo I. Muestreo Estadístico 8

200. Todos los residuos mayores que 129 y los números 000, 200, etc., se desechan.
Por ejemplo, al utilizar las columnas 05 a 07 de la Tabla Nº 2 obtenemos:

26, 52, 7, 94, 16, 48, 41, 80, 128, y 92.

1.3.1. DEFINICIONES Y NOTACIONES

En una encuesta por muestro elegimos ciertas propiedades que intentamos medir y
registrar para cada unidad que venga dentro de la muestra. Estas propiedades de las
unidades se llaman características o simplemente atributos.

Los valores obtenidos para cualquier atributo especifico en las N unidades que
comprenden la población, se representan por Y1 , Y2 ,..., Y N . Los valores
correspondientes para las unidades en muestreo se denotan por y1 , y 2 ,..., y n

Las letras mayúsculas se refieren a las características de la población y las minúsculas a


las de la muestra.

Población Muestra
___________________________________________________________________
N n
Y   Yi Y1  Y2  ....  Y N y i  y1  y 2  ....  y n
Total : i 1 i 1

N n

Y  Y  ....  YN  Yi y1  y 2  ....  y n  i y
Y 1 2  i 1 y  i 1

Media: N N n n
__________________________________________________________________

Aun cuando el muestreo se realiza con muchos propósitos, el interés se centra, con
frecuencia, en cuatro características de la población.

1. Media Y (por ejemplo, el número promedio de niños por escuela)


2. Total Y (por ejemplo, el total de hectáreas de trigo en una región).
3. La proporción de unidades que caen dentro de alguna clase definida (por ejemplo,
proporción de personas con dientes postizos).
RY Y X
4. La proporción de dos totales o medias X ( por ejemplo, la razón del
activo neto al activo total en un grupo de familias).

El símbolo ^ identifica una estimación muestral de una característica de la población.


Los estimadores más utilizados son:

Estimadores
_________________________________________________________________
Media de la población Y Yˆ  y media muestral
Capitulo I. Muestreo Estadístico 9

Y n
Yˆ  Ny  N  y i n
Total de la población i 1
R n

y y i
R̂   i 1
n
x
Razón de la población i 1
x i

_________________________________________________________________

Observación

 En Yˆ al factor que multiplica al total muestral (), algunas veces se llama el


factor de expansión, elevación o inflación.

f n
 N , la razón del tamaño de la muestra respecto a la población, se llama
fracción de muestreo.

ESTIMADOR DE LA MEDIA POBLACIONAL  :


n

y i
̂  Yˆ  y  i 1

ESTIMADOR DE LA VARIANZA DE y :

2 2
s  n  s
Vˆ  y   1    1  f 
n  N n ,

 y  y
2
i
i 1
s2 
donde n 1
f n
N es la fracción de muestreo.

LIMITE PARA EL ERROR DEL ESTIMADOR

Z 1α/2   V̂ y 
, en forma general
Ejemplo 1: Una muestra aleatoria de n=9 registros del un hospital es seleccionada para
estimar la cantidad promedio de la deuda sobre N = 484 cuentas abiertas. Los valores de
la muestra para estos nueve registros están listados en la Tabla siguiente. Estime  , la
cantidad promedio de la deuda, y establezca un límite para el error de estimación.
Capitulo I. Muestreo Estadístico 10

Tabla Nº 2: Cantidad de dinero adeudado.

y1 33,5
y2 32
y3 52
y4 43
y5 40
y6 41
y7 45
y8 42,5
y9 39

Solución:
Es conveniente presentar los datos y cálculos de la muestra como se indica en la Tabla
N º 3.
Tabla 3: Datos y cálculos para el ejemplo
y y2  y  y 2 i

33,5 1122,25 54,6121


32 1024 79,0321
52 2704 123,4321
43 1849 4,4521
40 1600 0,7921
41 1681 0,0121
45 2025 16,8921
42,5 1806,25 2,5921
39 1521 3,5721
368 15332,5 285,3889

Luego
n

y i
368
ˆ  y  i 1
  $40.89
n 9
2
Para encontrar un límite para el error de la estimación, calculamos S

 y  y
2
i
285.389
s2  i 1
  35.67
n 1 8
Luego la varianza de la estimación es:

2
s  n  35.67  8 
Vˆ  y   1    1    3.89
n  N 8  484 
Capitulo I. Muestreo Estadístico 11

y el error de la estimación es:

 
1.96 V̂ y  1.96 x  
3.89  3.8657  $3.87

Luego la estimación de la cantidad media de dinero adeudada por cuentas, es 40,89


dólares. Y el límite para el error de estimación es 3,94 dólares.

ESTIMADOR DEL TOTAL POBLACIONAL Ŷ :

n
N  yi
Yˆ  N y  i 1
n
ESTIMADOR DE LA VARIANZA DE Ŷ :

s2
V̂ Ŷ   V̂ N y   N V̂ y   2
1  f 
n
 y  y
2
i

s2 
donde n 1

f n
N es la fracción de muestreo.

LIMITE PARA EL ERROR DE LA ESTIMACIÓN

2
2 s
Z 1 / 2 V N y   Z 1 / 2 N
ˆ 1  f 
n

Ejemplo 2: Una empresa industrial está interesada en el tiempo por semana que los
científicos emplean para ciertas tareas triviales. Las hojas de control del tiempo de una
muestra aleatoria de n = 50 empleados muestran que la cantidad promedio de tiempo
empleado en esas tareas es de 10.31 horas, con una varianza muestral de s 2  2.25 . La
compañía emplea N = 750 científicos. Estime el número total horas-hombre que se
pierden por semana en las tareas insignificantes y establezca un límite del 95% para el
error de estimación.

Solución

La población consiste de N = 750 empleados


n  50 empleados
Capitulo I. Muestreo Estadístico 12

y  10.31 horas por semana, tiempo promedio que se pierden por ciertas tareas
triviales.

Luego la estimación del total horas-hombre que se pierden por semana en dichas tareas
insignificantes es :

Ŷ  N y  75010.31  7732.5

La varianza estimada para dicha estimación es:

2
  
Vˆ Yˆ   Vˆ N y  N Vˆ y  N
2 2 s
1  f   750 2  2.25 1  50 

n 50  750 
 23540.63

El Límite para el Error de Estimación es:

1.96 Vˆ N y   1.96 23540.63  300.72 horas

SELECCIÓN DEL TAMAÑO DE MUESTRA PARA LA ESTIMACIÓN DE LA


MEDIA POBLACIONAL

Para calcular el tamaño de muestra cuando deseamos estimar la media poblacional, se


utiliza la siguiente expresión:
Z12  / 2 S 2
n e2
1 Z12  / 2 S 2
1
N e2 (1.1)

donde:
N : tamaño de los elementos de la población.

S 2 : Varianza de la población, la cual puede ser estimada por

y  y
2

s 2
 i

n 1
e : Error máximo que aceptamos en las estimaciones las cuales se obtienen en base a
la muestra elegida.
Z 
1
2 : para una confiabilidad del 100x (1-)%

Pero antes se realiza una estimación anticipada para Y en esta fórmula. Si N es grande,
una primera aproximación es
Capitulo I. Muestreo Estadístico 13

Z12  / 2  2
n0 
e2 (1.2)

Si n o / N es despreciable (, para calcular el tamaño de muestra utilizamos la ecuación


(1.2), sino es despreciable usamos la siguiente fórmula para calcular n:

n0
n
n
0
1 
N (1.3)

Ejemplo 3. Un nutricionista del departamento de salud pública, al conducir una


investigación entre una población de muchachas adolescentes con el fin de determinar
su ingestión diaria promedio de proteína, está buscando el consejo de un estadístico con
respecto al tamaño de muestra que debe tomar.
Supóngase que al nutricionista le gustaría que su estimación estuviera dentro de cinco
unidades aproximadamente respecto del valor real. Supóngase también que se decide
por un coeficiente de confianza del 95% y que, en base a su experiencia el nutricionista
siente que la desviación estándar de la población es quizá aproximadamente 20 gramos.

Solución:

Datos del enunciado del problema:

Z 0.975  1.96 ,   20 e5


,
Como no sabemos el tamaño de la población, suponemos que la población es infinita y
utilizamos la ecuación (1.2) para calcular el tamaño de muestra:

Z12  / 2 S 2 (1.96) 2  (20) 2


n0    61.47
d2 (5) 2

Luego se recomendó al nutricionista que tomara una muestra de tamaño 62.

1.3.2. SELECCIÓN DEL TAMAÑO DE MUESTRA PARA LA ESTIMACIÓN


DE LAS MEDIAS Y TOTALES POBLACIONALES.
Capitulo I. Muestreo Estadístico 14

¿Cómo calcular el tamaño de muestra?.-

La respuesta depende de cuánta información se desee comprar.


Si  es el parámetro de interés y ˆ es un estimador de  , debemos especificar un límite
para el error de estimación, esto es, debemos especificar que  y ˆ difieran en valor
absoluto en una cantidad menor que E. Representando simbólicamente,

Error de estimación    ˆ  E

Debemos establecer también una probabilidad 1    de tal manera que

P error de estimación  E   1  

E  Z1 / 2  E  1.96 
Donde θ̂
. En la práctica usualmente seleccionamos θ̂ y
por esto 1    será aproximadamente 0.95 para distribuciones en forma de campana

La mayoría de las estimaciones que se considera presenta una distribución en forma de


campana para tamaños de muestra razonablemente grandes, aun cuando la distribución
original sea asimétrica.

Utilizando como método de selección de la muestra el muestreo aleatorio simple,


realizamos el siguiente procedimiento para calcular el tamaño de muestra deseado.
El número de observaciones necesarias para estimar una media poblacional  con un
límite para el error de estimación de magnitud E se encuentra el establecer Z1 / 2
desviaciones estándar del estimador, y , igual a E y resolviendo esta expresión para n.

Esto es, debemos resolver


Z1 / 2  V y  E para n.
Recordemos que la varianza estimada de y , esta dada por:
2

V̂ y 
s
1  f 
n

También
2
 Nn
 
V y   
n  N 1 

El tamaño de muestra requerido ahora puede encontrarse despejando n de la siguiente


ecuación:
2
  N n
Z
1 / 2
 
 V y Z
1 / 2
  E
n  N 1 
Capitulo I. Muestreo Estadístico 15

Realizando las cuentas respectivas, se tiene:

Tamaño de muestra requerido para estimar  con un límite para el error del
estimador E:

N Z12α/2 σ 2 Nσ 2
n 
(N  1)E 2  Z 2 σ 2 (N  1)V  σ 2

E2 θ̂
V  2
donde: ( Z 1 / 2 ) es la varianza del estimador .

Observación

 En la práctica la solución para n presenta un problema debido a que la varianza


poblacional  2 es desconocida. Frecuentemente la varianza muestral s 2 se
encuentra disponible de una investigación anterior, podemos obtener un tamaño
de muestra aproximado al reemplazar  2 por s 2 .

 Si N es grande, como comúnmente ocurre, el (N – 1) puede ser reemplazado por


N en el denominador de la ecuación anterior.

Ejemplo 4. La cantidad promedio de dinero μ para las cuentas por cobrar de un


hospital debe ser estimada. Aunque no se cuenta con datos anteriores para estimar la
varianza poblacional  . Se sabe que la mayoría de las cuentas caen dentro de una
2

amplitud de variación de $100. Existen N = 1000 cuentas abiertas. Encuentre el tamaño


de muestra necesario para estimar μ con un límite para el error de estimación de
E  $3

Solución .-

Necesitamos una estimación de  2 , la varianza poblacional.

Consideremos una amplitud de variación aproximadamente igual a 2(1.96) = 3.92


desviaciones estándar.

amplitud de variación  3.92


Despejando

amplitud de variación 100


   25.5
3.92 3.92

 25.5  650.25
2 2
y σ
Capitulo I. Muestreo Estadístico 16

2 2
E 3
V   2.34
2 2
Z 0.975 (1.96)

Calculando el tamaño de muestra tenemos:

N 2
n
( N  1) V   2

1000650.25
n  217.63
9992.34   650.25
necesitamos aproximadamente 218 observaciones para estimar μ , la media de las
cuentas por cobrar, con un límite para el error de estimación de $3.00.

Tamaño de muestra requerido para estimar Y con un límite para el error de


estimación E:

Similarmente, podemos determinar el número de observaciones necesarias para estimar


un total poblacional Y, con un límite para el error de estimación de magnitud E. El
tamaño de muestra requerido se encuentra al establecer Z1 / 2 desviaciones estándar del
estimador igual a E y resolviendo esta expresión para n. Estos es, debemos resolver

Z1 / 2 V Yˆ   Z1 / 2 V N y   E

o, equivalentemente,

z1 / 2 N V  y   E

Luego el tamaño de muestra requerido para estimar Y con un límite para el error e, es:

N 2
n
( N  1) V   2

E2
V
donde : N 2 Z12 / 2

Ejemplo 5. Un investigador está interesado en estimar la ganancia en peso total de 0 a 4


semanas de N = 1000 polluelos alimentados con una nueva ración. Obviamente, pesar
cada ave sería tedioso y tomaría demasiado tiempo. Por lo tanto, determine el número
de polluelos que serán seleccionados en este estudio para estimar Y con un límite para
el error de estimación igual a 1000 gramos. Muchos estudios similares sobre nutrición
de polluelos se han llevado a cabo en el pasado. Usando los datos de esos estudios, el
Capitulo I. Muestreo Estadístico 17

investigador encontró que  2 , la varianza poblacional, fue aproximadamente igual a 36


gramos.

Determine el tamaño de muestra requerido.

Solución

Podemos obtener un tamaño de muestra aproximado usando la ecuación anterior con


 2 igual a 36,

Calculando V , resulta

V 
E2

10002
 0.26
1.96  N 3.8416  1000
2 2 2

Luego, tenemos que :


N2 1000  36
n   121.73
N  1V   999  0.26  36
2

Por lo tanto, el investigador necesita pesar n = 122 polluelos para estimar Y, la ganancia
en peso total de 0 a 4 semanas de N = 1000 polluelos, con un límite para el error de
estimación igual a 1000 gramos.

LIMITES DE CONFIANZA

Generalmente se supone que las estimaciones y y Ŷ se distribuyen en forma normal


alrededor del valor correspondiente de la población.

Si la suposición es verdadera, los límites de confianza superior e inferior para la media y


total de la población son como sigue:

Límites para Media de la población :

Z 1 / 2 s
Límite inferior  y  1 f
n ,
Z 1 / 2 s
Límite superior  y  1 f
n

Límites para el Total de la población :

NZ1α/2 s
Límite inferior  N y  1 f
n ,
NZ1α/2 s
Límite superior  N y  1 f
n
Capitulo I. Muestreo Estadístico 18

donde:

s 2 : Varianza en la muestra
Z1 / 2 es el valor del desvío normal correspondiente a la probabilidad de confianza
100x (1- )% deseada.

Los valores más comunes son:

Probabilidad de confianza 100x (1- )% 50 80 90 95 99


Z1 / 2 0,67 1,28 1,64 1,96 2,58

Observación:

 Si el tamaño de la muestra es menor que 30, los puntos de porcentaje se pueden


tomar de la tabla t de Student con (n-1) grados de libertad, siendo estos, los
grados de libertad en la varianza estimada s 2 . La distribución t se ajusta
exactamente sólo si las observaciones de yi están normalmente distribuidas y N
es infinito.

Ejemplo 6. Se recabaron firmas para una población de 676 hojas. Cada hoja tenía
espacio suficiente para 42 firmas pero en muchas de las hojas se recabó un número
menor. Se contó el número de firmas por hoja en una muestra al azar de 50 hojas
(muestra del 7% aproximadamente), los resultados se muestran en la siguiente Tabla.
Estimar el número total de firmas para la petición y los límites de confianza al 80%.
Basado en la experiencia las medias de las muestras de las observaciones se distribuyen
aproximadamente de acuerdo a una normal.

Tabla Nº 4: Resultados para una muestra de 50 hojas de petición yi = número de


firmas, ni : Frecuencia.

yi 42 41 36 32 29 27 23 19 16 15 14 11 10 9 7 6 5 4 3 Total
ni 23 4 1 1 1 2 1 1 2 2 1 1 1 1 1 3 2 1 1 50

Solución.

n   ni  50 y   y i ni  1471 y n
i 1
2
i i  54497
, ,

Luego, la estimación del número total de firmas es:

Ŷ  N y 
6761471  19888
50
Capitulo I. Muestreo Estadístico 19

La varianza de la muestra es :

1  n
 1  n  y n 2

 ni  y i  y    
2
s 
2
  y i ni 
2 i i

n  1  i 1  n  1  i 1 n 

1  14712 
 54497    229.0
49  50 

Luego los límites de confianza al 80% son:


 50 
(676)(1.28)15.131  
NZ1 / 2 s  676 
Ŷinf  Ny  1  f  19888   18107
n 50

 50 
(676)(1.28)15.131  
NZ 1 / 2 s  676 
Yˆsup  Ny 1  f  19888   21669
n 50
Existe un 80% de confianza de que el número total de firmas para la petición se
encuentra entre 18107 y 21669.

1.3.3. MUESTREO PARA PROPORCIONES

En algunas ocasiones deseamos estimar el número total, la proporción, o el porcentaje


de unidades en la población, que poseen alguna característica o atributo, o que caen
dentro de alguna clase definida. Muchos de los resultados, que regularmente se
publican, derivados de censos y encuestas, son de esta forma, por ejemplo, el número de
personas sin empleo, el porcentaje de la población originaria de un lugar. La
clasificación puede ser introducida en forma directa en el cuestionario, en forma de
preguntas que se contestan con un si o un no
Notación: Suponemos que todas y cada una de la unidades en la población caen dentro
de una, de dos posibles clases C y C´. La notación es como sigue:

Numero de unidades en C en la :

Población Muestra
A a

Proporción de unidades en C en la :

Población Muestra
P = A/N p = a/n
La estimación muestral de P es p, y la estimación muestral de A es Np o Na/n.
Para cualquier unidad en la muestra o población, se define y i como 1 si la unidad está
en C (posee la característica específica) , y como 0 si la unidad está en C [ (no posee la
característica específica). Para esta población de valores y i , esta claro que:
Capitulo I. Muestreo Estadístico 20

N
Y   yi  A
i 1

y i
A
Y i 1
 P
N N
en la misma forma para la muestra:
n

y i
a
y i 1
  p
n n
De modo , que el problema de estimar A y P es similar a la estimación del total y la
media de una población en la cual, todos los valores son 1 o 0.

ESTIMADOR DE UNA PROPORCIÓN POBLACIONAL P :

y i
a
P̂  p  y  i 1

n n

ESTIMADOR DE LA VARIANZA DE P̂ :

Pˆ Qˆ
Vˆ Pˆ   1  f 
n 1 ,
donde : Qˆ  1  Pˆ

LÍMITE PARA EL ERROR DEL ESTIMADOR

Pˆ Qˆ
Z 1 / 2 Vˆ Pˆ   Z 1 / 2 1  f 
n 1

Ejemplo 7. De una lista de 3042 nombres y direcciones, una muestra aleatoria simple
de 200 nombres mostró, al revisarla. 38 direcciones equivocadas. Estime el número total
de direcciones que se necesita corregir en la lista y encuentre el error estándar de esta
estimación.

Solución:
Capitulo I. Muestreo Estadístico 21

Tenemos N = 3042. n = 200, a = 38 , p = 0.19.

El número total estimado de direcciones equivocadas es:


Aˆ  Np  3042 x0.19  578

Pˆ Qˆ  n 2 0.19 x 0.81  200 


V Aˆ   N 2Vˆ Pˆ   N 2 1    (3042) x 1    6655.59
n 1  N  199  3042 
V Aˆ   81.58

Luego el error estándar de esta estimación es: 81,58.

1.3.3.1 SELECCIÓN DEL TAMAÑO DE MUESTRA PARA LA ESTIMACIÓN


DE LA PROPORCIÓN DE UNA POBLACIÓN

Para calcular el tamaño de muestra cuando deseamos estimar la proporción de una


población, se utiliza la siguiente expresión:

Z12 α/ 2 NPQ
n
N  1 e2 P 2  Z12α/ 2 PQ
donde:

P : es la proporción de la característica que se desea estudiar en la población.4.2.


e : es el margen de error ( es el error que deseamos obtener en las estimaciones).
Z1 / 2 : es la abscisa de la curva normal

Observación

En las situaciones prácticas desconocemos P. Un tamaño de muestra aproximado puede


determinarse al reemplazar P por un valor estimado. Frecuentemente, tal estimación
puede ser obtenida de encuestas anteriores similares. Sin embargo, si no se cuenta con
información anterior, podemos sustituir P = 0.5 en la ecuación dada anteriormente para
obtener un tamaño de muestra conservador (uno que será probablemente mayor que el
requerido).

Ejemplo 8. En una empresa de 5000 trabajadores se desea estimar la proporción de


trabajadores que tienen una capacidad vital de fuerza debajo del 70% y la media de la
capacidad vital de fuerza de todos los trabajadores, estas estimaciones se necesitan
dentro del 5% del valor verdadero del parámetro que estamos estimando. ¿Qué tamaño
de muestra es requerido? Considere un nivel de significancia del 5%. Considere que por
un estudio similar se estimó que la proporción de trabajadores que tienen una capacidad
vital de fuerza debajo del 70% fue de 0.28.
Capitulo I. Muestreo Estadístico 22

Solución

N = 5000; e = 0.05; Z 0.975 = 1.96; p = 0.28

Z 2 / 2 Npq 1.96 2 5000 0.280.72 


n 
N  1 e 2 p 2  Z 2 / 2 pq 49990.052 0.282  1.96 2 0.280.72
3872.33 3872.33
   2208.97
0.979  0.774 1.753

Observación. Otra expresión que se utiliza para seleccionar el tamaño de muestra para
la estimación de la proporción de una población,

Considerando un límite para el error del estimador es:

NPQ
n
N  1V  PQ
Q  1 P E2
V
donde: y Z 1 / 2

Ejemplo 9. Los dirigentes del consejo estudiantil en un colegio desean realizar una
encuesta para determinar la proporción de estudiantes que está a favor de una propuesta
de código de honor. Ya que entrevistar a 2000 estudiantes en un lapso razonable es casi
imposible. Determine el tamaño de muestra (Número de estudiantes a entrevistarse)
necesario para estimar p con un límite para el error de estimación de magnitud E = 0.05
y una confiabilidad del 95%. Suponga que no hay información previa disponible para
estimar P.

Solución
Cuando no se cuenta con información previa, podemos aproximar los tamaños de
muestra requeridos, estableciendo p = 0.5. Tenemos que:

E2 0.05 2
V    0.00065
(1.96) 2 3.8416

NPQ
n
N  1V  PQ
20000.50.5

19990.00065  0.050.05
500

1.3034
 383.61
Capitulo I. Muestreo Estadístico 23

Luego 384 estudiantes deben ser entrevistados para estimar la proporción de estudiantes
que está a favor de una propuesta de código de honor, con un límite par el error de
estimación de 0.5.

Ejercicio:

Con referencia al ejemplo anterior, supongamos que además de estimar la proporción de


estudiantes que apoya la propuesta de código de honor, los dirigentes del consejo
estudiantil también desean estimar el número de estudiantes que considera que la
organización del consejo estudiantil funciona de acuerdo a sus necesidades. Determine
el tamaño de muestra combinado que se requiere en una encuesta para estimar p1 , la
proporción de quienes están a favor de la propuesta de código de honor, y p2, la
proporción de los que opinan que el consejo estudiantil funciona de acuerdo con sus
necesidades, con límites para los errores de estimación de magnitud B1 = 0.05 y B2 =
0.07. Aunque no se dispone de información anterior para estimar p2, aproximadamente
el 60% de los estudiantes opinó que el consejo satisfizo adecuadamente sus necesidades
en una encuesta similar llevada a cabo el año anterior.

1.4. MUESTREO ALEATORIO ESTRATIFICADO

1.4.1. DEFINICIÓN.-Una muestra estratificada es obtenida mediante la separación de


los elementos en grupos llamados estratos, y la selección posterior de una muestra
aleatoria de cada estrato.
Capitulo I. Muestreo Estadístico 24

Figura Nº 1.1: ESQUEMA GRÁFICO DE UN MUESTREO ESTRATIFICADO


POBLACIÓN CON TRES ESTRATOS

ELEMENTO DE LA MUESTRA

1.4.2. PROCEDIMIENTO DE SELECCIÓN


El procedimiento de selección de una muestra estratificada consiste en:

(i) Dividir la población en L estratos independientes (L>1) tal como se observa en la


figura Nº 1.2.

Figura Nº 1.2: ESTRATIFICACIÓN DE UNA POBLACIÓN


POBLACIÓN

EST. 1 EST. 2 . . . . . EST. L


N1 N2 . . . NL

Ni : Tamaño del estrato i, ( i  1,2,..., L )


L
N  N
i 1
i
: Tamaño de la población.

(ii) Seleccionar una muestra aleatoria independientemente de cada estrato, de


tal manera que el tamaño total de la muestra es:
L
n n
i 1
i
Capitulo I. Muestreo Estadístico 25

donde, ni : Tamaño de la muestra en el estrato i .

1.4.3. CRITERIOS PARA FORMAR LOS ESTRATOS


Existen tres criterios que se deben de tener presente cuando está planeando utilizar el
muestreo estratificado.
(i) Los estratos deben de formarse de tal manera que se garantice la
independencia entre estratos. Es decir, los estratos deben ser completamente
independientes en el proceso de selección y estimación.
(ii) Las mediciones dentro de los estratos deben ser homogéneas (baja
variabilidad).
(iii) Las mediciones entre estratos deben ser heterogéneas (alta variabilidad).

1.4.4. FORMULAS DE ESTIMACIÓN EN EL MUESTREO ALEATORIO


ESTRATIFICADO

Si en cada estrato se aplica el MAS o Muestreo Sistemático, las fórmulas de estimación


se dan a continuación:
_
MEDIA POBLACIONAL : Y est

Para la media de la población por unidad, la estimación usado en muestreo estratificado


es Y est (est significa estratificado), donde :

L L _

yT Y i N i Yi L _
Y est   i 1
 i 1
 Wi Y i
N N N i 1 (1.4)

Ni
Wi 
donde : N = N1 + N2 +...+ NL y N

ESTIMACIÓN DE LA MEDIA POBLACIONAL 


L L
Ni
̂  y est  i 1 N
yi  W
i 1
i yi
(1.5)

donde yi
media muestral en el estrato i (i =1,....,L).
VARIANZA ESTIMADA DE y est

De (4.2) tenemos que:


L
y est  Wi 1
i yi

Tomando varianza ambos miembros:


Capitulo I. Muestreo Estadístico 26

 L 
 
L L L
Vy est   V  Wi y i    Wi Vy i   2  Wi WjCov y i , y j
2

 i1  i1 i 1 j k

Como las muestras se extraen independientemente en los diferentes estratos, se anulan


todos los términos de covarianza.

Luego si las muestras se extraen independientemente en los diferentes estratos tenemos


que:
L
V y est   W i
2
V y i 
i 1 (1.6)
donde :
V yi  yi Wi 
Ni
es la varianza de , N
Sabemos que en el Muestreo Aleatorio Simple :

V y  
2 N  n 
n N
Lo anterior aplicado a un estrato i :

 i2 N i  n i 
V y i  
ni Ni (1.7)

De (1.6)

L L
N i2 1 L
Vy est    Wi2 Vyi    V y i    N Vy 
2
i i
i 1 i 1 N2 N2 i 1

Por (1.7),

1 L
 i2  Ni  n i  L
 i2
V y est    N 2
i

 
  W i
2
1  f i 
N2 i 1 ni  Ni  i 1 ni

Luego la varianza de la estimación de y est es

L
 i2
V y est    W 1  f i 
i
2

i 1 ni
(1.8)
donde  : es la varianza poblacional en el estrato i.
2
i
Capitulo I. Muestreo Estadístico 27

Wi 
Ni fi  n i Ni
N

Observación

 Si las fracciones de muestreo f i  n i N i son despreciables en todos los


estratos,
 i2
L
V y est    W i
2

h 1 ni
(1.9)
esta fórmula es apropiada cuando las correcciones por población finita se pueden
ignorar.

 Luego la varianza estimada de y est es:


L
s i2
V̂ y est    Wi2 1  f i 
i 1 ni
(1.10)
donde :
si2 : varianza muestral en el estrato i.
Ni
Wi 
N
f i  ni N i

 Los procedimientos para la estimación de un total poblacional Y se derivan


directamente de los procedimientos presentados para la estimación e la media
poblacional y est , ya que Y  N y est .

El estimador del total poblacional es : N y est

La Varianza estimada de N y est es :


s i2 L
V̂Y   V̂Ny est   N  W 1  f i 
2
i
2

i 1 n i

2  si 
L 2
  N 
i 
(1  f i )
i 1  ni  (1.11)

LÍMITES DE CONFIANZA

y est  Z V̂ y est 
MEDIA DE LA POBLACIÓN : 1  / 2
Capitulo I. Muestreo Estadístico 28

N y est  Z N V̂ y est 
TOTAL DE LA POBLACIÓN : 1 /2

Estas fórmulas suponen que y st está normalmente distribuida y que V̂ y est  está
bien determinada, y Z1 / 2 puede encontrarse en las tablas de la distribución normal.

OBSERVACIÓN

Z1 / 2 V̂ y est  es el límite para el error de estimación a un 100x( 1- )% de


confianza aproximadamente.

Ejemplo 10. Una empresa publicitaria está interesada en determinar qué tanto debe
enfatizar la publicidad televisiva en determinado municipio, y decide realizar una
encuesta de muestreo para estimar el número promedio de horas por semana que se ve
la televisión en los hogares del municipio. Este comprende dos pueblos, pueblo A,
pueblo B y un área rural. El pueblo A circunda una fábrica, y la mayoría de los hogares
son de trabajadores fabriles con niños en edad escolar. El pueblo B es un suburbio
exclusivo de una ciudad vecina y consta de habitantes más viejos con pocos niños en
casa. Existen 155 hogares en el pueblo A, 62 en el pueblo B y 93 en el área rural.

La empresa publicitaria tiene tiempo y dinero suficientes para entrevistar n = 40


hogares, y decide seleccionar muestras aleatorias de tamaño n1 = 20 del pueblo A, n2 = 8
del pueblo B y n3 = 12 del área rural. Se seleccionan las muestras aleatorias y se realizan
las entrevistas. Los resultados, con mediciones del tiempo que se ve la televisión en
horas por semana, se muestran en las Tablas Nº 1 y Nº2.
a) Estime el tiempo promedio que se ve televisión, en horas por semana, para :
a1) todos los hogares en el municipio
a2) todos los hogares en el pueblo B.
b) Estime el número total de horas por semana que las familias del municipio dedican a
ver televisión.
c) En todos los casos calcule intervalos de confianza del 95% e interprete.

Tabla Nº 5. Tiempo que se ve televisión en horas por semana

Estrato 1 Estrato 2 Estrato 3


pueblo A pueblo B área rural
35 28 26 41 27 4 49 10 8 15 21 7
43 29 32 37 15 41 25 30 14 30 20 11
36 25 29 31 12 32 34 24
39 38 40 45
28 27 35 34
Capitulo I. Muestreo Estadístico 29

Tabla Nº 6. Cálculos para la Tabla Nº 5


_____________________________________________

Estrato 1 Estrato 2 Estrato 3


______________________________________________________
n1  20 n2  8 n3  12
2 2 2
y1  33.900 y 2  25.125 y 3  19.000

s12  35.358 s 22  232.411 s 32  87.636


N1  155 N 2  62 N 3  93
_____________________________________________

Solución.

a1) Utilizando los datos de la Tabla Nº 2 tenemos que,

1
y est  N1 y1  N 2 y 2  N 3 y 3 
N
1
 15533.9  6225.125  9319
310
 27.7

es el número promedio de horas por semana en que en todos los hogares del municipio
se ve televisión.

Luego la Varianza estimada es

1 3
 N  ni  s i2 
V̂y est    N i2  i  
N2 i 1  Ni  n i 

1550.87135.358 622 0.871232.411 932 0.87187.636 


1
      1.97
3102  20 8 12 
La estimación de la media poblacional, con un intervalos de confianza al 95% de
confianza, está dado por
y est  1.96 V̂y est   27.7  1.96 1.97  27.7  2.8

24.9  Y  30.5
Entonces estimamos que el número promedio de horas por semana que se ve televisión
en los hogares del municipio es de 27.7 horas.

Existe un 95% de confianza de que el promedio de horas por semana que se ve


televisión en los hogares del municipio se encuentre entre 24.9 y 30.5 horas.
Capitulo I. Muestreo Estadístico 30

a2) Las n2  8 observaciones del estrato 2 constituyen una muestra aleatoria

y 2  25.125 y s 22  232.411

La varianza del estrato 2 es:

S22 N 2  n 2  232.411 62  8


Vy 2     25.30
n2 N2 8 62

Un intervalo de confianza a un 95% de confianza es:

y2  1.96 25.30  25.13  9.86

(15.27 , 34.99)

Existe un 95% de que el tiempo promedio de ver televisión para el pueblo B , se


encuentre entre 15.27 y 34.99 horas.

b) Utilizando las estadísticas de la Tabla Nº 2 tenemos que:

N y est  31027.7   8587 horas

El tiempo semanal total que en los hogares del municipio se ve televisión es de 8 587
horas.
La varianza estimada de N y est es

V̂N y est   N 2 V̂y est   310  1.97   189278.560


2

Un intervalo de confianza al 95% es:

N y est  Z1 / 2 N V̂y est   31027.7   1.96310  1.97

8587  851
7736, 9438
Existe un 95% de confianza de que el tiempo semanal total que en los hogares del
municipio se ve televisión se encuentre entre 7736 y 9438 horas.

TAMAÑO DE MUESTRA PARA ESTIMAR LAS MEDIAS Y TOTALES


POBLACIONALES.

Tamaño de muestra aproximada que se requiere para estimar la media y total de la


poblacional
Capitulo I. Muestreo Estadístico 31

N 2
i  i2 wi
n h 1
L
N V   N i  i2
2

h 1

( 1.12)
donde
wi : fracción de observaciones asignadas al estrato i
 i2 : varianza poblacional para el estrato i

V
E2 Yest
Z1 / 2 para estimar la media poblacional

Z1 / 2 V y est   E : (la estimación de y est debe estar dentro de E


unidades de la media poblacional, con una
probabilidad aproximadamente igual a (1- ) )
E2 Y
V
Z12 / 2 N 2 : para estimar el total poblacional

Z1 / 2 VN y est   E : (la estimación del Y debe estar dentro de E


unidades de la media poblacional, con una
probabilidad aproximadamente igual a (1- ) )

Ejemplo 11. Una encuesta anterior sugiere que las varianza de los estratos para el
ejemplo 10, son aproximadamente  12  25 ,  22  225 y  32  100 . Estime la
media poblacional mediante y est . Considerando un confianza del 95%, seleccione el
tamaño de muestra para obtener un límite en el error de estimación igual a 2 horas, si las
fracciones asignadas son W1  1 / 3 , W2  1 / 3 y W3  1 / 3 . En otras palabras, se debe
tomar un número igual de observaciones de cada estrato.

Solución

Un límite para el error de estimación de 2 horas significa que

Z1 / 2 Vy est   E

1.96 Vy est   2 Vy est   1.02 22 4


V 2
  1.041
o sea , entonces (1.96) 3.8416

Por dato, del ejemplo 10, tenemos que:

N1 = 155, N2 = 6 y N3 = 93, por esto


Capitulo I. Muestreo Estadístico 32

3
N 2h  2h N 2 2 N 2 2 N 2 2

h 1 Wh
 1 1  2 2  1 31
W`1 W`2 W`3


1552 25  622 225  932100
1 1 1
     
3 3 3

 240.25(75)  3844 675  8649 (300)


 6991275

N
h 1
h  2h  N112  N 2  22  N 3  32

 155(25)  62 (225)  93(100)  27125

N 2 V  310 (1.041)  100040.1


2

Reemplazando lo obtenido en la ecuación (1.12)

N 2
h  2h Wh
6991275
n i 1
  54.98
L
100040.1  27125
N 2 V   N h  2h
h 1

Entonces se debe tomar 55 observaciones con

1
n h  n  Wh  55   18.33  18
3 para h = 1, 2, 3.

Ejemplo 12. Así como en el ejemplo 11, supongamos que las varianzas del ejemplo 10
son aproximadamente  1  25 ,  2  225 y  3  100 .
2 2 2

a) Estime el total poblacional Y con un límite de 400 horas para el error de


estimación.
b) Seleccione el tamaño de muestra apropiado, si se va a tomar el mismo número
de observaciones en cada estrato.

Solución

El límite de error de estimación es de 400 horas, por eso,


Capitulo I. Muestreo Estadístico 33

E2 (400) 2
V   0.6583
Z1 / 2 N 2 (1.96) 2  (310) 2

del ejemplo 10, se necesita las siguientes cantidades:

3
N 2h  2h

h 1 Wh
 6991275

N 
h 1
h
2
h  27125

N 2 V  (310) 2  0.6583  63262.63

Utilizando la Ecuación (1.12)

N  2
h
2
h Wh
6991275
n h 1
  77.35
3
63262.63  27125
N 2 V   N h  2h
h 1

n h  n  Wh  781 / 3  26

Entonces n1  n 2  n 3  26.

1.4.5. AFIJACIÓN DE LA MUESTRA

Se recordará que el objetivo del diseño de una encuesta por muestreo es proporcionar
estimadores con alta precisión al menor costo posible. Después de elegir el tamaño de
muestra n, existen muchas maneras para dividir n entre los tamaños de muestra de los
estratos n1, n2,..., nL (Afijación de la muestra) Cada división diferente puede originar una
precisión diferente para el estimador. Por lo que nuestro objetivo es usar una afijación
que presente una cantidad especificada de información a un costo mínimo.

En términos de los objetivos señalados, el mejor esquema de afijación está influido por
tres factores:
1. El número total de elementos en cada estrato.
Capitulo I. Muestreo Estadístico 34

2. La variabilidad de las observaciones dentro de cada estrato.


3. El costo por obtener una observación de cada estrato.

1.4.5.1. ESQUEMA DE AFIJACIÓN OPTIMA

TAMAÑO DE MUESTRA Y AFIJACIÓN ÓPTIMA PARA ESTIMAR  CON


UN LÍMITE E PARA EL ERROR DE ESTIMACIÓN

 L  L 
   N i  i / c i   N i  i ci  
 
n    i 1  i 1
L 
 N 2 V   N i  i2 
 i 1  (1.13)
donde ,

N h : denota el tamaño del estrato h.


 2h : denota la varianza poblacional para estrato h.
c h : denota el costo de muestreo por unidad en el estrato h.
E2
V 2
Z1 / 2

Luego el tamaño para cada estrato es:

 N i i / ci 
n h  n 
 N  / c  N  / c  ...  N  / c 
 1 1 1 2 2 2 L L L 
 
 
 N i i / ci 
n L
 
  N i i / ci 
 i 1  (1.14)

OBSERVACIÓN. Para poder utilizar la fórmula (1.14) se debe obtener, previamente a


la realización del muestreo, una aproximación para la varianza de cada estrato. Las
aproximaciones pueden ser obtenidas de estudios anteriores o a partir de una muestra
piloto.

Ejemplo. 13. La firma publicitaria del ejemplo 10 encontró que cuesta más obtener una
observación del área rural que una del pueblo A o del B. El incremento es debido a los
costos de traslado de un hogar rural a otro. El costo por observación en cada pueblo se
ha estimado en $9.00 (esto es, c1 = c2 = 9 ) y los costos por observación en el área rural
se han estimado en $16.00 (esto es c3 = 16). Las varianzas por estrato (aproximadas por
las varianzas muestrales de una encuesta previa) son  1  25 ,  2  225 y  3  100 .
2 2 2
Capitulo I. Muestreo Estadístico 35

Halle el tamaño de muestra total y los tamaños de muestra para los tres estratos, que
permitan a la empresa estimar, al mínimo costo, el tiempo promedio que se ve
televisión, con un límite para el error de estimación igual a 2 horas.

Solución . Tenemos que

3
N i i N N  N

i 1 i
 1 1  2 2  3 3
1 2 3


1555  6215  9310  800.83
9 9 9

N 
i 1
i i ci  N1 1 c1  N 2 2 c2  N 3 3 c3

N  i i ci  1555 9  6215 9  9310  16  8835


i 1

Entonces utilizando la ecuación (1.13) tenemos que:

 3  3 
   N i  i / c i   N i  i c i  
 
n    i 1  i 1
3 
 N 2 V   N i  i2 
 i 1 


n  
800.838835   55.64

 310 1.041  27125 
2

Utilizando la ecuación (1.14) tenemos que:

 N11 / c1 
n1  n 
N  / c N  / c N  / c 
 1 1 1 2 2 2 3 3 3 

 1555 / 3 
 n   56(0.32)  17.92
 800.83 
Asimismo,
 6215 3 
n2  n  56 (0.39)  21.84
 800.83 

 9310 / 4 
n3  n  (56)(0.29)  16.24
 800.83 

Se debe seleccionar 18 hogares del pueblo A al azar, 22 del pueblo B y 16 del área
rural. Así se puede estimar el número promedio de horas empleadas en ver la televisión,
al mínimo costo, con un límite de 2 horas para el error de estimación.
Capitulo I. Muestreo Estadístico 36

1.4.5.2. ESQUEMA DE AFIJACIÓN DE NEYMAN

En algunos problemas de muestreo estratificado, el costo por obtener información es el


mismo para todos los estratos. Si los costos son desconocidos, podríamos suponer que
los costos por observación son iguales. Si c1 = c2 = c3, entonces los términos de costo se
cancelan en la ecuación (1.13) y

 
 
N
n i  n L i i 
 
  Nii 
 i 1  (1.15)

Este método de seleccionar n1, n2, ..., nL se denomina afijación Neyman. En la afijación
de Neyman, la ecuación (1.14) para el tamaño de muestra total n toma la forma

2
 L 
  Nii 
n  i1 
L
N V   N i  i2
2

i 1 (1.16)

Ejemplo 14. La firma publicitaria del ejemplo 10 decide utilizar entrevista por teléfono
en lugar de entrevistas personales, porque todos los hogares en el municipio tienen
teléfono y este método reduce los costos. El costo de obtener una observación es
entonces el mismo en los tres estratos. Las varianzas son de nuevo aproximadas por
 12  25 ,  22  225 y  32  100 . La empresa desea estimar la media de la
población con un límite para el error de estimación igual a 2 horas. Encuentre el tamaño
aproximado de la muestra n y los tamaños de muestra para los estratos n1, n2 y n3.

Solución .-

Como los costos son iguales en los tres estratos utilizaremos las Ecuaciones (1.15) y
(1.16).
Para encontrar las fracciones de asignación W1, W2 y W3, usaremos la Ecuación
(1.15). Entonces

N 
i 1
i i  N 1 1  N 2  2  N 3  3

 (155) 5  62 15  9310  2635

Reemplazando lo anterior en la ecuación (4.15)


Capitulo I. Muestreo Estadístico 37

 
 
N
n1   3 1 1   n   1555   n  0.30 n
   2635 
  Nhh 
 h 1 

 
 
N 
n2   3 2 2   n   62 15   n  0.35n
  
 2635  
  Nhh 
 h 1 

 
 
N 
n3   3 3 3   n   9310   n  0.35n
   2635 
  Nhh 
 h 1 

Entonces W1  0.30 , W2  0.35 y W3  0.35

Para calcular n, utilizaremos la ecuación (4.16)

2
 L 
  Nhh 
n  h 1 
L
N 2 V   N h  2h
h 1 (1.17)

Sabemos que Z1 / 2 V y est   E , entonces 1.96 V y est   2


Luego, V y est  1.0412 
N 2 V  310  (1.042)  100136.2
2
E2 22
V   1.0412
Como, Z12 / 2 (1.96) 2 entonces

También sabemos que


N 
i 1
i i
2
 27125
.

Reemplazando los valores obtenidos anteriormente tenemos:

2
 3 
  Nhh 
n  h 1 
3
N 2 V   N h  2h
h 1
Capitulo I. Muestreo Estadístico 38

n
26352  67.5
100136.2  27125

Entonces
n1  w1  n  0.30  68  20.4
n 2  w 2  n  0.35  68  23.8
n 3  w 3   0.35  68  23.8

Se debe seleccionar 20 hogares del pueblo A al azar, 24 del pueblo B y 24 del área
rural. Así se puede estimar el número promedio de horas empleadas en ver la televisión,
al mismo costo en los tres estratos, con un límite de 2 horas para el error de estimación.

1.4.5.3. ESQUEMA DE AFIJACIÓN PROPORCIONAL

Además de encontrar costos iguales, en algunas ocasiones resultan las mismas


varianzas,  1 ,  2 ,...,  L . En tal caso se cancelan las
2 2 2
i en la Ecuación (1.13) y

 
 
nh   L h
N   n   N h   n
   N 
  Nh 
 h 1  (1.18)

Este método de afijación de la muestra a los estratos es llamado afijación proporcional


porque los tamaños de muestra n1, n2,..., nL son proporcionales a los tamaños de los
estratos N1, N2, ...,NL.

Por supuesto la afijación proporcional puede y suele utilizarse cuando los costos y las
varianzas de los estratos no son iguales. Una ventaja al usar esta descomposición es que
el estimador y est es simplemente la media muestral de toda la muestra. Esta
característica puede representar un importante ahorro de tiempo en algunas encuestas.

En el esquema de afijación proporcional, la ecuación para el valor de n, que produce


Vy est   V , se convierte en

N h  2h
n i 1
1 L
N V 
N i 1
N h  2h
(1.19)

Ejemplo 15. La empresa publicitaria del ejemplo 10 considera que las varianzas
aproximadas que se usaron en los ejemplos previos son erróneas y que las varianzas de
Capitulo I. Muestreo Estadístico 39

los estratos son iguales. El valor común de  i fue aproximado por 10 en un estudio
preliminar. Se van a efectuar entrevistas por teléfono, por lo que los costos serán iguales
en todos los estratos. La empresa desea estimar el número promedio de horas por
semana que se ve la televisión en los hogares del municipio, con un límite para el error
de estimación igual a 2 horas. Encuentre el tamaño de muestra y los tamaños de estratos
necesarios para lograr esta actitud.

Solución

Como  i  10 , tenemos que

N  i
3
i  155100   62100   93100   310100   31000
i 1

E2 22
V   1.0412
entonces, ya que Z12 / 2 (1.96) 2 , de la ecuación (1.15) tenemos que
:
3

N i  i2
31000
n i 1
  73
1 3
1
NV   N i  i2 3101.042   31000
N i 1 310

de la ecuación (4.18) tenemos que:

N   155 
n1   1   n     73  0.5  73  36
 N   310 

N   62 
n2   2  n     73  0.2   73  15
 N   310 

N   93 
n3   3   n     73  0.3  73  22
 N   310 

Se debe seleccionar 36 hogares del pueblo A al azar, 15 del pueblo B y 22 del área rural.
Así se puede estimar el número promedio de horas empleadas en ver la televisión, al
mismo costo en los tres estratos, con un límite de 2 horas para el error de estimación, y
asumiendo que las varianzas son iguales en todos los estratos.

OBSERVACIÓN

En ocasiones la cantidad de dinero que se va a gastar en el muestreo es fijada antes de


iniciar la investigación. Entonces el investigador debe encontrar un tamaño de muestra y
esquema de asignación que minimice la varianza del estimador para un presupuesto fijo.
Capitulo I. Muestreo Estadístico 40

Ejemplo 16. En el ejemplo 10, el costo por observación en cada pueblo se ha estimado
en $9.00 (esto es, c1  c2  9 ) y los costos por observación en el área rural se han
estimado en $16.00 (esto es c3  16 ). Vamos a aproximar las desviaciones estándar por
 1  5 ,  2  15 y  3  10 . Dado que la empresa publicitaria tiene únicamente
$500 para gastar en muestreo, elija el tamaño de muestra y la asignación que minimice
V  yest 

Solución

El esquema de afijación es aún dado por la Ecuación (1.14). En el Ejemplo 13 se calculo


que W1  0.32 , W2  0.39 y W3  0.29 .

Ya que el costo total debe ser igual a $500, tenemos que

c1n1  c2 n2  c3n3  500


9n1  9n2  16n3  500

o bien

Ya que n1  nw1 , podemos sustituir como sigue:

9nw1  9nw2  16nw3  500

O lo que es lo mismo 9n0.32   9n0.39   16n0.29   500

500
n  45.33
Despejando n tenemos que: 11.03

Por lo que se debe tomar n = 45 para asegurar que los costos permanezcan inferiores a
$500.

La asignación correspondiente está dado por

n 1  W1  n  0.32 (45)  14

n 2  W2  n  0.39 (45)  18

n 3  W3  n  0.29 ( 45)  13

OBSERVACIÓN

 El muestreo Aleatorio Estratificado con el esquema de afijación proporcional


producirá un estimador con una varianza más pequeña que la producida por
Capitulo I. Muestreo Estadístico 41

muestreo aleatorio simple (con el mismo tamaño de muestra), si existe


considerable variabilidad entre las medias de los estratos.

 Si los costos de muestreo son aproximadamente iguales de un estrato a otro, el


muestreo aleatorio estratificado con el esquema de afijación óptima producirá
estimadores con menor varianza que los producidos por afijación proporcional
cuando existe variabilidad entre las varianzas de los estratos.

ESTIMACIÓN DE UNA PROPORCIÓN POBLACIONAL

En los ejemplos anteriores nos ha interesado estimar el promedio o el número total de


horas por semana usadas para ver televisión. Supongamos que la empresa publicitaria
quiere estimar la proporción de hogares que ven un programa en particular.

La población se divide en estratos, al igual que antes, y se toma una muestra aleatoria de
cada estrato. Luego se realizan las entrevistas para determinar la proporción Ph de
hogares, integrantes en el estrato h, donde se ve el programa.

Si lo que se desea estimar es P, la población que tiene una característica determinada, se


usan las equivalencias dadas por

yh  ph L
P̂est   Wi p i
, i 1

Estimador de la proporción poblacional P :


L
1
P̂est  N1p1  N 2 p 2  ...  N L p L   1  N h p h
N N h 1 (1.20)

Varianza estimada de P̂est :

V̂ P̂est  
1
N 2

N12 V̂p1   N 22 V̂p 2   ...  N 2L V̂p L  
L
1

N2
 N V̂p 
h 1
2
h h

1 L
 pq 
V̂ P
ˆest    N 1  f  n  1 
i
2
i
i i
N2 i 1  i  (1.21)
Capitulo I. Muestreo Estadístico 42

LÍMITE PARA EL ERROR DE ESTIMACIÓN

L
 p qh 
Z1  / 2 V̂ P̂est   Z1  / 2
1
N2
 N 1  f  n
2
h h
h
 1

h 1  hi  (1.22)

LÍMITES DE CONFIANZA

PROPORCIÓN ESTIMADA DE LA POBLACIÓN:

P̂est  Z1 / 2 V̂ P̂est  (1.23)

ESTIMACIÓN DEL TOTAL DE ELEMENTOS DE LA POBLACIÓN:

NP̂est  Z1 / 2 N V̂P̂est  (1.24)


L
Pˆest  Wh ph
donde : h 1

Z1 / 2 puede encontrarse en las tablas de la distribución normal.

Ejemplo 17. La Empresa publicitaria, dada en el ejemplo 10, quiso estimar la


proporción de hogares en el municipio donde se ve le programa X. El municipio es
dividido en tres estratos: pueblo A, pueblo B y el área rural. Los estratos contienen N1 =
155, N2 = 62 y N3 = 93 hogares, respectivamente. Una muestra aleatorias estratificada
de n = 40 es seleccionada con asignación proporcional. Se toma una muestra aleatoria
de cada estrato; los tamaños de las muestras son n1 =20, n2 =8 y n3 =12. Las entrevistas
son tomadas en los 40 hogares muestreados; los resultados se presentan en la Tabla
mostrada líneas abajo.
a) Estime la proporción de hogares donde se ve el programa X
b) Construya un intervalo de confianza para esa proporción

Tabla Nº 7 : Datos para el ejemplo 17


_____________________________________________
Estrato Tamaño Nº de hogares P̂h
donde se ve el
muestra Programa X_____________

1 n1  20 16 0.80
2 n2  8 2 0.25
3 n 3  12 6 0.50
_____________________________________________
Capitulo I. Muestreo Estadístico 43

Solución

Para calcular, la proporción de hogares donde se ve el programa X, se utiliza la


ecuación ( 1.20)

1 L 1
P̂est   Nh ph  0.82(155)  620.25  930.50  0.60
N h 1 310

La varianza de la estimación anterior es:

1 L
 p qh 
V̂ P̂est    N 1  f  n
2 h

1
h h
N2 h 1  h 

1  2 20  0.800.20   2 8  0.250.75 
V̂P̂est   155 1  155  20  1   62 1  62  8  1 
310 2       
 12  0.50.5 
 932 1     0.0045.
 93  12  1 

Luego el valor estimado de la proporción de hogares en el municipio donde se ve el


programa X, con un intervalo de confianza del 95% es:

P̂est  1.96 V̂ P̂est  


0.60  1.96 0.0045
0.60  0.14

[ 0.47, 0.73 ]
Existe un 95% de confianza de que el valor de la proporción de hogares donde se ve el
programa X en el municipio se encuentre entre 0.47 y 0.73.
TAMAÑO DE MUESTRA PARA ESTIMAR LA PROPORCION
POBLACIONAL.

Si se quiere estimar una proporción poblacional, las formulas son:

Asignación óptima:
L L
( N i Pi (1  Pi ) / ci )( N i Pi (1  Pi )  ci )
n i 1
L
i 1

N 2V ( Pˆest )   N i Pi (1  Pi )
i 1 (1.25)

Asignación de Neyman:
Capitulo I. Muestreo Estadístico 44

L
( N i Pi (1  Pi ) ) 2
n i 1
L
N 2V ( Pˆest )   N i Pi (1  Pi )
i 1 (1.26)

Asignación proporcional:
L

 N P (1  P )
i i i
n i 1
L
1
NV ( Pˆest ) 
N
 N P (1  P )
i 1
i i i
(1.27)

 La asignación aproximada que minimiza el costo para un valor fijo de V(p̂ est ) o
minimiza V(p̂ est ) para un costo fijo:

N i Pi (1  Pi ) / ci
ni  L
n
N
i 1
i Pi (1  Pi ) / ci
i = 1, 2, …, L (1.28)

Donde: Ni = Tamaño del estrato i


Pi = proporción poblacional para el estrato i.
C i = costo por obtener una observación individual del i-ésimo estrato.

 Si c1 = c2 = …= cL entonces resulta la siguiente asignación de Neyman,

N i Pi (1  Pi )
ni  L
n
N
i 1
i Pi (1  Pi )
i = 1, 2, …, L (1.29)

Comparada con la asignación proporcional, esta formula asigna más


observaciones maestrales a los estratos en los que la proporción poblacional esta
más cercana a 0.5.

 Bajo la asignación proporcional se tiene:

Ni Ni
ni  L
n  n
N
N
i 1
i
i = 1, 2, …, L (1.30)

Ejemplo 18.- Supongamos que los datos del ejemplo17 fueron tomados de un muestreo
realizado el año pasado. La empresa publicitaria quiere ahora efectuar un nuevo estudio
en el mismo municipio para estimar la proporción de hogares donde ven el programa X.
Aunque las proporciones P1, P2 y P3 que aparecen en las formulas son desconocidas,
Capitulo I. Muestreo Estadístico 45

pueden ser aproximadas por las estimaciones del estudio anterior, esto es, Pˆ1  0.80 ,
Pˆ2  0.25 y Pˆ3  0.50 . El costo por obtener una observación es $ 9 para cualquiera de
los pueblos y $ 16 para el área rural. Los hogares que se encuentran dentro de los
estratos son N1 = 155, N2 = 62 y N3 = 93. La empresa quiere estimar la proporción
poblacional P, con un nivel de confianza del 95% y con un límite para el error de
estimación igual a 0.01. Encuentre el tamaño de la muestra n y los tamaños de los
estratos n1, n2 y n3.

Solución.-

Estrato Ni ci pi 1- pi N i pi (1  pi ) / ci N i pi (1  pi )  ci Ni pi (1-pi )
1 155 9 0.80 0.20 20.677 186.00 24.8
2 62 9 0.25 0.75 8.9466 80.538 11.625
3 93 16 0.50 0.50 11.625 186.00 23.25
Total 310 41.2486 452.538 59.675

2
 0.01 
V ( Pˆest )     0.0026
 1.96 

41.2486  452.538 18666.559


n   60.305  60
(310) (0.0026)  59.675 249.86  59.675
2
hogares

Luego:

20.677
n1   60  30
41.2486 hogares del pueblo A.

n2 = 13 hogares del pueblo B.

n3 = 17 hogares del área rural.

También podría gustarte