Está en la página 1de 116

Métodos Estadísticos Varela/Llanos/Asnate

CAPITULO I
INTRODUCCIÓN AL MUESTREO
1. 1 INTRODUCCIÓN.
Muestreo es el proceso por el cual se realiza inferencias a la población
examinando una parte de ella; este proceso es aplicable en nuestra vida
personal y cotidiana así por ejemplo una pareja contrae matrimonio en
base a un corto enamoramiento, con un simple grano de arroz el ama de
casa prueba si todo el arroz esta cocinado en un recipiente, probando el
café contenido en una cucharadita se determina la calidad de la marca
del café, los dosajes y análisis clínicos (sangre, orina, etc.) Se realizan
en base a muestras, una muestra de roca lunar proporcionan información
científica sobre el origen de la luna, una zona turística de un país
muestra lo atractivo de una parle turística de dicho país y así diferentes
aspectos de la vida, cultura y ciencia son investigados en base a
muestras.

El propósito del muestreo es proporcionar diferentes tipos de


información estadística de naturaleza cuantitativa y cualitativa del todo
mediante el examen o análisis de un poco de unidades seleccionadas.

El método muestral es el procedimiento científico de selección de


unidades muestrales las cuales proveerán los estimadores requeridos con
cierto margen de seguridad.

1. 2 VENTAJAS DE MUESTREO:
El estudio de una muestra tiene ventajas potenciales en los diferentes
campos de la actividad humana e investigación científica. Las ventajas
del muestreo son:

a). Costo reducido; una muestra requiere relativamente mejores


recursos para procesarla y diseñarla adecuadamente, así el costo de
unidad de observación es alto en comparación con un censo, pero el
costo total del estudio por muestreo en mucho menor cubriendo los
mismos objetivos y propósitos de la encuesta o cuestionario, debido
a que los datos se obtiene únicamente de una pequeña fracción del total
de datos u observaciones en estudio o investigación.

1
Métodos Estadísticos Varela/Llanos/Asnate

b). Mayor Rapidez; Un numero pequeño de observaciones puede


recolectarse y procesarse más rápido que la información de un censo y
dar resultados más oportunos.

c). Mayor Alcance; El muestreo tiene un mayor alcance frente al censo


con relación a la variedad de información dado su flexibilidad
adaptabilidad, y posibilidad de estudiar la interrelación de varios
factores en un estudio.

d). Mayor Exactitud; Los datos obtenidos con un censo o una muestra
están sujeto a diferentes tipos de errores y sesgos, la magnitud de las
cuales depende del procedimiento particular del estudio. Sin embargo, si
el mismo procedimiento se le asigna para la muestra y el censo, la
exactitud de una muestra será la misma, pero comparativamente con
una pequeña escala de proporciones un estudio muestral posibilita
mayor exactitud por practicarse un mejor control sobre la recolección y
procedimiento de datos, empleo de mejor estándar con intensidad
entrenamiento y mejor equipo a los encuestadores.
d). Único Método de Estudio; Se emplea en estudios donde el examen
de las unidades implican su destrucción, tales como: El estudio de la
calidad de alimentos envasados, estudio de la calidad de cohetes,
granadas y municiones, etc.

1. 3 DESVENTAJAS DEL MUESTREO:


1. Cuando se requiere información básica para cada unidad,
obviamente tiene que realizarse un censo.
2. En algunos estudios de tabulaciones cruzadas donde el numero de
observaciones muestrales que caen en una cierta celda son muy
pequeños y no satisfacen los requerimientos de ciertas pruebas.
3. El error debido al muestreo tiende a ser alto en áreas
administrativas pequeña y de gran variabilidad, como las
observaciones en la población son muy variables, las muestras que
se seleccionan difieren unas de las otras como se estudia una sola
muestra para generalizar a la población, la diferencia entre el valor
dado por una muestra y valor poblacional constituye el error por
muestro en cual puede medirse estadísticamente según el aumento

2
Métodos Estadísticos Varela/Llanos/Asnate

del tamaño de la muestra

1. 4 RELACION ENTRE LA MUESTRA Y EL CENSO

Muestra y censo en general no son competitivos en muchos casos son


complementarios.
En programación se emplea a menudo estimaciones gruesas, estas
estimaciones serian adecuadas si frente a la falta de datos o deficiencia
en los disponibles esto se obtiene mediante estudios muéstrales
integrados, donde se interrelacionan la demografía sectores económicos
y sociales, en la etapa de implementación de dicha programación se
requieren datos seguros y en detalle, estos se obtendrán en base aren un
censo.

En operaciones tale como: Prueba de procedimientos censales,


ordenamientos de ítems, evaluación y control de datos procesados,
tabulaciones de variables seleccionadas o ampliadas, se aplica en
muestreo como parte integral de un censo.

1. 5 METODOS MUESTRALES.
1. Muestreo Probabilística; Es un proceso muestral donde cada
elemento de la población tiene una probabilidad perfectamente
conocida de ser incluida en la muestra, solo una muestra
probabilística proporciona estimaciones con medida de ser
precisión.

2. Muestreo no Probabilística; Es un proceso por el cual tío se


pueden asignar objetivamente probabilidades a los elementos
seleccionados y por consiguiente no se puede determinar la
precisión de los resultados muestrales en términos de
probabilidades.
Este muestreo puede ser: muestreo ajuicio o criterio, muestreo por
cuotas y también puede ser muestreo por correo (cuestionarios).

3. Muestreo a criterio o juicio; es un proceso por el cual la


selección de las muestras depende del criterio humano

3
Métodos Estadísticos Varela/Llanos/Asnate

(experiencia) y no de la rigurosa aplicación de la teoría de


probabilidades por ejemplo un experto puede coger una muestra de
arroz de la parte de su cosecha para examinar su calidad puede ser
físicamente imposible seleccionar muestras aleatoriamente dentro
del montón de su cosecha y aplicar la teoría de probabilidades sin
embargo el experto puede conocer ciertos hechos relacionados con
la calidad del arroz este puede ser que todo los granos de arroz
sean uniformes es decir todos los granos de arroz presenten el
mismo peso o grosor lo cual es suficiente para conocer su calidad

4. Muestreo por cuotas; Es otro forma de muestreo a juicio en que


los sesgos que surgen del método no probabilística de selección de
la unidades muéstrales se controlan hasta cierto huerto por la
estratificación y el establecimiento de cuotas a cada estrato, es
decir que la población se divide en grupos o estratos.

5. Muestreo o Cuestionario por Correo; Se emplea por ser de bajo


costo y facial administración, el principal objetivo a este muestreo
es el sesgo causado por el no retorno de cuestionarios, lo cual para
superarlo se propone combinar el cuestionario por correo con la
entrevista personal, en los estudios de opinión y de mercado se
emplea estos tipos de muestreo generalmente. También en
investigaciones turísticas.

1.6. DEFINICIÓN DE TERMINOS.


1. Unidad Elemental o simplemente unidad; es el elemento del
cual se requiere información (persona, familia, vivienda, etc.).

2. Población; es el conjunto de todas las unidades que se van


analizar o estudiar; la población debe ser definido en su extensión
y tiempo.

3. Marco Muestral; es el documento (lista, fichero, libreta, etc.).


Donde se consigna individualmente la unidades muéstrales, de
modo que se puedan sortear todo los elementos de la muestra esta
documento es indispensable cuando se aplica muestreo

4
Métodos Estadísticos Varela/Llanos/Asnate

probabilística. El marco muestral debe estar perfectamente


actualizado sin omisiones de ningún tipo Ejemplo parco los
ciudadanos los registros electorales son importantes para
selecciono- los miembros de las cedillas electorales, para hogares
y viviendas en el ministerio de vivienda existen cedillas especiales
que sirven de información para el Instituto Nacional de Estadística.

Para las empresas turísticas, empresas de producción y


establecimientos industriales el melar marco para la muestra a este
respecto lo da el registro que lleva al día las características de la
razón social (SUNAT, Registro Públicos).

1.7. TIPOS DE MUESTREO PROBABILISTICO.


1. Muestreo Aleatorio Simple. Es un procedimiento de selección de
una muestra por el cual todos y cada uno de los elementos de la
población tienen una oportunidad igual e independiente de ser
incluidos en la muestra además si se toma la muestra de tamaño
“n” cualquier muestra posible de “n” elementos tiene la misma
probabilidad de ser extraída que cualquier otra combinación de “n”
elementos.

Ya que la muestra se selecciona con o sin reposición, una muestra


aleatoria simple se extrae por selección aleatoria empleando
números aleatorios o colocando los elementos de la población
numerados del 1 a N elementos

2. Muestreo estratificado.
Es un método que trata de diseñar una muestra más eficiente que la
que se tiene por un procedimiento simple, el muestreo estratificado
requiere que la población este dividida en grupos homogéneas o
clases llamadas estatus. Para seleccionar muestras se toman de
cada uno de los estratos y hacer las respectivas estimaciones de los
parámetros mas usados: Promedio, Desviación estándar o
desviación típica, o error típico, coeficientes de variación y otros.

3. Muestreo Sistemático:

5
Métodos Estadísticos Varela/Llanos/Asnate

El muestreo sistemático es otra forma de seleccionar “n”


elementos de una población de tamaño “N”, donde se seguirá un
orden pre establecido es decir tomando elementos cada cierto
número constante de espacios o cada cierto número de elementos,
puesto que las unidades para este tipo de muestreo deben estar
ordenadas o factibles de ser ordenados, su aplicación generalmente
es en estudio de archivos, estudio de clientes, etc.

4. Muestreo de Conglomerados.
Se refiere al procedimientos se refiere al procedimiento de dividir a
la población en grupos o conglomerados de unidades o elementos
de la población y se extrae muestras de conglomerados que
representen a la población cuando se observan todas las unidades
elementales en las agrupaciones muéstrales se conoce como el
nombre de muestreo monoetapico, cuando se extrae una muestra
de todas las agrupaciones se conoce con el nombre de bietapico en
ambos procedimientos también se muestrea aleatoriamente.

5. Muestreo por Áreas.


El muestreo por áreas es un procedimiento practico por áreas de
listado que proporciona hueros marcos para seleccionar diferentes
zonas: viviendas, zonas turísticas, zonas residenciales, etc. El
muestreo por áreas también se emplea para seleccionar muchas
clases de muestras: tiendas, granjas, flora, fauna, cosechas, otras;
Aunque que por su movilidad agrega huevas complicaciones.
El muestreo por áreas constituye un marco conveniente y efectivo
para las viviendas y las personas, esto se debe a varias razones.
a) El empleo de mapas permite identificar claramente a toda la
población de viviendas (conglomerados).
b) Esta identificación posee permanencia, durante el periodo de
encuesta a partir del momento de listado.
c) El trabajador de campo con rapidez y claridad las fronteras de
manzanas y segmentos, y a las viviendas dentro de ellos.
d) La vivienda sirve de medio conveniente para el muestreo de
personas, puesto que se identifica con facilidad, es relativamente
estable, suele contener pocas personas, y se pueden identificar, de

6
Métodos Estadísticos Varela/Llanos/Asnate

manera única, a toda persona con una sola vivienda. En


consecuencia, la vivienda sirve de unidad de muestreo única e
identificable para un conglomerado pequeño de personas, y de
otras poblaciones que puedan asociarse fácilmente con las
viviendas.

1.8. MUESTREO E INVESTIGACIONES MUESTRALES.


Las páginas anteriores se han dedicado a la variedad de técnicas que
pueden aplicarse en la descripción y análisis de las observaciones. En el
presente capitulo nos interesamos por algunos de los problemas que se
presenten en la recogida de información estadística, hablamos que los
grandes avances efectuados en las últimas décadas en cuando a la
cantidad y alcance de las informaciones (datos a investigarse en los
diferentes aspectos: Negocios, problemas sociales, problemas públicos y
gubernamentales). El conocimiento estadístico proporciona los mejores
bases para tomar las muestras en las investigaciones y luego tomar ¡ti
respectivas decisiones.
Por eso muestro interés también es en el campo demográfico de las
poblaciones humanas. Por eso el proceso del analices estadístico
descansa en la inferencia estadística, muestreo estadístico e
investigación científica. Al exponer la teoría de las distribuciones en el
muestreo y de los errores de muestreo los científicos e investigadores
sientan las condiciones de las probabilidades y sus aplicaciones en el
muestreo. Como la aplicación de los métodos de la probabilidad para
optimizar las investigaciones.

7
Métodos Estadísticos Varela/Llanos/Asnate

TÉRMINOS BÁSICOS
PARAMETROS POBLACIONALES
El PARAMETRO es una función de los valores de todas las N unidades
de la población. Este valor es único, constante y por lo general
desconocido.
Entre los parámetros más usuales tenemos:

MEDIA POBLACIONAL
Es la media aritmética de los valores de la variable poblacional en
estudio. Se obtiene dividiendo el total poblacional por el número de
unidades de la población. Se denota por Y o X . Así:
Y X
Y= X=
N N
VARIANZA POBLACIONAL
Llamamos varianza poblacional a la variabilidad de los valores de la
variable en estudios en la población y es medida por la media aritmética
del cuadrado de las desviaciones de las observaciones poblacionales con
respecto a su media.
Se denota por  y2 así:
1 N
σ 2y =  (Yi-Y) 2
N i=1

A esta varianza se le denomina VARIANZA TEORICA por su empleo


en demostraciones de tipo teórico, pero como su estimador es
SESGADO se ha creído conveniente modificarla a fin de obtener un
estimador INSESGADO, resultando así la VARIANZA PRÁCTICA,
denotada y definida por:

1 N
S2Y =  (Yi-Y) 2
N-1 i=1

La diferencia con la varianza teórica está en el denominador, luego:

1
La raíz S2Y = σ 2Y cuadrada positiva de la varianza se denomina
N-1
8
Métodos Estadísticos Varela/Llanos/Asnate

DESVIACIÓN ESTANDAR POBLACIONAL y se denota por


Y ó sY .
COEFICIENTE DE VARIACIÓN
Para medir la variabilidad poblacional independiente de las unidades de
medición. Se obtiene al dividir la desviación estándar poblacional por la
media poblacional. Se denota por CV. Así:
σY
CV(Y)=
Y

Generalmente se expresa como porcentaje. El cuadrado del CV se


denomina VARIANZA RELATIVA.
Con el CV es posible comparar la variabilidad de diferentes unidades.
Ejemplo, variabilidad del consumo familiar en diferentes áreas y países.

RAZÓN POBLACIONAL
Se obtiene dividiendo los totales o medias poblacionales
correspondientes a dos variables estudio, se denota por R,
Así:
Y Y
R= =
X X

Donde X, Y, X,Y son totales y medias poblacionales de las variables


en estudio.

COVARIANZA POBLACIONAL ENTRE DOS VARIABLES


ESTUDIO
Mide la variabilidad conjunta de dos variables y se obtiene tomando la
media de los productos de las desviaciones de las observaciones con
σ YX o C(X, Y). Así:
respecto a su media. Se denota por
1 N
C(X,Y)=σ YX =  (Yi -Y)(X i -X)
N i=1

9
Métodos Estadísticos Varela/Llanos/Asnate

COEFICIENTE DE CORRELACIÓN LINEAL POBLACIONAL


ENTRE DOS VARIABLES ESTUDIO
Mide la relación entre dos variables y se obtiene dividiendo la
covarianza por el producto de las desviaciones estándar
correspondientes a las variables estudio. Se denota por  XY .
σ XY
ρ XY =
σYσX

El coeficiente de correlación es un número puro que varía desde -1


(perfecta correlación negativa) a través de 0 (No existencia de
correlación lineal) a + 1 (Perfecta correlación positiva).

PROPORCIÓN POBLACIONAL
Si “A” unidades del total N poseen un cierto atributo o pertenecen a una
cierta categoría (tal como N° de viviendas que no poseen desagüe), la
proporción poblacional P de tales unidades es:
A
P=
N

FORMAS DE SELECCIONAR UNA MUESTRA


1.1 MUESTRAS SIN REEMPLAZO.- Se obtiene una muestra sin
reemplazo cuando los elementos de la población no se repiten en la
muestra y esto se debe a que una unidad seleccionada para integrar la
muestra no es devuelta a la población.
1.2 MUESTRAS CON REEMPLAZO.- Cuando los elementos de la
población se repiten en la muestra y esto se debe a que la unidad
seleccionada es devuelta a la población antes de extraer otro elemento
muestral.
NUMERO DE MUESTRAS
Si el muestreo es con reemplazo
Dada una población de N elementos hay Nn formas posibles de
seleccionar una muestra de tamaño n.
Ejemplo: sea N = 3 hogares de los cuales seleccionamos muestras de
tamaño n = 2, con reemplazo.
El número de muestras posibles es: Nn = 32 = 9
10
Métodos Estadísticos Varela/Llanos/Asnate

Si denotamos por A, B y C a los tres hogares, las muestras serían:


AA, AB; AC; BA; BB; BC; CA; CB; CC
Si el muestreo es sin reemplazo:
Considerando el orden es:
N!
N(N-1)(N-2)...(N-n+1)= = N Pn
(N-n)!

En nuestro ejemplo anterior, el número de muestras sería:


3!
P2 = =3x2=6
3
(3-2)! Muestras

Las muestras serían:


AB; AC; BC
BA; CA; CB
Note que AB  BA por el orden de los elementos
b) Sin considerar el orden:
Dada una población de tamaño N, el número de muestras de tamaño n
que pueden seleccionarse sin reemplazo y sin considerar el orden es:
N!  N
= 
n!(N-n)!  n 
En nuestro ejemplo, muestras
 3
  =3
Las muestras serían:  2
AB, AC, BC

PROBABILIDAD DE SELECCIÓN DE UNA MUESTRA DE


TAMAÑO “n”
a) En muestreo con reemplazo:
La probabilidad es igual a: 1/Nn
b) En muestreo sin reemplazo:
b.1) considerando el orden

La probabilidad es igual a: 1 1
=
N Pn N(N-1)...(N-n+1)

b.2 Sin considerar el orden: 1



n!(N-n)!
 N N!
 

11n 
Métodos Estadísticos Varela/Llanos/Asnate

La probabilidad es igual a:

PROBABILIDAD DE QUE UN ELEMENTO SE ENCUENTRE


EN LA MUESTRA.
a) Si el muestreo es con reemplazo:
La probabilidad es con reemplazo:
La probabilidad de seleccionar un elemento específico en la primera
ocasión es 1/N; como el 1er elemento es devuelto a la población, la
probabilidad de seleccionar el 2do elemento también es 1/N y así para
cualquier elemento específico en cada una de las n ocasiones. Luego.
La probabilidad de que un elemento sea incluido en una muestra de
tamaño n será:
1/N + 1/N + … +1/N = n/N
b) Si el muestreo es sin reemplazo
La probabilidad de seleccionar un elemento específico en la 1era
extracción es 1/N.
En la segunda extracción, la probabilidad será igual a la probabilidad
que sea seleccionado en la 2da extracción; esto es:
 N-1   1  1
  =
 N   N-1  N

La probabilidad que un elemento específico sea seleccionado en la 3era


extracción es igual a:
Prob. que no sea seleccionada en Prob. que no sea Prob. que no sea
la 1ra x seleccionada en seleccionada en
la 2da x la 3ra

 N-1   N-2   1  1
=   =
 N   N-1   N-2  N

y así sucesivamente para n extracciones. Por consiguiente: la


probabilidad de que un elemento sea incluido en una muestra de tamaño
n será n/N.
Nota: La probabilidad de que un elemento de la población se encuentra
en la muestra es igual a n/N tanto para muestreo con y sin reemplazo.

12
Métodos Estadísticos Varela/Llanos/Asnate

MUESTREO ESTRATIFICADO
1. INTRODUCCION.
En ocasiones la población que se va a investigar se fracciona o
subdivide en grupos de características similares, En cada subdivisión la
población tiende a ser más homogénea que en la población original y
esto contribuye a la exactitud del proceso de muestreo. Las
subdivisiones de la población forman una partición, de manera que cada
unidad pertenece a una y sólo una subdivisión y la unión de todas ellas
conforman la población..En cuanto al método de selección y en parte al
de estimación, a cada una de las subdivisiones se le trata en forma
independiente, aunque el método de estimación las unirá en forma
global. A un esquema de este tipo se le conoce como MUESTREO
ESTRATIFICADO y a cada subdivisión trabajada de manera
independiente se le denomina ESTRATO.

Para obtener bases para la estratificación, la población original


a investigarse debe de ser estudiada cuidadosamente; una buena
estratificación ayuda aumentar la precisión de la investigación realizada
con una muestra. Así, por ejemplo, la población del Perú se compone de
hombres, mujeres y niños de diferentes edades, grupos sociales y
ocupaciones. Estas características pueden influir en los puntos de vista
de las personas acerca del objeto de la investigación y es posible por lo
tanto, formar estratos con personas de características similares, de tal
manera que su opinión pueda evaluarse con mayor precisión.

Si seleccionamos una muestra aleatoria dentro de los estratos


definidos ,el muestreo se denomina MUESTREO ALEATORIO
ESTRATIFICADO(st) y tiende a ser más seguro que el muestreo
aleatorio simple ya que las características significativas de la. Población
quedan representadas adecuadamente en los diferentes estratos.

Una muestra aleatoria simple puede de hecho, convertirse en la


composición correcta de unidades de muestreo, tomadas de los diversos
estratos de una población pero esto NO puede suponerse en todos los
casos. Los ERRORES DE MUESTREO, que, resultan de una muestra
aleatoria-simple serán mayores que los de una muestra-aleatoria

13
Métodos Estadísticos Varela/Llanos/Asnate

estratificada del mismo tamaño .Esto sucede porque cuando se toma una
muestra por el método aleatorio simple hay que considerar dos clases de
errores: los que se encuentran DENTRO de cada estrato y los que hay
ENTRE dos estratos diversos. Por ejemplo, la gente que se halla en
determinado grupo socioeconómico puede tener perfectamente otro
punto de vista diferente del que tienen los que están en otro grupo.
Además, es probable que haya algunas diferencias de opinión DENTRO
de cada grupo socio económico

Dado que las características de los estratos de la muestra


corresponden a las de la población, la variación entre los estratos ya se
tiene en cuenta cuando usamos. El muestreo aleatorio estratificado.

Como se anotó antes, el proceso de selección aleatoria sólo


tiene lugar después de la estratificación; por eso, los errores de muestreo
sólo pueden surgir de una fuente, esto es, de dentro de los estratos. Por
lo tanto la estratificación es más efectiva cuando la-MAYOR PARTE DE
LA VARIACION de la población es causada por la variación entre los
estratos. Los estratos deben por consiguiente, diseñarse de tal manera
que difieran significativamente uno de otro y la población dentro de
cada estrato debe ser tan homogéneo como sea posible. De esta manera
los beneficios de la estratificación se explotan completamente.

2. RAZONES RARA ESTRATIFICAR


El muestreo estratificado es ampliamente empleado por varias razones,
entre ellas tenemos:
a) Cuando se desea estimaciones por separado para cada
subdivisión de la población, tales como cuando en una investigación
sobre viviendas se requiere información para grupos sociales diferentes
o para grupos económicos también diferentes.
b) Por conveniencias de tipo administrativo. Así por ejemplo:
i) Un Centro de Investigación que tiene a cargo una encuesta y
que cuenta con filiales en los diferentes departamentos del País, puede
subdividir la población de manera que cada una de ellas pueda
supervisar la encuesta en el ámbito correspondiente.

14
Métodos Estadísticos Varela/Llanos/Asnate

ii) Para una investigación gubernamental, el País puede


estratificarse por razones de costo y otras conveniencias, en regiones
geográficas, tal como Costa, Sierra y Selva para las cuales el gobierno
tiene una determinada infraestructura administrativa.
c) Cuando para cada tipo de subpoblación hay problemas
muestrales específicos. Así por ejemplo, sí se desea estimar las ventas
de los establecimientos comerciales, se pueden estratificar de acuerdo al
volumen de ventas, o área que ocupa el local o número de empleados.
d) Para lograr ganancia en precisión en los estimadores de las
características poblacionales. Una población heterogénea se subdivide
en subpoblaciones homogéneas, en donde las unidades varían muy poco
de una unidad a otra, logrando de esta manera decisión con una muestra
muy pequeña en cada estrato. La ganancia en precisión es superior a la
del muestreo aleatorio simple.

3 . NOTACIONES:
h : Denota el estrato ( h = 1, ... L)
i : Denota la unidad dentro del estrato
L : Denota el número de estratos.
Nh: Número de unidades en el estrato “h” o tamaño de estrato.
nh : Número de unidades de la muestra seleccionada en el estrato “h” o
tamaño de muestra en el estrato h.
yhi: indica el valor de la i-ésima unidad observada en el estrato “h”

Nh
Wh = : Ponderación del estrato “h” en la población
N

nh
fh = : Fracción de muestreo en el estrato “h”
Nh
Nh

Y
i=1
hi
Yh = : Media del estrato "h"
Nh

15
Métodos Estadísticos Varela/Llanos/Asnate

nh

y hi
yh  Medía de la muestra del estrato “h” (Estimador
nh
insesgado de Yh )
Nh

 (Y hi  Y h )2
Sh2  Varianza Práctica del estrato “h”
Nh 1
nh

(y hi  y h )2
sh2  Varianza de la muestra en el estrato “h”.
nh  1
Y h  Nh y h Estimador insesgado del Total del Estrato “h”

4. ESTIMADORES
A.-ESTIMADOR DE LA MEDIA POBLACIONAL ( y st )
El estimador de la media poblacional en el muestreo estratificado es:
L L

Y h N h yh
y st  
N N
Donde:
yh : Media de la muestra en el estrato "h"

N = Nl +….+ NL : Tamaño de la población

st : denota Muestreo Estratificado.


B. ESTIMADOR DEL TOTAL POBLACIÓNAL
Si se desea estimar el valor total de una característica usando muestreo
estratificado, empleamos la siguiente expresión:
Yˆst  N y st

16
Métodos Estadísticos Varela/Llanos/Asnate

C. ESTIMADOR DE LA RAZON POBLACIONAL


Si el valor de dos variables estudio para la i-ésima unidad (i=
l,..N ) en el h-ésimo estrato es denotada por Yhi y Xhi respectivamente, el
estimador de la razón poblacional es dado por:

Rˆ  st
NOTA. Xˆ st
1) Los estimadores del. Total y de la medid poblacional son insesgados.
2) El estimador de razón poblacional es consistente pero sesgado.
3) Los estimadores del total, la media y la razón son los mismos para
muestreo sin y con remplazamiento.
A medida de resumen presentamos el cuadro siguiente:
TOTAL, MEDIA Y RAZON DE DOS TOTALES POBLACIONALES Y
SUS; ESTIMADORES
Para el h-ésimo estrato Para la población
Parámetro Parámetro Estimador
Estimador (c) (d)
(a) (b)
Para una
variable Nh L L
estudio 
i 1

Yh  Yhi ; Yˆh  N h y h Y  Yh ; yst  Yh  Yst
h 1

h 1
TOTAL

MEDIA Yh Y
Yh  ; yh Y ; yst / N  Yˆst / N
Para una Nh N
variables
estudio Yh y
RAZON Rh  ; rh  h R
Y
; Rˆ st  Yˆst / Xˆ st  rst
DE Xh xh X
TOTALE
S

17
Métodos Estadísticos Varela/Llanos/Asnate

PROBLEMAS RESUELTOS
1.- En una población con N = 6, A = 4 y A’ = 2, calcular el valor de a
para todas las posibles muestras simples aleatorias de tamaño 3.
a) Verificar los teoremas dados para la media y la varianza.
b) Verificar que:
N n
pq Es un estimador insesgado de la varianza de p.
( n  1) N
Solución
a) Si el muestreo es sin reemplazo el número total de muestras a
seleccionar será:
 N   6
      20
 n   3
A 2 A
P  ; Q  1/ 3
N 3 N
Ahora, sea A1, A2, A3, A4 los elementos de A y B1, B2 los elementos de
A, entonces tenemos:
Muestras a p q Pq (p –
P2)
(1) A1A2A3 3 1 0 0 1/9
(2) A1A2A4 3 1 0 0 1/9
(3) A1A2B1 2 2/3 1/3 2/9 0
(4) A1A2B2 2 2/3 1/3 2/9 0
(5) A1A3A4 3 1 0 0 1/9
(6) A1A3B1 2 2/3 1/3 2/9 0
(7) A1A3B2 2 2/3 1/3 2/9 0
(8) A1A4B1 2 2/3 1/3 2/9 0
(9) A1A4B2 2 2/3 1/3 2/9 0
(10) A1B1B2 1 1/3 2/3 2/9 1/9
(11) A2A3A4 3 -1 0 0 1/9
(12) A2A3B1 2 2/3 1/3 2/9 0
(13) A2A3B2 2 2/3 1/3 2/9 0
(14) A2A4B1 2 2/3 1/3 2/9 0
(15) A2A4B2 2 2/3 1/3 2/9 0
(16) A2B1B2 1 1/3 2/3 2/9 1/9
(17) A3A4B1 2 2/3 1/3 2/9 0
(18) A3A4B2 2 2/3 1/3 2/9 0
(19) A3B1B2 1 1/3 2/3 2/9 1/9
(20) A4B1B2 1 1/3 2/3 2/9 1/9
40/3 32/9 8/9

18
Métodos Estadísticos Varela/Llanos/Asnate

b) b.1.-
E( p)   pi Pr ob( pi)  (40 / 3)(1/120)  2 / 3  P
Luego: E (p) = P
b.2.-
V ( p)   ( pi  P)2 Pr ob( pi)   ( pi  P)2 (1/ 20)
= (8/9) (1/20) =
2/45
Por otra parte:
PQ  N  n  (2 / 3)(1/ 3)  6  3 
     (2 / 27)(3 / 5)  2 / 45
n  N 1  3  5 

Luego: PQ  N  n 
 
n  N 1 
N n (6  3)
c) E ( s 2p ) 
(n  1) N
E ( pq) 
(3  1)6
 pi qi Pr ob( Pq
i i)

 (3/12) pi qi (1/ 20)


= (3/12) (1/20) (32/9) = 2/45 = V(p)
2
Luego, s p es un estimador insesgado de V (p).

2.- En una muestra simple aleatoria de 200 obtenida de una población


de 2000 colegios, 120 de éstos estuvieron a favor de una propuesta, 57
se opusieron y 23 se abstuvieron de opinar. Estimar los límites de
confianza al 95% para el número de colegios en la población que
favorecieron la propuesta.
Solución:
Proporción de colegios a favor de la propuesta:
p = a/n = 120/200 = 0.6
Límites de confianza para P, usando la aproximación normal:
p   Z ( N  n) / N pq / n  1  1/ 2n 

0.6  1.96 (1  200) / 2000 0.6(0.4) /199  1/ 400 


0.6  0.0669
19
Métodos Estadísticos Varela/Llanos/Asnate

De donde: LSp = 0.6669 LIp = 0.5331


Luego los límites de A en la población serán:
LSA = NLSp = 2000(0.6669) = 1334
LSA = NLSp = 2000(0.5331) = 1066
Por consiguiente, con el 95% de confianza, el número de colegios a
favor de la propuesta se encuentra entre 1,066 y 1334.

3.- En los resultados de la muestra anterior se obtiene una evidencia


contundente de que la mayoría de los colegios en la población
favorecieron la propuesta.
Solución:
a. Hipótesis Estadística:
Ho P = 0.5
Ha P = 0.5
b. Nivel de significancia:
 = 0.05
c. Distribución para la prueba: Distribución normal
d. Función Pivotal:
pP
z
sp
e. Valor Experimental:
0.6  0.5
zo   3.039
0.0329
Donde:
N n
s 2p  pq
(n  1) N
2000  200
 (0.6)(0.4)
(200  1)2000
= 0.00108
Luego: sp = 0.0329
f.- RR y RA de Ho
RA/Ho: Si z < 1.64 se acepta Ho
RA/Ho: Si z > 1.64 se acepta Ho
g. como zo pertenece a la RR/Ho, entonces se acepta H1

20
Métodos Estadísticos Varela/Llanos/Asnate

h. Conclusión: La mayoría de los colegios están a favor de la


propuesta.
Nota: Z = 3.039 le corresponde una probabilidad de 0.0012, o sea que la
prueba es casi concluyente; pues se acepta Ha con el 0.12% de
participación del azar.

4.- Una población con N = 7 consiste de los elementos de M 1, C1, C2,


C3, D1, D2 y D3. Se toma una muestra simple aleatoria de tamaño 4 con
el fin de estimar la proporción de C respecto a C + D.
a) Calcule las distribuciones condicionales de esta proporción, p.
b) Verifique la fórmula de su varianza condicional.
Solución:
a)
Clase Ai Unidades
1 1 M1
2 3 C1, C2, C3
3 3 D1, D2, D3
Donde: N = 7 y N’ = C + D = 3 + 3 = 6
Ahora, con n = 4 deseamos estimar:
A2 C 3 1
P   
A2  A3 C  D 3  3 2
7
En general existen    35 muestras diferentes de tamaño 4 y las
 4
cuales son:
M1C1C2C3 M1C1C2D1 M1C1C2D2 M1C1C2D3 M1C1C3D1
M1C1C3D2 M1C1C3D3 M1C2C3D1 M1C2C3D2 M1C2C3D3
M1C1D1D2 M1C1D1D3 M1C2D1D2 M1C2D1D3 M1C3D1D2
M1C3D1D3 M1C1D2D3 M1C2D2D3 M1C3D2D3 M1D1D2D3
C1C2C3D1 C1C2C3D2 C1C2C3D3 C1C2D1D2 C1C2D1D3
C1C2D2D3 C1C3D1D2 C1C3D1D3 C1C3D2D3 C2C3D1D2
C2C3D1D3 C2C3D2D3 C1D1D2D3 C2D1D2D3 C3D1D2D3

Distribución condicional, para n’ = 3:

21
Métodos Estadísticos Varela/Llanos/Asnate

 A2   A3   A2  A3 
P (a2/A2, A3, n, n’) =    /  
 a2  a3   a2  a3 
 3  3   6 
P (3/3, 3, 4, 3) =    /   = 1/20
 3  0   3 
 3  3   6 
P(2/3, 3, 4, 3) =    /   = 9/20
 2  1   3 
 3  3   6 
P(1/3, 3, 4, 3) =    /   = 9/20
 1  2   3 
 3  3   6 
P(0/3, 3, 4, 3) =    /   = 1/20
 0  3   3 
Distribución condicional para n’ = 4
 3  3   6 
P(3/3, 3, 4, 4) =    /   = 1/5
 3  1   4 
 3  3   6 
P(2/3, 3, 4, 4) =    /   = 3/5
 2  2   4 
 3  3   6 
P(1/3, 3, 4, 4) =    /   = 1/5
 1  3   4 
b) Para n’ = 3 y donde
a2 = N° de elementos muestrales que pertenecen a C
a3 = N° de elementos muestrales que pertenecen a D
P = 3 / (3+3) = 1/2
b.1.- E ( p)  1x10  (2 / 3)(9 / 20)  (1/ 3)(9 / 20)  (0)(1/ 20) 
1/2
Luego, E(p) = P
b.2.-  p2   ( p  P)2 Pr ob. Cond. 
= (1/2)2 (1/20) + (1/6)2 (9/20) + (-1/6)2 (9/20) + (-1/2)2
(1/20)
= 1/20

22
Métodos Estadísticos Varela/Llanos/Asnate

Por otra parte,


 N ' n '  PQ  6  3  (3 / 6)(3 / 6)
     1/ 20
 N 1  n '  6 1  3
Por consiguiente se cumple la formula:
 N ' n '  PQ
 p2   
 N ' 1  n '

CUADRO DE CALCULOS PARA n’ = 3


Muestras

Cond.
Prob.

(p-P)
a2

a3

M1C1C2C3 3 0 1 1/20 1/2 M1C1D1D2 2 1 1/3 -1/6


M1C1C2D1 2 1 2/3 1/6 M1C1D1D3 1 2 1/3 -1/6
M1C1C2D2 2 1 2/3 1/6 M1C2D1D2 1 2 1/3 -1/6
M1C1C3D3 2 1 2/3 1/6 M1C2D1D3 1 2 1/3 -1/6
M1C1C3D1 2 1 2/3 9/20 1/6 M1C3D1D2 1 2 1/3 9/20 -1/6
M1C1C3D2 2 1 2/3 1/6 M1C3D1D3 1 2 1/3 -1/6
M1C1C3D3 2 1 2/3 1/6 M1C1D2D3 1 2 1/3 -1/6
M1C1C3D1 2 1 2/3 1/6 M1C2D2D3 1 2 1/3 -1/6
M1C2C3D2 2 1 2/3 1/6 M1C3D2D3 1 2 1/3 -1/6
M1C2C3D3 2 1 2/3 1/6 M1D1D2D3 0 3 0 1/20 -1/2

Cuadro de cálculos para n’ = 4


Muestras

Cond.
Prob.

(p-P)
a2

a3

C1C2C3D1 3 1 3/4 1/5 ¼ C1D1D2D3 1 3 1/4 1/5 -1/4


C1C2C3D2 3 1 3/4 1/4 C2D1D2D3 1 3 1/4 -1/4
C1C2C3D3 3 1 3/4 1/4 C3D1D2D3 1 3 1/4 11/4
C1C2D1D2 2 2 2/4 1/4
C1C2D1D3 2 2 2/4 0
C1C2D2D3 2 2 2/4 0
C1C3D1D2 2 2 2/4 3/5 0

23
Métodos Estadísticos Varela/Llanos/Asnate

C1C3D1D3 2 2 2/4 0
C1C3D2D3 2 2 2/4 0
C2C3D1D2 2 2 2/4 0
C2C3D1D3 2 2 2/4 0
C2C3D2D3 2 2 2/4 0

Para n’=4:
b.1.- E( p )   pi Pr ob. Cond . pi
= (1/5)(3/4)+(2/4)(3/5)+(1/4)(1/5) = 1/2
Luego se cumple la relación:
E (p) = P
b.2.- V( p )   ( p  P)2 Pr ob. Cond . pi
= (1/4) (1/5) + (0) (3/5) + (-1/4) (1/5) =
= 1/40
Por otra parte,

 N ' n '  PQ  6  4  (1/ 2)(1/ 2)


     1/ 40
 N ' 1  n '  6  1  4
Luego, la relación:
 N ' n '  PQ
V( p )    Se cumple
 N ' 1  n '

5.- Se eligió una muestra aleatoria simple de 290 familias de un área de


la ciudad conteniendo 14,828 familias. A cada familia se le preguntó si
la casa era suya o rentada y también si tenían el uso exclusivo de un
baño interior. Los resultados fueron como sigue.

Propietario Rentada Total


Uso exclusivo
Si No Si No
de baño
141 6 109 34 290

a) Para familias que rentan, estimar el porcentaje en el área de


familias que cuentan con un baño interior de uso exclusivo y
24
Métodos Estadísticos Varela/Llanos/Asnate

dar el error estándar de su estimador.


b) Estimar el número total de familias que rentan casa en el área y
que no tienen un baño interior para uso exclusivo y da el error
estándar de este estimador.

Solución
a) Estimador del porcentaje de familias en el área, que cuentan
con baño interior de uso exclusivo:

p  pˆ  a / n '  109 /143  76.2% Con:

 n '  pq  143  (0.762)(0.238)


V ( p)  1    1    0.0012648
 N  n ' 1  14828  142

y DE ( p )  0.0012648  3.6%

b) Como el número de familias en el área que rentan casas no es


conocido, el estimador será:
N 14,828
Aˆ  a  (34)  1738 familias
n 290
Con un error estándar de:
S

 Aˆ   N (1  n / N )
pq
n 1
donde; pˆ  a / n  34 / 290  0.1172

(0.1172)(0.8828)
 (14,828) (1  290 /14828)
289
= 14,828 (0.018735)
= 278 familias

6.- Si en el ejercicio anterior el número total de familias que rentan casa


en el área de la ciudad es de 7,526, construya un nuevo estimador del
número de arrendatarios que no cuentan con la facilidad de un baño
exclusivo y dar el error estándar de este estimador.
25
Métodos Estadísticos Varela/Llanos/Asnate

Solución:
Estimador de la proporción:
p̂  p = 34/143 = 0.237762237 = 0.2378
Estimador del total:
  Np = 7526(0.2378) = 1,789 familias
Error estándar del estimador:
pq
sAˆ  N (1  n / N )
n 1
(0.2378)(0.7622)
= 7,526 (1  143/ 7526)
142
= 7,526 (0.99045) (0.03573) = 276.6
Luego, DE ( Â ) = 268 familias

7.- En la muestra de 30 familias dada en el cuadro siguiente, se refiere al


número de visitas al dentista realizadas en el último año. Estimar la
varianza de la proporción de personas que vieron a un dentista y
comparar ésta con el estimador de la varianza Binomial.
Solución:
Sea
ai, N° de personas que visitaron al dentista
mi N° de integrantes por familia
Luego, la proporción de personas que visitaron al dentista será:

p
a i
= 22/104 = 0.21154 = 21.15%
m i

Con una varianza de:


(1  f )  ai  2 p  ai mi  p  mi
2 2 2

V ( p) 
nm 2 n 1
Donde: n es el tamaño de muestra de conglomerados (familias)
m es el tamaño familiar promedio = m/n = 104/30
= 3.4667 personas
Como N es desconocido, asumimos que n/N tiende a 0
Luego:
26
Métodos Estadísticos Varela/Llanos/Asnate

1  32  2(0.21154)(87)  (0.21154(404) 
V ( p)  2    0.00184
30(3, 46667)  29 

Ahora varianza Binomial:


pq
V( p )  Donde n es el número de personas que consultaron al
n
dentista
(0.21154)(0.7884)
  0.001603
104
Por consiguiente podemos concluir que la varianza Binomial es menor
que la hipergeométrica.
INFORMACIÓN DE UNA MUESTRA SIMPLE ALEATORIA DE 30
FAMILIAS
N° de N° de Dr. Visto No miai a 2 mi2
i
familia persona en el año
s s Si (ai)
mi
1 5 1 4 5 1 25
2 6 0 6 0 0 26
3 3 1 2 3 1 9
4 3 2 1 6 4 9
5 2 0 2 0 0 4
6 3 0 3 0 0 9
7 3 1 2 3 1 9
8 3 1 2 3 1 9
9 4 1 3 4 1 16
10 5 0 4 0 0 16
11 3 1 2 3 1 9
12 2 0 2 2 0 4
13 7 2 5 14 4 49
14 4 1 3 4 1 16
15 3 0 3 0 0 9
16 5 1 4 5 1 25
17 4 4 0 16 16 16
18 4 1 3 4 1 16
27
Métodos Estadísticos Varela/Llanos/Asnate

19 3 1 2 3 1 9
20 3 0 3 0 0 9
21 4 1 3 4 1 16
22 3 0 3 0 0 9
23 3 1 2 3 1 9
24 1 0 1 0 0 1
25 2 0 2 0 0 4
26 4 0 4 0 0 16
27 3 1 2 3 1 9
28 4 1 3 4 1 16
29 2 0 2 0 0 4
30 4 0 4 0 0 16

8.- Supongamos que el coeficiente de variación del ingreso monetario


de las granjas de pollos del lugar es del 100%. De que tamaño se
requiere una muestra de granjas; si se desea un error tolerable de  5%
con una confianza del 95%; para una zona con 2,000 granjas; b) una
zona con 200, 000; c) una zona con 5’000,000 granjas.
Solución:
Z 2S 2 Z 2
Si CV = 100%, entonces S = X; luego: no  
(dx)2 d 2
= (1.96)2 / (0.05)2 = 1,536.64
Ahora como no/N es mayor que el 5%, entonces corregimos. Esto es:
1,536.64
n  869 granjas
1536.64
1
2, 000
b.- Para una zona con 200,000:
no/N = 1536.64/200,000 = 0.768% que es menor del 5%
Por consiguiente “n” óptimo es igual a:
n = 1,537
c.- Para una zona con 5’000,000 de granjas
no/N = 0.03073% que es menor del 5%
Por consiguiente, el tamaño de muestra óptimo, será igual a:
n = 1,537

28
Métodos Estadísticos Varela/Llanos/Asnate

Nota: A mayor tamaño de población no corresponde mayor tamaño de


muestra; esto se puede apreciar en el ejercicio. El tamaño de muestra
está en relación con el coeficiente de seguridad y la precisión.

9.- En un distrito conteniendo 4,000 casas va a ser estimado el


porcentaje de propietarios con un error estándar no mayor de 2% y el
porcentaje de familias con dos carros con un error estándar de no mas
del 1% (las cifras 2 y 1% son valores absolutos, no coeficientes de
variación). Se piensa que el verdadero porcentaje de propietarios está
entre el 45 y el 65% y el porcentaje de familias con dos carros entre el 5
y el 10%. Que tan grande se necesita tomar la muestra para satisfacer
los dos objetivos?

Solución
a) Para propietarios:
N  n PQ
V( p )   (0.02) 2
N 1 n
Luego, el tamaño de muestra será:

i) Para P = 45%
(4000  n) (0.45)(0.55)
 0.0004
3999 n
De donde
n = 535.945

ii) Para P = 65%


(4000  n) (0.65)(0.35)
 0.0004
3999 n
de donde
n = 498.057

b) Para famílias de dos carros:


N  n PQ
V( p )   (0.01) 2
N 1 n

29
Métodos Estadísticos Varela/Llanos/Asnate

i) Para P = 5% = 0.05
(4000  n) (0.05)(0.95)
 0.0001
3999 n
de donde
n = 424.67
ii) Para P = 10% = 0.10
(4000  n) (0.10)(0.90)
 0.0001
3999 n
de donde
n = 734.84
Por consiguiente, para satisfacer los 2 objetivos se necesita tomar una
muestra de 735 casas; este tamaño corresponde a familias con dos
carros y P = 10%.
10.- En una población de 676 hojas de solicitud. Que tan grande debe
ser la muestra si se va a estimar el número total de firmas con un
margen de error de 1000 y una probabilidad de 1 en 20. se contó el
número de firmas por hoja en una muestra previa de 50 hojas
seleccionadas al azar (muestra del 7% aproximadamente); obteniendo
los siguientes resultados:
N° de 2 2 2 1 1 1 1 1 1
42 41 36 32 9
firmas yi 9 7 3 9 6 5 4 1 0
Frecuenc
23 4 1 1 1 2 1 1 2 1 1 1 1 1
ia fi

7 6 5 4 3
1 3 2 1 1

Solución
La varianza de la muestra es:

s2 
1 
  fi yi2 
  fi yi  2   (1/ 49) 54, 497  (1471)2 
 50 
n 1 
  fi   

= 229

30
Métodos Estadísticos Varela/Llanos/Asnate

Suponiendo que el valor de s2 es el valor de s2 en la población, entonces


el tamaño de muestra previa para el total de firmas será:
N 2 Z 2 S 2 N 2 Z 2 S 2 (676)2 (2)2 (229)2
no     418.59
d2 d2 (1000)2
n 418.59
Ahora, como o   0.5947  0.05
N 676
Entonces, el tamaño de muestra para el total será:
no 418.59
n   258.51  259 hojas
no 1  0.5947
1
N
Por consiguiente, para estimar el número total de firmas se necesita una
muestra de 259 hojas.¨

11.- Se va a realizar una encuesta para determinar la existencia de


enfermedades comunes en una población grande. Para cualquier
enfermedad que afecte cuando menos al 1% de los individuos en la
población, se desea estimar el número total de casos, con un coeficiente
de variación de no más del 20%.
a) Que tamaño de muestra simple aleatoria es necesaria,
suponiendo que la presencia de la enfermedad puede ser
reconocida sin equivocación?
b) Que tamaño de muestra se necesita si se desea obtener el
número total de casos separadamente para hombres y mujeres,
con la misma precisión.

a) El coeficiente de variación del total es igual al coeficiente de


variación de p; luego:

p PQ / n Q
CV( p )   
P P n P
de donde:
Q 0.99
n 2
  2, 475 Individuos
CV( p )  P (0.20) 2 (0.01)

31
Métodos Estadísticos Varela/Llanos/Asnate

b) Cuando se requieren estimadores no sólo para la población como un


todo; sino para subdivisiones, tales como áreas geográficas, sexo o
grupos etareos de la población, el tamaño de muestra obtenido para
estimar los valores poblacionales con una precisión dada, debe
incrementarse dado a que se requieren estimadores para las
subdivisiones con la misma precisión como los obtenidos para la
población.
Como regla general, tenemos:
Si se requieren estimadores con varianza V en cada una de las k
subpoblaciones, el tamaño de muestra será:
n' = kn
Donde n es el tamaño de muestra para toda la población con la misma
varianza V.
En nuestro caso, K = 2 y asumiendo que el número de hombres y
mujeres son aproximadamente iguales en la población, obtenemos:
N’ = 2(2475) = 4,950 individuos.

12.- Los siguientes coeficientes de variación fueron obtenidos en una


encuesta de predios agrícolas en la unidad fue una área de una milla
cuadrada
Coeficiente de
Características Variación
Estimado %
Acres en predios agrícolas 38
acres de maíz 39
Acres de Avena 44
N° de trabajadores de la familia 100
N° de trabajadores contratados 110
Número de desempleados 317
Se planea una encuesta para estimar características de área con un
coeficiente de variación de 2,5% y -número de trabajadores (excluyendo
a los desempleados) con un coeficiente de variación del 5%. Con una
muestra simple aleatoria. Cuantas unidades se necesitan? Que también
se supone que esta muestra estime el número de desempleados?
Solución
32
Métodos Estadísticos Varela/Llanos/Asnate

a) Conocemos que:
y / n /y CV ( y )
CV ( y )     De donde:
y y n n
2
 CV ( y ) 
n=  
 CV ( y ) 
Luego:
i) Tamaño de muestra para trabajadores:
El máximo coeficiente de variación para trabajadores corresponde al
número de contratados (excluyendo a desempleados), para los cuales
CV (y) = 1.10 y como se desea CV ( y ) = 0.05; entonces:

2
 1.10 
n= 
 0.05 
= 484 trabajadores

ii) tamaño de muestra según área:


El máximo coeficiente de variación en áreas corresponde a acres en
avena con un CV (y) = 0.44 y como se desea CV (y) = 0.025, entonces:
2
 0.44 
n= 
 0.025 
= 310

De i) y ii) podemos concluir que el tamaño de muestra requerido, será


de n = 484, tamaño determinado por el número de trabajadores

b) El coeficiente de variación para el N° de trabajadores sin empleo y


para un tamaño de muestra de n = 484, es:
y CV ( y ) 3.17
CV ( y )     0.144  14.40%
y n 484
13.- Por muestreo experimental, el valor promedio de una variable
aleatoria va a ser estimado con una varianza V = (0.0005) 2. Los valores
de la variable aleatoria para las primeras 20 muestras se muestran a
continuación. ¿Cuántas muestras adicionales se necesitan?
N° de muestra Valor de la V.A.
1 0.0725
33
Métodos Estadísticos Varela/Llanos/Asnate

2 0.0755
3 0.0759
4 0.0739
5 0.0732
6 0.0843
7 0.0727
8 0.0769
9 0.0730
10 0.0727
11 0.0712
12 0.0748
13 0.0878
14 0.0710
15 0.0754
16 0.0712
17 0.0757
18 0.0737
19 0.0704
20 0.0723

Solución
Sea yi el valor de la variable aleatoria, entonces:
n1 = 20  y 1.4941
i y 2
i  0.11197099
1    yi  
2
 2

s2   yi 
2
  1 0.11197099  (1.4941) 
n1  1  n1  19  20 
 

= 1.8644736 x 10-5
Luego:
s2  2  1.8644736 x105  2 
n 1    7 1    82
v  n1  2.5 x10  20 
y por consiguiente, se necesitarán:
n – n1 = 82 – 20 = 62 observaciones más

34
Métodos Estadísticos Varela/Llanos/Asnate

14.- Los colegios con programas de estudios de cuatro años, fueron


divididos en clases de 4 tamaños diferentes de acuerdo con el número de
matriculados. Las desviaciones estándar de cada clase se muestran a
continuación:
Clases
1 2 3 4
N° de estudiantes < 1000 1000 - 3000 - + de
3000 10000 10,000
S 236 625 2008 10,023
Si conoce los límites de clase pero no los valores de S, ¿Qué también
puede estimar los valores de S usando cifras matemáticas simples?
Ningún colegio tiene menos de 200 estudiantes y el más grande tiene
cerca de 50,000 estudiantes.

Solución
La relación entre el rango (R) y la varianza de la distribución
matemática puede utilizarse para estimar la varianza. Deming (1,960)
dio las siguientes reglas para estimar la varianza dado el rango y si la
forma de la distribución era conocida o supuesta.

Tipo de Desviación Coeficiente de


Media Varianza
Distribuc. Estándar variación
R
Binomial (p) (R) p(1-p)/R2 (1  p) / p
Rectangular (1/2)R R2/12
p(1  p)
0.58
Triangular I (1/3)R R2/18 0.29R
0.71
Triângulo II (2/3)R R2/18 0.24R
0.35
Normal (1/2)R R2/36 0.24R
1/3
R/6

Si asumimos una distribución rectangular en cada estrato, el rango (R) y


la desviación estándar = 0.29 R se dan a continuación:

Tamaño de clase de colegios


1 2 3 4
N° de estudiantes 200 - 1000 - 3000 – 10,000-
35
Métodos Estadísticos Varela/Llanos/Asnate

1000 3000 10000 50000


Rango (R) 800 2,000 7,000 40,000
A) Actual 236 625 2,000 10,023
B) Estimada 232 580 2,030 11,600
(0.29R)

Si asumimos una distribución normal en cada estrato la desviación


estandar será:

Tamaño de clase de colegios


1 2 3 4
N° de estudiantes 200 - 1000 - 3000 – 10,000-
1000 3000 10000 50000
Rango (R) 800 2,000 7,000 40,000
A) Actual 236 625 2,000 10,023
B) Estimada (R/6) 133 333 1,167 6,667
Si asumimos una distribución triángulo en cada estrato la desviación
estándar será:

Tamaño de clase de colegio


1 2 3 4
N° de estudiantes 200 - 1000 - 3000 – 10,000-
1000 3000 10000 50000
Rango (R) 800 2,000 7,000 40,000
A) Actual 236 625 2,000 10,023
B) Estimada (R/6) 192 480 1,680 9,600
Nota. La distribución triángulo es de tipo I y Tipo II

APLICACION DEL MUESTREO ALEATORIO SIMPLE.

Se desea estimar la remuneración promedio de las Trabajadores del


Sector Educación-provincia de Huaraz-con 10 a 20 años de servicios
institucionales a Diciembre de 2007.Determinar:
i) El tamaño de muestra adecuado.
ii) Seleccionar los elementos muestrales
36
Métodos Estadísticos Varela/Llanos/Asnate

iii) Obtener las Estimaciones correspondientes a la población descrita.


Solución
I.- DETERMINACION DEL TAMAÑO DE MUESTRA
ADECUADO.
Asumiendo que la población es grande, debemos aplicar la fórmula
Sgte:
2 2
 ZS   ZS 
no =     Tamaño de muestra preliminar o
 d   %X 
correspondiente al muestreo con REMPLAZO

Donde X y S son el promedio .y la desviación estándar de las


remuneraciones a Diciembre de 1,987; datos que pueden obtenerse en
las tres formas Sgtes:

1.1. EN BASE A DATOS ANTERIORES:


En la Oficina de Planeamiento, según documento interno de trabajo se
tiene que la remuneración promedio de los elementos de la población, a
JULIO de 1,987 fue aproximadamente de:
X J = 3,209 Intis con SJ = 242 Intis
Conocedores que a Diciembre del mismo año el gobierno ha otorgado
aumento de haberes en aproximadamente el 30% de la remuneración
total; el promedio y. la desviación estándar necesarios para determinar
el tamaño de muestra seria:
X D =M (1.30 XJ ) = 1.30 M(XJ) = 1.30(3209) = 4172 Intis
SD = DE (1.30 XJ). = 1.30 DE (XJ) = 314.6 = 315 Intis.
donde XJ : Remuneración a Julio ; M(XJ) :Promedio de las
remuneraciones a Julio.
Luego, el TAMAÑO DE MUESTRA PRELIMINAR para una
seguridad' del 95% (Z=1.96) y una precisión del 5% de la remuneración
promedio (error relativo) sería:
2 2
 1.96 x315   617.4 
n0      9
 0.05 x 4172   208.6 
para una precisión del 3% de la remuneración promedio sería:

37
Métodos Estadísticos Varela/Llanos/Asnate

2 2
 1.96 x315   617.4 
n0       24
 0.03 x 4172   125.16 
para una precisión del 2% de la remuneración promedio sería:
2 2
 1.96 x315   617.4 
n0       55
 0.02 x 4172   83.44 
Ahora, suponiendo que dispongo aproximadamente de una semana para
presentar el informe y que por lo limitado de los recursos económicos,
solo dos personas pueden dedicarse a recolectar los datos; no queda otra
alternativa que asumir la muestra de tamaño n = 24 esto es, con una
precisión o error tolerable del 3%.
NOTA.- Si asumiera el tamaño de muestra n = 55; esto es con un error
tolerable del 2%, el tiempo para presentar el informe sería rebasado.
Veamos:
1 persona como máximo realiza 4 encuestas diarias; luego 55 encuestas
se realizará en 14 días aproximadamente. Sí se emplean dos
encuestadores, se realizarán en 7 días.
Como podemos apreciar sólo el recojo de, datos, abarca la semana
disponible, faltando el procesamiento de datos y la confección del
informe final.
La confrontación del tiempo disponible y el de ejecución de encuesta
me conduce a descartar la precisión del 2% de la remuneración.

I.2.- CRITERIO DEL RANGO


Bajo el supuesto que la población es grande, las observaciones
poblacionales seguirán una distribución normal con:
X = R/2 y S = R/6, donde R = LS - Li
NOTA: Para obtener los límites es conveniente recurrir a algunos
elementos de la población o a personal que trabaja muy cerca de los
individuos de los cuales se requiere información.
En nuestro ejemplo; consultando a profesores comprendidos en nuestra
población, se obtuvo:
Remuneración Mínima: Li = 4,000 soles
Remuneración máxima: Ls = 6,000 soles
Datos, que aproximadamente fueron muy próximos a los
proporcionados por el personal de pagaduría.

38
Métodos Estadísticos Varela/Llanos/Asnate

Luego:
6, 000  4, 000
X   5, 000
2
6, 000  4, 000
S  333
6
Por consiguiente, para una seguridad del 95% (Z = 1.96) y un error
relativo del 3% obtenemos:
2 2
no =  ZS    1.96 x333   19
   
 d   0.03 x5000 
(Tamaño muy próximo al calculado anteriormente)

1.3.- SELECCION DE MUESTRA PILOTO:


La muestra piloto además de servirnos para probar la, bondad o
exactitud de la encuesta principal, sus resultados nos pueden servir para
estimar la varianza poblacional, sobre todo cuando ésta muestra por sí
misma es una muestra aleatoria simple.
Para obtener un tamaño de muestra adecuado se recomienda ajustar la
muestra piloto, mediante la expresión:
S12  2
n 1  
V  n1 
2
Donde; S1 y n1 son la varianza y tamaño de muestra, piloto.
V = (d/Z)2

II.- SELECCION DE OBSERVACIONES MUESTRALES.


Para determinar las observaciones poblacionales que pasan a constituir
la muestra usamos la tabla de números aleatorios. En nuestro ejemplo:
1. Seleccionamos como arranque aleatorio la Fila 15 y Columna
25. Esto es A(15,25)
2. Como el tamaño de población (N = 600) está constituido por
tres dígitos, en la tabla trabajamos con tres columnas; la 25, 26
y 27. Así; nuestra primera observación muestral será la
observación poblacional, con el número 149; la segunda será la
número-186 y así.
3. Al encontrar en la tabla un número superior al tamaño de
población, empleamos cualquiera de los procedimientos que

39
Métodos Estadísticos Varela/Llanos/Asnate

permiten su empleo. Para nuestro ejemplo construimos los


intervalos:
(1) 1 600
(2) 601 1,200
Como el límite superior del segundo intervalo supera al tamaño
poblacional deja de ser útil, reduciéndose nuestro trabajo a restar 600 a
todo número de tres cifras mayor al tamaño poblacional. Así,
obtenemos:

Fila Columnas Observaciones


25-26-27
15 149 X149
16 186 X186
17 782 X782 – 600 = X182
18 767 X767 – 600 = X167
19 702 X702 – 600 = X102

4.- Así, las observaciones poblacionales que pasan a constituir la


muestra (n = 24); esto es, los elementos del marco muestral de los
cuales se requiere información serán:
Observ Muestr X1 X2 X3 X4 X5 X6 X7 X8
ación o al N°
elemen Poblaci X149 X186 X182 X167 X102 X46 X439 X329
to onal N°

X9 X10 X11 X12 X13 X14 X15 X16 X17 X18 X19
X234 X354 X143 X276 X169 X76 X191 X32 X190 X467 X48

X20 X21 X22 X23 X24


X14 X15 X67 X231 X122
III.- ESTIMACIONES
3.1 PUNTUALES:
ˆ
i) Remuneración media: X  x  4, 622.29
ii) Total de remuneraciones:
ˆ
X  N x  600(4, 622.29)  2 '773, 374
40
Métodos Estadísticos Varela/Llanos/Asnate

iii) Varianza y desviación Estándar de las remuneraciones:


Sˆx2  sx2  103,111.87
Sˆ 2  s 2  321.11
x x

3.2.- INTERVALICAS
Para la construcción de los intervalos de confianza para la media y el
total es necesario el cálculo de las varianzas de los estimadores y para
ello se requiere determinar el tipo de muestreo a trabajar.
1) El tipo de muestreo se determina mediante la fracción muestral. Así
en nuestro ejemplo:
f = n/N = 24/600 = 0.04 < 5%
Luego, para obtener las varianzas asumimos el muestreo con reemplazo.
2) Estimador de la varianza del Estimador:
De la media:

ˆ ˆ s 2 103,111.87
V (X )    4296.33
n 24
luego; s  65.55
x

Del total:
Vˆ ( Xˆ )  N 2 ( s 2 / n)  (600) 2 (4296.33)  1546678.800
Luego;
sx  39,327.84
Nota: Al trabajar con los estimadores de los estimadores, sólo
requerimos del tamaño de población; el resto, es información muestral
lo cual constituye una gran ventaja.

Intervalos de confianza:
Para la Media:

Xˆ  t( / 2n1 ) s Xˆ

4,487  x  4758

41
Métodos Estadísticos Varela/Llanos/Asnate

Así, la remuneración promedio de los docentes con 10 a 20 años de


servicio a diciembre de 1987 y con una probabilidad del 95% fluctúa
entre 2’692.004.7 y 2’854,743.3
Nota: Se emplea el coeficiente de confianza t( / 2;n 1) por ser la muestra
menor de 30.

IV.- APLICACIONES
Suponiendo que el 3% de la remuneración se destina al pago de
alimentos del mes vencido, entonces, la disponibilidad promedio para el
próximo mes, aproximadamente fluctuará entre 3,141 y 3,331

1. En una muestra de 40 familias de 6 miembros, se encontró que el


consumo promedio mensual es de 5 kg. con una desviación estándar de
2.2 kg. si se conoce que el total de familias en el sector es de
aproximadamente de 4,000. Determinar con una seguridad del 95% el
número de sacos de arroz necesarios para abastecer el consumo de
dichas familias.
Solución:

A. Estimador del total de kilos de arroz


Xˆ  4, 000(5)  20, 000kg
B. Desviación estándar del estimador:
Como n/N = 40/4,000 = 1% < 5%, entonces aplicamos el muestreo con
reemplazo.
Así,
s2 2(2.2)2
Vˆ ( Xˆ )  N 2  (4, 000)  1'936, 000
n 40
Luego; s  1,391.4 kg
x

C. Estimación Interválica
Xˆ  Z / 2 sx
20,000  1.96 (1391.4)
17,272.86  X  22,727.14 kg

42
Métodos Estadísticos Varela/Llanos/Asnate

El total de kg de arroz consumidos en el mes por familias de 6


miembros, con una seguridad del 95% fluctúa entre 17,272.86 y
22,272.14 kg.
Ahora, como cada saco de arroz contiene 50 kg; el número de sacos
necesarios por mes fluctuará entre 346 y 455 sacos aproximadamente.
Si cada saco de arroz costara 500, entonces, la cantidad total de dinero
que importaría el abastecimiento fluctuará entre 173,000 y 227,500
mensuales.

2.- En un determinado hospital se llevan estadísticas de los recién


nacidos. En una semana nacieron 2,000 niños con una talla promedio de
46 cm. A los siete meses de edad se elige aleatoriamente a 30 de ellos
obteniéndose su talla correspondiente (yi), registrándose también su talla
inicial (xi) a partir de sus fichas de nacimiento. Si los datos son los que
se indican a continuación:

y 5 6 7 5 6 5 5 5 6 7 7 7 5 5 7
i 2 2 3 7 8 4 3 1 3 0 0 1 5 9 1
x 3 4 5 4 4 4 4 3 4 4 5 5 4 4 4
i 8 3 0 5 5 2 0 8 6 8 3 0 0 7 7

5 7 7 6 5 5 5 5 6 5 7 4 5 5 7
8 2 4 3 3 2 6 7 0 8 4 8 2 7 0
4 4 4 4 4 3 4 4 4 4 5 3 3 4 4
4 8 9 6 0 9 2 1 6 4 0 7 9 4 8
Estimar:
a) La talla media de los niños a los 7 meses de edad.
b) El error estándar del estimador.
c) Calcule el intervalo de confianza del 95% para la talla media
de los niños, en base:
c.1 La media muestral
c.2 La razón muestral
Solución:

Cálculos previos

43
Métodos Estadísticos Varela/Llanos/Asnate

y i  y  11391; s  8.1467
 1,833; 2
i y

s 2
y  66.368965;  x  1,329;  x  59, 403;
i
2
i sy  4.2681
sx2  18.217241
a) Talla media de los niños a los 7 meses de edad:
Yˆ  y  1,833/ 30  61.1cm.
b) Error estándar del estimador de la media:
Como n/N < 0.05, se emplea las formulas para las poblaciones
finitas.
c) Intervalo de confianza para la talla media de los niños:
LI: 61.1 – (1.96) (1.48) = 58.1992
LS: 61.1 + (1.96) (1.48) = 64.008
Luego: 58cm  y  64cm.
La talla media de los niños a los 7 meses de haber nacido,
fluctúa entre los 58 y 64cm; con una probabilidad del 95%.
C.2.Intervalo de confianza para la razón de crecimiento de los
niños.
LI: 1.3792 – (1.96) (0.0130)
Luego: 1.352  R  1.4062
LS: 1.3792 + (1.96) (0.0130)
El incremento de la talla de los niños a los 7 meses, con una seguridad
del 95%, fluctúa entre el 35 y 41% con respecto a sus tallas al nacer.
Ni pi qi ci
=n L

N
k 1
k pk qk ck

Donde:
N, denota el tamaño del i-ésimo estrato
pi , denota la proporción poblacional para el i-ésimo estrato
ci , denota el costo por obtener una reservación individual de i-ésimo
estrato.

44
Métodos Estadísticos Varela/Llanos/Asnate

03.- una muestra irrestricta aleatoria de n = 9 registros del hospital es


seleccionada para estimar la cantidad promedio de la deuda sobre N =
484 cuentas abiertas.
Los valores de la muestra para estos nueve registros están listados en la
tabla.
Estime, la cantidad promedio de la deuda, y establezca un limite para
el error de estimación.
Cantidad de
dinero adeudado
y1 33.50
y2 32.00
y3 52.00
y4 43.00
y5 40.00
y6 41.00
y7 45.00
y8 42.50
y9 39.00
Solución:
Es conveniente presentar los datos y cálculos de la muestra
como se indica en la tabla.
Al sumar las cantidades en la columna “y”, obtenemos:
9

y
i 1
i = 368.00

De la columna de y 2 , tenemos
9

y
i 1
i
2
= 15,332.50

Datos y cálculos para el ejemplo


y y2
33.50 1,122.25
32.00 1,024.00
45
Métodos Estadísticos Varela/Llanos/Asnate

52.00 2,704.00
43.000 1,849.00
40.00 1,600.00
41.00 1,681.00
45.00 2,025.00
42.50 1,806.25
39.00 1,521.00
 y 368.00
i y 2
i  15,332.50

Necesitamos estas dos cantidades para calcular Y y S2. Nuestra


estimación de  es:
9

y 1
368.00
y i 1
  40.39
9 9
Para encontrar un límite para el error de estimación, debemos calcular:
2
n 9
 9 
 ( yi  y )2  y    yi  / 9
2
i
 i 1 
S2 = i 1  i 1
n 1 8
= 1 15,332.50  (368)   1 15,332.50  15, 047.11
2

8  9  8
= 35.67
Utilizando la ecuación, obtenemos el límite para el error de estimación.
s2  N  n  35.67  484  9 
2 Vˆ ( y)  2   2  
n  N  9  484 

=2 3.890 = 3.944 = S/ 3.94

4.- Una empresa industrial está interesada en el tiempo por semana que
los científicos emplean para ciertas tareas triviales. Las hojas de control
del tiempo de una muestra irrestricta aleatoria de n = 50 empleados
muestran que la cantidad promedio de tiempo empleado en esas tareas
es de 10.31 horas, con una varianza muestral s2 = 2.1. La compañía
emplea N = 750 científicos. Estime el número total de horas-hombre
que se pierden por semana en las tareas insignificantes y establezca un
límite para error de estimación.
46
Métodos Estadísticos Varela/Llanos/Asnate

Solución:
Sabernos que la población consiste de N = 750 empleados, de los cuales
una muestra aleatoria de n = 50 hojas de control del tiempo fue
obtenida. La cantidad promedio de tiempo que se pierde por los 50
empleados fue y = 10.31 horas por semana. La estimación de  es:
 = Ny = 750(10.31) = 7732.5 horas
A fin de establecer un límite para el error de estimación, aplicamos la
Ecuación, para obtener:
 2.25   750  50 
2/ Vˆ( )  2 (750) 2   
 50   750 
= 2 23, 625 = 307.4 horas.

Por lo tanto la estimación del tiempo total perdido es  = 7732.5 horas.


Estamos razonablemente confiados de que el error de estimación es
menor que 307.4 horas.

5.- La cantidad promedio de dinero  para las cuentas por cobrar de un


hospital debe ser estimada. Aunque no se cuenta con datos anteriores
para estimar la varianza poblacional 2, se sabe que la mayoría de las
cuentas caen dentro de una amplitud de variación de $ 100. Existen N
=1000 cuentas abiertas. Encuentre el tamaño de muestra necesario para
estimar µ con un límite para el error de estimación de B = $ 3.
Solución
Necesitamos una estimación de 2, la varianza poblacional. Ya que la
amplitud de variación es aproximadamente igual a 4 desviaciones (4),
un cuarto de tal amplitud proporcionará un valor aproximado de  y Por
lo tanto,
rango 100
   25
4 4
y  2  (25)2  625
Al usar la Ecuación, obtenemos:
N 2
n
( N  1) D   2

47
Métodos Estadísticos Varela/Llanos/Asnate

B 2 32
Donde D   2.25
4 4
1000(625)
Así, n  217.56
999(2.25)  625

Esto es, necesitamos aproximadamente 218 observaciones para estimar


µ, la media de las cuentas por cobrar, con un límite para el error de
estimación de $ 3.00

6. Los dirigentes del consejo estudiantil en un colegio desean realizar


una encuesta para determinar la proporción de estudiantes que está a
favor de una propuesta de código de honor. Ya que entrevistar a N =
2000 estudiantes en un lapso razonable es casi imposible, determine el
tamaño de muestra (número de estudiantes a entrevistarse) necesario
para estimar p con un límite para el error de estimación de magnitud 13
= 0.05. Suponga que no hay información previa disponible para estimar
p.
Solución:
Cuando no se cuenta con información previa, podemos aproximar los
tamaños de muestra requeridos, estableciendo p = 0.5 en la Ecuación.
Tenemos que:
B2 (0.05) 2
D   0.000625
4 4
Npq
n
( N  1) D  pq
= (2000)(0.5)(0.5) 500

(1999)(0.000625)  (0.5)(0.5) 1.499
= 333.56
Esto es, 334 estudiantes deben ser entrevistados para estimar la
proporción de estudiantes que está a favor de una propuesta de código
de honor, con un límite para el error de estimación de B = 0.5.

7.- Con referencia al Ejemplo, supóngase que además de estimar la


proporción de estudiantes que apoya la propuesta de código de honor,
los dirigentes del consejo estudiantil también desean estimar el número
48
Métodos Estadísticos Varela/Llanos/Asnate

de estudiantes que considera que la organización del consejo estudiantil


funciona de acuerdo a sus necesidades. Determine el tamaño de muestra
combinado que se requiere en una encuesta para estimar p, la
proporción de quienes están a favor de la propuesta de código de honor,
y 11 2, la proporción de los que opinan que el consejo estudiantil
funciona de acuerdo con sus necesidades, con límites para los errores de
estimación de magnitud B1 = 0.05 y B = 0.07. Aunque no se dispone de
información anterior para estimar p2 aproximadamente el 60% de los
estudiantes opinó que el consejo satisfizo adecuadamente sus
necesidades en una encuesta similar llevada a cabo el año anterior.
Solución:

En este ejemplo debemos determinar un tamaño de muestra que nos


permita estimar p, con un límite B1 = 0.05 y p2 con un límite B2 = 0.07.
Primero determinamos los tamaños de muestra que satisfacen cada
objetivo separadamente. Luego, el mayor de los dos será el tamaño de
muestra combinado para una encuesta que satisface ambos objetivos.
Del ejemplo el tamaño de muestra requerido para estimar p1 con un
límite para el error de estimación de B1 = 0.05, fue n = 334 estudiantes.
Podemos usar los datos de la encuesta del año anterior para determinar
el tamaño de muestra necesario para estimar p2. Tenemos que:
B 2 (0.07)2
D   0.001225
4 4
Y por lo tanto, con p2 = 0.60
n= Npq
( N  1) D  pq
= (2000)(0.6)(0.4) 480

(1999)(0.001225)  (0.6)(0.4) 2.68877
= 178.52
Esto es, 179 estudiantes deben ser entrevistados para estimar p 2, la
proporción de N = 2000 estudiantes que considera que el consejo
estudiantil satisface sus necesidades, con un límite para el error de
estimación igual a 0.07. El tamaño de muestra requerido para lograr
ambos objetivos en una encuesta es 334, el mayor de los dos tamaños de
muestra.

49
Métodos Estadísticos Varela/Llanos/Asnate

8.- Una empresa publicitaria está interesada en determinar qué tanto


debe enfatizar la publicidad televisiva en un determinado municipio, y
decide realizar una encuesta por muestreo para estimar el número
promedio de horas por semana que se ve la televisión en los hogares del
municipio. Este comprende dos pueblos, pueblo A y pueblo B, y un área
rural, El pueblo A circunda una fábrica, y la mayoría de los hogares son
de trabajadores fabriles con niños en edad escolar. El pueblo B es un
suburbio exclusivo de una ciudad vecina y consta de habitantes más
viejos con pocos niños en casa. Existen 155 hogares en el pueblo A, 62
en el pueblo B y 93 en el área rural. Analice los méritos de usar
muestreo aleatorio estratificado en esa situación.
Solución:

La población de hogares se ubica en tres grupos naturales, dos pueblos y


un área rural, de acuerdo con su localización geográfica. Entonces la
población dividida en tres estrato, bastante natural, simplemente por
conveniencia administrativa para seleccionar las muestras y para
ejecutar el trabajo de campo. Además, los elementos de cada estrato
deben presentar tendencias similares de comportamiento entre ellos
mismos. Se espera relativamente poca variabilidad en el número de
horas que se ve televisión en los hogares de cada grupo, y este es
precisamente el caso en que la estratificación produce una reducción en
el límite para el error de estimación.
La empresa publicitaria puede desear producir estimaciones
por separado, del número promedio de horas que se ve televisión en
cada pueblo. El muestreo aleatorio estratificado permite estas
estimaciones.
Para la muestra aleatoria estratificada, tenemos N1 =155, N2 =
62 y N3 = 93, con N = 310.

9.- Suponga que se lleva a cabo la encuesta planteada en el ejemplo. La


empresa publicitaria tiene tiempo y dinero suficientes para entrevistar n
= 40 hogares, y decide seleccionar muestras aleatorias de tamaño n1 =
20 del pueblo A, n2 = 8 del pueblo B y n5 = 12 del área rural. (Después
analizaremos la elección de los tamaños de muestras). Se seleccionan
las muestras irrestrictas aleatorias y se realizan las entrevistas. Los

50
Métodos Estadísticos Varela/Llanos/Asnate

resultados, con mediciones del tiempo que se ve la televisión en horas


por semana, se muestran en las tablas. Estime el tiempo promedio que
se ve televisión, en horas por semana, para (a) todos los hogares en el
pueblo A y (b) todos los hogares en el pueblo B. En ambos casos fije un
2 2 2
límite para el error de estimación. Los términos s1 , s2 , s3 en la tabla
son las varianzas muéstrales para estratos 1, 2 y 3, respectivamente:
fueron obtenidos mediante la fórmula:

ni ni

 ( yi j  yi )2
j 1
y
j 1
2
ij  ni yi2
si2  
ni  1 ni  1

Para i = 1, 2, 3 donde yij es la observación j-ésima en el estrato i. Estas


varianzas estiman las correspondientes varianzas verdaderas en los
estratos  12 ,  22 ,  32
Solución:
a) De la tabla y ecuación:
1
yst   N1 y1  N 2 y2  N 3 y3 
N
1
 (155)(33.900)  (62)(25.125)  (93)(19.000)
310
= 27.7
es la mejor estimación del número promedio de horas por semana en
que en todos los hogares del municipio se ve televisión. También,
1 3
 Ni  ni   si2 
V ( y st ) 
N2
N 2
1   
i 1  Ni   ni 
=
1  (155)2 (0.871)(35.358) (62) 2 (0.871)(232.411) (93)2 (0.871)(87.636) 
 
(310)2  20 8 12 

La estimación de la media poblacional, con un límite para el error de


estimación aproximadamente dos desviaciones estándar, está dada por:

yst  2 Vˆ ( y st ), 27.675  2 1.97, 27.7  2.8


51
Métodos Estadísticos Varela/Llanos/Asnate

Entonces estimamos que el número promedio de horas por semana que


se ve televisión en los hogares del municipio es de 27.7 horas. El error
de estimación debe ser menor que 2.8 horas, con una probabilidad
aproximadamente igual a 0.95
(b) Las ni = 8 observaciones del estrato 2 constituyen una muestra
irrestrictamente aleatoria; por ello podemos aplicar las formulas del
capitulo anterior.
Tiempo que se ve televisión en horas por semana

Estrato 1, pueblo A Estrato 2, pueblo B Estrato 3, área rural


35 28 26 41 27 4 49 10 8 15 21 7
43 29 32 37 15 41 25 30 14 30 20 11
36 25 29 31 12 32 34 24
39 38 40 45
28 27 35 34

Cálculos para la tabla


Estrato 1 Estrato 2 Estrato 3
N1 = 20 n2 = 8 n3 = 12
Y1 = 33.900 Y2 = 25.125 Y3 = 19.000
s12  35.358 s22  232.411 s32  87.636
N1=155 N2=62 N3 = 93
Tiempo promedio de ver televisión para el pueblo B, con un límite de
aproximadamente dos desviaciones estándar para el error de estimación,
está dada por:
 N  n2   s22   62  8   232.411 
y2  2   osea 25.1  2   
 N2   n2   68   8 

o sea 25.1  10.1


Esta estimación tiene un límite grande para el error de estimación
2
porque s2 es grande y el tamaño de muestra n2 es pequeño. Entonces la

estimación y st de la media poblacional es bastante buena, pero la

estimación y2 de la media del estrato 2 es deficiente. Si se desea una

52
Métodos Estadísticos Varela/Llanos/Asnate

estimación para un estrato particular, la muestra del estrato debe ser lo


suficientemente grande para proporcionar un límite razonable para el
error de estimación.

10.- Remítase al ejemplo anterior y estime el número total de horas por


semana que las familias del municipio dedican a ver televisión. Fije un
límite para el error de estimación.
Solución:
Con los datos de la tabla:
N y st = 310 (27.7) = 8587 horas
La varianza estimada de Nyst está dada por:
Vˆ ( N y st )  N 2Vˆ ( yst )  (310)2 (1.97)  189.278.560
La estimación del total de la población, con un límite para el error de
estimación, está dada por:

N y st  2 Vˆ ( N y st ) o sea 8587  2 189, 278.560


o sea 8587  870
De esta manera estimamos que el tiempo semanal total que en los
hogares del municipio se ve televisión es de 8587 horas. El error de
estimación debe ser menor que 870 horas.

11.- Una encuesta anterior sugiere que las varianzas de los estratos para
el ejemplo, aproximadamente s2  25,  2  225 y  32  100 .
2 2

Deseamos estimar la media poblacional mediante yst. Seleccione el


tamaño de muestra para obtener un límite para el error de estimación
igual a 2 horas, si las fracciones asignadas son w1 = 1/3, w2 = 1/3 y w3 =
1/3. en otras palabras, se debe tomar un número igual de observaciones
de cada estrato.
Solución:
Un límite para el error de estimación de 2 horas significa que:
2 V ( yst )  2 o sea V(yst) = 1
Por tanto D = 1
En el ejemplo anterior N1 = 55, N2 = 62 y N3 = 93. Por eso:

53
Métodos Estadísticos Varela/Llanos/Asnate

3
Ni2 i2 N 22 12 N 22 22 N32 32

i 1 wi

w1

w2 w3
(155)2 (25) (62)2 (225) (93)2 (100)
  
(1/ 3) (1/ 3) (1/ 3)
= (24,025) (75) + (3844)(675) + (8649) (300)
= 6,991.275
3

N
i 1
i i
2
 N1 12  N 2 22  N 3 32

= (155) (25) + (62) (225) + (93) (100) = 27,125


N2D = (310)2 (1) = 96,100
De la ecuación tenemos que:
3

N  i
2
i
2
/ wi
6, 991.275 6, 991.275
n i 1
   56.7
3
96.100  27.125
N 2 D   N i  i2
123.225
i 1

Entonces el experimentador debe tomar n = 57 observaciones con


n1 = n(w1) = 57(1/3) = 19
n2 = 19
n3 = 19

12.- Una investigación quiso estimar el peso promedio de 90 ratas (50


machos y 40 hembras) que han sido alimentados con cierta dieta. Las
ratas fueron separadas por sexo; por lo que el uso de, muestreo aleatorio
estratificado con dos estratos pareció apropiado. Para aproximar la
variabilidad dentro de cada estrato, la investigadora seleccionó la rata
más pequeña y la más grande en cada estrato y las pesó. Ella encontró
que la amplitud de variación fue de 10 gramos para los machos y 8 para
las hembras. ¿Qué tan grande debió tomarse la muestra para estimar el
promedio poblacional con un límite de 1 gramo para el error de esti-
mación? Suponga que el costo de muestreo fue el mismo para ambos
estratos.
Solución:

54
Métodos Estadísticos Varela/Llanos/Asnate

Denotemos los machos como el estrato 1 y las hembras como el estrato


2. Para usar la Ecuación primero debemos aproximar 1 y 2. La
desviación estándar debe ser alrededor de un cuarto de la amplitud de
variación, suponiendo que los pesos tienen una distribución normal.
Entonces
10 8
1   2.5 y 2   2.0
4 4
De la ecuación:
 
ni = n  N i i 
 2 
 
  N i i 
 i 1 
2
Donde: N
i 1
i i  (50)(2.5)  (40)(2.0)  125  80  205

Entonces:
 
ni = n  N i i 
n
125
 0.61n
 
2

  Ni i
205

 i 1 
 80 
y n2  n    0.39n
 205 
Entonces w1 = 0.61 y w2 = 0.39
Debemos calcular las siguientes cantidades para poder encontrar n:
2

N
i 1
i i
2
 (50)(2.5) 2  (40)(2.0) 2  472.50

B 2 (1)2
D   0.25
4 4
Usando la ecuación tenemos:

55
Métodos Estadísticos Varela/Llanos/Asnate

2
 3 
  Ni  i 
n  i 1 
2
N 2 D   N i  i2
i 1

(205)2
n  16.83
(90)2 (0.25)  472.50
 n1 = n w1 = (17) (0.61) = 10
n2 = nw2 = (17) (0.39) = 7

V.- VARIANZAS MUESTRALES Y SUS ESTIMADORES


PARA MUESTREO SIN REEMPLAZO PARA MUESTREO CON
REEMPLAZO

a) Varianza del Estimador de la media poblacional:


1 L
Sh2
V ( y st ) 
N2
 Nh( Nh  nh )
h 1 nh
L
Sh2
V ( y st )  Wh2
h 1 nh
L 2
S
= W
h 1
h
2 h

nh
(1  f h )

b) Varianza del estimador del total poblacional: v(yst) = v(n yst)

L
S2
V (Yˆst )  N 2 Wh2 h (1  f h )
h 1 nh
L
S2
V (Yˆst )  N 2 Wh2 h
h 1 nh

L
Sh2 L
Sh2
=  Nh ( Nh  nh )
h 1 nh
=  Nh2
h 1 nh

56
Métodos Estadísticos Varela/Llanos/Asnate

c) Estimador de la varianza del estimador de la media poblacional


L
S2
Vˆ ( y st )  Wh2 h (1  f h )
h 1 nh
L 2
2 Sh
V ( y st )  Wh
ˆ
h 1 nh

2 2
Donde sh es el estimador insesgado de S h

d) Estimador de la varianza del estimador del total poblacional


L
S2
Vˆ (Yˆst )  N 2 Wh2 h (1  f h )
h 1 nh
L
S2
Vˆ (Yˆst )  N 2 Wh2 h
h 1 nh

L
Sh2 L
Sh2
=  Nh ( Nh  nh )
h 1 nh
=  Nh2
h 1 nh

Nota: El muestreo sin reemplazo también se le conoce como muestreo


para poblaciones finitas, y al muestreo con reemplazo como muestreo
para poblaciones infinitas no olvidar, que cuando f = n/N es menor del
10% se considera a la población como INFINITA.

VI.- INTERVALOS DE CONFIANZA

ˆst  Z / 2 Vˆ (ˆst )
PARA POBLACIONES FINITAS PARA
POBLACIONES INFINITAS

a) Intervalo de confianza para la media poblacional (u , Y)

57
Métodos Estadísticos Varela/Llanos/Asnate

L
sh2
y st  Z / 2 Wh2 nh
(1  f h )

L
sh2
y  Z / 2 Wh2 nh

b) Intervalo de confianza para el total poblacional (Y)


L
sh2
y st  Z / 2 N Wh2 nh
(1  f h )

L
sh2
Y  Z / 2 N Wh2 nh

PROBLEMAS
1.- Sea la población hipotética de 6 familias (N = 6), clasificadas en N 1
= 3 familias del sector I y N2 = 3 familias del sector II; para las cuales
presentamos los siguientes datos correspondientes al ingreso familiar.
FAMILIAS
DEL SECTOR I DEL SECTOR II
N1 = 3 N2 = 3
Y1i Y2i

58
Métodos Estadísticos Varela/Llanos/Asnate

Y11 = 2 Y21 = 8
Y12 = 4 Y22 = 12
Y13 = 6 Y23 = 16
Y1 = 12 Y2 = 36
Y1  4 Y 2  12
a. Número de estratos: L = 2
L2
b. N  N
h 1
h  N1  N 2  3  3  6

c. Total de ingreso en el estrato: Yh = Yhi


3
En estrato I: Y1   Y1i  Y11  Y12  Y13  2  4  6  12
i 1
3
En estrato II: Y2   Y2i  Y21  Y22  Y23 8  12  16  36
i 1
d. Total Poblacional
L L Nh
Y   Yh  Yhi Y1  Y2  12  36  48
h 1 h 1 i 1

e. Media en el estrato o ingreso medio por sector


Yh
Yh 
Nh
Y1 12
En sector I Y1   4
N1 3
Y2 36
En sector II Y2    12
N2 3
f. Media poblacional o ingreso familiar promedio
Y (Y1  Y2 ) (12  36)
Y    8
N ( N1  N 2 ) 33

ESTIMADORES DEL TOTAL Y LA MEDIA POBLACIONAL


Ejemplo

59
Métodos Estadísticos Varela/Llanos/Asnate

Obtener muestras sin reemplazo de tamaño 2 en cada estrato de nuestra


población hipotética y demostrar que:
E( Yˆst ) = Y y E( y st )  Y
Demostración:
 3
a) N° de muestras en cada estrato: De estrato I  3
 2
 3
De estrato II  3
 2
b) N° de muestras posibles a seleccionar de la población:
 3  3 
    9
 2  2 
c) Muestras y estimadores
Estratos
I II
y1 y2 y1 y2 N1 y1 N1 y 2 Y st y st
2,4 8,12 6 20 3 10 9 30 39 39/6
8,16 24 12 36 45 45/6
12,16 28 14 42 51 51/6
2,6 8,12 8 20 4 10 12 30 42 42/6
8,16 24 12 36 48 48/6
12,16 28 14 42 54 54/6
10 20 5 10 15 30 45 45/6
24 12 36 51 51/6
28 14 42 57 57/6

a)
M 9
E (Yˆst )  Y st P(Yˆst )  39 / 6(1/ 9)  45 / 6(1/ 9)  ...  57 / 6(1/ 9)

= (1/9)(432) = 48
Como Y = Y1 + Y2 = 12 + 36 = 48
Entonces: E(Yˆst )  Y  8 y
60
Métodos Estadísticos Varela/Llanos/Asnate

Por consiguiente, Yˆst es INSESGADO de Y


b)
E ( y st )   y st P( yst )  39 / 6(1/ 9)  45 / 6(1/ 9)  ...  57 / 6(1/ 9)
= (1/9)(432/6) = 8
Como Y = Y/N = 48/6 = 8
Entonces: E( y st )  Y  8 y

Por consiguiente, y st es INSESGADO de Y


Ejemplo:
En el ejercicio anterior, encontrar M = 9 posibles estimadores de
V ( y st ) y demostrar que:

E Vˆ ( y st )   V ( y st )
Demostración
Estratos
I II s12 s22 V ( y st )
2,4 8,12 2 8 15/36
8,16 32 51/36
12,16 8 15/36
2,6 8,12 8 8 24/36
8,16 32 60/36
12,16 8 24/36
4,6 8,12 2 8 15/36
8,16 32 51/36
12,16 8 15/36
2
a) Varianzas muestrales en los estratos sh

sh2  ( yh1  yh 2 ) 2 / 2

En estrato I En estrato II
s  (2  4) / 2  2
2
1
2
s22  (8  12) 2 / 2  8
= (2 – 6)2/2 = 8 = (8 – 16)2/2 = 32
= (4 – 6)2/2 = 2 = (12 – 16)2/2 = 8

61
Métodos Estadísticos Varela/Llanos/Asnate

b) Estimador de la varianza de y st
Se obtiene para cada muestra de tamaño n = 4
Para muestra: (2, 4, 8, 12) obtenemos:
2 2
S
Vˆ ( y st )  Wh2 (1  f h ) h
h 1 nh
 N1  ( N1  n1 ) s1  N2  ( N2  n2 ) s2
2 2 2 2

=     
N N1 n1  N  N2 n2

=  3  (3  2) 2   3  (3  2) 8  15
2 2

   
3 3 2 6 3 2 36

y de esta manera obtenemos todos los valores de la columna Vˆ ( y st )


c) Valor esperado de Vˆ ( y st )
M
E Vˆ ( y st )   Vˆ ( y st )P Vˆ ( y st ) 

= (1/9) (15/36 + 51/36 + … +15/36)


= 30/36
d) Varianza de y st
2
N h  nh Sh2
V( y st ) =  wh2
h 1 N h nh

N1  n1 S12 N  n S2
= W12  W22 2 2 2
N1 n1 N 2 n2

= (3/6)2 (3-2/3) + (3/2)2 (3-2/3) (16/2) = 30/36


De c) y d) concluimos que Vˆ ( y st ) es INSESGADO de V ( y st )

MUESTREO ESTRATIFICADO PARA PROPORCIONES:


62
Métodos Estadísticos Varela/Llanos/Asnate

NOTACIONES
Ah : N° de unidades del estrato “h” que poseen el atributo.
ah : N° de unidades muestrales del estrato “h” que poseen el atributo.
Ph : Proporción en la muestra en el estrato “h”: P h = ah / nh

ESTIMADORES Y VARIANZAS MUESTRALES


1. Estimador de la proporción poblacional:
L
Pˆst  pst   N h ph / N
h 1
2. Varianza del estimador de la proporción poblacional:
Para poblaciones finitas Para poblaciones infinitas
1 N h2 ( N h  nh ) PhQh
L
V ( pst )  2
N
 ( N  1)n
h h

1 L N h2 PhQh
V ( pst ) 
N2
 n
h
3. Estimador de la varianza del estimador de la proporción poblacional
2 1
L
N ( N  n )P Q
V ( pst )  s p 2  h h h h h
ˆ
N h1 nh
L 2
W PQ
Vˆ ( pst )   h h h
h 1 nh
L
Wh2 PhQh (1  f h )

h 1 nh
Nota: No olvidar que:

VARIANZA DE LA PROPORCIÓN MUESTRAL EN EL


ESTRATO “h”

Para muestreo sin reemplazo Para muestreo sin


reemplazo

63
Métodos Estadísticos Varela/Llanos/Asnate

PhQh ( N h  nh ) PhQh
V ( ph )  V ( ph ) 
nh nh  1 nh
ESTIMAR DE LA VARIANZA DEL ESTIMADOR DE LA
PROPORCIÓN DEL ESTRATO “h”
PhQh ( N h  nh ) PhQh
V ( ph )  V ( ph ) 
nh nh  1 nh
Ejemplo:
1.- Supongamos que tenemos los siguientes datos correspondientes a
familias que usan cierto detergente.
a. Encontrar P, Ph
b. Extraer muestras de tamaño n1 = 2, n2 = 3 de los estratos I y II y
estimar Ph
Solución:
Datos:
Estratos
I II
Y11 = 1 Y21 = 1
Y12 = 0 Y22 = 0
Y13 = 1 Y23 = 1
Y14 = 0 Y24 = 1
Y15 = 0 Y25 = 1
2/5 4/5

a. Encontrar P, ph
5

Y 1i
2
P1    40%
N1 5
5

Y 2i
4
P2    80%
N2 5
La proporción poblacional es:

64
Métodos Estadísticos Varela/Llanos/Asnate

10

Y 1i
6
P   60%
N1 10
Que se puede obtener también como:
L

N P h h
N1 P1  N 2 P2 5(2 / 5)  5(4 / 5)
P    6 /10  60%
N N 10

3.- Sean las observaciones, para n1 = 2 y n2 = 3, las que se dan en el


cuadro siguiente:
N1 n2
y11 = 1 y21 = 1
y12 = 0 y22 = 0
y23 = 1
p11/2 p2 = 2/3
Proporciones muestrales en cada estrato
n1

y 1i
1
p1    50%
n1 2
n2

y 2i
2
p2    66.7%
n2 3
P1 = p1 = 50% = 1/2
P2 = p2 = 66.7% = 2/3

3. Estimador de P:

pst =
N h ph

(5)(1/ 2)  (5)(2 / 3)
 7 /12
N 10
Por consiguiente: P  pst  7 /12  58.3%

65
Métodos Estadísticos Varela/Llanos/Asnate

4.- Dada la siguiente población con dos estratos, seleccionar muestras


de n1 = 2 y n2 = 2 desde cada estrato y demostrar que:
E(pst) = P
Demostración
1) Número de muestras posibles:
 3  3 
    3x3  9 Muestras
 2  2 
2) Las muestras son de tamaño n = n1 + n2 = 4
3) Estimadores de P.
I II
1 1
0 0
1 0

Estratos
I II p1 p2 pst
1, 0 0.5 0.50
1, 0 1, 0 0.5 0.5 0.50
0, 0 0.0 0.25
1, 0 0.5 0.75
1, 1 1, 0 1.0 0.5 0.75
0, 0 0.0 0.50
1, 0 0.5 0.50
0, 1 1, 0 0.5 0.5 0.50
0, 0 0.0 0.25
4.50

Luego, E(pst) = ( 1/9) (4.5) = 0.50


Pero, p = (2+1)/6 = 1/2 = 0.50 y por consiguiente p st es
INSESGADO de p.

5.- Según datos obtenidos en el último censo agropecuario el número de


cabezas de ganado vacuno de acuerdo a la extensión de Hras de tierras
de cultivo y números de establos se distribuyen de acuerdo a lo indicado
en el cuadro siguiente. Así mismo en el figuran el número de establos en
66
Métodos Estadísticos Varela/Llanos/Asnate

el presente año. Si se desea estimar el número total de cabezas de


ganado en el presente año, así como su varianza tomando una muestra
de 500 establos.
a) Determine la afijación de la muestra según:
Afijación de Neyman, proporcional al número total de cabezas de
ganado en cada estrato.
b) calcular las varianzas para cada afijación
Cuadro N° 1
Número de cabezas de ganado obtenido desde un censo previo y N°
total de establos en cada estrato para el presente año.

Estrato Censo N° promedio Desv. N° total


h N° total de de cabezas Estandar de
establos de ganado estimada establos
Nh sh en el
yh
presente
año
Nh
I: 0 – 15 625 3.91 4.5 635
II: 16 – 30 564 10.38 7.3 570
III: 31 – 50 476 14.72 9.6 475
IV: 51 – 75 304 21.99 12.2 303
V: 76 - 100 86 27.38 15.8 89
Total Nh = 2055
N = 2072

a) Afijación de Neyman Afijación Proporcional

Nh sh Nh
nh  (500) nh  (500)
 Nh sh N

Afijación proporcional al total


Yh'
nh  (500)
 Yh'
67
Métodos Estadísticos Varela/Llanos/Asnate

Las afijaciones así como los cálculos correspondientes para su


obtención se encuentran contenidos en el Cuadro N° 2
Calculo de las afijaciones de una muestra de 500 establos

A
fijacione
' s (nh)
Estrat
N h' ss' Y h  Nh' y h
o Proporcion
Proporcion al al total
Neyman
al
Yh'
I 2812.5 2444 84 153 50
II 417.2 5854 125 138 120
III 4569.6 7007 138 115 144
IV 3708.8 6685 112 73 137
V 1358.8 2355 41 21 49
TOTA 16566.9 24345 500 500 500
L

b) Para encontrar la varianza para cada afijación, reemplazamos el


tamaño de muestra que corresponde a cada una de ellas en la formula
general de varianza del estimador del total para muestreo estratificado.
N 2s2  N  n 
V (Yˆst )   h h  h h 
nh  N h 
Así, varianza para la afijación de Neyman:
(635)2 (4.5)2  635  84  (570)2 (7.3)2  570  125 
V (Yˆst )     
84  635  125  570 

(475)2 (9.6)2  475  138  (303)2 (12.2)2  303  112 


    
138  475  112  303 

68
Métodos Estadísticos Varela/Llanos/Asnate

(89)2 (15.8)2  89  41 
    84374 + 108136 + 106902 + 76960 +
41  89 
26011 = 402356

Las varianzas de cada estrato de acuerdo a esta afijación, así como la


varianza para el estimador del total se encuentran en el cuadro N° 3
Varianza para la afijación proporcional al total

(635)2 (4.5)2  635  50  (570)2 (7.3)2  570  120 


V (Yˆst )     
50  635  120  570 

(475)2 (9.6)2  475  144  (303)2 (12.2)2  303  137 


    
144  475  137  303 

(89)2 (15.8)2  89  49 
    150447 + 113908 + 100624 + 54645 +
49  89 
18137 = 437761
Cuadro N° 3
Varianzas del N° total de cabezas de ganado de acuerdo a las diferentes
afijaciones
Estrato Neyman Proporcional Proporcional a Y
'
h

I 84347 40509 150447


II 108236 95088 113908
III 106902 137038 100624
IV 76960 142679 54645
V 2011 71944 18137
402356 487258 437761
V (Y )

6.- Se ha diseñado una encuesta para estimar la proporción de familias


que poseen radios a transistores, en dos ciudades diferentes.
Estimaciones del número total de familias, la proporción que posee
69
Métodos Estadísticos Varela/Llanos/Asnate

radios y el costo de muestrear un familia sin dadas en cuadro N° 1


tratándose cada ciudad como estrato y sumiendo un muestreo aleatorio
con reemplazo en cada estrato; obtener el tamaño optimo de muestra y
afijarla a los estratos si el costo total (excluyendo gastos generales) se
fija en: 20,000 dólares.

Cuadro N° 1
Estimaciones del N° total de familias, proporción con radios a
transistores y costo de muestrear una familia en cada ciudad.

Ciudad h N° de familias Proporción con Costo de


Nh radio Ph muestreo Ch
I 140 000 0.10 2.25
II 30 000 0.25 1.00
170 000

Afijación para un costo fijo:


CN h PhQh / Ch
nh =
N h PhQh / Ch
Los cálculos correspondientes figuran en cuadro N° 2
Tamaño de muestra: n = n1 + n2 = 7,369 + 3419
Luego el tamaño óptimo de muestra es n = 10,788
Las cuales cubren el costo establecido o especificado.
Observamos: C = n1 c1 + n2 c2 = 7369 (2.25) + 3419(1) = 19,999.25 =
20,000
Cuadro N° 2
Cálculos para la fijación optima

H
PhQhCh N h PhQhCh PhQh / Ch Nh PhQh / Ch nh
PhQh
I 0.450 63 000 0.20 28 000 7 369
II 0.4330 12 990 0.4330 12 990 3 419

70
Métodos Estadísticos Varela/Llanos/Asnate

75 990 10 788

7.- Diferencia los siguientes pares de términos:


a) Error de muestreo y error no de muestreo
b) Muestreo probabilístico y muestreo a juicio
c) Precisión y exactitud
d) Unidades de muestreo, elementales y primarias
Solución:
a) Error de Muestreo.- Las estimaciones de un muestreo se
ven afectadas inevitablemente por el error de muestreo, el
cual debe ser recorrido y cuantificado; la magnitud de
este error deberá ser objeto de permanente análisis con
el fin de minimizarlo.

Error de no Muestreo.- Son los errores que se cometen


fuera del muestreo es decir en cálculo, tabulaciones, etc.
b) Muestreo Probabilístico.- Es un proceso en donde cada
elemento de la población tiene una misma probabilidad
de ser seleccionada (probabilidad perfectamente
conocida e igual).

Muestreo a juicio.- Es el proceso por el cual la


selección de la muestra depende del “juicio humano” y
no de la rigurosa aplicación de la teoría de las
probabilidades, una muestra obtenida por este método
no es representativa.

c) Precisión.- La precisión es la obligación o necesidad de


hacer una cosa.

Exactitud.- La exactitud es la puntualidad y fidelidad


en la ejecución de una cosa.

d) Unidad de Muestreo.- Las unidades de muestreo:

71
Métodos Estadísticos Varela/Llanos/Asnate

 Unidad elemental .- Es el elemento o conjunto


de elementos sobre la cual se requiere
información.
 Unidad de registro.- Es un elemento común o
grupo de elementos por los cuales se registra
información.
 Unidad de Análisis o de estudio.- Es la unidad
por la cual se realiza el análisis.

8.- Se extrae una muestra aleatoria de 36 elementos de una población,


¿Cuántos elementos debe contener otra muestra de la misma
población, para que el error estándar de la media de la segunda
muestra sea 2/3 del error estándar de la media de la primera muestra?
Solución:
x
n 1  36 x 
2
1

n1
 2
n2  ?  x    x
 3
1 2

 2  2
 x    x  (n 2 ) 1 / 2    (n 1 ) 1 / 2
 3  3
2 1

n 2  (6 x3) / 2
2

n 2  81 Rpta.
9.- Se extrae dos muestras aleatorias de una misma población y si el
error estándar de una de ellas es k veces el error estándar de la
media de la otra ¿Cuál es la relación entre los tamaños de ambas
muestras?
Solución:
x
n1  n 2  ? x  1
n1
 x  k. x
1 2
 .n 1 1 / 2  k. .n -1/2

72
Métodos Estadísticos Varela/Llanos/Asnate

n1 1 n1 1
  Rpta.
n2 k2 n2 k2
10.- Una firma constructora de canales desea estimar la residencia
promedio de las barras de acero utilizadas para dichas
construcciones. ¿Qué tamaño de muestra se requiere para
garantizar que habrá un riesgo solo del 0.001 de sobrepasar un
error de 5Kg o más en la estimación? La desviación estándar de
la resistencia de este tipo de barras se estima en 50 libras.
Solución:
  50 lb.

E  Z 1 x z . .......... .....(*)
n
0.4536
E  50 lb.( )  22.68 kg
1 lb,
  0.001 1 -   0.999

Por tablas: Z1 2  3.085


En (*):

5
3.08522.68  n  195.8 196 Rpta.
n
11.- Se desea investigar sobre el número de unidades defectuosas en
4000 cajas y la proporción de cajas que contienen unidades
defectuosas, se realiza una encuesta preliminar de 80 cajas,
obteniéndose el siguiente resultado:

№ de unidades 0 1 2 3 4 5 10 12
defectuosas
№ de cajas 37 16 8 8 4 2 2 13
examinadas

73
Métodos Estadísticos Varela/Llanos/Asnate

Determine el tamaño de muestra que con las dos condiciones: un


error del 6% para el promedio; y un error del 12% para la
proporción con una confianza del 95% para ambos casos.
Solución:
N = 4000
E1=0.06
E2= 0.12
n=80
80
P  0.02  5% sin reemplazo
4000
Y  1.725
S 2  7.95
95%  Z  1.96
Z 2 SN
n
d 2 N  S2 Z 2
Z 2 S 2y N
n1  2
d 1 N  Z 2S 2y
(1.96) 2 (7.95)(4000)
n1 
(0.06) 2 (4000)  (1.96) 2 (7.95)
n 1  2718 Rpta.
Z 2 S 2y N
n 2

d 22 N  Z 2S 2

Z 2S 2y N (1.96) 2 (7.95)(4000)
n2  
d 22 N  Z 2S 2y (0.12) 2 (4000)  (1.96) 2 (7.95)
n 2  1386 Rpta.

12.- El departamento de tránsito y transporte requiere estimar la


proporción de conductores con experiencia de 1 año o menos,
que puede clasificarse como conductores descuidados ¿Cuál será

74
Métodos Estadísticos Varela/Llanos/Asnate

el tamaño de muestra para que los resultados estén dentro de un


2%, con una confianza del 95%?. Se espera observar que
aproximadamente ¼ del total de los conductores sea de cuidado,
si el número de conductores a investigar fuera de 10000. ¿Cuál
será el tamaño de muestra?
Solución:
1
P  0.25
4
Z 2 PQ (1.56) 2 (0.26)(0.75)
a) n    1800.75  1801
d2 (0.02) 2
n  1801 Conductore s, un experiment o de un año o menos.
b) Si N  10000 Población finita M.C.R.
PQ (0.25)(0.75)
n 
 d  2
PQ   0.02 
2
(0.25)(0.75) 
       
 2  N   1.96  10000 
n  1526 Conductore s con experienci a de un año o menos.

Z 2 NPQ (1.96) 2 (10000)(0.25)(0.75)


n   1526 Conductore s
  
Nd 2  Z 2 PQ 
(10000)(0.02) 2  (1.96) 2 (0.25)(0.75)
2
Z PQ
n0   1800.75
d2
n0 1800.75
n 
 n 0   1800.75 
1  N  1  10000 
   
n  1526

13.- Una muestra de fierro para construcción de canales es tomada al


azar para la estimar el grosor promedio, el error debe de hallarse
dentro de un rango de 0.30 mm., con un nivel de confianza del
95.¿ Cuál deberá ser el tamaño de muestra? Suponga que el error
estándar es 1.2 mm.
Solución:
75
Métodos Estadísticos Varela/Llanos/Asnate

Z 2S (1.96) 2 (1.2) 2
n   61.4656
E2 (0.3) 2
n  62 Rpta.
14.- ¿Cuántos alumnos deben encuestarse para estimar el número
total de lapiceros anuales que consumen los 1500 alumnos de la
especialidad con una precisión de 500 lapiceros y una seguridad
del 95%?. En una encuesta preliminar se obtuvo que la desviación
estándar fuera de 3 lapiceros.
Solución:
N  1500
Z 2  95%  1.96
i  3  i2  9
d  500
N 2 Z 2S 2
n
d2
(1500) 2 (1.96) 2 (9)
n
(500) 2
n  311.16  312

n 312
  5%
N 1500
312
 n  258.278
 312 
1  
 1500 
n  259 Rpta.

15.- Se tiene 120 hoteles en la ciudad de Huaraz estratificados según


su categoría se requiere estimar el promedio el promedio y la
varianza proporcional de sus ingresos en miles de soles al día,
los datos se muestran en el siguiente cuadro:
76
Métodos Estadísticos Varela/Llanos/Asnate

Estrato h Nh nh Xh S2h Nhxhi


I. categoría 30 6 5 2 150
II. categoría 40 8 3 4 120
III. categoría 50 10 2 6 100

Solución:
N 
X1t   w h x h   X1t   h ( x h ) 
370
 N  120
X1t  3.083
1   Nh  2 520 520
V (X1t )prop   ( h i2 h)   (S h)  
n  Nn  (24)(120) 2880
V (X1t )prop  0.18

16.- La siguiente información correspondiente a las edades de 5 niños


6,8,10,12,14:
a) Extraiga muestras tamaño 2 con y sin reemplazo.
b) Encuentre la medida de cada muestra y determine E(x), V(x),
E(S2), usando el resultado del punto a.
c) Encuentre la distribución de frecuencias para la media
caso(a) y para la varianza poblacional, grafique cada caso.
d) Encuentre los estimadores posibles de la varianza de la media
muestral.
Solución:

6 8 10 12 14
6 6,6 6,8 6,10 6,12 6,14
8 8,6 8,8 8,10 8,12 8,14
10 10,6 10,8 10,10 10,12 10,14
12 12,6 12,8 12,10 12,12 12,14

77
Métodos Estadísticos Varela/Llanos/Asnate

14 14,6 14,8 14,10 14,12 14,14

Diagonal superior
Diagonal inferior
Para muestra de tamaño 2:
Con reemplazo
Nn=52=25  todos
Sin reemplazo:
Considerando el orden:
5!
P25   20 parte diagonal superior e inferior
(5  2)!
Sin considerar el orden:
5!
C 52   10 diagonal superior
(2!)(3!)

17.-Con el fin de evaluar la viabilidad de aserrar y procesar una


plantación total de 2000 árboles de cedro, se extrae una muestra
aleatoria simple de 200 árboles encontrándose que 120 de ellos
estaban listos para su proceso forestal 57 estaban deteriorados y
23 no tenían aún las condiciones para ser procesados.
a) Estimar el número de árboles disponibles para ser
procesados y los límites de confianza de la estimación con
un 95% de confianza.
b) Se puede considerar que la mayoría de árboles de la
plantación son susceptibles de ser procesados de
inmediato.
Solución:
a)  yi 120

78
Métodos Estadísticos Varela/Llanos/Asnate

n 200
f    0.1
N 2000
a  120 
  NP  N   2000   1200
n  200 
Límites de confianza usando Z  1.96
 pq N 
L.C( )  NP   NZ (1 - f )   
 n 2n 
  (0.9)(0.6) (0.4)  2000 
L.C( )  1200  2000(1.96)    400 
  2000  
L.C( )  1333.8243; 1066.1756
 L.C( )  1334 :1066 árboles de cedro disponible s

b) 
L.C(P)  P  Z 1 - f  pq  n   1 2n 

L.C(P)  0.6  1.96( (0.9)(0.6)(0.4)(12000)  1 400 
L.C(P)  (0.667; 0.533)

18.-En una zona forestal se cree que la proporción de árboles de


cedro es de 40%, cual sería el error de muestreo que se esperaría
alcanzar si deseáramos estimar dicha proporción seleccionando
una muestra simple aleatoria de 500 árboles de la zona, sabiendo
que el total de árboles de la zona forestal es de 10.000. ¿Cuál
sería la interpretación que debería darse a dicho resultado?
Solución:
N=10000; n=500
P=0.4  Q=0.6

79
Métodos Estadísticos Varela/Llanos/Asnate

 ( N - n)   PQ 
V ( P)   N  n 
  
 (10000  500)   (0.4)(0.6) 
2

V ( P)     
 10000   500 
V ( P)  0.000456
Luego el error estandar sería :
S(e)  (0.000456)  0.021

La probabilidad con que una muestral de 500 árboles obtengamos


estimadores de P comprendidos entre los límites PKS(p),
K=1,2,...

Límite
PKS(p) Probabilidad
Superior Inferior
0.41(0.021) 0.421 0.379 68%
0.42(0.021) 0.442 0.358 95%
0.43(0.021) 0.463 0.337 99.7%

Por lo tanto que aproximadamente el 68% de muestras


estimaciones sufre la proporción de árboles de cedro en la zona
(P=∆/N) hechas por nuestras simples aleatorias de 500 árboles,
estarán comprendidas entre 42% y 37.9% asumiendo la
posibilidad de realizar muestras repetidas.

19.- En una ciudad de 16000 hogares se tomó una muestra aleatoria


simple de 1000 familias dichas familiares fueron visitadas y se
encontraron los resultados siguientes:

80
Métodos Estadísticos Varela/Llanos/Asnate

Número
Tipo de Familia
Hogares Personas
IMIGRANTES: 766 2442
- Propietarios de vivienda 350 1177
- Inquilinos 416 1265
NATIVOS DEL PAIS: 234 881
- Propietarios de su 57 245
vivienda 177 636
- Inquilinos
Total 1000 3323

Solución:
a) Proporción de familias nativas:
a 234
P   0.234  23.4%
n 1000
 pq   1000  0.766 
V ( P)  (1 - f)    1   
 N   16000  1000 
V ( P)  0.0001682
El error estándar será :
S(P)  0.0001682  0.013

b) Proporción de las familias nativas -inquilinos:

d1 177 177
P1     0.298
n1 416  177 593
n1 n
Como se conoce N 1 , reemplazam os f 1  por f 
N N
p1q1 p1q1  1   (0.298)(0.702) 
V(P)  (1 - f 1 )  V(P)  (1 - f)  1    
n1 n1  6  593 

81
Métodos Estadísticos Varela/Llanos/Asnate

V ( P )  0.0003312
El error estándar será :
S(P)  0.0003312  0.0182
c) El tamaño medio de una familia inmigrante:

Yi 2442
Y1     3.188
n1 766
Como no se conoce , reemplazam os f 1 por 1 16
(1 - f1 ) S12 (1  f)S12
V (Y1 )  
n1 n1
 (17.785  (2442) 2 )   1 
Donde : S12       13.072
 766   (766  1) 

 1  13.072 
V (Y )  1     0.016
 16  766 
Error estándar será :
S(Y)  0.016  0.1265
El coeficiente de variación es :
S(Y)  0.1265 3.188 
CV(Y)  (100)     3.97%
Y  100 
 N
d) Y1    Y1  16(245)  3920

Varianza estimada es:

82
Métodos Estadísticos Varela/Llanos/Asnate

N(1 - f)S12
V (Y1 )  donde :
n1


S   Y1 
 Y1    1  
2

  
(215) 2  1 
 
2 2
  (n  1)  
1053
 1000  999 
1
n
 
 1  0.994 
V (Y1 )  (16000) 2 1     238540.8
 6  1000 
Su error estándar será :
S(Y)  238540.8  488.41
S(y) 488.41
La C.V(y) es : C.V(y)  ( )(100)  12.46 Rpta.
y.100 3920

20.-Se desea realizar una encuesta familiar en una gran ciudad para
estimar la proporción de familias que poseen ciertos atributos,
para las principales características, el valor de Pi=Ai/N se espera
oscile entre el 30% y el 70% ¿Cuál deberá ser el tamaño de
nuestra necesaria para estimar los parámetros siguientes con un
error estándar no mayor al 3%?
a) La proporción global de P
b) Las proporciones individuales de P 1 para las familias.
c)
Clase Rango de ingresos anuales
1 De menos de 5000
2 De 5000 a menos de 10 000
3 De 10 000 a más

d) La diferencia entre las proporciones (P i-Pj) para cada para de


clase de familias según sus ingresos anuales.
Las estadísticas de la ciudad sobre distribuciones de ingresos
indican que las proporciones de familias según las tres
clases de ingresos definidos anteriormente son: 50%, 38% y
12% respectivamente.
83
Métodos Estadísticos Varela/Llanos/Asnate

Solución:
a) La proporción global P.
Si 130% P≤70% asumiremos que P=0.50 pues en éste valor
se esperaría el máximo error estándar(pesimista), además si
S(p) ≤0.03 la varianza deseada sería V0=(0.05)2
consideramos que el valor 1/N, es muy pequeño y se omite.
Entonces:
(0.5)(0.5)
n  278 Deberían ser encuestada s
(0.03)2
b) Para estimar las proporciones individuales P i:

Rango de
Clase Pi (1/Pi) N=(PQ/V0Pi)
ingresos
1 De <5000 0.50 2 556
2 De 5000 a 0.38 2.6316 732
3 <100000 0.12 8.333 2317
De 10000 a más

Luego: n=Max[PQ//V0Pi]=2.317 serán necesarios visitar.

c) Las diferencias entre las proporciones (P i-Pj)

Pi - Pj [(1/Pi) – (1/Pj)] n=(PQ/V0) [(1/Pi) – (1/Pj)]


P1 – P2 4.6316 1288
P1 – P3 10.3330 2873
P2 – P3 10.9649 3048

Luego: el máx. n= máx(PQ/V0) [(1/Pi) – (1/Pj)]


n= 3048.

21.- A fin de estimar la proporción de apoyo que dan los 10 000


empleados de una fábrica a una circular emitida por la gerencia ,
se enviará un cuestionario a una muestra al azar de empleados;
se cree que dicho apoyo fluctuará entre 10% y 60%.

84
Métodos Estadísticos Varela/Llanos/Asnate

a) Encuentre el error estándar del estimador que se esperaría


lograr enviando el cuestionario a 400 empleados.
b) ¿Cuántos cuestionarios beberán ser remitidos para que el error
estándar del estimador, no supere el 2%?.
d) Determine el tamaño de muestra necesaria para que el
coeficiente de variación del estimador sea menor al 10% en
cuanto se estimará con dicho coeficiente de variación de 250
se desea estimar a la proporción verdadera.
Solución:
a) El error estándar del estimador que se espera lograr
enviando el cuestionario a 400 empleados:

  pq 
S ( p )  1 - f   si p  0.1
  n 
 400   (0.10)(0.90)  
 S(p)  1   
 10000   400 
 S(p)  0.0147

en tal caso el error estándar fluctuará entre 1.5%


Si p  0.5 (el error estándar máximo esperado)
 400   (0.5)(0.5)  
S(p)  1   
 10000   400  
S ( p )  0.0245

En tal caso el error estándar fluctuará entre 2.5%


b) Asumiendo un apoyo del 50% por ser el de mayor varianza:

85
Métodos Estadísticos Varela/Llanos/Asnate

 
 n0  Z 2 PQ PQ PQ PQ
n   n0    
 n0  d 2
d
2
V0 S ( P)2
 1  N    
   Z
(0.5)(0.5)
n0   625
(0.02) 2
625
n  588 cuestionarios
 625 
1  
 10000 

86
Métodos Estadísticos Varela/Llanos/Asnate

MUESTREO SISTEMÁTICO

Partimos de una población de tamaño N, y agrupamos sus elementos en


n zonas (filas) de tamaño k(N=nk). Podríamos representar la población
como sigue:
i\j 1 2 3  j  k

1 u11 u12 u13  u1 j  u1k

2 u 21 u 22 u 23  u2 j  u 2k
     
i u i1 ui 2 ui 3  u ij  uik
     
n u n1 un2 u n3  u nj  u nk
A continuación se muestra los elementos de la tabla anterior de
izquierda a derecha empezando por la primera unidad de la primera fila
y pasando a la primera unidad de la fila siguiente cuando se agota
cualquier fila. Tendremos la siguiente estructura:
i \ j1 2 3  j …k

1 u1 u2 u3  u j  uk
2 u k 1 u k 2 u k 3  u k  j  u k  k
3 u 2 k 1 u 2 k  2 u 2 k 3  u 2 k  j  u 2 k  k
     
i u ( i 1) k 1 u (i 1) k  2 u (i 1) k 3  u (i 1) k  j  u (i 1) k  k
     
n u ( n 1) k 1 u ( n 1) k  2 u ( n 1) k  3  u ( n 1) k  j  u ( n 1) k  k

Para extraer una muestra de tamaño n se elige al azar una unidad en la


primera zona, y para seleccionar las n-1 unidades restantes para la

87
Métodos Estadísticos Varela/Llanos/Asnate

muestra se toma en cada zona la unidad que ocupa el mismo lugar


dentro de su zona que el que ocupaba la primera unidad seleccionada
para la muestra al azar en la primera zona es la tercera, se elegirán las n-
1 unidades restantes para la muestra tomando la tercera unidad de cada
zona. Las muestras sistemáticas así obtenidas (columnas de la tabla
anterior) suelen denominarse muestras 1 en k.

La probabilidad de seleccionar cualquier muestra será la probabilidad de


elegir la unidad que la originaria en la primera fila por muestreo
aleatorio simple, es decir, 1/k. Por tanto, el muestreo sistemático
proporciona muestras equiprobables. Por otro lado, la probabilidad que
tiene cualquier unidad de la población (de N unidades) de pertenecer a
la muestra (de tamaño k) es k/N=k/nk=1/n.; por lo tanto, el muestreo
sistemático es un tipo de muestreo con probabilidades iguales. Las
muestras del espacio muestral pueden representarse como sigue:

u~1   u1 , u1 k ,, u1n 1k 



u~ j   u j , u j  k ,, u j n1k 

u~k   u k , u k  k ,, u k n 1k 
El muestreo sistemático extiende la muestra a toda la población,
recoge el posible efecto de estratificar debido al orden en que figuran las
unidades de la población (cada fila se puede considerar como un
estrato), permite la consideración de conglomerados en la población
(cada columna se puede considerar como un conglomerado), es fácil de
aplicar y comprobar.

No representa problemas de cálculo algebraico y no precisa distinción


entre aleatoria, la selección sistemática equivale a un muestreo aleatorio

88
Métodos Estadísticos Varela/Llanos/Asnate

simple. Por ultimo, el error de muestreo suele ser menor que en


muestreo aleatorio simple o incluso que en estratificado.
Por otro lado, hay que tener presente la posibilidad de aumento de
la varianza si existe periodicidad en la población y el problema teórico
que se presenta en la estimación de varianzas debido a que no hay
independencia en la selección de unidades en las distintas zonas, ya que
la unidades extraídas en cada zona dependes de la seleccionada en la
primera zona. En general solo hay selección aleatoria para la primera
unidad de la muestra

ESTIMADORES Y VARIANZAS

Se utilizarán el estimador lineal insesgado de Horwitz Thompson por


que el muestreo sistemático es sin reposición. En general sabemos que:
n
Yi
ˆHT   Estima insesgadamente el parámetro poblacional:
i i
n
   Yi .
i

En muestreo sistemático la población i de selección de un elemento


poblacional cualquiera para la muestra será igual a la probabilidad de
que resulte elegida la zona que lo contiene, esto es,
 i  1 k  n (nk )  n N , luego podemos utilizar la forma general
del estimador de Horwitz Thompson para asegurar lo siguiente:
n 1
Yi
ˆ   estima insesgadamente el parámetro poblacional
i j 1
k
n 1
   Yij .
i j
Si aplicamos la expresión anterior a las estimaciones del total, media,
proporción y total de clase poblacionales, se obtienen los siguientes
estimadores:

89
Métodos Estadísticos Varela/Llanos/Asnate

n 1 X ij n 1 n
Total    X  Yij  X ij  Xˆ     k X ij  N  X ij  Nx j
i j 1 1 i 1 n n i 1
k N

X ij
X ij n
1 n 1
Media    X  Yij   Xˆ   nk   X ij  x j
N
 i j 1 1 n i 1
nk
k

Aij
Aij n 1
1 n
proporción    P  Yij   Pˆ   nk   Aij  Pˆ j
nk i j 1 1 n i 1
k
n 1 A n
1 n
Totaldeclase    X  Yij  Aij  Aˆ     k Aij  N  Aij  NPˆ j
ij

i j 1 1 i 1 n n i 1
k N

Hemos demostrado que un estimador lineal insesgado para la media


poblacional es la media de la muestra sistemática obtenida, para la
proporción poblacional es la proporción de la muestra sistemática, para
el total poblacional es N veces el total de clase maestral. Es decir,
podemos escribir lo siguiente:
 Total  Xˆ  Nx j

 Media  Xˆ  x j
 proporción  Pˆ  Pˆ j
 Totaldeclase  Aˆ  NPˆ j
VARIANZAS DE LOS ESTIMADORES
Definimos la cuasivarianza entre las k muestras posibles o cuasivarianza
intermuestral como:

90
Métodos Estadísticos Varela/Llanos/Asnate

S bs2 
1 n k
 x j  X 2
k 1 i j
Y la cuasivarianza dentro de las muestras o cuasivarianza intramuestral
como:
2
S ws 
1 n k
 X ij  x j 2
N k i j
Con lo que la descomposición de la suma de cuadrados para el análisis
de la varianza poblacional permite escribir lo siguiente
2 2 2

 X  X    X ij  x j    x j  X   N  1S 2  N  k S ws2  k  1S bs2


n k n k n k

ij
i 1 j 1 i 1 j 1 i 1 j 1
     
 N 1S 2 ( N  k ) S ws
2
( k 1) Sbs2

A partir de la tabla del análisis de la varianza para la población que se


presenta a continuación. Puede calcularse los errores de los estimadores.
Fuente Grados de Cuadrados
Suma de cuadrados
variación libertad medios

Entre n k 2
S bs
 ( x  X )
k-1 2
muestras
i j
n k
Dentro de
muestras
N-k  ( X  x )
i j
2
S bs
2

n k
total
k-1+(N-k) =
N-1  ( X  X )
i j
2
S ws
2


V Xˆ  V x j   1  f  bs ,
2
S
n
 
V Xˆ  V Nx j   N 2V x j   N 2 1  f  bs
2
S
n

91
Métodos Estadísticos Varela/Llanos/Asnate

   1 k
k j
 
1 n k
nk i j
1 n k
N i j
 2
 1 k

V Pˆ  V Pˆ j   Pˆ j  P   Pˆ j  P   Pˆ j  P  PQ   Pˆ j Qˆ j
2 2

k j

     1 k
   
 
n k
1 k
V Aˆ  V NPˆ j  N 2V Pˆ j  N 2  Pˆ j  P N  Pˆ j  P  N 2  PQ   Pˆ j Qˆ j 
2 2

k j i j  k j 

Un concepto interesante en muestreo sistemático es el coeficiente de


correlación intramuestral w , que mide la interrelación entre las
unidades dentro de las muestras. Lógicamente, esta interrelación debe
ser lo mas pequeña posible, ya que en el muestreo sistemático interesa
la heterogeneidad intramuestral, con la finalidad de que una única
muestra sistemática represente lo mejor posible a toda la población.
Para que una muestra sistemática aspire a ser fiel espejo de toda la
población ha de ser heterogénea, y la interrelación entre sus unidades ha
de ser baja. Por lo tanto, inicialmente parece lógico que interesen
valores muy pequeños del coeficiente de correlación intramuestral. La
expresión matemática de  w es la siguiente:

2 X ij  X X zj  X 
k n

i z
w 
j
,
N n  1 2
2

 X ij  X   var ianzapobla cional


1 k n
 
2

nk j i

La varianza de los estimadores pueden expresarse en funciones de w .


Para la medida tenemos:
2 N 1 S 2
V x j   1  n  1 w   1  n  1 w 
n N n

 2
V Xˆ  V Nx j   N 2V x j   N 2 1  n  1 w   N N  1 1  n  1 w 
n
S2
n

92
Métodos Estadísticos Varela/Llanos/Asnate

 
V Pˆ j 
PQ
n

1  n  1 w  V Aˆ  N 2 PQ 1  n  1 w 
n
Según esta expresión, la precisión del muestreo sistemático puede
analizarse en función del coeficiente de correlación intramuestral, de tal
modo que la precisión máxima se produce para  w  1 /( n  1) , y la
mínima para w  0 , igualándose la precisión del muestreo

sistemático con la del muestreo aleatorio simple para  w  0 . De esta


forma, para valores de  w entre  1 /( n  1) y 0, el muestreo
sistemático es mas precisó que el aleatorio simple, y para valores de
 w entre 0 y 1, el muestreo sistemático es menos preciso que el
aleatorio simple. Por lo tanto, en cuanto a precisión, convienen valores
negativos del coeficiente de correlación intraconglomerados w .

RELACIÓN ENTRE MUESTREO SISTEMÁTICO Y


MUESTREO ALEATORIO SIMPLE

El muestreo sistemático se ideo con la finalidad de mejorar el muestreo


aleatorio simple pero habrá ocasiones en que esta mejora es máxima. Se
2
demuestra mas supera la cuasivarianza intramuestral S ws a la
2
cuasivarianza poblacional S el muestreo sistemático más gana e
precisión al muestreo simple.

El párrafo anterior puede interpretarse diciendo que le muestreo


sistemático es más preciso que el aleatorio simple cuando la
variabilidad dentro de muestras es superior a la coincide con la del
2 2
aleatorio simple cuando S ws = S , es decir, cuando la variabilidad
dentro muestras es similar a la variabilidad dentro de las unidades de la
población, y esto se da cuando la disposición de los elementos en la
población es aleatorio.
RELACIÓN ENTRE MUESTREO SISTEMÁTICO Y
MUESTREO ESTRATIFICADO

93
Métodos Estadísticos Varela/Llanos/Asnate

En el muestreo sistemático puede considerarse cada zona de k


elementos consecutivos a partir del primer como un estrato ; es decir se
puede dividir la población en n estratos constituidos cada uno de ellos
por una finalidad de la tabla (k unidades ) del cuadro en que hemos
representado los elementos de al población numerados
consecutivamente.

1 j k

1 X1 Xj Xk
2 X 1 k X jk X k k
   
i X 1 ( i 1) k X j  ( i 1) k X k  ( i 1) k
   
n X 1 ( n 1) k X j  ( n 1) k X k  ( n 1) k
Obtener una muestra sistemática seria entonces seria entonces
equivalente a obtener une muestra estratificada con la finalidad con
unidades por estrato. debe tenerse en cuenta ,sin embargo ,que en el
muestreo estratificado aleatorio la selección se efectúa
independientemente en cada estrato ,mientras que en el muestreo
sistemático todos los elementos seleccionados ocupan el mismo lugar
o numeró de orden dentro de cada zona de k elementos , con la que no
hay aleatoriedad de selección .además ,seria conveniente que a las zonas
sistemáticas de k elementos cada una (estratos) sean lo mas
homogéneas posible dentro de ellas y heterogéneas entre ellas .estas
clasificaciones de los elementos de la población en n filas de k
unidades cada una origina la siguiente tabla del análisis de la varianza
poblacional:

F de V G.L. + de Cuadr. Cuad. Med.


n k
Entre estratos n 1  ( X
i j
i  X )2 2
S bst

94
Métodos Estadísticos Varela/Llanos/Asnate

n k
Dentro de estratos N n  ( X
i j
ij  X i )2
2
S wst

n k
Total n  1  ( N  1)  N  1  ( X ij  X j ) S2
i j

Si definimos la cuasivarianza entre la n estratos posibles, o el


cuasivarianza intraestratal como:
1 n k
2
S bss   ( X i  X ) 2
n 1 i j
Y la cuasivarianza dentro de los estratos o cuasivarianza intraestratal
como:

1 n k
  ( X ij  X i ) 2
2 2
S wss
N n i j
Tenemos:

n k n k n k

 ( X ij  X ) 2   ( X ij  X i ) 2   ( X i  X ) 2  (N  1)S 2 (N  n)S wst2  (n  1)Sbst2


i 1 j 1 i 1 j 1 i 1 j 1

( N  1)S 2 ( N  n) S wst
2
(n  1) S bst
2

Tenemos entonces que la varianza de la media puede expresarse como:

 h i
n
1
i n
S2 1  1 n
V Xˆ  V X st   Wh2V X h  Wi 2V X i    2 1  f i   i  2 1   S i2 
L n

ni n  k  i

N n 2
2

 X ij  X i   n 2 k  X ij  X i   S wst  1  f 
1  1 n 1 k 1 n k 2
S wst
1   
2

n2  k  i k 1 j i j Nn n

95
Métodos Estadísticos Varela/Llanos/Asnate

( N  n) S wst
2

Si definimos el coeficiente de correlación intraestratal  wst como el


coeficiente de correlación lineal entre las desviaciones respecto de las
medias de los estratos de todos los pares de valores que están en la
misma muestra sistemática, su expresión puede calcularse de la
siguiente forma:

 X ij  X i X Zj  X z  k n
1 k n
 n  j i z
k   2 X ij  X i X zj  X z 
covX ij ; X zj   2 j i z
 wst   
nn  1k  1S wst2
1 k n
X ij  X i 2  
k n
1
  ij i
2
X  X
N j i 1 N j i 1

( N  n) S wst
2

Se demuestra que la varianza del estimador de la media en función de


 wst y S wst tiene la forma siguiente:


V  Xˆ  V X  j  1  f  wst 1  n  1 wst 
2
S
n
Y lo mismo se calculará las varianzas del resto de los estimadores en
función del coeficiente de correlación intraestratal  wst .
La precisión máxima, que evidentemente se da cuando el error de
muestreo es cero V X   0, se produce si n  1
j wst  1 , luego
se puede asegurar que la precisión máxima si:

V X j   0   wst  
1
n 1
La precisión mínima, que evidentemente se da cuando la varianza es
máxima, se produce si  wst  1 (valor máximo de  wst que será el

que efectivamente hace máxima V X j  ), luego se puede asegurar que


PRECISÓN MÍNIMA   wst  1 . Por otra parte:

96
Métodos Estadísticos Varela/Llanos/Asnate

 wst  0  V X j   1  f 
2
S wst
n
Como lo que el muestreo sistemático coincide en precisión con el
muestreo aleatoria independiente en cada estrato. De esta forma,  wst
es en cierta forma una medida de la falta de aleatoriedad en la selección
de unidades para la muestra en las distintas zonas sistemáticas (filas o
estratos).

ESTIMACIÓN DE LA VARIANZA
No podemos decir que en muestreo sistemático haya un método directo
para la estimación de varianzas a partir de una muestra sistemática.
Tenemos las siguientes situaciones:
a.  próximo a cero o S
2
ws  S2
Si el coeficiente de correlación intramuestral se aproxima a cero puede
suponer la población y si S ws  S la precisión del aleatorio simple y
2 2

el estratificado coinciden, con lo que la estimación de ka varianza puede


realizarse con la misma expresión que en muestreo aleatorio simple, es
decir:
Sˆ 2
V  x   (1  f )
ˆ
n
Siendo Ŝ 2 la cuasivarianza de la muestra sistemática
b. st próximo a cero

Si st se aproxima a cero se puede utilizar el muestreo sistemático


como muestreo estratificado considerando cada zona sistemática como
un estrato y seleccionando una muestra estratificada con una unidad por
estrato. La razón de esta utilización es que la precisión del muestreo
sistemático se iguala con la del muestreo aleatorio estratificado para
st =0. En la practica, lo que se hace es mezclar antes de la selección,
las 2k unidades de dos zonas en una única zona, con lo que se
transforman las n zonas de k unidades cada una en n/2 zonas de 2k
unidades cada una (si n s impar, para la zona que queda suelta se repite
97
Métodos Estadísticos Varela/Llanos/Asnate

aleatoriamente un elemento de la muestra). Con este método se


transforman las n zonas de k unidades de 2k unidades. Con ello se
dispone de dos unidades muéstrales por zona. Aplicando las formulas de
muestreo estratificado tenemos:

n n n
Sˆ 2 2  2 
2
x  x 2 2 1  f
Vˆ xst   Wh2 1  f h  h    1  f  h1 h 2  x  xh 2 
2 2
 2
2
h1
h nh h  n  2 n h

c. Ni  ni st están próximos a cero:


En este caso utilizaremos alguno de los métodos especiales generales
para la estimación de varianzas. Concretamente podemos utilizar el
método de las muestras interpenetrantes, que se utiliza cuando tenemos
un conjunto de dos o más muestras, elegidas con el mismo esquema de
muestreo (independientes o no) y tales que cada una proporcione una
estimación válida del parámetro que se pretenda estimar con el mismo
error de muestreo. Si las muestras son independientes es fácil obtener un
estimador in sesgado de la varianza del estimador. Para aplicar el
método de las muestras interpenetrantes al muestreo sistemático
supongamos que en vez de elegir una muestra sistemática de tamaño n
para un solo valor j, ≤ j ≤ k, es decir, con un solo arranque aleatorio,
obtenemos t muestras de tamaño n/t utilizando t arranques aleatorios.
Estas muestras pueden considerarse independientes, ya que la elección
del arranque es aleatoria en la primera zona sistemática.

Podemos formar un estimador combinado de la media poblacional


basado en las medias de la t muestras (cada media muestral es un
estimador insesgado de la misma media poblacional) definido como:

1 t
xc   xt
t 1
Siendo el estimador in sesgado de su varianza mediante la aplicación
del método de las muestras interpenetrantes:

98
Métodos Estadísticos Varela/Llanos/Asnate

1  t 2 t 2
Vˆ xc  
1 t 2
t t  1 i
x tx 2
 x x  
1 t 2
 i c t t  1  i i i c  t t  1 i xi  xc2
    
La fórmula puede multiplicarse también por (1-f) En particular para t =
2 tenemos:
x x x x   x  x  x  x 
2 2 2

xc  1 2  Vˆ xc   x12   1 2   x22   1 2   1 2


2  2   2  4

Se observa que al aumentar el número de arranques aleatorios,


manteniendo el mismo tamaño de muestra, la precisión obtenida se
aproxima a la del muestreo aleatorio simple.

RELACIÓN ENTRE MUESTREO SISTEMÁTICO Y POR


CONGLOMERADOS
En el muestreo sistemático puede considerarse cada columna de n
elementos como un conglomerado; es decir, se puede dividir la
población en k conglomerados constituidos cada uno de ellos por una
columna de la tabla (n unidades). Obtener una muestra sistemática sería
entonces equivalente a obtener una muestra por conglomerados de
tamaño l.

1 j k

1 X1 Xj Xk 2

X 1 k X jk X k k
   
i X 1 ( i 1) k X j  ( i 1) k X k  ( i 1) k
   
n X 1 ( n 1) k X j  ( n 1) k X k ( n 1) k

PROBLEMAS RESUELTOS
99
Métodos Estadísticos Varela/Llanos/Asnate

1.- En un proceso de fabricación de automóviles se trata de analizar la


producción de piezas en serie de trece robots. Para ello se controlaron
las piezas en de trece robots en la primera hora de su funcionamiento y
se obtuvo la siguiente distribución
Nº de 1 2 3 4 5 6 7 8 9 10 11 12 13
robots
Nº de 5 5 4 2 5 4 5 4 3 4 4 3 2
piezas
producidas

Con la finalidad de estimar el numero de piezas defectuosas en el


proceso de fabricación, se realiza un muestreo sistemático 1 en 5, es
decir, se selecciona una de cada cinco piezas, para pasar a continuación
la primera pieza del segundo robot hasta que se agoten sus piezas, y así
sucesivamente hasta que se agoten todas las piezas de todos los robots.
Suponiendo que la primera pieza producida por cada robot es defectuosa
y que todas las demás son correctas, se pide lo siguiente:

a) Calcular la varianza del estimador de la producción de piezas


defectuosas producidas por los robots y el valor del coeficiente de
correlación intramuestral. ¿Existirá ganancia en presión respecto de
un muestreo irrestricto aleatorio con fracción de muestreo del 20%?
¿Por qué? Cuantificarla. realizar la tabla del análisis de la varianza
para la producción total.
b) Estimar l varianza para cada muestra sistemática posible según
nuestro procedimiento de muestreo. ¿Con qué muestra sistemática
nos quedaremos que presente mejor a toda la producción? ¿Existirá
ganancia en precisión si se estima las varianzas utilizando
estatificación? Dar la estimación de la proporción de piezas
defectuosas producidas por los robots.
Solución:

Si definimos una variable dicotomica A a la que asignamos el valor


1 para las piezas defectuosas y el valor de 0 para las piezas
correctas, y clasificamos las 50 piezas en la 10 filas de 5 piezas
100
Métodos Estadísticos Varela/Llanos/Asnate

cada una (muestreo sistemático 1 en 5) siguiendo el orden del


enunciado del problema, tendremos la tabla
1 0 0 0 0 1/5
1 0 0 0 0 1/5
1 0 0 0 1 2/5
0 1 0 0 0 1/5
0 1 0 0 0 1/5
1 0 0 0 0 1/5
1 0 0 0 1 2/5
0 0 1 0 0 1/5
0 1 0 0 0 1/5
1 0 0 1 0 2/5
6/10 3/10 1/10 1/10 2/10 13/50

A continuación, se construye la tabla del análisis de la varianza


para la población (producción total) utilizando Ecxel. Como
estamos clasificando los datos en 5 grupos (columnas), utilizaremos
una variable G, que clasificara los valores de A (ceros o unos) por
grupos (por columnas). Introducimos los valores de g en columnas
de la hoja de cálculo de Excel y elegimos Análisis de varianza de
un factor en la opción Análisis de datos del menú Herramienta,
rellenando su pantalla de entrada como indica en la Figura presenta
los resultados.

101
Métodos Estadísticos Varela/Llanos/Asnate

Con la notación que utilizamos habitualmente, la tabla ANOVA


será:

Grado
Fuent s de
Sumas de Cuadrados Cuadrados Medios
e Libert
ad
n k _ _

Entre
k-1=5-
1=4
i
j ( x j  X ) 2  1.72 S bs2  1.72 / 4  1.43

n k _

 (X
N-
 x j ) 2  7.9 S ws  7.9 / 45  0.1755
2
Dentr
k=50- ij
o i j
5=45

n k _

  ( X ij  X j ) 2  9.62S  9.62 / 49  0.1963


N- 2
Total 1=50-
1=49 i j

Conocida esta tabla, pueden realizarse ya todos los cálculos. La


varianza del estimador de la proporción puede calcularse como:

    n  S BS  1  0.43
2 2
ˆ ˆ S BS
V P  V PJ  1    (1  f )  1    0.0344
 N n n  5  10

102
Métodos Estadísticos Varela/Llanos/Asnate

La varianza para el estimador del total de clase será:

    
2
S
V Aˆ  V NPˆJ  N 2V PˆJ  N 2 (1  f ) BS  50 2 * 0.0344  86
n

Del valor de la varianza puede deducirse el valor del coeficiente de


correlación intramuestral a través de la fórmula
2
V x J   (1  ( N  1)   ) .Tenemos:
n
49
0.1963
0.0344  50 (1  (10  1)       0.0875
10
Se observa un valor de  muy cercano a cero. Lo que indica que el
muestreo sistemático va a tener una precisión muy cercana a la del
aleatorio simple en la estimación de la proporción de piezas
2 2
defectuosas. Esto concuerda con el hecho S y S ws también tienen
2 2
valores muy cercanos. Concretamente S = 0.1963 > S ws =0.1755, lo
que indica que es mas preciso el muestreo aleatorio simple. La varianza
del estimador de la proporción en el muestreo aleatorio simple es ((1-
1/5)0.1963)/10 = 0.0157, lo que indica que la ganancia en precisión del
aleatorio simple será (0.0344-0.0157)/0.0344 = 54.3%.

Dado el valor del coeficiente de correlación intramuestral, muy cercano


a cero, podemos estimar varianzas mediante la formula del muestreo
aleatorio simple. Se tiene:

6  6 
ˆQˆ 1  
     
2
S P 10 10
Vˆ Pˆ1  1  f  1  (1  f ) 1 1  1   1
1
 0.0213
n n 1  5 10  1

103
Métodos Estadísticos Varela/Llanos/Asnate

3  3
ˆ ˆ ˆ 1  
   1  10  10 
2
S PQ
Vˆ Pˆ2  1  f  2  (1  f ) 2 2  1   1  0.0186
n n  1  5  10  1

1  1
ˆ ˆ ˆ 1  
  P Q  1  10  10 
2
S
Vˆ Pˆ3  1  f  3  (1  f ) 3 3  1   1  0.008
n n  1  5  10  1

   
Vˆ Pˆ4  Vˆ Pˆ3  0.008
2  2
ˆ ˆ ˆ 1  
   1  10  10 
2
S PQ
Vˆ Pˆ5  1  f  5  (1  f ) 5 5  1   1  0.0142
n n  1  5  10  1

Según estos resultados las muestras más precisas son la tercera y la


cuarta
También podemos estimar la varianza a partir del muestreo
estratificado, agrupando las 10 filas (estratos) de la población en grupos
de 2, y considerando cada 2 filas como un estrado del que
seleccionamos 2 unidades para la muestra. Tendremos:

 1 f 1  0.2
 
n/2
Vˆ Pˆ1  2  x  xh 2   (1  1) 2  (1  0) 2  (0  1) 2  (1  0) 2  (0  1) 2  0.032
2
h1 2
n h 10

  1 f 1  0.2
 
n/2
Vˆ Pˆ2  2  x  xh2   (0  0) 2  (0  1) 2  (1  0) 2  (0  0) 2  (1  0) 2  0.024
2
h1 2
n h 10

 
Vˆ Pˆ3  0.008(0  1) 2  0.008  Vˆ Pˆ4  
Vˆ Pˆ   0.008(1  0)
5
2

 (1  0) 2  0.016
Las mejores según el método del muestreo estratificado también
resultan ser la tercera y la cuarta, y además coinciden en varianza con el

104
Métodos Estadísticos Varela/Llanos/Asnate

método anterior. Para las restantes muestras se observa ganancia en


presión del método de estimación utilizando la formula del muestreo
aleatorio simple. La proporción estima de de piezas defectuosa
producidas será la derivada de la 3ª o 4ª muestra, esto es
Pˆ  Pˆ3  Pˆ4  1 / 10 ; es decir que estima 10% de producción
defectuoso

2.- Una manzana de casas de una ciudad contiene 36 hogares


numerados del 1 al 36. Los hogares con ingresos mensuales superiores a
1500 soles son las que tienen los números 3, 5-7, 11-13, 15-16, 20-22,
25-26, 28 y 30-34.
a) Se trata de estimar la proporción de hogares con sueldo mensual
superior a 1500 soles utilizando muestre sistemático. Comparar la
precisión de una muestra sistemática 1en 4 con una muestra aleatoria
simple del mismo tamaño para estimar la proporción de hogares con
sueldo mensual superior a 1500 soles. Justificar la respuesta en
función del valor del coeficiente de correlación intramuestral y en
función de la cuasivarianza intramuestral.
b) Halle el tamaño de la muestra necesaria para estimar la proporción
de viviendas en las que los ingresos mensuales son superiores a 1500
euros para un error de muestreo de 16 centésimas. Hallar ese mismo
tamaño para muestreo aleatorio simple y comentar el resultado.
Solución:
Si definimos una variable dicotómica A, a la que asignamos el valor 1
para los hogares en que los ingresos mensuales superan los 1500 soles y
el valor de 0 para el resto de los hogares, y clasificamos los 36 hogares
en 9 filas de 4 viviendas cada una(muestreo sistemático uno en 4)
siguiendo el orden del enunciado del problema, tendremos la siguiente
tabla:

0 0 1 0 ¼
1 1 1 0 ¾
0 0 1 1 ½
1 0 1 1 ¾
0 0 0 1 ¾

105
Métodos Estadísticos Varela/Llanos/Asnate

1 1 0 0 ½
1 1 0 1 ¾
0 1 1 1 ¾
1 1 0 0 ½
5 5 5 5 5
9 9 9 9 9

Para calcular la varianza del estimador sistemático de la proporción


hacemos:

1  5 5   5 5   5 5   5 5  

2 2 2 2
ˆ
V P                   0
4  9 9   9 9   9 9   9 9  
También podemos calcular la varianza del estimador de la proporción
como

 1 k
k j 1
20  20  1  5 4 5 4 5 4 5 4 
V Pˆ  PQ   Pˆ j Qˆ j  1        0
36  36  4  9 9 9 9 9 9 9 9 

A continuación se construye la tabla de análisis de la varianza para la


población (Producción total) utilizando Excel. Como estamos
clasificando los datos en 4 grupos (columnas), utilizamos una variable
G, en columnas de la hoja de cálculo de Excel y elegiremos análisis de
varianza de un factor en la opción Análisis de datos del menú
Herramientas.

106
Métodos Estadísticos Varela/Llanos/Asnate

Por lo tanto, la tabla del análisis de la varianza para la población es la


siguiente:

107
Métodos Estadísticos Varela/Llanos/Asnate

Grados de
Fuente Sumas de Cuadrados Cuadrados Medios
Libertad

n k _ _
Entre k-1=4-1=3 
i
 (x j  X )2  0
j
S bs2  0 / 3  0

n k _ 2
S ws  8.88 / 32  0.277
  ( X ij  x j ) 2  8.88
N-k=36-
Dentro
4=32
i j

n k _
Total
N-1=36-
1=35  i
 ( X ij  X j ) 2  8.88
j
S 2  8.88 / 35  0.254

Conocida esta tabla pueden realizarse ya todos los cálculos. Por


ejemplo, la varianza del estimador de la proporción también podría
calcularse como:

ˆ  
ˆ  n  S bs2
V P  V Pj  1    1  f 
S bs2  1  0
 1    0
 N n n  49
Del valor de la varianza puede deducirse el valor del coeficiente de
correlación intramuestral a través de la formula:
2
V (x j )  (1  (n  1)  )
n
Tendremos:
35
0.254
36 1 1
0 (1  (9  1)   )         0.125
9 8 n 1
Estamos ante el caso de máxima precisión del muestreo sistemático, ya
1
que la varianza es nula, o lo que es lo mismo,    .
n 1

108
Métodos Estadísticos Varela/Llanos/Asnate

2 2
Este hecho concuerda con los valores que toman S y S ws .

Concretamente S
2
 0.254  S ws
2
 0.277 , lo que indica que es
más preciso el muestreo sistemático que el aleatorio simple.
La varianza del estimador de la proporción en el muestreo aleatorio
simple es (1 - 1/4) * 0.254/9  0.021 .
Para resolver la segunda parte del problema consideramos ahora cada
una de las 9 zonas (filas) como un estrato de 4 unidades. Tenemos
entonces dividida la población en 9 estratos de 4 unidades cada uno, de
modo que la muestra sistemática consta de una unidad por estrato que
de forma general no es elegida aleatoriamente dentro del mismo. Esta
clasificaron de los elementos de la población en 9 filas y 4 unidades
cada una origina una tabla del análisis de la varianza que se puede
calcular con Excel.
Como estamos clasificando los datos en 9 filas (estratos), utilizamos las
variables G5 a G13 , que recogen los valores de las 9 filas. A
continuación elegimos análisis de varianza de un factor en la opción
análisis de datos del menú herramientas.

109
Métodos Estadísticos Varela/Llanos/Asnate

El cuadro de análisis de la varianza por estrato es entonces el siguiente:


Grados de
Fuente Sumas de Cuadrados Cuadrados Medios
Libertad
n k _ _

Entre n-1=9-1=8   (x
i j
j  X ) 2  1.388 S bs2  1.388 / 8  0.1735

n k _

 (X  x j ) 2  7.5 S ws  7.5 / 27  0.2777


2
Dentro N-n=36-9=27 ij
i j

n k _

 (X  X j ) 2  8.888S  8.888 / 35  0.254


2
Total N-1=36-1=35 ij
i j

110
Métodos Estadísticos Varela/Llanos/Asnate

Calculamos ahora el valor del coeficiente de correlación  st como


sigue:
k n
2 ( X ij  X i )( X zj  X z )
j i z
st 
n(n  1)(k  1)S wst2
2  1 3 1 1 3 1
  (0  )(1  )  (0  )(0  )  ...  (1  )(0  )   0.125
9 * 8 * 3 * 0.277  4 4 4 2 4 2
Para calcular el tamaño de la muestra necesario para cometer un error de
muestreo igual a 0.16 despejamos n en la expresión que define la

varianza de la proporción en función de  st tenemos:


  S2  n  0.277
V Pˆst  1  f  wst (1  (n  1) st )  0.16 2  1   (1  (n  1)(0.125))
n  36  n
n5

Para calcular el tamaño de muestra anterior en muestreo aleatorio


simple despejamos n en la expresión que define la varianza de la
proporción de ese tipo de muestreo. Tenemos:

 
V Pˆst  1  f 
S2  n  0.254
 0.16 2  1   n8
n  36  n
Obviamente el tamaño de muestra necesario para cometer el mismo
error de muestreo es mayor en muestreo aleatorio simple que en
muestreo sistemático, ya que en este problema el muestreo sistemático
es más preciso que el muestreo aleatorio simple.

RECOMENDACIONES Y SUGERENCIAS
111
Métodos Estadísticos Varela/Llanos/Asnate

Las muestras sistemáticas son de extracción y ejecución conveniente.


En la mayoría de estudios sobre poblaciones artificiales y poblaciones
naturales pudieron compararse favorablemente en lo que a la preedición
respecta con las muestras aleatorias estratificadas. Sus desventajas son
que pueden dar una precisión mediocre cuando se presenta una
periodicidad insospechada, y que no se conoce aún un método confiable
para estimación de V Ysy  a partir de los datos de la muestra.
A la luz de estos resultados podemos recomendar el muestreo
sistemático en las situaciones siguientes.

1. Cuando el ordenamiento de la población es esencialmente


aleatorio o contiene a lo mas un estratificación débil. Aquí, el
muestreo sistemático se usa por conveniencia y se esperan
pocas ganancias de precisión. Se cuenta con estimaciones
muéstrales de error que son razonablemente insesgadas.

2. cuando se emplea una estratificación con numerosos estratos y


se toma una muestra sistemática independiente en cada estrato.
Los efectos de la periodicidades ocultas tienen tendencia a
neutralizar en esta situación y puede obtenerse una estimación
del error que se sabe es una sobreestimación. En forma
alternativa, podemos usar la mitad de los estratos y tomar dos
muestras sistemáticas, con inicios aleatorios independientes en
cada estrato. Este método da una estimación insesgada del
error.

3. para unidades conglomerados de sub muestreo. En este caso


puede obtenerse una estimación casi insesgada o insesgada del
error de muestreo en la mayoría de las situaciones practicas.

4. para muestrear poblaciones que tienen una variación de tipo


continuo a condición de que no se requiera regularmente una
estimación de error del muestreo. Si se hace una serie de

112
Métodos Estadísticos Varela/Llanos/Asnate

encuestas de ese tipo, será suficiente una verificación ocasional


de los errores de muestreo.

Observación

El método tal como se ha definido anteriormente es sesgado si N


n
no es entero, ya que los últimos elementos de la lista nunca pueden ser
escogidos. Un modo de evitar este problema consiste en considerar la
lista como si fuese circular (el elemento N+1 coincide con el primero)
y:

 Sea k el entero más cercano a N ;


n
 Se selecciona un número al azar m, entre 1 y N;
 Se toma como muestra los elementos de la lista que consisten
en ir saltando de k elementos en k, a partir de m, teniendo en
cuenta que la lista es circular

VENTAJAS RESPECTO AL MUESTREO ALEATORIO SIMPLE

1. Es más fácil sacra una muestra y a menudo, hacerlo sin


cometer errores. Esta es una ventaja particular cuando la
extracción se hace en el área. Aunque la extracción se haga en
una oficina este método, puede ahorra mucho tiempo.

2. Intuitivamente, el muestreo sistemático parece ser más preciso


que el aleatorio simple. En efecto, estratifica la población en n
estratos, que consisten de las primeras k unidades, las
segundas k unidades, etc. Por lo tanto, podemos esperar que la
muestra sistemática sea tan preciso como la muestra aleatoria
estratificada correspondiente con una unidad por estrato.

113
Métodos Estadísticos Varela/Llanos/Asnate

GLOSARIO
Cuasivarianza: Característica de una muestra o población que
cuantifica su dispersión o variabilidad. La cuasivarianza se obtiene
multiplicando la varianza por
n / (n-1). La cuasivarianza muestral es un estimador centrado (no
sesgado) de la varianza poblacional.
Estimador Insesgado: Es un estimador cuyo promedio es el valor
del parámetro desconocido. Su valor esperado es el valor del
parámetro poblacional. Un estimador insesgado es uno que tiene la
propiedad de exactitud.
Insesgadez: Se denomina sesgo de un estimador a la diferencia
entre la esperanza (o valor esperado) del estimador y el verdadero
valor del parámetro a estimar. Es deseable que un estimador sea
insesgado o centrado, es decir, que su sesgo sea nulo por ser su
esperanza igual al parámetro que se desea estimar.
Intramuestra: Es la variación que se da dentro de cada muestra.
Estratal: Son las diferentes operaciones que se da entre estratos.

114
Métodos Estadísticos Varela/Llanos/Asnate

BIBLIOGRAFIA:

1.- Azorín, F; Sánchez-Crespo, J. L. (1986) Métodos y aplicaciones


del muestreo Alianza Universidad textos, Alianza editorial.
2.- Cochran, W. G. (1971) Técnicas de muestreo
Compañía editorial continental
Lislv, L. (1972) Muestreo de encuestas, Editorial Trillar.
3.- Miras, J. (1985) Elementos de muestreo para poblaciones finitas
INE.
4.- Silva Ayçaguer, L. C. (1993) Muestreo para la investigación en
ciencias de la salud, Editorial Díaz Santos.
5.- Scheaffer, R. L.; Mendenhall, W; Ott, L. (1987) Elementos de
muestreo, Grupo editorial Iberoamérica
6.- Cristobal Exebio C. - Univercidad Nacional de Trujillo - muestreo
y aplicaciones.
7- César Pérez López – Universidad Complutense de Madrid – -
Muestreo estadístico.
8.- Sharon l. Lohr – Arizona State University – muestreo, diseño y
análisis.
9.- www.elestadistico.com

115
Métodos Estadísticos Varela/Llanos/Asnate

116

También podría gustarte