Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CURSO DE MUESTREO
2
INDICE
INTRODUCCIN 3
BIBLIOGRAFA 55
2
INTRODUCCIN
En toda investigacin estadstica existe un conjunto de elementos sobre los que se toma
informacin. Este conjunto de elementos es lo que se denota con el nombre de poblacin o
universo estadstico. Cuando se toma informacin de todos y cada uno de los elementos de
dicha poblacin, decimos que se realiza un censo. Sin embargo, esto no siempre es posible,
ya sea porque es costoso, requiere mucho tiempo, o bien porque la toma de informacin
lleve consigo la destruccin de los elementos en cuestin, o que la poblacin tenga infinitos
elementos. Este problema hace que el investigador tome la informacin de una parte de la
poblacin, proceso que recibe el nombre de muestreo.
CARACTERSTICAS DE LA INFORMACIN
Suficiente
1. Calidad
Confiable
2. Oportuna (tiempo)
3. Bajo costo.
Censo
Mtodo de bsqueda de informacin
Muestreo
3
Qu se pretende con el curso muestreo?
Justificacin
Este curso es de particular inters para los alumnos de la Licenciatura de Estadstica, sobre
todo requisito fundamental para las asignaturas de Anlisis de Datos y Anlisis
Multivariante.
La encuesta por muestreo es una metodologa que abarca ms all del muestreo
propiamente dicho, el cual consiste en el mtodo de seleccin de la muestra, determinacin
del tamao de muestra y la inferencia estadstica. La finalidad de una encuesta por
muestreo es obtener informacin para satisfacer una necesidad definida. La necesidad de
recopilar datos surge en todo campo de la actividad humana.
Ejemplo:
- Poblacin.
- Mano de obra.
- Agricultura.
- Industria.
- Comercio Interno.
4
Una investigacin por muestreo se puede dividir en 3 etapas bsicas:
1. Planificacin.
2. Recoleccin de la Informacin.
3. Anlisis de los resultados.
a. Costo reducido (Los gastos son menores que los que se realizaran si le lleva a cabo
un censo).
b. Mayor rapidez (El muestreo emplea menos tiempo en recopilar y procesar los datos
que el censo).
c. Mayor exactitud. Se espera que una encuesta bien empleada produzca resultados ms
exactos que el censo. En el censo surgen ms errores por la complejidad y magnitud
del trabajo. El muestreo emplea personas de mayor calibre, es posible capacitarlos
mejor y supervisar su trabajo.
d. Estimar validamente el margen de error y decidir si los resultados son
suficientemente exactos. Un censo completo no revela el margen de incertidumbre al
cual est sometido. En poblaciones pequeas censo.
1. Descriptivas.
2. Analticas.
3. Exploratorias.
OBJETIVOS
Analticas: aquellas que permiten hacer comparaciones entre subgrupos de una poblacin
para averiguar si existen ciertas diferencias entre ellos y formular o verificar hiptesis sobre
sus causas. Se emplean tcnicas multivariantes.
5
DISEO DE ENCUESTAS
Se refiere al planteamiento del problema a investigar, es decir, definir el qu, por qu, para
qu y cmo.
Definicin de Objetivos.
Variable: funcin real valorada. Caracterstica que puede tomar diferentes valores.
Cuantitativas Discretas
Continuas
Tipos de Variables
Cualitativas Nominal
o Categricas Ordinal
Escalas de Medicin.
- Nominal.
- Ordinal.
- Intervalo.
- Razn o proporcin.
DISEO DE CUESTIONARIOS
6
El cuestionario es una parte muy importante de la encuesta por muestreo. Habiendo
decidido cul es la informacin que se desea obtener, el problema de su presentacin
requiere considerable habilidad. Las preguntas deben ser claras, sin ambigedades y al
punto. Las preguntas vagas no proporcionan respuestas claras. Deben evitarse las
preguntas que orientes respuestas. Como stas podran depender en alguna medida del
ORDEN en que se hacen la preguntas, debe considerarse tambin su orden. Una pequea
prueba previa siempre es til para decidir sobre un mtodo efectivo para plantear las
preguntas. Todos trminos tcnicos que se utilizan debern ser definidos adecuadamente.
(Des Raj, 39).
Tipos de cuestionarios
Autoadministrado
Entrevistas
Por telfono, correo, personal > inspeccin
Tipos de Preguntas
Abiertas
Cerradas
Seleccin Mltiple
Seleccin dicotmica
Debe ser clara, sin ambigedades. Es importante cuidar el lenguaje en relacin al pblico
que est dirigido la encuesta.
Se debe evitar preguntas que induzcan respuestas y tambin, se debe tener cuidado si el
orden de la preguntas induce a las respuestas.
Prueba Piloto.
7
CONCEPTUALIZACION Y DISEO DEL INSTRUMENTO
Para permitir rigurosa investigacin, sin embargo, tales conceptos generales deben ser
especificados, esto es, deben ser reducidos para especificar, indicadores empricos.
Operacionalizacin.
Los conceptos son codificados generales de la experiencia y observaciones.
En ciencias tales conceptos toman la forma de variables que traen una coleccin de
atributos relacionados.
CALIDAD DE LA MEDICIN
El formato del cuestionario debe ser tan importante como la naturaleza y redaccin de las
preguntas. Una inapropiada presentacin del cuestionario puede conducir a respuestas
errneas.
Se debe evitar:
Cuestionarios demasiados largos, ya que el N de preguntas est asociado
inversamente a la tasa de repuesta.
8
Varias preguntas en una sola lnea.
Preguntas abreviadas.
Demasiadas pginas del cuestionario > que el entrevistado sienta que gasta poco
tiempo en responder el cuestionario.
Cuestionario muy comprimido en espacio son desastrosos.
Formatos para respuestas
[ ] Si ( ) Si 1. Si
[ ] No ( ) No 2. No
Preguntas Contingencia
A menudo en una encuesta, ciertas preguntas sern claramente relevantes solo para un
subconjunto de respondientes.
La segunda pregunta se debe evitar que comience Si..... condicionalmente porque puede
inducir a respuesta.
Estas segundas preguntas deben ser indentadas sobre el cuestionario, encerradas en cajas y
conectadas con la pregunta base a travs de flechas.
Preguntas Matriz.
Ejemplo:
17. Al lado de cada afirmacin que se presenta ms abajo, indique si Ud. est
completamente de Acuerdo (CA), Acuerdo (A), en Desacuerdo (D), Completamente en
Desacuerdo (CD) o Indeciso (I).
CA A D CD I
9
a. Este pas necesita ms leyes y orden [ ] [ ] [ ] [ ] [ ]
b. La poltica debe ser el desarme. [] [] [] [] []
c. Durante los disturbios se deben [] [] [] [] []
disparar perdigones a los saqueadores.
Existen algunos peligros inherentes al uso de este formato como: Los respondientes pueden
desarrollar algn patrn de respuesta.
Se deben evitar las preguntas directas que comprometan la integridad fsica, emocional,
moral o espiritual del encuestado.
El orden en el cual las preguntas son presentadas pueden afectar las respuestas, as como
toda la actividad de recoleccin. Por ejemplo, la presencia de una pregunta puede afectar
las respuestas dadas en las siguientes preguntas.
El mtodo de reproduccin del cuestionario es importante para el logro de xito del estudio,
un cuestionario ntidamente reproducido indicar a una alta tasa de respuesta y as,
proporcionara mejores datos.
Varios mtodos estn disponibles, y los cuales dependern de los recursos disponibles,
facilidades locales y tiempo.
INSTRUCCIONES
10
Cada cuestionario, si es autoadministrado o si es administrado por el encuestador, debe
contener instrucciones claras y comentarios introductorios donde sean apropiados.
Instrucciones Generales
Cada cuestionario autoadministrado debe comenzar con instrucciones bsicas para seguir su
completacin.
Introducciones
Si el cuestionario esta organizado de acuerdo al contenido de subsecciones, es til
introducir cada seccin oraciones cortas relacionadas con el contenido y propsito.
Instrucciones Especficas.
Algunas preguntas pueden requerir instrucciones especficas para facilitar la respuesta
apropiada. Caso de respuestas mltiples.
c. El marco. Lista, mapa, que sirve como gua al universo que se cubrir, debe
examinarse que est libre de defecto y actualizada.
d. Unidad de muestreo. Para los propsitos de la seleccin de la muestra debe ser
posible dividir a la poblacin en unidades de muestreo.
e. Seleccin de la muestra objetivo del curso.
11
f. Informacin que se recopilar. Qu informacin se busca obtener debe ser
considerada en una de la primeras etapas de planeacin de a encuesta. Slo deben de
tenerse datos de inters para los propsitos de la encuesta. Un cuestionario demasiado
largo produce una baja general en la calidad de los resultados. Lo prctico es preparar
BOSQUEJOS de los cuadros que debe producir la encuesta, a s se eliminar
informacin no pertinente.
g. Grado de precisin deseado.
12
INFORME Y PUBLICACIN DE RESULTADOS. En esta ltima etapa se
redacta el informe contentivo de los resultados de la investigacin por muestreo y se
ejecuta el plan de publicacin de los mismos.
CONCEPTOS GENERALES
Poblacin: es una coleccin de objetos acerca de los cuales deseamos hacer alguna
inferencia. Un conjunto finito o infinito de elementos.
Elemento o unidad elemental o unidad de observacin: objeto sobre el cual se realizan las
mediciones de la caracterstica. Es un objeto en el cual se toman las mediciones.
Ejemplo:
- Encuesta de Viviendas Unidad de muestreo: manzanas definidas de tal manera
que cada vivienda no pueda ser muestreada ms de una vez y que cada vivienda tenga
una oportunidad de ser seleccionada en la muestra.
- Encuesta sobre Ingreso Familiar Unidad de muestreo: vivienda.
- Proporcin de votantes que favorecieron la emisin de bonos Unidad de
muestreo: hogares. Unidad elemental: votantes.
En el muestreo de elementos cada unidad de muestreo contiene un solo elemento, por tanto,
la Unidad de muestreo = Unidad elemental.
13
TIPOS DE MUESTREO
Muestra
Muestreo Inferencia
Estimaciones Y , Y, total
14
Poblacin
Tamao de muestra controla la cantidad de
informacin a extraer
Pr e 1
El lmite de error de estimacin viene generalmente expresado en unidades de
e t = error mximo admisible. t es dado a funcin 1- ; 1- = coeficiente
confidencial.
El margen de error dado en las encuestas es un expresin del error de muestreo, el cual
resulta al considerar una muestra y no al examinar toda la poblacin (Lohr, 2000, p. 15)
Son aquellos que no se deben al muestreo, los cuales no se pueden atribuir a la variabilidad
entre las muestras (Lohr, 2000) e influyen en la validez y confiabilidad de las estimaciones.
Se pueden clasificar en:
a) Sesgos de estimacin: debido al uso inadecuado de un estimador. Cuando se utilizan
estimadores sesgados. Mal uso por parte del investigador.
b) Sesgos de seleccin: errores cometidos cuando el proceso de seleccin de la muestra
no es totalmente aleatorio; pues incluye elementos opinticos y errticos. Este ocurre
cuando alguna parte de la poblacin objetivo no est en la poblacin muestreada.
15
c) Sesgo de medicin: ocurre cuando el instrumento con el que se mide tiene una
tendencia a diferir del valor verdadero en alguna direccin. Este debe ser minimizado
en la etapa de diseo de la encuesta (Lohr, 2000).
d) Errores de observacin o de medida: son el resultado de la interaccin entre el
observador, el instrumento y el individuo medido (sustituciones fortuitas pueden
sesgar los resultados).
e) Errores por omisin: se refiere a la no respuesta, inaccesibilidad del elemento, o
prdida del dato.
f) Equivocaciones en el diseo de la encuesta.
En una muestra aleatoria simple cada unidad o elemento de la poblacin tiene una
probabilidad de seleccin conocida; se emplea un mtodo aleatorio para elegir las unidades
a incluir en la muestra (Lohr, 2000). Los elementos o unidades podrn ser seleccionados de
dos formas: con o sin reposicin.
En el muestreo aleatorio simple con reemplazo o con reposicin una unidad o elemento se
puede incluir ms de una vez en la muestra; mientras en el muestreo sin reemplazo o sin
reposicin, todas las unidades en la muestra son distintas.
16
El muestreo aleatorio sin reemplazo o sin reposicin de poblaciones finitas se conoce con el
nombre de muestreo irrestricto aleatorio, el cual consiste en la seleccin de n elementos
1 n!N n!
sacados de una poblacin con N unidades, de modo que todas las muestras posibles
N SP )(
(distintas) de tamao n tengan la misma probabilidad de ser seleccionada N N! .
n
n
P S es la probabilidad de elegir cualquier muestra individual S de n unidades.
n (n 1) (n 2) 1 n (! N n)! 1
P( S ) . . . .
N (N 1) (N 2) (N n 1) N! N
n
Otra forma de calcularla es la que se presenta a continuacin. Sea la muestra
S u1 , u 2 ,..., u n , luego su probabilidad es una probabilidad condicional,
17
1 1 1 1 1 n! N n ! 1 1
P S n! n!
N N 1 N 2 N n 1 N! N! N! N
N n ! n! N n ! n
Se mencion que los elementos que formarn la muestra pueden ser seleccionados de dos
maneras:
1. Con reposicin: en este procedimiento los elementos pueden ser seleccionados varias
veces, y cada una de las n selecciones son independientes unas de otras, luego, la
probabilidad de que un elemento forme parte de la muestra es 1/N. Por lo tanto, la
probabilidad final de forme parte de la muestra de tamao n es:
1 1 1 n
. Este tipo de seleccin coincide con el muestreo de poblaciones
N N N N
infinitas.
2. Sin reposicin: las unidades pueden ser seleccionadas una sola vez. Recibe el
nombre muestreo irrestrictamente aleatorio, y la probabilidad que un elemento sea
escogido en la i-sima extraccin estar condicionada a la probabilidad de que no
haya sido escogido en los (i-1) sorteos anteriores, as cada seleccin y probabilidad
es:
1
1 seleccin probabilidad
N
1
N 1 1
2 seleccin probabilidad
N 1 N N
1
N 2 N 1 1
3 seleccin probabilidad
N 2 N 1 N N
1 N n 1 N 1 1
n seleccin probabilidad
N n 1 N n 2 N N
18
De all que la probabilidad de que un elemento sea seleccionado en cualquiera de las n
1
elecciones ser igual a y la probabilidad final de que un elemento sea incluido en la
N
n
muestra es i , aqu se aplica la sumatoria de las probabilidades de cada una de n
N
selecciones en las que puede ser elegido el elemento i en la muestra.
N N 1
Tambin podemos decir que de las muestras posibles, de ellas contienen un
n n 1
elemento particular, por tanto, su probabilidad es:
N 1
No. muestras favorables n 1 n
i
No. muestras posibles N N
n
19
ESTIMACIN DE LA MEDIA Y EL TOTAL
Simbologa bsica:
Suponga que y1, y2, ... , yn es una muestra irrestricta aleatoria (m.i.a) de una poblacin de
valores u1, u2, ... , uN,, (considere que yi la muestra aleatoria es de tamao uno).
n
y N
1
E ( yi ) i media poblacional E ( yi ) u i
i 1 N i 1 N
2 varianza poblacional
1 1 N 2 2 1 Yi
2
V Yi E Yi Yi Yi N Yi 2
2 2 2
N N i 1 N N
Cov( y i , y j ) E ( y i )( y j ) E y i y j y i y j 2 E y i y j 2
2
N
1 1 N
u i u j 2 u i
i j N ( N 1) N i 1
N
ui u j 2
1 i j 1 N
ui
N N 1 N i 1
u
N
ui ui ui
2 2
Como i
i 1 i j
20
2
N
N N
Entonces
i j
u u
i i u
i 1
i
i 1
ui
2
N
2
ui ui
2
Cov( y i , y j )
1 i 1
1
u
i
2
N N 1 N
1 1 ui
2
u i
2 1
N N 1 N N 1
1 ui
2
1
u i 2
N N ( N 1) N 1
1 1
2
ui
1
u i 2
N N 1 N ( N 1)
1 1 N 2
2
ui
N N 1 N 1
Cov( y i , y j )
1
N ( N 1)
u i
2
N 2 1
N ( N 1)
ui 2 1 2
N 1
El estimador de la media es y
y i
entonces yi y 2
S
2
S 2
n 1 n 1
Consideremos que:
1) La media muestra es un estimador insesgado, es decir E ( y )
21
2 N n S2 N n
2) La varianza de la media es V ( y ) y su estimador es V ( y )
n N 1 n N
que tambin es insesgado.
2 N n
2. La varianza de la media es V ( y ) y su estimador es tambin insesgado, es
n N 1
decir que E V y V y .
Ejercicio 4.7: Una muestra irrestricta aleatoria de n = 100 medidores de agua es controlada
dentro de una comunidad para estimar el promedio de consumo de agua diario por casa,
durante un periodo estacional seco. La media y la varianza mustrales fueron y 12.5 y
S 2 1252 Si suponemos que hay N = 10.000 casas dentro de la comunidad, estime , el
promedio de consumo diario verdadero, y establezca un lmite para el error de estimacin.
(Mendenhall, pag. 68.)
Datos
Se pide estimar y B
22
S 2 N n 1252 10000 100
B 2 V y 2 2 2 * 3.52
n N 100 10000
y B y B; y B
Como el tamao de la muestra es grande se puede emplear el teorema central del limite y
asumir que la media se aproxima a una normal. En este ejemplo, el error de estimacin es igual
a: B = 1.96 * 3.52 =6.8992; y el intervalo es (5.40 ; 19.60) el cual indica que tenemos un 95%
de confianza que el verdadero valor del consumo de agua promedio poblacional se encuentra
entre 5.40 y 19.60.
n
N yi
Ya sabemos que su estimador es
Ny i
n
S2 N n 2 S
2
V N 2 N 1 f , donde f n / N es la fraccin de muestreo
n N n
23
Ejemplo 4.8: Usando los datos del ejercicio 4.7, estime el nmero total de galones de agua,
, usado diariamente durante el periodo seco. Establezca un lmite para el error de
estimacin. (Mendenhall, pag. 68.)
Solucin:
V T V Ny N 2V y N 2
S2 N n
n N
V (T ) 123948 * 10 4 35206.25
B tk V (T ) 2 V (T ) 2 * 35206.25 70412.5
Intervalo de confianza para el total de galones de agua usado durante el periodo seco.
T B, T B 54587.5,195412.5
TAMAO DE LA MUESTRA PARA ESTIMAR LA MEDIA
S 2 N n
e B t V y t (5)
n N 1
e2
n 2 N 1 n 2 N 2
t
24
N 2 N 2
n n
e2 D N 1 2
2 N 1 2
t
N 2 N 3 2 t2 N 2
n
N 1 2e 2 2 N 1 e t N N 1 D
2 2 2 2 2 2
t N
e2 B2
D t2 4
t2 N 2 t2 N 2
Tanto en el caso de muestras para estimar el total o la media se supone que el investigador
debe conocer 2
1. Estudios anteriores.
2. Muestra piloto.
3. Usando el rango de la variable (dos desviaciones de la media)
rango de Y
4
4. Consideraciones prcticas acerca de la estructura poblacional.
ESTIMACIN DE LA PROPORCIN P
El investigador que realiza una encuesta por muestreo frecuentemente esta interesado en
estimar la proporcin de la poblacin que posee una caracterstica.
25
Ejemplo: proporcin de personas que opinan que el servicio de BIECI es bueno.
y i
p y es el estimador de p
n
PQ N n
La varianza poblacional de la proporcin es: V p
n N 1
p q N n
Varianza estimada de p es: V p
n 1 N
y i
Sabemos que y p y i np
n
Sea la cuasivarianza:
yi y
2
2
y i ny 2 np np 2 n n
S
2
p (1 p) = n 1 pq y adems
n 1 n 1 n 1 n 1
S2 N n n
V y , sustituyendo S
2
pq se tiene
n N n 1
pq
n
N n pq N n
V y n 1 V p
esto es lo que queramos demostrar.
n N n 1 N
p q
n
N n p q N n
V y n 1 V p
es la varianza estimada de la proporcin.
n N n 1 N
26
Ejercicio 4.5: Las autoridades de un parque estatal estn interesadas en la proporcin de
personas que acampan y que consideran que el espacio del rea disponible para acampar en
un terreno en particular es adecuado. Las autoridades decidieron tomar una muestra
irrestricta aleatoria de n = 30 de los primeros N = 300 grupos acampados que visitan el
campo. Sea y i 0 si jefe del i-simo grupo muestreado considera que el espacio del rea
disponible para acampar no es adecuado, y y i 1 si considera que es adecuado
(i=1,2,...,30). Use los datos de la tabla adjunta para estimar p, la proporcin de personas que
acampan y que consideran que el espacio del rea disponible para acampar es adecuado.
Establezca un limite para el error de estimacin (Mendenhall, pag. 67-68.)
Respuesta
Persona Muestreada yi
1 1
2 0
3 1
. .
. .
. .
29 1
30 1
30
y
i 1
i 25
27
Solucin:
y i 25 n = 30 N=300
y i 25
p 0.8333 y q 1 p 0.1667
30 30
t k
NPQ
n 2
e
N 1 PQ
t 2k
e t k V p
p q N n
V p
n 1 N
n0
n t 2 pq
n ; n0
1 0 e2
N
Ejemplo 4.6: Use los datos del Ejercicio 4.5 para determinar el tamao de muestra
requerido para estimar p con un lmite para el error de estimacin de magnitud B = 0.05.
(Mendenhall, Pag 68.)
28
Solucin:
y i 25
p 0.8333 y q 1 p 0.1667
30 30
1 n yi
El Estimador del total T es: Tpp
n i 1 i
yi
n
1
Varianza estimada del Tpp es: V Tpp
n n 1 i 1 i
Tpp
1 1 n yi
pp
Nn
T pp
Nn i 1 i
2
yi
n
1
Varianza estimada de pp es: V pp T pp
N n n 1 i 1 i
2
29
1) Las ventajas derivadas de realizar muestreo.
2) Es relativamente simple determinar la precisin de las estimaciones que se hacen a
partir de las observaciones muestrales.
3) Tiende a reflejar todas las caractersticas del universo, esto es, cuando el tamao de la
muestra crece, sta se hace cada vez ms representativa del universo o poblacin.
30
3) Permitir definir los estratos como dominios de estudio y obtener estimaciones con
precisin conocida para los estratos.
Dividir la poblacin en estratos de acuerdo a las razones para estratificar, ubicar cada
unidad muestral en su respectivo estrato, asignar el tamao muestral de cada estrato ni (de
L
modo que si los L estratos y n es el tamao de la muestra n
i 1
i n y seleccionar muestras
En general, la precisin aumenta con el nmero de estratos si estos estn bien elegidos,
pero no es conveniente aumentar mucho el nmero de estratos si tal aumento no compensa
las complicaciones de clculo y la disminucin del tamao de la muestra dentro de los
estratos.
NOTACIN
N = tamao de la poblacin.
L = nmero de estratos.
Ni = tamao del i-simo estrato i = 1,2,...,L
N = tamao de la muestra.
L L
Ni N
i
n
i 1
i n
ESTIMACIN DE LA MEDIA
L
1
Para estimar la media poblacional el estimador es: y st
N
N yi
i i
ni
y ij
Sea yi la media muestral del i-simo estrato
j 1 ni
31
La Varianza poblacional de y st es:
1 L S i
2
1 1 L 2 N ni
L
V y st N i y i 2 N i V y i 2 N i i
2
V
N i 1 N i 1 N i 1 Ni ni
Si las fracciones de muestreo ni/Ni son despreciables en todos los estratos entonces
1 L N i S i
2 2
V y st 2
N i 1 ni
Ejemplo 5.4: Se forma una comisin de Zonificacin para estimar el valor promedio de
avalo en un suburbio residencial de una ciudad. El uso de ambos distritos de votantes en el
suburbio como los estratos es conveniente porque se tienen disponibles listas separadas de
las viviendas en cada distritos. De los datos presentados en la tabla acompaante, estime el
valor promedio de avalo para todas las casas en el suburbio, y establezca un lmite para el
error de estimacin (ntese que se utiliz la asignacin proporcional). (Mendenhall, pag.
113-114.)
ESTRATO I ESTRATO II
N 1 110 N 2 168
n1 20 n 2 30
n1 n2
yi 240.000
i 1
y
i 1
i 420.000
n1 n2
yi2 2.980.000.000
i 1
y
i 1
2
i 6.010.000.000
32
L
1
y st
N
N
i 1
i yi
ni
y ij
Sabemos que:
yi j 1
ni
ni
y 2
y ij 2
ny i
2
y 2
ij
ni
ij
S i2
j 1
ni 1 ni 1
240.000
y1 12.000
20
2.980.000.000 20 12.000
2
S
1
2
5.263.157,895
19
420.000
y2 14.000
30
6.010.000.000 30 14.000
2
S 22 4.482.758,62
29
1
y st 110 12.000 168 14000 13.208,63 es el valor promedio de valo para
278
todas las casas del suburbio.
1 L Si
2
2 N ni
La varianza estimada es: V y st 2 N i i al sustituir los valores
N i 1
Ni ni
respectivos tenemos:
V y 7853.52
El error de estimacin es: B t k V y 2 7853.52 560.48
yB (13208.63-560.48; 13208.63+560.48)
33
El intervalo resultante es: (12648.15; 13769.11). Es decir que se estima que con por lo
menos un 75% de confianza el valor promedio de avalo para todas las casas en el suburbio
oscile entre 12648.15 y 13769.11$.
Como en este tipo de muestreo, las muestras en cada estrato son independientes, entonces
se puede realizar estimaciones separadas, as:
Estrato 1 Estrato 2
N n s
2
N 2 n2 s22
y1 t k 1 1 1
y 2 t k
N 1 n1 N 2 n2
12000 928.03 14000 700.69
(11071.97, 2928.03) (13299.31, 14700.69)
34
ESTIMACIN DEL TOTAL
L L L
1
El estimador del total es: Tst Ny st N Wi y i N N i y i N i y i
i N i i
N ni S i2
L
V Tst V Ny st N 2V y st N i2 i
i Ni ni
Ejemplo 5.3: Para el Ejercicio 5.2 estime el nmero total de horas-hombre perdidas durante
el mes indicado y establezca un lmite para el error de estimacin. Use los datos de la tabla
acompaante, obtenida en una muestra de 18 obreros, 10 tcnicos y 2 administrativos.
(Mendenhall, pag. 113.)
I II III
(Obreros) (Tcnicos) (Administrativos)
8 24 0 4 5 1
0 16 32 0 24 8
7 4 4 8 12
9 5 8 3 2
18 2 0 1 8
35
Solucin:
I II III
Obreros Tcnicos Administrativos
n1 18 n 2 10 n3 2
y1 8,8333 y 2 6,7 y 3 4,5
S 81,5588
1
2
S 50,4556
2
2
S 32 24,5
N1= 132 N1= 92 N3 = 27
36
L
Tst N i yi 132 8,8333 92 6,7 27 4,5
i 1
Tst 1903,8956 1903,9 Nmero total de horas hombres perdidas por accidente en un
mes determinado.
2 N ni S i2
L
V Tst N i i
i 1 Ni ni
V Tst 114 .515,61
2 S1 N 1 n1
2
La estimacin separada del total para el estrato 1 es: T1 t k N1
n1 N1
(1165,996 2 68.183,157 )
(1165,996 552,24 )
643,76;1688,23
El lmite de error 552,24 es muy grande porque S 12 es grande y por tanto se obtiene una
estimacin deficiente.
Si se desea una estimacin para un estrato particular, la muestra del estrato debe ser lo
suficientemente grande para proporcionar un lmite razonable para el error de estimacin.
37
Prefijados el error mximo admisible (precisin mnima del estimador) indicado por,
e t k V y . El coeficiente de confianza 1- determina el valor de t (acorde a la forma
de distribucin del estimador) y la variabilidad de la poblacin (paradoja de Friedman).
Si 1- t
x si n
1 L N ni S i2 2
e t V y st t 2 N i2 i
N i 1 Ni ni
Para determinar el tamao de muestra se fija el nivel del error de estimacin que se est
dispuesto a cometer. Tambin, se supone que wi=ni/n para poder despejar n haciendo ni
=win y se sustituye:
2 N i wi n S i
2
2 1
L
N 2e2 L
N i2 S i2 L
2
e 2 t N i
2
N i S i2
N i N i wi n t i 1 wi n i 1
2
N 2e2 L
1 L N i2 S i
t2
i
N S
i i
2
n i wi
1 L N i2 S i2 L
2 Si
2 L
2 Si
2
N 2 i 1 wi
i 1
Wi
wi
i 1
Wi
wi
n 2 2 2
2 es el tamao de muestra
N e 1 L e 1 L e 1
2 2
N t N i 1 2 N i S i
2
2
t N i 1 2 i i
N S2 2
t N
Wi S i2
38
V = (e/t)2 es una varianza especificada en funcin del margen de error, tambin se
denomina varianza anticipada.
L
S i2
i 1
w
wi
2
i
n L
1
V N i S i2
N i 1
L S2 t2 1 L S2
n0 Wi 2 i 2 Wi 2 i
i wi e V i 1 wi
Este tamao de muestra se obtiene de igual forma, partiendo del error de estimacin para
estimar el total:
N ni S i2
L
e 2 T2V T t2 N i2 i si ni =nwi
i 1 Ni ni
e2 L S i2
N
i i i nw
N nw
t2 i 1 i
e 2 L N i2 S i2 N i S i2 nwi L N i2 S i2 L
N i Si
2
2
t i 1 nwi i 1 nwi i
e2 L 1 L N i2 S i2
Ni Si
2
t2 i 1 n i 1 wi
39
L
N i2 S i2 L
N i2 S i2
i 1 wi
i 1 wi
n
e2 L L
2
N i S i2 V N i S i2
t i 1 i 1
Ejemplo: A continuacin se realiza un ejemplo del clculo del tamao de muestra necesario
para determinar la Calidad de la Leche (variable: acidez). Suponga que se realiz una
muestra piloto y se obtuvo los siguientes datos:
40
1 L Wi 2 S i2 1 L 1 1
V Wi S i2 1,22 1,113 0,041
n i 1 wi n i 1 21 67
L
Wi 2 S i2
i 1 wi 1,22
n 21 Fincas
1 L
1
V Wi S i 0,041
2
1,113
N i 1 67
ASIGNACIN DE LA MUESTRA
TIPOS DE ASIGNACIN.
n
1. Igual ni
L
2. Optima.
3. Proporcional.
L
La funcin de costo fijo ms sencilla es C c0 ci ni . Dentro de cualquier estrato el
i 1
costo es proporcional al tamao de la muestra, pero el costo por cada unidad ci puede variar
entre los estratos.
41
Por tanto, C0 representa un costo general y ci el costo por unidad encuestada en el estrato i.
Sabemos que la varianza estimada de la media es:
1 L N ni S i2 l N i2 S i2 L N i S i2
V y st 2 N i2 i 2 2
N i 1 Ni ni i 1 N ni i 1 N
haciendo N i / N Wi obtenemos:
W 2S 2 1
V y st i i Wi S i2
ni N
L
C 0 c1 ni C 0
i 1
i 1 ni i 1 Ni
42
Ni
S i / ci
ni N
Como wi = ni /n n
1 L Ni Si
N i 1 ci
ni N i S i / c i N i S i / ci
L ni n
Entonces n N i Si luego L
N i Si
i 1 ci
i 1 ci
Este resultado nos indica que en un estrato dado se debe tomar una muestra grande si:
L
L N i S i / ci
C c 0 ci ni C c 0 ci n l
N i S i / ci
i i 1
i 1
L L
C c0 N i S i / ci c i n N i S i / ci
i 1 i 1
L L
C c0 N i S i / ci n N i S i ci
i 1 i 1
43
L
C c0 N i S i / ci
i 1
Despejando n se tiene: n
N S
L
i i ci
i 1
W
i 1
i
2
S i / wi
n L donde: V = e2/t2 es la varianza anticipada
1
V
N
W S
i 1
i
Sustituyendo
Wi S i / ci N i S i / ci
wi ni / n
W S N S nos queda
L L
i i / ci i i / ci
i 1 i 1
n
W S i i ci W S i i ci
1 L
V
N i 1
Wi S i2
1
2
N S i i ci N S i i / ci N S ci N S / ci
n N
i i i i
L
L
1
V
N2
N i S i2
i 1
N 2V N i S i2
i 1
En algunos problemas el costo para obtener informacin en cada uno de loa estratos es el
mismo, as C1 = C2 = ......= CL = C. Si los costos son conocidos se puede suponer que los
costos son iguales.
44
nN i S i Wi S i
ni n este tipo de asignacin se conoce como asignacin de
N i Si Wi S i
Neyman (asignacin ptima supuesta).
Ni Si
2
e2
En este caso n V
N 2V N i S i
2
t2
W S i i
2
n L
1
V
N
W
i 1
i S i2
N i ni
Wi
N n
V y st
N n S i2 N n
Nn
Wi 2 Wi
Nn
Wi S i2
ni N i
Para determinar el tamao de muestra, hacemos wi Wi y luego al sustituir en
n N
45
N i S i / c i
ni n L S1 = S2 = ....... = SL y c1 = c2 = .... = cL
N i S i / ci
i 1
Ni
Se tiene ni n y el valor de N N
Ni i
N S
2 2 2
N i S i / wi N i S i / Wi i i
n L
L
L
1
N V N i Si N 2V N i S i NV N S
2 2 2 2
i i
i 1 i 1 N i 1
2
N i Si 1
N i Si
2
NV
Wi S i2
n L
L
V
1 1 L
N S N S
2 2
NV i i i i 1 Wi S i2
N i 1 1 i 1 NV i 1
1
N NV
n0
1 n
haciendo n0
V
Wi S i2 queda n
1 0
N
Esta asignacin puede utilizarse tambin cuando los costos y las varianzas no son iguales
(pero no son tomados en cuenta al momento de fijar los tamaos de la muestra), una ventaja
al usar esta descomposicin es que y S y .
46
Ni
Y Y Yij Yi N i Yi Y
L L L L
2 2 2
ij asumamos que YS Y
i 1 i 1 i 1 j 1 i 1
N 1 S 2 N i 1S i 2 N i Yi Y
L L
i 1 i 1
N i 1S i N i Yi Y
L L
2
i 1 i 1
S2
N 1
Sabemos que en el muestreo aleatorio simple sin reposicin la varianza de la media es:
S2
1 f S N n
2
Vram
n n N
1 L S i
2
2 N ni
V y st 2 N i i
N i 1
Ni ni
N i ni
Wi wi
N n
V prop V Yst
1
n
W S 1Nn
i
f
N S
i
2
i i
2
Vopt V Yst
1
W S i i
2
1
W S i i
2 1
W S
i i
2
1
W S
i i
2
n n nN 2 N2
47
Teorema (Cochran): Vopt V prop V ran (tarea demostrar)
ESTIMACIN DE LA PROPORCIN p
L
1
p S N 1 p i N 2 p 2 ... N L p L 1 N i p i
N N i 1
1 L
1 L
N i ni p i q i
V p S 2 N i V p i 2 N
2 2
ni 1
i
N i 1 N i 1 Ni
Las frmulas de calculo del tamao de la muestra para la proporcin son iguales a la de la
i q i
media excepto en que Si2 = p
2
N i p i q i / wi
n
e2 L es el tamao de muestra aproximado para estimar la proporcin.
N 2
2
N i p i q i
t i 1
nN i p i q i / ci
ni L
Ni 1
i p i q i / ci
48
El tamao de la muestra para satisfacer un costo total C es:
c c0 N i p i q i / c i
n L
N
i 1
i p i q i / c i
1
2
N i p i q i ci N i p i q i / ci N p i q i ci N p i q i / ci
n N
i i
L
L
1
V
N2
N
i 1
i p i q i N 2V N i p i q i
i 1
2
e
donde V es la varianza anticipada.
t2
2
L
nN i p i q i N i p i q i
ni i 1
L
en este caso n
N
i 1
i p i q i e 2 L
N 2 2 N i p i q i
t i 1
N p q
i i i
N n i
n i n i y
N e2 1 L
N 2
2
N i p i q i
t N i 1
49
A diferencia con el muestreo estratificado, donde la poblacin tambin se subdivide en
subpoblaciones, pero siempre todos los estratos estn representados en la muestra.
Mientras que el muestreo estratificado es diseado y utilizado fundamentalmente con el
objeto de reducir la varianza de los estimadores, el muestreo por conglomerados es
utilizado debido a que muestrear directamente sobre las unidades primarias, el costo es
exageradamente alto.
Este muestreo es, en muchos casos, un muestreo efectivo para obtener la informacin
deseada a un menor costo, aunque el uso de los conglomerados conlleve en algunos casos a
una varianza mayor de los estimadores.
Los casos en los cuales se justifica la aplicacin de este diseo muestral son:
1) Donde existe un alto costo por la movilizacin o traslado entre las unidades
primarias; el muestreo por conglomerado permite disminuir las distancias; pues por lo
general, los conglomerados son reas fsicas o geogrficas, donde las unidades
primarias estn contiguas.
2) Cuando no existe lista de las unidades primarias (o ltimas) sobre los cuales hay que
tomar las observaciones, y el costo de levantar un marco muestral de estas unidades
es alto, en comparacin con el costo de muestrear sobre conglomerados, los cuales si
pueden disponer de un marco o directorio.
3) Para pequeas unidades donde puede ser difcil fijar con precisin sus limites, sin
embargo, puede ser posible y fcil, dividir con poblacin en unidades mayores y
luego muestrear y medir aquellas unidades mayores seleccionadas. Ejemplo:
animales.
4) Tambin, pueden existir consideraciones administrativos que jueguen papel
importante en la coleccin del diseo a utilizar.
50
Definir el conglomerado tipo (tamao del conglomerado). El nmero de elementos que
integran un conglomerado se denomina tamao. En la mayora de los mtodos por
conglomerados, los conglomerados son de tamaos diferentes unas de otras, los
conglomerados de igual tamao, rara vez se logran en la practica, pero se constituyen
una introduccin sencilla al estudio del mtodo por muestreo, y pueden resultar en
situaciones practicas donde las condiciones fueran las indicadas, tales como: procesos
de produccin (control de calidad).
Notacin:
51
M
M Tamao promedio del conglomerado en la poblacin
N
y i total del conglomerado i-simo
n
m i
Tamao promedio del conglomerado en la muestra.
m i
y i
m
i
i
y i
m
i 1
i
y ym i i
2
N n
V ( y ) i
NnM n 1
Si se desconoce el total de elementos en la poblacin M, entonces, M puede ser estimado
n
con m i
m i
N n
( y ym )
i i
2
e B t k V ( y ) t k 2
NnM n 1
52
Los lmites de confianza son: y e
y i
My M i 1
n
m
i 1
i
La varianza estimada de My :
n
y ym i
2
i
N n
V My M 2V y N 2
i 1
Nn n 1
y ym i
2
i
N n
e B t k V ( y ) t k N 2
i
Nn n 1
Sin embargo, a menudo ese nmero de elementos de la poblacin no se conoce, por tanto se
debe utilizar otro tipo de estimador, el cual no depende de M :
n
N
Ny t
n
y
i 1
i
donde:
53
1 n
yt yi es el promedio de totales de conglomerado para la muestra seleccionada.
n i 1
La varianza estimada de Ny t :
n
y yt
2
i
N n
V Ny t N 2V y t N 2
i 1
Nn n 1
y yt
2
i
N n
e B t k V ( Ny t ) t k N 2
i
Nn n 1
Este estimador tiene a menudo el inconveniente de ser poco preciso, pues por lo general,
las medias de los conglomerados varan poco y los mi varan mucho. En este caso el total
del conglomerado yi = mi y i , tambin varia mucho de unidad a unidad y entonces V es
muy grande, sin embargo, este estimador es a veces utilizado, pues tiene la ventaja de que
N
no es necesario conocer el tamao de la poblacin. M mi
i 1
n 2
2. La varianza estimada N n
y ym i i
es un estimador insesgado de la
V y 2 i
NnM n 1
N 2
varianza poblacional N n
y ym i i
V y 2 i
NnM n 1
3. Los estimadores del Total Poblacional My y Ny t son equivalentes.
54
SELECCIN DEL TAMAO DE MUESTRA
N n N n
V y 2 c2 es la varianza poblacional y V y 2 S c2 es la varianza estimada.
NnM NnM
Al despejar de la formula del error de estimacin el valor de n, se tiene que el tamao de
muestra es:
N 2 c
n , donde
ND 2 c
e2
D 2 M 2 es la varianza anticipada
t
2. Para estimar el Total Poblacional. En este caso tenemos dos tipos de estimadores:
a. My
N 2 c
n , donde
ND 2 c
e2
D 2 2
t kN
b. Ny t
2
N t
n 2 , donde
ND t
55
e2
D 2 2
t kN
n 2
n 1
totales de conglomerados en la muestra.
ESTIMADOR DE LA PROPORCIN
a
i 1
i
i ai p mi 2
N n 2
Y as, su varianza es V p c , donde:
NnM 2
c
2
N 1
N n 2
Y el estimador de la varianza de la proporcin es V p Sc
NnM 2
Donde:
n
a p mi
2
i
S c2 i
n 1
Para obtener el tamao de muestra para estimar la proporcin se fija el error mximo
admisible e=B y el multiplicador de confianza t k .
56
Por definicin este error es:
B e t k V p
Al elevarlo al cuadrado se tiene:
e2 e2 N n 2
e 2 t k V p 2 V p 2
NnM c
2
tk tk
D= es la varianza anticipada
57
BIBLIOGRAFA
Scheaffe, R., Mendenhall, W., y Ott, L. (1991) Elementos de Muestreo. Duxbury Press,
Boston.
58