Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Taller ME II
Taller ME II
Departamento de Estadı́stica
Muestreo Estadı́stico
Taller II / 2019-I
Profesor: Luis Hernando Vanegas
lhvanegasp@unal.edu.co
1. Responda falso (F) o verdadero (V) a las siguientes afirmaciones. Justifique muy bien
su respuesta.
H
P H
P P
Por lo tanto, N = Nh y ty = tyh , en que tyh = yk .
h=1 h=1 k ∈ Uh
Paso 2: De cada estrato, h, se selecciona una muestra probabilı́stica, denotada
Sh , de tamaño nh , de acuerdo al diseño muestral ph (·), la cual es indepen-
diente a las seleccionadas en los demás estratos. Por lo tanto, las variables
aleatorias t̂yπ1 , . . . , t̂yπH son independientes, en que t̂yπh es el estimador de
Horvitz-Thompson de tyh .
Para estimar θ = ty usando muestreo estratificado se tiene que
H
X H
X H
X
θ̂ = t̂yπh , Var(θ̂) = Var(t̂yπh ) y V̂ar(θ̂) = V̂ar(t̂yπh ),
h=1 h=1 h=1
en que Nh , Sy2 = (Nh − 1)−1 (yk − ȳUh )2 , ȳUh = Nh−1 yk , Sy2 = (nh −
P P
Uh Sh
k ∈ Uh k ∈ Uh
(yk − ȳSh )2 , ȳSh = n−1
P P
1)−1 h yk , fh = nh /Nh y nh son el tamaño, la varian-
k ∈ Sh k ∈ Sh
za poblacional, la media poblacional, la varianza muestral, la media muestral, la
fracción muestral y el tamaño de la muestra, respectivamente, todo correspon-
diente al estrato h. Además, θ̂ es un estimador insesgado de θ y V̂ar(θ̂) es un
estimador insesgado de Var(θ̂), en que esto último vale siempre que nh ≥ 2 para
todo h = 1, . . . , H.
Por otro lado, los tamaños de la muestra por estrato, n1 , . . . , nH , que minimizan
H
P
la varianza de θ̂ sujetos a la restricción n = nh están dados por (asignación
h=1
óptima o asignación de Neyman)
Nh Sy2
Uh
nh = n H
.
P
Nh′ Sy2
U
h′ =1 h′
Nh Nh
nh = n =n ,
H
P N
Nh′
h′ =1
que se conoce como asignación proporcional al tamaño del estrato. Si, además,
N1 = N2 = . . . = NH , entonces nh se reduce a nh = n/H. Las conclusiones ante-
riores sobre los tamaños de la muestra óptimos, n1 , . . . , nH , son válidas también
cuando θ = ty /N (N es conocido).
(D) Para estimar θ = ty /N (N es conocido) usando MAS estratificado cuando la
variable de interés, y, es dicotómica (es decir, cuando y = 1 y y = 0 representan,
respectivamente, la presencia y ausencia de un atributo de interés) se tiene que
H
X
θ̂ = wh pSh ,
h=1
H H
X − fh pUh(1 − pUh)
1 X pS (1 − pSh)
Var(θ̂) = wh2 y V̂ar(θ̂) = wh2 (1 − fh ) h ,
h=1
fh Nh − 1 h=1
nh − 1
en que ẑk = (yk − θ̂xk )/N x̄S es tal que ẑ¯S = n−1
P
ẑk = 0. De forma similar, para
k∈S
estimar θ = ty /tx usando el diseño muestral de bernoulli se tiene que
ȳ 1 − πX 2 1 − πX 2
θ̂ = S , Var(θ̂) ≈ zk y V̂ar(θ̂) = ẑ ,
x̄S π k∈U π2 k ∈ S k
NI
P NI
P P
Por lo tanto, N = Ni y ty = ti , en que ti = yk .
i=1 i=1 k ∈ Ui
Paso 2: A partir de la población de conglomerados, UI = {1, . . . , i, . . . , NI },
seleccionar una muestra probabilı́stica, denotada por SI y de tamaño nI ,
usando el diseño muestral pI (·), donde las probabilidades de inclusión de
primer y segundo orden se denotan, respectivamente, por
y
X X ti tj ∆Iij
V̂ar(θ̂) = ,
i∈S j ∈S
πIi πIj πIij
I I
en que θ̂ y V̂ar(θ̂) son estimadores insesgados, donde esto último vale siempre que
πIij > 0 para todos i, j ∈ UI . Además, el tamaño esperado de la muestra está
dado por la siguiente expresión
X
E(n) = Ni πIi .
i ∈ UI
Por lo tanto, el diseño muestral sistemático es un caso especial del diseño MAS
de conglomerados donde NI = a y nI = r.
(J) Las razones para usar un diseño muestral de conglomerados incluyen las siguientes
1. La construcción de un marco muestral de las unidades de observación puede
ser difı́cil, costosa o imposible, mientras que la construcción de un marco
muestral de conglomerados de unidades de observación puede ser más fácil,
más barata y, por lo tanto, más viable.
2. Los individuos de la población puede estar agrupados naturalmente en conglo-
merados, por lo que seleccionar conglomerados y medir/entrevistar/observar
a todos los individuos en su interior puede ser más barato y más rápido
que medir/entrevistar/observar la misma cantidad de individuos cuando su
selección no tiene en cuenta la estructura natural de conglomerados en la
población.
(K) Para estimar θ = ty usando MAS de conglomerados se tiene que
X yk 1 − fI 2 1 − fI 2
θ̂ = = NI t̄SI , Var(θ̂) = NI StU y V̂ar(θ̂) = NI StS ,
k∈S
πk fI I fI I
en que t̄SI = n−1 ti , St2U = (NI − 1)−1 (ti − t̄UI )2 , t̄UI = NI−1
P P P
I ti y
I
i ∈ SI i ∈ UI i ∈ UI
St2S = (nI − 1)−1 (ti − t̄SI )2 .
P
I
i ∈ SI
y
X X tẑi tẑj ∆Iij
V̂ar(θ̂) = ,
i ∈ SI j ∈ SI
π Ii πIj πIij
P P P P
en que tyi = yk , txi = xk , tzi = zk , tẑi = ẑk , zk = (yk − θxk )/tx y
k ∈ Ui k ∈ Ui k ∈ Ui k ∈ Ui
ẑk = (yk − θ̂xk )/t̂xπ .
(M) Para estimar θ = ty /tx usando MAS de conglomerados se tiene que
t̄ySI 1 − fI X 2 1 − fI X 2
θ̂ = , Var(θ̂) ≈ aI t y V̂ar(θ̂) = aI t ,
t̄xSI fI i ∈ U zi fI i ∈ S ẑi
I I
en que t̄ySI = n−1 tyi , t̄xSI = n−1 txi , aI = (1 − NI−1 )−1 y ẑk = (yk −
P P
I I
i ∈ SI i ∈ SI
θ̂xk )/NI t̄xSI . De forma similar, para estimar θ = ty /tx usando el diseño de ber-
noulli de conglomerados, se tiene que
t̄ySI 1 − πI X 2 1 − πI X 2
θ̂ = , Var(θ̂) ≈ t y V̂ar(θ̂) = t ,
t̄xSI πI i ∈ U zi πI i ∈ S ẑi
I I
(A) Use la asignación proporcional al tamaño y los datos de la tabla anterior para
determinar los tamaños de la muestra para cada estrato.
(B) Use la asignación de Neyman y los datos de la tabla anterior para determinar los
tamaños de la muestra óptimos para cada estrato.
(A) Estime las ventas mensuales promedio del nuevo producto en las tiendas de cada
estrato.
(B) Estime el error muestral asociado a los resultados dados en (A) estimando el
coeficiente de variación en cada estrato.
(C) Estime las ventas mensuales promedio del nuevo producto en las tiendas de las
cuatro cadenas.
(D) Estime el error muestral asociado al resultado dado en (C) estimando el coeficiente
de variación.
(E) Calcule un intervalo de confianza de aproximadamente 95 % para las ventas men-
suales promedio del nuevo producto en las tiendas de las cuatro cadenas.
(F) Repita (A)-(E) usando el paquete survey de R.
(G) Repita (A)-(E) suponiendo que en cada estrato la muestra se seleccionó de acuerdo
al muestreo de bernoulli con π = 0.18.
4. Con el objetivo de estimar el costo total de la reparación de una autopista de 120
kilómetros de longitud, las autoridades de transporte dividen la autopista en 120 seg-
mentos de aproximadamente 1 kilómetro cada uno. Luego, se selecciona una muestra de
segmentos de acuerdo al muestreo sistemático con m = 10 y r = 2. Los ingenieros visi-
tan los segmentos seleccionados, inspeccionan la condición del pavimento y determinan
el costo de su reparación, en miles de dólares. Los resultados son los siguientes:
Segmento Costo de Segmento Costo de
No reparación No reparación
4 15.7 10 8.7
16 4.9 22 6.7
28 3.5 34 12.3
40 15.6 46 10.6
52 8.1 58 3.0
64 9.0 70 3.7
76 4.8 82 8.6
88 5.5 94 4.1
100 11.8 106 11.7
112 14.9 118 7.1
6. Se quiere estimar la cantidad promedio de dinero que los hogares de cierta ciudad
gastan en servicios públicos. No existe una lista de hogares disponible pero si existe un
listado de los distritos que conforman la ciudad. Entonces, se selecciona una muestra
aleatoria simple de 20 de los 60 distritos en la ciudad. Se entrevistan todos los hogares
en los distritos seleccionados y se determina la cantidad de dinero, en dólares, que cada
hogar gasta en servicios públicos. Los resultados son los siguientes
Distrito Número de Gasto promedio Distrito Número de Gasto promedio
No hogares de los hogares No hogares de los hogares
en el distrito en el distrito en el distrito en el distrito
2 55 2210 34 73 2930
3 60 2390 35 64 2470
5 63 2430 38 69 2830
9 58 2380 47 58 2370
10 71 2760 48 63 2390
12 78 3110 50 75 2870
15 69 2780 51 78 3210
17 58 2370 54 51 2430
18 52 1990 56 67 2730
19 71 2810 58 70 2880
Florida California
Tienda Número total Tiempo total Tienda Número total Tiempo total
No de empleados de licencia No de empleados de licencia
en la tienda por enfermedad en la tienda por enfermedad
en la tienda en la tienda
6 12 40 5 16 51
10 20 52 35 8 32
21 8 30 58 4 11
30 14 36 61 3 10
44 24 71 63 12 33
55 15 48 67 17 39
77 10 39 86 24 61
78 6 21 98 30 37
110 21 40
134 9 41
(A) Estime el tiempo promedio, en dias, de licencia por enfermedad de los empleados
de la firma en cada estado.
(B) Estime el error muestral asociado a los resultados dados en (A) estimando el
coeficiente de variación en cada estrato.
(C) Estime el tiempo promedio, en dias, de licencia por enfermedad de los empleados
de la firma.
(D) Estime el error muestral asociado al resultado dado en (C) estimando el coeficiente
de variación.
(E) Repita (A)-(D) usando el paquete survey de R.
(F) Repita (A)-(D) suponiendo que la muestra de tiendas se seleccionó de acuerdo al
muestreo de bernoulli con π = 0.1 en el estrato I y π = 0.07 en el estrato II.