Taller ME II

Universidad Nacional de Colombia
Departamento de Estadı́stica
Muestreo Estadı́stico
Taller II / 2019-I
Profesor: Luis Hernando Vanegas
lhvanegasp@unal.edu.co
1. Responda falso (F) o verdadero (V) a las siguientes afirmaciones. Justifique muy bien
su respuesta.
(A) Para seleccionar una muestra de acuerdo a un diseño muestral estratificado se

puede usar el siguiente procedimiento
Paso 1: Particionar la población finita, U = {1, . . . , k, . . . , N}, en H estratos de-
notados por U1 , . . . , Uh , . . . , UH cuyos tamaños son N1 , . . . , Nh , . . . , NH , res-
pectivamente. Estos H estratos satisfacen lo siguiente
H
[ \
U= Uh y Uh Uh′ = ∅ para todos h 6= h′ .
h=1
H
P H
P P
Por lo tanto, N = Nh y ty = tyh , en que tyh = yk .
h=1 h=1 k ∈ Uh
Paso 2: De cada estrato, h, se selecciona una muestra probabilı́stica, denotada
Sh , de tamaño nh , de acuerdo al diseño muestral ph (·), la cual es indepen-
diente a las seleccionadas en los demás estratos. Por lo tanto, las variables
aleatorias t̂yπ1 , . . . , t̂yπH son independientes, en que t̂yπh es el estimador de
Horvitz-Thompson de tyh .
Para estimar θ = ty usando muestreo estratificado se tiene que
H
X H
X H
X
θ̂ = t̂yπh , Var(θ̂) = Var(t̂yπh ) y V̂ar(θ̂) = V̂ar(t̂yπh ),
h=1 h=1 h=1
en que Var(t̂yπh ) y V̂ar(t̂yπh ) representan, respectivamente, la varianza y la esti-

mación de la varianza de t̂yπh .
De forma similar, para estimar θ = ty /N bajo muestreo estratificado cuando N

es conocido se tiene que
H H H
1 X 1 X 1 X
θ̂ = t̂yπ , Var(θ̂) = Var( t̂yπh ) y V̂ar( θ̂) = V̂ar(t̂yπh ).
N h=1 h N 2 h=1 N 2 h=1
Además, θ̂ es un estimador insesgado de θ y V̂ar(θ̂) es un estimador insesgado de

Var(θ̂), en que esto último vale siempre que V̂ar(t̂yπh ) es un estimador insesgado
de Var(t̂yπh ) para todo h = 1, . . . , H.
(B) Las razones para usar un diseño muestral estratificado incluyen las siguientes
1. En un diseño muestral estratificado se garantiza que la muestra incluya in-
dividuos de todos los estratos. Además, los individuos de la población no
incluidos en la muestra se representan usando individuos del mismo estrato.
Por lo tanto, si los individuos de la población son bastante homogeneos al
interior de los estratos con respecto a la variable de interés, y, entonces el
diseño muestral estratificado puede producir menor error muestral que una
muestra del mismo tamaño (esperado) pero no estratificada.
2. En estratificación se pueden usar diferentes diseños muestrales en cada es-
trato, permitiendo ası́ dar un manejo diferenciado a los individuos de cada
estrato.
3. Se pueden desear estimaciones de los parámetros de interés para algunos
subgrupos de la población, lo cual se facilita bastante cuando tales subgrupos
se consideran como estratos.
(C) Para estimar θ = ty usando MAS estratificado se tiene que
H H H
X X 1 − fh 2 X 1 − fh 2
θ̂ = Nh ȳSh , Var(θ̂) = Nh Sy y V̂ar(θ̂) = Nh Sy ,
fh Uh fh Sh
h=1 h=1 h=1
en que Nh , Sy2 = (Nh − 1)−1 (yk − ȳUh )2 , ȳUh = Nh−1 yk , Sy2 = (nh −
P P
Uh Sh
k ∈ Uh k ∈ Uh
(yk − ȳSh )2 , ȳSh = n−1
P P
1)−1 h yk , fh = nh /Nh y nh son el tamaño, la varian-
k ∈ Sh k ∈ Sh
za poblacional, la media poblacional, la varianza muestral, la media muestral, la
fracción muestral y el tamaño de la muestra, respectivamente, todo correspon-
diente al estrato h. Además, θ̂ es un estimador insesgado de θ y V̂ar(θ̂) es un
estimador insesgado de Var(θ̂), en que esto último vale siempre que nh ≥ 2 para
todo h = 1, . . . , H.
Por otro lado, los tamaños de la muestra por estrato, n1 , . . . , nH , que minimizan
H
P
la varianza de θ̂ sujetos a la restricción n = nh están dados por (asignación
h=1
óptima o asignación de Neyman)
Nh Sy2
Uh
nh = n H
.
P
Nh′ Sy2
U
h′ =1 h′
Si Sy2 = Sy2 = . . . = Sy2 entonces nh se reduce a

U1 U2 UH
Nh Nh
nh = n =n ,
H
P N
Nh′
h′ =1
que se conoce como asignación proporcional al tamaño del estrato. Si, además,
N1 = N2 = . . . = NH , entonces nh se reduce a nh = n/H. Las conclusiones ante-
riores sobre los tamaños de la muestra óptimos, n1 , . . . , nH , son válidas también
cuando θ = ty /N (N es conocido).
(D) Para estimar θ = ty /N (N es conocido) usando MAS estratificado cuando la
variable de interés, y, es dicotómica (es decir, cuando y = 1 y y = 0 representan,
respectivamente, la presencia y ausencia de un atributo de interés) se tiene que
H
X
θ̂ = wh pSh ,
h=1
H H
X − fh pUh(1 − pUh)
1 X pS (1 − pSh)
Var(θ̂) = wh2 y V̂ar(θ̂) = wh2 (1 − fh ) h ,
h=1
fh Nh − 1 h=1
nh − 1
en que wh = Nh /N, pUh = Nh−1 yk y pSh = n−1

P P
h yk representan, respecti-
k ∈ Uh k ∈ Sh
vamente, el tamaño relativo, la proporción poblacional y la proporción muestral,
todo correspondiente al estrato h.
Por otro lado, los tamaños de la muestra por estrato, n1 , . . . , nH , que minimizan
H
P
la varianza de θ̂ bajo la restricción n = nh están dados por (asignación óptima
h=1
o asignación de Neyman)
Nh2 pUh(1 − pUh)/(Nh − 1)

nh = n H .
P 2
Nh′ pU ′(1 − pU ′)/(Nh′ − 1)
h h
h′ =1
(E) Para estimar θ = ty usando el diseño de bernoulli estratificado se tiene que

H
X nh
θ̂ = ȳSh ,
h=1
πh
H H
X 1 − πh X 2 X 1 − πh h i
Var(θ̂) = yk = Nh (1 − Nh−1 )Sy2 + ȳU2 , y
h=1
πh k ∈ U h=1
πh Uh h
h
H H
X 1 − πh X 2 X 1 − πh h −1 2 2
i
V̂ar(θ̂) = y = nh (1 − n )S + ȳ ,
h=1
πh2 k ∈ S k h=1 πh2 h yS
h
Sh
h
en que πh es la fracción muestral esperada en el estrato h. Además, θ̂ es un

estimador insesgado de θ y V̂ar(θ̂) es un estimador insesgado de Var(θ̂). Por otro
lado, las fracciones muestrales esperadas por estrato, π1 , . . . , πH , que minimizan
H
P
la varianza de θ̂ sujetas a la restricción n̄ = E(n) = Nh πh están dadas por
h=1
q
(1 − Nh−1 )Sy2 + ȳU2
Uh h
πh = n̄ H q .
P −1
Nh′ (1 − Nh )SyU + ȳU ′
2 2
h′ h
h′ =1
Las conclusiones anteriores sobre las fracciones muestrales esperadas óptimas,

π1 , . . . , πH , son válidas también cuando θ = ty /N (N es conocido).
(F) Para estimar θ = ty /tx se puede usar el siguiente estimador
P yk
t̂yπ k ∈ S πk
θ̂ = = P xk .
t̂xπ
k ∈ S πk
La “linealización” de Taylor permite mostrar que, para valores “grandes” de la

fracción muestral esperada (es decir, para valores “grandes” de E(n/N)), se tiene
lo siguiente X X zk zl
E(θ̂) ≈ θ y Var(θ̂) ≈ ∆kl ,
k,l ∈ U
πk πl
P
en que zk = (yk − θxk )/tx es tal que z̄U = N −1
zk = 0. Un estimador de la
k∈U
varianza (aproximada) de θ̂ se puede expresar como sigue
X X ẑk ẑl ∆kl
V̂ar(θ̂) = ,
k,l ∈ S
πk πl πkl
en que ẑk = (yk − θ̂xk )/t̂xπ .

(G) Para estimar θ = ty /tx usando el diseño muestral MAS se tiene que
ȳ 1 1 − fX 2 1 1 − fX 2
θ̂ = S , Var(θ̂) ≈ zk y V̂ar( θ̂) = ẑ ,
x̄S 1 − N −1 f k ∈ U f − N −1 f k ∈ S k
en que ẑk = (yk − θ̂xk )/N x̄S es tal que ẑ¯S = n−1
P
ẑk = 0. De forma similar, para
k∈S
estimar θ = ty /tx usando el diseño muestral de bernoulli se tiene que
ȳ 1 − πX 2 1 − πX 2
θ̂ = S , Var(θ̂) ≈ zk y V̂ar(θ̂) = ẑ ,
x̄S π k∈U π2 k ∈ S k
donde ẑk = (yk − θ̂xk )/(nx̄S /π).

(H) Si θ = ty /tx y Nπ = n entonces VarBER(θ̂)/VarMAS(θ̂) ≈ 1. Por lo tanto, en un
escenario donde los diseños muestrales de Bernoulli y MAS se pueden comparar,
es decir, cuando los tamaños esperados de la muestra bajo los dos diseños coinciden
(esto es, Nπ = n), se puede concluir que la eficiencia de θ̂ es la misma bajo estos
dos diseños muestrales.
(I) Para seleccionar una muestra de acuerdo a un diseño muestral de conglomerados
se puede usar el siguiente procedimiento
Paso 1: Particionar la población finita, U = {1, . . . , k, . . . , N}, en NI conglome-
rados denotados por U1 , . . . , Ui , . . . , UNI cuyos tamaños son N1 , . . . , Ni , . . . , NNI ,
respectivamente. Estos conglomerados satisfacen lo siguiente
NI
[ \
U= Ui y Ui Uj = ∅ para todos i 6= j.
i=1
NI
P NI
P P
Por lo tanto, N = Ni y ty = ti , en que ti = yk .
i=1 i=1 k ∈ Ui
Paso 2: A partir de la población de conglomerados, UI = {1, . . . , i, . . . , NI },
seleccionar una muestra probabilı́stica, denotada por SI y de tamaño nI ,
usando el diseño muestral pI (·), donde las probabilidades de inclusión de
primer y segundo orden se denotan, respectivamente, por
πIi = P(i ∈ SI ) y πIij = P(i, j ∈ SI ) para todos i 6= j.
Paso 3: Incluir en la muestra a todos los individuos pertenecientes a los conglo-

merados seleccionados en el paso anterior, de forma que
[ X
S= Ui y n= Ni .
i ∈ SI i ∈ SI
Lo anterior implica que

(
πIi si k, l ∈ Ui ,
πk = πIi para todo k ∈ Ui y πkl =
πIij si k ∈ Ui y l ∈ Uj , i 6= j.
Por lo tanto, para estimar θ = ty se tiene lo siguiente

X yk X ti X X ti tj
θ̂ = = , Var(θ̂) = ∆Iij
k∈S
πk i ∈ S πIi i∈U j ∈U
πIi πIj
I I I
y
X X ti tj ∆Iij
V̂ar(θ̂) = ,
i∈S j ∈S
πIi πIj πIij
I I
en que θ̂ y V̂ar(θ̂) son estimadores insesgados, donde esto último vale siempre que
πIij > 0 para todos i, j ∈ UI . Además, el tamaño esperado de la muestra está
dado por la siguiente expresión
X
E(n) = Ni πIi .
i ∈ UI
Por lo tanto, el diseño muestral sistemático es un caso especial del diseño MAS
de conglomerados donde NI = a y nI = r.
(J) Las razones para usar un diseño muestral de conglomerados incluyen las siguientes
1. La construcción de un marco muestral de las unidades de observación puede
ser difı́cil, costosa o imposible, mientras que la construcción de un marco
muestral de conglomerados de unidades de observación puede ser más fácil,
más barata y, por lo tanto, más viable.
2. Los individuos de la población puede estar agrupados naturalmente en conglo-
merados, por lo que seleccionar conglomerados y medir/entrevistar/observar
a todos los individuos en su interior puede ser más barato y más rápido
que medir/entrevistar/observar la misma cantidad de individuos cuando su
selección no tiene en cuenta la estructura natural de conglomerados en la
población.
(K) Para estimar θ = ty usando MAS de conglomerados se tiene que
X yk 1 − fI 2 1 − fI 2
θ̂ = = NI t̄SI , Var(θ̂) = NI StU y V̂ar(θ̂) = NI StS ,
k∈S
πk fI I fI I
en que t̄SI = n−1 ti , St2U = (NI − 1)−1 (ti − t̄UI )2 , t̄UI = NI−1
P P P
I ti y
I
i ∈ SI i ∈ UI i ∈ UI
St2S = (nI − 1)−1 (ti − t̄SI )2 .
P
I
i ∈ SI
De forma similar, para estimar θ = ty usando el diseño de bernoulli de conglome-

rados, se tiene que
X yk nI 1 − πI X 2 1 − πI X 2
θ̂ = = t̄SI , Var(θ̂) = ti y V̂ar(θ̂) = 2
ti ,
k∈S
π k πI πI
i∈U
πI i∈S
I I
donde NI πI es el tamaño esperado de la muestra de conglomerados.

P P
(L) Para estimar θ = ty /tx = yk / xk usando un diseño muestral de conglome-
k∈U k∈U
rados se tiene que
P yk P tyi
t̂yπ k ∈ S πk i ∈ S πIi
X X tzi tzj
θ̂ = = P xk = PI , Var(θ̂) ≈ ∆Iij
t̂xπ txi πIi πIj
i∈U j ∈U
I I
k ∈ S πk i ∈ SI πIi
y
X X tẑi tẑj ∆Iij
V̂ar(θ̂) = ,
i ∈ SI j ∈ SI
π Ii πIj πIij
P P P P
en que tyi = yk , txi = xk , tzi = zk , tẑi = ẑk , zk = (yk − θxk )/tx y
k ∈ Ui k ∈ Ui k ∈ Ui k ∈ Ui
ẑk = (yk − θ̂xk )/t̂xπ .
(M) Para estimar θ = ty /tx usando MAS de conglomerados se tiene que
t̄ySI 1 − fI X 2 1 − fI X 2
θ̂ = , Var(θ̂) ≈ aI t y V̂ar(θ̂) = aI t ,
t̄xSI fI i ∈ U zi fI i ∈ S ẑi
I I
en que t̄ySI = n−1 tyi , t̄xSI = n−1 txi , aI = (1 − NI−1 )−1 y ẑk = (yk −
P P
I I
i ∈ SI i ∈ SI
θ̂xk )/NI t̄xSI . De forma similar, para estimar θ = ty /tx usando el diseño de ber-
noulli de conglomerados, se tiene que
t̄ySI 1 − πI X 2 1 − πI X 2
θ̂ = , Var(θ̂) ≈ t y V̂ar(θ̂) = t ,
t̄xSI πI i ∈ U zi πI i ∈ S ẑi
I I
en que ẑk = (yk − θ̂xk )/(nI /πI ) t̄xSI .

(N) Si θ = ty /tx y NI πI = nI entonces VarBER(θ̂)/VarMAS(θ̂) ≈ 1. Por lo tanto, en un
escenario donde los diseños muestrales de conglomerados de Bernoulli y MAS se
pueden comparar, es decir, cuando los tamaños esperados de la muestra bajo los
dos diseños coinciden (esto es, NI πI = nI ), se puede concluir que la eficiencia de
θ̂ es la misma bajo estos dos diseños muestrales de conglomerados.
(O) Las funciones svytotal(), svymean() y svyratio() del paquete survey de R
son útiles para calcular θ̂ bajo MAS (elementos, sistemático, estratificado de ele-
mentos, conglomerados, estratificado de conglomerados, etc) cuando
P yk P yk
k ∈ S πk k ∈ S πk
X yk t̂yπ t̂yπ
θ̂ = t̂yπ = , θ̂ = = P , y θ̂ = = P xk ,
πk N̂ 1 t̂xπ
k∈S
k∈S k π k ∈ S πk
respectivamente. Por lo tanto, la función svymean() es un caso especial de la

función svyratio() cuando xk = 1 para todo k ∈ U. Sin embargo, para MAS
de elementos se tiene que svymean() calcula θ̂ = t̂yπ /N ya que en ese caso N̂ =
P 1
= N.
k ∈ S πk
2. Un investigador quiere estimar el número total de gansos de nieve en la isla Bylot,

en los territorios del Noroeste de Canadá. Los investigadores dividen la isla en 400
parcelas de aproximadamente 2 kilómetros cuadrados cada una. Las 400 parcelas se
clasificaron en tres estratos (Calidad alta, Calidad media y Calidad baja) construidos a
partir de algunos factores ecológicos que se sabe que están asociados con la abundancia
de los gansos de nieve. Se pretende realizar la estimación del número total de gansos
de nieve en las isla usando MAS estratificado con una muestra total de 83 parcelas.
Total de Desviación estándar
Estrato parcelas del número de
gansos por parcela
Calidad alta 65 316.9
Calidad media 127 127.7
Calidad baja 208 30.5
(A) Use la asignación proporcional al tamaño y los datos de la tabla anterior para
determinar los tamaños de la muestra para cada estrato.
(B) Use la asignación de Neyman y los datos de la tabla anterior para determinar los
tamaños de la muestra óptimos para cada estrato.
3. Un distribuidor mayorista de alimentos en una gran ciudad quiere saber si la demanda

de un nuevo producto es lo suficientemente grande como para justificar su inclusión en
el menú de servicios. Para tomar la decisión, el distribuidor desea estimar el promedio
de ventas mensuales del nuevo producto agregándolo a una muestra de las tiendas a
las que presta sus servicios. Ya que este distribuidor solo atiende a las cuatro grandes
cadenas de la ciudad, decide utilizar un MAS estratificado con cada cadena como un
estrato. Hay 23 tiendas en el estrato 1, 37 en el estrato 2, 29 en el estrato 3, y 29 en el
estrato 4. Por lo tanto, N1 = 23, N2 = 37, N3 = 31, N4 = 29, y N = 120. El distribuidor
tiene suficiente tiempo y dinero para recoger datos sobre las ventas mensuales de n =
20 tiendas. Usando asignación proporcional al tamaño (es decir, nh ≈ n NNh ) se obtienen
los siguientes tamaños de la muestra por estrato
23 37 31 29
n1 = 20 ≈ 4, n2 = 20 ≈ 6, n3 = 20 ≈ 5 y n4 = 20 ≈ 5.
120 120 120 120
Los resultados son los siguientes
Estrato I Estrato II Estrato III Estrato IV

N1 = 23 N2 = 37 N3 = 31 N4 = 29
n1 = 4 n2 = 6 n3 = 5 n4 = 5
94 91 108 92
90 99 96 110
102 93 100 94
110 105 93 91
111 93 113
101
(A) Estime las ventas mensuales promedio del nuevo producto en las tiendas de cada
estrato.
(B) Estime el error muestral asociado a los resultados dados en (A) estimando el
coeficiente de variación en cada estrato.
(C) Estime las ventas mensuales promedio del nuevo producto en las tiendas de las
cuatro cadenas.
(D) Estime el error muestral asociado al resultado dado en (C) estimando el coeficiente
de variación.
(E) Calcule un intervalo de confianza de aproximadamente 95 % para las ventas men-
suales promedio del nuevo producto en las tiendas de las cuatro cadenas.
(F) Repita (A)-(E) usando el paquete survey de R.
(G) Repita (A)-(E) suponiendo que en cada estrato la muestra se seleccionó de acuerdo
al muestreo de bernoulli con π = 0.18.
4. Con el objetivo de estimar el costo total de la reparación de una autopista de 120
kilómetros de longitud, las autoridades de transporte dividen la autopista en 120 seg-
mentos de aproximadamente 1 kilómetro cada uno. Luego, se selecciona una muestra de
segmentos de acuerdo al muestreo sistemático con m = 10 y r = 2. Los ingenieros visi-
tan los segmentos seleccionados, inspeccionan la condición del pavimento y determinan
el costo de su reparación, en miles de dólares. Los resultados son los siguientes:
Segmento Costo de Segmento Costo de
No reparación No reparación
4 15.7 10 8.7
16 4.9 22 6.7
28 3.5 34 12.3
40 15.6 46 10.6
52 8.1 58 3.0
64 9.0 70 3.7
76 4.8 82 8.6
88 5.5 94 4.1
100 11.8 106 11.7
112 14.9 118 7.1
(A) Estime el costo total, en miles de dólares, de la reparación de la autopista.

(B) Estime el error muestral asociado al resultado dado en (A) estimando el coeficiente
de variación.
(C) Calcule un intervalo de confianza de aproximadamente 95 % para el costo total,
en miles de dólares, de la reparación de la autopista.
(D) Repita (A)-(C) usando el paquete survey de R.
5. Un silvicultor desea estimar la altura promedio de los árboles en una plantación. No

existe una lista de árboles disponible pero si existe un listado de las 386 parcelas,
de aproximadamente 41 de acre cada una, que conforman la plantación. Entonces, se
selecciona una muestra aleatoria simple de 20 de las parcelas de la plantación. Todos
los árboles en las parcelas seleccionadas se miden para determinar su altura, en piés.
Los resultados son los siguientes
(A) La muestra de árboles se seleccionó de acuerdo a un MAS de elementos o a un

MAS de conglomerados?
(B) Estime la altura promedio, en piés, de los árboles de la plantación.
(C) Estime el error muestral asociado al resultado dado en (B) estimando el coeficiente
de variación.
(D) Calcule un intervalo de confianza de aproximadamente 95 % para la altura pro-
medio, en piés, de los árboles de la plantación.
(E) Repita (B)-(D) usando el paquete survey de R.
(F) Repita (B)-(D) suponiendo que las parcelas se seleccionaron de acuerdo al mues-
treo de bernoulli con π = 0.05.
Parcela Número de Altura promedio Parcela Número de Altura promedio
No árboles de los árboles No árboles de los árboles
en la parcela en la parcela en la parcela en la parcela
14 42 6.2 193 57 6.0
93 51 5.8 197 63 4.9
109 49 6.7 210 43 4.3
112 55 4.9 235 59 5.2
113 47 5.2 242 48 5.7
159 58 6.9 261 41 6.1
164 60 6.3 282 45 5.3
168 52 6.7 313 46 6.7
189 61 5.9 361 62 6.1
190 49 6.1 363 58 7.0
6. Se quiere estimar la cantidad promedio de dinero que los hogares de cierta ciudad
gastan en servicios públicos. No existe una lista de hogares disponible pero si existe un
listado de los distritos que conforman la ciudad. Entonces, se selecciona una muestra
aleatoria simple de 20 de los 60 distritos en la ciudad. Se entrevistan todos los hogares
en los distritos seleccionados y se determina la cantidad de dinero, en dólares, que cada
hogar gasta en servicios públicos. Los resultados son los siguientes
Distrito Número de Gasto promedio Distrito Número de Gasto promedio
No hogares de los hogares No hogares de los hogares
en el distrito en el distrito en el distrito en el distrito
2 55 2210 34 73 2930
3 60 2390 35 64 2470
5 63 2430 38 69 2830
9 58 2380 47 58 2370
10 71 2760 48 63 2390
12 78 3110 50 75 2870
15 69 2780 51 78 3210
17 58 2370 54 51 2430
18 52 1990 56 67 2730
19 71 2810 58 70 2880
(A) La muestra de hogares se seleccionó de acuerdo a un MAS de elementos o a un

MAS de conglomerados? Justifique su respuesta.
(B) Estime la cantidad promedio de dinero, en dólares, que los hogares de la ciudad
gastan en servicios públicos.
(C) Estime el error muestral asociado al resultado dado en (B) estimando el coeficiente
de variación.
(D) Calcule un intervalo de confianza de aproximadamente 95 % para la cantidad
promedio de dinero, en dólares, que los hogares de la ciudad gastan en servicios
públicos.
(E) Repita (B)-(D) usando el paquete survey de R.
(F) Repita (B)-(D) suponiendo que los distritos se seleccionaron de acuerdo al mues-
treo de bernoulli con π = 0.3.
7. Una firma especializada en la fabricación y venta de ropa tiene 80 tiendas minoristas en
Florida y 140 en California. Con cada estado como un estrato, la firma desea estimar el
tiempo promedio de licencia por enfermedad (en dı́as) de sus empleados durante el año
pasado. Cada tienda minorista puede verse como un conglomerado de empleados, y el
tiempo total (en dı́as) de licencia por enfermedad de los empleados de cada tienda se
puede determinar a partir de sus registros. Muestras aleatorias simples de 8 tiendas en
Florida y 10 tiendas en California arrojan los resultados que se presentan a continuación
Florida California
Tienda Número total Tiempo total Tienda Número total Tiempo total
No de empleados de licencia No de empleados de licencia
en la tienda por enfermedad en la tienda por enfermedad
en la tienda en la tienda
6 12 40 5 16 51
10 20 52 35 8 32
21 8 30 58 4 11
30 14 36 61 3 10
44 24 71 63 12 33
55 15 48 67 17 39
77 10 39 86 24 61
78 6 21 98 30 37
110 21 40
134 9 41
(A) Estime el tiempo promedio, en dias, de licencia por enfermedad de los empleados
de la firma en cada estado.
(B) Estime el error muestral asociado a los resultados dados en (A) estimando el
coeficiente de variación en cada estrato.
(C) Estime el tiempo promedio, en dias, de licencia por enfermedad de los empleados
de la firma.
(D) Estime el error muestral asociado al resultado dado en (C) estimando el coeficiente
de variación.
(E) Repita (A)-(D) usando el paquete survey de R.
(F) Repita (A)-(D) suponiendo que la muestra de tiendas se seleccionó de acuerdo al
muestreo de bernoulli con π = 0.1 en el estrato I y π = 0.07 en el estrato II.

Taller ME II

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Taller ME II

Cargado por

Copyright:

Formatos disponibles

Universidad Nacional de Colombia

(A) Para seleccionar una muestra de acuerdo a un diseño muestral estratificado se

en que Var(t̂yπh ) y V̂ar(t̂yπh ) representan, respectivamente, la varianza y la esti-

De forma similar, para estimar θ = ty /N bajo muestreo estratificado cuando N

Además, θ̂ es un estimador insesgado de θ y V̂ar(θ̂) es un estimador insesgado de

Si Sy2 = Sy2 = . . . = Sy2 entonces nh se reduce a

en que wh = Nh /N, pUh = Nh−1 yk y pSh = n−1

Nh2 pUh(1 − pUh)/(Nh − 1)

(E) Para estimar θ = ty usando el diseño de bernoulli estratificado se tiene que

en que πh es la fracción muestral esperada en el estrato h. Además, θ̂ es un

Las conclusiones anteriores sobre las fracciones muestrales esperadas óptimas,

La “linealización” de Taylor permite mostrar que, para valores “grandes” de la

en que ẑk = (yk − θ̂xk )/t̂xπ .

donde ẑk = (yk − θ̂xk )/(nx̄S /π).

πIi = P(i ∈ SI ) y πIij = P(i, j ∈ SI ) para todos i 6= j.

Paso 3: Incluir en la muestra a todos los individuos pertenecientes a los conglo-

Lo anterior implica que

Por lo tanto, para estimar θ = ty se tiene lo siguiente

De forma similar, para estimar θ = ty usando el diseño de bernoulli de conglome-

donde NI πI es el tamaño esperado de la muestra de conglomerados.

en que ẑk = (yk − θ̂xk )/(nI /πI ) t̄xSI .

respectivamente. Por lo tanto, la función svymean() es un caso especial de la

2. Un investigador quiere estimar el número total de gansos de nieve en la isla Bylot,

3. Un distribuidor mayorista de alimentos en una gran ciudad quiere saber si la demanda

Estrato I Estrato II Estrato III Estrato IV

(A) Estime el costo total, en miles de dólares, de la reparación de la autopista.

5. Un silvicultor desea estimar la altura promedio de los árboles en una plantación. No

(A) La muestra de árboles se seleccionó de acuerdo a un MAS de elementos o a un

(A) La muestra de hogares se seleccionó de acuerdo a un MAS de elementos o a un

También podría gustarte