Está en la página 1de 11

Universidad Nacional de Colombia

Departamento de Estadı́stica
Muestreo Estadı́stico
Taller II / 2019-I
Profesor: Luis Hernando Vanegas
lhvanegasp@unal.edu.co

1. Responda falso (F) o verdadero (V) a las siguientes afirmaciones. Justifique muy bien
su respuesta.

(A) Para seleccionar una muestra de acuerdo a un diseño muestral estratificado se


puede usar el siguiente procedimiento
Paso 1: Particionar la población finita, U = {1, . . . , k, . . . , N}, en H estratos de-
notados por U1 , . . . , Uh , . . . , UH cuyos tamaños son N1 , . . . , Nh , . . . , NH , res-
pectivamente. Estos H estratos satisfacen lo siguiente
H
[ \
U= Uh y Uh Uh′ = ∅ para todos h 6= h′ .
h=1

H
P H
P P
Por lo tanto, N = Nh y ty = tyh , en que tyh = yk .
h=1 h=1 k ∈ Uh
Paso 2: De cada estrato, h, se selecciona una muestra probabilı́stica, denotada
Sh , de tamaño nh , de acuerdo al diseño muestral ph (·), la cual es indepen-
diente a las seleccionadas en los demás estratos. Por lo tanto, las variables
aleatorias t̂yπ1 , . . . , t̂yπH son independientes, en que t̂yπh es el estimador de
Horvitz-Thompson de tyh .
Para estimar θ = ty usando muestreo estratificado se tiene que
H
X H
X H
X
θ̂ = t̂yπh , Var(θ̂) = Var(t̂yπh ) y V̂ar(θ̂) = V̂ar(t̂yπh ),
h=1 h=1 h=1

en que Var(t̂yπh ) y V̂ar(t̂yπh ) representan, respectivamente, la varianza y la esti-


mación de la varianza de t̂yπh .

De forma similar, para estimar θ = ty /N bajo muestreo estratificado cuando N


es conocido se tiene que
H H H
1 X 1 X 1 X
θ̂ = t̂yπ , Var(θ̂) = Var( t̂yπh ) y V̂ar( θ̂) = V̂ar(t̂yπh ).
N h=1 h N 2 h=1 N 2 h=1

Además, θ̂ es un estimador insesgado de θ y V̂ar(θ̂) es un estimador insesgado de


Var(θ̂), en que esto último vale siempre que V̂ar(t̂yπh ) es un estimador insesgado
de Var(t̂yπh ) para todo h = 1, . . . , H.
(B) Las razones para usar un diseño muestral estratificado incluyen las siguientes
1. En un diseño muestral estratificado se garantiza que la muestra incluya in-
dividuos de todos los estratos. Además, los individuos de la población no
incluidos en la muestra se representan usando individuos del mismo estrato.
Por lo tanto, si los individuos de la población son bastante homogeneos al
interior de los estratos con respecto a la variable de interés, y, entonces el
diseño muestral estratificado puede producir menor error muestral que una
muestra del mismo tamaño (esperado) pero no estratificada.
2. En estratificación se pueden usar diferentes diseños muestrales en cada es-
trato, permitiendo ası́ dar un manejo diferenciado a los individuos de cada
estrato.
3. Se pueden desear estimaciones de los parámetros de interés para algunos
subgrupos de la población, lo cual se facilita bastante cuando tales subgrupos
se consideran como estratos.
(C) Para estimar θ = ty usando MAS estratificado se tiene que
H H H
X X 1 − fh 2 X 1 − fh 2
θ̂ = Nh ȳSh , Var(θ̂) = Nh Sy y V̂ar(θ̂) = Nh Sy ,
fh Uh fh Sh
h=1 h=1 h=1

en que Nh , Sy2 = (Nh − 1)−1 (yk − ȳUh )2 , ȳUh = Nh−1 yk , Sy2 = (nh −
P P
Uh Sh
k ∈ Uh k ∈ Uh
(yk − ȳSh )2 , ȳSh = n−1
P P
1)−1 h yk , fh = nh /Nh y nh son el tamaño, la varian-
k ∈ Sh k ∈ Sh
za poblacional, la media poblacional, la varianza muestral, la media muestral, la
fracción muestral y el tamaño de la muestra, respectivamente, todo correspon-
diente al estrato h. Además, θ̂ es un estimador insesgado de θ y V̂ar(θ̂) es un
estimador insesgado de Var(θ̂), en que esto último vale siempre que nh ≥ 2 para
todo h = 1, . . . , H.

Por otro lado, los tamaños de la muestra por estrato, n1 , . . . , nH , que minimizan
H
P
la varianza de θ̂ sujetos a la restricción n = nh están dados por (asignación
h=1
óptima o asignación de Neyman)

Nh Sy2
Uh
nh = n H
.
P
Nh′ Sy2
U
h′ =1 h′

Si Sy2 = Sy2 = . . . = Sy2 entonces nh se reduce a


U1 U2 UH

Nh Nh
nh = n =n ,
H
P N
Nh′
h′ =1
que se conoce como asignación proporcional al tamaño del estrato. Si, además,
N1 = N2 = . . . = NH , entonces nh se reduce a nh = n/H. Las conclusiones ante-
riores sobre los tamaños de la muestra óptimos, n1 , . . . , nH , son válidas también
cuando θ = ty /N (N es conocido).
(D) Para estimar θ = ty /N (N es conocido) usando MAS estratificado cuando la
variable de interés, y, es dicotómica (es decir, cuando y = 1 y y = 0 representan,
respectivamente, la presencia y ausencia de un atributo de interés) se tiene que
H
X
θ̂ = wh pSh ,
h=1

H H
X − fh pUh(1 − pUh)
1 X pS (1 − pSh)
Var(θ̂) = wh2 y V̂ar(θ̂) = wh2 (1 − fh ) h ,
h=1
fh Nh − 1 h=1
nh − 1

en que wh = Nh /N, pUh = Nh−1 yk y pSh = n−1


P P
h yk representan, respecti-
k ∈ Uh k ∈ Sh
vamente, el tamaño relativo, la proporción poblacional y la proporción muestral,
todo correspondiente al estrato h.
Por otro lado, los tamaños de la muestra por estrato, n1 , . . . , nH , que minimizan
H
P
la varianza de θ̂ bajo la restricción n = nh están dados por (asignación óptima
h=1
o asignación de Neyman)

Nh2 pUh(1 − pUh)/(Nh − 1)


nh = n H .
P 2
Nh′ pU ′(1 − pU ′)/(Nh′ − 1)
h h
h′ =1

(E) Para estimar θ = ty usando el diseño de bernoulli estratificado se tiene que


H
X nh
θ̂ = ȳSh ,
h=1
πh
H H
X 1 − πh X 2 X 1 − πh h i
Var(θ̂) = yk = Nh (1 − Nh−1 )Sy2 + ȳU2 , y
h=1
πh k ∈ U h=1
πh Uh h
h
H H
X 1 − πh X 2 X 1 − πh h −1 2 2
i
V̂ar(θ̂) = y = nh (1 − n )S + ȳ ,
h=1
πh2 k ∈ S k h=1 πh2 h yS
h
Sh
h

en que πh es la fracción muestral esperada en el estrato h. Además, θ̂ es un


estimador insesgado de θ y V̂ar(θ̂) es un estimador insesgado de Var(θ̂). Por otro
lado, las fracciones muestrales esperadas por estrato, π1 , . . . , πH , que minimizan
H
P
la varianza de θ̂ sujetas a la restricción n̄ = E(n) = Nh πh están dadas por
h=1
q
(1 − Nh−1 )Sy2 + ȳU2
Uh h
πh = n̄ H q .
P −1
Nh′ (1 − Nh )SyU + ȳU ′
2 2
h′ h
h′ =1

Las conclusiones anteriores sobre las fracciones muestrales esperadas óptimas,


π1 , . . . , πH , son válidas también cuando θ = ty /N (N es conocido).
(F) Para estimar θ = ty /tx se puede usar el siguiente estimador
P yk
t̂yπ k ∈ S πk
θ̂ = = P xk .
t̂xπ
k ∈ S πk

La “linealización” de Taylor permite mostrar que, para valores “grandes” de la


fracción muestral esperada (es decir, para valores “grandes” de E(n/N)), se tiene
lo siguiente X X zk zl
E(θ̂) ≈ θ y Var(θ̂) ≈ ∆kl ,
k,l ∈ U
πk πl
P
en que zk = (yk − θxk )/tx es tal que z̄U = N −1
zk = 0. Un estimador de la
k∈U
varianza (aproximada) de θ̂ se puede expresar como sigue
X X ẑk ẑl ∆kl
V̂ar(θ̂) = ,
k,l ∈ S
πk πl πkl

en que ẑk = (yk − θ̂xk )/t̂xπ .


(G) Para estimar θ = ty /tx usando el diseño muestral MAS se tiene que
ȳ 1 1 − fX 2 1 1 − fX 2
θ̂ = S , Var(θ̂) ≈ zk y V̂ar( θ̂) = ẑ ,
x̄S 1 − N −1 f k ∈ U f − N −1 f k ∈ S k

en que ẑk = (yk − θ̂xk )/N x̄S es tal que ẑ¯S = n−1
P
ẑk = 0. De forma similar, para
k∈S
estimar θ = ty /tx usando el diseño muestral de bernoulli se tiene que
ȳ 1 − πX 2 1 − πX 2
θ̂ = S , Var(θ̂) ≈ zk y V̂ar(θ̂) = ẑ ,
x̄S π k∈U π2 k ∈ S k

donde ẑk = (yk − θ̂xk )/(nx̄S /π).


(H) Si θ = ty /tx y Nπ = n entonces VarBER(θ̂)/VarMAS(θ̂) ≈ 1. Por lo tanto, en un
escenario donde los diseños muestrales de Bernoulli y MAS se pueden comparar,
es decir, cuando los tamaños esperados de la muestra bajo los dos diseños coinciden
(esto es, Nπ = n), se puede concluir que la eficiencia de θ̂ es la misma bajo estos
dos diseños muestrales.
(I) Para seleccionar una muestra de acuerdo a un diseño muestral de conglomerados
se puede usar el siguiente procedimiento
Paso 1: Particionar la población finita, U = {1, . . . , k, . . . , N}, en NI conglome-
rados denotados por U1 , . . . , Ui , . . . , UNI cuyos tamaños son N1 , . . . , Ni , . . . , NNI ,
respectivamente. Estos conglomerados satisfacen lo siguiente
NI
[ \
U= Ui y Ui Uj = ∅ para todos i 6= j.
i=1

NI
P NI
P P
Por lo tanto, N = Ni y ty = ti , en que ti = yk .
i=1 i=1 k ∈ Ui
Paso 2: A partir de la población de conglomerados, UI = {1, . . . , i, . . . , NI },
seleccionar una muestra probabilı́stica, denotada por SI y de tamaño nI ,
usando el diseño muestral pI (·), donde las probabilidades de inclusión de
primer y segundo orden se denotan, respectivamente, por

πIi = P(i ∈ SI ) y πIij = P(i, j ∈ SI ) para todos i 6= j.

Paso 3: Incluir en la muestra a todos los individuos pertenecientes a los conglo-


merados seleccionados en el paso anterior, de forma que
[ X
S= Ui y n= Ni .
i ∈ SI i ∈ SI

Lo anterior implica que


(
πIi si k, l ∈ Ui ,
πk = πIi para todo k ∈ Ui y πkl =
πIij si k ∈ Ui y l ∈ Uj , i 6= j.

Por lo tanto, para estimar θ = ty se tiene lo siguiente


X yk X ti X X ti tj
θ̂ = = , Var(θ̂) = ∆Iij
k∈S
πk i ∈ S πIi i∈U j ∈U
πIi πIj
I I I

y
X X ti tj ∆Iij
V̂ar(θ̂) = ,
i∈S j ∈S
πIi πIj πIij
I I

en que θ̂ y V̂ar(θ̂) son estimadores insesgados, donde esto último vale siempre que
πIij > 0 para todos i, j ∈ UI . Además, el tamaño esperado de la muestra está
dado por la siguiente expresión
X
E(n) = Ni πIi .
i ∈ UI

Por lo tanto, el diseño muestral sistemático es un caso especial del diseño MAS
de conglomerados donde NI = a y nI = r.
(J) Las razones para usar un diseño muestral de conglomerados incluyen las siguientes
1. La construcción de un marco muestral de las unidades de observación puede
ser difı́cil, costosa o imposible, mientras que la construcción de un marco
muestral de conglomerados de unidades de observación puede ser más fácil,
más barata y, por lo tanto, más viable.
2. Los individuos de la población puede estar agrupados naturalmente en conglo-
merados, por lo que seleccionar conglomerados y medir/entrevistar/observar
a todos los individuos en su interior puede ser más barato y más rápido
que medir/entrevistar/observar la misma cantidad de individuos cuando su
selección no tiene en cuenta la estructura natural de conglomerados en la
población.
(K) Para estimar θ = ty usando MAS de conglomerados se tiene que
X yk 1 − fI 2 1 − fI 2
θ̂ = = NI t̄SI , Var(θ̂) = NI StU y V̂ar(θ̂) = NI StS ,
k∈S
πk fI I fI I

en que t̄SI = n−1 ti , St2U = (NI − 1)−1 (ti − t̄UI )2 , t̄UI = NI−1
P P P
I ti y
I
i ∈ SI i ∈ UI i ∈ UI
St2S = (nI − 1)−1 (ti − t̄SI )2 .
P
I
i ∈ SI

De forma similar, para estimar θ = ty usando el diseño de bernoulli de conglome-


rados, se tiene que
X yk nI 1 − πI X 2 1 − πI X 2
θ̂ = = t̄SI , Var(θ̂) = ti y V̂ar(θ̂) = 2
ti ,
k∈S
π k πI πI
i∈U
πI i∈S
I I

donde NI πI es el tamaño esperado de la muestra de conglomerados.


P P
(L) Para estimar θ = ty /tx = yk / xk usando un diseño muestral de conglome-
k∈U k∈U
rados se tiene que
P yk P tyi
t̂yπ k ∈ S πk i ∈ S πIi
X X tzi tzj
θ̂ = = P xk = PI , Var(θ̂) ≈ ∆Iij
t̂xπ txi πIi πIj
i∈U j ∈U
I I
k ∈ S πk i ∈ SI πIi

y
X X tẑi tẑj ∆Iij
V̂ar(θ̂) = ,
i ∈ SI j ∈ SI
π Ii πIj πIij
P P P P
en que tyi = yk , txi = xk , tzi = zk , tẑi = ẑk , zk = (yk − θxk )/tx y
k ∈ Ui k ∈ Ui k ∈ Ui k ∈ Ui
ẑk = (yk − θ̂xk )/t̂xπ .
(M) Para estimar θ = ty /tx usando MAS de conglomerados se tiene que
t̄ySI 1 − fI X 2 1 − fI X 2
θ̂ = , Var(θ̂) ≈ aI t y V̂ar(θ̂) = aI t ,
t̄xSI fI i ∈ U zi fI i ∈ S ẑi
I I
en que t̄ySI = n−1 tyi , t̄xSI = n−1 txi , aI = (1 − NI−1 )−1 y ẑk = (yk −
P P
I I
i ∈ SI i ∈ SI
θ̂xk )/NI t̄xSI . De forma similar, para estimar θ = ty /tx usando el diseño de ber-
noulli de conglomerados, se tiene que
t̄ySI 1 − πI X 2 1 − πI X 2
θ̂ = , Var(θ̂) ≈ t y V̂ar(θ̂) = t ,
t̄xSI πI i ∈ U zi πI i ∈ S ẑi
I I

en que ẑk = (yk − θ̂xk )/(nI /πI ) t̄xSI .


(N) Si θ = ty /tx y NI πI = nI entonces VarBER(θ̂)/VarMAS(θ̂) ≈ 1. Por lo tanto, en un
escenario donde los diseños muestrales de conglomerados de Bernoulli y MAS se
pueden comparar, es decir, cuando los tamaños esperados de la muestra bajo los
dos diseños coinciden (esto es, NI πI = nI ), se puede concluir que la eficiencia de
θ̂ es la misma bajo estos dos diseños muestrales de conglomerados.
(O) Las funciones svytotal(), svymean() y svyratio() del paquete survey de R
son útiles para calcular θ̂ bajo MAS (elementos, sistemático, estratificado de ele-
mentos, conglomerados, estratificado de conglomerados, etc) cuando
P yk P yk
k ∈ S πk k ∈ S πk
X yk t̂yπ t̂yπ
θ̂ = t̂yπ = , θ̂ = = P , y θ̂ = = P xk ,
πk N̂ 1 t̂xπ
k∈S
k∈S k π k ∈ S πk

respectivamente. Por lo tanto, la función svymean() es un caso especial de la


función svyratio() cuando xk = 1 para todo k ∈ U. Sin embargo, para MAS
de elementos se tiene que svymean() calcula θ̂ = t̂yπ /N ya que en ese caso N̂ =
P 1
= N.
k ∈ S πk

2. Un investigador quiere estimar el número total de gansos de nieve en la isla Bylot,


en los territorios del Noroeste de Canadá. Los investigadores dividen la isla en 400
parcelas de aproximadamente 2 kilómetros cuadrados cada una. Las 400 parcelas se
clasificaron en tres estratos (Calidad alta, Calidad media y Calidad baja) construidos a
partir de algunos factores ecológicos que se sabe que están asociados con la abundancia
de los gansos de nieve. Se pretende realizar la estimación del número total de gansos
de nieve en las isla usando MAS estratificado con una muestra total de 83 parcelas.
Total de Desviación estándar
Estrato parcelas del número de
gansos por parcela
Calidad alta 65 316.9
Calidad media 127 127.7
Calidad baja 208 30.5

(A) Use la asignación proporcional al tamaño y los datos de la tabla anterior para
determinar los tamaños de la muestra para cada estrato.
(B) Use la asignación de Neyman y los datos de la tabla anterior para determinar los
tamaños de la muestra óptimos para cada estrato.

3. Un distribuidor mayorista de alimentos en una gran ciudad quiere saber si la demanda


de un nuevo producto es lo suficientemente grande como para justificar su inclusión en
el menú de servicios. Para tomar la decisión, el distribuidor desea estimar el promedio
de ventas mensuales del nuevo producto agregándolo a una muestra de las tiendas a
las que presta sus servicios. Ya que este distribuidor solo atiende a las cuatro grandes
cadenas de la ciudad, decide utilizar un MAS estratificado con cada cadena como un
estrato. Hay 23 tiendas en el estrato 1, 37 en el estrato 2, 29 en el estrato 3, y 29 en el
estrato 4. Por lo tanto, N1 = 23, N2 = 37, N3 = 31, N4 = 29, y N = 120. El distribuidor
tiene suficiente tiempo y dinero para recoger datos sobre las ventas mensuales de n =
20 tiendas. Usando asignación proporcional al tamaño (es decir, nh ≈ n NNh ) se obtienen
los siguientes tamaños de la muestra por estrato
23 37 31 29
n1 = 20 ≈ 4, n2 = 20 ≈ 6, n3 = 20 ≈ 5 y n4 = 20 ≈ 5.
120 120 120 120
Los resultados son los siguientes

Estrato I Estrato II Estrato III Estrato IV


N1 = 23 N2 = 37 N3 = 31 N4 = 29
n1 = 4 n2 = 6 n3 = 5 n4 = 5
94 91 108 92
90 99 96 110
102 93 100 94
110 105 93 91
111 93 113
101

(A) Estime las ventas mensuales promedio del nuevo producto en las tiendas de cada
estrato.
(B) Estime el error muestral asociado a los resultados dados en (A) estimando el
coeficiente de variación en cada estrato.
(C) Estime las ventas mensuales promedio del nuevo producto en las tiendas de las
cuatro cadenas.
(D) Estime el error muestral asociado al resultado dado en (C) estimando el coeficiente
de variación.
(E) Calcule un intervalo de confianza de aproximadamente 95 % para las ventas men-
suales promedio del nuevo producto en las tiendas de las cuatro cadenas.
(F) Repita (A)-(E) usando el paquete survey de R.
(G) Repita (A)-(E) suponiendo que en cada estrato la muestra se seleccionó de acuerdo
al muestreo de bernoulli con π = 0.18.
4. Con el objetivo de estimar el costo total de la reparación de una autopista de 120
kilómetros de longitud, las autoridades de transporte dividen la autopista en 120 seg-
mentos de aproximadamente 1 kilómetro cada uno. Luego, se selecciona una muestra de
segmentos de acuerdo al muestreo sistemático con m = 10 y r = 2. Los ingenieros visi-
tan los segmentos seleccionados, inspeccionan la condición del pavimento y determinan
el costo de su reparación, en miles de dólares. Los resultados son los siguientes:
Segmento Costo de Segmento Costo de
No reparación No reparación

4 15.7 10 8.7
16 4.9 22 6.7
28 3.5 34 12.3
40 15.6 46 10.6
52 8.1 58 3.0
64 9.0 70 3.7
76 4.8 82 8.6
88 5.5 94 4.1
100 11.8 106 11.7
112 14.9 118 7.1

(A) Estime el costo total, en miles de dólares, de la reparación de la autopista.


(B) Estime el error muestral asociado al resultado dado en (A) estimando el coeficiente
de variación.
(C) Calcule un intervalo de confianza de aproximadamente 95 % para el costo total,
en miles de dólares, de la reparación de la autopista.
(D) Repita (A)-(C) usando el paquete survey de R.

5. Un silvicultor desea estimar la altura promedio de los árboles en una plantación. No


existe una lista de árboles disponible pero si existe un listado de las 386 parcelas,
de aproximadamente 41 de acre cada una, que conforman la plantación. Entonces, se
selecciona una muestra aleatoria simple de 20 de las parcelas de la plantación. Todos
los árboles en las parcelas seleccionadas se miden para determinar su altura, en piés.
Los resultados son los siguientes

(A) La muestra de árboles se seleccionó de acuerdo a un MAS de elementos o a un


MAS de conglomerados?
(B) Estime la altura promedio, en piés, de los árboles de la plantación.
(C) Estime el error muestral asociado al resultado dado en (B) estimando el coeficiente
de variación.
(D) Calcule un intervalo de confianza de aproximadamente 95 % para la altura pro-
medio, en piés, de los árboles de la plantación.
(E) Repita (B)-(D) usando el paquete survey de R.
(F) Repita (B)-(D) suponiendo que las parcelas se seleccionaron de acuerdo al mues-
treo de bernoulli con π = 0.05.
Parcela Número de Altura promedio Parcela Número de Altura promedio
No árboles de los árboles No árboles de los árboles
en la parcela en la parcela en la parcela en la parcela
14 42 6.2 193 57 6.0
93 51 5.8 197 63 4.9
109 49 6.7 210 43 4.3
112 55 4.9 235 59 5.2
113 47 5.2 242 48 5.7
159 58 6.9 261 41 6.1
164 60 6.3 282 45 5.3
168 52 6.7 313 46 6.7
189 61 5.9 361 62 6.1
190 49 6.1 363 58 7.0

6. Se quiere estimar la cantidad promedio de dinero que los hogares de cierta ciudad
gastan en servicios públicos. No existe una lista de hogares disponible pero si existe un
listado de los distritos que conforman la ciudad. Entonces, se selecciona una muestra
aleatoria simple de 20 de los 60 distritos en la ciudad. Se entrevistan todos los hogares
en los distritos seleccionados y se determina la cantidad de dinero, en dólares, que cada
hogar gasta en servicios públicos. Los resultados son los siguientes
Distrito Número de Gasto promedio Distrito Número de Gasto promedio
No hogares de los hogares No hogares de los hogares
en el distrito en el distrito en el distrito en el distrito
2 55 2210 34 73 2930
3 60 2390 35 64 2470
5 63 2430 38 69 2830
9 58 2380 47 58 2370
10 71 2760 48 63 2390
12 78 3110 50 75 2870
15 69 2780 51 78 3210
17 58 2370 54 51 2430
18 52 1990 56 67 2730
19 71 2810 58 70 2880

(A) La muestra de hogares se seleccionó de acuerdo a un MAS de elementos o a un


MAS de conglomerados? Justifique su respuesta.
(B) Estime la cantidad promedio de dinero, en dólares, que los hogares de la ciudad
gastan en servicios públicos.
(C) Estime el error muestral asociado al resultado dado en (B) estimando el coeficiente
de variación.
(D) Calcule un intervalo de confianza de aproximadamente 95 % para la cantidad
promedio de dinero, en dólares, que los hogares de la ciudad gastan en servicios
públicos.
(E) Repita (B)-(D) usando el paquete survey de R.
(F) Repita (B)-(D) suponiendo que los distritos se seleccionaron de acuerdo al mues-
treo de bernoulli con π = 0.3.
7. Una firma especializada en la fabricación y venta de ropa tiene 80 tiendas minoristas en
Florida y 140 en California. Con cada estado como un estrato, la firma desea estimar el
tiempo promedio de licencia por enfermedad (en dı́as) de sus empleados durante el año
pasado. Cada tienda minorista puede verse como un conglomerado de empleados, y el
tiempo total (en dı́as) de licencia por enfermedad de los empleados de cada tienda se
puede determinar a partir de sus registros. Muestras aleatorias simples de 8 tiendas en
Florida y 10 tiendas en California arrojan los resultados que se presentan a continuación

Florida California
Tienda Número total Tiempo total Tienda Número total Tiempo total
No de empleados de licencia No de empleados de licencia
en la tienda por enfermedad en la tienda por enfermedad
en la tienda en la tienda
6 12 40 5 16 51
10 20 52 35 8 32
21 8 30 58 4 11
30 14 36 61 3 10
44 24 71 63 12 33
55 15 48 67 17 39
77 10 39 86 24 61
78 6 21 98 30 37
110 21 40
134 9 41

(A) Estime el tiempo promedio, en dias, de licencia por enfermedad de los empleados
de la firma en cada estado.
(B) Estime el error muestral asociado a los resultados dados en (A) estimando el
coeficiente de variación en cada estrato.
(C) Estime el tiempo promedio, en dias, de licencia por enfermedad de los empleados
de la firma.
(D) Estime el error muestral asociado al resultado dado en (C) estimando el coeficiente
de variación.
(E) Repita (A)-(D) usando el paquete survey de R.
(F) Repita (A)-(D) suponiendo que la muestra de tiendas se seleccionó de acuerdo al
muestreo de bernoulli con π = 0.1 en el estrato I y π = 0.07 en el estrato II.

También podría gustarte