Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cap 3 PDF
Cap 3 PDF
1
2
bolas al azar. Si todo el proceso se realiza de manera adecuada, las bolas selec-
cionadas constituirı́an una muestra aleatoria simple de 65 estudiantes. Aunque
es conceptualmente simple, este método es un poco trabajoso de ejecutar y de-
pende de que las bolas se hayan mezclado de manera adecuada y que todas las
bolas tengan el mismo peso y rozamiento.
Otra manera de seleccionar esta muestra aleatoria simple consistirı́a en uti-
lizar una tabla de números aleatorios. Una tabla de números aleatorios es un
conjunto de dı́gitos generado de modo que, normalmente, la tabla contendrá a
cada uno de los diez dı́gitos (0, 1, . . . , 9), en proporciones aproximadamente igua-
les, sin mostrar tendencias en el patrón que se generan los dı́gitos. Por lo tanto, si
se selecciona un número en un lugar aleatorio de la tabla, es igualmente probable
que sea cualquiera de los dı́gitos entre el 0 y el 9. Estas tablas se construyen para
asegurar que cada dı́gito, cada par de dı́gitos, cada tres dı́gitos, ... aparecen con
la misma frecuencia. En el caso de extraer una muestra aleatoria simple, se elige
un lugar para empezar a leer dichos números aleatorios. Después se selecciona
una dirección (arriba, abajo, derecha e izquierda) y se van recogiendo dı́gitos
de dos en dos hasta que se consiga el tamaño muestral adecuado. Utilizando
este método, un elemento puede aparecer más de una vez. Si queremos extraer
una muestra aleatoria simple sin reposición, la solución es ignorar los elementos
repetidos.
Las ventajas que tiene este procedimiento de muestreo son las siguientes:
Sencillo y de fácil comprensión.
Cálculo rápido de medias y varianzas.
Existen paquetes informáticos para analizar los datos
Por otra parte, las desventajas de este procedimiento de muestreo son:
Requiere que se posea de antemano un listado completo de toda la pobla-
ción.
Si trabajamos con muestras pequeñas, es posible que no representen a la
población adecuadamente.
πi = P (ui ∈ s) =
N −1
Total de muestras que contienen a ui n−1 n
= = =
Total de muestras N N
n
Casos favorables
πij = P ((ui , uj ) ∈ s) =
Casos posibles
Total de muestras que contienen a (ui , uj ) n(n − 1)
= =
Total de muestras N (N − 1)
Ω = {u1 , u2 , u3 , . . . , uN },
en los que se estudiar una variable de interés X que toma los valores
X(Ω) = {X1 , X2 , X3 , . . . , XN },
X(s) = {X1 , X2 , X3 , . . . , Xn },
Total
N n n n
X X Xi X Xi NX
θ=X= Xi =⇒ Yi = Xi =⇒ X
b= = = Xi = N X
b̄
i=1 i=1
πi i=1
n/N n i=1
Media
N n
X X Xi
θ = X̄ = Xi /N =⇒ Yi = Xi /N =⇒ X
b̄ =
i=1 i=1
N n/N
Total de clase
N n n
X X Ai 1X
θ=A= Ai =⇒ Yi = Ai =⇒ A
b= =N Ai
i=1 i=1
n/N n i=1
Proporción
N n n
X X Ai /N 1X
θ=P = Ai /N =⇒ Yi = Ai /N =⇒ Pb = = Ai
i=1 i=1
n/N n i=1
Evidentemente cualquier de estos estimadores nos indican muy poco acerca del
parámetro poblacional a estimar a menos que sea posible evaluar la bondad
del estimador. Por lo tanto, además de estimar los parámetros poblacionales, se
desearı́a fijar un lı́mite sobre el error de estimación. Mediante ciertos cálculos,
es posible calcular la varianza del estimador de Horvitz-Thompson para cada
uno de los estimadores. Las varianzas de los estimadores anteriores nos van a
proporcionar los errores estándar de estimación y vienen dado por:
S2
V ar(X)
b = N 2 (1 − f )
n
S2
V ar(X)
b̄ = (1 − f )
n
N 1
V ar(Pb) = (1 − f )P Q
N −1n
N3 1
V ar(A)
b = (1 − f )P Q
N −1n
Vamos a analizar las varianzas de los estimadores. En el caso del estimador
del total y de la media poblacional dependen de S 2 que es la cuasi-varianza
poblacional. Esta cuasi-varianza poblacional S 2 tiene la siguiente expresión
N
2 1 X
S = (Xi − X̄)2 ,
N − 1 i=1
6
Ω = {u1 , u2 , u3 , u4 },
sobre los que medimos una variable X obteniendo como resultados {8, 3, 4, 6} en
cada uno de los elementos de la población. Mediante muestreo aleatorio simple
sin reposición, se extraen muestras de tamaño 2. Se pide:
Número de elementos del espacio muestral.
Especificar dicho espacio muestral y determinar las probabilidades asocia-
das a las muestras.
Hallar las distribuciones en el muestreo de los estimadores de la media
y del total de X ası́ como la varianza de los estimadores. Calcular la
cuasivarianza de cada muestra.
7
Sb2
Vb (X)
b = N 2 (1 − f )
n
Sb2
Vb (X)
b̄ = (1 − f )
n
1 bb
V (P ) = (1 − f )
b b PQ
n−1
b = N 2 (1 − f ) 1 PbQ
Vb (A) b
n−1
b = 1 − Pb.
luego Q
Notar que Sb2 dada en (1.1) puede expresarse como
n
1 X
Sb2 = b̄ 2
(Xi − X)
n − 1 i=1
n
!
1 X
b̄ 2
= Xi2 − nX .
n−1 i=1
8
X
b = NX
b̄ = 750(10,31) = 7732,5 horas.
Ejemplo 4 Una gran empresa constructora tiene 120 casas en diversas etapas
de construcción. Para estimar la cantidad total (en miles de euros) que será re-
gistrada en el inventario de la construcción en proceso, se seleccionó una muestra
aleatoria simple de 12 casas y se determinaron los costes acumulados en cada
una de ellas. Los costos obtenidos para las 12 casas fueron los siguientes:
35,5, 30,2, 28,9, 36,4, 29,8, 34,1, 32,6, 26,4, 38, 38,2, 32,2, 27,5.
9
Estimar los costes totales acumulados para las 120 casas y dar una esti-
mación del error de muestreo. Dar un intervalo de confianza al 95 % para
el coste total.
Estimar la proporción de casas cuyos costes de construcción superan los
32.000 euros. Dar una estimación del error.
Para estimar los costes totales acumulados para las 120 casas tenemos en
cuenta que el estimador lineal insesgado del total de una caracterı́stica X sobre
una población viene dado por:
X
b = N X,
b̄
y por lo tanto
X b̄ = 120·32,4833 = 3897,996 ∼
b = NX = 3898,
es decir, el coste total acumulado estimado para las 120 casas será de 3898 miles
de euros.
Vamos a dar una estimación de la varianza de dicho estimador. Utilizando
las fórmulas anteriores, se tiene que:
b2
b = N 2 (1 − f ) S .
Vb (X)
n
Calculamos la cuasivarianza muestral de los costes acumulados
12 P12
1 X X 2 − n(X)
b̄ 2 12839,36 − 12·32,48332
2
S =
b (Xi −X) = i=1 i
b̄ 2
= = 160 1233,
11 i=1 n−1 11
entonces
Vb (X)
b = 17410,
y la correspondiente estimación para el error de muestreo será
b = 1310 958948
σ(X)
El intervalo de confianza al 95 % viene dado por
b − z1−α/2 σ
(X bXb , X bXb ) = (36390 4, 41560 6).
b + z1−α/2 σ
o lo que es lo mismo el 58,33 % de las casas sobrepasan los 32000 euros. Una
estimación de la varianza del estimador Pb viene dado por
1 bb
Vb (Pb) = (1 − f ) P Q = 00 0199
n−1
de manera que el error asociado para dicha varianza es de
eb(Pb) = 00 1411.
b = σ(θ) .
b
er (θ)
b = CV (θ)
E(θ)
b
Estimador de la media
r
S2 n S2 S2 S2
= σ(X) = (1 − f )
b̄ =⇒ 2 = 1 − = −
n N n n N
S2 S2 S2 N S2
=⇒ = 2 + =⇒ n = 2 =
n N 2 + NS N 2 + S 2
Se observa que cuando N → ∞ (fracción de muestreo n/N tendiendo a
cero) el tamaño muestral n → S 2 /2 = n0 (n es inversamente propor-
cional al error de muestreo). En una situación práctica, la solución para
n presenta un problema debido a que en la mayorı́a de las ocasiones, la
cuasi-varianza poblacional S 2 es desconocida. Puesto que la cuasi-varianza
muestral Sb2 suele estar disponible de algún experimento anterior, es po-
sible obtener un tamaño de muestra aproximado al reemplazar S 2 por Sb2
en la expresión anterior.
Estimador del total
r
S2 n S2 S2 S2
= σ(X) = N 2 (1 − f )
b =⇒ 2 = N 2 1 − = N2 − N2
n N n n N
S2 N 2S2 N 2S2 N 3S2 N 2S2
=⇒ N 2 = 2 + =⇒ n = 2S2 = 2 2 2
= 2 .
n N 2
+ N N N + N S e + N S2
Análogamente al caso anterior, en la mayorı́a de las situaciones prácti-
cas, la cuasi-varianza poblacional S 2 es desconocida. Si se tiene la cuasi-
varianza muestral Sb2 de algún experimento anterior, se reemplaza S 2 por
Sb2 en la expresión anterior.
Estimador de la proporción
r
N PQ N n PQ
= σ(P ) =
b̄ (1 − f ) =⇒ 2 = 1−
N −1 n N −1 N n
NPQ PQ N P Q/(N − 1) NPQ
=⇒ = 2 + =⇒ n = P Q
= .
(N − 1)n N −1 2
+ N −1 (N − 1)2 + P Q
Estimador de la media
q
2
(1 − f ) Sn
b̄ = σ(X) =
b̄
er = CV (X) .
E(X)
b̄ X̄
S2
n → n0 = .
X̄ 2 e2r
Es decir, a medida que el valor de er aumenta, el valor de la muestra
disminuye. Como en el caso del error absoluto, la solución para n presenta
un problema debido a que en la mayorı́a de las ocasiones, la cuasi-varianza
poblacional S 2 es desconocida. Puesto que la cuasivarianza muestral Sb2
suele estar disponible de algún experimento aleatorio anterior, es posible
obtener un tamaño de muestra aproximado al reemplazar S 2 por Sb2 .
Estimador del total
q
2
N 2 (1 − f ) Sn
b = σ(X) =
b
er = CV (X) .
E(X)
b X
35,5, 30,2, 28,9, 36,4, 29,8, 34,1, 32,6, 26,4, 38, 38,2, 32,2, 27,5.
Estimar los costes totales acumulados para las 120 casas y dar una estima-
ción del error relativo de muestreo. ¿Cuál deberı́a ser el tamaño muestral
óptimo para reducir dicho error relativo en un 10 %?
Estimar la proporción de casas cuyos costes de construcción superan los
32 mil euros. Dar una estimación del error relativo de muestreo. ¿Cuál
deberı́a ser el tamaño muestral óptimo para reducir dicho error relativo en
un 10 %?
P |θb − θ| ≤ eα = 1 − α =⇒ P (−eα ≤ θb − θ ≤ eα ) = 1 − α
Por lo tanto,
!
eα θb − θ eα
P − ≤ ≤ = 1 − α,
σ(θ)
b σ(θ)
b σ(θ)
b
de manera que
eα
z1−α/2 = =⇒ eα = z1−α/2 σ(θ).
b
σ(θ)
b
De esta forma vemos que la identidad fundamental para obtener n según un
error de muestreo dado cuando existe un coeficiente de confianza adicional dado
es la siguiente
eα = z1−α/2 σ(θ).
b
Estimador de la proporción
2
z1−α/2 NPQ
n= 2 .
(N − 1)e2α + z1−α/2 PQ
!
θb − θ
P ≤ er,α = 1 − α =⇒ P (−θer,α ≤ θb − θ ≤ θer,α ) = 1 − α
θ
Por lo tanto, !
θer,α θb − θ θer,α
P − ≤ ≤ = 1 − α,
σ(θ)
b σ(θ)
b σ(θ)
b
de donde se deduce que
θer,α
= z1−α/2 , =⇒ er,α = z1−α/2 Cv(θ).
b
σ(θ)
b
Ejemplo 9 Obtener los valores de n para un error de muestro er,α con coefi-
ciente de confianza adicional 1 − α para los diferentes estimadores.
17
Estimador de la media
2 2
z1−α/2 C1,x S
n= 2 2 /N , C1,x =
e2r,α + z1−α/2 C1,x X̄
Estimador de la proporción
2
N Qz1−α/2
n= 2 .
P (N − 1)e2r,α + z1−α/2 Q