Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Capitulo I Introducción Al Muestreo 1. 1 Introducción
Capitulo I Introducción Al Muestreo 1. 1 Introducción
CAPITULO I
INTRODUCCIÓN AL MUESTREO
1. 1 INTRODUCCIÓN.
Muestreo es el proceso por el cual se realiza inferencias a la población
examinando una parte de ella; este proceso es aplicable en nuestra vida
personal y cotidiana así por ejemplo una pareja contrae matrimonio en
base a un corto enamoramiento, con un simple grano de arroz el ama de
casa prueba si todo el arroz esta cocinado en un recipiente, probando el
café contenido en una cucharadita se determina la calidad de la marca
del café, los dosajes y análisis clínicos (sangre, orina, etc.) Se realizan
en base a muestras, una muestra de roca lunar proporcionan información
científica sobre el origen de la luna, una zona turística de un país
muestra lo atractivo de una parle turística de dicho país y así diferentes
aspectos de la vida, cultura y ciencia son investigados en base a
muestras.
1. 2 VENTAJAS DE MUESTREO:
El estudio de una muestra tiene ventajas potenciales en los diferentes
campos de la actividad humana e investigación científica. Las ventajas
del muestreo son:
1
Métodos Estadísticos Varela/Llanos/Asnate
d). Mayor Exactitud; Los datos obtenidos con un censo o una muestra
están sujeto a diferentes tipos de errores y sesgos, la magnitud de las
cuales depende del procedimiento particular del estudio. Sin embargo, si
el mismo procedimiento se le asigna para la muestra y el censo, la
exactitud de una muestra será la misma, pero comparativamente con
una pequeña escala de proporciones un estudio muestral posibilita
mayor exactitud por practicarse un mejor control sobre la recolección y
procedimiento de datos, empleo de mejor estándar con intensidad
entrenamiento y mejor equipo a los encuestadores.
d). Único Método de Estudio; Se emplea en estudios donde el examen
de las unidades implican su destrucción, tales como: El estudio de la
calidad de alimentos envasados, estudio de la calidad de cohetes,
granadas y municiones, etc.
2
Métodos Estadísticos Varela/Llanos/Asnate
1. 5 METODOS MUESTRALES.
1. Muestreo Probabilística; Es un proceso muestral donde cada
elemento de la población tiene una probabilidad perfectamente
conocida de ser incluida en la muestra, solo una muestra
probabilística proporciona estimaciones con medida de ser
precisión.
3
Métodos Estadísticos Varela/Llanos/Asnate
4
Métodos Estadísticos Varela/Llanos/Asnate
2. Muestreo estratificado.
Es un método que trata de diseñar una muestra más eficiente que la
que se tiene por un procedimiento simple, el muestreo estratificado
requiere que la población este dividida en grupos homogéneas o
clases llamadas estatus. Para seleccionar muestras se toman de
cada uno de los estratos y hacer las respectivas estimaciones de los
parámetros mas usados: Promedio, Desviación estándar o
desviación típica, o error típico, coeficientes de variación y otros.
3. Muestreo Sistemático:
5
Métodos Estadísticos Varela/Llanos/Asnate
4. Muestreo de Conglomerados.
Se refiere al procedimientos se refiere al procedimiento de dividir a
la población en grupos o conglomerados de unidades o elementos
de la población y se extrae muestras de conglomerados que
representen a la población cuando se observan todas las unidades
elementales en las agrupaciones muéstrales se conoce como el
nombre de muestreo monoetapico, cuando se extrae una muestra
de todas las agrupaciones se conoce con el nombre de bietapico en
ambos procedimientos también se muestrea aleatoriamente.
6
Métodos Estadísticos Varela/Llanos/Asnate
7
Métodos Estadísticos Varela/Llanos/Asnate
TÉRMINOS BÁSICOS
PARAMETROS POBLACIONALES
El PARAMETRO es una función de los valores de todas las N unidades
de la población. Este valor es único, constante y por lo general
desconocido.
Entre los parámetros más usuales tenemos:
MEDIA POBLACIONAL
Es la media aritmética de los valores de la variable poblacional en
estudio. Se obtiene dividiendo el total poblacional por el número de
unidades de la población. Se denota por Y o X . Así:
Y X
Y= X=
N N
VARIANZA POBLACIONAL
Llamamos varianza poblacional a la variabilidad de los valores de la
variable en estudios en la población y es medida por la media aritmética
del cuadrado de las desviaciones de las observaciones poblacionales con
respecto a su media.
Se denota por y2 así:
1 N
σ 2y = (Yi-Y) 2
N i=1
1 N
S2Y = (Yi-Y) 2
N-1 i=1
1
La raíz S2Y = σ 2Y cuadrada positiva de la varianza se denomina
N-1
8
Métodos Estadísticos Varela/Llanos/Asnate
RAZÓN POBLACIONAL
Se obtiene dividiendo los totales o medias poblacionales
correspondientes a dos variables estudio, se denota por R,
Así:
Y Y
R= =
X X
9
Métodos Estadísticos Varela/Llanos/Asnate
PROPORCIÓN POBLACIONAL
Si “A” unidades del total N poseen un cierto atributo o pertenecen a una
cierta categoría (tal como N° de viviendas que no poseen desagüe), la
proporción poblacional P de tales unidades es:
A
P=
N
La probabilidad es igual a: 1 1
=
N Pn N(N-1)...(N-n+1)
La probabilidad es igual a:
N-1 N-2 1 1
= =
N N-1 N-2 N
12
Métodos Estadísticos Varela/Llanos/Asnate
MUESTREO ESTRATIFICADO
1. INTRODUCCION.
En ocasiones la población que se va a investigar se fracciona o
subdivide en grupos de características similares, En cada subdivisión la
población tiende a ser más homogénea que en la población original y
esto contribuye a la exactitud del proceso de muestreo. Las
subdivisiones de la población forman una partición, de manera que cada
unidad pertenece a una y sólo una subdivisión y la unión de todas ellas
conforman la población..En cuanto al método de selección y en parte al
de estimación, a cada una de las subdivisiones se le trata en forma
independiente, aunque el método de estimación las unirá en forma
global. A un esquema de este tipo se le conoce como MUESTREO
ESTRATIFICADO y a cada subdivisión trabajada de manera
independiente se le denomina ESTRATO.
13
Métodos Estadísticos Varela/Llanos/Asnate
estratificada del mismo tamaño .Esto sucede porque cuando se toma una
muestra por el método aleatorio simple hay que considerar dos clases de
errores: los que se encuentran DENTRO de cada estrato y los que hay
ENTRE dos estratos diversos. Por ejemplo, la gente que se halla en
determinado grupo socioeconómico puede tener perfectamente otro
punto de vista diferente del que tienen los que están en otro grupo.
Además, es probable que haya algunas diferencias de opinión DENTRO
de cada grupo socio económico
14
Métodos Estadísticos Varela/Llanos/Asnate
3 . NOTACIONES:
h : Denota el estrato ( h = 1, ... L)
i : Denota la unidad dentro del estrato
L : Denota el número de estratos.
Nh: Número de unidades en el estrato “h” o tamaño de estrato.
nh : Número de unidades de la muestra seleccionada en el estrato “h” o
tamaño de muestra en el estrato h.
yhi: indica el valor de la i-ésima unidad observada en el estrato “h”
Nh
Wh = : Ponderación del estrato “h” en la población
N
nh
fh = : Fracción de muestreo en el estrato “h”
Nh
Nh
Y
i=1
hi
Yh = : Media del estrato "h"
Nh
15
Métodos Estadísticos Varela/Llanos/Asnate
nh
y hi
yh Medía de la muestra del estrato “h” (Estimador
nh
insesgado de Yh )
Nh
(Y hi Y h )2
Sh2 Varianza Práctica del estrato “h”
Nh 1
nh
(y hi y h )2
sh2 Varianza de la muestra en el estrato “h”.
nh 1
Y h Nh y h Estimador insesgado del Total del Estrato “h”
4. ESTIMADORES
A.-ESTIMADOR DE LA MEDIA POBLACIONAL ( y st )
El estimador de la media poblacional en el muestreo estratificado es:
L L
Y h N h yh
y st
N N
Donde:
yh : Media de la muestra en el estrato "h"
16
Métodos Estadísticos Varela/Llanos/Asnate
MEDIA Yh Y
Yh ; yh Y ; yst / N Yˆst / N
Para una Nh N
variables
estudio Yh y
RAZON Rh ; rh h R
Y
; Rˆ st Yˆst / Xˆ st rst
DE Xh xh X
TOTALE
S
17
Métodos Estadísticos Varela/Llanos/Asnate
PROBLEMAS RESUELTOS
1.- En una población con N = 6, A = 4 y A’ = 2, calcular el valor de a
para todas las posibles muestras simples aleatorias de tamaño 3.
a) Verificar los teoremas dados para la media y la varianza.
b) Verificar que:
N n
pq Es un estimador insesgado de la varianza de p.
( n 1) N
Solución
a) Si el muestreo es sin reemplazo el número total de muestras a
seleccionar será:
N 6
20
n 3
A 2 A
P ; Q 1/ 3
N 3 N
Ahora, sea A1, A2, A3, A4 los elementos de A y B1, B2 los elementos de
A, entonces tenemos:
Muestras a p q Pq (p –
P2)
(1) A1A2A3 3 1 0 0 1/9
(2) A1A2A4 3 1 0 0 1/9
(3) A1A2B1 2 2/3 1/3 2/9 0
(4) A1A2B2 2 2/3 1/3 2/9 0
(5) A1A3A4 3 1 0 0 1/9
(6) A1A3B1 2 2/3 1/3 2/9 0
(7) A1A3B2 2 2/3 1/3 2/9 0
(8) A1A4B1 2 2/3 1/3 2/9 0
(9) A1A4B2 2 2/3 1/3 2/9 0
(10) A1B1B2 1 1/3 2/3 2/9 1/9
(11) A2A3A4 3 -1 0 0 1/9
(12) A2A3B1 2 2/3 1/3 2/9 0
(13) A2A3B2 2 2/3 1/3 2/9 0
(14) A2A4B1 2 2/3 1/3 2/9 0
(15) A2A4B2 2 2/3 1/3 2/9 0
(16) A2B1B2 1 1/3 2/3 2/9 1/9
(17) A3A4B1 2 2/3 1/3 2/9 0
(18) A3A4B2 2 2/3 1/3 2/9 0
(19) A3B1B2 1 1/3 2/3 2/9 1/9
(20) A4B1B2 1 1/3 2/3 2/9 1/9
40/3 32/9 8/9
18
Métodos Estadísticos Varela/Llanos/Asnate
b) b.1.-
E( p) pi Pr ob( pi) (40 / 3)(1/120) 2 / 3 P
Luego: E (p) = P
b.2.-
V ( p) ( pi P)2 Pr ob( pi) ( pi P)2 (1/ 20)
= (8/9) (1/20) =
2/45
Por otra parte:
PQ N n (2 / 3)(1/ 3) 6 3
(2 / 27)(3 / 5) 2 / 45
n N 1 3 5
Luego: PQ N n
n N 1
N n (6 3)
c) E ( s 2p )
(n 1) N
E ( pq)
(3 1)6
pi qi Pr ob( Pq
i i)
20
Métodos Estadísticos Varela/Llanos/Asnate
21
Métodos Estadísticos Varela/Llanos/Asnate
A2 A3 A2 A3
P (a2/A2, A3, n, n’) = /
a2 a3 a2 a3
3 3 6
P (3/3, 3, 4, 3) = / = 1/20
3 0 3
3 3 6
P(2/3, 3, 4, 3) = / = 9/20
2 1 3
3 3 6
P(1/3, 3, 4, 3) = / = 9/20
1 2 3
3 3 6
P(0/3, 3, 4, 3) = / = 1/20
0 3 3
Distribución condicional para n’ = 4
3 3 6
P(3/3, 3, 4, 4) = / = 1/5
3 1 4
3 3 6
P(2/3, 3, 4, 4) = / = 3/5
2 2 4
3 3 6
P(1/3, 3, 4, 4) = / = 1/5
1 3 4
b) Para n’ = 3 y donde
a2 = N° de elementos muestrales que pertenecen a C
a3 = N° de elementos muestrales que pertenecen a D
P = 3 / (3+3) = 1/2
b.1.- E ( p) 1x10 (2 / 3)(9 / 20) (1/ 3)(9 / 20) (0)(1/ 20)
1/2
Luego, E(p) = P
b.2.- p2 ( p P)2 Pr ob. Cond.
= (1/2)2 (1/20) + (1/6)2 (9/20) + (-1/6)2 (9/20) + (-1/2)2
(1/20)
= 1/20
22
Métodos Estadísticos Varela/Llanos/Asnate
Cond.
Prob.
(p-P)
a2
a3
Cond.
Prob.
(p-P)
a2
a3
23
Métodos Estadísticos Varela/Llanos/Asnate
C1C3D1D3 2 2 2/4 0
C1C3D2D3 2 2 2/4 0
C2C3D1D2 2 2 2/4 0
C2C3D1D3 2 2 2/4 0
C2C3D2D3 2 2 2/4 0
Para n’=4:
b.1.- E( p ) pi Pr ob. Cond . pi
= (1/5)(3/4)+(2/4)(3/5)+(1/4)(1/5) = 1/2
Luego se cumple la relación:
E (p) = P
b.2.- V( p ) ( p P)2 Pr ob. Cond . pi
= (1/4) (1/5) + (0) (3/5) + (-1/4) (1/5) =
= 1/40
Por otra parte,
Solución
a) Estimador del porcentaje de familias en el área, que cuentan
con baño interior de uso exclusivo:
y DE ( p ) 0.0012648 3.6%
Aˆ N (1 n / N )
pq
n 1
donde; pˆ a / n 34 / 290 0.1172
(0.1172)(0.8828)
(14,828) (1 290 /14828)
289
= 14,828 (0.018735)
= 278 familias
Solución:
Estimador de la proporción:
p̂ p = 34/143 = 0.237762237 = 0.2378
Estimador del total:
 Np = 7526(0.2378) = 1,789 familias
Error estándar del estimador:
pq
sAˆ N (1 n / N )
n 1
(0.2378)(0.7622)
= 7,526 (1 143/ 7526)
142
= 7,526 (0.99045) (0.03573) = 276.6
Luego, DE ( Â ) = 268 familias
p
a i
= 22/104 = 0.21154 = 21.15%
m i
V ( p)
nm 2 n 1
Donde: n es el tamaño de muestra de conglomerados (familias)
m es el tamaño familiar promedio = m/n = 104/30
= 3.4667 personas
Como N es desconocido, asumimos que n/N tiende a 0
Luego:
26
Métodos Estadísticos Varela/Llanos/Asnate
1 32 2(0.21154)(87) (0.21154(404)
V ( p) 2 0.00184
30(3, 46667) 29
19 3 1 2 3 1 9
20 3 0 3 0 0 9
21 4 1 3 4 1 16
22 3 0 3 0 0 9
23 3 1 2 3 1 9
24 1 0 1 0 0 1
25 2 0 2 0 0 4
26 4 0 4 0 0 16
27 3 1 2 3 1 9
28 4 1 3 4 1 16
29 2 0 2 0 0 4
30 4 0 4 0 0 16
28
Métodos Estadísticos Varela/Llanos/Asnate
Solución
a) Para propietarios:
N n PQ
V( p ) (0.02) 2
N 1 n
Luego, el tamaño de muestra será:
i) Para P = 45%
(4000 n) (0.45)(0.55)
0.0004
3999 n
De donde
n = 535.945
29
Métodos Estadísticos Varela/Llanos/Asnate
i) Para P = 5% = 0.05
(4000 n) (0.05)(0.95)
0.0001
3999 n
de donde
n = 424.67
ii) Para P = 10% = 0.10
(4000 n) (0.10)(0.90)
0.0001
3999 n
de donde
n = 734.84
Por consiguiente, para satisfacer los 2 objetivos se necesita tomar una
muestra de 735 casas; este tamaño corresponde a familias con dos
carros y P = 10%.
10.- En una población de 676 hojas de solicitud. Que tan grande debe
ser la muestra si se va a estimar el número total de firmas con un
margen de error de 1000 y una probabilidad de 1 en 20. se contó el
número de firmas por hoja en una muestra previa de 50 hojas
seleccionadas al azar (muestra del 7% aproximadamente); obteniendo
los siguientes resultados:
N° de 2 2 2 1 1 1 1 1 1
42 41 36 32 9
firmas yi 9 7 3 9 6 5 4 1 0
Frecuenc
23 4 1 1 1 2 1 1 2 1 1 1 1 1
ia fi
7 6 5 4 3
1 3 2 1 1
Solución
La varianza de la muestra es:
s2
1
fi yi2
fi yi 2 (1/ 49) 54, 497 (1471)2
50
n 1
fi
= 229
30
Métodos Estadísticos Varela/Llanos/Asnate
p PQ / n Q
CV( p )
P P n P
de donde:
Q 0.99
n 2
2, 475 Individuos
CV( p ) P (0.20) 2 (0.01)
31
Métodos Estadísticos Varela/Llanos/Asnate
a) Conocemos que:
y / n /y CV ( y )
CV ( y ) De donde:
y y n n
2
CV ( y )
n=
CV ( y )
Luego:
i) Tamaño de muestra para trabajadores:
El máximo coeficiente de variación para trabajadores corresponde al
número de contratados (excluyendo a desempleados), para los cuales
CV (y) = 1.10 y como se desea CV ( y ) = 0.05; entonces:
2
1.10
n=
0.05
= 484 trabajadores
2 0.0755
3 0.0759
4 0.0739
5 0.0732
6 0.0843
7 0.0727
8 0.0769
9 0.0730
10 0.0727
11 0.0712
12 0.0748
13 0.0878
14 0.0710
15 0.0754
16 0.0712
17 0.0757
18 0.0737
19 0.0704
20 0.0723
Solución
Sea yi el valor de la variable aleatoria, entonces:
n1 = 20 y 1.4941
i y 2
i 0.11197099
1 yi
2
2
s2 yi
2
1 0.11197099 (1.4941)
n1 1 n1 19 20
= 1.8644736 x 10-5
Luego:
s2 2 1.8644736 x105 2
n 1 7 1 82
v n1 2.5 x10 20
y por consiguiente, se necesitarán:
n – n1 = 82 – 20 = 62 observaciones más
34
Métodos Estadísticos Varela/Llanos/Asnate
Solución
La relación entre el rango (R) y la varianza de la distribución
matemática puede utilizarse para estimar la varianza. Deming (1,960)
dio las siguientes reglas para estimar la varianza dado el rango y si la
forma de la distribución era conocida o supuesta.
37
Métodos Estadísticos Varela/Llanos/Asnate
2 2
1.96 x315 617.4
n0 24
0.03 x 4172 125.16
para una precisión del 2% de la remuneración promedio sería:
2 2
1.96 x315 617.4
n0 55
0.02 x 4172 83.44
Ahora, suponiendo que dispongo aproximadamente de una semana para
presentar el informe y que por lo limitado de los recursos económicos,
solo dos personas pueden dedicarse a recolectar los datos; no queda otra
alternativa que asumir la muestra de tamaño n = 24 esto es, con una
precisión o error tolerable del 3%.
NOTA.- Si asumiera el tamaño de muestra n = 55; esto es con un error
tolerable del 2%, el tiempo para presentar el informe sería rebasado.
Veamos:
1 persona como máximo realiza 4 encuestas diarias; luego 55 encuestas
se realizará en 14 días aproximadamente. Sí se emplean dos
encuestadores, se realizarán en 7 días.
Como podemos apreciar sólo el recojo de, datos, abarca la semana
disponible, faltando el procesamiento de datos y la confección del
informe final.
La confrontación del tiempo disponible y el de ejecución de encuesta
me conduce a descartar la precisión del 2% de la remuneración.
38
Métodos Estadísticos Varela/Llanos/Asnate
Luego:
6, 000 4, 000
X 5, 000
2
6, 000 4, 000
S 333
6
Por consiguiente, para una seguridad del 95% (Z = 1.96) y un error
relativo del 3% obtenemos:
2 2
no = ZS 1.96 x333 19
d 0.03 x5000
(Tamaño muy próximo al calculado anteriormente)
39
Métodos Estadísticos Varela/Llanos/Asnate
X9 X10 X11 X12 X13 X14 X15 X16 X17 X18 X19
X234 X354 X143 X276 X169 X76 X191 X32 X190 X467 X48
3.2.- INTERVALICAS
Para la construcción de los intervalos de confianza para la media y el
total es necesario el cálculo de las varianzas de los estimadores y para
ello se requiere determinar el tipo de muestreo a trabajar.
1) El tipo de muestreo se determina mediante la fracción muestral. Así
en nuestro ejemplo:
f = n/N = 24/600 = 0.04 < 5%
Luego, para obtener las varianzas asumimos el muestreo con reemplazo.
2) Estimador de la varianza del Estimador:
De la media:
ˆ ˆ s 2 103,111.87
V (X ) 4296.33
n 24
luego; s 65.55
x
Del total:
Vˆ ( Xˆ ) N 2 ( s 2 / n) (600) 2 (4296.33) 1546678.800
Luego;
sx 39,327.84
Nota: Al trabajar con los estimadores de los estimadores, sólo
requerimos del tamaño de población; el resto, es información muestral
lo cual constituye una gran ventaja.
Intervalos de confianza:
Para la Media:
Xˆ t( / 2n1 ) s Xˆ
4,487 x 4758
41
Métodos Estadísticos Varela/Llanos/Asnate
IV.- APLICACIONES
Suponiendo que el 3% de la remuneración se destina al pago de
alimentos del mes vencido, entonces, la disponibilidad promedio para el
próximo mes, aproximadamente fluctuará entre 3,141 y 3,331
C. Estimación Interválica
Xˆ Z / 2 sx
20,000 1.96 (1391.4)
17,272.86 X 22,727.14 kg
42
Métodos Estadísticos Varela/Llanos/Asnate
y 5 6 7 5 6 5 5 5 6 7 7 7 5 5 7
i 2 2 3 7 8 4 3 1 3 0 0 1 5 9 1
x 3 4 5 4 4 4 4 3 4 4 5 5 4 4 4
i 8 3 0 5 5 2 0 8 6 8 3 0 0 7 7
5 7 7 6 5 5 5 5 6 5 7 4 5 5 7
8 2 4 3 3 2 6 7 0 8 4 8 2 7 0
4 4 4 4 4 3 4 4 4 4 5 3 3 4 4
4 8 9 6 0 9 2 1 6 4 0 7 9 4 8
Estimar:
a) La talla media de los niños a los 7 meses de edad.
b) El error estándar del estimador.
c) Calcule el intervalo de confianza del 95% para la talla media
de los niños, en base:
c.1 La media muestral
c.2 La razón muestral
Solución:
Cálculos previos
43
Métodos Estadísticos Varela/Llanos/Asnate
y i y 11391; s 8.1467
1,833; 2
i y
s 2
y 66.368965; x 1,329; x 59, 403;
i
2
i sy 4.2681
sx2 18.217241
a) Talla media de los niños a los 7 meses de edad:
Yˆ y 1,833/ 30 61.1cm.
b) Error estándar del estimador de la media:
Como n/N < 0.05, se emplea las formulas para las poblaciones
finitas.
c) Intervalo de confianza para la talla media de los niños:
LI: 61.1 – (1.96) (1.48) = 58.1992
LS: 61.1 + (1.96) (1.48) = 64.008
Luego: 58cm y 64cm.
La talla media de los niños a los 7 meses de haber nacido,
fluctúa entre los 58 y 64cm; con una probabilidad del 95%.
C.2.Intervalo de confianza para la razón de crecimiento de los
niños.
LI: 1.3792 – (1.96) (0.0130)
Luego: 1.352 R 1.4062
LS: 1.3792 + (1.96) (0.0130)
El incremento de la talla de los niños a los 7 meses, con una seguridad
del 95%, fluctúa entre el 35 y 41% con respecto a sus tallas al nacer.
Ni pi qi ci
=n L
N
k 1
k pk qk ck
Donde:
N, denota el tamaño del i-ésimo estrato
pi , denota la proporción poblacional para el i-ésimo estrato
ci , denota el costo por obtener una reservación individual de i-ésimo
estrato.
44
Métodos Estadísticos Varela/Llanos/Asnate
y
i 1
i = 368.00
De la columna de y 2 , tenemos
9
y
i 1
i
2
= 15,332.50
52.00 2,704.00
43.000 1,849.00
40.00 1,600.00
41.00 1,681.00
45.00 2,025.00
42.50 1,806.25
39.00 1,521.00
y 368.00
i y 2
i 15,332.50
y 1
368.00
y i 1
40.39
9 9
Para encontrar un límite para el error de estimación, debemos calcular:
2
n 9
9
( yi y )2 y yi / 9
2
i
i 1
S2 = i 1 i 1
n 1 8
= 1 15,332.50 (368) 1 15,332.50 15, 047.11
2
8 9 8
= 35.67
Utilizando la ecuación, obtenemos el límite para el error de estimación.
s2 N n 35.67 484 9
2 Vˆ ( y) 2 2
n N 9 484
4.- Una empresa industrial está interesada en el tiempo por semana que
los científicos emplean para ciertas tareas triviales. Las hojas de control
del tiempo de una muestra irrestricta aleatoria de n = 50 empleados
muestran que la cantidad promedio de tiempo empleado en esas tareas
es de 10.31 horas, con una varianza muestral s2 = 2.1. La compañía
emplea N = 750 científicos. Estime el número total de horas-hombre
que se pierden por semana en las tareas insignificantes y establezca un
límite para error de estimación.
46
Métodos Estadísticos Varela/Llanos/Asnate
Solución:
Sabernos que la población consiste de N = 750 empleados, de los cuales
una muestra aleatoria de n = 50 hojas de control del tiempo fue
obtenida. La cantidad promedio de tiempo que se pierde por los 50
empleados fue y = 10.31 horas por semana. La estimación de es:
= Ny = 750(10.31) = 7732.5 horas
A fin de establecer un límite para el error de estimación, aplicamos la
Ecuación, para obtener:
2.25 750 50
2/ Vˆ( ) 2 (750) 2
50 750
= 2 23, 625 = 307.4 horas.
47
Métodos Estadísticos Varela/Llanos/Asnate
B 2 32
Donde D 2.25
4 4
1000(625)
Así, n 217.56
999(2.25) 625
49
Métodos Estadísticos Varela/Llanos/Asnate
50
Métodos Estadísticos Varela/Llanos/Asnate
ni ni
( yi j yi )2
j 1
y
j 1
2
ij ni yi2
si2
ni 1 ni 1
52
Métodos Estadísticos Varela/Llanos/Asnate
11.- Una encuesta anterior sugiere que las varianzas de los estratos para
el ejemplo, aproximadamente s2 25, 2 225 y 32 100 .
2 2
53
Métodos Estadísticos Varela/Llanos/Asnate
3
Ni2 i2 N 22 12 N 22 22 N32 32
i 1 wi
w1
w2 w3
(155)2 (25) (62)2 (225) (93)2 (100)
(1/ 3) (1/ 3) (1/ 3)
= (24,025) (75) + (3844)(675) + (8649) (300)
= 6,991.275
3
N
i 1
i i
2
N1 12 N 2 22 N 3 32
N i
2
i
2
/ wi
6, 991.275 6, 991.275
n i 1
56.7
3
96.100 27.125
N 2 D N i i2
123.225
i 1
54
Métodos Estadísticos Varela/Llanos/Asnate
Entonces:
ni = n N i i
n
125
0.61n
2
Ni i
205
i 1
80
y n2 n 0.39n
205
Entonces w1 = 0.61 y w2 = 0.39
Debemos calcular las siguientes cantidades para poder encontrar n:
2
N
i 1
i i
2
(50)(2.5) 2 (40)(2.0) 2 472.50
B 2 (1)2
D 0.25
4 4
Usando la ecuación tenemos:
55
Métodos Estadísticos Varela/Llanos/Asnate
2
3
Ni i
n i 1
2
N 2 D N i i2
i 1
(205)2
n 16.83
(90)2 (0.25) 472.50
n1 = n w1 = (17) (0.61) = 10
n2 = nw2 = (17) (0.39) = 7
nh
(1 f h )
L
S2
V (Yˆst ) N 2 Wh2 h (1 f h )
h 1 nh
L
S2
V (Yˆst ) N 2 Wh2 h
h 1 nh
L
Sh2 L
Sh2
= Nh ( Nh nh )
h 1 nh
= Nh2
h 1 nh
56
Métodos Estadísticos Varela/Llanos/Asnate
2 2
Donde sh es el estimador insesgado de S h
L
Sh2 L
Sh2
= Nh ( Nh nh )
h 1 nh
= Nh2
h 1 nh
ˆst Z / 2 Vˆ (ˆst )
PARA POBLACIONES FINITAS PARA
POBLACIONES INFINITAS
57
Métodos Estadísticos Varela/Llanos/Asnate
L
sh2
y st Z / 2 Wh2 nh
(1 f h )
L
sh2
y Z / 2 Wh2 nh
L
sh2
Y Z / 2 N Wh2 nh
PROBLEMAS
1.- Sea la población hipotética de 6 familias (N = 6), clasificadas en N 1
= 3 familias del sector I y N2 = 3 familias del sector II; para las cuales
presentamos los siguientes datos correspondientes al ingreso familiar.
FAMILIAS
DEL SECTOR I DEL SECTOR II
N1 = 3 N2 = 3
Y1i Y2i
58
Métodos Estadísticos Varela/Llanos/Asnate
Y11 = 2 Y21 = 8
Y12 = 4 Y22 = 12
Y13 = 6 Y23 = 16
Y1 = 12 Y2 = 36
Y1 4 Y 2 12
a. Número de estratos: L = 2
L2
b. N N
h 1
h N1 N 2 3 3 6
59
Métodos Estadísticos Varela/Llanos/Asnate
a)
M 9
E (Yˆst ) Y st P(Yˆst ) 39 / 6(1/ 9) 45 / 6(1/ 9) ... 57 / 6(1/ 9)
= (1/9)(432) = 48
Como Y = Y1 + Y2 = 12 + 36 = 48
Entonces: E(Yˆst ) Y 8 y
60
Métodos Estadísticos Varela/Llanos/Asnate
E Vˆ ( y st ) V ( y st )
Demostración
Estratos
I II s12 s22 V ( y st )
2,4 8,12 2 8 15/36
8,16 32 51/36
12,16 8 15/36
2,6 8,12 8 8 24/36
8,16 32 60/36
12,16 8 24/36
4,6 8,12 2 8 15/36
8,16 32 51/36
12,16 8 15/36
2
a) Varianzas muestrales en los estratos sh
sh2 ( yh1 yh 2 ) 2 / 2
En estrato I En estrato II
s (2 4) / 2 2
2
1
2
s22 (8 12) 2 / 2 8
= (2 – 6)2/2 = 8 = (8 – 16)2/2 = 32
= (4 – 6)2/2 = 2 = (12 – 16)2/2 = 8
61
Métodos Estadísticos Varela/Llanos/Asnate
b) Estimador de la varianza de y st
Se obtiene para cada muestra de tamaño n = 4
Para muestra: (2, 4, 8, 12) obtenemos:
2 2
S
Vˆ ( y st ) Wh2 (1 f h ) h
h 1 nh
N1 ( N1 n1 ) s1 N2 ( N2 n2 ) s2
2 2 2 2
=
N N1 n1 N N2 n2
= 3 (3 2) 2 3 (3 2) 8 15
2 2
3 3 2 6 3 2 36
N1 n1 S12 N n S2
= W12 W22 2 2 2
N1 n1 N 2 n2
NOTACIONES
Ah : N° de unidades del estrato “h” que poseen el atributo.
ah : N° de unidades muestrales del estrato “h” que poseen el atributo.
Ph : Proporción en la muestra en el estrato “h”: P h = ah / nh
1 L N h2 PhQh
V ( pst )
N2
n
h
3. Estimador de la varianza del estimador de la proporción poblacional
2 1
L
N ( N n )P Q
V ( pst ) s p 2 h h h h h
ˆ
N h1 nh
L 2
W PQ
Vˆ ( pst ) h h h
h 1 nh
L
Wh2 PhQh (1 f h )
h 1 nh
Nota: No olvidar que:
63
Métodos Estadísticos Varela/Llanos/Asnate
PhQh ( N h nh ) PhQh
V ( ph ) V ( ph )
nh nh 1 nh
ESTIMAR DE LA VARIANZA DEL ESTIMADOR DE LA
PROPORCIÓN DEL ESTRATO “h”
PhQh ( N h nh ) PhQh
V ( ph ) V ( ph )
nh nh 1 nh
Ejemplo:
1.- Supongamos que tenemos los siguientes datos correspondientes a
familias que usan cierto detergente.
a. Encontrar P, Ph
b. Extraer muestras de tamaño n1 = 2, n2 = 3 de los estratos I y II y
estimar Ph
Solución:
Datos:
Estratos
I II
Y11 = 1 Y21 = 1
Y12 = 0 Y22 = 0
Y13 = 1 Y23 = 1
Y14 = 0 Y24 = 1
Y15 = 0 Y25 = 1
2/5 4/5
a. Encontrar P, ph
5
Y 1i
2
P1 40%
N1 5
5
Y 2i
4
P2 80%
N2 5
La proporción poblacional es:
64
Métodos Estadísticos Varela/Llanos/Asnate
10
Y 1i
6
P 60%
N1 10
Que se puede obtener también como:
L
N P h h
N1 P1 N 2 P2 5(2 / 5) 5(4 / 5)
P 6 /10 60%
N N 10
y 1i
1
p1 50%
n1 2
n2
y 2i
2
p2 66.7%
n2 3
P1 = p1 = 50% = 1/2
P2 = p2 = 66.7% = 2/3
3. Estimador de P:
pst =
N h ph
(5)(1/ 2) (5)(2 / 3)
7 /12
N 10
Por consiguiente: P pst 7 /12 58.3%
65
Métodos Estadísticos Varela/Llanos/Asnate
Estratos
I II p1 p2 pst
1, 0 0.5 0.50
1, 0 1, 0 0.5 0.5 0.50
0, 0 0.0 0.25
1, 0 0.5 0.75
1, 1 1, 0 1.0 0.5 0.75
0, 0 0.0 0.50
1, 0 0.5 0.50
0, 1 1, 0 0.5 0.5 0.50
0, 0 0.0 0.25
4.50
Nh sh Nh
nh (500) nh (500)
Nh sh N
A
fijacione
' s (nh)
Estrat
N h' ss' Y h Nh' y h
o Proporcion
Proporcion al al total
Neyman
al
Yh'
I 2812.5 2444 84 153 50
II 417.2 5854 125 138 120
III 4569.6 7007 138 115 144
IV 3708.8 6685 112 73 137
V 1358.8 2355 41 21 49
TOTA 16566.9 24345 500 500 500
L
68
Métodos Estadísticos Varela/Llanos/Asnate
(89)2 (15.8)2 89 41
84374 + 108136 + 106902 + 76960 +
41 89
26011 = 402356
(89)2 (15.8)2 89 49
150447 + 113908 + 100624 + 54645 +
49 89
18137 = 437761
Cuadro N° 3
Varianzas del N° total de cabezas de ganado de acuerdo a las diferentes
afijaciones
Estrato Neyman Proporcional Proporcional a Y
'
h
Cuadro N° 1
Estimaciones del N° total de familias, proporción con radios a
transistores y costo de muestrear una familia en cada ciudad.
H
PhQhCh N h PhQhCh PhQh / Ch Nh PhQh / Ch nh
PhQh
I 0.450 63 000 0.20 28 000 7 369
II 0.4330 12 990 0.4330 12 990 3 419
70
Métodos Estadísticos Varela/Llanos/Asnate
75 990 10 788
71
Métodos Estadísticos Varela/Llanos/Asnate
n1
2
n2 ? x x
3
1 2
2 2
x x (n 2 ) 1 / 2 (n 1 ) 1 / 2
3 3
2 1
n 2 (6 x3) / 2
2
n 2 81 Rpta.
9.- Se extrae dos muestras aleatorias de una misma población y si el
error estándar de una de ellas es k veces el error estándar de la
media de la otra ¿Cuál es la relación entre los tamaños de ambas
muestras?
Solución:
x
n1 n 2 ? x 1
n1
x k. x
1 2
.n 1 1 / 2 k. .n -1/2
72
Métodos Estadísticos Varela/Llanos/Asnate
n1 1 n1 1
Rpta.
n2 k2 n2 k2
10.- Una firma constructora de canales desea estimar la residencia
promedio de las barras de acero utilizadas para dichas
construcciones. ¿Qué tamaño de muestra se requiere para
garantizar que habrá un riesgo solo del 0.001 de sobrepasar un
error de 5Kg o más en la estimación? La desviación estándar de
la resistencia de este tipo de barras se estima en 50 libras.
Solución:
50 lb.
E Z 1 x z . .......... .....(*)
n
0.4536
E 50 lb.( ) 22.68 kg
1 lb,
0.001 1 - 0.999
5
3.08522.68 n 195.8 196 Rpta.
n
11.- Se desea investigar sobre el número de unidades defectuosas en
4000 cajas y la proporción de cajas que contienen unidades
defectuosas, se realiza una encuesta preliminar de 80 cajas,
obteniéndose el siguiente resultado:
№ de unidades 0 1 2 3 4 5 10 12
defectuosas
№ de cajas 37 16 8 8 4 2 2 13
examinadas
73
Métodos Estadísticos Varela/Llanos/Asnate
d 22 N Z 2S 2
Z 2S 2y N (1.96) 2 (7.95)(4000)
n2
d 22 N Z 2S 2y (0.12) 2 (4000) (1.96) 2 (7.95)
n 2 1386 Rpta.
74
Métodos Estadísticos Varela/Llanos/Asnate
Z 2S (1.96) 2 (1.2) 2
n 61.4656
E2 (0.3) 2
n 62 Rpta.
14.- ¿Cuántos alumnos deben encuestarse para estimar el número
total de lapiceros anuales que consumen los 1500 alumnos de la
especialidad con una precisión de 500 lapiceros y una seguridad
del 95%?. En una encuesta preliminar se obtuvo que la desviación
estándar fuera de 3 lapiceros.
Solución:
N 1500
Z 2 95% 1.96
i 3 i2 9
d 500
N 2 Z 2S 2
n
d2
(1500) 2 (1.96) 2 (9)
n
(500) 2
n 311.16 312
n 312
5%
N 1500
312
n 258.278
312
1
1500
n 259 Rpta.
Solución:
N
X1t w h x h X1t h ( x h )
370
N 120
X1t 3.083
1 Nh 2 520 520
V (X1t )prop ( h i2 h) (S h)
n Nn (24)(120) 2880
V (X1t )prop 0.18
6 8 10 12 14
6 6,6 6,8 6,10 6,12 6,14
8 8,6 8,8 8,10 8,12 8,14
10 10,6 10,8 10,10 10,12 10,14
12 12,6 12,8 12,10 12,12 12,14
77
Métodos Estadísticos Varela/Llanos/Asnate
Diagonal superior
Diagonal inferior
Para muestra de tamaño 2:
Con reemplazo
Nn=52=25 todos
Sin reemplazo:
Considerando el orden:
5!
P25 20 parte diagonal superior e inferior
(5 2)!
Sin considerar el orden:
5!
C 52 10 diagonal superior
(2!)(3!)
78
Métodos Estadísticos Varela/Llanos/Asnate
n 200
f 0.1
N 2000
a 120
NP N 2000 1200
n 200
Límites de confianza usando Z 1.96
pq N
L.C( ) NP NZ (1 - f )
n 2n
(0.9)(0.6) (0.4) 2000
L.C( ) 1200 2000(1.96) 400
2000
L.C( ) 1333.8243; 1066.1756
L.C( ) 1334 :1066 árboles de cedro disponible s
b)
L.C(P) P Z 1 - f pq n 1 2n
L.C(P) 0.6 1.96( (0.9)(0.6)(0.4)(12000) 1 400
L.C(P) (0.667; 0.533)
79
Métodos Estadísticos Varela/Llanos/Asnate
( N - n) PQ
V ( P) N n
(10000 500) (0.4)(0.6)
2
V ( P)
10000 500
V ( P) 0.000456
Luego el error estandar sería :
S(e) (0.000456) 0.021
Límite
PKS(p) Probabilidad
Superior Inferior
0.41(0.021) 0.421 0.379 68%
0.42(0.021) 0.442 0.358 95%
0.43(0.021) 0.463 0.337 99.7%
80
Métodos Estadísticos Varela/Llanos/Asnate
Número
Tipo de Familia
Hogares Personas
IMIGRANTES: 766 2442
- Propietarios de vivienda 350 1177
- Inquilinos 416 1265
NATIVOS DEL PAIS: 234 881
- Propietarios de su 57 245
vivienda 177 636
- Inquilinos
Total 1000 3323
Solución:
a) Proporción de familias nativas:
a 234
P 0.234 23.4%
n 1000
pq 1000 0.766
V ( P) (1 - f) 1
N 16000 1000
V ( P) 0.0001682
El error estándar será :
S(P) 0.0001682 0.013
d1 177 177
P1 0.298
n1 416 177 593
n1 n
Como se conoce N 1 , reemplazam os f 1 por f
N N
p1q1 p1q1 1 (0.298)(0.702)
V(P) (1 - f 1 ) V(P) (1 - f) 1
n1 n1 6 593
81
Métodos Estadísticos Varela/Llanos/Asnate
V ( P ) 0.0003312
El error estándar será :
S(P) 0.0003312 0.0182
c) El tamaño medio de una familia inmigrante:
Yi 2442
Y1 3.188
n1 766
Como no se conoce , reemplazam os f 1 por 1 16
(1 - f1 ) S12 (1 f)S12
V (Y1 )
n1 n1
(17.785 (2442) 2 ) 1
Donde : S12 13.072
766 (766 1)
1 13.072
V (Y ) 1 0.016
16 766
Error estándar será :
S(Y) 0.016 0.1265
El coeficiente de variación es :
S(Y) 0.1265 3.188
CV(Y) (100) 3.97%
Y 100
N
d) Y1 Y1 16(245) 3920
Varianza estimada es:
82
Métodos Estadísticos Varela/Llanos/Asnate
N(1 - f)S12
V (Y1 ) donde :
n1
S Y1
Y1 1
2
(215) 2 1
2 2
(n 1)
1053
1000 999
1
n
1 0.994
V (Y1 ) (16000) 2 1 238540.8
6 1000
Su error estándar será :
S(Y) 238540.8 488.41
S(y) 488.41
La C.V(y) es : C.V(y) ( )(100) 12.46 Rpta.
y.100 3920
20.-Se desea realizar una encuesta familiar en una gran ciudad para
estimar la proporción de familias que poseen ciertos atributos,
para las principales características, el valor de Pi=Ai/N se espera
oscile entre el 30% y el 70% ¿Cuál deberá ser el tamaño de
nuestra necesaria para estimar los parámetros siguientes con un
error estándar no mayor al 3%?
a) La proporción global de P
b) Las proporciones individuales de P 1 para las familias.
c)
Clase Rango de ingresos anuales
1 De menos de 5000
2 De 5000 a menos de 10 000
3 De 10 000 a más
Solución:
a) La proporción global P.
Si 130% P≤70% asumiremos que P=0.50 pues en éste valor
se esperaría el máximo error estándar(pesimista), además si
S(p) ≤0.03 la varianza deseada sería V0=(0.05)2
consideramos que el valor 1/N, es muy pequeño y se omite.
Entonces:
(0.5)(0.5)
n 278 Deberían ser encuestada s
(0.03)2
b) Para estimar las proporciones individuales P i:
Rango de
Clase Pi (1/Pi) N=(PQ/V0Pi)
ingresos
1 De <5000 0.50 2 556
2 De 5000 a 0.38 2.6316 732
3 <100000 0.12 8.333 2317
De 10000 a más
84
Métodos Estadísticos Varela/Llanos/Asnate
pq
S ( p ) 1 - f si p 0.1
n
400 (0.10)(0.90)
S(p) 1
10000 400
S(p) 0.0147
85
Métodos Estadísticos Varela/Llanos/Asnate
n0 Z 2 PQ PQ PQ PQ
n n0
n0 d 2
d
2
V0 S ( P)2
1 N
Z
(0.5)(0.5)
n0 625
(0.02) 2
625
n 588 cuestionarios
625
1
10000
86
Métodos Estadísticos Varela/Llanos/Asnate
MUESTREO SISTEMÁTICO
2 u 21 u 22 u 23 u2 j u 2k
i u i1 ui 2 ui 3 u ij uik
n u n1 un2 u n3 u nj u nk
A continuación se muestra los elementos de la tabla anterior de
izquierda a derecha empezando por la primera unidad de la primera fila
y pasando a la primera unidad de la fila siguiente cuando se agota
cualquier fila. Tendremos la siguiente estructura:
i \ j1 2 3 j …k
1 u1 u2 u3 u j uk
2 u k 1 u k 2 u k 3 u k j u k k
3 u 2 k 1 u 2 k 2 u 2 k 3 u 2 k j u 2 k k
i u ( i 1) k 1 u (i 1) k 2 u (i 1) k 3 u (i 1) k j u (i 1) k k
n u ( n 1) k 1 u ( n 1) k 2 u ( n 1) k 3 u ( n 1) k j u ( n 1) k k
87
Métodos Estadísticos Varela/Llanos/Asnate
88
Métodos Estadísticos Varela/Llanos/Asnate
ESTIMADORES Y VARIANZAS
89
Métodos Estadísticos Varela/Llanos/Asnate
n 1 X ij n 1 n
Total X Yij X ij Xˆ k X ij N X ij Nx j
i j 1 1 i 1 n n i 1
k N
X ij
X ij n
1 n 1
Media X Yij Xˆ nk X ij x j
N
i j 1 1 n i 1
nk
k
Aij
Aij n 1
1 n
proporción P Yij Pˆ nk Aij Pˆ j
nk i j 1 1 n i 1
k
n 1 A n
1 n
Totaldeclase X Yij Aij Aˆ k Aij N Aij NPˆ j
ij
i j 1 1 i 1 n n i 1
k N
Media Xˆ x j
proporción Pˆ Pˆ j
Totaldeclase Aˆ NPˆ j
VARIANZAS DE LOS ESTIMADORES
Definimos la cuasivarianza entre las k muestras posibles o cuasivarianza
intermuestral como:
90
Métodos Estadísticos Varela/Llanos/Asnate
S bs2
1 n k
x j X 2
k 1 i j
Y la cuasivarianza dentro de las muestras o cuasivarianza intramuestral
como:
2
S ws
1 n k
X ij x j 2
N k i j
Con lo que la descomposición de la suma de cuadrados para el análisis
de la varianza poblacional permite escribir lo siguiente
2 2 2
ij
i 1 j 1 i 1 j 1 i 1 j 1
N 1S 2 ( N k ) S ws
2
( k 1) Sbs2
Entre n k 2
S bs
( x X )
k-1 2
muestras
i j
n k
Dentro de
muestras
N-k ( X x )
i j
2
S bs
2
n k
total
k-1+(N-k) =
N-1 ( X X )
i j
2
S ws
2
V Xˆ V x j 1 f bs ,
2
S
n
V Xˆ V Nx j N 2V x j N 2 1 f bs
2
S
n
91
Métodos Estadísticos Varela/Llanos/Asnate
1 k
k j
1 n k
nk i j
1 n k
N i j
2
1 k
V Pˆ V Pˆ j Pˆ j P Pˆ j P Pˆ j P PQ Pˆ j Qˆ j
2 2
k j
1 k
n k
1 k
V Aˆ V NPˆ j N 2V Pˆ j N 2 Pˆ j P N Pˆ j P N 2 PQ Pˆ j Qˆ j
2 2
k j i j k j
2 X ij X X zj X
k n
i z
w
j
,
N n 1 2
2
nk j i
2
V Xˆ V Nx j N 2V x j N 2 1 n 1 w N N 1 1 n 1 w
n
S2
n
92
Métodos Estadísticos Varela/Llanos/Asnate
V Pˆ j
PQ
n
1 n 1 w V Aˆ N 2 PQ 1 n 1 w
n
Según esta expresión, la precisión del muestreo sistemático puede
analizarse en función del coeficiente de correlación intramuestral, de tal
modo que la precisión máxima se produce para w 1 /( n 1) , y la
mínima para w 0 , igualándose la precisión del muestreo
93
Métodos Estadísticos Varela/Llanos/Asnate
1 j k
1 X1 Xj Xk
2 X 1 k X jk X k k
i X 1 ( i 1) k X j ( i 1) k X k ( i 1) k
n X 1 ( n 1) k X j ( n 1) k X k ( n 1) k
Obtener una muestra sistemática seria entonces seria entonces
equivalente a obtener une muestra estratificada con la finalidad con
unidades por estrato. debe tenerse en cuenta ,sin embargo ,que en el
muestreo estratificado aleatorio la selección se efectúa
independientemente en cada estrato ,mientras que en el muestreo
sistemático todos los elementos seleccionados ocupan el mismo lugar
o numeró de orden dentro de cada zona de k elementos , con la que no
hay aleatoriedad de selección .además ,seria conveniente que a las zonas
sistemáticas de k elementos cada una (estratos) sean lo mas
homogéneas posible dentro de ellas y heterogéneas entre ellas .estas
clasificaciones de los elementos de la población en n filas de k
unidades cada una origina la siguiente tabla del análisis de la varianza
poblacional:
94
Métodos Estadísticos Varela/Llanos/Asnate
n k
Dentro de estratos N n ( X
i j
ij X i )2
2
S wst
n k
Total n 1 ( N 1) N 1 ( X ij X j ) S2
i j
1 n k
( X ij X i ) 2
2 2
S wss
N n i j
Tenemos:
n k n k n k
( N 1)S 2 ( N n) S wst
2
(n 1) S bst
2
h i
n
1
i n
S2 1 1 n
V Xˆ V X st Wh2V X h Wi 2V X i 2 1 f i i 2 1 S i2
L n
ni n k i
N n 2
2
X ij X i n 2 k X ij X i S wst 1 f
1 1 n 1 k 1 n k 2
S wst
1
2
n2 k i k 1 j i j Nn n
95
Métodos Estadísticos Varela/Llanos/Asnate
( N n) S wst
2
X ij X i X Zj X z k n
1 k n
n j i z
k 2 X ij X i X zj X z
covX ij ; X zj 2 j i z
wst
nn 1k 1S wst2
1 k n
X ij X i 2
k n
1
ij i
2
X X
N j i 1 N j i 1
( N n) S wst
2
V Xˆ V X j 1 f wst 1 n 1 wst
2
S
n
Y lo mismo se calculará las varianzas del resto de los estimadores en
función del coeficiente de correlación intraestratal wst .
La precisión máxima, que evidentemente se da cuando el error de
muestreo es cero V X 0, se produce si n 1
j wst 1 , luego
se puede asegurar que la precisión máxima si:
V X j 0 wst
1
n 1
La precisión mínima, que evidentemente se da cuando la varianza es
máxima, se produce si wst 1 (valor máximo de wst que será el
96
Métodos Estadísticos Varela/Llanos/Asnate
wst 0 V X j 1 f
2
S wst
n
Como lo que el muestreo sistemático coincide en precisión con el
muestreo aleatoria independiente en cada estrato. De esta forma, wst
es en cierta forma una medida de la falta de aleatoriedad en la selección
de unidades para la muestra en las distintas zonas sistemáticas (filas o
estratos).
ESTIMACIÓN DE LA VARIANZA
No podemos decir que en muestreo sistemático haya un método directo
para la estimación de varianzas a partir de una muestra sistemática.
Tenemos las siguientes situaciones:
a. próximo a cero o S
2
ws S2
Si el coeficiente de correlación intramuestral se aproxima a cero puede
suponer la población y si S ws S la precisión del aleatorio simple y
2 2
n n n
Sˆ 2 2 2
2
x x 2 2 1 f
Vˆ xst Wh2 1 f h h 1 f h1 h 2 x xh 2
2 2
2
2
h1
h nh h n 2 n h
1 t
xc xt
t 1
Siendo el estimador in sesgado de su varianza mediante la aplicación
del método de las muestras interpenetrantes:
98
Métodos Estadísticos Varela/Llanos/Asnate
1 t 2 t 2
Vˆ xc
1 t 2
t t 1 i
x tx 2
x x
1 t 2
i c t t 1 i i i c t t 1 i xi xc2
La fórmula puede multiplicarse también por (1-f) En particular para t =
2 tenemos:
x x x x x x x x
2 2 2
1 j k
1 X1 Xj Xk 2
X 1 k X jk X k k
i X 1 ( i 1) k X j ( i 1) k X k ( i 1) k
n X 1 ( n 1) k X j ( n 1) k X k ( n 1) k
PROBLEMAS RESUELTOS
99
Métodos Estadísticos Varela/Llanos/Asnate
101
Métodos Estadísticos Varela/Llanos/Asnate
Grado
Fuent s de
Sumas de Cuadrados Cuadrados Medios
e Libert
ad
n k _ _
Entre
k-1=5-
1=4
i
j ( x j X ) 2 1.72 S bs2 1.72 / 4 1.43
n k _
(X
N-
x j ) 2 7.9 S ws 7.9 / 45 0.1755
2
Dentr
k=50- ij
o i j
5=45
n k _
n S BS 1 0.43
2 2
ˆ ˆ S BS
V P V PJ 1 (1 f ) 1 0.0344
N n n 5 10
102
Métodos Estadísticos Varela/Llanos/Asnate
2
S
V Aˆ V NPˆJ N 2V PˆJ N 2 (1 f ) BS 50 2 * 0.0344 86
n
6 6
ˆQˆ 1
2
S P 10 10
Vˆ Pˆ1 1 f 1 (1 f ) 1 1 1 1
1
0.0213
n n 1 5 10 1
103
Métodos Estadísticos Varela/Llanos/Asnate
3 3
ˆ ˆ ˆ 1
1 10 10
2
S PQ
Vˆ Pˆ2 1 f 2 (1 f ) 2 2 1 1 0.0186
n n 1 5 10 1
1 1
ˆ ˆ ˆ 1
P Q 1 10 10
2
S
Vˆ Pˆ3 1 f 3 (1 f ) 3 3 1 1 0.008
n n 1 5 10 1
Vˆ Pˆ4 Vˆ Pˆ3 0.008
2 2
ˆ ˆ ˆ 1
1 10 10
2
S PQ
Vˆ Pˆ5 1 f 5 (1 f ) 5 5 1 1 0.0142
n n 1 5 10 1
1 f 1 0.2
n/2
Vˆ Pˆ1 2 x xh 2 (1 1) 2 (1 0) 2 (0 1) 2 (1 0) 2 (0 1) 2 0.032
2
h1 2
n h 10
1 f 1 0.2
n/2
Vˆ Pˆ2 2 x xh2 (0 0) 2 (0 1) 2 (1 0) 2 (0 0) 2 (1 0) 2 0.024
2
h1 2
n h 10
Vˆ Pˆ3 0.008(0 1) 2 0.008 Vˆ Pˆ4
Vˆ Pˆ 0.008(1 0)
5
2
(1 0) 2 0.016
Las mejores según el método del muestreo estratificado también
resultan ser la tercera y la cuarta, y además coinciden en varianza con el
104
Métodos Estadísticos Varela/Llanos/Asnate
0 0 1 0 ¼
1 1 1 0 ¾
0 0 1 1 ½
1 0 1 1 ¾
0 0 0 1 ¾
105
Métodos Estadísticos Varela/Llanos/Asnate
1 1 0 0 ½
1 1 0 1 ¾
0 1 1 1 ¾
1 1 0 0 ½
5 5 5 5 5
9 9 9 9 9
1 5 5 5 5 5 5 5 5
2 2 2 2
ˆ
V P 0
4 9 9 9 9 9 9 9 9
También podemos calcular la varianza del estimador de la proporción
como
1 k
k j 1
20 20 1 5 4 5 4 5 4 5 4
V Pˆ PQ Pˆ j Qˆ j 1 0
36 36 4 9 9 9 9 9 9 9 9
106
Métodos Estadísticos Varela/Llanos/Asnate
107
Métodos Estadísticos Varela/Llanos/Asnate
Grados de
Fuente Sumas de Cuadrados Cuadrados Medios
Libertad
n k _ _
Entre k-1=4-1=3
i
(x j X )2 0
j
S bs2 0 / 3 0
n k _ 2
S ws 8.88 / 32 0.277
( X ij x j ) 2 8.88
N-k=36-
Dentro
4=32
i j
n k _
Total
N-1=36-
1=35 i
( X ij X j ) 2 8.88
j
S 2 8.88 / 35 0.254
ˆ
ˆ n S bs2
V P V Pj 1 1 f
S bs2 1 0
1 0
N n n 49
Del valor de la varianza puede deducirse el valor del coeficiente de
correlación intramuestral a través de la formula:
2
V (x j ) (1 (n 1) )
n
Tendremos:
35
0.254
36 1 1
0 (1 (9 1) ) 0.125
9 8 n 1
Estamos ante el caso de máxima precisión del muestreo sistemático, ya
1
que la varianza es nula, o lo que es lo mismo, .
n 1
108
Métodos Estadísticos Varela/Llanos/Asnate
2 2
Este hecho concuerda con los valores que toman S y S ws .
Concretamente S
2
0.254 S ws
2
0.277 , lo que indica que es
más preciso el muestreo sistemático que el aleatorio simple.
La varianza del estimador de la proporción en el muestreo aleatorio
simple es (1 - 1/4) * 0.254/9 0.021 .
Para resolver la segunda parte del problema consideramos ahora cada
una de las 9 zonas (filas) como un estrato de 4 unidades. Tenemos
entonces dividida la población en 9 estratos de 4 unidades cada uno, de
modo que la muestra sistemática consta de una unidad por estrato que
de forma general no es elegida aleatoriamente dentro del mismo. Esta
clasificaron de los elementos de la población en 9 filas y 4 unidades
cada una origina una tabla del análisis de la varianza que se puede
calcular con Excel.
Como estamos clasificando los datos en 9 filas (estratos), utilizamos las
variables G5 a G13 , que recogen los valores de las 9 filas. A
continuación elegimos análisis de varianza de un factor en la opción
análisis de datos del menú herramientas.
109
Métodos Estadísticos Varela/Llanos/Asnate
Entre n-1=9-1=8 (x
i j
j X ) 2 1.388 S bs2 1.388 / 8 0.1735
n k _
n k _
110
Métodos Estadísticos Varela/Llanos/Asnate
V Pˆst 1 f
S2 n 0.254
0.16 2 1 n8
n 36 n
Obviamente el tamaño de muestra necesario para cometer el mismo
error de muestreo es mayor en muestreo aleatorio simple que en
muestreo sistemático, ya que en este problema el muestreo sistemático
es más preciso que el muestreo aleatorio simple.
RECOMENDACIONES Y SUGERENCIAS
111
Métodos Estadísticos Varela/Llanos/Asnate
112
Métodos Estadísticos Varela/Llanos/Asnate
Observación
113
Métodos Estadísticos Varela/Llanos/Asnate
GLOSARIO
Cuasivarianza: Característica de una muestra o población que
cuantifica su dispersión o variabilidad. La cuasivarianza se obtiene
multiplicando la varianza por
n / (n-1). La cuasivarianza muestral es un estimador centrado (no
sesgado) de la varianza poblacional.
Estimador Insesgado: Es un estimador cuyo promedio es el valor
del parámetro desconocido. Su valor esperado es el valor del
parámetro poblacional. Un estimador insesgado es uno que tiene la
propiedad de exactitud.
Insesgadez: Se denomina sesgo de un estimador a la diferencia
entre la esperanza (o valor esperado) del estimador y el verdadero
valor del parámetro a estimar. Es deseable que un estimador sea
insesgado o centrado, es decir, que su sesgo sea nulo por ser su
esperanza igual al parámetro que se desea estimar.
Intramuestra: Es la variación que se da dentro de cada muestra.
Estratal: Son las diferentes operaciones que se da entre estratos.
114
Métodos Estadísticos Varela/Llanos/Asnate
BIBLIOGRAFIA:
115
Métodos Estadísticos Varela/Llanos/Asnate
116