Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Donostia-San Sebastin, 1
01010 VITORIA-GASTEIZ
Tel.: 945 01 75 00
Fax.: 945 01 75 01
E-mail: eustat@eustat.es
www.eustat.es
Presentacin
Eustat, consciente de la creciente demanda de estadsticas de calidad cada vez ms
desagregadas, organiz en 2010 el XXIII Seminario Internacional de Estadstica con el
ttulo Muestreo equilibrado y eficiente: el Mtodo del Cubo.
El objetivo de Eustat es redefinir los diseos actuales, para que con el mismo o similar
coste se puedan obtener muestras que proporcionen estimadores de calidad para
mbitos o dominios mas desagregados. Con este mismo objetivo se convoc una beca
de dos aos de duracin de formacin e investigacin en el campo de las metodologas
estadstico-matemticas, mas concretamente enfocada hacia la optimizacin de
muestras.
Los resultados de esta investigacin han sido aplicados en diferentes operaciones
estadsticas dentro del Plan Vasco de Estadsticas 2010-2012: Estudio del bullying en
el alumnado de centros de Educacin Primaria y Educacin Secundaria Obligatoria,
Encuesta sobre la Sociedad de la Informacin Familias, Encuesta de Innovacin
Tecnolgica, Encuesta de Pobreza y Desigualdades Sociales y Estudio de las Mujeres
en el mbito Rural Vasco.
El objetivo de esta publicacin es difundir la investigacin realizada durante la beca y
aportar material til a todos los usuarios interesados en el conocimiento y utilizacin de
muestreos eficientes y equilibrados.
Este documento tiene dos partes diferenciadas. En la primera, se encuentran los
conceptos y definiciones correspondientes a la teora de muestreo; as como los planes
de muestreo probabilsticas simples y complejos. En la segunda, la descripcin del
Mtodo del Cubo y su aplicacin a diferentes encuestas-tipo de la Organizacin
Estadstica Vasca.
ndice
PRESENTACIN .......................................................................................................................... 1
NDICE .......................................................................................................................................... 2
1. INTRODUCCIN ...................................................................................................................... 4
2. INTRODUCCIN A LA TEORA DE MUESTREO.................................................................... 5
DEFINICIONES Y NOTACIN BSICA .............................................................................................. 5
PROPORCIONES MUESTRALES ..................................................................................................... 6
ESTIMADOR DE HORVITZ-THOMPSON........................................................................................... 6
3. PLANES DE MUESTREO PROBABILSTICOS ....................................................................... 7
MUESTREO ALEATORIO SIMPLE .................................................................................................... 7
MUESTREO ESTRATIFICADO......................................................................................................... 8
MUESTREO POR CONGLOMERADOS O CLUSTERS ........................................................................ 10
RESUMEN DE LOS MTODOS PRESENTADOS ............................................................................... 11
4. PLANES DE MUESTREO COMPLEJOS ............................................................................... 13
MUESTREO BIETPICO (O DE DOS ETAPAS)................................................................................. 13
SELECCIN DE LAS UP-S CON PROBABILIDADES IGUALES............................................................ 14
PLAN BIETPICO AUTOPONDERADO ............................................................................................ 15
5. MTODO DEL CUBO: MUESTRE EQUILIBRADO................................................................ 16
REPRESENTACIN POR UN CUBO ............................................................................................... 16
MUESTRAS EQUILIBRADAS......................................................................................................... 16
DESCRIPCIN DEL MTODO ....................................................................................................... 18
6. MACROS DE SAS PARA SELECCIONAR MUESTRAS EQUILIBRADAS............................ 19
MACRO EXE_CUBE ................................................................................................................... 19
MACRO ECHANT_STRAT ............................................................................................................ 20
MACRO AUXILIAR DISJUNCTIVE .................................................................................................. 21
MACRO AUXILIAR CREAR_ESTRATO ........................................................................................... 21
EJEMPLO DE USO DE LAS MACROS ............................................................................................. 22
7. MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO ........................ 26
MUESTRA DE CENTROS DE ESO PARA EL ESTUDIO DEL BULLYING EN LA COMUNIDAD AUTNOMA
DE EUSKADI ............................................................................................................................. 26
MUESTRA PARA LA ENCUESTA DE LA SOCIEDAD DE LA INFORMACIN (ESI-EMPRESAS) ............... 30
MUESTRA PARA LA ENCUESTA DE CAPITAL SOCIAL (ECS).......................................................... 33
INDICE
INDICE
1. Introduccin
El contenido recogido en este Cuaderno Tcnico, es fruto del trabajo realizado durante
el disfrute de la beca de formacin e investigacin en metodologas estadsticomatemticas, para el tema de optimizacin de muestras, concedida en el ao 2010 por
el Instituto Vasco de Estadstica / Euskal Estatistika Erakundea.
El presente documento est dividido en los siguientes captulos:
En el primer captulo se realiza una introduccin y se mencionan los objetivos que han
marcado la elaboracin de este cuaderno tcnico.
En segundo captulo, se expone una introduccin a la teora de muestreo, con las
definiciones y notacin bsica del diseo de muestreo, proporciones muestrales y
definicin del estimador de Horvitz-Thompson y su varianza.
En los siguientes dos captulos, se desarrollan los conceptos de planes de muestreo
probabilsticos y planes de muestreo complejos, presentando la mayora de los mtodos
utilizados en la estadstica oficial.
En el quinto captulo, se aborda el concepto de muestreo equilibrado y se presenta el
Mtodo del Cubo para seleccionar muestras equilibradas.
El objetivo del sexto captulo es detallar las macros de SAS que permiten seleccionar
muestras equilibradas.
En el sptimo captulo, se presentan las distintas muestras equilibradas en Eustat con el
Mtodo del Cubo.
Finalmente, se muestran algunas conclusiones relacionadas con el equilibrio, la
estratificacin y la calibracin.
Quiero agradecer el apoyo a todos los componentes del rea de Metodologa,
Innovacin e I+D y, en general, la amabilidad de todo el personal de Eustat.
INTRODUCCION
Y = yk
1
N
Y =
kU
kU
p(s) = 1 .
s U
k = E ( Ik ) = Pr(k S ) = p( s )
1
0
Ik =
donde
ks
si k S
si k S
kl = E ( IkIl ) = Pr(k y l S ) =
Si el diseo muestral es de tamao fijo, entonces
kU
p( s)
k ,ls
= n.
Proporciones muestrales
Supongamos que la variable de inters definida sobre la poblacin U es una variable
cualitativa. En este caso, la variable de inters nos da informacin acerca de alguna
cualidad de las unidades de la poblacin o la pertenencia o no a una determinada clase.
Supongamos que nuestra variable de inters clasifica las unidades de la poblacin en
dos clases C y C .
Para cada unidad de la poblacin, definimos la caracterstica
1 si k C
0 si k C
yk =
y k como:
k U
Y = yk = A
Y =
kU
1
N
kU
A
=P
N
S2 =
(y
kU
Y ) 2
=
N 1
kU
en funcin de P y Q = 1-P
2
k
NY 2
=
N 1
1
N
( NP NP 2 ) =
PQ
N 1
N 1
n
s =
pq
n 1
2
p=
donde
y
kS
a
n
Estimador de Horvitz-Thompson
Se definen el estimador de Horvitz-Thompson del total y de la media poblacional de la
variable de inters y como:
yk
Y =
kS
1
Y =
N
yk
kS
k > 0, k U
y
y
1
Var (Y ) = k l
2 kS lS k l
l k
( kl k l )
.
kl
N
p( s) = n
si card(s) = n
en caso contrario
n
, k U
N
1
Y =
N
yk
kS
1
N
kS
N 1
= yk
n n kS
)
s y2
Var (Y ) = (1 f )
n
1
s y2 =
( yk Y ) 2
n 1 kS
donde
f =
n
es definida como la fraccin de muestreo
N
Muestreo estratificado
Supongamos que la poblacin U est dividida en subpoblaciones o estratos U h ,
(i)
UU
=U
h =1
(ii)
U hIU i= , h i
(iii)
Si N h es el tamao de U h , entonces
N
h =1
=N
n
h =1
= n es el tamao de la muestra.
k=
nh
, k U .
Nh
1
Y st=
N
yk
kS
1
N
Nh
1
yk =
N
h =1 n h kS h
N Y
h =1
1
Var (Y st) = 2
N
donde
2
s yh
=
N
h =1
2
h
(1 f h )
2
s yh
nh
1 H
( y k Y h) 2 es la cuasivarianza muestral del estrato h.
n h 1 h =1
nh
n
= , para h = 1,..., H
Nh N
Si suponemos que n h =
nN h
es entero, el estimador de la media poblacional es:
N
1 H
1
Y prop= N hY h = y k
N h =1
n kS
nh = n
N hS h
H
N
h =1
para
h = 1,..., H
Sh
n* =
N h S yh
h =1
2
V + N h S yh
h =1
UU
(i)
=U
i =1
U iIU j = , i j
(ii)
(iii)
i =1
n=
iS I
UU
cuyo tamao es
iS I
i
Ii=
m
, obteniendo
M
1
Y =
N
donde Y i=
1
Ni
kU i
yk
kS
1
N
iS i
N iY i
Ii
M
N iY i
Nm iS i
Y
M m M
Y i
Var (Y ) =
2
M
N m m 1 iS I
PLANES DE MUESTREO PROBABILSTICOS
10
y1
y k +1
L
y ( n 1) k +1
y2
y k +2
L
y ( n 1) k + 2
yi
yk
y k +i
y 2k
L
L
y ( n k ) k +3 y nk
, CV () =
Var ()
Var ()
A continuacin se muestra una tabla con las formulas del estimador, varianza y
coeficientes de variacin tanto para la media poblacional como para las proporciones de
los distintos mtodos presentados.
11
12
Proporciones
P
Med ia
poblacional
Y
cv ( P )
Coef. de
variacin
Var ( P )
Varianza
Estimador
cv (Y )
Coef. de
variacin
Var (Y )
Varianza
Estimador
(1 f )
cv (Y )
n
(1 p )
cv ( P ) = (1 f )
p ( n 1)
p (1 p )
Var ( P ) = (1 f )
n 1
1
P =
yk
n kS
cv (Y ) =
s
)
Var (Y ) = (1 f ) y
n
Muestreo aleatorio
simple
1
Y = yk
n kS
h =1
cv ( P st ) =
h =1
h=1
h =1
h (1
h =1
phqh
n h 1
nh
p h (1 p h )
n h 1
N h ph
f h)
nh
s 2yh
s 2yh
f h)
N h2 (1 f h)
h =1
hp h
N hYh
N h2 (1
1
Var ( P st ) = 2
N
N h2 (1 f h )
h =1
h =1
1
P st =
N
cv (Y st) =
N Y
1
Var (Y st) = 2
N
1
Y st=
N
Muestreo estratificado
i
N Y
i S i
2
cv ( P ) =
Var ( p ) =
iS I
a
iSi
M m
m 1
N iY i
iS i
a
i S I
i S I
( ai ) 2
i S I
i S I
2 p ai N i + p2 N i
iS I
iS I
N i + p 2 N i2
Ni
iS I
ai2 2 p ai
; donde a i = p i N i
M m m iS I
M m 1
P =
cv(Y ) =
m m
Y i Y
1
M
M m 1 iS
M m M
Y i Y
Var(Y ) = 2
M
N m m 1 i S
M
Y =
Nm
donde
N
i =1
=N.
US
cuyo tamao es n =
iS I
iS I
Podemos definir:
I ,i
k|i
seleccionada.
Por lo tanto, la probabilidad de inclusin de la unidad k es:
k= I ,i k |i ,
k U i
1
Y =
N
donde Y i=
1
Ni
yk
kS i
yk
1
=
N
kS k
iS I kS i
yk
I ,i
k |i
1
=
N
iS I
N iY i
I ,i
k |i
13
I ,i=
k |i=
m
, i = 1,..., M
M
ni
,
Ni
i = 1,..., M , k S i
k=
mn i
,
MN i
k U i
Si modificamos la formula del estimador H-T para muestreos bietpicos tenemos que:
1
Y =
N
yk
kS
N iy k
M
Nm iS I kS i n i
N n
M m
M
Var (Y ) =
Ms I2 + 2 N i i i si2
2
ni
N m
N m kS i
donde
1
Y
s =
Y
i M
m 1 iS I
2
I
Y
1
s =
y
k N
n i 1 kS I
i
2
i
14
I ,i =
Ni
m
N
k |i =
n0
Ni
Por lo tanto, las probabilidades de inclusin de la unidad k son iguales para todas las
unidades de la poblacin U:
k = I ,i k |i =
N i n 0 mn0
=
m
N
Ni
N
15
k = Pr(S k = 1) .
Muestras equilibradas
Supongamos que disponemos de ciertas variables auxiliares con valores conocidos
para todas las unidades de la poblacin, k U .
MTODO DEL CUBO: MUESTREO EQUILIBRADO
16
Estas variables auxiliares podran ser utilizadas bien como variables de estratificacin
(cualitativas), o bien como variables de equilibrio (cualitativas o cuantitativas).
Por lo tanto, se dice que una muestra s es equilibrada sobre las variables
x1 ,x 2 ,...,x p si se verifican las ecuaciones de equilibrio:
= X xkj = x
X
kj
ks
kU
17
2. Fase de aterrizaje
Si al final de la fase de vuelo una muestra (un vrtice) no ha sido seleccionada, se
deber aplicar la fase de aterrizaje.
Existen tres posibles soluciones para esta fase:
-
18
Macro exe_cube
La macro de SAS exe_cube, permite seleccionar muestras equilibradas utilizando el
Mtodo del Cubo (Fast Cube Method).
Datos de entrada
Se trata de una tabla de SAS con todas las unidades de la poblacin sobre la que se va
a seleccionar la muestra.
Debe contener al menos:
Sintaxis de la macro
Esta es una breve descripcin de los argumentos necesarios:
BASE = Nombre de la librera SAS que contiene la tabla con los datos de entrada.
19
SORT = Nombre de la tabla de SAS con los datos de salida, que se guardara en la
librera especificada en el parmetro base. Contiene todas las unidades de la
poblacin, as como la variable ech; igual a 1 si la unidad ha sido seleccionada y 0
en caso contrario.
Macro echant_strat
La macro de SAS echant_strat permite seleccionar muestras estratificadas con el
Mtodo del Cubo (Fast Cube Method), globalmente equilibradas en la poblacin total y
aproximadamente equilibradas en cada estrato.
Los pasos que sigue la macro para seleccionar una muestra equilibrada son:
1. Fase de vuelo independiente en cada uno de los estratos
2. Fase de vuelo conjunta con todas las unidades restantes que no hayan sido
seleccionadas en los estratos
3. Fase de aterrizaje con las unidades todava no seleccionadas.
Datos de entrada
Tiene que haber una tabla de SAS con las unidades de la poblacin para cada una de
los estratos definidos para la muestra estratificada.
Cada tabla debe contener al menos, las mismas variables que hemos definido para la
macro exe_cube.
Sintaxis de la macro
Esta es una breve descripcin de los argumentos necesarios:
DATA = Nombre de las tablas de SAS con los datos de entrada de cada estrato.
20
Descripcin
Supongamos que en una poblacin de tamao N, dada una variable de inters Y y una
variable cualitativa X que toma los valores 1, 2,, L; la macro disjunctive nos devuelve
1
yi
y il =
0
donde:
si xi = l
si xi l
para
i = 1, ... , N
l = 1,... , L
Sintaxis de la macro
Esta es una breve descripcin de los argumentos necesarios:
CATEG = Variable cualitativa que contiene las categoras para crear las variables
disjuntas
Resultados y salidas
La macro disjunctive aade a la tabla de entrada las variables disjuntas creadas a partir
de la variable de inters var.
Los nombres de estas nuevas variables son la unin del nombre de la variable var y los
nombres definidos por la variable nombres_categ (separados por el smbolo _).
Estos nombres son guardados en la variable local macro contr_categ.
Sintaxis de la macro
Esta es una breve descripcin de los argumentos necesarios:
ID = Variable de identificacin
21
Resultados y salidas
La macro crear_estrato devuelve una tabla de SAS para cada uno de los valores de la
variable var_estrat.
Los nombres de las tablas de salida son por defecto del estilo: estrato_ {var_estrat } j
donde {var_estrat} j es el j-simo valor de la variable var_estrat.
Estos nombres son guardados en la variable local macro datos_estrat.
id
1
estrato
A
2
3
A
B
4
5
B
B
6
7
C
C
pik
1
2
3
4
5
6
7
empleo TH
e1
48
e2
e3
20
20
e4
e5
01
48
e6
e7
01
20
donde
01 = Araba, 20 = Gipuzkoa y 48 = Bizkaia;
22
id
1
2
3
4
5
6
7
estrato
A
A
B
B
B
C
C
pik
1
2
3
4
5
6
7
empleo TH
e1
48
e2
20
e3
20
e4
01
e5
48
e6
01
e7
20
empleo _ Araba
kN
empleo _ Gipuzkoa
kN
empleo _ Bizkaia
kN
id
estrato
pik
1
2
A
A
1
2
empleo TH
e1
e2
48
20
0
0
0
e2
e1
0
estrato_B
id
3
4
5
estrato
B
B
B
pik
3
4
5
empleo TH
e3
20
e4
01
e5
48
id
estrato
pik
6
7
C
C
6
7
empleo TH
e6
e7
01
20
0
e7
0
0
23
donde
id
ech
ech1
ech2
ech3
ech4
ech5
6
7
ech6
ech7
* Observacin:
En algunas ocasiones, el objetivo puede ser equilibrar la muestra sobre totales que
hacen referencia a las propias unidades muestrales.
Por ejemplo, en el caso anterior se podra querer equilibrar la muestra sobre el nmero
de establecimientos por Territorio Histrico.
En ese caso, debemos crear una variable que toma el valor 1 para todas las unidades,
la cual introduciremos en la macro %disjunctive para crear las variables de equilibrio
deseadas.
datos
id
estrato
pik
1
2
3
4
5
6
7
empleo TH UNO
e1
48
e2
20
e3
20
e4
01
e5
48
e6
01
e7
20
1
24
%global contr_categ;
%disjunctive(
DATA = datos,
VAR = UNO,
CATEG = TH,
NOMBRES_CATEG = Araba Gipuzkoa Bizkaia
);
datos
id
estrato
pik
3
4
B
B
1
2
3
4
5
6
7
48
e1
20
e1
e1
20
01
1
1
0
1
1
0
0
0
e1
48
e1
01
e1
20
25
Ficha Tcnica
Marco
Lo componen los centros de Secundaria de la CAE que tienen al menos un
grupo en los cursos de 1, 2, 3 y 4 de la ESO.
Diseo muestral
Se trata de una muestra de conglomerados desiguales con submuestreo en la
segunda etapa.
1.a etapa
Unidades muestrales
Centros de secundaria de la CAE
Estratificacin
Para la seleccin de los centros se realiza un muestreo estratificado por
Territorio Histrico y red (pblica y privada).
Afijacin
Proporcional al nmero de centros en cada estrato.
Sorteo
Muestreo probabilstico proporcional al tamao (PPT) del nmero de
alumnos por centro.
MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO
26
2.a etapa
Unidades muestrales
Alumnos de secundaria de la CAE.
Estratificacin
40 alumnas (10 de 1, 10 de 2, 10 de 3 y 10 de 4) por centro
seleccionado siempre que sea posible. No hay un mnimo de alumnos por
centro.
Sorteo
Muestreo aleatorio simple.
La muestra final es autoponderada por estratos (Territorio y Red).
Tamao de la muestra
El tamao de la muestra ptimo para un muestreo de conglomerados, se calcul
a partir de la siguiente frmula:
ncentros = na
[(1 + (M 1)]
M
na =
Nz2 / 2 S 2
N
=
2
2
2
Ne + z / 2 S
e2
1
(
1
)
+
N
z2 / 2 pq
27
Resultados
A continuacin se muestran los resultados obtenidos con el Mtodo del Cubo para las
variables de equilibrio.
Cada una de las tablas compara la distribucin poblacional con la obtenida a partir de
los elevadores de la muestra. Los porcentajes estn dados por columnas.
1 ESO
2 ESO
3 ESO
4 ESO
TOTAL
Poblacional
Muestral
(elevado)
19.664
19.617
(27,21%)
(27,14%)
18.633
18.649
(25,78%)
(25,80%)
17.669
17.764
(24,45%)
(24,58%)
16.306
16.243
(22,56%)
(22,47%)
72.272
72.272
Muestral
(elevado)
870
869
(25,02%)
(24,04%)
852
849
(24,50%)
(24,47%)
896
896
(25,77%)
(25,82%)
859
856
(24,71%)
(24,67%)
3.477
3.470
28
Poblacional
Tamao 1
Tamao 2
Tamao 3
Muestral
(elevado)
100
95
(30,12%)
(28,79%)
128
129
(38,55%)
(39,09%)
61
63
(18,37%)
(19,09%)
Tamao 4
Tamao 5
31
31
(9,34%)
(9,39%)
12
12
(3,61%)
(3,64%)
332
330
TOTAL
Teniendo en cuenta las variables sobre las que ha sido equilibrada la muestra, tambin
se han obtenido muy buenos estimadores de la media de alumnos por centro y grupo
para cada uno de los cursos.
CURSO 2011/12
Media alumno
por centro
Media alumno
por grupo
Poblacional
Muestral
(elevado)
Poblacional
Muestral
(elevado)
1 ESO
59.23
59.44
22.60
22.57
2 ESO
56.21
56.51
21.90
21.97
3 ESO
53.22
53.83
19.72
19.83
4 ESO
49.11
49.22
18.98
18.98
TOTAL
217.69
219.00
20.79
20.33
29
Ficha Tcnica
Marco
Lo componen los establecimientos de cualquier sector de actividad que ejerza su
actividad en el mbito de la CAE, salvo el sector primario y el servicio domstico.
Diseo muestral
Se trata de una muestra estratificada de una sola etapa.
Unidades muestrales
Todos los establecimientos que forman parte del marco mencionado.
Estratificacin
Se realiza un muestro estratificado por el cruce de las siguientes variables:
- Territorio Histrico
1 = Araba; 2 = Bizkaia; 3 = Gipuzkoa
- Estrato de empleo
1 = 0-5 empleados; 2 = 6-9 empleados; 3 = 10-19 empleados;
4 = 20-49 empleados; 5 = 50-99 empleados; 6 = 100 y ms empleados
30
estab
j Act k =1
donde
Act j Empk
estabTH i
3
i =1
i = 1,2,3
estabTH i
nh =
donde
N h z2 / 2 S h
Nh
=
2
2
2
N h e + z / 2 S h
e2
1
(
1
)
+
N
h
z2 / 2 pq
31
Sustitutos
Para completar la muestra se necesita una bolsa de sustitutos de unos 3.500
establecimientos. El nmero de suplentes por estrato, es proporcional a la
muestra terica en cada uno de los estratos de empleo y territorio.
Al igual que en la muestra principal, la muestra de sustitutos se equilibrar con el
Mtodo del Cubo sobre el nmero de establecimientos en cada comarca.
Resultados
A continuacin se muestran los resultados obtenidos con el Mtodo del Cubo al
equilibrar la el nmero de establecimientos por comarca.
Muestral
(elevado)
405
523
(0.22 %)
(0.29 %)
18.903
19.063
(10.49 %)
(10.58 %)
248
257
(0.14 %)
(0.14 %)
1.311
1.135
(0.73 %)
(0.63 %)
780
749
(0.43 %)
(0.42 %)
2.180
2.099
(1.21 %)
(1.16 %)
1.787
1.399
(0.99 %)
(0.78 %)
73.572
72.517
(40.82 %)
(40.24 %)
7.517
7.795
(4.17 %)
(4.33 %)
2.356
2.364
(1.31 %)
(1.31 %)
3.425
3.364
(1.90 %)
(1.87 %)
1.828
2.446
(1.01 %)
(1.36 %)
4.008
4.609
(2.22 %)
(2.56 %)
7.169
8.343
(3.98 %)
(4.63 %)
32
Bajo Deba
Alto Deba
Donostialdea
Goierri
Tolosaldea
Urola Costa
TOTAL
4.191
4.989
(2.33 %)
(2.77 %)
4.197
4.742
(2.33%)
(2.63 %)
31.422
28.724
(17.44 %)
(15.94 %)
4.929
5.192
(2.73 %)
(2.88 %)
4.029
4.105
(2.24 %)
(2.28 %)
5.966
5.809
(3.31 %)
(3.22 %)
180.223
180.223
Ficha Tcnica
Marco
El marco de la muestra de la Encuesta sobre Capital Social lo compone la
poblacin de 15 aos y ms residente en viviendas y establecimientos colectivos
de la Comunidad Autnoma de Euskadi.
Diseo muestral
Se trata de una muestra estratificada de una sola etapa.
33
Unidades muestrales
Poblacin de 15 aos y ms residentes en viviendas y establecimientos
colectivos de la CAE
Tamao de la muestra
Se seleccionan n = 7000 individuos.
Estratificacin
Se realiza un muestro estratificado por el cruce de las siguientes variables:
- Territorio Histrico
01 = Araba; 20 = Gipuzkoa; 48 = Bizkaia
- Nacionalidad
0 = Nacionales; 1 = Extranjeros
Afijacin
Se ha establecido un criterio para cada uno de los niveles de estratificacin:
1. Reparto proporcional a la raz cuadrada del n de individuos por Territorio.
2. Reparto proporcional al n de individuos por tamao de municipio.
3. Reparto proporcional a la potencia 2/3 del n de individuos por nacionalidad.
Para escoger la afijacin ms conveniente en el tercer nivel, se han tenido en
cuenta las tasas de no respuesta de la anterior encuesta realizada (ECS 2007).
Dado que los mtodos de recogida de la informacin de la encuesta son los
mismos, podemos suponer que las tasas de respuesta para la encuesta actual
van a ser similares.
Por lo tanto, se ha buscado la afijacin que permite conseguir el tamao de
muestra mnimo necesario (unas 400 unidades) para poder dar estimaciones a
nivel de capitales y poblacin extranjera, teniendo en cuenta estas tasas de
respuesta.
El tamao de la muestra en cada estrato viene especificado por la siguiente
frmula:
( N TH iTMUN j NACI k ) 2
3
( N TH iTMUN j NACI k ) 2
donde
N TH i
N TH i
N TH iTMUN j
TH iTMUN j
34
Sorteo
Se realiza un muestreo aleatorio simple en cada uno de los estratos.
Variables de equilibrio
La muestra ha sido equilibrada sobre las siguientes variables:
-
Sustitutos
Para completar la muestra se necesita una bolsa de sustitutos de otros 7.000
individuos. Estos sustitutos han sido extrados respetando el mismo reparto
muestral por estratos que en la muestra original, equilibrando la muestra sobre
las mismas variables que los titulares.
Resultados
A continuacin se muestran los resultados obtenidos con el Mtodo del Cubo para las
variables de equilibrio.
Cada una de las tablas compara la distribucin poblacional con la obtenida a partir de
los elevadores de la muestra. Los porcentajes estn dados por columnas
Hombres
Poblacional
15-24 aos
25-34 aos
35-44 aos
45-54 aos
55-64 aos
Ms de 65
aos
TOTAL
Muestral
(elevado)
Mujeres
Poblacional
Muestral
(elevado)
TOTAL
Poblacional
Muestral
(elevado)
13.818
13.729
12.831
12.762
26.649
26.491
(10,06%)
(10,02%)
(9,24%)
(9,17%)
(9,65%)
(9,59%)
23.028
22.923
21.541
21.725
44.569
44.648
(16,77%)
(16,73%)
(15,51%)
(15,60%)
(16,13%)
(16,16%)
28.954
28.948
26.298
26.278
55.252
55.226
(21,08%)
(21,13%)
(18,93%)
(18,87%)
(20,0%)
(19,99%)
24.889
24.895
24.891
25.039
49.780
49.934
(18,12%)
(18,17%)
(17,92%)
(17,98%)
(18,02%)
(18,08%)
20.051
19.942
20.355
20.332
40.406
40.274
(14,60%)
(14,55%)
(14,65%)
(14,60%)
(14,63%)
(14,58%)
26.584
26.590
33.009
33.086
59.593
59.676
(19,36%)
(19,40%)
(23,76%)
(23,76%)
(21,57%)
(21,60%)
137.324
137.027
138.925
139.222
276.249
276.249
(100 %)
(100 %)
(100 %)
(100 %)
(100 %)
(100%)
35
TH = GIPUZKOA (20)
Hombres
Poblacional
15-24 aos
25-34 aos
35-44 aos
45-54 aos
55-64 aos
Ms de 65
aos
TOTAL
Muestral
(elevado)
Mujeres
Poblacional
Muestral
(elevado)
TOTAL
Poblacional
Muestral
(elevado)
30.206
30.273
28.416
28.371
58.622
58.644
(10,18%)
(10,22%)
(9,09%)
(9,07%)
(9,62%)
(9,63%)
45.461
45.452
43.313
43.517
88.774
88.968
(15,32%)
(15.34%)
(13.86%)
(13,91%)
(14,57%)
(14,60%)
60.481
60.491
56.318
56.361
116.799
116.852
(20,39%)
(20,41%)
(18,02%)
(18,01%)
(19,17%)
(19,18%)
54.351
54.228
54.409
54.480
108.760
108.707
(18,32%)
(18,30%)
(17,41%)
(17,41%)
(17,85%)
(17,84%)
45.126
44.881
46.428
46.525
91.554
91.406
(15,21%)
(15,14%)
(14,85%)
(14,87%)
(15,03%)
(15,0%)
61.051
61.021
83.677
83.638
144.728
144.659
(20,58%)
(20,59%)
(26,77%)
(26,73%)
(23,76%)
(23,74%)
296.676
296.346
312.561
312.891
609.237
609.237
(100 %)
(100 %)
(100 %)
(100 %)
(100 %)
(100 %)
TH = BIZKAIA (48)
Hombres
47.497
Muestral
(elevado)
47.673
(9.80%)
(9,83%)
Poblacional
15-24 aos
25-34 aos
35-44 aos
45-54 aos
55-64 aos
Ms de 65
aos
TOTAL
Mujeres
45.007
Muestral
(elevado)
45.152
(8,59%)
(8,62%)
Poblacional
TOTAL
92.504
Muestral
(elevado)
92.825
(9,17%)
(9,20%)
Poblacional
76.941
76.969
73.755
73.658
150.696
150.627
(15,87%)
(15,88%)
(14,07%)
(14,06%)
(14,94%)
(14,93%)
97.104
97.136
93.542
93.318
190.646
190.454
(20,03%)
(20,04%)
(17,85%)
(17,81%)
(18,90%)
(18,88%)
90.348
90.178
93.048
92.807
183.396
182.985
(18,64%)
(18,60%)
(17,75%)
(17,71%)
(18,18%)
(18,14%)
72.330
72.308
77.119
77.329
149.449
149.637
(14,92%)
(14,91%)
(14,71%)
(14,76%)
(14,81%)
(14,83%)
100.487
100.558
141.669
141.762
242.156
242.320
(20,73%)
(20,74%)
(27,03%)
(27,05%)
(24,0%)
(24,02%)
484.707
484.821
524.140
524.026
1.008.847
1.008.847
(100 %)
(100 %)
(100 %)
(100 %)
(100 %)
(100 %)
36
Muestral
elevado
5.107
5.051
(0,27%)
(0,27%)
221.595
221.680
(11,69%)
(11,69%)
2.855
2.886
(0,15%)
(0,15%)
9.852
9.835
(0,52%)
(0,52%)
7.296
7.292
(0,38%)
(0,38%)
30.043
30.004
(1,58%)
(1,58%)
20.289
20.386
(1,07%)
(1,08%)
768.311
767.962
(40,53%)
(40,51%)
83.470
83.513
(4,40%)
(4,41%)
27.787
27.742
(1,47%)
(1,46%)
40.183
40.331
(2,12%)
(2,13%)
23.128
23.333
(1,22%)
(1,23%)
46.202
(2,44%)
(2,43%)
46.104
66.403
66.418
(3,50%)
(3,50%)
47.748
47.664
(2,52%)
(2,51%)
53.540
53.584
(2,82%)
(2,83%)
282.424
282.508
(14,90%)
(14,90%)
57.859
57.781
(3,05%)
(3,05%)
40.147
40.193
(2,12%)
(2,12%)
61.490
61.462
(3,24%)
(3,24%)
1.895.729
1.895.729
37
Ficha Tcnica
Marco
Lo componen todos los establecimientos de cualquier sector de actividad que
ejerza su actividad en el mbito de la CAE, salvo el sector primario, la
administracin pblica, las actividades asociativas, las actividades de los
hogares y las actividades de organizacin y organismos extraterritoriales
Diseo muestral
Se trata de una muestra estratificada de una sola etapa.
Unidades muestrales
Todos los establecimientos que forman parte del marco mencionado.
Estratificacin
Se realiza un muestro estratificado por el cruce de las siguientes variables:
- Territorio Histrico
1 = Araba; 2 = Bizkaia; 3 = Gipuzkoa
- Estrato de empleo
1 = 0-9 empleados; 2 = 10-49 empleados;
3 = 50-249 empleados; 4 = 250 y ms empleados
38
kAct
donde
nTH i Emp j
estabTH i Emp j
750
estabTH i Emp j
j =1
=
estabTH i Emp j
2400
estabTH i Emp j
j2 , 3
i {01,20,48}
j {1,2,3}
Una vez calculados los tamaos tericos necesarios por estrato, restamos las
unidades que ya contiene el panel para obtener el nmero de unidades a extraer
en cada estrato. Concretamente, en el ao 2012 ha sido necesario extraer 771
establecimientos.
Sorteo
Se realiza un muestreo aleatorio simple en cada uno de los estratos, dando
prioridad a los establecimientos que estn especificados en el marco como altas.
Variables de equilibrio
Con el objetivo de obtener mejores estimaciones a nivel comarcal, la muestra
correspondiente a los estratos empleo 2 y 3 (ms de 10 empleados) ha sido
equilibrada sobre el nmero de establecimientos en cada comarca (20
comarcas) y en las capitales.
Sustitutos
Para completar la muestra se necesita una bolsa de sustitutos. Para ello, se
extraern 5 establecimientos en los estratos que no estn completos. En el ao
2012 se han extrado 1.950 establecimientos reserva
Al igual que en la muestra principal, la muestra de sustitutos se equilibrar con el
Mtodo del Cubo sobre el nmero de establecimientos en cada comarca y las
capitales.
MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO
39
Resultados
A continuacin se muestran los resultados obtenidos con el Mtodo del Cubo al
equilibrar la el nmero de establecimientos por comarca y las capitales.
Muestral
(elevado)
50
64
(0.40 %)
(0.51 %)
102
69
(0.81 %)
(0.54 %)
14
19
(0.11 %)
(0.15 %)
105
93
(0.83 %)
(0.74 %)
97
156
(0.77 %)
(1.23 %)
185
234
(1.47 %)
(1.86 %)
135
114
(1.07 %)
(0.91%)
2.931
2.597
(23.26 %)
(20.61 %)
648
556
(5.14 %)
(4.41 %)
111
217
(0.88 %)
(1.72 %)
162
271
(1.29 %)
(2.15 %)
103
192
(0.82 %)
(1.52 %)
200
333
(1.59 %)
(2.64 %)
373
385
(2.96 %)
(3.06 %)
359
290
(2.85 %)
(2.30 %)
366
490
(2.90%)
(3.88 %)
910
841
(7.22 %)
(6.67 %)
334
387
(2.65 %)
(3.07 %)
40
Tolosaldea
Urola Costa
Vitoria-Gasteiz
Bilbao
Donostia-San Sebastian
TOTAL
311
419
(2.47 %)
(3.32 %)
390
263
(3.09 %)
(2.09 %)
1.548
1.467
(12.28 %)
(11.64 %)
1.979
1.988
(15.70 %)
(15.78 %)
1.190
1.158
(9.44 %)
(9.19 %)
12.603
12.603
Notas:
1. Para el clculo de los elevadores del nmero de establecimientos por comarca,
se ha hecho una post-estratificacin, agrupado los estratos de actividad en
funcin de la agregacin sectorial A38 (CNAE09), puesto que es la que se
utiliza en difusin.
2. En las tres capitales, se han obtenido muy buenas estimaciones del nmero de
establecimientos.
3. En lo que al resto de comarcas se refieren, pese a que la mayora de ellas
estn bastante bien estimadas, podemos encontrar comarcas con un alto error
relativo como Estribaciones del Gorbea, Encartaciones, Gernika-Bermeo,
Markina-Ondarroa, Plentzia-Mungia, Tolosaldea o Urola-Costa.
4. En estas 7 comarcas el Mtodo del Cubo no ha logrado un solucin muestral
que obtenga mejores resultados debido a las restricciones impuestas por el
mismo diseo:
-
41
Ficha Tcnica
Marco
El marco de la muestra de la Encuesta de Pobreza y Desigualdades Sociales lo
componen las viviendas familiares ocupadas de la Comunidad Autnoma de
Euskadi y sus territorios histricos.
Diseo muestral
Se trata de una muestra bietpica con estratificacin en la primera etapa y
tamao de la muestra fija en la segunda.
Unidades muestrales
Viviendas familiares ocupadas de la CAE.
Tamao de la muestra
Se seleccionan alrededor de 4.000 unidades de encuestacin, aportndose unas
8.000 unidades sustitutas (dos sustitutos por unidad muestral).
Primera etapa: Muestra de secciones
En la primera etapa se realiza un sorteo de las secciones censales de la CAE.
o Estratificacin
Las unidades de la primera etapa se estratifican por el cruce de las siguientes
variables:
- Comarcas y cuadrillas
01 = Aana; 02 = Ayala/Aiara; 03 = Campezo-Montaa Alavesa;
04 = Laguardia-Rioja Alavesa; 05 = Salvatierra/Agurain;
06 = Vitoria-Gasteiz; 07 = Zuia; 08 = Donostialdea;
09 = Tolosaldea-Goierri; 10 = Alto-Deba; 11 = Bajo-Deba;
12 = Margen Derecha; 13 = Bilbao; 14 = Margen Izquierda;
15 = Bizkaia Costa; 16 = Duranguesado
MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO
42
- Tipologas
Se realiza un anlisis de las tipologas de las secciones censales de
Eustat, especfico para la EPDS. Para ello, se tienen en cuenta las
variables bsicas: edad, sexo, nacionalidad, relacin con la actividad, n
de residentes en la vivienda y renta personal y familiar media.
Una vez realizado un Anlisis de Componentes Principales, las
secciones son clasificadas en 7 tipologas.
Variables de equilibrio
La muestra ha sido equilibrada sobre las mismas variables tanto el la primera
etapa como en la segunda. Con ello, aseguramos que la muestra final est
equilibrada sobre el marco de viviendas completo.
Las variables equilibradas son las siguientes:
43
Edad: Nmero de individuos con menos de 34 aos, entre 35-44 aos, 4554 aos y ms de 65 aos por TH.
Sustitutos
Para completar la muestra se sortean un suplente y un reserva para cada una
de las viviendas. Estos sustitutos han sido extrados en cada una de las
secciones censales seleccionadas en la primera etapa, equilibrando la muestra
sobre las mismas variables que las viviendas titulares.
Resultados
A continuacin se muestran los resultados obtenidos con el Mtodo del Cubo para las
variables de equilibrio.
Cada una de las tablas compara la distribucin poblacional con la obtenida a partir de
los elevadores de la muestra. Los porcentajes estn dados por columnas
Araba
Poblacional
Gipuzkoa
Muestral
Poblacional
(elevado)
Muestral
(elevado)
Bizkaia
Poblacional
Muestral
(elevado)
1
residente
35.528
35.440
68.232
68.553
109.535
112.675
(27,77%)
(27,70%)
(24,97%)
(25,09%)
(24,44%)
(25,14%)
2
residentes
37.537
38.174
78.075
78.039
130.825
130.322
(29,34%)
(29,84%)
(28,57%)
(28,56%)
(29,18%)
(29,07%)
3-4
residentes
47.391
47.735
108.714
108.381
180.827
178.194
(37,04%)
(37,31%)
(39,78%)
(39,66%)
(40,34%)
(39,75%)
Ms de 5
residentes
7.485
6.592
18.248
18.295
27.079
27.075
(5,85%)
(5,15%)
(6,68%)
(6,69%)
(6,04%)
(6,04%)
TOTAL
127.941
127.941
273.269
273.269
448.266
448.266
44
Araba
Poblacional
Hombres
Mujeres
TOTAL
Gipuzkoa
Bizkaia
Muestral
Muestral
Muestral
Poblacional
Poblacional
(elevado)
(elevado)
(elevado)
157.836
155.759
(49,91%)
(49,63%)
344.561
(49,02%)
358.350
347.363
553.674
551.028
(49,48%)
(48,49%)
(48,53%)
158.392
158.111
354.687
588.197
584.492
(50,09%)
(50,37%)
(50,98%)
(50,52%)
(51,51%)
(51,47%)
316.228
313.870
702.911
702.050
1.141.871
1.135.521
Araba
Poblacional
Menos de
34 aos
35 - 44
aos
45 - 54
aos
55 - 64
aos
Gipuzkoa
Bizkaia
Muestral
Muestral
Muestral
Poblacional
Poblacional
(elevado)
(elevado)
(elevado)
108.383
109.676
233.423
234.644
366.085
363.674
(34,27%)
(34,94%)
(33,21%)
(33,42%)
(32,06%)
(32,03%)
55.227
49.691
116.445
116.922
188.762
194.045
(17,46%)
(15,83%)
(16,57%)
(16,65%)
(16,53%)
(17,09%)
49.799
109.078
107.384
182.531
179.632
(15,52%)
(15,30%)
(15,99%)
(15,82%)
40.810
49.939
(15,91%)
43.836
92.261
91.599
151.434
146.342
(12,91%)
(13,97%)
(13,13%)
(13,05%)
(13,26%)
(12,89%)
(15,75%)
Ms de 65
aos
62.009
60.729
151.704
151.501
253.059
251.828
(19,61%)
(19,35%)
(21,58%)
(21,58%)
(22,16%)
(22,18%)
TOTAL
316.228
313.870
702.050
1.141.871
1.135.521
702.911
Araba
Poblacional
Nacional
Extranjero
TOTAL
Gipuzkoa
Bizkaia
Muestral
Muestral
Muestral
Poblacional
Poblacional
(elevado)
(elevado)
(elevado)
286.633
289.847
658.599
659.521
1.067.272
1.059.925
(90,64%)
(92,35%)
(93,70%)
(93,94%)
(93,47%)
(93,34%)
29.595
24.023
44.312
42.529
74.599
75.595
(9,36%)
(7,65%)
(6,30%)
(6,06%)
(6,53%)
(6,66%)
316.228
313.870
702.911
702.050
1.141.871
1.135.521
45
Aana
Ayala / Aiara
Campezo - Montaa Alavesa
Laguardia - Rioja Alavesa
Salvatierra/Agurain
Vitoria - Gasteiz
Zuia
Donostialdea
Tolosaldea - Goierri
Alto Deba
Bajo Deba
Margen Derecha
Bilbao
Margen Izquierda
Bizkaia Costa
Duranguesado
TOTAL
Poblacional
Muestral
elevado
8.617
8.350
(0,40%)
(0,39%)
34.208
33.894
(1,58%)
(1,58%)
3.156
3.118
(0,15%)
(0,14%)
11.414
11.181
(0,53%)
(0,52%)
12.255
12.384
(0,57%)
(0,58%)
237.059
235.576
(10,97%)
(10,95%)
9.519
9.368
(0,44%)
(0,44%)
472.708
472.950
(21,87%)
(21,98%)
114.584
113.420
(5,30%)
(5,27%)
60.919
60.945
(2,82%)
(2,83%)
54.700
54.734
(2,53%)
(2,54%)
161.425
157.625
(7,47%)
(7,33%)
349.132
348.884
(16,16%)
(16,22%)
386.068
379.912
(17,87%)
(17,66%)
126.504
127.321
(5,85%)
(5,92%)
118.742
121.778
(5,49%)
(5,66%)
2.161.010
2.151.441
46
Ficha Tcnica
Marco
El marco de la muestra lo componen la poblacin de 15 aos y ms, que residen
en viviendas familiares de los 128 municipios sealados como rurales por el
Departamento de Agricultura, Pesca y Alimentacin.
Diseo muestral
Como el objetivo es obtener una muestra de mujeres y otra de hombres de igual
tamao en los municipios rurales, se ha optado por realizar una muestra
bietpica con estratificacin en la primera etapa. Las afijaciones de la primera y
segunda etapa se calculan de modo que la muestra final de individuos es
autoponderada por Territorio Histrico.
De esta manera, una vez sorteados los municipios rurales, se sortearn el
mismo nmero de hombres y mujeres dentro de cada municipio.
Tamao de la muestra
Se seleccionan alrededor de 250 hombres y 250 mujeres en cada Territorio
Histrico de la CAE. No se seleccionarn sustitutos, puesto que se ha optado
por realizar una sobremuestra teniendo en cuenta la tasa de no respuesta
estimada (46% en cada uno de los TH).
Primera etapa: Muestra de municipios
En la primera etapa se realiza un sorteo estratificado de los 128 municipios
rurales de la CAE.
o Unidades muestrales
Municipios rurales de la CAE. Se trata de conglomerados de individuos de
tamaos distintos.
o Estratificacin
Las unidades de la primera etapa se estratifican por:
MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO
47
- Territorio Histrico
01 = Araba; 20 = Gipuzkoa; 48 = Bizkaia
nMUNi = nh
PobMUNi
Pobh
48
Resultados
A continuacin se muestran los resultados obtenidos con el Mtodo del Cubo para las
variables de equilibrio.
Cada una de las tablas compara la distribucin poblacional con la obtenida a partir de
los elevadores de la muestra. Los porcentajes estn dados por columnas
Araba
Poblacional
15 - 25 aos
26 - 39 aos
40 - 54 aos
55 - 64 aos
1.705
(9,70%)
Gipuzkoa
Muestral
(elevado)
1.676
(9,53%)
Poblacional
Muestral
(elevado)
Bizkaia
Poblacional
Muestral
(elevado)
1.231
1.236
1.769
1.807
(10,41%)
(10,45%)
(8,90%)
(9,09%)
3.706
3.634
2.958
2.988
4.354
4.383
(21,08%)
(20,67%)
(25,01%)
(25,26%)
(21,91%)
(22,06%)
5.746
5.807
3.396
3.320
6.169
6.260
(32,68%)
(33,03%)
(28,71%)
(28,07%)
(31,05%)
(31,51%)
3.050
(15,35%)
2.698
2.730
1.802
1.809
3.191
(15,35%)
(15,53%)
(15,23%)
(15,29%)
(16,06%)
Ms de 65
aos
3.727
3.734
2.442
2.476
4.386
4.369
(21,20%)
(21,24%)
(20,64%)
(20,93%)
(22,07%)
(21,99%)
TOTAL
17.582
17.852
11.829
19.869
19.869
11.829
49
SEXO = MUJERES
Araba
Poblacional
15 - 25 aos
26 - 39 aos
40 - 54 aos
55 - 64 aos
Gipuzkoa
Muestral
(elevado)
Poblacional
Muestral
(elevado)
Bizkaia
Poblacional
Muestral
(elevado)
1.552
1.624
1.164
1.133
1.716
1.655
(9,91%)
(10,37 %)
(10,73%)
(10,45%)
(8,99%)
(8,67%)
3.351
3.309
2.709
2.658
3.970
4.058
(21,39%)
(21,12%)
(24,98%)
(24,51 %)
(20,81%)
(21,27%)
4.694
4.749
2.880
2.870
5.398
5.403
(29,96%)
(30,31%)
(26,56%)
(26,47%)
(28,29%)
(28,32%)
2.714
(14,23%)
2.708
(14,19%)
2.133
2.067
1.416
1.481
(13,61%)
(13,19%)
(13,06%)
(13,66%)
Ms de 65
aos
3.938
3.918
2.675
2.703
5.281
5.255
(25,13%)
(25,01%)
(24,67%)
(24,93 %)
(27,68%)
(27,54%)
TOTAL
15.668
15.668
10.844
19.079
19.079
10.844
Araba
Poblacional
Nacional
Extranjero
TOTAL
16.410
(93,33%)
Gipuzkoa
Muestral
(elevado)
16.403
(93,29%)
11.182
Muestral
(elevado)
11.218
(94.53%)
(94,83%)
Poblacional
Bizkaia
19.037
Muestral
(elevado)
19.000
(95,81%)
(95,63%)
Poblacional
1.172
1.179
647
611
832
869
(6,67%)
(6,71%)
(5,47%)
(5,17%)
(4,19%)
(4,37%)
17.582
17.852
11.829
11.829
19.869
19.869
SEXO = MUJERES
Araba
Poblacional
Nacional
Extranjero
TOTAL
Gipuzkoa
Muestral
(elevado)
Poblacional
Muestral
(elevado)
Bizkaia
Poblacional
Muestral
(elevado)
14.694
14.673
10.300
10.278
18.270
18.251
(93,78%)
(93,65%)
(94,98%)
(94,78%)
(95,76%)
(95,66%)
974
995
544
566
809
828
(6,22%)
(6,35%)
(5,02%)
(5,22%)
(4,24%)
(4,34%)
15.668
15.668
10.844
10.844
19.079
19.079
50
Araba
Poblacional
7.304
Gipuzkoa
Muestral
(elevado)
7.225
(41,09%)
5.287
Muestral
(elevado)
5.144
(44,70%)
(43,49 %)
Poblacional
Bizkaia
6.873
Muestral
(elevado)
6.813
(34,59%)
(34,29%)
Poblacional
Estudios
Primarios
(41,54%)
Estudios
Medios
7.616
7.630
4.957
5.123
8.798
8.915
(43,32%)
(43,40%)
(41,91%)
(43,41%)
(44,28%)
(44,87%)
Estudios
Superiores
2.662
2.727
1.585
1.562
4.198
4.141
(15,14%)
(15,51%)
(13,40%)
(13,20%)
(21,13%)
(20,84%)
TOTAL
17.582
17.852
11.829
19.869
19.869
11.829
SEXO = MUJERES
Araba
Poblacional
6.774
Gipuzkoa
Muestral
(elevado)
6.665
(42,54%)
4.928
Muestral
(elevado)
4.922
(45,44%)
(45,39%)
Poblacional
Bizkaia
7.587
Muestral
(elevado)
7.586
(39,77%)
(39,76%)
Poblacional
Estudios
Primarios
(43,23%)
Estudios
Medios
5.459
5.557
3.451
3.441
6.148
6.160
(34,84%)
(35,47 %)
(31,82%)
(31,73 %)
(32,22%)
(32,29%)
Estudios
Superiores
3.435
3.446
2.465
2.482
5.344
5.333
(21,92%)
(21,99%)
(22,73%)
(22,89%)
(28,01%)
(27,95%)
TOTAL
15.668
15.668
10.844
19.079
19.079
10.844
Araba
Poblacional
Ncleo
Diseminado
TOTAL
16.555
(94,16%)
Gipuzkoa
Muestral
(elevado)
16.743
(95,23%)
Poblacional
Muestral
(elevado)
Bizkaia
Poblacional
Muestral
(elevado)
7.530
7.891
11.750
12.245
(63,66%)
(66,71%)
(59,14%)
(61,63 %)
1.027
839
4.299
3.938
8.119
7.624
(5,84%)
(4,77%)
(36,34%)
(33,29%)
(40,86%)
(38,37%)
17.582
17.852
11.829
11.829
19.869
19.869
51
SEXO = MUJERES
Araba
Poblacional
14.781
Ncleo
(94,34%)
Diseminado
TOTAL
Gipuzkoa
Muestral
(elevado)
14.977
(95,59%)
Poblacional
Muestral
(elevado)
Bizkaia
Poblacional
Muestral
(elevado)
7.223
7.687
11.555
12.072
(66,61%)
(70,89%)
(60,56%)
(63,27%)
887
691
3.621
3.157
7.524
7.007
(5,66%)
(4,41%)
(33,39%)
(29,11%)
(39,44%)
(36,73%)
15.668
15.668
10.844
10.844
19.079
19.079
Ficha Tcnica
Marco
El marco de la muestra lo componen la poblacin de 15 a 74 aos de edad
residentes en viviendas familiares de la Comunidad Autnoma de Euskadi y sus
territorios histricos.
Diseo muestral
Se trata de una muestra estratificada de una sola etapa.
Unidades muestrales
Poblacin entre 15 y 74 aos (fecha de referencia: 15 de julio de 2012)
residentes en viviendas familiares de la Comunidad Autnoma de Euskadi.
Tamao de la muestra
Segn las especificaciones de la operacin, se seleccionarn n=2007 individuos
titulares; y otros tantos suplentes y reservas.
Estratificacin
Se realiza un muestreo estratificado por el cruce de las siguientes variables:
MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO
52
- Territorio Histrico
01 = Araba; 20 = Gipuzkoa; 48 = Bizkaia
- Grupos de edad:
6 grupos de edades decenales
(15-24, 25-34, 35-44, 45-54, 55-64 y 65-74 aos)
Afijacin
Se ha establecido un criterio para cada uno de los niveles de estratificacin:
1. Reparto proporcional a la raz cuadrada del n de individuos por Territorio
2. Para cada Territorio, afijacin del tamao doble para los grupos de edad
ms jvenes (15-24 aos, 25-34 aos y 35-44 aos).
Sorteo
Una vez obtenido el reparto terico, se realiza un muestreo aleatorio simple
en cada estrato.
Variables de equilibrio
La muestra ha sido equilibrada sobre las siguientes variables:
-
Sustitutos
Para completar la muestra, se necesitan dos bolsas de unidades sustitutas: una
de suplentes y otra de reservas, ambas de 2007 unidades en cada caso.
Estas unidades sustitutas se extraern respetando el mismo reparto muestral
por estratos utilizado en la muestra original, equilibrando la muestra sobre las
mismas variables que los titulares.
Resultados
A continuacin se muestran los resultados obtenidos con el Mtodo del Cubo para las
variables de equilibrio.
Cada una de las tablas compara la distribucin poblacional con la obtenida a partir de
los elevadores de la muestra. Los porcentajes estn dados por columnas:
53
Muestral
elevado
Alava
219.042
218.966
(13,28%)
(13,28%)
Gipuzkoa Oeste
218.155
218.335
(13,23%)
(13,24%)
Gipuzkoa Este
328.814
329.009
(19,94%)
(19,95%)
(Biz) Interior
227.787
228.032
(13,81%)
(13,83%)
(Biz) Ezkerraldea-Enkarterria
225.829
224.429
(13,70%)
(13,61%)
(Biz) Uribe
166.287
166.029
(10,08%)
(10,07%)
(Biz) Bilbao
263.028
264.141
(15,95%)
(16,02%)
TOTAL
1.648.942
1.648.942
Muestral
elevado
Capitales
587.948
589.033
(35,66%)
(35,72%)
De 50.000 a 100.000
184.970
184.638
(11,22%)
(11,20%)
De 25.000 a 50.000
239.465
239.354
(14,52%)
(14,52%)
De 10.000 a 25.000
300.173
300.088
(18,20%)
(18,20%)
Hasta 10.000
336.386
335.829
(20,40%)
(20,37%)
TOTAL
1.648.942
1.648.942
54
Muestral
elevado
Hombres
823.310
823.742
(49,93%)
(49,96%)
Mujeres
825.632
825.200
(50,07%)
(50,04%)
TOTAL
1.648.942
1.648.942
Poblacional
Muestral
elevado
Nacional
1.519.906
1.518.872
(92,17%)
(92,11%)
Extranjero
129.036
130.070
(7,83%)
(7,89%)
TOTAL
1.648.942
1.648.942
55
8. Conclusiones
Por ltimo, vamos a mencionar ciertas conclusiones relativas al inters de realizar
muestreos equilibrados, la eleccin de las variables de equilibrio y la relacin del
equilibrio con la estratificacin y calibracin.
Equilibrio y estratificacin
Tanto para la estratificacin como para el equilibrio, necesitamos conocer el valor de las
variables auxiliares para todas las unidades de la poblacin.
La mayor ventaja de la estratificacin, es que nos permite dividir la poblacin en
subpoblaciones ms homogneas obteniendo estimadores ms precisos, reduciendo
la varianza de muestreo. La estratificacin es tanto mejor cuantas ms variables
correlacionadas con la variable de inters intervengan.
An as, el utilizar demasiadas variables de estratificacin, puede producir estratos
demasiado pequeos, en donde el tamao muestral no es suficiente; sin mencionar los
problemas que pueda acarrear la no respuesta en dichos estratos, aunque esto se
pueda arreglar mediante el colapso de estratos (post-estratificacin).
Las variables de equilibrio, permiten que aquellas variables que no puedan entrar en la
estratificacin mltiple se aadan como variable de equilibrio, manteniendo todas las
ventajas de la estratificacin en lo que a la reduccin de la varianza se refiere y
aadiendo las ventajas propias del equilibrio.
Permiten tambin, trabajar en dominios definidos sobre el cruce varios estratos o reas
pequeas.
Las variables de equilibrio pueden ser cuantitativas, mientras que las variables de
estratificacin siempre han de ser cualitativas o categricas.
El Mtodo del Cubo, es muy interesante para la seleccin de las unidades primarias en
una muestra multietpica. En el caso de seleccionar tambin una muestra equilibrada
en la segunda etapa, las variables a equilibrar deben de haber sido equilibradas en la
primera etapa previamente.
CONCLUSIONES
56
Equilibrio y calibracin
A diferencia del equilibrio y la estratificacin, para la calibracin solo debemos conocer
el valor de las variables auxiliares para los elementos de la muestra, as como los
totales de estas variables en la poblacin.
La mejor estrategia es usar equilibrio y calibracin juntos (ver la simulacin en Deville
and Till, 2004), puesto que en general, se obtienen mejores resultados si calibramos
una muestra sobre las mismas variables auxiliares utilizadas en el equilibrio.
Hay un caso en el que la calibracin se puede utilizar sobre variables distintas a las de
equilibrio: cuando se tratan de la misma variable medida en diferentes momentos.
whi = wh i
whi*
mtodo ranking ratio para ajustar las estimaciones a los totales marginales de las
variables de calibracin.
Se define la variable f =
w hi*
como la razn entre los pesos finales y los pesos
w hi
iniciales.
Analizando la distribucin de esta variable, podemos determinar cuanto se han
deformado los pesos iniciales para ajustarse a los totales marginales de las
variables de calibracin.
Este es un pequeo resumen de la distribucin de la variable f:
CONCLUSIONES
57
Media
Mediana
Moda
Desviacin estndar
1
0.9987
0.9978
0.0875
Coeficiente de variacin
8.75%
Mnimo
Mximo
0.8365
1.2484
Como se puede observar, los pesos finales no estn demasiado alejados de los
pesos iniciales (incremento mximo del 24% y decremento mximo del 16%),
manteniendo en buena medida los pesos de las unidades muestrales asociados a
la estratificacin.
w hi*
como la razn
w hi
entre los pesos finales y los pesos iniciales. Los pesos finales
whi*
han sido
obtenidos utilizando la macro CALMAR con el mtodo ranking ratio para ajustar las
estimaciones a los totales marginales de las variables de calibracin.
En esta ocasin, no solo se va a analizar la distribucin de la variable f, sino que la
vamos a comparar con los valores obtenidos para la Encuesta de Capital Social
2007.
Debemos recordar, que pese a que ambas encuestas tienen el mismo diseo
muestral, la ECS 2012 ha sido seleccionada equilibrando la muestra con el Mtodo
del Cubo. Las variables de equilibrio utilizadas, han sido precisamente las mismas
que las variables de calibracin.
A continuacin se muestran los resultados obtenidos para los aos 2007 y 2012:
CONCLUSIONES
58
2007
2012
Media
Mediana
Moda
Desviacin estndar
1.1139
0.9685
2.0076
0.5306
1.0074
0.9944
1.0287
0.1125
Coeficiente de variacin
47.63%
11.17%
Mnimo
Mximo
0.4223
2.3236
0.7965
1.2915
CONCLUSIONES
59
Aumenta la exactitud del estimador de H-T; es mas, la varianza del estimador slo
depende de la correlacin entre las variables de inters y las variables de equilibrio
(residuos de la regresin).
CONCLUSIONES
60
9. Bibliografa
ADIN, A.; ARAMENDI, J.; GALBETE, E. AND IZTUETA, A. (2012)
El Mtodo del Cubo: Un Mtodo para seleccionar muestras
equilibradas. Congreso Vasco de Sociologa y Ciencia Poltica
ARDILLY, P. (1994)
Les Techniques de Sondage. Technip, Paris.
ARDILLY, P. AND TILL, Y. (2006)
Sampling Methods: Exercises and Solutions. Springer, New York.
AZORN, F. AND SANCHEZ-CRESPO, J. L. (1986)
Mtodos y Aplicaciones del Muestreo. Alianza Editorial, Madrid.
CHAUVET, G. AND TILL, Y. (2005)
Fast SAS Macros for balancing Samples: user's guide. Software
Manual, University of Neuchtel.
CHAUVET, G. AND TILL, Y. (2007)
Application of fast SAS macros for balanced samples to the selection
of addresses. Case Studies in Business, Industry and Government
Statistics, 1:173-182.
COCHRAN, W. (1977)
Sampling Techniques. Wiley, New York.
DEVILLE, J.-C. AND TILL, Y. (2004)
Efficient balanced sampling: the cube method. Biometrika, 91:893912.
DEVILLE, J.-C. AND TILL, Y. (2005)
Variance approximation under balanced sampling. Journal of
Statistical Planning and Inference, 128:569-591.
KISH, L. (1965)
Survey Sampling. Wiley, New York.
61
BIBLIOGRAFIA
62