Está en la página 1de 63

EL MTODO DEL CUBO:

APLICACIONES DEL MUESTREO EQUILIBRADO


EN LA ORGANIZACIN ESTADISTICA VASCA

Aritz Adin Urtasun

EUSKAL ESTATISTIKA ERAKUNDEA


INSTITUTO VASCO DE ESTADISTICA

Donostia-San Sebastin, 1
01010 VITORIA-GASTEIZ
Tel.: 945 01 75 00
Fax.: 945 01 75 01
E-mail: eustat@eustat.es
www.eustat.es

Presentacin
Eustat, consciente de la creciente demanda de estadsticas de calidad cada vez ms
desagregadas, organiz en 2010 el XXIII Seminario Internacional de Estadstica con el
ttulo Muestreo equilibrado y eficiente: el Mtodo del Cubo.
El objetivo de Eustat es redefinir los diseos actuales, para que con el mismo o similar
coste se puedan obtener muestras que proporcionen estimadores de calidad para
mbitos o dominios mas desagregados. Con este mismo objetivo se convoc una beca
de dos aos de duracin de formacin e investigacin en el campo de las metodologas
estadstico-matemticas, mas concretamente enfocada hacia la optimizacin de
muestras.
Los resultados de esta investigacin han sido aplicados en diferentes operaciones
estadsticas dentro del Plan Vasco de Estadsticas 2010-2012: Estudio del bullying en
el alumnado de centros de Educacin Primaria y Educacin Secundaria Obligatoria,
Encuesta sobre la Sociedad de la Informacin Familias, Encuesta de Innovacin
Tecnolgica, Encuesta de Pobreza y Desigualdades Sociales y Estudio de las Mujeres
en el mbito Rural Vasco.
El objetivo de esta publicacin es difundir la investigacin realizada durante la beca y
aportar material til a todos los usuarios interesados en el conocimiento y utilizacin de
muestreos eficientes y equilibrados.
Este documento tiene dos partes diferenciadas. En la primera, se encuentran los
conceptos y definiciones correspondientes a la teora de muestreo; as como los planes
de muestreo probabilsticas simples y complejos. En la segunda, la descripcin del
Mtodo del Cubo y su aplicacin a diferentes encuestas-tipo de la Organizacin
Estadstica Vasca.

Vitoria-Gasteiz, Diciembre de 2012


Javier Forcada Sainz
Director General de EUSTAT

ndice
PRESENTACIN .......................................................................................................................... 1
NDICE .......................................................................................................................................... 2
1. INTRODUCCIN ...................................................................................................................... 4
2. INTRODUCCIN A LA TEORA DE MUESTREO.................................................................... 5
DEFINICIONES Y NOTACIN BSICA .............................................................................................. 5
PROPORCIONES MUESTRALES ..................................................................................................... 6
ESTIMADOR DE HORVITZ-THOMPSON........................................................................................... 6
3. PLANES DE MUESTREO PROBABILSTICOS ....................................................................... 7
MUESTREO ALEATORIO SIMPLE .................................................................................................... 7
MUESTREO ESTRATIFICADO......................................................................................................... 8
MUESTREO POR CONGLOMERADOS O CLUSTERS ........................................................................ 10
RESUMEN DE LOS MTODOS PRESENTADOS ............................................................................... 11
4. PLANES DE MUESTREO COMPLEJOS ............................................................................... 13
MUESTREO BIETPICO (O DE DOS ETAPAS)................................................................................. 13
SELECCIN DE LAS UP-S CON PROBABILIDADES IGUALES............................................................ 14
PLAN BIETPICO AUTOPONDERADO ............................................................................................ 15
5. MTODO DEL CUBO: MUESTRE EQUILIBRADO................................................................ 16
REPRESENTACIN POR UN CUBO ............................................................................................... 16
MUESTRAS EQUILIBRADAS......................................................................................................... 16
DESCRIPCIN DEL MTODO ....................................................................................................... 18
6. MACROS DE SAS PARA SELECCIONAR MUESTRAS EQUILIBRADAS............................ 19
MACRO EXE_CUBE ................................................................................................................... 19
MACRO ECHANT_STRAT ............................................................................................................ 20
MACRO AUXILIAR DISJUNCTIVE .................................................................................................. 21
MACRO AUXILIAR CREAR_ESTRATO ........................................................................................... 21
EJEMPLO DE USO DE LAS MACROS ............................................................................................. 22
7. MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO ........................ 26
MUESTRA DE CENTROS DE ESO PARA EL ESTUDIO DEL BULLYING EN LA COMUNIDAD AUTNOMA
DE EUSKADI ............................................................................................................................. 26
MUESTRA PARA LA ENCUESTA DE LA SOCIEDAD DE LA INFORMACIN (ESI-EMPRESAS) ............... 30
MUESTRA PARA LA ENCUESTA DE CAPITAL SOCIAL (ECS).......................................................... 33
INDICE

MUESTRA PARA LA ENCUESTA DE INNOVACIN TECNOLGICA (EIT) ........................................... 38


MUESTRA PARA LA ENCUESTA DE POBREZA Y DESIGUALDADES SOCIALES (EPDS) ..................... 42
MUESTRA PARA EL ESTUDIO DE LAS MUJERES EN EL MBITO RURAL VASCO.................................. 47
MUESTRA PARA LA ENCUESTA DE EUSKADI Y DROGAS ............................................................... 52
8. CONCLUSIONES.................................................................................................................... 56
EQUILIBRIO Y ESTRATIFICACIN ................................................................................................. 56
ELECCIN DE LAS VARIABLES DE EQUILIBRIO .............................................................................. 56
EQUILIBRIO Y CALIBRACIN ....................................................................................................... 57
Anlisis de los resultados ........................................................................................ 57
1. Calibracin de la encuesta de Euskadi y Drogas 2012 ....................................... 57
2. Calibracin de la Encuesta de Capital Social 2012............................................. 58
INTERS DEL MUESTREO EQUILIBRADO ...................................................................................... 60
9. BIBLIOGRAFA ....................................................................................................................... 61

INDICE

1. Introduccin
El contenido recogido en este Cuaderno Tcnico, es fruto del trabajo realizado durante
el disfrute de la beca de formacin e investigacin en metodologas estadsticomatemticas, para el tema de optimizacin de muestras, concedida en el ao 2010 por
el Instituto Vasco de Estadstica / Euskal Estatistika Erakundea.
El presente documento est dividido en los siguientes captulos:
En el primer captulo se realiza una introduccin y se mencionan los objetivos que han
marcado la elaboracin de este cuaderno tcnico.
En segundo captulo, se expone una introduccin a la teora de muestreo, con las
definiciones y notacin bsica del diseo de muestreo, proporciones muestrales y
definicin del estimador de Horvitz-Thompson y su varianza.
En los siguientes dos captulos, se desarrollan los conceptos de planes de muestreo
probabilsticos y planes de muestreo complejos, presentando la mayora de los mtodos
utilizados en la estadstica oficial.
En el quinto captulo, se aborda el concepto de muestreo equilibrado y se presenta el
Mtodo del Cubo para seleccionar muestras equilibradas.
El objetivo del sexto captulo es detallar las macros de SAS que permiten seleccionar
muestras equilibradas.
En el sptimo captulo, se presentan las distintas muestras equilibradas en Eustat con el
Mtodo del Cubo.
Finalmente, se muestran algunas conclusiones relacionadas con el equilibrio, la
estratificacin y la calibracin.
Quiero agradecer el apoyo a todos los componentes del rea de Metodologa,
Innovacin e I+D y, en general, la amabilidad de todo el personal de Eustat.

PALABRAS CLAVE: Diseos muestrales, Probabilidades de inclusin, Estimador de


Horvitz-Thompson, Muestras equilibradas, Mtodo del Cubo, Variables de equilibrio,
Estratificacin, Calibracin.

INTRODUCCION

2. Introduccin a la teora de muestreo


Antes de poder presentar el Mtodo del Cubo para seleccionar muestras equilibradas y
de mostrar el inters del mtodo, debemos empezar por una presentacin general de la
teora de muestreo.

Definiciones y notacin bsica


El objetivo es estudiar una poblacin finita U = {1,, N} de tamao N.
Definimos la variable de inters y que toma valores yk , k U ; cuyo total y media
son:

Y = yk

1
N

Y =

kU

kU

Una muestra s es un subconjunto de la poblacin s U .


Un diseo muestral o plan de muestreo p(s) es una distribucin de probabilidad sobre
todas las muestras posibles en donde

p(s) = 1 .

s U

La muestra aleatoria S toma el valor s con la probabilidad Pr( S = s ) = p ( s ) .


Definimos la probabilidad de inclusin, como la probabilidad de que la unidad k sea
seleccionada en la muestra aleatoria S:

k = E ( Ik ) = Pr(k S ) = p( s )

1
0

Ik =

donde

ks

si k S
si k S

De igual modo, se define la probabilidad de inclusin de 2.orden como:

kl = E ( IkIl ) = Pr(k y l S ) =
Si el diseo muestral es de tamao fijo, entonces

kU

INTRODUCCIN A LA TEORA DE MUESTREO

p( s)

k ,ls

= n.

Proporciones muestrales
Supongamos que la variable de inters definida sobre la poblacin U es una variable
cualitativa. En este caso, la variable de inters nos da informacin acerca de alguna
cualidad de las unidades de la poblacin o la pertenencia o no a una determinada clase.
Supongamos que nuestra variable de inters clasifica las unidades de la poblacin en
dos clases C y C .
Para cada unidad de la poblacin, definimos la caracterstica

1 si k C
0 si k C

yk =

y k como:

k U

Definimos el total de elementos de la poblacin (total de la clase) y la proporcin de


elementos de la poblacin (proporcin de la clase) que pertenecen a C como:

Y = yk = A

Y =

kU

1
N

kU

A
=P
N

Podemos considerar el problema de estimar A y P como si estimsemos el total y la


media poblacional en donde cada y k toma los valores 0 o 1.
Si escribimos la cuasivarianza S

S2 =

(y

kU

Y ) 2
=

N 1

kU

en funcin de P y Q = 1-P

2
k

NY 2
=

N 1

1
N
( NP NP 2 ) =
PQ
N 1
N 1

Cuyo estimador insesgado es:

n
s =
pq
n 1
2

p=

donde

y
kS

a
n

Estimador de Horvitz-Thompson
Se definen el estimador de Horvitz-Thompson del total y de la media poblacional de la
variable de inters y como:

yk
Y =
kS

1
Y =
N

El estimador de Horvitz-Thompson es insesgado si

yk

kS

k > 0, k U

Para diseos de tamao fijo, se puede estimar la varianza por:

y
y
1
Var (Y ) = k l
2 kS lS k l
l k

INTRODUCCIN A LA TEORA DE MUESTREO

( kl k l )

.
kl

3. Planes de muestreo probabilsticos


Forman parte de este tipo de muestreo todos aquellos mtodos para los que puede
calcularse la probabilidad de extraccin o seleccin de cualquiera de las muestras
posibles.
Tal y como se explicar ms adelante, el Mtodo del Cubo parte de las probabilidades
de inclusin definidas por el diseo para seleccionar una muestra equilibrada; es decir,
en realidad este mtodo optimiza los mtodos de muestreo probabilsticos.
A continuacin se definirn los tres principales tipos de muestreo probabilstico.

Muestreo aleatorio simple


El muestreo aleatorio simple (m.a.s.) es un mtodo de muestreo en donde se selecciona
una muestra de tamao n de una poblacin de tamao N de tal manera que todas las
muestras del mismo tamao tienen la misma probabilidad de ser seleccionadas.
El diseo muestral para un m.a.s. de tamao fijo n es:

N

p( s) = n

si card(s) = n

en caso contrario

Por lo tanto, la probabilidad de inclusin de la unidad k es:


N 1 N 1 N
k = p( s ) = =

ks
ks n
n 1 n

n
, k U
N

Es decir, todos los individuos de U tienen la misma probabilidad de ser seleccionados.


El estimador de H-T para la media poblacional en un m.a.s. es

1
Y =
N

yk

kS

1
N

kS

N 1
= yk
n n kS

El estimador insesgado de la varianza de Y es:

)
s y2
Var (Y ) = (1 f )
n
1
s y2 =
( yk Y ) 2

n 1 kS

donde

f =

n
es definida como la fraccin de muestreo
N

PLANES DE MUESTREO PROBABILSTICOS

Muestreo estratificado
Supongamos que la poblacin U est dividida en subpoblaciones o estratos U h ,

h = 1,..., H ; donde los estratos cumplen las siguientes propiedades:


H

(i)

UU

=U

h =1

(ii)

U hIU i= , h i

(iii)

Si N h es el tamao de U h , entonces

N
h =1

=N

Un diseo muestral es estratificado si en cada estrato se selecciona una muestra


H

aleatoria simple de tamao fijo n h , donde

n
h =1

= n es el tamao de la muestra.

Esta tcnica de muestreo se utiliza cuando la poblacin de estudio es muy heterognea,


pudiendo dividirla en estratos internamente homogneos. De esta manera, podemos
lograr estimadores ms precisos en cada estrato, combinndolos para obtener un
estimador de la poblacin total ms preciso.
Como en cada estrato las unidades son seleccionadas siguiendo un m.a.s. la
probabilidad de inclusin de la unidad k es:

k=

nh
, k U .
Nh

El estimador de Horvitz-Thompson de la media para un muestreo estratificado:

1
Y st=
N

yk

kS

1
N

Nh
1
yk =

N
h =1 n h kS h

N Y
h =1

La varianza del estimador puede estimarse sin sesgo por:

1
Var (Y st) = 2
N
donde

2
s yh
=

N
h =1

2
h

(1 f h )

2
s yh

nh

1 H
( y k Y h) 2 es la cuasivarianza muestral del estrato h.

n h 1 h =1

PLANES DE MUESTREO PROBABILSTICOS

Afijaciones en muestreos estratificados


Existen distintos criterios a la hora de repartir el tamao de la muestra entre los estratos.
Vamos a presentar los ms utilizados.
1. Afijacin proporcional
Consiste en asignar a cada estrato un nmero de unidades muestrales proporcionales a
su tamao.
Por lo tanto, diremos que un plan estratificado tiene una afijacin proporcional si:

nh
n
= , para h = 1,..., H
Nh N
Si suponemos que n h =

nN h
es entero, el estimador de la media poblacional es:
N
1 H
1
Y prop= N hY h = y k
N h =1
n kS

De la misma manera se pueden realizar afijaciones proporcionales a la raz, al cubo o a


cualquier potencia menor que 1.

2. Afijacin de mnima varianza


La afijacin de mnima varianza o afijacin de Neyman consiste en determinar los
valores de n h de forma que para un tamao de muestra fijo igual a n, la varianza de los
estimadores sea mnima.
Utilizando los multiplicadores de Lagrange, se obtienen los valores de n h necesarios

nh = n

N hS h
H

N
h =1

para

h = 1,..., H

Sh

3. Afijacin de tamao de muestra mnimo


En este caso el problema consiste en buscar la afijacin que da el tamao de muestra
mnimo n*, para una varianza fijada V.
Una vez ms, gracias a los multiplicadores de Lagrange, se tiene que:

n* =

N h S yh
h =1

2
V + N h S yh
h =1

PLANES DE MUESTREO PROBABILSTICOS

Muestreo por conglomerados o clusters


Supongamos que la poblacin U est dividida en M subconjuntos U i , i = 1,..., M
llamados conglomerados; los cuales cumplen las siguientes propiedades:
M

UU

(i)

=U

i =1

U iIU j = , i j

(ii)

(iii)

i =1

= N donde N i es el nmero de elementos del conglomerado U i .

Un diseo muestral es por conglomerados si se selecciona una muestra de


conglomerados de tamao m, que denotaremos s I , con un plan p I ( s I ) en donde
todas las unidades de los conglomerados seleccionados son observadas.
La muestra aleatoria completa viene dada por S =

n=

iS I

UU

cuyo tamao es

iS I
i

. El tamao de la muestra es generalmente aleatorio.

Esta tcnica de muestreo se utiliza cuando la poblacin se encuentra dividida de


manera natural en grupos que se supone que contienen toda la variabilidad de la
poblacin; es decir, cada conglomerado representa fielmente la caracterstica
poblacional a estudiar (simplificando la recogida de informacin muestral).

Seleccin de conglomerados con probabilidades iguales


Si suponemos que todos los conglomerados tienen la misma probabilidad de ser
seleccionados, entonces el plan de muestreo consiste en seleccionar los
conglomerados siguiendo un m.a.s de tamao m.
En este caso, la probabilidad de seleccionar un conglomerado es

Ii=

m
, obteniendo
M

la siguiente expresin simplificada para el estimador de Horvitz-Thompson de la media:

1
Y =
N
donde Y i=

1
Ni

kU i

yk

kS

1
N

iS i

N iY i

Ii

M
N iY i
Nm iS i

es la media para el conglomerado U i , i = 1,..., M

La varianza del estimador puede estimarse sin sesgo por:

Y
M m M
Y i
Var (Y ) =

2
M
N m m 1 iS I
PLANES DE MUESTREO PROBABILSTICOS

10

Muestreo sistemtico con probabilidades iguales


Supongamos que las N unidades de la poblacin U son numeradas de 1 a N en algn
orden (aleatorio o siguiendo algn criterio de orden).
Si n es el nmero de unidades a seleccionar en la muestra, definimos k = N n como
el intervalo de muestreo.
Seleccionamos un nmero aleatorio r {1,..., k } como unidad de inicio. A partir de r,
las unidades que se encuentran a una distancia lk para l = 1,2,..., n 1 son
seleccionadas en la muestra.

El muestreo sistemtico puede verse como un muestreo por conglomerados donde el


problema consiste en escoger un nico cluster de los k posibles.
Composicin de las k posibles muestras sistemticas
1

y1
y k +1
L
y ( n 1) k +1

y2
y k +2
L
y ( n 1) k + 2

yi
yk
y k +i
y 2k
L
L
y ( n k ) k +3 y nk

Resumen de los mtodos presentados


Se define el coeficiente de variacin del estimador , como el cociente entre la
desviacin estndar y su valor real

, CV () =

Var ()

Por lo tanto, el estimador del coeficiente de variacin de , es cv() =

Var ()

A continuacin se muestra una tabla con las formulas del estimador, varianza y
coeficientes de variacin tanto para la media poblacional como para las proporciones de
los distintos mtodos presentados.

PLANES DE MUESTREO PROBABILSTICOS

11

PLANES DE MUESTREO PROBABILSTICOS

12

Proporciones
P

Med ia
poblacional
Y

cv ( P )

Coef. de
variacin

Var ( P )

Varianza

Estimador

cv (Y )

Coef. de
variacin

Var (Y )

Varianza

Estimador

(1 f )

cv (Y )
n

(1 p )
cv ( P ) = (1 f )
p ( n 1)

p (1 p )
Var ( P ) = (1 f )
n 1

1
P =
yk
n kS

cv (Y ) =

s
)
Var (Y ) = (1 f ) y
n

Muestreo aleatorio
simple
1
Y = yk
n kS

h =1

cv ( P st ) =

h =1

h=1

h =1

h (1

h =1

phqh
n h 1

nh

p h (1 p h )
n h 1
N h ph

f h)

nh

s 2yh

s 2yh

f h)

N h2 (1 f h)

h =1

hp h

N hYh

N h2 (1

1
Var ( P st ) = 2
N

N h2 (1 f h )

h =1

h =1

1
P st =
N

cv (Y st) =

N Y

1
Var (Y st) = 2
N

1
Y st=
N

Muestreo estratificado
i

N Y
i S i

2
cv ( P ) =

Var ( p ) =

iS I

a
iSi

M m

m 1

N iY i

iS i

a
i S I

i S I

( ai ) 2

i S I

i S I

2 p ai N i + p2 N i

iS I

iS I

N i + p 2 N i2

Ni

iS I

ai2 2 p ai

; donde a i = p i N i

M m m iS I
M m 1

P =

cv(Y ) =

m m

Y i Y
1

M
M m 1 iS

M m M
Y i Y
Var(Y ) = 2

M
N m m 1 i S

M
Y =
Nm

Muestreo por conglomerados

4. Planes de muestreo complejos


Pese a que los mtodos presentados forman los tres principales tipos de muestreos
probabilsticos, a la hora de definir los diseos de las encuestas elaboradas por
EUSTAT o por los distintos rganos estadsticos, estos diseos suelen ser un poco ms
complejos.

Muestreo bietpico (o de dos etapas)


Supongamos que la poblacin
subpoblaciones U i ,

U = {1,..., k ,..., N } est compuesta de M

i = 1,..., M llamadas unidades primarias.

Al mismo tiempo, cada unidad primaria U i se compone de N i unidades secundarias


M

donde

N
i =1

=N.

De manera general, un muestreo bietpico se define de la siguiente manera:


-

Se selecciona una muestra S I de unidades primarias de tamao m.

Si una unidad primaria es seleccionada en la primera etapa, se selecciona una


muestra S i de tamao n i de unidades secundarias.

Los planes bietpicos tienen que cumplir las propiedades de invarianza e


independencia.

La muestra aleatoria completa viene dada por S =

US

cuyo tamao es n =

iS I

iS I

Podemos definir:

I ,i

k|i

como la probabilidad de seleccionar la unidad primaria U i


como la probabilidad de seleccionar la unidad k dado que U i ha sido

seleccionada.
Por lo tanto, la probabilidad de inclusin de la unidad k es:

k= I ,i k |i ,

k U i

El estimador de H-T de la media en un muestreo bietpico es:

1
Y =
N

donde Y i=

1
Ni

yk

kS i

PLANES DE MUESTREO COMPLEJOS

yk

1
=

N
kS k

iS I kS i

yk
I ,i

k |i

1
=
N

iS I

N iY i

I ,i

es el estimador de H-T de la media de la unidad primaria U i

k |i

13

Adems, en un plan bietpico se tiene que Var (Y ) = VarUP + VarUS ,


donde VarUP es la parte de la varianza que se refiere a las unidades primarias y VarUS
a las unidades secundarias.

Por lo tanto, en un muestreo bietpico, podemos combinar los principales planes de


muestreo probabilsticos presentados (muestreo aleatorio simple, estratificado y por
conglomerados) tanto en la seleccin de las unidades primarias como secundarias.

Seleccin de las UP-s con probabilidades iguales


Supongamos que en las dos etapas del muestreo se usa un muestreo aleatorio simple.
Entonces, las probabilidades antes definidas toman la siguiente forma:

I ,i=
k |i=

m
, i = 1,..., M
M

ni
,
Ni

i = 1,..., M , k S i

En este caso, la probabilidad de inclusin de la unidad k es:

k=

mn i
,
MN i

k U i

Si modificamos la formula del estimador H-T para muestreos bietpicos tenemos que:

1
Y =
N

yk

kS

N iy k
M

Nm iS I kS i n i

Y su estimador de la varianza se simplifica

N n
M m
M
Var (Y ) =
Ms I2 + 2 N i i i si2
2
ni
N m
N m kS i
donde

1
Y

s =
Y
i M
m 1 iS I

2
I

PLANES DE MUESTREO COMPLEJOS

Y
1

s =
y
k N
n i 1 kS I
i
2
i

14

Plan bietpico autoponderado


Supongamos que en la primera etapa, las unidades primarias son seleccionadas con
probabilidad de inclusin proporcionales al tamao (PPT); es decir,

I ,i =

Ni
m
N

En la segunda etapa, se seleccionan las unidades secundarias segn un muestreo


aleatorio simple de tamao fijo n i = n 0 (en cada unidad primaria); es decir,

k |i =

n0
Ni

Por lo tanto, las probabilidades de inclusin de la unidad k son iguales para todas las
unidades de la poblacin U:

k = I ,i k |i =

PLANES DE MUESTREO COMPLEJOS

N i n 0 mn0
=
m
N
Ni
N

15

5. Mtodo del Cubo: Muestre Equilibrado


El Mtodo del Cubo (Deville and Till, 2004), es un mtodo que permite seleccionar
muestras equilibradas con probabilidades de inclusin iguales o desiguales,
optimizando los mtodos de muestreo probabilsticos.
Intuitivamente, este mtodo permite mantener las proporciones de la poblacin original
en la muestra sobre ciertas variables de equilibrio (variables cualitativas), teniendo
siempre en cuenta las probabilidades de inclusin del diseo. Estas variables de
equilibrio, deben estar fuertemente correlacionadas con las variables de inters.

Representacin por un cubo


Consideremos una poblacin finita U = {1,, N} de tamao N, donde el objetivo es
estimar el total (o media) de ciertas variables de inters.
Para poder entender el funcionamiento del Mtodo del Cubo, supongamos que una
muestra es en realidad un vector s = ( s1 ... s k ... s N ) donde s k toma el valor 1 si la
t

unidad k esta en la muestra y 0 en caso contrario.


Geomtricamente, cada vector s es un vrtice de un N-cubo.

Muestras posibles en una poblacin de tamao N=3

Por lo tanto, un diseo muestral p(.) se tratara de una distribucin de probabilidad de


todas las posibles muestras sobre el conjunto S = {0,1} ; definiendo la probabilidad
N

de inclusin de la unidad k como

k = Pr(S k = 1) .

Muestras equilibradas
Supongamos que disponemos de ciertas variables auxiliares con valores conocidos
para todas las unidades de la poblacin, k U .
MTODO DEL CUBO: MUESTREO EQUILIBRADO

16

Estas variables auxiliares podran ser utilizadas bien como variables de estratificacin
(cualitativas), o bien como variables de equilibrio (cualitativas o cuantitativas).

Por lo tanto, se dice que una muestra s es equilibrada sobre las variables
x1 ,x 2 ,...,x p si se verifican las ecuaciones de equilibrio:

= X xkj = x
X

kj
ks

kU

s S con p(s) > 0


j = 1,..., p

Es decir, que los estimadores de Horvitz-Thompson de las variables x1 ,x 2 ,...,x p en la


muestra son iguales a los totales de estas variables en la poblacin.
El vector de probabilidades de inclusin estar siempre predeterminado por el propio
diseo muestral.
Las ecuaciones que derivan de estas restricciones de equilibrio, definen un subespacio
N

(Q) de dimensin N p en R . Por lo tanto, el problema se traduce en elegir un vrtice


(una muestra) del N-cubo que quede dentro del subespacio Q.
Dado que no es posible seleccionar una muestra exactamente equilibrada, el Mtodo
del Cubo implementa un mtodo que selecciona muestras aproximadamente
equilibradas.

MTODO DEL CUBO: MUESTREO EQUILIBRADO

17

Descripcin del mtodo


El mtodo del cubo propuesto por Deville y Till (2004), consta de dos fases:
1. Fase de vuelo
Es una generalizacin del mtodo de escisin (Ver Teora de Muestreo).
Se trata de un camino aleatorio que comienza con el vector de probabilidad de
inclusin y que permanece en la interseccin del cubo y el subespacio definido
por las ecuaciones de equilibrio (Q).

2. Fase de aterrizaje
Si al final de la fase de vuelo una muestra (un vrtice) no ha sido seleccionada, se
deber aplicar la fase de aterrizaje.
Existen tres posibles soluciones para esta fase:
-

Eliminar progresivamente las variables de equilibrio y volver a aplicar la fase de


vuelo (es necesario suprimir las variables en orden de menor a mayor
importancia).
Usar la programacin lineal para calcular la mejor muestra aproximadamente
equilibrada (minimizando la diferencia en equilibrio).
Escoger el vrtice ms cercano al vector de probabilidades que se obtiene en la
fase de vuelo, redondeando las probabilidades de inclusin que todava no son
iguales a 0 o 1.

Deville y Tille programaron una implementacin mucho ms rpida de la fase de vuelo


(Ver Fast SAS Macros for balancing simples users guide), la cual consume la mayor
parte del tiempo de ejecucin, obteniendo las siguientes ventajas:
o

No hay restricciones en el tamao de la poblacin.

El tiempo de ejecucin depende linealmente del tamao de la poblacin.

MTODO DEL CUBO: MUESTREO EQUILIBRADO

18

6. Macros de SAS para seleccionar


muestras equilibradas
A continuacin, se van a presentar las macros de SAS que nos permiten seleccionar
muestras equilibradas.
Las dos principales macros (exe_cube y echant_estrat) han sido desarrolladas por
Guillaume Chauvet e Yves Till; mientras que las macros auxiliares disjunctive y
crear_estrato han sido elaboradas en Eustat con el objetivo de agilizar el manejo de las
anteriores.
A pesar de que en Eustat se ha optado por trabajar con las macros de SAS que
implementan el Mtodo del Cubo, tambin estn disponibles las funciones que
seleccionan muestras equilibradas en R (ver paquete sampling: http://cran.rproject.org/web/packages/sampling/index.html).

Macro exe_cube
La macro de SAS exe_cube, permite seleccionar muestras equilibradas utilizando el
Mtodo del Cubo (Fast Cube Method).

Datos de entrada
Se trata de una tabla de SAS con todas las unidades de la poblacin sobre la que se va
a seleccionar la muestra.
Debe contener al menos:

Una variable de identificacin

Variable con las probabilidades de inclusin

Variables sobre las que se quiere equilibrar la muestra

Esta tabla no puede tener valores faltantes en las variables mencionadas.

Sintaxis de la macro
Esta es una breve descripcin de los argumentos necesarios:

BASE = Nombre de la librera SAS que contiene la tabla con los datos de entrada.

DATA = Nombre de la tabla de SAS con los datos de entrada.

ID = Variable de identificacin de las unidades de la poblacin.

PI = Variable con las probabilidades de inclusin.

CONTR = Variables sobre las que se quiere equilibrar la muestra.

ATTER = Opcin seleccionada para la fase de aterrizaje

MACROS DE SAS PARA SELECCIONAR MUESTRAS EQUILIBRADAS

19

1. Las variables de equilibrio son eliminadas progresivamente


2. Se consideran todas las posibles muestras para las unidades restantes (valores
distintos de 0 o 1), seleccionando aquellas que proporcionan una menor
diferencia al equilibrio.
3. Mismo procedimiento que la opcin 2 pero considerando nicamente las
muestras con tamao igual a la suma de las probabilidades de inclusin
(tamao muestral fijo).
4. Se redondean las probabilidades de inclusin para las unidades restantes
manteniendo el tamao de la muestra predeterminado.
Para utilizar las opciones 3 o 4, debe introducirse la variable de probabilidades de
inclusin en el parmetro contr.

COMPEQ = Igual a 1 para equilibrar tambin el complementario de la muestra.

SORT = Nombre de la tabla de SAS con los datos de salida, que se guardara en la
librera especificada en el parmetro base. Contiene todas las unidades de la
poblacin, as como la variable ech; igual a 1 si la unidad ha sido seleccionada y 0
en caso contrario.

Macro echant_strat
La macro de SAS echant_strat permite seleccionar muestras estratificadas con el
Mtodo del Cubo (Fast Cube Method), globalmente equilibradas en la poblacin total y
aproximadamente equilibradas en cada estrato.
Los pasos que sigue la macro para seleccionar una muestra equilibrada son:
1. Fase de vuelo independiente en cada uno de los estratos
2. Fase de vuelo conjunta con todas las unidades restantes que no hayan sido
seleccionadas en los estratos
3. Fase de aterrizaje con las unidades todava no seleccionadas.

Datos de entrada
Tiene que haber una tabla de SAS con las unidades de la poblacin para cada una de
los estratos definidos para la muestra estratificada.
Cada tabla debe contener al menos, las mismas variables que hemos definido para la
macro exe_cube.

Sintaxis de la macro
Esta es una breve descripcin de los argumentos necesarios:

DATA = Nombre de las tablas de SAS con los datos de entrada de cada estrato.

ID = Variable de identificacin de las unidades de la poblacin.

PI = Variable con las probabilidades de inclusin.

CONTR = Variables sobre las que se quiere equilibrar la muestra.

SORT = Nombre de la tabla de SAS con los datos de salida.


MACROS DE SAS PARA SELECCIONAR MUESTRAS EQUILIBRADAS

20

Macro auxiliar disjunctive


La macro de SAS disjunctive permite dividir una o ms variables de inters en variables
disjuntas en funcin de ciertas categoras. La macro adems, permite introducir los
nombres de dichas categoras.

Descripcin
Supongamos que en una poblacin de tamao N, dada una variable de inters Y y una
variable cualitativa X que toma los valores 1, 2,, L; la macro disjunctive nos devuelve
1

las variables disjuntas Y , Y , ... , Y

yi
y il =
0

donde:

si xi = l
si xi l

para

i = 1, ... , N
l = 1,... , L

Sintaxis de la macro
Esta es una breve descripcin de los argumentos necesarios:

DATA = Nombre de la tabla de SAS que contiene los datos de la poblacin.

VAR = Variable(s) de inters.

CATEG = Variable cualitativa que contiene las categoras para crear las variables
disjuntas

NOMBRES_CATEG (opcional) = Nombres de las categoras de la variable categ.


Por defecto categ1, categ2,, categL.

Resultados y salidas
La macro disjunctive aade a la tabla de entrada las variables disjuntas creadas a partir
de la variable de inters var.
Los nombres de estas nuevas variables son la unin del nombre de la variable var y los
nombres definidos por la variable nombres_categ (separados por el smbolo _).
Estos nombres son guardados en la variable local macro contr_categ.

Macro auxiliar crear_estrato


La macro de SAS crear_estrato permite dividir una tabla de SAS en varias tablas en
funcin de una variable de estratificacin.

Sintaxis de la macro
Esta es una breve descripcin de los argumentos necesarios:

DATA = Nombre de la tabla de SAS que contiene los datos de la poblacin.

ID = Variable de identificacin

MACROS DE SAS PARA SELECCIONAR MUESTRAS EQUILIBRADAS

21

VAR_ESTRAT = Variable sobre la que se quiere realizar la estratificacin

Resultados y salidas
La macro crear_estrato devuelve una tabla de SAS para cada uno de los valores de la
variable var_estrat.
Los nombres de las tablas de salida son por defecto del estilo: estrato_ {var_estrat } j
donde {var_estrat} j es el j-simo valor de la variable var_estrat.
Estos nombres son guardados en la variable local macro datos_estrat.

Ejemplo de uso de las macros


Supongamos que queremos seleccionar una muestra estratificada de establecimientos,
equilibrando la muestra sobre el nmero de empleados por Territorio Histrico.
Nuestra tabla de SAS inicial con los datos de la poblacin tendra un aspecto como esta:
datos

id
1

estrato
A

2
3

A
B

4
5

B
B

6
7

C
C

pik

1
2
3
4
5
6
7

empleo TH
e1
48
e2
e3

20
20

e4
e5

01
48

e6
e7

01
20

donde
01 = Araba, 20 = Gipuzkoa y 48 = Bizkaia;

es la probabilidad de inclusin del establecimiento k;

ek es el nmero de empleados en el establecimiento k.


En primer lugar aplicaremos la macro disjunctive para calcular las variables de
equilibrio disjuntas correspondientes al nmero de empleados por TH.
%global contr_categ;
%disjunctive(
DATA = datos,
VAR = empleo,
CATEG = TH,
NOMBRES_CATEG = Araba Gipuzkoa Bizkaia
);
datos

MACROS DE SAS PARA SELECCIONAR MUESTRAS EQUILIBRADAS

22

id
1
2
3
4
5
6
7

estrato
A
A
B
B
B
C
C

pik

1
2
3
4
5
6
7

empleo TH
e1
48
e2
20
e3
20
e4
01
e5
48
e6
01
e7
20

empleo _ Araba empleo _ Gipuzkoa empleo _ Bizkaia


0
0
e1
0
e2
0
0
e3
0
e4
0
0
0
0
e5
e6
0
0
0
e7
0

Tal y como hemos mencionado, el objetivo es seleccionar una muestra equilibrada


sobre el nmero de empleados por TH, es decir, sobre los totales:

empleo _ Araba

kN

empleo _ Gipuzkoa

kN

empleo _ Bizkaia

kN

En este caso, la variable macro contr_categ guarda los valores:


&contr_categ. = empleo_Araba empleo_Gipuzkoa empleo_Bizkaia.
A continuacin, aplicaramos la macro crear_estrato para obtener un dataset con los
datos correspondientes a cada uno de los estratos.
%global datos_estrat;
%crear_estrato(
DATA = datos,
ID = id,
VAR_ESTRAT = estrato
);
estrato_A

id

estrato

pik

1
2

A
A

1
2

empleo TH
e1
e2

empleo _ Araba empleo _ Gipuzkoa empleo _ Bizkaia

48
20

0
0

0
e2

e1
0

estrato_B

id
3
4
5

estrato
B
B
B

pik

3
4
5

empleo TH
e3
20
e4
01
e5
48

empleo _ Araba empleo _ Gipuzkoa empleo _ Bizkaia


e3
0
0
e4
0
0
e5
0
0
estrato_C

id

estrato

pik

6
7

C
C

6
7

empleo TH
e6
e7

01
20

empleo _ Araba empleo _ Gipuzkoa empleo _ Bizkaia


e6
0

0
e7

0
0

En este caso, la variable macro datos_estrat guarda los valores:


&datos_estrat. = estrato_A estrato_B estrato_C

MACROS DE SAS PARA SELECCIONAR MUESTRAS EQUILIBRADAS

23

Por ltimo, llamaremos a la macro echant_strat que selecciona la muestra


equilibrada para muestras estratificadas con el Mtodo del Cubo.
%echant_strat(
DATA = &datos_estrat.,
ID = id,
PI = pik,
CONTR = pik &contr_categ.,
SORT = muestra
);
La salida de la macro tendra un aspecto como este:
muestra

donde

id

ech

ech1

ech2

ech3

ech4

ech5

6
7

ech6
ech7

1 si la unidad k ha sido seleccionada


para todo k {1,...,7}
echk =
0
en
caso
contrario

* Observacin:
En algunas ocasiones, el objetivo puede ser equilibrar la muestra sobre totales que
hacen referencia a las propias unidades muestrales.
Por ejemplo, en el caso anterior se podra querer equilibrar la muestra sobre el nmero
de establecimientos por Territorio Histrico.
En ese caso, debemos crear una variable que toma el valor 1 para todas las unidades,
la cual introduciremos en la macro %disjunctive para crear las variables de equilibrio
deseadas.
datos

id

estrato

pik

1
2
3
4
5
6
7

MACROS DE SAS PARA SELECCIONAR MUESTRAS EQUILIBRADAS

empleo TH UNO
e1

48

e2

20

e3

20

e4

01

e5

48

e6

01

e7

20

1
24

%global contr_categ;
%disjunctive(
DATA = datos,
VAR = UNO,
CATEG = TH,
NOMBRES_CATEG = Araba Gipuzkoa Bizkaia
);
datos

id

estrato

pik

3
4

B
B

1
2
3
4
5
6
7

empleo TH UNO UNO _ Araba UNO _ Gipuzkoa UNO _ Bizkaia


e1

48

e1

20

e1
e1

20
01

1
1

0
1

1
0

0
0

e1

48

e1

01

e1

20

MACROS DE SAS PARA SELECCIONAR MUESTRAS EQUILIBRADAS

25

7. Muestras equilibradas en EUSTAT con


el Mtodo del Cubo
A continuacin, se van a presentar algunos de los diseos muestrales que han sido
equilibrados mediante el Mtodo del Cubo en Eustat.
Para cada uno de los casos, se describir el diseo metodolgico: la ficha tcnica, las
variables de estratificacin, afijaciones y probabilidades de inclusin y las variables
sobre las que se ha equilibrado la muestra. Tambin se presentarn algunos de los
resultados obtenidos.

Muestra de centros de ESO para el estudio del bullying en


la Comunidad Autnoma de Euskadi
El Departamento de Educacin, Universidades e Investigacin, por medio del Instituto
Vasco de Evaluacin e Investigacin (ISEI-IVEI), realiza una encuesta a alumnado de
ESO sobre el maltrato escolar en los centros de la Comunidad Autnoma de Euskadi.
Para ello, se deba extraer una muestra de conglomerados (centros) de forma que se
evale un mximo de 40 alumnos por centro seleccionado.

Ficha Tcnica
Marco
Lo componen los centros de Secundaria de la CAE que tienen al menos un
grupo en los cursos de 1, 2, 3 y 4 de la ESO.
Diseo muestral
Se trata de una muestra de conglomerados desiguales con submuestreo en la
segunda etapa.
1.a etapa
Unidades muestrales
Centros de secundaria de la CAE
Estratificacin
Para la seleccin de los centros se realiza un muestreo estratificado por
Territorio Histrico y red (pblica y privada).
Afijacin
Proporcional al nmero de centros en cada estrato.
Sorteo
Muestreo probabilstico proporcional al tamao (PPT) del nmero de
alumnos por centro.
MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

26

2.a etapa
Unidades muestrales
Alumnos de secundaria de la CAE.
Estratificacin
40 alumnas (10 de 1, 10 de 2, 10 de 3 y 10 de 4) por centro
seleccionado siempre que sea posible. No hay un mnimo de alumnos por
centro.
Sorteo
Muestreo aleatorio simple.
La muestra final es autoponderada por estratos (Territorio y Red).
Tamao de la muestra
El tamao de la muestra ptimo para un muestreo de conglomerados, se calcul
a partir de la siguiente frmula:

ncentros = na

[(1 + (M 1)]
M

donde na es el tamao de la muestra para un aleatorio simple y el resto es el


denominado efecto de diseo en muestreo de conglomerados.
Con

M = Nmero medio de alumnos por centro


= Correlacin intracentro

na =

Nz2 / 2 S 2
N
=
2
2
2
Ne + z / 2 S

e2
1
(
1
)
+
N

z2 / 2 pq

N = Nmero total de alumnos (unidades elementales)

e = Error mximo admisible

z2 / 2 = Valor critico para el nivel de significacin


Variables de equilibrio
La muestra ha sido equilibrada sobre las siguientes variables:
-

Nmero de alumnos por curso y nmero de grupos por curso.


De este modo, las estimaciones de la media de alumnos por centro y grupo
son lo ms parecidas a los datos facilitados por Estadstica Educativa.

Nmero de centros pertenecientes a cada tipo de tamao.

MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

27

Codificacin del tamao del centro en 5 grupos, minimizando la inercia


intraclase en funcin del tamao en alumnos: [0-143], [144-243], [244-361],
[362-506] y [507-708].

Resultados
A continuacin se muestran los resultados obtenidos con el Mtodo del Cubo para las
variables de equilibrio.
Cada una de las tablas compara la distribucin poblacional con la obtenida a partir de
los elevadores de la muestra. Los porcentajes estn dados por columnas.

Distribucin del nmero de alumnos por curso

1 ESO
2 ESO
3 ESO
4 ESO
TOTAL

Poblacional

Muestral
(elevado)

19.664

19.617

(27,21%)

(27,14%)

18.633

18.649

(25,78%)

(25,80%)

17.669

17.764

(24,45%)

(24,58%)

16.306

16.243

(22,56%)

(22,47%)

72.272

72.272

Distribucin del nmero de grupos por curso


Poblacional
1 ESO
2 ESO
3 ESO
4 ESO
TOTAL

Muestral
(elevado)

870

869

(25,02%)

(24,04%)

852

849

(24,50%)

(24,47%)

896

896

(25,77%)

(25,82%)

859

856

(24,71%)

(24,67%)

3.477

3.470

Distribucin del nmero de centros por tipo de tamao


MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

28

Poblacional
Tamao 1
Tamao 2
Tamao 3

Muestral
(elevado)

100

95

(30,12%)

(28,79%)

128

129

(38,55%)

(39,09%)

61

63

(18,37%)

(19,09%)

Tamao 4
Tamao 5

31

31

(9,34%)

(9,39%)

12

12

(3,61%)

(3,64%)

332

330

TOTAL

Teniendo en cuenta las variables sobre las que ha sido equilibrada la muestra, tambin
se han obtenido muy buenos estimadores de la media de alumnos por centro y grupo
para cada uno de los cursos.

CURSO 2011/12

Media alumno
por centro

Media alumno
por grupo

Poblacional

Muestral
(elevado)

Poblacional

Muestral
(elevado)

1 ESO

59.23

59.44

22.60

22.57

2 ESO

56.21

56.51

21.90

21.97

3 ESO

53.22

53.83

19.72

19.83

4 ESO

49.11

49.22

18.98

18.98

TOTAL

217.69

219.00

20.79

20.33

MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

29

Muestra para la Encuesta de la Sociedad de la Informacin


(ESI-Empresas)
El objetivo genrico de la ESI, llevada a cabo por EUSTAT, es proporcionar a los
responsables polticos, agentes econmicos y sociales, universidad, investigadores
privados y ciudadana en general, informacin peridica sobre la penetracin de las
nuevas tecnologas de la informacin y la de la comunicacin (TIC) en las empresas del
Pas Vasco.
La muestra de la ESI-Empresas se caracteriza por ser un panel que cada ao incluye a
las empresas titulares que han contestado en anteriores repeticiones de la encuesta.
Debido a diversas incidencias (bajas, sustituciones, no-respuesta) el reparto original
de la muestra se deteriora, por lo que se tom la decisin de actualizar la muestra
conforme a un nuevo reparto muestral que, respetando el diseo original, recoge la
nueva distribucin de la poblacin en los estratos.
En el ao 2012, se decide renovar el panel en casi un 15%. Adems, se introduce el
Mtodo del Cubo para seleccionar muestras equilibradas con el objetivo de obtener una
distribucin equilibrada en las comarcas del Pas Vasco.

Ficha Tcnica
Marco
Lo componen los establecimientos de cualquier sector de actividad que ejerza su
actividad en el mbito de la CAE, salvo el sector primario y el servicio domstico.
Diseo muestral
Se trata de una muestra estratificada de una sola etapa.
Unidades muestrales
Todos los establecimientos que forman parte del marco mencionado.
Estratificacin
Se realiza un muestro estratificado por el cruce de las siguientes variables:

- Territorio Histrico
1 = Araba; 2 = Bizkaia; 3 = Gipuzkoa

- Estrato de empleo
1 = 0-5 empleados; 2 = 6-9 empleados; 3 = 10-19 empleados;
4 = 20-49 empleados; 5 = 50-99 empleados; 6 = 100 y ms empleados

- Sector de actividad (CNAE09 a 2 dgitos)


Afijacin
Elementos autorrepresentados: establecimientos con 100 empleados y ms
(estrato de empleo 6).
Para el resto de los establecimientos se realizan dos afijaciones diferentes:

MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

30

1. Partiendo de un tamao muestral prefijado en el diseo original de n=7000,


se realiza un reparto proporcional a la raz del n de establecimientos por
territorio y directamente proporcional al n de establecimientos por estrato
(territorio, actividad y empleo).
El tamao de la muestra en cada estrato es calculado a partir de la siguiente
frmula:

nTH i Act j Empk = nTH i

estab Act j Empk


5

estab

j Act k =1

donde

nTH i = (7000 censales )

Act j Empk

estabTH i
3

i =1

i = 1,2,3

estabTH i

Finalmente se aaden establecimientos hasta obtener un tamao mnimo de


5 establecimientos en los estratos de empleo agrupados (menos de 10
empleados y ms de 10 empleados).
2. Reparto en funcin del error muestral mximo de un 10% en cada sector de
actividad (sin tener en cuenta los estratos censales).
El tamao de la muestra en cada sector de actividad es calculado a partir de
la frmula
2

nh =

donde

N h z2 / 2 S h
Nh
=
2
2
2

N h e + z / 2 S h
e2
1
(
1
)
+

N
h

z2 / 2 pq

N h = Nmero de establecimientos en el estrato h

e = Error mximo admisible


z2 / 2 = valor critico para el nivel de significacin
Una vez realizada ambas afijaciones, se reparten las unidades faltantes hasta
obtener el tamao de muestra necesario para las unidades no censales. Este
reparto se realiza de forma proporcional al tamao del estrato en los sectores
infra-representados con respecto a la primera afijacin.
Finalmente, estas afijaciones por sector de actividad, se reparten de manera
proporcional a la raz en cada territorio y empleo agrupado.
Sorteo
Se realiza un muestreo aleatorio simple en cada uno de los estratos, dando
prioridad a los establecimientos que estn especificados en el marco como altas.
Variables de equilibrio
Con el objetivo de obtener mejores estimaciones a nivel comarcal, la muestra ha
sido equilibrada sobre el nmero de establecimientos en cada comarca (20
comarcas).
MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

31

Sustitutos
Para completar la muestra se necesita una bolsa de sustitutos de unos 3.500
establecimientos. El nmero de suplentes por estrato, es proporcional a la
muestra terica en cada uno de los estratos de empleo y territorio.
Al igual que en la muestra principal, la muestra de sustitutos se equilibrar con el
Mtodo del Cubo sobre el nmero de establecimientos en cada comarca.

Resultados
A continuacin se muestran los resultados obtenidos con el Mtodo del Cubo al
equilibrar la el nmero de establecimientos por comarca.

Distribucin del nmero de establecimientos por comarca


Poblacional
Valles Alaveses
Llanada Alavesa
Montaa Alavesa
Rioja Alavesa
Estribaciones del Gorbea
Cantbrica Alavesa
Arratia - Nervin
Gran Bilbao
Durangaldea
Encartaciones
Gernika Bermeo
Markina Ondarroa
Plentzia Mungia
Bajo Bidasoa

MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

Muestral
(elevado)

405

523

(0.22 %)

(0.29 %)

18.903

19.063

(10.49 %)

(10.58 %)

248

257

(0.14 %)

(0.14 %)

1.311

1.135

(0.73 %)

(0.63 %)

780

749

(0.43 %)

(0.42 %)

2.180

2.099

(1.21 %)

(1.16 %)

1.787

1.399

(0.99 %)

(0.78 %)

73.572

72.517

(40.82 %)

(40.24 %)

7.517

7.795

(4.17 %)

(4.33 %)

2.356

2.364

(1.31 %)

(1.31 %)

3.425

3.364

(1.90 %)

(1.87 %)

1.828

2.446

(1.01 %)

(1.36 %)

4.008

4.609

(2.22 %)

(2.56 %)

7.169

8.343

(3.98 %)

(4.63 %)

32

Bajo Deba
Alto Deba
Donostialdea
Goierri
Tolosaldea
Urola Costa
TOTAL

4.191

4.989

(2.33 %)

(2.77 %)

4.197

4.742

(2.33%)

(2.63 %)

31.422

28.724

(17.44 %)

(15.94 %)

4.929

5.192

(2.73 %)

(2.88 %)

4.029

4.105

(2.24 %)

(2.28 %)

5.966

5.809

(3.31 %)

(3.22 %)

180.223

180.223

Los porcentajes estn dados por columnas

Muestra para la Encuesta de Capital Social (ECS)


El capital social es entendido como un recurso al que se accede cuando se dispone de
redes personales amplias con las que se participa activamente en los distintos mbitos
econmicos y sociales, en un ambiente de confianza y que puede facilitar el desarrollo
personal y social, as como el desarrollo econmico de una sociedad.
En concreto, en la Encuesta de Capital Social, realizada por Eustat, el capital social est
concebido como un conjunto de dimensiones de relacin y participacin, entre las que
se encuentran: las redes sociales de familiares y amigos, la confianza en las personas y
las instituciones, la participacin social y la cooperacin, la informacin y la
comunicacin, la cohesin y la inclusin social y la felicidad y la salud.
En el ao 2012, se decide seleccionar la muestra para la ECS utilizando el Mtodo del
Cubo. De esta manera, hemos logrado obtener una muestra equilibrada por sexo y
edad en cada uno de los Territorios Histricos, adems de ayudar a obtener mejores
estimaciones a nivel comarcal.

Ficha Tcnica
Marco
El marco de la muestra de la Encuesta sobre Capital Social lo compone la
poblacin de 15 aos y ms residente en viviendas y establecimientos colectivos
de la Comunidad Autnoma de Euskadi.
Diseo muestral
Se trata de una muestra estratificada de una sola etapa.

MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

33

Unidades muestrales
Poblacin de 15 aos y ms residentes en viviendas y establecimientos
colectivos de la CAE
Tamao de la muestra
Se seleccionan n = 7000 individuos.
Estratificacin
Se realiza un muestro estratificado por el cruce de las siguientes variables:

- Territorio Histrico
01 = Araba; 20 = Gipuzkoa; 48 = Bizkaia

- Tamao del municipio


Capitales, Medianos (20.000-100.000) y Pequeos (20.000 y menos)

- Nacionalidad
0 = Nacionales; 1 = Extranjeros
Afijacin
Se ha establecido un criterio para cada uno de los niveles de estratificacin:
1. Reparto proporcional a la raz cuadrada del n de individuos por Territorio.
2. Reparto proporcional al n de individuos por tamao de municipio.
3. Reparto proporcional a la potencia 2/3 del n de individuos por nacionalidad.
Para escoger la afijacin ms conveniente en el tercer nivel, se han tenido en
cuenta las tasas de no respuesta de la anterior encuesta realizada (ECS 2007).
Dado que los mtodos de recogida de la informacin de la encuesta son los
mismos, podemos suponer que las tasas de respuesta para la encuesta actual
van a ser similares.
Por lo tanto, se ha buscado la afijacin que permite conseguir el tamao de
muestra mnimo necesario (unas 400 unidades) para poder dar estimaciones a
nivel de capitales y poblacin extranjera, teniendo en cuenta estas tasas de
respuesta.
El tamao de la muestra en cada estrato viene especificado por la siguiente
frmula:

nTH iTMUN j NACik = nTH iTMUN j

( N TH iTMUN j NACI k ) 2
3

( N TH iTMUN j NACI k ) 2

donde

nTH iTMUN j = 7000

N TH i
N TH i

N TH iTMUN j

TH iTMUN j

i { Araba, Gipuzkoa, Bizkaia}


para

j {Capitales, Medianos, Pequeos}


k {Nacional , Extranjero}

MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

34

Sorteo
Se realiza un muestreo aleatorio simple en cada uno de los estratos.
Variables de equilibrio
La muestra ha sido equilibrada sobre las siguientes variables:
-

Nmero de individuos en el cruce de Territorio (Araba, Gipuzkoa, Bizkaia),


Sexo (Hombres y Mujeres) y Edad (15-24, 24-34, 35-44, 45-54, 55-64 y ms
de 65 aos).

Nmero de individuos en cada una de las 20 comarcas de la CAE.

Sustitutos
Para completar la muestra se necesita una bolsa de sustitutos de otros 7.000
individuos. Estos sustitutos han sido extrados respetando el mismo reparto
muestral por estratos que en la muestra original, equilibrando la muestra sobre
las mismas variables que los titulares.

Resultados
A continuacin se muestran los resultados obtenidos con el Mtodo del Cubo para las
variables de equilibrio.
Cada una de las tablas compara la distribucin poblacional con la obtenida a partir de
los elevadores de la muestra. Los porcentajes estn dados por columnas

Distribucin por Territorio, Sexo y Edad


TH = ARABA (01)

Hombres
Poblacional

15-24 aos
25-34 aos
35-44 aos
45-54 aos
55-64 aos
Ms de 65
aos
TOTAL

Muestral
(elevado)

Mujeres
Poblacional

Muestral
(elevado)

TOTAL
Poblacional

Muestral
(elevado)

13.818

13.729

12.831

12.762

26.649

26.491

(10,06%)

(10,02%)

(9,24%)

(9,17%)

(9,65%)

(9,59%)

23.028

22.923

21.541

21.725

44.569

44.648

(16,77%)

(16,73%)

(15,51%)

(15,60%)

(16,13%)

(16,16%)

28.954

28.948

26.298

26.278

55.252

55.226

(21,08%)

(21,13%)

(18,93%)

(18,87%)

(20,0%)

(19,99%)

24.889

24.895

24.891

25.039

49.780

49.934

(18,12%)

(18,17%)

(17,92%)

(17,98%)

(18,02%)

(18,08%)

20.051

19.942

20.355

20.332

40.406

40.274

(14,60%)

(14,55%)

(14,65%)

(14,60%)

(14,63%)

(14,58%)

26.584

26.590

33.009

33.086

59.593

59.676

(19,36%)

(19,40%)

(23,76%)

(23,76%)

(21,57%)

(21,60%)

137.324

137.027

138.925

139.222

276.249

276.249

(100 %)

(100 %)

(100 %)

(100 %)

(100 %)

(100%)

MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

35

TH = GIPUZKOA (20)

Hombres
Poblacional

15-24 aos
25-34 aos
35-44 aos
45-54 aos
55-64 aos
Ms de 65
aos
TOTAL

Muestral
(elevado)

Mujeres
Poblacional

Muestral
(elevado)

TOTAL
Poblacional

Muestral
(elevado)

30.206

30.273

28.416

28.371

58.622

58.644

(10,18%)

(10,22%)

(9,09%)

(9,07%)

(9,62%)

(9,63%)

45.461

45.452

43.313

43.517

88.774

88.968

(15,32%)

(15.34%)

(13.86%)

(13,91%)

(14,57%)

(14,60%)

60.481

60.491

56.318

56.361

116.799

116.852

(20,39%)

(20,41%)

(18,02%)

(18,01%)

(19,17%)

(19,18%)

54.351

54.228

54.409

54.480

108.760

108.707

(18,32%)

(18,30%)

(17,41%)

(17,41%)

(17,85%)

(17,84%)

45.126

44.881

46.428

46.525

91.554

91.406

(15,21%)

(15,14%)

(14,85%)

(14,87%)

(15,03%)

(15,0%)

61.051

61.021

83.677

83.638

144.728

144.659

(20,58%)

(20,59%)

(26,77%)

(26,73%)

(23,76%)

(23,74%)

296.676

296.346

312.561

312.891

609.237

609.237

(100 %)

(100 %)

(100 %)

(100 %)

(100 %)

(100 %)

TH = BIZKAIA (48)

Hombres
47.497

Muestral
(elevado)
47.673

(9.80%)

(9,83%)

Poblacional

15-24 aos
25-34 aos
35-44 aos
45-54 aos
55-64 aos
Ms de 65
aos
TOTAL

Mujeres
45.007

Muestral
(elevado)
45.152

(8,59%)

(8,62%)

Poblacional

TOTAL
92.504

Muestral
(elevado)
92.825

(9,17%)

(9,20%)

Poblacional

76.941

76.969

73.755

73.658

150.696

150.627

(15,87%)

(15,88%)

(14,07%)

(14,06%)

(14,94%)

(14,93%)

97.104

97.136

93.542

93.318

190.646

190.454

(20,03%)

(20,04%)

(17,85%)

(17,81%)

(18,90%)

(18,88%)

90.348

90.178

93.048

92.807

183.396

182.985

(18,64%)

(18,60%)

(17,75%)

(17,71%)

(18,18%)

(18,14%)

72.330

72.308

77.119

77.329

149.449

149.637

(14,92%)

(14,91%)

(14,71%)

(14,76%)

(14,81%)

(14,83%)

100.487

100.558

141.669

141.762

242.156

242.320

(20,73%)

(20,74%)

(27,03%)

(27,05%)

(24,0%)

(24,02%)

484.707

484.821

524.140

524.026

1.008.847

1.008.847

(100 %)

(100 %)

(100 %)

(100 %)

(100 %)

(100 %)

MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

36

Distribucin del nmero de individuos por comarca


Poblacional
Valles Alaveses
Llanada Alavesa
Montaa Alavesa
Rioja Alavesa
Estribaciones del Gorbea
Cantabrica Alavesa
Arratia-Nervin
Gran Bilbao
Durangaldea
Encartaciones
Gernika-Bermeo
Markina-Ondarroa
Plentzia-Mungia
Bajo Bidasoa
Bajo Deba
Alto Deba
Donostialdea
Goierri
Tolosaldea
Urola Costa
TOTAL

MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

Muestral
elevado

5.107

5.051

(0,27%)

(0,27%)

221.595

221.680

(11,69%)

(11,69%)

2.855

2.886

(0,15%)

(0,15%)

9.852

9.835

(0,52%)

(0,52%)

7.296

7.292

(0,38%)

(0,38%)

30.043

30.004

(1,58%)

(1,58%)

20.289

20.386

(1,07%)

(1,08%)

768.311

767.962

(40,53%)

(40,51%)

83.470

83.513

(4,40%)

(4,41%)

27.787

27.742

(1,47%)

(1,46%)

40.183

40.331

(2,12%)

(2,13%)

23.128

23.333

(1,22%)

(1,23%)

46.202
(2,44%)

(2,43%)

46.104

66.403

66.418

(3,50%)

(3,50%)

47.748

47.664

(2,52%)

(2,51%)

53.540

53.584

(2,82%)

(2,83%)

282.424

282.508

(14,90%)

(14,90%)

57.859

57.781

(3,05%)

(3,05%)

40.147

40.193

(2,12%)

(2,12%)

61.490

61.462

(3,24%)

(3,24%)

1.895.729

1.895.729

37

Muestra para la Encuesta de Innovacin Tecnolgica (EIT)


El principal objetivo de la EIT, llevada a cabo por EUSTAT, es el conocimiento del
esfuerzo que se realiza desde los distintos sectores de la economa en innovacin, as
como la obtencin de una serie de indicadores que nos permitan comparar el nivel
alcanzado en la Comunidad Autnoma de Euskadi (CAE) con el resto de pases de su
entorno.
La muestra de la EIT se caracteriza por ser un panel que cada ao incluye a las
empresas titulares que han contestado en anteriores repeticiones de la encuesta. Al
igual que en el caso de la ESIE, el reparto original de la muestra se deteriora por
diversas incidencias (altas, bajas, modificaciones,), por lo que se actualiza la muestra
conforme a un nuevo reparto muestral que, respetando el diseo original, recoge la
nueva distribucin de la poblacin en los estratos.
En el ao 2012, se decide renovar el panel en casi un 7%. Adems, se introduce el
Mtodo del Cubo para seleccionar muestras equilibradas con el objetivo de obtener una
distribucin equilibrada en las comarcas de la CAE y sus capitales.

Ficha Tcnica
Marco
Lo componen todos los establecimientos de cualquier sector de actividad que
ejerza su actividad en el mbito de la CAE, salvo el sector primario, la
administracin pblica, las actividades asociativas, las actividades de los
hogares y las actividades de organizacin y organismos extraterritoriales
Diseo muestral
Se trata de una muestra estratificada de una sola etapa.
Unidades muestrales
Todos los establecimientos que forman parte del marco mencionado.
Estratificacin
Se realiza un muestro estratificado por el cruce de las siguientes variables:

- Territorio Histrico
1 = Araba; 2 = Bizkaia; 3 = Gipuzkoa

- Estrato de empleo
1 = 0-9 empleados; 2 = 10-49 empleados;
3 = 50-249 empleados; 4 = 250 y ms empleados

- Sector de actividad (CNAE09 a 2 dgitos)


Afijacin
Elementos autorrepresentados: establecimientos con 250 empleados y ms
(estrato de empleo 4) o establecimientos que correspondan a la actividad 46 en
los estratos de empleo 2 y 3.
Para el resto de los establecimientos se realiza la siguiente afijacin terica:
MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

38

Se reparten 2400 establecimientos para los estratos de 10 y ms empleados


y 750 establecimientos para los estratos de menos de 10 empleados.

El reparto se realiza de manera proporcional a la raz del n de


establecimientos por territorio y estrato de empleo, realizndose despus
otra afijacin proporcional a la raz del n de establecimientos por estrato de
actividad.
Es decir, el tamao de la muestra en cada estrato viene especificado por la
siguiente frmula:

nTH i Emp j Actk = nTH i Emp j

estabTH i Emp j Actk

kAct

donde

nTH i Emp j

estabTH i Emp j Actk

estabTH i Emp j
750

estabTH i Emp j

j =1
=
estabTH i Emp j

2400
estabTH i Emp j

j2 , 3

i {01,20,48}
j {1,2,3}

para empleo < 10

para empleo > 10

Finalmente se aaden establecimientos hasta obtener un tamao mnimo de


5 establecimientos en cada estrato.

Una vez calculados los tamaos tericos necesarios por estrato, restamos las
unidades que ya contiene el panel para obtener el nmero de unidades a extraer
en cada estrato. Concretamente, en el ao 2012 ha sido necesario extraer 771
establecimientos.
Sorteo
Se realiza un muestreo aleatorio simple en cada uno de los estratos, dando
prioridad a los establecimientos que estn especificados en el marco como altas.
Variables de equilibrio
Con el objetivo de obtener mejores estimaciones a nivel comarcal, la muestra
correspondiente a los estratos empleo 2 y 3 (ms de 10 empleados) ha sido
equilibrada sobre el nmero de establecimientos en cada comarca (20
comarcas) y en las capitales.
Sustitutos
Para completar la muestra se necesita una bolsa de sustitutos. Para ello, se
extraern 5 establecimientos en los estratos que no estn completos. En el ao
2012 se han extrado 1.950 establecimientos reserva
Al igual que en la muestra principal, la muestra de sustitutos se equilibrar con el
Mtodo del Cubo sobre el nmero de establecimientos en cada comarca y las
capitales.
MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

39

Resultados
A continuacin se muestran los resultados obtenidos con el Mtodo del Cubo al
equilibrar la el nmero de establecimientos por comarca y las capitales.

Distribucin del nmero de establecimientos por comarca y


capitales (ms de 10 empleados)
Poblacional
Valles Alaveses
Llanada Alavesa
(sin capital)
Montaa Alavesa
Rioja Alavesa
Estribaciones del Gorbea
Cantbrica Alavesa
Arratia - Nervin
Gran Bilbao (sin capital)
Durangaldea
Encartaciones
Gernika Bermeo
Markina Ondarroa
Plentzia Mungia
Bajo Bidasoa
Bajo Deba
Alto Deba
Donostialdea (sin capital)
Goierri
MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

Muestral
(elevado)

50

64

(0.40 %)

(0.51 %)

102

69

(0.81 %)

(0.54 %)

14

19

(0.11 %)

(0.15 %)

105

93

(0.83 %)

(0.74 %)

97

156

(0.77 %)

(1.23 %)

185

234

(1.47 %)

(1.86 %)

135

114

(1.07 %)

(0.91%)

2.931

2.597

(23.26 %)

(20.61 %)

648

556

(5.14 %)

(4.41 %)

111

217

(0.88 %)

(1.72 %)

162

271

(1.29 %)

(2.15 %)

103

192

(0.82 %)

(1.52 %)

200

333

(1.59 %)

(2.64 %)

373

385

(2.96 %)

(3.06 %)

359

290

(2.85 %)

(2.30 %)

366

490

(2.90%)

(3.88 %)

910

841

(7.22 %)

(6.67 %)

334

387

(2.65 %)

(3.07 %)
40

Tolosaldea
Urola Costa
Vitoria-Gasteiz
Bilbao
Donostia-San Sebastian
TOTAL

311

419

(2.47 %)

(3.32 %)

390

263

(3.09 %)

(2.09 %)

1.548

1.467

(12.28 %)

(11.64 %)

1.979

1.988

(15.70 %)

(15.78 %)

1.190

1.158

(9.44 %)

(9.19 %)

12.603

12.603

Los porcentajes estn dados por columnas

Notas:
1. Para el clculo de los elevadores del nmero de establecimientos por comarca,
se ha hecho una post-estratificacin, agrupado los estratos de actividad en
funcin de la agregacin sectorial A38 (CNAE09), puesto que es la que se
utiliza en difusin.
2. En las tres capitales, se han obtenido muy buenas estimaciones del nmero de
establecimientos.
3. En lo que al resto de comarcas se refieren, pese a que la mayora de ellas
estn bastante bien estimadas, podemos encontrar comarcas con un alto error
relativo como Estribaciones del Gorbea, Encartaciones, Gernika-Bermeo,
Markina-Ondarroa, Plentzia-Mungia, Tolosaldea o Urola-Costa.
4. En estas 7 comarcas el Mtodo del Cubo no ha logrado un solucin muestral
que obtenga mejores resultados debido a las restricciones impuestas por el
mismo diseo:
-

Pese a que el tamao de la muestra era de unos 2.900 establecimientos,


solo se han sorteado 410, puesto que el resto provenan tanto del panel
como de estratos censales.

Adems, de los 401 estratos definidos por el cruce de Territorio, actividad y


empleo, solamente se seleccionan establecimientos en 173 estratos.

Finalmente, de los 173 estratos en donde realmente se realiza el sorteo, en


21 de ellos el establecimiento a seleccionar est determinado a priori (por
tener que dar prioridad a las altas).

MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

41

Muestra para la Encuesta de Pobreza y Desigualdades


Sociales (EPDS)
La Encuesta de Pobreza y Desigualdades Sociales (EPDS), tiene una alta importancia
para el Departamento de Justicia, Empleo y Seguridad Social, al vincularse a la
evaluacin y programacin de sus prestaciones econmicas. Por esa razn, resulta de
especial importancia consolidar un diseo muestral que permita un acercamiento lo ms
correcto posible al colectivo de encuestacin.
De forma general, el objetivo central de la EPDS es el conocimiento, estudio y
evaluacin de las distintas lneas de pobreza, y de su incidencia en Euskadi, as como
de indicadores asociados de desigualdad social.
En el ao 2012, se decide seleccionar la muestra para la EPDS utilizando el Mtodo del
Cubo. De esta manera, hemos logrado obtener una muestra equilibrada por sexo, edad
y nacionalidad, adems del tamao familiar en cada uno de los Territorios Histricos.

Ficha Tcnica
Marco
El marco de la muestra de la Encuesta de Pobreza y Desigualdades Sociales lo
componen las viviendas familiares ocupadas de la Comunidad Autnoma de
Euskadi y sus territorios histricos.
Diseo muestral
Se trata de una muestra bietpica con estratificacin en la primera etapa y
tamao de la muestra fija en la segunda.
Unidades muestrales
Viviendas familiares ocupadas de la CAE.
Tamao de la muestra
Se seleccionan alrededor de 4.000 unidades de encuestacin, aportndose unas
8.000 unidades sustitutas (dos sustitutos por unidad muestral).
Primera etapa: Muestra de secciones
En la primera etapa se realiza un sorteo de las secciones censales de la CAE.
o Estratificacin
Las unidades de la primera etapa se estratifican por el cruce de las siguientes
variables:

- Comarcas y cuadrillas
01 = Aana; 02 = Ayala/Aiara; 03 = Campezo-Montaa Alavesa;
04 = Laguardia-Rioja Alavesa; 05 = Salvatierra/Agurain;
06 = Vitoria-Gasteiz; 07 = Zuia; 08 = Donostialdea;
09 = Tolosaldea-Goierri; 10 = Alto-Deba; 11 = Bajo-Deba;
12 = Margen Derecha; 13 = Bilbao; 14 = Margen Izquierda;
15 = Bizkaia Costa; 16 = Duranguesado
MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

42

- Tipologas
Se realiza un anlisis de las tipologas de las secciones censales de
Eustat, especfico para la EPDS. Para ello, se tienen en cuenta las
variables bsicas: edad, sexo, nacionalidad, relacin con la actividad, n
de residentes en la vivienda y renta personal y familiar media.
Una vez realizado un Anlisis de Componentes Principales, las
secciones son clasificadas en 7 tipologas.

- Predominio personas jvenes:


Con el objetivo de sobrerrepresentar la muestra en aquellas secciones
caracterizadas por una fuerte presencia relativa de personas menores
de 45 aos, se realiza una clasificacin de las secciones en dos grupos:
1 = Secciones con predominio de jvenes
0 = Resto
En la segunda etapa, se sortearn 24 viviendas en las secciones
jvenes y 16 viviendas en el resto.
o Afijacin
El sorteo de las 4000 viviendas se ha realizado de acuerdo a las siguientes
afijaciones:
1. Reparto proporcional a la raz cuadrada del n de viviendas por
Territorio Histrico
2. Reparto proporcional a la raz cbica del n de viviendas por
comarcas/cuadrillas
3. Reparto proporcional al n de viviendas por tipologa y tipo de
seccin(joven/no-joven)
Se exigen un tamao mnimo de 160 viviendas por comarca y 112 viviendas
en las cuadrillas de lava.
o Sorteo
El sorteo de las secciones ha sido probabilstica y proporcional al tamao
(PPT), medido en nmero de viviendas ocupadas.
Segunda etapa: Muestra de viviendas
o Afijacin
Para cada seccin seleccionada en la primera etapa de la muestra, se
seleccionan 16 o 24 viviendas en funcin del tipo de seccin que se trate.
o Sorteo
Se realiza un sorteo aleatorio simple dentro de cada seccin seleccionada en
la primera etapa.

Variables de equilibrio
La muestra ha sido equilibrada sobre las mismas variables tanto el la primera
etapa como en la segunda. Con ello, aseguramos que la muestra final est
equilibrada sobre el marco de viviendas completo.
Las variables equilibradas son las siguientes:

MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

43

Tamao familiar: Nmero de viviendas con 1 residente, 2 residentes, 3-4


residentes o ms de 5 residentes por TH

Sexo: Nmero de hombres y mujeres por TH.

Edad: Nmero de individuos con menos de 34 aos, entre 35-44 aos, 4554 aos y ms de 65 aos por TH.

Nacionalidad: Nmero de individuos nacionales y extranjeros por TH.

Nmero de individuos en cada comarca/cuadrillas.

Sustitutos
Para completar la muestra se sortean un suplente y un reserva para cada una
de las viviendas. Estos sustitutos han sido extrados en cada una de las
secciones censales seleccionadas en la primera etapa, equilibrando la muestra
sobre las mismas variables que las viviendas titulares.

Resultados
A continuacin se muestran los resultados obtenidos con el Mtodo del Cubo para las
variables de equilibrio.
Cada una de las tablas compara la distribucin poblacional con la obtenida a partir de
los elevadores de la muestra. Los porcentajes estn dados por columnas

Distribucin de las viviendas por Tamao Familiar y Territorio

Araba
Poblacional

Gipuzkoa

Muestral
Poblacional
(elevado)

Muestral
(elevado)

Bizkaia
Poblacional

Muestral
(elevado)

1
residente

35.528

35.440

68.232

68.553

109.535

112.675

(27,77%)

(27,70%)

(24,97%)

(25,09%)

(24,44%)

(25,14%)

2
residentes

37.537

38.174

78.075

78.039

130.825

130.322

(29,34%)

(29,84%)

(28,57%)

(28,56%)

(29,18%)

(29,07%)

3-4
residentes

47.391

47.735

108.714

108.381

180.827

178.194

(37,04%)

(37,31%)

(39,78%)

(39,66%)

(40,34%)

(39,75%)

Ms de 5
residentes

7.485

6.592

18.248

18.295

27.079

27.075

(5,85%)

(5,15%)

(6,68%)

(6,69%)

(6,04%)

(6,04%)

TOTAL

127.941

127.941

273.269

273.269

448.266

448.266

MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

44

Distribucin por Sexo y Territorio Histrico

Araba
Poblacional
Hombres
Mujeres
TOTAL

Gipuzkoa

Bizkaia

Muestral
Muestral
Muestral
Poblacional
Poblacional
(elevado)
(elevado)
(elevado)

157.836

155.759

(49,91%)

(49,63%)

344.561
(49,02%)

358.350

347.363

553.674

551.028

(49,48%)

(48,49%)

(48,53%)

158.392

158.111

354.687

588.197

584.492

(50,09%)

(50,37%)

(50,98%)

(50,52%)

(51,51%)

(51,47%)

316.228

313.870

702.911

702.050

1.141.871

1.135.521

Distribucin por Edad y Territorio Histrico

Araba
Poblacional
Menos de
34 aos
35 - 44
aos
45 - 54
aos
55 - 64
aos

Gipuzkoa

Bizkaia

Muestral
Muestral
Muestral
Poblacional
Poblacional
(elevado)
(elevado)
(elevado)

108.383

109.676

233.423

234.644

366.085

363.674

(34,27%)

(34,94%)

(33,21%)

(33,42%)

(32,06%)

(32,03%)

55.227

49.691

116.445

116.922

188.762

194.045

(17,46%)

(15,83%)

(16,57%)

(16,65%)

(16,53%)

(17,09%)

49.799

109.078

107.384

182.531

179.632

(15,52%)

(15,30%)

(15,99%)

(15,82%)

40.810

49.939
(15,91%)
43.836

92.261

91.599

151.434

146.342

(12,91%)

(13,97%)

(13,13%)

(13,05%)

(13,26%)

(12,89%)

(15,75%)

Ms de 65
aos

62.009

60.729

151.704

151.501

253.059

251.828

(19,61%)

(19,35%)

(21,58%)

(21,58%)

(22,16%)

(22,18%)

TOTAL

316.228

313.870

702.050

1.141.871

1.135.521

702.911

Distribucin por Nacionalidad y Territorio Histrico

Araba
Poblacional
Nacional
Extranjero
TOTAL

Gipuzkoa

Bizkaia

Muestral
Muestral
Muestral
Poblacional
Poblacional
(elevado)
(elevado)
(elevado)

286.633

289.847

658.599

659.521

1.067.272

1.059.925

(90,64%)

(92,35%)

(93,70%)

(93,94%)

(93,47%)

(93,34%)

29.595

24.023

44.312

42.529

74.599

75.595

(9,36%)

(7,65%)

(6,30%)

(6,06%)

(6,53%)

(6,66%)

316.228

313.870

702.911

702.050

1.141.871

1.135.521

MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

45

Distribucin del nmero de individuos por comarca/cuadrilla

Aana
Ayala / Aiara
Campezo - Montaa Alavesa
Laguardia - Rioja Alavesa
Salvatierra/Agurain
Vitoria - Gasteiz
Zuia
Donostialdea
Tolosaldea - Goierri
Alto Deba
Bajo Deba
Margen Derecha
Bilbao
Margen Izquierda
Bizkaia Costa
Duranguesado
TOTAL

MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

Poblacional

Muestral
elevado

8.617

8.350

(0,40%)

(0,39%)

34.208

33.894

(1,58%)

(1,58%)

3.156

3.118

(0,15%)

(0,14%)

11.414

11.181

(0,53%)

(0,52%)

12.255

12.384

(0,57%)

(0,58%)

237.059

235.576

(10,97%)

(10,95%)

9.519

9.368

(0,44%)

(0,44%)

472.708

472.950

(21,87%)

(21,98%)

114.584

113.420

(5,30%)

(5,27%)

60.919

60.945

(2,82%)

(2,83%)

54.700

54.734

(2,53%)

(2,54%)

161.425

157.625

(7,47%)

(7,33%)

349.132

348.884

(16,16%)

(16,22%)

386.068

379.912

(17,87%)

(17,66%)

126.504

127.321

(5,85%)

(5,92%)

118.742

121.778

(5,49%)

(5,66%)

2.161.010

2.151.441

46

Muestra para el estudio de las mujeres en el mbito rural


vasco
El Departamento de Agricultura, Pesca y Alimentacin quiere actualizar el estudio que
se viene realizando desde 1998 sobre La mujer en el mbito rural vasco. Necesidades,
demandas y carencias sociales.
En el ao 2012, a diferencia de diseos anteriores, se va extraer una muestra de
mujeres y otra de hombres de 15 y ms aos que residen en los municipios que el
departamento ha sealado como rurales, por criterios de tamao, densidad de
poblacin y proporcin de PIB agrario. La muestra deber estar compuesta por 250
hombres y 250 mujeres en cada uno de los Territorios Histricos de la CAE.
Adems de esto, se decide seleccionar la muestra utilizando el Mtodo del Cubo,
obteniendo una muestra equilibrada de hombres y mujeres por edad, nacionalidad, nivel
de estudios y tipo de vivienda (ncleo o diseminado) en cada uno de los TH.

Ficha Tcnica
Marco
El marco de la muestra lo componen la poblacin de 15 aos y ms, que residen
en viviendas familiares de los 128 municipios sealados como rurales por el
Departamento de Agricultura, Pesca y Alimentacin.
Diseo muestral
Como el objetivo es obtener una muestra de mujeres y otra de hombres de igual
tamao en los municipios rurales, se ha optado por realizar una muestra
bietpica con estratificacin en la primera etapa. Las afijaciones de la primera y
segunda etapa se calculan de modo que la muestra final de individuos es
autoponderada por Territorio Histrico.
De esta manera, una vez sorteados los municipios rurales, se sortearn el
mismo nmero de hombres y mujeres dentro de cada municipio.
Tamao de la muestra
Se seleccionan alrededor de 250 hombres y 250 mujeres en cada Territorio
Histrico de la CAE. No se seleccionarn sustitutos, puesto que se ha optado
por realizar una sobremuestra teniendo en cuenta la tasa de no respuesta
estimada (46% en cada uno de los TH).
Primera etapa: Muestra de municipios
En la primera etapa se realiza un sorteo estratificado de los 128 municipios
rurales de la CAE.
o Unidades muestrales
Municipios rurales de la CAE. Se trata de conglomerados de individuos de
tamaos distintos.
o Estratificacin
Las unidades de la primera etapa se estratifican por:
MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

47

- Territorio Histrico
01 = Araba; 20 = Gipuzkoa; 48 = Bizkaia

- Tamao de los municipios


La estratificacin por tamao de los municipios es ptima, es decir,
minimiza la inercia intra-clase o varianza interna de cada estrato,
tomando como referencia la inercia o varianza total.
1 = [0-569]; 2 = [570-1154]; 3 = [1155-1884]; 4 = [1885-3400]
o Afijacin
El objetivo final es sortear 250 hombres y 250 mujeres en cada uno de lo TH.
No se seleccionarn sustitutos, puesto que se ha optado por realizar un
sobremuestra, teniendo en cuenta la tasa de no respuesta estimada (46% en
cada uno de los TH).
Para calcular el nmero de municipios a sortear en cada estrato, se ha
seguido el siguiente procedimiento:
1. Reparto proporcional al tamao de los estratos (poblacin) de 500
individuos por cada Territorio.
2. Se calcula el n de municipios a sortear en cada TH, a partir de un
mltiplo de la fraccin de muestreo de la poblacin.
3. Reparto proporcional al n de municipios por estrato.
4. Se amplia la muestra de municipios para seleccionar aquellos que
pertenezcan al estrato de tamao igual a 4.
o Sorteo
Una vez obtenido el reparto terico, el sorteo de los municipios rurales se
realiza mediante muestreo aleatorio simple.
Segunda etapa: Muestra de hombres y mujeres
En la segunda etapa, debemos seleccionar los hombres y mujeres que van a ser
encuestados.
o Unidades muestrales
Hombres y mujeres mayores de 15 aos pertenecientes a los municipios
rurales seleccionados en la primera etapa.
o Afijacin
Para cada municipio rural seleccionado en la primera etapa de la muestra, se
calcula en nmero de hombres y mujeres a sortear de manera proporcional
al tamao del municipio dentro del estrato. Es decir,

nMUNi = nh

PobMUNi
Pobh

donde MUNi son aquellos municipios rurales seleccionados en la primera


etapa y h el estrato correspondiente a dicho municipio.
o Sorteo
Se extraen dos muestras aleatorios simples e independientes dentro de las
subpoblaciones de hombres y mujeres de cada municipio.
MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

48

La muestra final es aproximadamente autoponderada por Territorios Histricos.


Variables de equilibrio
La muestra ha sido equilibrada sobre las mismas variables tanto el la primera
etapa como en la segunda. Con ello, aseguramos que la muestra final est
equilibrada sobre el marco de individuos completo.
Las variables equilibradas son las siguientes:
-

Sexo: Nmero de hombres y mujeres por TH.


Edad: Nmero de individuos entre 15-25 aos, 26-39 aos, 40-54 aos, 5564 aos y ms de 65 aos por TH.
Nacionalidad: Nmero de individuos nacionales y extranjeros por TH
Estudios: Nmero de individuos con estudios primarios, medios o superiores
por TH
Tipo de vivienda: Nmero de individuos residentes en viviendas de tipo
ncleo o diseminado

Resultados
A continuacin se muestran los resultados obtenidos con el Mtodo del Cubo para las
variables de equilibrio.
Cada una de las tablas compara la distribucin poblacional con la obtenida a partir de
los elevadores de la muestra. Los porcentajes estn dados por columnas

Distribucin por Edad y Territorio Histrico


SEXO = HOMBRES

Araba
Poblacional
15 - 25 aos
26 - 39 aos
40 - 54 aos
55 - 64 aos

1.705
(9,70%)

Gipuzkoa

Muestral
(elevado)
1.676
(9,53%)

Poblacional

Muestral
(elevado)

Bizkaia
Poblacional

Muestral
(elevado)

1.231

1.236

1.769

1.807

(10,41%)

(10,45%)

(8,90%)

(9,09%)

3.706

3.634

2.958

2.988

4.354

4.383

(21,08%)

(20,67%)

(25,01%)

(25,26%)

(21,91%)

(22,06%)

5.746

5.807

3.396

3.320

6.169

6.260

(32,68%)

(33,03%)

(28,71%)

(28,07%)

(31,05%)

(31,51%)

3.050
(15,35%)

2.698

2.730

1.802

1.809

3.191

(15,35%)

(15,53%)

(15,23%)

(15,29%)

(16,06%)

Ms de 65
aos

3.727

3.734

2.442

2.476

4.386

4.369

(21,20%)

(21,24%)

(20,64%)

(20,93%)

(22,07%)

(21,99%)

TOTAL

17.582

17.852

11.829

19.869

19.869

11.829

MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

49

SEXO = MUJERES

Araba
Poblacional
15 - 25 aos
26 - 39 aos
40 - 54 aos
55 - 64 aos

Gipuzkoa

Muestral
(elevado)

Poblacional

Muestral
(elevado)

Bizkaia
Poblacional

Muestral
(elevado)

1.552

1.624

1.164

1.133

1.716

1.655

(9,91%)

(10,37 %)

(10,73%)

(10,45%)

(8,99%)

(8,67%)

3.351

3.309

2.709

2.658

3.970

4.058

(21,39%)

(21,12%)

(24,98%)

(24,51 %)

(20,81%)

(21,27%)

4.694

4.749

2.880

2.870

5.398

5.403

(29,96%)

(30,31%)

(26,56%)

(26,47%)

(28,29%)

(28,32%)

2.714
(14,23%)

2.708
(14,19%)

2.133

2.067

1.416

1.481

(13,61%)

(13,19%)

(13,06%)

(13,66%)

Ms de 65
aos

3.938

3.918

2.675

2.703

5.281

5.255

(25,13%)

(25,01%)

(24,67%)

(24,93 %)

(27,68%)

(27,54%)

TOTAL

15.668

15.668

10.844

19.079

19.079

10.844

Distribucin por Nacionalidad y Territorio Histrico


SEXO = HOMBRES

Araba
Poblacional
Nacional
Extranjero
TOTAL

16.410
(93,33%)

Gipuzkoa

Muestral
(elevado)
16.403
(93,29%)

11.182

Muestral
(elevado)
11.218

(94.53%)

(94,83%)

Poblacional

Bizkaia

19.037

Muestral
(elevado)
19.000

(95,81%)

(95,63%)

Poblacional

1.172

1.179

647

611

832

869

(6,67%)

(6,71%)

(5,47%)

(5,17%)

(4,19%)

(4,37%)

17.582

17.852

11.829

11.829

19.869

19.869

SEXO = MUJERES

Araba
Poblacional
Nacional
Extranjero
TOTAL

Gipuzkoa

Muestral
(elevado)

Poblacional

Muestral
(elevado)

Bizkaia
Poblacional

Muestral
(elevado)

14.694

14.673

10.300

10.278

18.270

18.251

(93,78%)

(93,65%)

(94,98%)

(94,78%)

(95,76%)

(95,66%)

974

995

544

566

809

828

(6,22%)

(6,35%)

(5,02%)

(5,22%)

(4,24%)

(4,34%)

15.668

15.668

10.844

10.844

19.079

19.079

MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

50

Distribucin por Nivel de Estudios y Territorio Histrico


SEXO = HOMBRES

Araba
Poblacional
7.304

Gipuzkoa

Muestral
(elevado)
7.225
(41,09%)

5.287

Muestral
(elevado)
5.144

(44,70%)

(43,49 %)

Poblacional

Bizkaia

6.873

Muestral
(elevado)
6.813

(34,59%)

(34,29%)

Poblacional

Estudios
Primarios

(41,54%)

Estudios
Medios

7.616

7.630

4.957

5.123

8.798

8.915

(43,32%)

(43,40%)

(41,91%)

(43,41%)

(44,28%)

(44,87%)

Estudios
Superiores

2.662

2.727

1.585

1.562

4.198

4.141

(15,14%)

(15,51%)

(13,40%)

(13,20%)

(21,13%)

(20,84%)

TOTAL

17.582

17.852

11.829

19.869

19.869

11.829

SEXO = MUJERES

Araba
Poblacional
6.774

Gipuzkoa

Muestral
(elevado)
6.665
(42,54%)

4.928

Muestral
(elevado)
4.922

(45,44%)

(45,39%)

Poblacional

Bizkaia

7.587

Muestral
(elevado)
7.586

(39,77%)

(39,76%)

Poblacional

Estudios
Primarios

(43,23%)

Estudios
Medios

5.459

5.557

3.451

3.441

6.148

6.160

(34,84%)

(35,47 %)

(31,82%)

(31,73 %)

(32,22%)

(32,29%)

Estudios
Superiores

3.435

3.446

2.465

2.482

5.344

5.333

(21,92%)

(21,99%)

(22,73%)

(22,89%)

(28,01%)

(27,95%)

TOTAL

15.668

15.668

10.844

19.079

19.079

10.844

Distribucin por Tipo de Vivienda y Territorio Histrico


SEXO = HOMBRES

Araba
Poblacional
Ncleo
Diseminado
TOTAL

16.555
(94,16%)

Gipuzkoa

Muestral
(elevado)
16.743
(95,23%)

Poblacional

Muestral
(elevado)

Bizkaia
Poblacional

Muestral
(elevado)

7.530

7.891

11.750

12.245

(63,66%)

(66,71%)

(59,14%)

(61,63 %)

1.027

839

4.299

3.938

8.119

7.624

(5,84%)

(4,77%)

(36,34%)

(33,29%)

(40,86%)

(38,37%)

17.582

17.852

11.829

11.829

19.869

19.869

MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

51

SEXO = MUJERES

Araba
Poblacional
14.781

Ncleo

(94,34%)

Diseminado
TOTAL

Gipuzkoa

Muestral
(elevado)
14.977
(95,59%)

Poblacional

Muestral
(elevado)

Bizkaia
Poblacional

Muestral
(elevado)

7.223

7.687

11.555

12.072

(66,61%)

(70,89%)

(60,56%)

(63,27%)

887

691

3.621

3.157

7.524

7.007

(5,66%)

(4,41%)

(33,39%)

(29,11%)

(39,44%)

(36,73%)

15.668

15.668

10.844

10.844

19.079

19.079

Muestra para la Encuesta de Euskadi y Drogas


Euskadi y Drogas es una encuesta de periodicidad bienal, orientada a conocer los
consumos de diversas sustancias por parte de la poblacin vasca de 15 a 74 aos de
edad, as como su percepcin respecto a diversas cuestiones relacionadas con las
drogas y las drogodependencias.
En el ao 2012, se decide seleccionar la muestra utilizando el Mtodo del Cubo. De
esta manera, se ha obtenido una muestra equilibrada del total de individuos por
comarcas sanitarias, tamaos de municipios, sexo y nacionalidad.

Ficha Tcnica
Marco
El marco de la muestra lo componen la poblacin de 15 a 74 aos de edad
residentes en viviendas familiares de la Comunidad Autnoma de Euskadi y sus
territorios histricos.
Diseo muestral
Se trata de una muestra estratificada de una sola etapa.
Unidades muestrales
Poblacin entre 15 y 74 aos (fecha de referencia: 15 de julio de 2012)
residentes en viviendas familiares de la Comunidad Autnoma de Euskadi.
Tamao de la muestra
Segn las especificaciones de la operacin, se seleccionarn n=2007 individuos
titulares; y otros tantos suplentes y reservas.
Estratificacin
Se realiza un muestreo estratificado por el cruce de las siguientes variables:
MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

52

- Territorio Histrico
01 = Araba; 20 = Gipuzkoa; 48 = Bizkaia

- Grupos de edad:
6 grupos de edades decenales
(15-24, 25-34, 35-44, 45-54, 55-64 y 65-74 aos)
Afijacin
Se ha establecido un criterio para cada uno de los niveles de estratificacin:
1. Reparto proporcional a la raz cuadrada del n de individuos por Territorio
2. Para cada Territorio, afijacin del tamao doble para los grupos de edad
ms jvenes (15-24 aos, 25-34 aos y 35-44 aos).
Sorteo
Una vez obtenido el reparto terico, se realiza un muestreo aleatorio simple
en cada estrato.
Variables de equilibrio
La muestra ha sido equilibrada sobre las siguientes variables:
-

Nmero de individuos de 15 a 74 aos en cada uno de las 11 comarcas


sanitarias de la CAE: Alava, Gipuzkoa Oeste, Gipuzkoa Este, (Biz) Interior,
(Biz) Ezkerraldea-Enkarterri, (Biz) Uribe y (Biz) Bilbao.
Nmero de individuos de 15 a 74 aos en los municipios, segn su tamao
en poblacin: Capitales, entre 50.000 y 100.000 habitantes, entre 25.00050.000 habitantes, entre 10.000-25.000 habitantes y hasta 10.000
habitantes.
Nmero de individuos por sexo.
Nmero de individuos con nacionalidad espaola y extranjera.

Sustitutos
Para completar la muestra, se necesitan dos bolsas de unidades sustitutas: una
de suplentes y otra de reservas, ambas de 2007 unidades en cada caso.
Estas unidades sustitutas se extraern respetando el mismo reparto muestral
por estratos utilizado en la muestra original, equilibrando la muestra sobre las
mismas variables que los titulares.

Resultados
A continuacin se muestran los resultados obtenidos con el Mtodo del Cubo para las
variables de equilibrio.
Cada una de las tablas compara la distribucin poblacional con la obtenida a partir de
los elevadores de la muestra. Los porcentajes estn dados por columnas:

MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

53

Distribucin del nmero de individuos por Comarca Sanitaria


Poblacional

Muestral
elevado

Alava

219.042

218.966

(13,28%)

(13,28%)

Gipuzkoa Oeste

218.155

218.335

(13,23%)

(13,24%)

Gipuzkoa Este

328.814

329.009

(19,94%)

(19,95%)

(Biz) Interior

227.787

228.032

(13,81%)

(13,83%)

(Biz) Ezkerraldea-Enkarterria

225.829

224.429

(13,70%)

(13,61%)

(Biz) Uribe

166.287

166.029

(10,08%)

(10,07%)

(Biz) Bilbao

263.028

264.141

(15,95%)

(16,02%)

TOTAL

1.648.942

1.648.942

Distribucin del nmero de individuos por Tamao de municipio


Poblacional

Muestral
elevado

Capitales

587.948

589.033

(35,66%)

(35,72%)

De 50.000 a 100.000

184.970

184.638

(11,22%)

(11,20%)

De 25.000 a 50.000

239.465

239.354

(14,52%)

(14,52%)

De 10.000 a 25.000

300.173

300.088

(18,20%)

(18,20%)

Hasta 10.000

336.386

335.829

(20,40%)

(20,37%)

TOTAL

1.648.942

1.648.942

MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

54

Distribucin del nmero de individuos por Sexo


Poblacional

Muestral
elevado

Hombres

823.310

823.742

(49,93%)

(49,96%)

Mujeres

825.632

825.200

(50,07%)

(50,04%)

TOTAL

1.648.942

1.648.942

Distribucin del nmero de individuos por Nacionalidad

Poblacional

Muestral
elevado

Nacional

1.519.906

1.518.872

(92,17%)

(92,11%)

Extranjero

129.036

130.070

(7,83%)

(7,89%)

TOTAL

1.648.942

1.648.942

MUESTRAS EQUILIBRADAS EN EUSTAT CON EL MTODO DEL CUBO

55

8. Conclusiones
Por ltimo, vamos a mencionar ciertas conclusiones relativas al inters de realizar
muestreos equilibrados, la eleccin de las variables de equilibrio y la relacin del
equilibrio con la estratificacin y calibracin.

Equilibrio y estratificacin
Tanto para la estratificacin como para el equilibrio, necesitamos conocer el valor de las
variables auxiliares para todas las unidades de la poblacin.
La mayor ventaja de la estratificacin, es que nos permite dividir la poblacin en
subpoblaciones ms homogneas obteniendo estimadores ms precisos, reduciendo
la varianza de muestreo. La estratificacin es tanto mejor cuantas ms variables
correlacionadas con la variable de inters intervengan.
An as, el utilizar demasiadas variables de estratificacin, puede producir estratos
demasiado pequeos, en donde el tamao muestral no es suficiente; sin mencionar los
problemas que pueda acarrear la no respuesta en dichos estratos, aunque esto se
pueda arreglar mediante el colapso de estratos (post-estratificacin).
Las variables de equilibrio, permiten que aquellas variables que no puedan entrar en la
estratificacin mltiple se aadan como variable de equilibrio, manteniendo todas las
ventajas de la estratificacin en lo que a la reduccin de la varianza se refiere y
aadiendo las ventajas propias del equilibrio.
Permiten tambin, trabajar en dominios definidos sobre el cruce varios estratos o reas
pequeas.
Las variables de equilibrio pueden ser cuantitativas, mientras que las variables de
estratificacin siempre han de ser cualitativas o categricas.

Eleccin de las variables de equilibrio


Las variables auxiliares escogidas para equilibrar la muestra, deben estar muy
correlacionadas con las variables de inters y no demasiado correlacionadas entre ellas.
Al equilibrar la muestra sobre un gran nmero de variables auxiliares cualitativas, se
obtienen totales estimados (o medias estimadas) con distribuciones prcticamente
iguales a las de la poblacin de origen.

El Mtodo del Cubo, es muy interesante para la seleccin de las unidades primarias en
una muestra multietpica. En el caso de seleccionar tambin una muestra equilibrada
en la segunda etapa, las variables a equilibrar deben de haber sido equilibradas en la
primera etapa previamente.
CONCLUSIONES

56

Equilibrio y calibracin
A diferencia del equilibrio y la estratificacin, para la calibracin solo debemos conocer
el valor de las variables auxiliares para los elementos de la muestra, as como los
totales de estas variables en la poblacin.
La mejor estrategia es usar equilibrio y calibracin juntos (ver la simulacin en Deville
and Till, 2004), puesto que en general, se obtienen mejores resultados si calibramos
una muestra sobre las mismas variables auxiliares utilizadas en el equilibrio.
Hay un caso en el que la calibracin se puede utilizar sobre variables distintas a las de
equilibrio: cuando se tratan de la misma variable medida en diferentes momentos.

Anlisis de los resultados


A continuacin, se van a mostrar los resultados obtenidos a la hora de calibrar dos
muestras que previamente han sido equilibradas con el Mtodo del Cubo (Euskadi y
Drogas 2012 y Encuesta de Capital Social 2012).
En ambos casos, la calibracin ha sido realizada a traves de la macro CALMAR
(calage sur marges), reponderando los pesos muestrales de los individuos de la
muestra para ajustarlos a los totales marginales de las variables auxiliares de
calibracin.

1. Calibracin de la encuesta de Euskadi y Drogas 2012


Para la encuesta de Euskadi y Drogas 2012 (n=2007 individuos), se ha decidido
calibrar la muestra sobre las siguientes variables:
-

Cruce de las variables Territorio Histrico y Edad (variables de


estratificacin)

Comarca sanitaria, tamao de municipio y sexo (variables de equilibrio)

Partiendo de los pesos iniciales

whi = wh i

estrato), se han obtenido los pesos finales

whi*

(pesos iguales dentro de cada

utilizando la macro CALMAR con el

mtodo ranking ratio para ajustar las estimaciones a los totales marginales de las
variables de calibracin.
Se define la variable f =

w hi*
como la razn entre los pesos finales y los pesos
w hi

iniciales.
Analizando la distribucin de esta variable, podemos determinar cuanto se han
deformado los pesos iniciales para ajustarse a los totales marginales de las
variables de calibracin.
Este es un pequeo resumen de la distribucin de la variable f:
CONCLUSIONES

57

Media
Mediana
Moda
Desviacin estndar

1
0.9987
0.9978
0.0875

Coeficiente de variacin

8.75%

Mnimo
Mximo

0.8365
1.2484

Como se puede observar, los pesos finales no estn demasiado alejados de los
pesos iniciales (incremento mximo del 24% y decremento mximo del 16%),
manteniendo en buena medida los pesos de las unidades muestrales asociados a
la estratificacin.

2. Calibracin de la Encuesta de Capital Social 2012


Para la Encuesta de Capital Social 2012 (n=4000 individuos), se ha decidido calibrar
la muestra sobre el cruce de las siguientes variables:
-

Territorio Histrico (Araba, Gipuzkoa y Bizkaia)

Sexo (hombres y mujeres)

Edad (15-24, 25-34, 35-44, 45-54, 55-64 y ms de 65 aos)

Por lo tanto, la muestra ha sido calibrada sobre 36 totales marginales.


Al igual que en el ejemplo anterior, se define la variable f =

w hi*
como la razn
w hi

entre los pesos finales y los pesos iniciales. Los pesos finales

whi*

han sido

obtenidos utilizando la macro CALMAR con el mtodo ranking ratio para ajustar las
estimaciones a los totales marginales de las variables de calibracin.
En esta ocasin, no solo se va a analizar la distribucin de la variable f, sino que la
vamos a comparar con los valores obtenidos para la Encuesta de Capital Social
2007.
Debemos recordar, que pese a que ambas encuestas tienen el mismo diseo
muestral, la ECS 2012 ha sido seleccionada equilibrando la muestra con el Mtodo
del Cubo. Las variables de equilibrio utilizadas, han sido precisamente las mismas
que las variables de calibracin.
A continuacin se muestran los resultados obtenidos para los aos 2007 y 2012:

CONCLUSIONES

58

2007

2012

Media
Mediana
Moda
Desviacin estndar

1.1139
0.9685
2.0076
0.5306

1.0074
0.9944
1.0287
0.1125

Coeficiente de variacin

47.63%

11.17%

Mnimo
Mximo

0.4223
2.3236

0.7965
1.2915

Al haber equilibrado la muestra de la ECS 2012 sobre las variables de calibracin,


hemos obtenido unos mejores resultados, obteniendo pesos finales mucho menos
alejados que los obtenidos en la ECS 2007 (incremento mximo del 29% frente al 132%
y un decremento mximo del 20% frente al 58%).

CONCLUSIONES

59

Inters del muestreo equilibrado


En el marco asistido por el modelo y basado sobre el modelo, un diseo de muestreo
equilibrado con el estimador de Horvitz-Thompson es a menudo la estrategia ptima
(ver Nedyalkova and Till, 2009). En realidad, cuando una muestra es totalmente
equilibrada, las varianzas de los estimadores de H-T de las variables auxiliares son
iguales a cero.
Las ventajas del muestreo equilibrado son las siguientes:
-

Se trata de una optimizacin de diseos muestrales probabilsticos, sean


unietapicos o multietapicos, donde las probabilidades de inclusin definidas por el
diseo son la clave de partida para seleccionar muestras aleatorias.

Aumenta la exactitud del estimador de H-T; es mas, la varianza del estimador slo
depende de la correlacin entre las variables de inters y las variables de equilibrio
(residuos de la regresin).

Las muestras ms desfavorables, extremas o lejanas a la media tienen una


probabilidad casi nula de ser seleccionadas.

El muestreo equilibrado, asegura que los tamaos de las muestras en reas


geogrficas o dominios particulares no sean demasiado pequeas.

CONCLUSIONES

60

9. Bibliografa
ADIN, A.; ARAMENDI, J.; GALBETE, E. AND IZTUETA, A. (2012)
El Mtodo del Cubo: Un Mtodo para seleccionar muestras
equilibradas. Congreso Vasco de Sociologa y Ciencia Poltica
ARDILLY, P. (1994)
Les Techniques de Sondage. Technip, Paris.
ARDILLY, P. AND TILL, Y. (2006)
Sampling Methods: Exercises and Solutions. Springer, New York.
AZORN, F. AND SANCHEZ-CRESPO, J. L. (1986)
Mtodos y Aplicaciones del Muestreo. Alianza Editorial, Madrid.
CHAUVET, G. AND TILL, Y. (2005)
Fast SAS Macros for balancing Samples: user's guide. Software
Manual, University of Neuchtel.
CHAUVET, G. AND TILL, Y. (2007)
Application of fast SAS macros for balanced samples to the selection
of addresses. Case Studies in Business, Industry and Government
Statistics, 1:173-182.
COCHRAN, W. (1977)
Sampling Techniques. Wiley, New York.
DEVILLE, J.-C. AND TILL, Y. (2004)
Efficient balanced sampling: the cube method. Biometrika, 91:893912.
DEVILLE, J.-C. AND TILL, Y. (2005)
Variance approximation under balanced sampling. Journal of
Statistical Planning and Inference, 128:569-591.
KISH, L. (1965)
Survey Sampling. Wiley, New York.

NEDYALKOVA, D. AND TILL, Y. (2009)


Optimal sampling and estimation strategies under linear model.
Biometrika, 95:521-537.
BIBLIOGRAFIA

61

SRNDAL, C.-E.; SWENSSON, B. AND WRETMAN, J. (1992)


Model Assisted Survey Sampling. Springer Verlag, New York.
TILL, Y. (2000)
Ten years of balanced sampling with the cube method: an appraisal.
Demographic Statistical Methods Division Seminar of the U.S.
Census Bureau.
TILL, Y. (2005)
Teora de Muestreo. Gruope de Statistique, Universit de Neuchtel,
Suisse.
http://www2.unine.ch/files/content/sites/statistics/files/shared/docume
nts/curso_teoria_de_muestreo.pdf
TILL, Y. AND MATEI, A. (2007)
The R Package Sampling. The Comprehensive R Archive Network,
Manual of the Contributed Packages.
http://cran.r-project.org/web/packages/sampling/sampling.pdf
Till, Y. (2010)
Muestreo Equilibrado y Eficiente: el Mtodo del Cubo. Instituto Vasco
de Estadstica, Vitoria-Gasteiz.
http://www.eustat.es/productosServicios/datos/Seminario_52.pdf

BIBLIOGRAFIA

62

También podría gustarte