Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1. INTRODUCCIN
En el campo de la investigacin emprica es frecuente el recurso a la
encuesta muestral cuando no se dispone de fuentes secundarias fiables
referentes al tema que interesa estudiar. En estos casos la encuesta se
presenta, casi siempre, como la nica alternativa posible, ya que la realizacin de un censo resultara inviable no slo por sus elevados costes, sino
tambin por lo prolongado del proceso de recogida y tratamiento de la
informacin referida a todo el universo.
Por otra parte, con la encuesta se puede obtener mayor exactitud que
con el censo y, adems, los niveles de precisin que sean necesarios para
los fines de la investigacin.
La mayor exactitud1 suele provenir del empleo de personal ms cualificado en la recogida de la informacin mediante encuesta, debido a que se
requiere un nmero muy inferior de agentes entrevistadores que de agentes
1
Un ejemplo de lo que se viene diciendo es la Encuesta de Poblacin Activa, cuyas
estimaciones sobre actividad, ocupacin y desempleo son ms exactas y precisas que las que
se derivan del censo. Esto es as porque la recogida de la informacin se hace por personal
cualificado, hecho posible cuando el nmero de sujetos a entrevistar es limitado.
Res
pp. 139-162
censales y, en consecuencia, se puede controlar ms el proceso y seleccionar y preparar mejor al personal. Los niveles de precisin requeridos estn
en funcin de los fines de la investigacin, y su consecucin es un problema tcnico que se traduce en la aplicacin del diseo muestral adecuado a
cada universo objeto de investigacin.
Para poder garantizar la precisin de las estimaciones que han de dar
paso a la inferencia estadstica, la muestra ha de constar de un nmero suficiente de elementos, elegidos al azar, tal que proporcione una seguridad estadstica de que los resultados que se obtengan de ella puedan,
dentro de los lmites estimados, representar realmente al universo2.
Quiere esto decir que para que se pueda hacer inferencia estadstica es
necesario que se trate de mustreos aleatorios, adecuadamente dimensionados.
Se ha de trabajar con mustreos aleatorios porque son los nicos en los
que se puede fijar el nivel de confianza y calcular los errores de muestreo3.
El nivel de confianza expresa la probabilidad de acertar en la estimacin, y
los errores de muestreo indican la bondad de la misma. Cuando se trabaja
con datos que provienen de encuesta, porcentajes, medias, totales, etc., no
basta con ofrecer los resultados, sino que, adems, es imprescindible conocer el nivel de confianza con que se est operando y la precisin de las
estimaciones. Estos clculos son posibles cuando se realizan mustreos
aleatorios, a los que se aplica la teora de probabilidades.
Las muestras han de estar adecuadamente dimensionadas porque el
nivel de confianza y la precisin de las estimaciones guardan estrecha
relacin con el tamao muestral. Un mayor nivel de confianza garantiza
una mayor probabilidad de acertar, pero slo se consigue aumentando el
nmero de elementos de la muestra. Por su parte, la precisin de las
estimaciones guarda relacin inversa con el error muestral. Cuanto menor
sea ste, menor es la dispersin de la distribucin del estimador y,
consiguientemente, la precisin es mayor.
Para conseguir esta menor dispersin es necesario aumentar convenientemente el nmero de elementos de la muestra hasta obtener los niveles de precisin requeridos. Cul es este nivel y cul el nivel de confianza
con que se debe trabajar? Son preguntas a las que se intentar responder
conforme se aborden los correspondientes epgrafes.
Independientemente de lo anterior, hay otra serie de factores que
afectan al diseo muestral y que inciden en el tamao de la muestra. Se
hace referencia a la estructura del universo y a los niveles de desagregacin
de las estimaciones. La estructura del universo, en la medida en que sea
2
140
2. NIVEL DE CONFIANZA
El nivel de confianza y el nivel de precisin son conceptos estrechamente relacionados que acotan la validez de la estimacin. El primero hace
referencia a la probabilidad de acertar, y el segundo refleja los errores de
muestreo, es decir, la distribucin del estimador. Dicho de otra forma, el
primero indica la probabilidad de que el segundo, los errores de muestreo,
no rebasen determinados lmites. Cuando se dice, por ejemplo, que para un
nivel de confianza del 95,5 por 100 el error de muestreo es de 2 por 100,
lo que se est expresando es que hay una probabilidad del 95,5 por 100 de
que el valor real que se trata de estimar se encuentre dentro de los lmites
definidos por la estimacin y el error de muestreo4. Indica tambin que
existe la probabilidad del 1-0,955, es decir, del 4,5 por 100, de que la
estimacin rebase el error sealado.
Aunque la precisin de las estimaciones ser objeto del siguiente epgrafe, se la menciona aqu por su relacin con el nivel de confianza y
porque el fundamento de uno y otro concepto hay que buscarlo en la teora
de probabilidades y, ms en concreto, en la funcin de probabilidades que
sigue una distribucin normal5, que se define por su media y su desviacin
estndar, cuya representacin grfica aparece en la pgina siguiente:
En el eje de abcisas se encuentra cada uno de los valores de la distribucin, y en el de ordenadas, la probabilidad de obtenerlos. El rea de la
curva es igual a la unidad, ya que en la curva se encuentran el cien por cien
4
Los lmites de la estimacin se delimitan aadiendo a la misma el error de muestreo
multiplicado por el nmero de desviaciones estndar que se toma y que indica el nivel de
confianza con que se est operando (vase cuadro 1).
5
La distribucin normal no es la nica posible pero s la ms frecuente. Por eso aqu
slo se habla de este tipo de distribucin de frecuencias.
141
Y
.40.30Media = 0
Desviacin estndar = 1
.20-.100 -
-2
-1
de los casos. Por otra parte, al ser simtrica respecto a la media, cada una
de las reas a la derecha o a la izquierda de la misma vale 0,5.
Tal como se observa en el grfico, en la distribucin normal la mayor
probabilidad se agrupa en torno a la media, de tal forma que entre sta y
una desviacin estndar se da el 0,6826 de probabilidad; entre la media y
dos desviaciones estndar, el 0,9544, etc. Ms en concreto, con la ayuda de
tablas se puede calcular el rea de la curva desde la media hasta la desviacin estndar. Los resultados para diferentes valores se reflejan en el
cuadro 1. Traducido al campo que nos ocupa, quiere decir que si se acota
la probabilidad en 0,5 desviaciones, hay un 38,30 por 100 de garanta de
que el error absoluto no sea superior al 0,5xerror de muestreo6.
CUADRO 1
Probabilidad y errores de muestreo
Desviacin
Probabilidad
Probabilidad
derecha media
Error
Error total
total
(dcha.-izqda.)
0,5
1,0
1,5
2,0
2,5
3,0
0,1915
0,3413
0,4332
0,4772
0,4938
0,4987
0,3830
0,6826
0,8664
0,9544
0,9876
0,9974
Absoluto
0,5
1,0
1,5
2,0
2,5
3,0
xe
xe
xe
xe
xe
xe
El clculo del error de muestreo es muy sencillo si se parte del muestreo aleatorio
simple. En este caso, tratndose de universos grandes, el error de las proporciones se
.
i r*
/ P (1-P)
142
(N-l)e 2 + K 2 p(l-p)
7
Segn Wonnacott, cuando el tamao de la muestra n es de aproximadamente 10 20,
la distribucin de la media generalmente es casi normal. Thomas H. WONNACOTT y Ronald
J. WONNACOTT, Introduccin a la estadstica, Mxico, Limusa, 1979, p. 143.
8
Este parmetro designado aqu como k es denominado de diferentes maneras, segn
los autores.
9
Las frmulas varan en funcin del tipo de muestreo que se utilice y, tambin, del
parmetro que se desee estimar. Aqu se trata de estimar proporciones.
10
Son universos grandes, a efectos de los clculos, aquellos en los que el porcentaje que
representa la muestra con respecto al universo sea pequeo, generalmente inferior al 5 por
100. Como seala Cochran, el factor CPF (Correccin de Poblaciones Finitas) se puede
ignorar siempre y cuando la fraccin de muestreo no exceda el 5 por 100 y para muchos
propsitos, aun si es tan alto como el 10 por 100. William G. COCHRAN, Tcnicas de
muestreo, Mxico, Compaa Editorial Continental, 1977, p. 49.
143
I2 0,50 0,50
0,022
= 625 entrevistas
22 0,50 0,50
0,022
= 2.500 entrevistas
22 0,50 0,50
212.429 0,022 + 4 0,5 0,5
= 2.470 entrevistas
y en el segundo:
22 0,50 0,50
0,022
= 2.500 entrevistas
145
146
ca qu estimaciones son precisas y cules no. Es la finalidad de la investigacin, en definitiva, la que va a permitir fijar qu errores son permisibles y
cules no para cada caso en concreto.
Dadas las ventajas que puede ofrecer el coeficiente de variacin, sobre
todo cuando se trata de estimar poblaciones marginales16, con una determinada precisin, se incluye, a continuacin, una frmula alternativa a la
expuesta con anterioridad. Se obtiene mediante una transformacin de la
frmula del clculo de los errores de muestreo:
, J-n
p
V N-l
p(l-p)
n
N-n
np
[3]
CV2p
Aplicando esta frmula al clculo de tamao de la muestra, para estimar, con niveles de precisin del 0,05 y 0,10, el porcentaje de funcionarios
16
Aqu se llaman poblaciones marginales a las que representan porcentajes muy bajos
de los universos en estudio.
17
La proporcin es el parmetro a estimar y, por tanto, se desconoce. Por estudios
pilotos o fuentes secundarias se pueden establecer aproximaciones al valor que se trata de
estimar.
18
El nivel de precisin lo fija el investigador en funcin de requerimientos tcnicos y,
muchas veces, tambin econmicos, que imponen limitaciones al desarrollo de una muestra
grande.
147
CV=0,05 y k=2
4 0,39
n
0,052 0,61
_ 1,040 entrevistas
0,102 0,61
_ 256 entrevistas
CV=0,05 y k=2
4 0,82
n
0,052 0,18
_ 7 289 entrevistas
4 0,82
0,102 0,18
_ i#g22 entrevistas
El nmero de entrevistas necesarias para estimar distintas proporciones, con un nivel de precisin dado, vara considerablemente segn el valor
de la proporcin que se trate de estimar. Tambin vara en funcin de la
precisin que se desee obtener.
22 0,50 0,50
0,022
= 2.500 entrevistas
Proporciones 0,25-0,75:
22 0,25 0,75
= 1.875 entrevistas
0,022
149
5.
EL TIPO DE MUESTREO
150
&
Grupos
Proporcin
ingreso por
oposicin
Varianza
Wh
Wh X P (1-Ph)
A
B
C
D
E
0,67
0,72
0,68
0,56
0,42
0,2211
0,2016
0,2176
0,2464
0,2436
0,123
0,125
0,201
0,478
0,073
0,0271953
0,0252
0,0437376
0,1177792
0,0177828
TOTAL
0,61
0,2316949
2 0,2316949
Siendo k=2 y e=0,02, n. =
0,022
= 2.317
151
Varianza
B
C
D
E
0,70
0,80
0,75
0,51
0,29
0,2100
0,1600
0,1875
0,2499
0,2059
TOTAL
0,61
Grupos
A
0,123
0,125
0,201
0,478
0,073
X P
h tt-Pi)
0,02583
0,02000
0,0376875
0,1194522
0,0150307
0,2180000
Grupos
Proporcin
ingreso por
contrato/restring.
A
B
C
D
E
0,13
0,15
0,13
0,23
0,18
TOTAL
0,18
Varianza
Wh
Wh X (1Ph)
0,1131
0,1275
0,1131
0,1771
0,1476
0,123
0,125
0,201
0,478
0,073
0,0139113
0,0159375
0,0227331
0,0846538
0,0107748
0,1480105
El muestreo por conglomerados es el ms utilizado en mustreos dirigidos a la poblacin en general, puesto que permite actuar con marcos
incompletos. Sin embargo, desde el punto de vista de la precisin, es el que
ofrece peores resultados, ya que aqu los errores de muestreo suelen ser
mayores que en el muestreo aleatorio simple. La razn de ello hay que
buscarla en la estructura de este muestreo en que las unidades mustrales
estn formadas por conglomerados, cuya composicin puede ser muy variada (vanse tablas del Apndice).
Los errores de la estimacin en el muestreo por conglomerados son
mayores que en el muestreo aleatorio simple y se puede analizar en comparacin con los que se derivaran del mismo, que es el que sirve de prototipo, a travs de la frmula [5] l + (M-l)p25, que recoge las variables que
definen el efecto del diseo.
24
Aunque la estratificacin no suponga ganancias en precisin, puede ser til introducirla
porque simplifica el proceso de muestreo.
25
M=tamao del conglomerado, p=coeficiente de correlacin que mide la homogeneidad
o la heterogeneidad del conglomerado.
153
CUADRO 5
Errores de muestreo por estratos con afijacin proporcional
Grupos
Peso
Proporcin
A
B
C
D
E
0,122
0,125
0,201
0,478
0,073
0,13
0,15
0,13
0,23
0,18
TOTAL
1,000
0,18
N. entrevistas
308
312
502
Error muestral
183
0,019
0,020
0,015
0,012
0,028
2.500
0,007
1.195
154
puede desear hacer estimaciones referidas solamente al universo funcionarios, o tambin a cada uno de los cinco grupos en que se ha estratificado.
En este ltimo caso, no es posible operar con la muestra diseada para el
universo en su conjunto, ya que los errores mustrales, por dominios, seran
elevados y, en consecuencia, las estimaciones poco precisas (vase cuadro 5).
A pesar de que la proporcin es muy pequea en el ejemplo y, por
tanto, tambin las respectivas varianzas, el error de muestreo para cada
grupo es relativamente importante, sobre todo si se tiene en cuenta que los
clculos estn hechos para un nivel de confianza del 68,26 por 100. Si se
opera con el nivel habitual del 95,46 por 100, los errores hay que multiplicarlos por 2 y el nivel de precisin se hace muy pequeo, sobre todo en las
submuestras con un nmero de entrevistas inferior a 500. En consecuencia,
habra que partir de un diseo que tuviera en cuenta la necesidad de
desagregar los resultados y los niveles de precisin requeridos en cada
estimacin.
Para resolver esta situacin se puede acudir a diferentes tcnicas bien
diferenciadas. La primera consiste en fijar el nivel de precisin para la
categora menos frecuente, en este caso funcionarios del grupo E; hallar el
tamao de la muestra para conseguir esta precisin y, posteriormente,
hacer la afijacin proporcional en todos los grupos. En el ejemplo de
funcionarios del grupo E, si se parte de una proporcin del 0,50-0,5026 y un
error de muestreo del 0,015 para un nivel de confianza del 68,26 por 100,
P(l-P)
el tatnauo de la muestra sera de n =
= 1.111 entrevistas. Aplie2
cando la misma tasa de muestreo al conjunto de la muestra, habra que
realizar 15.219 entrevistas, cuya distribucin sera la siguiente: grupo A,
1.872 entrevistas; grupo B, 1.902 entrevistas; grupo C, 3.059 entrevistas;
grupo D, 7.275 entrevistas, y grupo E, 1.111 entrevistas. La solucin
tomada garantiza los niveles de precisin, pero a costa de un nmero muy
elevado de entrevistas, innecesario para los objetivos de la investigacin, y
con unos costes desproporcionados.
La segunda tcnica, y la ms habitual, consiste en recurrir a una afijacin
no proporcional, tratando a cada dominio como si fuera un universo diferente. Dado que el volumen de poblacin, en universos grandes27, no
modifica el clculo del tamao de la muestra, se puede aplicar el mismo
tamao muestral a los diferentes dominios. En nuestro caso se aplicaran
1.111 entrevistas a cada grupo, lo que hara un total de 5.555 entrevistas.
La solucin es correcta, pero parece necesario hacer algunas anotaciones.
En primer lugar, el nmero de 1.111 entrevistas se puede disminuir siem26
La proporcin 0,50-0,50 da la varianza mxima y de ah que, para que el diseno sirva
para cualquier tipo de distribucin de la variable, sea necesario partir de este supuesto.
27
Vase nota 10.
155
28
Recurdese que la varianza no se suele conocer a la hora del diseo, aunque se pueden
hacer aproximaciones a la misma.
29
En estos casos se supone, a efectos de clculo muestral, varianza mxima.
156
APNDICE
A lo largo del artculo se han desarrollado, partiendo en cada caso de
los mismos datos, tres tipos de muestreo (muestreo aleatorio simple,
estratificado y por conglomerados) que afectan al tamao y precisin, tal y
como se ha indicado. Se resumen, a continuacin, las caractersticas de
cada tipo de muestreo y su relacin con el nivel de precisin. Los datos
comunes a los tres diseos son los siguientes:
mbito: Nacional.
Universo: Funcionarios civiles adscritos a la Administracin Central.
Tamao: Vara segn el diseo.
Afijacin: Proporcional.
1. Muestreo aleatorio simple
Procedimiento: Se realiza en una sola etapa (monoetpico), con igual
probabilidad y seleccin aleatoria.
Nmero de entrevistas: Para un error de muestreo de 0,02 y K=l,
625 entrevistas. Siendo el error de muestreo el mismo y K=2, el nmero de
entrevistas es de 2.500. Este diseo sirve de punto de referencia para
calcular el efecto del diseo.
2. Muestreo estratificado
Procedimiento: El universo se estratifica en los cinco grupos que distingue la propia Administracin: Grupo A (Cuerpo Tcnico), Grupo B (Cuerpo de Gestin), Grupo C (Administrativos), Grupo D (Auxiliares) y Grupo
E (Subalternos).
Una vez realizada la estratificacin se hace el estudio de varianza de
cada estrato (cuadro 2) y se procede al clculo del tamao de la muestra
siguiendo la frmula [4].
Nmero de entrevistas: El resultado es, para un error de 0,02 y K=2, de
2.315 entrevistas.
En este caso, en el que se han podido estudiar las varianzas de cada
estrato, se consigue un efecto de diseo de 0,926. Por tanto, para la misma
precisin son necesarias 185 entrevistas menos.
3.
por conjuntos de individuos (funcionarios). Estos conglomerados son Unidades Administrativas (Direcciones Generales, Subsecretaras, Organismos Autnomos, etc.) integradas en los distintos Departamentos Ministeriales.
El procedimiento, tambin monoetpico, ha sido el siguiente:
1. Se han agrupado los Ministerios en cinco estratos, como puede
verse en la tabla I.
2. La Administracin se compone de 454 conglomerados, de los que
a priori se estima que han de formar parte de la muestra 30. Se realiza una
afijacin proporcional para elegir los conglomerados que por cada Ministerio han de ser seleccionados y posteriormente se eligen stos de forma
aleatoria simple (vase tabla II).
3. En los conglomerados seleccionados se entrevistan a todos los
individuos que los componen.
El clculo de los errores resulta, en este caso, prcticamente imposible
por desconocer para cada Unidad Administrativa las proporciones reales
de ingreso en la Administracin por oposicin y por contrato y oposicin
restringida (vanse cuadros 2 y 4). Debido al desconocimiento de estos
datos, se ha intentado analizar la homogeneidad a partir de la composicin
de esas Unidades Administrativas. Para ello se ha estudiado la distribucin
de los grupos en cada conglomerado (vase tabla III) en un intento de
descubrir la homogeneidad o heterogeneidad desde este aspecto. Tal como
se observa en la tabla III, los conglomerados son muy dispares y, mientras
unos aparecen como ms heterogneos en su composicin, otros son ms
homogneos. Al no cumplirse en todos la condicin de heterogeneidad, el
estudio por conglomerados ofrece aqu menos precisin que el aleatorio
simple (efecto de diseo mayor que 1).
Ante esta situacin, si se quiere realizar un diseo por conglomerados
habra que hacer, despus de la seleccin aleatoria de los mismos, una
segunda etapa en la que se seleccionaran los individuos (funcionarios) por
grupos, con afijacin proporcional al nmero de funcionarios que tiene
cada uno. En este caso se est volviendo al muestreo estratificado pero
hacindolo bietpico; primero se eligen los conglomerados y, en la segunda
fase, los individuos.
158
TABLA I
Agrupacin de Ministerios. Nmeros de unidades administrativas de cada uno
y nmero de conglomerados que se seleccionan
Unidades
administrativas
Conglomerados
Tistrato
Ministerio
Asuntos Exteriores
Administraciones Pblicas
Relaciones con las Cortes
35
19
33
3
1
2
Agricultura
Economa
Industria
Obras Pblicas
Transportes
29
31
23
25
33
2
2
1
1
3
Interior
Justicia
Defensa
34
18
39
2
1
3
Universidad
Cultura
Educacin
33
19
30
2
1
2
Sanidad
Trabajo
Seguridad Social
19
21
1
1
2
1
454
Seleccionados 30
Total conglomerados
159
TABLA II
Unidades administrativas seleccionadas y nmero de funcionarios
en cada una de ellas
Ustrato
Unidad administrativa
seleccionada
88
105
111
161
77
161
154
126
159
160
137
118
189
137
136
161
98
143
118
84
53
243
248
263
212
163
151
159
132
121
N. funcionarios
4.368
160
TABLA III
Distribucin de funcionarios por grupos en los quince primeros conglomerados
seleccionados
GRUPOS
Conglomerados en el estrato 1
25
28,41
-2
7
7,97
_1
6
6,82
-14
50
56,82
-4
_y
1.2
43
40,95
+ 16
3
2,86
-5
10
9,52
-10
48
45,71
-6
1
0,95
-8
1.3
29
26,13
+2
2
1,8
-6
19
17,12
-1
47
42,34
-7
14
12,61
+5
1.4
34
21,12
+7
19
11,8
+ 11
34
21,12
+ 14
73
45,34
+ 19
1
0,62
-8
1.5
8
10,39
-19
10
12,99
+2
23
29,87
+3
31
40,36
-23
5
6,49
-4
1.6
22
13,66
_5
5
3,11
-3
26
16,15
+6
76
47,20
+22
32
19,88
+23
1.1
TOTAL
%
x
161
23
27
46
7
8
161
118
17
20
325
46
54
53
7
9
Conglomerados en el estrato 2
2.1
19
12,33
-15
57
37,01
+25
43
27,92
+13
26
16,88
-17
9
5,84
+2
2.2
20
15,87
-14
9
7,14
-23
41
32,53
+11
44
34,92
+1
12
9,52
+5
2.3
5
3,14
-29
19
11,94
-13
42
26,41
+12
80
50,31
+37
13
8,17
+6
2.4
42
26,25
+8
20
12,5
-10
64
40
+21
2
1,25
-5
2.5
24
17,51
-10
10
7,29
-22
36
26,27
+6
2.6
29
24,57
-5
43
36,44
+11
16
13,55
-14
18
9,52
-12
32
20
2.7
72
38
+38
63
33,33
+31
2.8
44
32,11
+ 10
15
10,94
-17
2.9
48
35,29
+ 14
TOTAL
303
%
x
23
34
43
24
31,38 17,51
-17
29
24,57
-14
1
0,58
-6
35
18,51
+8
1
0,5
-6
31
22,62
+1
45
32,84
+2
2
1,45
-5
42
30,88
+10
20
14,7
-10
24
17,64
+19
2
1,47
-5
290
267
390
66
22
32
20
30
30
43
5
7
162
TEXTOS CLASICOS