Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Poblaci On Y Muestra. T Ecnicas de Muestreos: Mamaeusch
Poblaci On Y Muestra. T Ecnicas de Muestreos: Mamaeusch
MaMaEuSch
**
Universidad de Sevilla
**
Este proyecto ha sido llevado a cabo con ayuda parical de la Comunidad Europea en el marco del programa Socrates. El contenido del proyecto no reflejy necesariamente la posicion de la Comunidad
Europea, ni implica ninguna responsabilidad por su parte.
Indice general
1.
Poblacion y muestra. Tecnicas de muestreo
2
1.2.
Tecnicas de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.4.
Muestreo estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7
1.5.
Muestreo por conglomerados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
9
1.6.
Muestreo sistematico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
10
Captulo 1
Imagina por ejemplo que tu clase ha sido seleccionada como la muestra de una poblacion. El
estudio que se vaya a realizar podra ser de diferentes temas, como los siguientes:
Crees que tu clase sera una buena muestra para cualquiera de estos casos? La
respuesta es que, por ejemplo, para el segundo caso, los alumnos de una clase no
son la muestra adecuada. Para el primer caso, es razonable pensar que pueden
aportar informacion interesante, aunque la muestra puede resultar pequena y
podra faltarle informacion (chicos de otras edades, de otros barrios...), mientras
que para el tercer caso, la muestra puede ser muy adecuada. Es por tanto muy
importante la eleccion de una tecnica de muestreo que nos asegure que la
muestra escogida es adecuada para el estudio que queremos realizar.
El tamano de la muestra.
El grado de fiabilidad de las conclusiones que vamos a presentar, es decir, una estimacion del
error que vamos a cometer (en terminos de probabilidad).
Error o sesgo por no respuesta: es posible que algunos elementos de la poblacion no quieran o no
puedan responder a determinadas cuestiones. O tambien puede ocurrir, cuando tenemos
cuestionarios de tipo personal, que algunos miembros de la poblacion no contesten
Despues de lo que acabamos de ver, podemos decir que una muestra es sesgada
cuando no es representativa de la poblacion.
Tecnicas de muestreo
Muestreo sin norma: se toma la muestra sin norma alguna, de cualquier manera, siendo la muestra
representativa si la poblacion es homogenea y no se producen sesgos de seleccion.
Muestreo estratificado.
Muestreo sistematico.
Ahora vamos a calcular a cuantos individuos representa cada uno de los elementos de la muestra.
Hacemos la division contraria, dividimos el numero de individuos de la poblacion entre los de la
muestra: 560/28 = 20, lo que querra decir que cada uno de los elementos de la
muestra representa a 20 alumnos del CES.
Los dos conceptos que acabamos de ver tienen la siguiente definicion formal:
n
N
. Si se
Para nuestro ejemplo al elegir la muestra entre los 560 alumnos del CES, si vamos a
preguntar por el hecho de que posean internet en casa, no nos interesa preguntarle
dos veces a la misma persona, luego una vez elegido un elemento de la muestra no
queremos volverlo a seleccionar. Realizaramos pues un muestreo aleatorio sin
reposicion o sin reemplazamiento.
Total:
n
Xb = N
XX
n .
i=1
Media:
n
Xb =
XX
ni .
i=1
Proporcion:
n
Pb =
XP
n .
i=1
La proporcion sera la media de una variable que toma valores cero o uno. En las
anteriores expresiones:
n es el tamano muestral.
Pi es una variable que toma los valores 0 o 1.
La estimacion del error para estos estimadores sera:
Total:
Para el muestreo con reposicion:
Vb(Xb) = N
S2
.n
Vb(Xb) = N (1
n S2
.
)
N n
Media:
Para el muestreo con reposicion:
b
S2
Vb(X ) =
.n
b
n S2
Vb(X ) = (1 )
.
N n
Proporcion:
Para el muestreo con reposicion:
b b
P Q
b b
V (P ) = n 1 .
Para el muestreo sin reposicion:
Vb(Pb) = (1
Nn1
n PbQb
.
)
Muestreo estratificado
Imagina ahora que queremos hacer una estudio para saber a que dedican su
tiempo libre las personas que viven en tu ciudad. Todos sabemos que los ancianos
no realizan el mismo tipo de actividades que los jovenes, ni tampoco que las
personas de mediana edad, como por ejemplo tus padres. Nos interesara entonces
que toda esta informacion que tenemos de antemano nos ayude a construir una
muestra mas significativa. De hecho, nos interesa que todos esos colectivos esten
representados en nuestra muestra. A los colectivos que hemos definido, en este caso
por edad, los llamaremos estratos. Lo que haremos sera dividir nuestra muestra de
manera que haya represen-tantes de todos los estratos. Vamos a definir
rigurosamente la manera de hacer un muestreo en este caso.
Podemos tener informacion con mas precision dentro de las subpoblaciones sobre
la carac-terstica objeto del estudio.
Inconvenientes:
La eleccion del tamano de las muestras dentro de cada estrato para que el total
sea n.
Se asigna el mismo tamano a cada estrato. Como consecuencia se favorece a los estratos mas
pequenos y se perjudica a los grandes en cuanto a precision.
Para el caso del muestreo estratificado, los principales estimadores vendran dados
por las sigu-ientes expresiones:
Total:
X=
h=1
NhXh.
Media:
b
X
Nh
=wh
h.
b
h=1
h=1
Proporcion:
P=
whPh,
h=1
donde
N es el tamano poblacional.
n es el tamano muestral.
Total:
V (X) =
(1
fh )
Nh
nh
bb
h=1
con
fh =
nh
y
2
Sh =
nh
"
1
#.
Xhi xh
Nh
nh
nh
=1
Media:
Xi
V (X) =
2
(1
fh )
nh
h=1
Proporcion:
PhQh
V (P ) =
wh
(1 fh)
n
h
h=1
bb
bb
donde Q
8
=1P
h.
El motivo para realizar este muestreo es que a veces resultara demasiado costoso
realizar una lista completa de todos los individuos de la poblacion objeto del
estudio, o que cuando se terminase de realizar la lista no tendra sentido la realizaci
on del estudio.
El principal inconveniente que tiene es que si los conglomerados no son homogeneos entre s, la
muestra final puede no ser representativa de la poblacion.
Total:
X=M
i=1
i=1
Mi
Media:
i=1
X=
i=1
Mi
Proporcion:
P=
i=1
i=1
Mi
donde
bi
M es el tamano poblacional.
Ai
es el total de una variable A, que toma el valor 0 o 1 en el conglomerado i,
Total:
n
n1
V (X) =
N(N n)
V(
)=
N(N n)
Media:
bb
n1
bb
M n
Proporcion:
b
M n
n
n1
(Xi XMi) .
i=1
V (P ) =
N(N n)
(Xi XMi) .
i=1
(Pi PMi) .
i=1
Muestreo sistematico
Es de facil aplicacion.
10
Puede considerarse un caso particular del muestreo por conglomerados, estando cada uno de ellos
formado por los siguientes elementos que ocupan en la lista el lugar:
Primer conglomerado: 1, 1 + v, 1 + 2v, 1 + 3v, 1 + 4v, . . .
Total:
X=v
Xi .
b
=1
Media:
Xi
X=
Xi .
b
=1
Proporcion:
Xi
P=
Pi ,
=1
Xi
11
12
Captulo 2
El hecho de estudiar el numero de zurdos de un centro es una informacion util para el propio
centro, ya que este debe disponer del equipamiento adecuado para ellos, por ejemplo, sillas de
pala adaptadas.
La conexion a internet en casa es ya, en estos tiempos, un dato fundamental. Esta informacion
puede ser utilizada tanto para sondear la posibilidad de ofrecerle al alumno material a traves de
internet, tanto para conocer el potencial acceso de estos a material didactico en la web.
La paga es un dato social relevante. Es tambien interesante conocer de que dinero disponen
habitualmente los chicos de edades adolescentes para comprender a que dedican su tiempo.
Con estas premisas, decidimos hacer un muestreo para poder obtener conclusiones sobre todos
los alumnos del CES sin tener que preguntar a todos y cada uno de ellos. La informacion de la
que partimos es de la distribucion de alumnos por grupos y niveles en el centro:
A
B
C
D
E
Total
o
1 ESO
33
20
53
o
2 ESO
20
15
30
65
3 ESO
20
15
26
14
75
o
4 ESO
27
27
25
79
o
1 Bach
33
28
30
31
23
145
o
2 Bach
30
34
32
31
127
Luego estamos trabajando con una poblacion de 544 alumnos de un Instituto de Ensenanza
Secundaria.
13
Partimos de una premisa, vamos a utilizar un tamano de muestra de alrededor de 60 alumnos, que
es el maximo que se nos permite y que nos parece suficiente para el estudio que vamos a realizar.
Ya podemos obtener la primera informacion entonces, nuestra fraccion de muestreo sera
f = N = 558
60
= 0,1102,
E=
N
544
n=
60 = 9,1,
X representar a la altura.
Y representar a la paga.
Vamos a diferenciar dos casos de entre las 4 variables. Lo primero que nos hacemos
es una pregunta: tenemos la poblacion dividida en niveles y en grupos podemos
considerar que esta division tiene influencia en alguna de estas variables? Es decir,
podemos considerar que en cada nivel, por ejemplo, la media de las alturas podra
variar? La respuesta a esta pregunta es que por logica, s que lo har. A priori,
podemos suponer que la edad es una variable que tiene una influencia importante
para la altura. Y para la paga? Pues tambien la edad es importante, puesto que a
todos nos han ido aumentando la paga conforme hemos ido creciendo. Ocurre lo
mismo con el ser zurdo? Pues no, cuando uno es zurdo, lo es desde que nace, luego
la edad no tiene ninguna influencia. Igual ocurre con el hecho de tener internet en
casa. Nuestra tecnica de muestreo elegida sera pues, diferente para estos dos
grupos de casos.
Ya hemos visto que tenemos la poblacion dividida por cursos y por grupos. Para
nosotros, la division en cursos es una division por estratos porque los cursos son
homogeneos dentro de ellos con respecto a la edad (y podemos pensar que tambi
en con respecto a la paga y a la altura), y como hemos visto que la edad tiene
influencia en nuestras dos variables, tiene sentido pensar que nos interesa que haya
representantes de todos los estratos en nuestra muestra. Luego en estos casos,
nuestra eleccion es un muestreo aleatorio estratificado.
Lo siguiente que debemos decidir es el tamano muestral dentro de cada uno de los
estratos, es decir, la afijacion.
Tenemos 6 estratos con los siguientes tamanos:
14
Estrato
Tamano
1o de ESO (estrato 1)
N1 = 53
2o de ESO (estrato 2)
N2 = 65
3o de ESO (estrato 3)
N3
= 75
4o de ESO (estrato 4)
N4
= 79
1o de Bachillerato (estrato 5)
N5
= 145
2o de Bachillerato (estrato 6)
N6
= 127
Lo mas logico en este caso es utilizar afijacion proporcional, es decir, hacemos que los tamanos de
los estratos guarden la mismas proporciones que los tamanos de los estratos. Calculamos entonces el
tamano de la muestra en cada estrato a traves de la siguiente formula:
=n
Ni
ni
n1 = 60
53
544
n2 = 60
65
544
n3 = 60
75
544
n4 = 60
79
544
n5 = 60
145
= 16,
544
127
= 14,
n6 = 60
544
donde los redondeos se han hecho para mantener el tamano muestral 60 que habamos acordado.
Luego ya tenemos los tamanos muestrales que necesitamos y podemos hacer un muestreo aleato-
rio dentro de cada estrato para seleccionar el numero de alumnos que indica el correspondiente
Estrato 1
165
161
153
150
151
153
Estrato 2
157
161
168
162
165
171
169
164
Estrato 3
168
165
175
175
165
163
165
165
Estrato 4
164
171
177
163
170
165
160
175
Estrato 5
175
173
161
158
175
164
158
161
158
171
175
170
187
168
170
185
Estrato 6
190
178
194
183
165
170
176
173
168
183
173
183
174
177
Y para la paga:
Estrato 1
10
3.5
0
Estrato 2
0
15
2
0
Estrato 3
8
0
20
10
10
Estrato 4
12
5
12
12
0
0
Estrato 5
10
12
15
10
12
30
12
30
10
5
10
21
40
15
Estrato 6
12
10
9
6
9.4
15
0
20
10
15
10
0
Vamos ahora a proceder a hacer las estimaciones. Lo primero que hacemos es calcular las medias de los
diferentes estratos, que nos van dando informacion de como se comportan los diferentes estratos.
Posteriormente, calcularemos la estimacion de la media de altura y de paga de los alumnos
15
del centro y la acompanaremos de la estimacion del error cometido al realizar dicha estimaci
on. Hacemos el proceso independientemente para cada una de las dos variables:
Para la altura tenemos:
Estrato
Media
Cuasivarianza
= 155,5
2
S = 36,7
x1
= 164,625
S
= 21,4107
x2
= 167,625
S
= 22,5535
x3
= 168,125
S
= 36,6964
x4
= 169,3125
S2
= 81,6958
x5
= 177,642857
2
Sx
= 67,478
Estrato
Media
Cuasivarianza
= 2,75
S
= 4,026
y1
= 3,125
2
Sy
= 26,4107
= 8,25
Sy
2
3
= 33,3571
= 6,625
Sy
2
4
= 25,4107
= 15,1875
Sy
= 101,2291
= 8,8857
S
= 35,229
y6
Ahora calculamos la media estimada a partir de la muestra completa y la estimacion del error
en terminos de la estimacion de la varianza para las dos variables que estamos estudiando.
Para la altura:
Nh
53
X=
whxh =
xh =
155,5 +
h=1
544
145
127
544 169,3125 +
544 La expresion de
la varianza es
h=1
k
X
b b
V (X ) =
h=1
65
164,625 +
75
X
167,625 +
79
168,125
2
w (1
)
2
544
f
h
544
h
544
177,642857 = 168,9463.
bh
Estrato
53
wh
wh
fh
1 fh
= 0,095
0.009
= 0,1132
0.8868
544
53
65
= 0,1194
0.014
= 0,123
0.8769
544
65
75
= 0,1344
0.018
= 0,1066
0.8934
544
75
79
= 0,1415
0.02
= 0,1012
0.8988
544
79
5
145
= 0,2598
0.0675
16
= 0,1103
0.8897
145
544
6
127
= 0,2276
0.0518
14
= 0,1102
0.8898
127
544
16
36,7
21,4107
22,5535
V (X) =
(1
fh )
h
= 0,009 0,8868
+ 0,014 0,8769
+ 0,018 0,8934
wh
h=1
+0,02 0,8988
36,6964
+ 0,0675
0,8897
81,6958
+ 0,0518
0,8898
64,478
= 0, 728.
16
14
Luego para el caso de la altura ya tenemos nuestras estimaciones. La altura media estimada es
168.9463 y calculamos que cometemos un error de 0.728.
Pasamos ahora a hacer los mismos calculos para la paga. Empezamos por calcular
la media estimada:
Nh
53
65
75
79
Y=
wh
2,75 +
3,125 +
8,25 +
6,625
h=1
544
544
544
544
b
h=1
X
X
145
544 15,1875 +
127
4,026
26,4107
33,3571
V (Y ) =
(1
fh )
h
= 0,009 0,8868
+ 0,014 0,8769
+ 0,018 0,8934
wh
nh
h=1
+0,02 0,8988
25,4107
+ 0,0675
0,8897
101,2291
+ 0,0518
0,8898
35,229
= 0,666.
16
14
Ahora queremos estudiar las variables ser zurdo y tener internet en casa. Es obvio
que la division en estratos no es efectiva en este caso, as que debemos pensar en
Ahora bien, que son los grupos para nosotros? Pues ya hemos dicho que
interiormente se comportan como pequenas poblaciones con respecto a nuestras
variables, mientras que entre ellos son similares. Estamos hablando de que tenemos
la poblacion dividida en conglomerados, luego para este caso aplicaremos el
muestreo por conglomerados.
17
Grupo 1:
1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0, Grupo 2:
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0, Grupo 3:
0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0,
donde 1 significa que es zurdo y 0 que no lo es. Ahora, para la variable tener internet en casa,
hemos obtenido:
Grupo 1:
1 0 0 1 0 1 0 1 0 1 1 1 1 0 1 0 0 1 0 0, Grupo 2:
1 1 1 0 1 1 0 1 1 0 1 0 0 1 1 1 1 1 1 1 1 1 0, Grupo 3:
1 1 0 1 0 1 1 1 1 0 1 1 1 1 1 1 0 1 1 1 0 1 1 1 1,
donde, en este caso, 1 significa que tienen internet y 0 significa que no tienen.
Pasamos ahora a calcular las estimaciones del total de zurdos y de la proporcion de zurdos, as
como del total de alumnos que tienen internet en casa y la proporcion de alumnos que tienen
internet en casa.
Calculamos el total y la proporcion para cada grupo y cada variable:
Zurdos
Internet
Grupo
Total
Proporcion
Total
Proporcion
1
3
0.15
10
0.5
2
0
0
17
0.7391
3
2
0.08
20
0.8
Ahora ya podemos calcular las estimaciones de la proporcion y del total de las variables Z e I.
Comenzamos por la variable Z:
3+0+2
Z=M
i=1
= 544
i=1
= 544
= 544
= 40,
i=1
Mi
20 + 23 + 25
68
i=1
Mi
Ai
3+0+2
PZ =
i=1
= 0,0735,
20 + 23 + 25
Pi
=1
68
Mi
10 + 17 + 20
47
i=1
i=1
I=M
= 544
= 544
= 544
= 376,
i=1
Mi
20 + 23 + 25
68
i=1
Mi
Ai
10 + 17 + 20
47
PI
=
i=1
P
= 0,6911.
Pi
=1
Mi
20 + 23 + 25
68
Pasamos ahora a calcular la estimacion del error que estamos cometiendo en nuestros calculos
para la variable ser zurdo:
N(N n)
1
n
21(21 3)
V (Z) =
(Z
)2
(3
0,0735
20)2
+ (0
0,0735
23)2
+ (2
0,0735
25)2
ZM
n
n 1
32
bb
=1
Xi
18
= 329,18.
N(N n)
1
n
21(21 3)
V (P
)=
(P
Zi
PM
)=
(3
0,0735
20)
+ (0
0,0735
23) + (2
0,0735
25)
nM2
3 (544)2
bc
=1
Xi
= 0,00111.
Pasamos ahora a calcular los errores estimados para la variable tener internet en casa,
N(N n)
1
n
21(21 3)
V (I) =
(I
)=
(10
0,6911
20) + (17
0,6911
23) + (20
0,6911
25)
IM
32
nn 1
=1
bb
Xi
= 1464,123.
N(N n)
1
n
21(21 3)
V (P
)=
(P
Ii
PM
)=
(10
0,6911
20)
+ (17
0,6911
23) + (20
0,6911
25)
nM2
3 (544)2
bc
=1
= 0,00049.
19