Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DE MUESTREO
'
·'
,,'
d:
,,,.
t
\'
1
1
f
¡ ~J
1
\
¡,,.
CONCEPTOS BÁSICOS DE MUESTREO ¡
1
¡
l','
'
1 '
i
¡
l,
' !
IGNACIO MÉNDEZ RAMIREZ, GUILLERMINA ESLAVA GÓMEZ
Y PATRICIA ROMERO MARES r 1
l.
1
1
1
',
. . ,, '
.·.~L,';'"'-"--·-..-w--"" ....__""'"":..,.._~~'"
IN DICE
ntrod ucción
1
1
1. Panorama del muestreo 5
1.1 Marco de muestreo 6
1.2 Formas de tomar muestras 10
1.3 Teorema central del límite 12
1.4 Estrategias de muestreo y propiedades dístribucionales 15
1.5 Diseños de muestra 17
2.1 Extrapolación 21
2.2 Poblaciones y muestras 22
2.3 Aleatoriedad e indeterminismo 23
2.4 Probabilidad 24
2.4.1 Primera ley de los grandes números 24
2.4.2 Segunda ley de los grandes números 25
2.5 Teorema central de límite 26
2.6 Extrapolación de muestra a población 30
2. 7 Representatividad 30 ~--
5. Muestreo estratificado 51
5.1 Proporciones 56
5.2 Distribución (afijación) de la muestra a los estratos 57
5.2. 1 Distribución proporcional 57
5.2.2 Distribución óptima 58
5.3 Tamaño de muestra total 59
5.3. 1 Con distribución óptima 59
5.3.2 Con distribución proporcional 60
11.1 Evaluación de las probabilidades de selección con ppt sin reemplazo 101
11.1 1 Caso con n=2 101
11.1.2Casoconn=3 102
11 .2 Ajuste de factores de expansión 104
11 .3 Ajustes en muestras de poblaciones infinitas o procesos 107
Bibliografía 129
. JUQ!Ui
INTRODUCCIÓN
Introducción
La idea de este escrito es presentar de manera intuitiva, sin demostraciones,
los aspectos que se deben tomar en cuenta al realizar encuestas (con base
en cuestionarios) o muestreos (efectuando mediciones directas). Se hace
poco énfasis en las consideraciones técnicas que llevan a las expresiones
para varianzas de estimadores o pruebas de insesgamiento. Se citarán las
expresiones para varianzas sin demostración, esas y otras demostraciones se
pueden encontrar en los textos como el de Raj (1968); Sukhatme et al.
(1984); Kish (1965) y Cochran (1977). Se discute con más detalle las
expresiones ligadas a la determinación del tamaño de muestra.
En el capítulo uno se da una visión general de lo que es un marco de
muestreo, y los diferentes tipos de diseños de muestra, así como del
concepto de muestra representativa.
En el capítulo dos se discute el concepto de la representatividad de las
muestras, que es básico en la estadística en general ya que fundamenta las
inferencias. Se comenta la necesidad de muestras no representativas y sus
correcciones analíticas para hacerlas representativas.
En el capítulo tres se dan los conceptos de las muestras
probabilísticas; con la estrategia de muestreo que consiste en la forma de
tomar la muestra y de obtener un estimador del parámetro. Cada estrategia
'
se evalúa por los posibles valores del estimador, en particular su esperanza,
,',j
1
INTRODUCCIÓN
2
INTRODUCCIÓN
i
'
1
'<
l
i
f
¡ 1
! 1
¡
1
í
' f
1
¡ << .::;.
1
l1 .'\'
1
1
l
l
¡
!¡
r
¡
í'
l
1
f
/
¡
i
!
3
PANORAMA DEL MUESTREO
5
PANORAMA DEL MUESTREO
2. ¿Cuál es la población?
Eso que se quiere conocer se refiere a una población o conjunto de
elementos o unidades de muestreo con cierta ubicación en tiempo y espacio.
Por ejemplo, habitantes del Distrito Federal, empresas de la construcción,
escuelas públicas, etcétera.
La población se define al especificar qué elementos son y qué características
deben tener éstos. Por ejemplo, personas mayores de 18 af\os que residen
(por más de seis meses) en el Distrito Federal; escuelas primarias que
dependen del sector público, ubicadas en el estado de Sonora; empresas de
la industria alimenticia, registradas ante la Secretaria de Comercio, que están
al corriente en el pago de impuestos y se ubican en el Estado de México.
Los elementos o unidades de muestreo pueden ser entidades como: familias,
personas, fábricas, comercios, escuelas, etcétera. Para su estudio se consideran
varios aspectos: tiempo de residencia, edad, actividad, tamaf\o de empresas, entre
otras.
Para el estudio se debe determinar, primero, el proceso de captación de la
información asociada a cada elemento, esto es, la forma de aplicación y el tipo de
instrumentos de medición a utilizar. Entre los instrumentos se encuentran: la
observación directa, los cuestionarios, las entrevistas directas o telefónicas, entre
otros. Conocer y aplicar correctamente los instrumentos de investigación permitirá
evitar errores en el proceso de captación de información.
6
PANORAMA DEL MUESTREO
(~
Población
_/
1
·~~---
"" 1
Marco
Población
l
!
ii
Figura 1.2 El marco incluye otros elementos adicionales
1
7 '
PANORAMA DEL MUESTREO
Población
/
Marco
8
PANORAMA DEL MUESTREO
/.~-----------------------._
Población
t
/<-~~-~
[
Í:
l
¡
¡
Figura 1.4 Marcos complementarios
9
PANORAMA DEL MUESTREO
Población
Marcos
\'·----------~~--~~~--~~~~~----------_/
Figura 1.5 Marcos "traslapados"
1
Se discute más adelante este concepto.
10
PANORAMA DEL MUESTREO
Población
N1 - 10
1
1 N= N,+ N2 + N3 es la población total
r
1 Muestra
t .
10 = 10 n3 = 10 t
!
n 1 "' n2
l
!
1 f
n = n 1 + n2 + n3 es la muestra total
!
El promedio poblacional de una medición es: !
!
160 N 1
N 1+N2 N 1+N2 +N3 1
D~ l:Y;+ L Y¡ 2: r; - -
N 1Y1 +N2Y2 +N3Y3
- j
Y=-~-
i=l i=N +1 1 i=N1+N2 +1
!
160 160 N 1
1
!
n¡ n2 n,
I:r; ¿r; ¿r;
A A •
N¡ N2 N 3 .1=L_
y= N¡?¡+ N2Yz + N3f:¡ ll¡
+
¡¡2
+
n3
N N N N
11
PANORAMA DEL MUESTREO
Distribución de los.
1}
Muchas muestras muchos valores de los
aleatorias de tamaño n promedios muestrales
n
O - .Y Muchos Error
n -
..--""' 0-Y valores estándar
(
/ Población
')
\ ....._____
'
f.l. __ / ~·
1 0-"Y dey
diferentes
• O"y
0-Y
Figura 1.6 Teorema central del límite
12
PANORAMA DEL MUESTREO
Uniforme
Asimétrica
fuerte
Lo_,,o Y;
Asimétrica
moderada L,o Caso
dicotómico
~y,
.-. n<::5 ,_: brr_~,~¡,, 1'
¡
r
O 1 Y;
1
Figura 1.7 Tamaño de muestra
f
1
~'
En general, en el trabajo de muestreo, en la población se tendrán parámetros l.
B, que al tomar muchas posibles muestras con un diseño de muestra específico y una
A
13
PANORAMA DEL MUESTREO
a/2
e
(
V (e) = E [iJ -e r
es la varianza obtenida con todos los posibles valores de iJ .
De aquí:
(2.1)
(2.2)
(2.3)
14
PANORAMA DEL MUESTREO
l
'1
j
,1
1
1
oentre (} y ees
!
("'~:'"')-~(/
1
'
1
!
¡
<'{~:_Y,, ... y•· .
(
1
-~ y, (.
f.
\ ~¡
\Y.
1
B
lt
e(y, y,, ... y,) Estimador como función de los datos
¡
i
~--------- 1
i
15
PANORAMA DEL MUESTREO
varianza dada por V (i}). A Jv (o) se le conoce como error estándar del estimador.
de muestra que está implfcito en V(B). Con frecuencia V(e) es función del tamaño
de muestra y de otros parámetros desconocidos. Entonces hay que suponer con base
en experiencias previas que se conocen esos parámetros. En caso de no tener esas
experiencias se lleva a cabo un muestreo, llamado "muestra piloto", con el objetivo de
estimar dichos parámetros. Con esos valores en la expresión 15 = 1.96 ~v(e), se
obtienen.
En la etapa de presentación de resultados de la investigación por muestreo,
se debe estimar V(é) es decir, obtener V(é) el estimador de la varianza del
estimador; con este valor se obtiene un intervalo de confianza aproximado del 95%
para el parámetro, el cual es la manera correcta de presentar los resultados del
proceso. Se diría, e está en el intervalo (e- 1. 96~V (e) ,e+ 1.96~V (e)) con un 95%
de confianza.
El proceso de planeación de tamaño de muestra se puede hacer también
basándose en el llamado "efecto de diseño" (ver Kish, 1965), que se define como:
DEFF = VoCB)'
T~id ( B)
16
PANORAMA DEL MUESTREO
Población t
N 1
1 ¡
1
1
~
Selección aleatoria de los elementos muestrales con probabilidades de selección en
¡ cualquier extracción iguales y sin reemplazo.
.- ~
1 Muestreo sistemático (uno de cada k), si el orden as aleatorio equivale al mas, si hay un
1
1
orden con cambios suaves, no periódicos en el intervalo de muestreo k=n 1N, entonces
1 es mas eficiente (más "representativo") que el mas.
'-------------------~~- --------------------~
Diseño 1
17
PANORAMA DEL MUESTREO
----------------
¡
( Muestreo con Probabilidad Proporcional
1 al Tamaño (ppt)
¡ (/:;: 8
1 \:_~
i
1
\ '"-.._/
'--_/ -
1
1 Selección con probabilidad P,=X/Xden de los elementos muestrales con reemplazo.
( Muestreo Estratificado
/0---~" Población:
/ N=N,+N 2+N,
/
( N1
\ ,/'// Muestra:
i. \' \
n=n,+n,+n,
! ,,"
1
\
¡
'
------- /
Diseño 3
18
PANORAMA DEL MUESTREO
( Muestreo Bietápico
~ Población:
1
i ® Ms
N Unidades Primarias da Muestreo (UPM)
con M, unidades últimas de muestreo (USM)
cada una.
Muestra de n UPMy
~ m, unidades últimas
~cada una.
\:
~'
l.
'
,%
¡'
Selección aleatoria o sistemática de ,.
;~·
;
UPM con probabilidades de selección
iguales oproporcionales al tamaño.
.r
;•)
Población: ¡ '>,
N UPM con M, USM en cada UPM, y con Bq ~·
unidades últimas (UUM) en cada USMq.
Diseño 5
19
PANORAMA DEL MUESTREO
(
1
Muestreos Complejos. Polietápicos estratificados
¡ Población:
1 ~ N UPM con M, USM en cada UPM, y con Bu UUM en
~~0 ~~~ cada USMII' Las UPM en estratos y/o las USM
~;1\A~ ~r~ ro
1 estratificadas dentm de cada UPM,.
1
~"'¡;; ~ U~\ Muestra:
(~\~~
1
n UPM y m, USM en cada UPM y
con bu UUM en cada USM,
1 b,,
'·~ ~itJ
a~temática
1
20
REPRESENTATIVIDAD DE LAS MUESTRAS
REPRESENTATIVIDAD
~
X1
Muestra
~ Eldrnpoloción
o L
Población
X2
'>'
r
~
(lnfercnem)
Distribuciones Distribuciones
marginales y marginales y
~
conjuntas de conjuntas de
variables variables
IMPORTANTES IMPORTANTES
''·,·--------------:-------,--,---,----__./
Figura 2.1 Concepto de representatividad
2.1 Extrapolación
Un razonamiento innato en los seres humanos, es aplicar a experiencias nuevas las
conclusiones obtenidas en el pasado en otras experiencias semejantes.
Por ejemplo, al ingerir cinco frutos rojos, pequeños, y tener dolor de
estómago, se generaliza a otros frutos de ese tipo o a uno nuevo.
¿Es semejante
a los otros?
21
REPRESENTATIVIDAD DE LAS MUESTRAS
Sin embargo, hay dudas: ¿Todos los frutos rojos son indigestos?, ¿Influye el
tamaño del fruto?, ¿El tono de rojo?, ¿La época del afio?, ¿El tipo de árbol o
arbusto?, etcétera. ¿Qué es ser semejante?.
La· ciencia también hace extrapolaciones, ejemplo de ello son las
investigaciones que se llevan a cabo con ciertos elementos (enfermos de amibiasis,
fumadores empedernidos, plantas de maíz, cajas de Petri con un medio para crecer
bacterias, etcétera), cuyas conclusiones se aplican a otros elementos semejantes a
los estudiados.
Elementos
Elementos semejantes
estudiados a los
Extrapolación estudiados
Población
Extrapolación
22
REPRESENTATIVIDAD DE LAS MUESTRAS
¡' predecir con poco error cuántas personas, del total de personas en la población,
desarrollarán la enfermedad; en cambio en el caso de una persona no se puede
predecir con poco error, únicamente se le asignan las probabilidades de desarrollar la
enfermedad de la población a que pertenece. En estos razonamientos es crucial la
validez del supuesto que las condiciones de la muestra sean semejantes a las de la
1 población o individuo. ,.
l
! ¡'
¡
'
1
'
f
f
"
'¡,
~
!
23
REPRESENTATIVIDAD DE LAS MUESTRAS
extrapolación
elemento
2.4 Probabilidad
En Estadistica se usa el concepto de probabilidad derivado del estudio de "grandes
números" de elementos. Cualquier texto de Probabilidad menciona los teoremas
básicos, por ejemplo, se puede consultar Chung (1974).
n>l.
Se dice que Sn puede tomar valores O, 1, ... ,n y tiene distribución binomial con
media y varianza dados por:
24
- e; , ( '(~
'
.,.¡
-··· --~~:.. ,._·,_:.,.~.--~:.!-:-.~·¡,•<, ·t,,;;·.~ ~--~J
REPRESENTATIVIDAD DE LAS MUESTRAS
S
Esto se interpreta considerando que cuando n se hace grande _!!_ se acerca
n
cada vez más a p.
25
REPRESENTATIVIDAD DE LAS MUESTRAS
X - /}, 1 Ib -"'' 1
lim P a<--<b = ¡;;;-e 12dx ·
n-oo ()' - v21f
.j;'¡ a
30
28
....................................... ~ ........,~·-···~"=""tt'l
26
24
22
20-1--~~~~---r-~---r-~~--~--r-~
26
REPRESENTATIVIDAD DE LAS MUESTRAS
27
REPRESENTATIVIDAD DE LAS MUESTRAS
o..:. 7
~"
.8t9
E-
6
i_ 5
4
3
2
• • • • • • • •
$0 $1 $2 $3 $4 $5 $6 $7 $8 $9
Estimate of mean
(Sample size" 1)
l
9
~~ 8
o~ 1
"$
.8,2 6
§-
z S •
4 • • • • •
3 • • • • • • • • •
2 • • • • • • • • • • • • •
• • • • • • • • • • • • • • • • •
$0 $1 $2 $3 $4 $5 $6 $7 $8 $9
Estimata of mean
Figura 2.3 Ejemplo del Teorema central del limite
Fuente: Babbie, E. (1992). The practíce of Social Research. Ed. Wadsworth
28
r-,'
A Samples of 3
Trua mean= $4.50 14
...........
••.......
10
9
...
J
... .. ..
...........
...... ,. ..... .
... .. .. . .
.!]
o.- 8 • "' • • • • 11 lt • • • • •
E"'
~"'
7 ...............
w- 6 ...................
-"-
_.," S
2!'5
E t:. 3
4
............. ......... .
• !1' • • • • •
.. .. . ....
4
3
....................
....................
"
;: 2
.".. .. 2
........................... .
.......................
'jt
$0 $1 $2 $3 $4 $5 $6 $7 $8 $9 $0 $1 $2 $3 $4 $5 $6 $7 $8 $9 1
.:t
Estimate of mean Estimate of mean i
(Sample size = 3) (Sample s;ze = 4) ~-
'
f
Trua mean = $4.50 Trua mean ';;;; $4.50
l.
)·
¡
20 C. Samp!es ol 5 •• 20
19
D. Samples ot 6
l'
19
18 ........ 16
?;
~.
\7
\6
········
..........
17
16 ..... '
.!
~
15
14 ..........
..........
15
:~ ......... ¡
1
,\
w
0.-
~ S'i 12
v:. C\1
13
n
...........
.... .......... §' 12
N 11 -·-···
............. ..1
Q~ 10
ji il 9
E!:: 8
············
...... ...........
.................
o!
~"'
"'15
~t:
,
9
10
a
................
...............
z" 7
.....
··············~.
z 7 ··-····•·.....
....................
6
5 ...................
··~·······.
6
S .........
....·-·-····-·
-·~~··""·
.........._........
4
....... ····~·······
4
····~-··-··· ..···
3
2
~
····················
............................
.........................
3
1
2
.........................
$0 $1 $2 $3 $4 $5 $6 $7 $6 $9 $0 $1 $2 $3 $4 $5 $6 $7 $8 $9
Estlmate of mean Estimate of mean
(Samp!<) size = 5) (Sample slle = 6)
j
Figura 2.4 Continuación del ejemplo del Teorema central del límite
Fuente: Babbie, E. (1992). The practice of Social Research. Ed. Wadsworth
1 •
29
REPRESENTATIVIDAD DE LAS MUESTRAS
2. 7 Representatividad
En el caso de muestras autoponderadas y con n "grande" los promedios muestrales
se parecen mucho a los poblacionales. Se puede afirmar que esto ocurre porque en
la muestra la distribución de los valores de la(s) variable(s) de estudio también se
parece a la de la población. Se dice entonces que la muestra es representativa de la
población.
Pero la representativídad que interesa en una aplicación dada, es para la(s)
variable(s) importante(s) en el estudio, aunque no se tenga para otras. Por ejemplo,
un grupo de 45 alumnos de la Especialidad de Estadística Aplicada del IIMAS-UNAM,
es posible que pueda ser considerado como una muestra de sujetos entre 23 y 45
años, de clase media, en México y clínicamente sanos, para el estudio del contenido
de hemoglobina en sangre. Sin embargo, si. el estudio pretende evaluar los
conocimientos de Estadística de la población de la UNAM, ciertamente el grupo no es
una muestra representativa, por que fueron seleccionados por su interés y
conocimientos de estadística, cosa que no ocurre en otros programas educativos de
la Institución.
Población
1
<'-.--~-
Extrapolad ón Proporcrón muestra!
l, Proporcrón poblacronal
'----------------------------
Figura 2.5 Representatividad
30
REPRESENTATIVIDAD DE LAS MUESTRAS
31
REPRESENTATIVIDAD DE LAS MUESTRAS
Población
Muestra
(
~e-"
úlcera en el
..
) DefiniCión
.,
de la poblac1on, Pacientes de
.______
', hospital A ~-- úlcera
semejantes a los
del hospital A
V~~,~ Extrapolación
X X
y y
32
REPRESENTATIVIDAD DE LAS MUESTRAS
Población
Muestra
/----- --~
~~
/ Zapatos "Domit"
producidos en Todos los zapatos
Definición d~ la
León, Guanajuato, "Domit" en León y
( Población
. en julio de 1999 otras fábricas
\ ___ _ ..
~muestra "grande"
~utoponderada Extrapolación
33
REPRESENTATIVIDAD DE LAS MUESTRAS
34
REPRESENTATIVIDAD DE LAS MUESTRAS
35
_ _ _ _ _ _ REPRESENTATIVIDAD DE LAS MUESTRAS
cada dato de los estratos de los blancos se expande cuatro veces. Por esto ese valor
44111 =4 se llama factor de expansión. Con esas cuatro copias tiene una población
con 44 hombres blancos (11 valores cada uno cuatro veces), 44 mujeres blancas (11
valores cada uno cuatro veces), seis hombres negros (seis valores distintos) y seis
mujeres negras (seis valores distintos). Se consigue que la distribución de sexo y raza
1•
en la población sea la misma que la de la muestra reconstruida. 1
('
Nótese que en general, para restaurar la representatividad, se reproduce en
la muestra la distribución conocida de algunas variables en la población, esto se
efectúa para cada diseño de muestra de acuerdo a los "factores de expansión" que
son específicos para cada diseño, usualmente se denotan por w;.
Para este diseño hay un teorema básico de Horvitz-Thompson para usar
factores de expansión, que se utiliza con cualquier diseño de muestreo conociendo la
probabilidad de inclusión de primer orden de cada elemento, que es la probabilidad
de que el elemento i-ésimo de la población esté en la muestra. También la
probabilidad de inclusión de segundo orden, que es la probabilidad de que ambos, el
elemento i-ésimo y el j-ésimo, estén en la muestra.
Los estimadores de razón y regresión, que se verán más adelante, usan
información adicional que permite conocer el grado de representatividad de la
muestra en relación con la población, a través de una variable auxiliar; la que con
algunos supuestos adicionales, se puede utilizar para restaurar la representatividad o
hacerla mayor.
La idea de ajustar la distribución de la muestra a la de la población conduce a
varias alternativas, ya sea en el diseño o en el análisis de la información. En el diseño
con las llamadas "cuotas" y en el análisis con los ajustes, basándose en valores
conocidos en la población. Los estimadores de razón y regresión son un ejemplo de
esto último.
36
REPRESENTATIVIDAD DE LAS MUESTRAS
2.9 Postajustes
Otra forma de mejorar la representatividad de la muestra es ajustar los factores de
expansión por la distribución conocida de variables en la población. Esto se verá en el
capitulo once.
37
CONCEPTOS GENERALES Y NOTACIÓN
•. to~··YY
sz = __!!__ (}'2 = -"'"='-·1--_ _
1 Y N-\ Y N-1
En ocasiones el total de la población es de interés: y= f)í = NY, también
39
CONCEPTOS GENERALES Y NOTACIÓN
es insesgado con esta forma de seleccionar la muestra (E( E!)= e). En realidad es la
estrategia la que produce estimadores insesgados. El criterio fundamental para
determinar cuál estimador es mejor entre varios posibles es que para un tamaño de
muestra fijo, el mejor estimador es el que tiene menor variabilidad alrededor de su
medía (o sea el parámetro, si el estimador es insesgado). La medida de variabilidad
es la varianza del estimador.
V(rJ)"" E[ O- E(é)f.
Si el estimador no es insesgado es conveniente tomar como medida de
variabilidad el error cuadrático medio (ECM).
ECM(O) = E(é -e) 2
=:? ECM(B)"" V(B)+[E(B)-Bf
donde E(fJ)- O= B(i)) =sesgo.
Una vez seleccionado un "buen" estimador, el tamaño de muestra n se
determina con base en el grado de precisión deseada. Esta precisión es el grado de
variabilidad que presenta el estimador alrededor del parámetro al tomar muchas
muestras de tamaño n. Así, si el parámetro e de interés es y y el estimador ce= Y)
es y, esta precisión se expresa por un número 8 tal que tenemos tres expresiones
equivalentes:
P( ie-ei <6)=1-a
P( lr-rl <6)=1-a
P[ly-YI<d=l-a (3.1)
o
A se le conoce como error absoluto.
Entonces:
40
CONCEPTOS GENERALES Y NOTACIÓN
s la estimador sea pequefia, menor o igual que un valor dado, asegurando así, el grado
de variabilidad que presenta el estimador alrededor de su media (el parámetro si el
1ara estimador es insesgado). Una presentación alternativa del error de estimación es:
, de
'su
:jad p lé ~e¡ t/ =1 ~a donde fj' = ~e
B <
41
r
''~,
Triangular simétrica hh 24
¡
'
r
1l
'
1
hls l'
i
'¡,
'
Elipse hh16
Normal hh36
00 00
E(X)= J4(x)dx
-()()
E( X 2
) = Jx f(x)dx
-oo
2
42