Está en la página 1de 45

CONCEPTOS BÁSICOS

DE MUESTREO

IGNACIO MÉNDEZ RAMÍREZ,


GUILLERMINA ESLAVA GÓMEZ Y
PATRICIA ROMERO MARES

Volumen 12, No. 27, mayo de 2004

· .• ~ ''7''~'"'':·'." .•''"•'ce":''"~.··. 7''. '.,· !],~"~;:"'<'Yj


">·::· ,;; ·. ·,.' ··.,, .:" .. ':;·~ ·.:, . . ·.}.:,...·,' . . (:.:_..:·.::····¡
·:.1

.•.e i'J,, ~.cc.c... .>c:.cc.i:c~ ··'··'""''.:.C · · • · :. · · · ':;j


1
1
SERIE MONOGRAFÍAS ¡'
i"
1

'
·'

,,'
d:

,,,.

t
\'
1
1
f

¡ ~J

1
\
¡,,.
CONCEPTOS BÁSICOS DE MUESTREO ¡
1
¡
l','

'
1 '
i
¡
l,
' !
IGNACIO MÉNDEZ RAMIREZ, GUILLERMINA ESLAVA GÓMEZ
Y PATRICIA ROMERO MARES r 1
l.
1
1
1

',

UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO


INSTITUTO DE INVES11GACIONES EN MATEMÁ11CAS APLICADAS Y EN SISTEMAS
Serie Monografias

Los trabajos publicados en esta serie son estudios específicos de las


distintas disciplinas que se cultivan en el liMAS. Incluye, también, material
desarrollado para impartir algunas cátedras, que tenga la intención de
convertirse en libro de texto.

Responsable de la edición: Lic. Maria Ochoa


Apoyo editorial: Sara Garduño Antonio
Primera edición: mayo de 2004
Instituto de Investigaciones en Matemáticas Aplicadas y en Sistemas, UNAM
Circuito Escolar, Ciudad Universitaria
Serie Monografías. Volumen 12, No. 27, mayo de 2004
ISBN Obra Completa: 968-36-2035-3
ISBN: 970-32-1718-4

Impreso y hecho en México

. . ,, '
.·.~L,';'"'-"--·-..-w--"" ....__""'"":..,.._~~'"
IN DICE

ntrod ucción
1
1
1. Panorama del muestreo 5
1.1 Marco de muestreo 6
1.2 Formas de tomar muestras 10
1.3 Teorema central del límite 12
1.4 Estrategias de muestreo y propiedades dístribucionales 15
1.5 Diseños de muestra 17

2. Representativídad de las muestras 21

2.1 Extrapolación 21
2.2 Poblaciones y muestras 22
2.3 Aleatoriedad e indeterminismo 23
2.4 Probabilidad 24
2.4.1 Primera ley de los grandes números 24
2.4.2 Segunda ley de los grandes números 25
2.5 Teorema central de límite 26
2.6 Extrapolación de muestra a población 30
2. 7 Representatividad 30 ~--

2. 7.1 Dificultades para tomar muestras grandes autoponderadas ·,


y eficiencia 31 '
2.7.2 Procesos o poblaciones infinitas 31
2.7.3 Muestras no autoponderadas de poblaciones finitas 34
2.8 Muestreo por cuotas 36
2.8.1 Combinar muestreo probabilístico con cuotas 37
2. 9 Postajustes
2.1 O Comentario final sobre el concepto de representatividad
37
37
i
1

3. Conceptos generales y notación 39 [


f.
4. Muestreo aleatorio simple sin reemplazo (mas) 43 ¡
4.1 Introducción 43
4.2 Tamaño de muestra 45
4.2.1 Desigualdad de Tchebycheff 47
4.3 Estimación de proporciones 48

5. Muestreo estratificado 51
5.1 Proporciones 56
5.2 Distribución (afijación) de la muestra a los estratos 57
5.2. 1 Distribución proporcional 57
5.2.2 Distribución óptima 58
5.3 Tamaño de muestra total 59
5.3. 1 Con distribución óptima 59
5.3.2 Con distribución proporcional 60

6. Muestreo por conglomerados o muestreo polietápico 63

7. Estimadores de razón (bajo mas) 71

7.1 Estimadores de diferencia 79

8. Estimadores de regresión (con selección de la muestra por mas) 81

9. Muestreo sistemático (con arranque aleatorio) 85

10. Muestreo con probabilidades proporcionales al tamaño


con reemplazo (ppt) 93

11. Muestreo con probabilidades de selección arbitrarias y sin reemplazo 99

11.1 Evaluación de las probabilidades de selección con ppt sin reemplazo 101
11.1 1 Caso con n=2 101
11.1.2Casoconn=3 102
11 .2 Ajuste de factores de expansión 104
11 .3 Ajustes en muestras de poblaciones infinitas o procesos 107

12. Muestreo doble 109

12.1 Caso 1 109


12.1. 1 Muestreo doble para estratificación 11 O
12.1 .2 Muestreo doble para estimadores de razón 111
12.1 .3 Muestreo doble con muestreo ppt de la segunda muestra 112
12.2 Caso 11 113

13. Respuesta aleatorizada 115

14. Estimación del número total de miembros en poblaciones de animales 117

Apéndice de fórmulas 119

Bibliografía 129

. JUQ!Ui
INTRODUCCIÓN

Introducción
La idea de este escrito es presentar de manera intuitiva, sin demostraciones,
los aspectos que se deben tomar en cuenta al realizar encuestas (con base
en cuestionarios) o muestreos (efectuando mediciones directas). Se hace
poco énfasis en las consideraciones técnicas que llevan a las expresiones
para varianzas de estimadores o pruebas de insesgamiento. Se citarán las
expresiones para varianzas sin demostración, esas y otras demostraciones se
pueden encontrar en los textos como el de Raj (1968); Sukhatme et al.
(1984); Kish (1965) y Cochran (1977). Se discute con más detalle las
expresiones ligadas a la determinación del tamaño de muestra.
En el capítulo uno se da una visión general de lo que es un marco de
muestreo, y los diferentes tipos de diseños de muestra, así como del
concepto de muestra representativa.
En el capítulo dos se discute el concepto de la representatividad de las
muestras, que es básico en la estadística en general ya que fundamenta las
inferencias. Se comenta la necesidad de muestras no representativas y sus
correcciones analíticas para hacerlas representativas.
En el capítulo tres se dan los conceptos de las muestras
probabilísticas; con la estrategia de muestreo que consiste en la forma de
tomar la muestra y de obtener un estimador del parámetro. Cada estrategia
'
se evalúa por los posibles valores del estimador, en particular su esperanza,
,',j

varianza o error cuadrático medio.


En el capítulo cuatro se trata la estrategia de muestras con iguales
probabilidades de selección para todas las unidades, sin reemplazo y
estimadores simples, promedio muestra! como estimador del promedio
poblacional; la forma de las varianzas y sus estimadores. Se plantean los
intervalos de confianza y la obtención de los tamaños de muestra para una
cierta precisión.
En el capítulo cinco se discute el muestreo estratificado, primero su
conceptualización general y después el caso de muestras aleatorias simples
(mas) en cada uno de los estratos. Se construyen estimadores del promedio y
del total con sus varianzas y estimadores de ellas. Se discuten las formas de
distribuir la muestra a los estratos, proporcional y óptima. Finalmente, se
indican varias expresiones para tamaño de muestra total, dependiendo de si
se fija un error de estimación, o los costos y la forma de distribuir la muestra.
En el capítulo seis se presenta la idea y necesidad de muestreos
polietápicos, se ejemplifica con un muestreo de dos etapas con mas en cada
una de ellas. Nuevamente se plantean estimadores, varianzas, estimadores
de varianzas y tamaño de muestra.

1
INTRODUCCIÓN

En e\ capi\u\o siete se expone \a estrategia de tomar )a


aleatoria simple para construir estimadores usando la información auxiliar
una variable X, que tenga buena proporcionalidad con la variable de interés
Se analiza el sesgo y la forma de acotar su valor para que afecte muy
los intervalos de confianza. Se presentan los estimadores, varianzas
errores cuadráticos medios), estimadores de éstos y tamaño de muestra.
En el capítulo ocho se usa la información auxiliar para estimar
modelo de regresión lineal y con él, estimar promedios y totales con
varíanzas, estímadores y tamaños de muestra.
En el capitulo nueve se explica cómo implantar una selección de la
muestra en forma sistemática y sus posibles ventajas y desventajas.
En el capítulo diez, se plantea una forma distinta de utilizar
información auxiliar que es utilizarla para tomar la muestra con probabilidades
de selección proporcionales a esa variable, llamada "tamaño" y con
reemplazo. De nuevo se obtienen estimadores, varianzas y tamaño de
muestra. Se discute la ventaja potencial del procedimiento.
En el capítulo once se expone el método general de probabilidades
arbitrarias de selección sin reemplazo. Para ello se requieren las
probabilidades de inclusión de primer y segundo orden, que son
respectivamente las probabilidades de que un elemento esté en muestra y de
que dos elementos estén en muestra. Los valores del inverso de la
probabilidad de inclusión de primer orden son los factores de expansión. Se
muestran las expresiones de Horvitz-Thompson. El uso general es limitado
por las dificultades para obtener las probabilidades de inclusión de segundo
orden. Sin embargo, las otras estrategias consideradas antes son casos
particulares de ésta con probabilidades arbitrarias. En este capítulo se
presenta un método como ejemplo para mejorar la representatividad de la
muestra, con base en información de las proporciones poblacionales en una o
más variables categóricas (por ejemplo, edad y sexo). Esto se logra al ajustar
los factores de expansión.
En el capítulo doce se usa la idea de tomar una muestra inicial grande
y medir una variable cuya medición sea barata y luego tomar una segunda
muestra mucho menor en tamaño que la primera. para medir la variable de
interés, que es más cara. La estrategia de la segunda muestra se construye
utilizando de varias maneras la información de la primera muestra.
En el capítulo trece se presenta el uso del método de respuesta
aleatorizada, como un artificio para estimar proporciones de cierta respuesta
a preguntas sensitivas, sin preguntarlas directamente.
Finalmente, en el capítulo catorce se da una breve introducción al
método de captura-recaptura para estimar el tamaño de poblaciones.

2
INTRODUCCIÓN

Los autores agradecen el apoyo editorial realizado por la Lic. Maria


Ochoa y Sara Garduño, de la Unidad de Publicaciones y Difusión de este
Instituto, asimismo, a la Sra. Ma. Esperanza Vázquez y a la Srita. Élida
Estrada por su apoyo secretaria!.

i
'
1
'<

l
i
f
¡ 1

! 1

¡
1
í

' f
1

¡ << .::;.
1
l1 .'\'

1
1
l
l
¡

r
¡
í'

l
1

f
/
¡
i
!

3
PANORAMA DEL MUESTREO

1. Panorama del muestreo


Las técnicas del muestreo se utilizan, frecuentemente, cuando se quiere conocer
cuáles son las características generales de una población.
El muestreo se utiliza, por ejemplo, para conocer la prevalencia de la
drogadicción en una ciudad o país, para conocer cuáles son los ingresos medios de
las personas que trabajan, los niveles de escolaridad en los habitantes de una ciudad
o país, la capacidad de compra de un producto nuevo, la opinión sobre aspectos
políticos y algunos otros aspectos demográficos y sociales.
En las ciencias biológicas es frecuente que se requiera conocer la cantidad
de ejemplares de alguna especie que se encuentra en una asociación vegetal; el
contenido de una sustancia en las hojas de un árbol; la proporción de semillas
enfermas en un lote; la cantidad de impurezas presentes en un furgón de ferrocarril
cargado de trigo.
En la industria es muy usado el control de calidad, el cual se basa en el
muestreo de los lotes de producción para determinar si se cumple con las
especificaciones requeridas en el proceso.
Las encuestas por muestreo son un tipo de investigaciones que tienen como
propósito conocer ~lgo respecto a una determinada población humana, estudiando
sólo una parte de ésta. También se le denomina Demoscopfa, es decir, la disciplina o
grupo de ellas que pretende conocer algún aspecto de una población o conjunto de
seres humanos. Para esto se requiere un trabajo interdisciplinario entre: demógrafos,
economistas, sociólogos, administradores, psicólogos, estadísticos, etcétera.
Las formas de obtener información en la Demoscopia son a través de censos,
registros administrativos y encuestas por muestreo.
En toda actividad humana, y sobre todo en los estudios que usan muestras,
se requiere el enfoque cientifico, éste consiste, básicamente, en usar los
conocimientos previos que se tienen sobre el problema y diseñar una meto'dología de
investigación que minimice la ocurrencia y magnitud de los errores.
Se puede hacer una analogía entre ciencia y calidad total (el movimiento
mundial para mejorar la calidad de productos y servicios).

Analoaía de Ciencia con Calidad Total


¡
PRODUCTO DE LA CIENCIA PRODUCTO DE LA CALIDAD TOTAL
1
f
Conocimiento del mundo El bien o servicio tiene calidad
1

1
r CIENCIA CALIDAD TOTAL
Esfuerzo, comprometido, decidido y Esfuerzo, comprometido, decidido y
detallado, para evitar errores, en la detallado, para evitar que el producto
adquisición del conocimiento esté fuera de norma

5
PANORAMA DEL MUESTREO

En una encuesta por muestreo se debe hacer un trabajo conceptual que


determine entre otras cosas:

1. ¿Qué se quiere conocer?


Por ejemplo: niveles de desempleo, estado de salud de la población, calidad y
demanda de servicios de educación. La opinión sobre aspectos o programas
políticos. La capacidad de compra de un producto por parte de un sector de la
población, entre otras.

2. ¿Cuál es la población?
Eso que se quiere conocer se refiere a una población o conjunto de
elementos o unidades de muestreo con cierta ubicación en tiempo y espacio.
Por ejemplo, habitantes del Distrito Federal, empresas de la construcción,
escuelas públicas, etcétera.
La población se define al especificar qué elementos son y qué características
deben tener éstos. Por ejemplo, personas mayores de 18 af\os que residen
(por más de seis meses) en el Distrito Federal; escuelas primarias que
dependen del sector público, ubicadas en el estado de Sonora; empresas de
la industria alimenticia, registradas ante la Secretaria de Comercio, que están
al corriente en el pago de impuestos y se ubican en el Estado de México.
Los elementos o unidades de muestreo pueden ser entidades como: familias,
personas, fábricas, comercios, escuelas, etcétera. Para su estudio se consideran
varios aspectos: tiempo de residencia, edad, actividad, tamaf\o de empresas, entre
otras.
Para el estudio se debe determinar, primero, el proceso de captación de la
información asociada a cada elemento, esto es, la forma de aplicación y el tipo de
instrumentos de medición a utilizar. Entre los instrumentos se encuentran: la
observación directa, los cuestionarios, las entrevistas directas o telefónicas, entre
otros. Conocer y aplicar correctamente los instrumentos de investigación permitirá
evitar errores en el proceso de captación de información.

1.1 Marco de muestreo


La población debe contar con un medio físico que identifique directa o indirectamente
a todos los elementos de la población. Ese medio físico se llama marco de
muestreo. Puede ser un directorio, un archivo, un mapa, etcétera. Así, el marco es el
medio físico que identifica a todos los elementos de la población. Se pueden tener
varias situaciones según el tipo de marco y población. Éstas se especifican en las
figuras siguientes.
Si el marco y la población coinciden, no hay problemas en el proceso, es un
marco utilizable (Figura 1.1 ).

6
PANORAMA DEL MUESTREO

(~

Población
_/
1
·~~---
"" 1

Marco

Figura 1.1 Marco y población coinciden


¡
l
1
En caso de que el marco incluya otros elementos no considerados en la
población, aún se puede usar el marco de muestreo para seleccionar la muestra, pero
se desechan aquellos elementos que no se consideran miembros de la población t
(Figura 1.2). Un ejemplo es cuando la población son empresas con más de 100 l
empleados y el marco es un directorio telefónico de empresas. Si se toman números
telefónicos al azar, se filtra la información a modo de entrevistar sólo aquellas que
reportan más de 100 empleados.

Población

l
!

ii
Figura 1.2 El marco incluye otros elementos adicionales
1

7 '
PANORAMA DEL MUESTREO

Si el marco no cubre a todos los elementos (Figura 1.3), no se puede usar


para el muestreo. Entonces existen dos opciones. La primera es redefinir la población
de manera que coincida con el marco. Por ejemplo, casas habitación del Distrito
Federal en 2003, si el marco es un plano (por ejemplo: Guía Roji) de tres alias antes,
habrá nuevas urbanizaciones no reportadas en éste. Si se redefine la población a
casas habitación que existían en la fecha de elaboración del plano, éste se puede
usar como marco de muestreo. La segunda opción es complementar el marco, con
otros marcos. En el ejemplo anterior sería tomar fotografías aéreas de las zonas
nuevas e identificar manzanas, que es el caso de la Figura 1.4.

Población
/

Marco

Figura 1.3 El marco no cubre a todos los elementos

8
PANORAMA DEL MUESTREO

/.~-----------------------._

Población
t
/<-~~-~

[
Í:
l
¡
¡
Figura 1.4 Marcos complementarios

Los marcos son complementarios cuando su unión cubre a toda la población.


En este caso se obliga a usar muestreo con estratos, donde como número minimo de
estratos es el de Jos marcos de muestreo. Por ejemplo, en una muestra de predios
agrícolas en Sinaloa, se tienen predios listados en los distritos de riego y otros que se
localizan con fotografías aéreas fuera de los distritos.
En el caso de la Figura 1.5, en el que los diferentes marcos se traslapan, para f:
tomar la muestra deben identificarse las unidades que están en los dos marcos y i
asignarlos sólo a uno de ellos. Por ejemplo, para seleccionar hogares se puede usar t
un marco telefónico y uno geográfico (AGEBS, manzanas, hogar). Se toma una
muestra de hogares a través de teléfono y se complementa con muestra de hogares
seleccionados a partir del marco geográfico, pero los hogares con teléfono son
eliminados de la segunda muestra.

9
PANORAMA DEL MUESTREO

Población

Marcos
\'·----------~~--~~~--~~~~~----------_/
Figura 1.5 Marcos "traslapados"

1.2 Formas de tomar muestras


Las formas de tomar muestras de una población son:

1. A juicio, cuando se usa la experiencia subjetiva del muestrista.


2. Por cuotas, cuando se pide que la muestra cumpla con las proporciones
conocidas de ciertas variables en la población. Lo común es sexo y edad.
3. Probabilístico, se toman los elementos con probabilidades conocidas y
mayores a cero para todos y cada uno de los elementos de la población. Si
son probabilidades de selección iguales se llama muestra autoponderada, y
si es de tamaño "grande", la muestra resultará, con elevada probabilidad,
1
representativa • Si no se toma con probabilidades iguales, se hacen ajustes
en la forma de estimar promedios o proporciones para recobrar la
representatividad.
4. Combinación de probabílístico con cuotas.
5. Probabilístico con ajustes, que podriamos llamar "cuotas a posterion", un
caso elemental es el de estimadores de Razón.

1
Se discute más adelante este concepto.
10
PANORAMA DEL MUESTREO

Un ejemplo sencillo de esos ajustes es el de considerar una población


constituida por tres subconjuntos (estratos), con N¡= 10, Nz =50 y NJ = 100
elementos cada uno. Si se seleccionan muestras de tamaño 10 de cada subconjunto,
se registra el 100% de los elementos del primer estrato, 20% del segundo y 1 O% del
tercero.

Población

N1 - 10

1
1 N= N,+ N2 + N3 es la población total
r
1 Muestra
t .
10 = 10 n3 = 10 t

!
n 1 "' n2
l
!
1 f
n = n 1 + n2 + n3 es la muestra total
!
El promedio poblacional de una medición es: !
!
160 N 1
N 1+N2 N 1+N2 +N3 1

D~ l:Y;+ L Y¡ 2: r; - -
N 1Y1 +N2Y2 +N3Y3
- j
Y=-~-
i=l i=N +1 1 i=N1+N2 +1
!
160 160 N 1
1
!

Y es un promedio ponderado de los promedios de los tres estratos, que son


rp~,~·
Con la muestra se estiman los promedios de cada estrato y se ponderan de
igual modo que para el promedio de la población.

n¡ n2 n,
I:r; ¿r; ¿r;
A A •
N¡ N2 N 3 .1=L_
y= N¡?¡+ N2Yz + N3f:¡ ll¡
+
¡¡2
+
n3
N N N N

11
PANORAMA DEL MUESTREO

10 Illy 50 !Oy 100 !Oy


10 ¿: ¡ 10 E ¡ 10 L: ¡ i-1
= 160 + 160 + 160 N
Para estimar el total, cada elemento de la muestra se multiplica por su factor
de expansión, w;; los elementos del primer estrato se multiplican por 1, los del
segundo por 5, y los del tercero por 10. Si se quiere el promedio, además se divide
entre N=160.

1.3 Teorema central del límite


Un teorema fundamental en estadística es el Teorema central del límite. De manera
laxa, dice que los promedios de muchas muestras probabilfsticas de una población
tienden, al aumentar el tamaño de muestra n, a tener distribución normal, a pesar de
que la variable que se mide no tenga distribución normal en la población; se
ejemplifica en la Figura 1.6. Una definición más formal de este teorema se encuentra
en la sección 2.5 de este texto.

Distribución de los.
1}
Muchas muestras muchos valores de los
aleatorias de tamaño n promedios muestrales
n
O - .Y Muchos Error
n -
..--""' 0-Y valores estándar
(
/ Población
')
\ ....._____
'
f.l. __ / ~·
1 0-"Y dey
diferentes
• O"y

0-Y
Figura 1.6 Teorema central del límite

Para que se alcance una distribución parecida a la normal en el conjunto de


posibles promedios muestrales se requiere que n sea grande. Sin embargo, la rapidez
de acercamiento a la normal (velocidad de convergencia) también depende de la
forma de la distribución de la variable en la población. En la Figura 1.7 se consignan
tamaños mínimos de muestra para una "buena" cercanía a la normal, según la forma
de la distribución poblacional. Esto se ha establecido empíricamente en estudios de
simulación.

12
PANORAMA DEL MUESTREO

Tamaño de n aproximado para la normalidad


según la distribución parental (poblacional)

Uniforme

Asimétrica
fuerte
Lo_,,o Y;

Asimétrica
moderada L,o Caso
dicotómico

~y,
.-. n<::5 ,_: brr_~,~¡,, 1'
¡

r
O 1 Y;
1
Figura 1.7 Tamaño de muestra
f
1
~'
En general, en el trabajo de muestreo, en la población se tendrán parámetros l.
B, que al tomar muchas posibles muestras con un diseño de muestra específico y una
A

forma dada de estimador, produce muchos valores de B. El Teorema central del


límite opera con muestras grandes, ver Figura 1.8.

13
PANORAMA DEL MUESTREO

a/2
e
(

Figura 1.8 Distribución muestra!

Donde E (6) ~e es la media aritmética de todos los posibles valores de iJ y

V (e) = E [iJ -e r
es la varianza obtenida con todos los posibles valores de iJ .

De aquí:

(2.1)

lo que equivale al intervalo de confianza:

(2.2)

Las expresiones anteriores se pueden representar sucintamente como:

(2.3)

14
PANORAMA DEL MUESTREO
l
'1
j
,1

1
1

oentre (} y ees
!

Es decir, la probabilidad de una discrepancia de cuando más


1-a. A 8 se le conoce como "precisión" del muestreo o error de estimación; y a 1-a
como "confianza". Si a es 0.05 se puede demostrar que 6 1.96~v(é).
En esta expresión, V(Ó) es función del tamaño de muestra n, y otros
parámetros. De la expresión se despeja el tamaño de muestra que produce una
o
precisión de con una confianza de 95%.

1.4 Estrategias de muestreo y propiedades distribucionales


; '
' 1
Se habla de las propiedades distribucionales de (). Es decir, al realizar el muestreo y
~
obtener e'
(este valor es uno de los muchos que podrían haber ocurrido), se ¡
considera la realización de una variable aleatoria que queda determinada por el
1
diseño de la muestra y la forma de construir el estimador. El diseño de la muestra es 11
la forma en que se toman los elementos de ésta y su tamaño; y la forma de construir
el estimador es la función de los datos de la muestra que lo determinan. A ambos, f
diseño y forma del estimador, se le llama estrategia de muestreo. La Figura 1.9
representa de una manera gráfica lo expuesto anteriormente.
f
t
!
¡
Diseño de la muestra 1
r'

("'~:'"')-~(/
1
'
1
!
¡
<'{~:_Y,, ... y•· .
(
1

-~ y, (.
f.

\ ~¡
\Y.

1
B
lt
e(y, y,, ... y,) Estimador como función de los datos
¡
i
~--------- 1
i

Figura 1.9 Diseño de muestra y estimador t

15
PANORAMA DEL MUESTREO

Para cada estrategia de muestreo, que comprende el diseno y el estimador,


se determinan las propiedades de la distribución de las e' posibles. Usualmente
importa que sea insesgado E( 8)- e, o bien sesgado pero consistente

n~~ {j =B. Esto se da en todas las estrategias que se usan en la práctica.


Además, se tiene el Teorema central del límite, de modo que si n es "grande", la
distribución de los
'
e
tiende o se acerca a una distribución normal con media e y

varianza dada por V (i}). A Jv (o) se le conoce como error estándar del estimador.

Entonces el intervalo del 95% de confianza e está dado


para por
P(e-l.96~v(e) s:es:e+L96~v(e))=o.9s ó P(e-ó:;ed+D)=o.9s.
El intervalo de confianza se usa en la etapa de planeación de la encuesta y
también al presentar resultados finales. En la etapa de planeación se usa al fijar el
o
valor de que es el máximo error absoluto de muestreo con confianza del 95% que
se quiere tener. Este valor lo determina el usuario del proceso, en función de la
e y el verdadero
A

gravedad del alejamiento posible entre el valor único que se tendrá


valor desconocido e. Entonces de la expresión 0 = 1.96 ~v(e) se despeja el tamaño

de muestra que está implfcito en V(B). Con frecuencia V(e) es función del tamaño
de muestra y de otros parámetros desconocidos. Entonces hay que suponer con base
en experiencias previas que se conocen esos parámetros. En caso de no tener esas
experiencias se lleva a cabo un muestreo, llamado "muestra piloto", con el objetivo de
estimar dichos parámetros. Con esos valores en la expresión 15 = 1.96 ~v(e), se
obtienen.
En la etapa de presentación de resultados de la investigación por muestreo,
se debe estimar V(é) es decir, obtener V(é) el estimador de la varianza del
estimador; con este valor se obtiene un intervalo de confianza aproximado del 95%
para el parámetro, el cual es la manera correcta de presentar los resultados del
proceso. Se diría, e está en el intervalo (e- 1. 96~V (e) ,e+ 1.96~V (e)) con un 95%
de confianza.
El proceso de planeación de tamaño de muestra se puede hacer también
basándose en el llamado "efecto de diseño" (ver Kish, 1965), que se define como:

DEFF = VoCB)'
T~id ( B)

16
PANORAMA DEL MUESTREO

donde VD (O) es la varianza del estimador según la estrategia (diseño, estimador)


elegida y ViiAÓ) es la varianza que se obtendría si la muestra del mismo tamaño n, se
toma con probabilidades iguales y con reemplazo. Los DEFF de una encuesta
terminada se pueden aplicar en la planeación de otra encuesta semejante. Se obtiene
el tamaño de muestra de 8 = 1.96)V¡;d({j) sea éste n0 • El tamaf\o definitivo es í
n=no DEFF. !
' 1
1.5 Diseños de muestra 1
l
Como un panorama introductorio y preliminar de los diseños de muestra básicos y
más comunes, se presentan los siguientes esquemas con sus comentarios. 1 1
J

~--~~;;~;~oA~;;~rio Si.,:;~le (mas)


'
1 1
1' 1
t
1l.
! ¡

Población t
N 1
1 ¡

1
1
~
Selección aleatoria de los elementos muestrales con probabilidades de selección en
¡ cualquier extracción iguales y sin reemplazo.
.- ~

1 Muestreo sistemático (uno de cada k), si el orden as aleatorio equivale al mas, si hay un
1
1
orden con cambios suaves, no periódicos en el intervalo de muestreo k=n 1N, entonces
1 es mas eficiente (más "representativo") que el mas.

'-------------------~~- --------------------~
Diseño 1

17
PANORAMA DEL MUESTREO
----------------

¡
( Muestreo con Probabilidad Proporcional
1 al Tamaño (ppt)

¡ (/:;: 8
1 \:_~
i
1
\ '"-.._/
'--_/ -

1
1 Selección con probabilidad P,=X/Xden de los elementos muestrales con reemplazo.

j Si se tiene que hay una buena proporcionalidad entre X, y Y, es decir


l
i
Y,: RX,, entonces los elementos con valores mayores de Y, tienen más probabilidades
1
de estar en muestra,
i
¡ La estimación del total de Yse realiza con el promedio de los nvalores de Z,, donde cada
\.Z,= Y/P,.
Diseño 2

( Muestreo Estratificado
/0---~" Población:
/ N=N,+N 2+N,
/
( N1
\ ,/'// Muestra:
i. \' \
n=n,+n,+n,
! ,,"
1

\
¡
'

------- /

Selección aleatoria, sistemática o con probabilidades proporcionales de los elementos


i muestrales en cada estrato, por separado, es decir, la selección es independiente de un
j estrato a otro.
1
! Los tamaños de muestran. pueden ser proporcionales al tamaño de los estratos, o a las
~desviaciones estándar o inversamente a los costos en cada estrato.

Diseño 3

18
PANORAMA DEL MUESTREO

( Muestreo Bietápico
~ Población:
1

i ® Ms
N Unidades Primarias da Muestreo (UPM)
con M, unidades últimas de muestreo (USM)
cada una.
Muestra de n UPMy
~ m, unidades últimas
~cada una.
\:

~'
l.
'
,%
¡'
Selección aleatoria o sistemática de ,.
;~·

;
UPM con probabilidades de selección
iguales oproporcionales al tamaño.
.r
;•)

1 Selección de m, unidades últimas sólo


;,•,

1 en las UPM que se tienen en la '·k:


\ primera etapa.
~
Diseí\o 4
ít·
),
w
/ Muestreo Trietápico ~'
!
w y

Población: ¡ '>,
N UPM con M, USM en cada UPM, y con Bq ~·
unidades últimas (UUM) en cada USMq.

Selección aleatoria, siste · tica o con


probabilidades de selección pro ·anales al
tamaño de n UPM.
Selección de m, USM sólo en las nque se
tienen en primera etapa; selección de bu
unidades últimas en cada USMq en muestra.

Diseño 5

19
PANORAMA DEL MUESTREO

(
1
Muestreos Complejos. Polietápicos estratificados
¡ Población:
1 ~ N UPM con M, USM en cada UPM, y con Bu UUM en

~~0 ~~~ cada USMII' Las UPM en estratos y/o las USM

~;1\A~ ~r~ ro
1 estratificadas dentm de cada UPM,.
1
~"'¡;; ~ U~\ Muestra:

(~\~~
1
n UPM y m, USM en cada UPM y
con bu UUM en cada USM,
1 b,,
'·~ ~itJ
a~temática
1

1 Selección o con probabilidades


! de selección iguales o proporcionales al tamaño de nh
1 UPM en cada estrato.
1 .
l Selección de m, USM sólo en las nh que se tienen en
1 primera etapa. Selección de b unidades últimas en
11 b32
' cada USM11 en muestra (puede ser de cada estrato de
USM dentro de sólo algunas UPM).
Diseño 6

20
REPRESENTATIVIDAD DE LAS MUESTRAS

2. Representatividad de las muestras


El concepto de una muestra representativa se explica en forma gráfica en la Figura
2.1.

REPRESENTATIVIDAD

~
X1

Muestra
~ Eldrnpoloción
o L
Población

X2
'>'
r

~
(lnfercnem)

Distribuciones Distribuciones
marginales y marginales y

~
conjuntas de conjuntas de
variables variables
IMPORTANTES IMPORTANTES
''·,·--------------:-------,--,---,----__./
Figura 2.1 Concepto de representatividad

2.1 Extrapolación
Un razonamiento innato en los seres humanos, es aplicar a experiencias nuevas las
conclusiones obtenidas en el pasado en otras experiencias semejantes.
Por ejemplo, al ingerir cinco frutos rojos, pequeños, y tener dolor de
estómago, se generaliza a otros frutos de ese tipo o a uno nuevo.

Me coml cinco Este nuevo


pequeños fruto hará que
frutos rojos y Extrapolación me duela el
me dolió el estómago
estómago

¿Es semejante
a los otros?

21
REPRESENTATIVIDAD DE LAS MUESTRAS

Sin embargo, hay dudas: ¿Todos los frutos rojos son indigestos?, ¿Influye el
tamaño del fruto?, ¿El tono de rojo?, ¿La época del afio?, ¿El tipo de árbol o
arbusto?, etcétera. ¿Qué es ser semejante?.
La· ciencia también hace extrapolaciones, ejemplo de ello son las
investigaciones que se llevan a cabo con ciertos elementos (enfermos de amibiasis,
fumadores empedernidos, plantas de maíz, cajas de Petri con un medio para crecer
bacterias, etcétera), cuyas conclusiones se aplican a otros elementos semejantes a
los estudiados.

Elementos
Elementos semejantes
estudiados a los
Extrapolación estudiados

2.2 Poblaciones y muestras


Se puede considerar que lo estudiado o la experiencia previa, es una muestra de
todo un conjunto de otros elementos o nuevas experiencias semejantes a los
estudiados. Este conjunto no estudiado es la población.

Población
Extrapolación

Surgen las preguntas ¿La extrapolación es válida?, ¿La extrapolación no se


equivoca?, ¿Cómo hacer que no se equivoque?. La respuesta es sí se puede
equivocar, pero frecuentemente no ocurre esto.
Sí se pueden encontrar leyes deterministas que expresen relaciones
(necesarias y suficientes) entre propiedades de las instancias estudiadas (muestras),
se pueden aplicar los resultados o conclusiones a todas las instancias (población) no
estudiadas aún, que cumplan con las propiedades requeridas. Aquí están muchas
leyes de la naturaleza, principalmente inorgánicas, como la física clásica,

22
REPRESENTATIVIDAD DE LAS MUESTRAS

termodinámica (macroscópica), etcétera. Asf la experiencia (traducida en leyes) con


ciertos planetas, se aplica a otros; con ciertos gases se aplica a otros; con ciertas
moléculas se aplica a otras; etcétera.

2.3 Aleatoriedad e indeterminismo


Hay procesos y fenómenos en los que no se pueden encontrar relaciones entre sus
propiedades, que sean necesarias y suficientes. Hay mucha variabilidad, hay
indeterminismo. Se pueden encontrar ciertas leyes pero son de naturaleza
probabillstica y no deterministica. Estas leyes nos permiten hacer extrapolaciones,
pero nunca son seguras, siempre hay la posibilidad de equivocarse. La estadística i
busca que la probabilidad de equivocarse sea pequetia. .,
Como ejemplo considere el esquema siguiente donde se tienen datos de t
'
desarrollo de enfermedad cardiovascular en 5,000 personas. Aquí hay dos tipos de ]',,
¡.
extrapolación, una es a toda la población de la cual las 5,000 se consideran una
muestra; y la otra es a una persona en el futuro que es considerada un elemento f
! tomado al azar de la población. En la primera inferencia o extrapolación se puede

¡' predecir con poco error cuántas personas, del total de personas en la población,
desarrollarán la enfermedad; en cambio en el caso de una persona no se puede
predecir con poco error, únicamente se le asignan las probabilidades de desarrollar la
enfermedad de la población a que pertenece. En estos razonamientos es crucial la
validez del supuesto que las condiciones de la muestra sean semejantes a las de la
1 población o individuo. ,.
l

! ¡'
¡
'

1
'
f
f
"
'¡,
~
!

23
REPRESENTATIVIDAD DE LAS MUESTRAS

Se estudian 5000 personas Se tiene una población


de 40 años que fuman (20 de un millón de personas
cigarros al día o más) y con que fuman, semejantes a
colesterol elevado. Se los estudiados.
encuentra que 15% de ellas Se espera que alrededor
desarrolla enfermedad extrapolación de 150,000 personas
cardiovascular antes de desarrollen enfermedades
cumplir 50 años. cardiovasculares antes
de los 50 afios.
1 muestra 1
población

extrapolación

Una persona de 40 aMs que fuma, con


colesterol elevado, semejante a los
estudiados, tiene una probabilidad de
0.15 de desarrollar enfermedad
cardiovascular antes de cumplir 50 años.

elemento

2.4 Probabilidad
En Estadistica se usa el concepto de probabilidad derivado del estudio de "grandes
números" de elementos. Cualquier texto de Probabilidad menciona los teoremas
básicos, por ejemplo, se puede consultar Chung (1974).

2.4.1 Primera ley de los grandes números

Sean X¡,X2, ... ,Xn variables aleatorias independientes e idénticamente distribuidas


(vaiid), tales que:
E(XJ=p V(XJ=p(1-p)

n>l.

Se dice que Sn puede tomar valores O, 1, ... ,n y tiene distribución binomial con
media y varianza dados por:

24

- e; , ( '(~
'
.,.¡
-··· --~~:.. ,._·,_:.,.~.--~:.!-:-.~·¡,•<, ·t,,;;·.~ ~--~J
REPRESENTATIVIDAD DE LAS MUESTRAS

E(S,J""np V(Sn) =np(l-p).

Entonces, sea e una constante arbitraria positiva, tal que:

lim"_"" P ·: - p <e]= l. \1 e> O

S
Esto se interpreta considerando que cuando n se hace grande _!!_ se acerca
n
cada vez más a p.

Sn es la frecuencia relativa de valores 1 o también llamada la proporción


n
muestra l.
Se dice que S" = P es consistente, en el sentido de que al tener n
n
'
grande p se acerca cada vez más a p.
Este teorema es el que hace que al tener muestras aleatorias y de tamaño
"grande", las proporciones de cualquier aspecto de la muestra sean cercanas a las
correspondientes proporciones en la población. Además, esto ocurre de manera
simultánea para cada categoría que se considere. Si se tiene una variable numérica,
las proporciones muestrales en ciertos intervalos se acercan a las de la población, es
decir, el histograma muestra! se acerca al histograma poblacional. Cualquier función
de los valores de la variable con sus frecuencias relativas, también tendrá cercanía
entre el valor muestra! y el poblacional.

2.4.2 Segunda ley de los grandes números

Es una generalización de la primera ley de los grandes números a variables


arbitrarias.
Así, sea X¡ i > 1 una secuencia de vaiid con media poblacional E(X1) = J.l y
varianza poblacional V(XJ= a2.
- S
Sea Sn=X1+X2+... +X,, la media muestra! es X=-" , entonces:
n
\fc>O.
De nuevo se dice que la media muestra! es consistente, esto es, que al
incrementarse el tamaño de muestra, la media muestra! se acerca cada vez más a la
media poblacional.

25
REPRESENTATIVIDAD DE LAS MUESTRAS

2.5 Teorema central del límite

Un teorema de suma importancia en la Estadística es el Teorema central del límite.


Para los mismos supuestos que en la Segunda ley de los grandes números, se tiene
que, sean dos números cualquiera a y b, entonces: V a, b a <b

X - /}, 1 Ib -"'' 1
lim P a<--<b = ¡;;;-e 12dx ·
n-oo ()' - v21f
.j;'¡ a

Es decir, X tiende a tener distribución normal (p., CJ 2 1n), o X converge en


distribución a la normal con media Jl , y varianza a 2 1n.

A {;?" = ..!!..._ se le llama "error estándar" de X , y es la desviación estándar


f;;- ../n
de la distribución de los posibles valores de X .
Los teoremas se interpretan seftalando que si la muestra se toma de una
población infinita (o finita con reemplazo), los valores X; son vaiid; entonces al
aumentar la muestra ( n-+ oo) las proporciones (de cualquier resultado) o los
promedios de la muestra tienden a las proporciones o promedios de la población.
Además, las proporciones o promedios tienden a tener distribución normal.

Conteo Rápido IFE


21 de agosto de 1994

30
28
....................................... ~ ........,~·-···~"=""tt'l
26
24
22
20-1--~~~~---r-~---r-~~--~--r-~

20:00 20:30 21 :00 21:30 22:00 22:30 23:00 00:30 3:30


53 78 155 220 272 354 386 443 481
Hora de corte y número de secciones electorales que se tienen

E Porcentaje Conteo ......... ~Porcentaje PREP]

Figura 2.2 Ejemplo del Teorema central del límite


Fuente: Reporte de la empresa Berumen y Asociados al IFE, 1994

26
REPRESENTATIVIDAD DE LAS MUESTRAS

En la Figura 2.2 se tiene de manera acumulada, es decir, recalculando los


porcentajes de votos a favor del PAN en secciones electorales; en las abscisas está
el tamaño de muestra. Con muestras pequeñas los porcentajes oscilan mucho, pero
con muestras más grandes, a partir de 220 más o menos, ya no hay oscilaciones
fuertes y las proporciones son más estables, acercándose al valor en la población de
todas las secciones. Este es un ejemplo de la Ley de los grandes números. Aunque
en este caso las primeras muestras no son aleatorias porque las secciones que se
registran primero son pequeñas, sin problemas de conteo y con buenas vías de
1
comunicación, sin embargo sí se alcanza una estabilización.
En las Figuras 2.3 y 2.4, tomadas de Babbie, E. (1992), se ejemplifica el
Teorema central del límite. Se tiene una población con 10 elementos con valores
0,1,2, ... ,9. Se toman sin reemplazo todas las posibles muestras de tamaños 2,3,4,5 y
6 y se grafican las frecuencias de los promedios de las muestras. Se puede observar
1 la tendencia que al aumentar el tamaño de muestra la distribución de frecuencias de
¡ los promedios se acerca a la normal. Además, los valores de los promedios con
mayor frecuencia están cercanos al valor de la media poblacional 11 = 4.5. Por
ejemplo, valores entre 4 6 5 que se alejan 0.5 del promedio ( 4:::; X:::; 5) ocurren en 13
de 45 (?=0.28) con n=2; en 40 de 120 (P=0.3) con n=3; en 80 de 210 (P=0.38) con
n=4; en 114 de 265 (P=.43) con n=5; y finalmente en 122 de 210 (P=0.58) con n=6.

27
REPRESENTATIVIDAD DE LAS MUESTRAS

202 Chapter8/ Tire Logicof Sampling

Figure 8-4 The Sampling Distribution of Samples of 1

10 Tfue mean "$4.50


j1 9
o.
~¡;¡ 8
~

o..:. 7
~"
.8t9
E-
6
i_ 5
4
3
2

• • • • • • • •
$0 $1 $2 $3 $4 $5 $6 $7 $8 $9
Estimate of mean
(Sample size" 1)

Figure 8-5 Tho Sampling Oistrtbution of Samples of 2

10 True mean ;¡ $4.50

l
9
~~ 8
o~ 1
"$
.8,2 6
§-
z S •
4 • • • • •
3 • • • • • • • • •
2 • • • • • • • • • • • • •

• • • • • • • • • • • • • • • • •
$0 $1 $2 $3 $4 $5 $6 $7 $8 $9

Estimata of mean
Figura 2.3 Ejemplo del Teorema central del limite
Fuente: Babbie, E. (1992). The practíce of Social Research. Ed. Wadsworth

28
r-,'

REPRESENTATIVIDAD DE LAS MUESTRAS

Figure ll-6 The Sampling Dístríbutions


of Samples of 3, 4, 5, and 6

Truo mean= $4.50


20
19
18
B. Samples of 4 l
17
16
15
..........
............
'

A Samples of 3
Trua mean= $4.50 14
...........
••.......
10
9
...
J
... .. ..
...........
...... ,. ..... .
... .. .. . .
.!]
o.- 8 • "' • • • • 11 lt • • • • •

E"'
~"'
7 ...............
w- 6 ...................
-"-
_.," S
2!'5
E t:. 3
4
............. ......... .
• !1' • • • • •

.. .. . ....
4
3
....................
....................
"
;: 2
.".. .. 2
........................... .
.......................
'jt
$0 $1 $2 $3 $4 $5 $6 $7 $8 $9 $0 $1 $2 $3 $4 $5 $6 $7 $8 $9 1
.:t
Estimate of mean Estimate of mean i
(Sample size = 3) (Sample s;ze = 4) ~-
'
f
Trua mean = $4.50 Trua mean ';;;; $4.50
l.

¡
20 C. Samp!es ol 5 •• 20
19
D. Samples ot 6
l'
19
18 ........ 16
?;
~.
\7
\6
········
..........
17
16 ..... '
.!

~
15
14 ..........
..........
15

:~ ......... ¡

1
,\
w
0.-
~ S'i 12
v:. C\1
13

n
...........
.... .......... §' 12
N 11 -·-···
............. ..1
Q~ 10
ji il 9
E!:: 8
············
...... ...........
.................
o!
~"'
"'15
~t:
,
9
10

a
................
...............
z" 7
.....
··············~.
z 7 ··-····•·.....
....................
6
5 ...................
··~·······.
6
S .........
....·-·-····-·
-·~~··""·

.........._........
4
....... ····~·······
4
····~-··-··· ..···
3
2
~
····················
............................
.........................
3

1
2
.........................
$0 $1 $2 $3 $4 $5 $6 $7 $6 $9 $0 $1 $2 $3 $4 $5 $6 $7 $8 $9
Estlmate of mean Estimate of mean
(Samp!<) size = 5) (Sample slle = 6)

j
Figura 2.4 Continuación del ejemplo del Teorema central del límite
Fuente: Babbie, E. (1992). The practice of Social Research. Ed. Wadsworth

1 •

29
REPRESENTATIVIDAD DE LAS MUESTRAS

2.6 Extrapolación de muestra a población


Una solución para el problema de inferir de muestra a población, que se da a partir de
la extrapolación en presencia de aleatoriedad, es tomar una muestra grande donde
cada elemento de la población tiene la misma probabilidad de estar en la muestra
(diseño auto ponderado). En este caso opera la teoría de probabilidad y tendremos la
cons\stencia y normalidad de estimadores de promedios y proporciones. Esto aunque
la población sea finita y la muestra se tome sin reemplazo, sin<< N

2. 7 Representatividad
En el caso de muestras autoponderadas y con n "grande" los promedios muestrales
se parecen mucho a los poblacionales. Se puede afirmar que esto ocurre porque en
la muestra la distribución de los valores de la(s) variable(s) de estudio también se
parece a la de la población. Se dice entonces que la muestra es representativa de la
población.
Pero la representativídad que interesa en una aplicación dada, es para la(s)
variable(s) importante(s) en el estudio, aunque no se tenga para otras. Por ejemplo,
un grupo de 45 alumnos de la Especialidad de Estadística Aplicada del IIMAS-UNAM,
es posible que pueda ser considerado como una muestra de sujetos entre 23 y 45
años, de clase media, en México y clínicamente sanos, para el estudio del contenido
de hemoglobina en sangre. Sin embargo, si. el estudio pretende evaluar los
conocimientos de Estadística de la población de la UNAM, ciertamente el grupo no es
una muestra representativa, por que fueron seleccionados por su interés y
conocimientos de estadística, cosa que no ocurre en otros programas educativos de
la Institución.

Población

Selección aleatoria Muestra


autoponderada, representativa
muestra "grande"

1
<'-.--~-
Extrapolad ón Proporcrón muestra!

l, Proporcrón poblacronal

'----------------------------
Figura 2.5 Representatividad

30
REPRESENTATIVIDAD DE LAS MUESTRAS

Lo que importa es que las variables de interés en la muestra presenten una


distribución semejante a la de la población. Si la muestra es grande y autoponderada
se tendrán elevadas probabilidades de que esto suceda. En este caso la
extrapolación tendrá errores pequeños.

2.7.1 Dificultades para tomar muestras grandes autoponderadas y


eficiencia
Existen razones por las cuales en ocasiones no se toman muestras autoponderadas,
sin ser exhaustivos, tenemos:

1. Se muestrea un proceso, o población infinita.


2. Costos altos de tomar muestras autoponderadas.
3. Varianzas grandes para un costo dado.
4. Falta de disponibilidad de marcos de muestreo.

2.7.2 Procesos o poblaciones infinitas


En muchas investigaciones no se tiene una población finita con ubicación en tiempo y )
espacio. Entonces es imposible tomar la muestra autoponderada (igual probabilidad •·1
·1
·¡
de selección en muestra para todos y cada uno de los elementos de la población). En ·'l
estos casos se usan "muestras disponibles" o un muestreo de un conjunto que a su 1
.,
.··
vez es una "muestra disponible" (submuestreo). Por ejemplo, obsérvese los dos ·~
ejemplos siguientes: ''
A ·l

1. Se desea conocer la efectividad de un tratamiento contra la úlcera péptica. La


población está constituida por todas las personas que padecen úlcera que
hay en el mundo (o en México) y las que puede haber.

31
REPRESENTATIVIDAD DE LAS MUESTRAS

Población
Muestra
(
~e-"
úlcera en el
..
) DefiniCión
.,
de la poblac1on, Pacientes de
.______
', hospital A ~-- úlcera
semejantes a los
del hospital A

V~~,~ Extrapolación

X X

y y

Figura 2.6 Ejemplo de pacientes de úlcera

En este caso la población es infinita e imaginada y se define a partir de la


muestra. Para esto es crucial el tema de estudio. Es necesario preguntarse qué
aspectos de los elementos estudiados (pacientes con úlcera) son importantes porque
modifican el efecto del tratamiento, y se estudia la distribución de esos aspectos en la
muestra, definiendo la población con una distribución semejante en esos aspectos. Si
la edad, el sexo y el nivel socioeconómico influyen en la evolución de la úlcera, la
población será de pacientes con estas variables semejantes a los de la muestra.
Nótese que se requieren conocimientos y experiencia para seleccionar qué
aspectos son importantes y en los que se basa la "semejanza" entre muestra y
población. En ocasiones la muestra disponible contiene muchos elementos y no es
posible ni conveniente estudiarlos a todos; si de ellos se toma una muestra ,
autoponderada y grande, no pierde la representatividad supuesta en la muestra '
disponible, y con la submuestra se podrán efectuar las extrapolaciones.

2. se desea conocer el porcentaje de zapatos "Domit" defectuosos. La población


son todos los zapatos que la fábrica puede producir.

32
REPRESENTATIVIDAD DE LAS MUESTRAS

Población
Muestra
/----- --~
~~
/ Zapatos "Domit"
producidos en Todos los zapatos
Definición d~ la
León, Guanajuato, "Domit" en León y
( Población
. en julio de 1999 otras fábricas

\ ___ _ ..

~muestra "grande"
~utoponderada Extrapolación

Figura 2.7 Ejemplo de zapatos

a Lo que hemos llamado de modo laxo "representatividad", es decir, la


é capacidad de poder extrapolar y concluir basándose en una muestra sobre una
e población, se le ha llamado, en otros campos, validez externa. Con este nombre el
a concepto es ampliamente conocido sobre todo por epidemiólogos e investigadores en ''
)j ciencias sociales. Campbell y Stanley (1991) se plantean la pregunta "¿A qué 'l
a poblaciones, situaciones, variables de tratamiento o variables de medición puede
generalizarse este efecto?".
é La representatividad también se aplica en la elección de los elementos de
y estudio, el agregado de ellos es la población. Cada uno de esos elementos es
S llamado unidad experimental o de observación. Algunos ejemplos son:
·a
'8 1. Un estudio donde en macetas de cierto tamaño se cultivan plantas de trigo
dentro de un invernadero, no sirve para concluir la mejor fórmula de
fertilización para el trigo cultivado en el campo. Las macetas no representan
n ni reproducen las condiciones de campo. La muestra del invernadero no es
representativa de la población de producción en campo, porque algunas
variables que afectan crecimiento y cantidad de granos en el invernadero no
tienen la misma distribución en el campo. No hay validez externa.
2. En experimentos industriales, con diseños elaborados (por ejemplo, diseño
central compuesto o Box-Benkhen) en una planta piloto, se reproducen las
condiciones de operación de la fábrica y se buscan condiciones óptimas de

33
REPRESENTATIVIDAD DE LAS MUESTRAS

operación. Sin embargo, lo que se quiere es que al cliente o usuario le llegue


el producto con la calidad deseada. El estudio en la planta piloto no ¡
representa todo el proceso, le falta considerar los problemas de escalamiento,
almacenaje y transportación. Esto lo señaló Taguchi, ver Montgomery (1996}.
3. En estudios de Ecologfa, en pastizales, lagos, bosques, etcétera, se plantea
la necesidad de representatividad en forma más aguda. Así, por ejemplo, no
se puede concluir sobre la dinámica del manejo de un bosque si se estudian
2
áreas de 2 ó 3 km . Esto porque en esas áreas, la dinámica de la fauna y su
relación con el bosque queda distorsionada, algunos animales requieren
áreas mayores para su "territorio". Carpenter (1998} señala "Ecologica/ criteria
for choosing experimental sea/es include the need to encompass or mimic the
context of the processes under study", es decir, la necesidad de validez
externa o representatividad.

2.7.3 Muestras no autoponderadas de poblaciones finitas


Cuando por costos, marcos de muestreo, "no-respuesta" o para minimizar varianzas,
se usan muestras no autoponderadas de poblaciones finitas, se sabe que los
promedios o proporciones muestrales no están cerca (no convergen} a los
pobiacionales. Esto ocurre porque la muestra no es representativa de la población.
Sin embargo, para obtener estimadores de promedios (o algunas otras
características) poblacionales, se hacen ajustes en el cálculo a través de los llamados
"factores de expansión" que son el inverso de las probabilidades de selección de las
unidades muestrales. Esto equivale a restaurar la representatividad de la muestra
en forma analítica.

34
REPRESENTATIVIDAD DE LAS MUESTRAS

Je Figure &-13 Sarnpling Dlsproportionately and Welghtlng


10
O, 44 white women 6 black men 6 black women
). ¡
¡/
!a
r
t'
10
m
;u
m
ia
¡
•e J
p
:z
t
1
.
'1

'•
S
S
l.
:}
S ,,'
S
3 l
3 ¡
¡
!r
f'
¡ Final data set - 44 whlte men 44 white women 6 black men 6 biack women

~· Figura 2.8 Ejemplo de uso de factores de expansión


Fuente: Babbie, E. (1992). The practice of Social Research. Ed. Wadsworth.
f
r'
' Babbie (1992) presenta la idea de restaurar la representatividad de manera
muy clara, aunque no le da ese nombre. Tiene una población de 100 personas,
dividida en cuatro estratos: 44 hombres blancos, 44 mujeres blancas, seis hombres
t negros y seis mujeres negras. Por muestreo aleatorio simple (igual probabilidad, sin
'' reemplazo) obtiene seis personas de cada estrato de negros y 11 de cada estrato de
blancos; y textualmente dice "hacer cuatro copias de cada uno (obviamente del dato o
medición) de los elementos muestreados de los blancos". Esto equivale a decir que

35
_ _ _ _ _ _ REPRESENTATIVIDAD DE LAS MUESTRAS

cada dato de los estratos de los blancos se expande cuatro veces. Por esto ese valor
44111 =4 se llama factor de expansión. Con esas cuatro copias tiene una población
con 44 hombres blancos (11 valores cada uno cuatro veces), 44 mujeres blancas (11
valores cada uno cuatro veces), seis hombres negros (seis valores distintos) y seis
mujeres negras (seis valores distintos). Se consigue que la distribución de sexo y raza
1•
en la población sea la misma que la de la muestra reconstruida. 1
('
Nótese que en general, para restaurar la representatividad, se reproduce en
la muestra la distribución conocida de algunas variables en la población, esto se
efectúa para cada diseño de muestra de acuerdo a los "factores de expansión" que
son específicos para cada diseño, usualmente se denotan por w;.
Para este diseño hay un teorema básico de Horvitz-Thompson para usar
factores de expansión, que se utiliza con cualquier diseño de muestreo conociendo la
probabilidad de inclusión de primer orden de cada elemento, que es la probabilidad
de que el elemento i-ésimo de la población esté en la muestra. También la
probabilidad de inclusión de segundo orden, que es la probabilidad de que ambos, el
elemento i-ésimo y el j-ésimo, estén en la muestra.
Los estimadores de razón y regresión, que se verán más adelante, usan
información adicional que permite conocer el grado de representatividad de la
muestra en relación con la población, a través de una variable auxiliar; la que con
algunos supuestos adicionales, se puede utilizar para restaurar la representatividad o
hacerla mayor.
La idea de ajustar la distribución de la muestra a la de la población conduce a
varias alternativas, ya sea en el diseño o en el análisis de la información. En el diseño
con las llamadas "cuotas" y en el análisis con los ajustes, basándose en valores
conocidos en la población. Los estimadores de razón y regresión son un ejemplo de
esto último.

2.8 Muestreo por cuotas


En muchas situaciones de investigación por muestreo se conoce en la población la
distribución de varias variables categóricas; en muestreo de poblaciones humanas, es
común que sea sexo, edad, escolaridad o niveles socioeconómicos. Se toma la
muestra de manera que la distribución de esas variables, en forma conjunta, sea
idéntica en la muestra a la de la población. Es decir, la muestra debe cumplir con
"cuotas" o número de elementos para cada sexo, edad o nivel socioeconómico. Esto
puede ser muy bueno, sin embargo hay dos grandes problemas. Primero, que las
variables consideradas para formar las cuotas sean verdaderamente las que más se
relacionan con las variables en estudio (opinión, ingresos, salud, etcétera); y
segundo, que al tomar la muestra se tenga una o más variables que no se incluyeron
en las cuotas y que sí influyen en las variables de interés. Si la muestra se localiza en
lugares poco frecuentados por un sector de la población, éste no aparece o aparece
subrepresentado en la muestra, si en ese sector hay valores diferentes de las
variables de interés, hace que la muestra no sea representativa. Véase Stephan y Me.
Carthy (1974).

36
REPRESENTATIVIDAD DE LAS MUESTRAS

2.8. 1 Combinar muestreo probabilístico con cuotas


En algunas aplicaciones se puede tener un muestreo probabilistico polietápico
estratificado, por ejemplo: estratos de municipios (como UPM), localidades como
unidades secundarias de muestreo (USM), AGEB como unidades terciarias de
muestreo ( UTM), manzanas como unidades cuaternarias de muestreo (UCM) y
viviendas como unidades últimas de muestreo (UUM). Se toman por aleatorio simple,
por ejemplo 10 viviendas en cada manzana y de todas las viviendas muestreadas en
cada AGEB se seleccionan, por ejemplo, 20 personas que cumplan con cuotas de
edad y sexo en conjunto para la AGEB. Esto hace a ía muestra aún más
representativa, ya que las diferencias regionales y de áreas se toman en cuenta en el
muestreo probabilfstico, sin embargo se busca mayor representatividad de variables,
que como sexo y edad, pueden no estar bien representadas en 1 ó 2 UUM
(viviendas). Así no ocurre la segunda razón problemática del muestreo de cuota
directo. Este esquema ha dado buenos resultados en la práctica.

2.9 Postajustes
Otra forma de mejorar la representatividad de la muestra es ajustar los factores de
expansión por la distribución conocida de variables en la población. Esto se verá en el
capitulo once.

2.10 Comentario final sobre el concepto de representatividad


A manera de conclusión, se puede afirmar que el concepto de representatividad
entendida como el hecho de que la distribución de las variables de interés y/o
relacionadas en la muestra, debe parecerse a la de la población, esto es crucial en
todos los razonamientos estadísticos.
En este apartado únicamente se tocaron algunas consecuencias en la
investigación, sea observacional o experimental, del concepto de representatividad de
las muestras a las poblaciones. Este es el concepto básico de la validez externa o
sea la capacidad para aplicar las conclusiones de un estudio a otros, o a un conjunto
amplio de otros elementos distintos a los estudiados. Se reconoce que es difícil
asegurar la representatividad cuando no se tiene una muestra probabilística y de
tamaño grande, es decir, sí la muestra es así, opera la ley de los grandes números
(con sus correcciones tipo Horvitz-Thompson) y se esperan con elevada probabilidad
muestras representativas. En los casos de muestras de tamaño pequeño o que sean
no probabilísticas, la representatividad se supone con base en razonamientos
teóricos del proceso estudiado.

37
CONCEPTOS GENERALES Y NOTACIÓN

3. Conceptos generales y notación


Mediante el proceso de muestreo, lo que se desea hacer es una inferencia, esto es
una estimación de un parámetro de una población finita. Así la población es un
conjunto de N unidades, P = {U¡, U2, .•. , UN} y a cada unidad se le asocia una variable
~IJ(U,) = Y, que sea de interés (se le pueden asociar otras variables, por ejemplo:
¡
.'t(u,)"'X~, ~~(U,)=Z" etcétera). Se pueden considerar como vectores (r;, _¡.;, 1j, ... , YN),
¡ N
¡ (X,,X 2 .X 3 , ... ,XN). Entonces, un parámetro es, por ejemplo, ¡..t=Y=]:_)'¡IN
¡~¡
la

medía de la población (en muestreo se usa Y para la media de la población finita y y


para la media de la muestra). La varianza de la población es:
,. 2
N
'\' -2

1•. aunque s:~sa ;~:cili;L: N,


1

•. to~··YY
sz = __!!__ (}'2 = -"'"='-·1--_ _
1 Y N-\ Y N-1
En ocasiones el total de la población es de interés: y= f)í = NY, también

llamado t o r en algunos textos.


La muestra es un subconjunto de n unidades de la población, éste se obtiene
con probabilidades conocidas para todos y cada uno de los elementos de la
población. El tamaño de la muestra es n. En la muestra de n unidades se determinan
los n valores de la variable Y que se denótan por y 1 , y 2, .... y" (y, minúscula es el valor
observado, Y; es un valor no observado en la población, t=l ... n, j =l ... N).
Con los valores y 1, y 2,. ··Yn de la muestra se construyen estimadores de los
parámetros (Y , Y, S2y, rly). Para evaluar los estimadores se considera que el proceso
de obtención de la muestra se puede repetir muchas veces con los mismos tamaños
de muestra y probabilidades de selección, y en cada repetición tener un valor para el
estimador. Como las muestras varían en su constitución, los valores de los
estimadores también variarán, es decir, son variables aleatorias. Siempre que se
realice un muestreo se debe especificar la forma de tomar la muestra y la manera de
calcular los estimadores f(y 1, ... ,yn) =e,
a estos dos aspectos les llamamos
estrategia de muestreo. Al tener muchos valores de un estimador, se puede estudiar
su regularidad estadfstica con su distribución de frecuencias. Estamos hablando de
una nueva población que son las diferentes estimaciones del parámetro de interés.
Estas distribuciones de frecuencias se estudian teóricamente. Si la media de los
posibles valores de un estimador es el parámetro en estudio, se dice que el estimador

39
CONCEPTOS GENERALES Y NOTACIÓN

es insesgado con esta forma de seleccionar la muestra (E( E!)= e). En realidad es la
estrategia la que produce estimadores insesgados. El criterio fundamental para
determinar cuál estimador es mejor entre varios posibles es que para un tamaño de
muestra fijo, el mejor estimador es el que tiene menor variabilidad alrededor de su
medía (o sea el parámetro, si el estimador es insesgado). La medida de variabilidad
es la varianza del estimador.
V(rJ)"" E[ O- E(é)f.
Si el estimador no es insesgado es conveniente tomar como medida de
variabilidad el error cuadrático medio (ECM).
ECM(O) = E(é -e) 2
=:? ECM(B)"" V(B)+[E(B)-Bf
donde E(fJ)- O= B(i)) =sesgo.
Una vez seleccionado un "buen" estimador, el tamaño de muestra n se
determina con base en el grado de precisión deseada. Esta precisión es el grado de
variabilidad que presenta el estimador alrededor del parámetro al tomar muchas
muestras de tamaño n. Así, si el parámetro e de interés es y y el estimador ce= Y)
es y, esta precisión se expresa por un número 8 tal que tenemos tres expresiones
equivalentes:

P( ie-ei <6)=1-a
P( lr-rl <6)=1-a
P[ly-YI<d=l-a (3.1)

o
A se le conoce como error absoluto.
Entonces:

p [e- 6::; e::; e+ 6] = 1- a= .95 ó

P [F- 6:5: Y< y+ 6] =


1- a= .95
Donde 1-a será cercano a 1 y (1-a)x100% se denomina % de confianza.
Para poder usar la expresión (3.1) se requiere conocer la distribución teórica de los
posibles valores de y, el estimador en general. Frecuentemente se recurre al
2
0
Teorema central del limite que especifica que: y-N(f, Stn embargo, en algunos
Y ).
n
casos el Teorema central del Hmite no es válido, entonces la determinación del
tamaño de muestra n se basa únicamente en el criterio de lograr que la varianza del

40
CONCEPTOS GENERALES Y NOTACIÓN

s la estimador sea pequefia, menor o igual que un valor dado, asegurando así, el grado
de variabilidad que presenta el estimador alrededor de su media (el parámetro si el
1ara estimador es insesgado). Una presentación alternativa del error de estimación es:
, de
'su
:jad p lé ~e¡ t/ =1 ~a donde fj' = ~e
B <

Aunque no conocemos B, al emplear 15' =


15 estamos pensando en un error
de e
máximo permisible que esté en función de la cantidad que vamos a estimar. A f/ se
le conoce como error relativo. También el error de muestreo se usa con porcentajes,
ó
~ 100.
e
Si no se supone la normalidad, lo más usual es considerar el coeficiente de
se
variación del estimador con un valor fijo y determinar el tamaño de muestra para que
1 de
se alcance ese coeficiente de variación.
has
Lo más frecuente es que las características de la distribución del estimador
Y) dependan de algunos parámetros desconocidos de la población de interés. Como las
nes características de la distribución del estimador son las que se usan para determinar el
tamaño de muestra n, resulta que hay que conocer ciertos parámetros de la
distribución original (la población) para determinar n, el que a su vez servirá para
estimar parámetros de la población. Esta situación conflictiva puede resolverse de
dos maneras:
1. Práctica. Se obtiene una muestra preliminar o muestra piloto para estimar
aunque sea de un modo muy aproximado los parámetros relevantes. La
muestra piloto sirve, además, para probar la factibilidad de los métodos de
3.1) selección, probar el cuestionario, determinar costos y otros aspectos
prácticos. También se pueden usar los valores de las varianzas de
estimadores o del DEFF en encuestas previas semejantes a la que se está
planeando en estrategia de muestreo y con la misma variable de interés.
2. Teórica. Utilizando los conocimientos existentes para tratar de especificar
con base en experiencias previas, la distribución teórica de la variable en la
población o con algún otro método a priori, el valor de los parámetros de la
población necesarios en la determinación del tamaño de muestra. Los
valores que se necesitan usualmente son la varianza o el coeficiente de
1za. variación.
los
l al Para especificar la varianza de una población se puede usar el conocimiento
aproximado que se tenga sobre la forma de la distribución y la amplitud de variación
nos de los valores. Deming (1950, pág. 62) propone una tabla de formas de distribución y
sus varianzas correspondientes en función de la amplitud h. Donde h = amplitud
del (máxima Y, - mínima Y;). La tabla es la siguiente:
del

41
r
''~,

CONCEPTOS GENERALES Y NOTACIÓN

Forma Nombre Varianza =cr,


Uniforme h/(:12 }:
l~

Triangular simétrica hh 24
¡
'

r
1l
'

Triangular asimétrica hjG18 f'


1

1
hls l'
i
'¡,
'
Elipse hh16
Normal hh36

TABLA 3.1 Varianza de distribución en función de forma y amplitud


Con un conocimiento más o menos profundo del fenómeno estudiado (el que
determina ~lf(U¡}=Y, y el tipo de unidades U1) se puede determinar h y la forma de la
distribución de los valores de Y y con ellos obtener a~ que se usará posteriormente
para fijar n. Kish (1965, pág. 262) presenta una ampliación de esta tabla.
Recordemos que:

00 00

E(X)= J4(x)dx
-()()
E( X 2
) = Jx f(x)dx
-oo
2

donde j(x) es la función de densidad.

42

También podría gustarte