Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Cada vez que miro las estadísticas de este modesto blog, siempre observo la
misma pauta: el tráfico de visitas cumple de forma precisa el principio de Pareto:
el 20% de los posts generan el 80% de las visitas. Y entre este 20% de posts
más visitados destacan con mucha diferencia los posts dedicados a cómo
calcular el tamaño de una muestra representativa para hacer un estudio de
opinión.
Viendo el gran interés que despierta esta cuestión, inauguramos hoy una serie
de posts dedicados al muestreo: explicaremos qué es, cuáles son las
principales técnicas de muestreo y cuando conviene usar una técnica u otra.
Esperamos que estos contenidos sean de utilidad, ya sea a estudiantes de
investigación, personas con curiosidad en estos temas o profesionales que
tengan estos conceptos un poco oxidados.
¿Qué es el muestreo?
El tamaño de la muestra
¿Qué tamaño de muestra necesito usar para estudiar cierto universo? Depende
del tamaño del universo y del nivel de error que esté dispuesto a aceptar, tal y
como explicábamos en su día en este post. Cuanta más precisión exija, mayor
muestra necesito. Si quiero tener una certeza absoluta en mi resultado, hasta el
último decimal, mi muestra tendrá que ser tan grande como mi universo.
Por lo tanto, a medida que trabajo con universos más grandes, la muestra que
necesito debe ir creciendo, pero de forma no proporcional, tiende a estancarse y
cada vez representa un porcentaje más pequeño del universo. A partir de cierto
tamaño de universo (en torno a 100.000 individuos), el tamaño de la muestra ya
no necesita crecer más. La siguiente tabla nos muestra algunos ejemplos:
Los datos anteriores nos dicen que por grande que sea el universo, con 385
personas puedo estudiar cualquier dato con el mismo nivel de error (margen de
5%, confianza de 95%). Por esta razón el muestreo es tan poderoso: nos permite
hacer afirmaciones altamente precisas de una gran cantidad de individuos a
través de un parte muy pequeño de los mismo.
Pero una cosa es la teoría y otra la práctica. Sólo en entornos muy controlados
es posible hacer muestras aleatorias. Por otra parte, cuando tenemos universos
compuestos por grupos homogéneos (entre sí) de personas, podemos
aprovechar esta agrupación para mejorar la precisión de la muestra (o reducir el
tamaño de la misma).
Muestreo probabilístico o no probabilístico
Vimos en un post reciente qué es el muestreo y qué ventajas nos ofrece cuando
queremos estudiar una población. Hoy veremos las dos grandes familias de
técnicas de muestreo existentes: las técnicas de muestreo probabilístico y no
probabilístico. Para ello, empezaremos definiendo el concepto de marco
muestral.
Marco muestral
Muestreo probabilístico
La definición anterior nos lleva a concluir que sólo podemos hacer muestreo
probabilístico si se dispone de un marco muestral. El censo de un país, el
conjunto de direcciones de hogares en una población o la lista de clientes de una
empresa, son ejemplos de marcos muestrales que hacen posible un muestreo
probabilístico. En cada uno de estos casos, el universo a estudiar es diferente:
habitantes de un país, hogares de una población y clientes de una empresa,
respectivamente.
Muestreo no probabilístico
Por todas estas razones, así como por razones de coste, los investigadores
recurren con frecuencia a otras técnicas de muestreo, agrupadas dentro de lo
que se conoce como muestreo no probabilístico. En estas técnicas
alternativas, es habitual seleccionar elementos para la muestra basándose en
hipótesis relativas a la población de interés, lo que se conoce como criterios
de selección. Por ejemplo, seleccionar una muestra buscando individuos por
la calle, tratando de que la mitad sean hombres y la mitad mujeres
(coincidiendo con la distribución que se supone en la población) sería un
criterio de muestreo no probabilísitico.
- Muestreo secuencial.
- Muestreo discrecional.
Error de muestreo
Sin embargo, es habitual encontrar estudios hechos con estas técnicas que
indican margen de error y nivel de confianza. Es una práctica formalmente
incorrecta, pero que suelen usar los investigadores con el objetivo de dar una
indicación de la influencia que tiene el tamaño muestral empleado en la precisión
de los resultados. Debería leerse como "si esta muestra fuese probabilística,
ofrecería un margen de error X".
La pregunta obvia que puedes plantearte es, ¿qué es mejor, usar reposición o
no usala? Responderemos esta pregunta un poco más abajo, pero antes,
revisemos qué precisión logra el muestreo aleatorio simple con reposición para
un tamaño de muestra dado y, alternativamente, qué tamaño de muestra
necesito para garantizar cierta precisión.
Una muestra seleccionada de esta forma tiene una propiedad muy útil: la media
de cualquier variable que midamos en la muestra se parecerá a la media
calculada en el total de la población. Y se parecerá de una forma muy concreta:
la media en la muestra seguirá una distribución normal centrada en la media
poblacional y con varianza igual a la varianza poblacional dividida por el tamaño
de la muestra n. Esta relación entre muestra y población se conoce
como teorema central del límite.
Tienes una explicación detallada en este otro post, pero te lo resumimos aquí:
gracias a esta propiedad (es decir, a que sabemos cómo se relaciona la media
de la muestra con la de la población) podemos calcular la probabilidad de que la
media de la muestra esté dentro de un intervalo de valores. Y esto nos permite
saber qué error máximo vamos a tener cuando usamos la media de la muestra
como estimación de la media de la población. En concreto, se cumple que
donde:
- n es el tamaño de muestra.
n ≥ZNC2
σ2 e2
¿Y si no reponemos?
n=
ninfN ninf + (N-1)
=
nrN nr + (N-1)
=
nr nr/N+ (N-1)/N
< nr
Por lo tanto, el tamaño de muestra necesario para acotar un mismo nivel de error
es siempre más pequeño no reponemos individuos en la muestra. Y, en
definitiva, tanto si lo miramos desde el punto de vista de qué técnica genera
estimaciones más precisas como desde el punto de vista de qué técnica permite
tener la misma precisión con menor tamaño de muestra, se puede concluir que el
muestreo aleatorio simple sin reposición siempre es más eficiente.
Muestra
Estrato Población Proporción
proporcional
Como puedes ver, el tamaño de la muestra es igual en todos los estratos (salvo
pequeñas diferencias debidas al redondeo necesario fruto de dividir 1,000 entre
3), en lugar de seguir las proporciones de la población.
Esta técnica favorece los estratos que tienen menos peso en la población,
equiparándolos en importancia a los estratos más relevantes. Globalmente,
reduce la eficiencia de nuestra muestra (menor precisión en los resultados
globales), pero, como contrapartida, permite estudiar características particulares
de todos los estratos con una precisión mínima mayor. En nuestro ejemplo, si
queremos emitir alguna afirmación específica sobre la población del estrato 3
(mayores de 44 años), podremos hacerlo con menos error muestral si
empleamos una muestra de 333 unidades que si lo hacemos con una muestra
de 227 (como ocurriría en el muestreo estratificado proporcional).
n = Z2
(L∑h=1 wh σh )2 e2
Si consideramos que todas las varianzas de los estratos son iguales (σ h=σ) y
que el tamaño de los estratos es idéntico (W h=1/L), el resultado que obtenemos
es
n = Z2
(L∑h=1 wh σh )2 e2
= Z2
(L∑h=1 (1/L)σ )2 e2
= Z2
((L/L)σ)2 e2
= Z2
σ2 e2
que coincide con el tamaño de muestra necesario para tener un error máximo e
en un muestreo aleatorio simple.
Conclusiones
El proceso
Ejemplo
✔ Ventajas
- Obtiene buenas propiedades de representatividad, similares a la de un
muestreo aleatorio simple o incluso superiores, pero de forma más rápida y
simple, al evitar la necesidad de generar tantos números aleatorios como
individuos en la muestra.
✘ Desventajas
Para entender las propiedades de este muestreo, hay que tener en cuenta una
cosa: si fijamos el intervalo o coeficiente de elevación según el tamaño de la
muestra que necesitamos, sólo hay un elemento aleatorio dentro del proceso de
muestreo: la unidad inicial que seleccionamos del primer bloque de individuos.
El resto queda fijado de antemano. Esto equivale a decir que sólo
tenemos k posibles muestras diferentes a obtener y que el muestreo es
simplemente escoger una de las k muestras disponibles.
Es posible demostrar que cuanto más supera la varianza dentro de las k posibles
muestras que podemos generar a la varianza poblacional, más precisión
ganamos usando el muestreo sistemático respecto al aleatorio simple. Lo
anterior puede interpretarse diciendo que el muestreo sistemático es
más preciso que el aleatorio simple cuando la variabilidad dentro de las posibles
muestras es superior a la variabilidad dentro de las unidades de la población. La
precisión del muestreo sistemático coincide con la del aleatorio simple cuando
ambas variabilidades coinciden, y esto se da cuando la disposición de los
elementos en la población es totalmente aleatoria.
Con este post dedicado al muestreo por conglomerados cerramos el primer gran
bloque de posts dedicados al muestreo probabilístico. A partir de la próxima
publicación abordaremos técnicas de muestreo no probabilístico, las más
habituales cuando hablamos de investigación online.
Podemos ver esta técnica desde otro punto de vista. Mientras que en todas las
técnicas vistas hasta ahora las unidades de muestreo coinciden con las unidades
a estudiar (individuos), en el muestreo por conglomerados las unidades de
muestreo son grupos de unidades a estudiar (grupos de individuos), algo que
puede resultar muy beneficioso en términos de coste. A cambio, es habitual
obtener una menor precisión al usar esta técnica, causada por falta de
heterogeneidad dentro de los conglomerados.
El proceso de muestreo
El primer paso para aplicar esta técnica es definir los conglomerados. Se trata
de identificar una característica que permita dividir la población en
grupos disjuntos (sin solapamiento) y de forma exhaustiva (todos los individuos
deben estar en un grupo), de tal manera que los grupos no difieran entre sí en
relación a aquello que queremos medir. Una vez hemos definido estos
conglomerados, seleccionaremos al azar algunos de ellos para estudiarlos.
Es por ello que, pese a que ambas técnicas dividen la población en estratos o
conglomerados, el proceso de selección de individuos es radicalmente diferente.
¿Cómo podemos comparar esta técnica con otras vistas con anterioridad? Lo
bien o mal que va a funcionar esta técnica va a depender, de forma similar a
como ocurría en el muestreo estratificado, de la relación entre la varianza dentro
y fuera de los conglomerados.
nc = na (1 + (M-1) δ)
Iniciamos con este post la segunda parte de nuestra serie dedicada a técnicas
de muestreo. En esta segunda parte te explicamos las técnicas de muestreo no
probabilístico. Empezamos hoy con el muestreo por conveniencia, una de las
técnicas más básicas de muestreo.
¿Significa lo anterior que los resultados de una muestra por conveniencia son
totalmente irrelevantes, que no nos dicen nada de la población? No exactamente.
Si tenemos buenas razones para pensar que la selección por conveniencia no
va a introducir sesgos respecto al total de la población, los resultados que
obtendremos pueden ser una buena imagen del universo estudiado. El problema
es que no sabremos exactamente cómo de buena es esa imagen: no se
pueden usar herramientas estadísticas como el margen de error y el intervalo de
confianza para medir la precisión de los resultados. Los lectores del estudio
tendrán que confiar en los criterios de la selección hecha por el investigador.
Estudios piloto
Dadas las características de este tipo de muestreo, sus pros y sus contras son
evidentes:
Si optas por calcular ese margen de error, deberías indicar que no corresponde
a la muestra empleada, sino a una muestra del tamaño aleatoria simple de ese
tamaño. Y, en cualquier caso, siempre que usemos una muestra por
conveniencia, deberíamos acompañar los resultados con una descripción de
cómo se ha obtenido dicha muestra para que el lector valore qué credibilidad
puede dar a los resultados.
1. Segmentación
Por último, buscamos participantes para cubrir cada una de las cuotas definidas.
En este punto es donde nos alejamos de un muestreo probabilístico. En el
muestreo por cuotas aceptamos que la selección de individuos no sea aleatoria,
puede ser una selección mediante muestreo por conveniencia. Por ejemplo, en
un estudio en el que hayamos definido una cuota de 100 personas menores de
25 años y 100 personas de 25 o más años, podríamos salir a la calle y abordar
a las personas que encontramos a nuestro paso, preguntarles su edad y
encuestarlas si no hemos cubierto nuestro objetivo.
La elección de variables
Las variables que usemos para definir cuotas en una muestra deberían cumplir
dos condiciones:
(1) Que sean variables afectadas (es decir, sesgadas) por la forma no
aleatoria en que seleccionamos individuos para la muestra. Por ejemplo, en
una encuesta telefónica tendemos a encontrar personas de más edad que en
una muestra aleatoria, y también un porcentaje elevado de personas en paro.
Por lo tanto, debería añadir una cuota por edad y una por ocupación.
(2) Que sean variables que influyan en el dato que quiero medir. En un
estudio electoral, podemos aceptar que sexo, edad y región influyen en la
intención de voto. Por lo tanto, nos interesa añadir cuotas sobre estas variables.
¿Significa esto que es lo mismo usar o no usar cuotas? ¿Es el muestreo por
conveniencia equivalente al muestreo por cuotas? La respuesta es NO. El uso
de cuotas pone cierto control a los sesgos que pueden producirse por el
método de selección empleado, nos garantiza que en una serie de variables
clave vamos a reproducir la composición de la población en nuestra muestra. El
problema es que, pese a que es una práctica común por parte de muchos
investigadores, no vamos a poder afirmar cuán representativa es nuestra
muestra. Las cuotas mejoran la representatividad, pero no sabemos cuánto.
Pese a todo, el muestreo por cuotas es uno de los métodos de muestreo más
populares y prácticamente el único método viable cuando hacemos
investigación online (salvo que contemos con un panel probabilístico). Usar
cuotas es un sistema efectivo y económico de obtener muestras que
proporcionan información relevante.
Ventajas e inconvenientes
La principal ventaja del muestreo por cuotas es que ofrece resultados útiles
a un coste efectivo y, si se han elegido correctamente las variables sobre las
que segmentar, dichos resultados suelen ser fiables. Y, a fin de cuentas, es con
mucha diferencia el método no probabilístico que más similitudes guarda con
los métodos probabilísticos.
Cuotas geográficas
En online: ambas variables deben controlarse, igual que en offline. Los paneles
online acceden más fácilmente a gente joven, especialmente en la franja de los
20 a 35 años, pero tienen dificultades con adolescente y personas mayores.
También es habitual que los paneles recluten más mujeres que hombres, porque
son más demandadas para estudios de mercado, por lo que es necesario
controlar la variable sexo.
Ventajas e inconvenientes
Las principales ventajas de esta técnica son:
Otras consideraciones