Está en la página 1de 46

El muestreo: qué es y por qué funciona

Cada vez que miro las estadísticas de este modesto blog, siempre observo la
misma pauta: el tráfico de visitas cumple de forma precisa el principio de Pareto:
el 20% de los posts generan el 80% de las visitas. Y entre este 20% de posts
más visitados destacan con mucha diferencia los posts dedicados a cómo
calcular el tamaño de una muestra representativa para hacer un estudio de
opinión.

Viendo el gran interés que despierta esta cuestión, inauguramos hoy una serie
de posts dedicados al muestreo: explicaremos qué es, cuáles son las
principales técnicas de muestreo y cuando conviene usar una técnica u otra.
Esperamos que estos contenidos sean de utilidad, ya sea a estudiantes de
investigación, personas con curiosidad en estos temas o profesionales que
tengan estos conceptos un poco oxidados.

¿Qué es el muestreo?

El muestreo es el proceso de seleccionar un conjunto de individuos de una


población con el fin de estudiarlos y poder caracterizar el total de la
población.

La idea es bastante simple. Imagina que queremos saber algo de un universo o


población, por ejemplo, qué porcentaje de los habitantes de México fuma
habitualmente. Una forma de obtener este dato sería contactar con todos los
habitantes de México (122 millones de personas) y preguntarles si fuman. La otra
forma sería seleccionar un subconjunto de individuos (por ejemplo, 1.000
personas), preguntarles si fuman y usar esta información como una
aproximación de la información buscada. Pues bien, este grupo de 1.000
personas que me permiten conocer mejor cómo se comportan el total de
mexicanos es una muestra, y la forma en que los seleccionamos es la técnica
de muestreo.

En la definición anterior hemos introducido dos términos fundamentales a lo


largo de esta serie de posts:
1) Universo o población: Es el total de individuos que deseo estudiar o
caracterizar. En el ejemplo anterior, el universo lo forman los habitantes de
México, pero podemos pensar en todo tipo de universos, más generales o más
concretos. Por ejemplo, si quiero saber cuánto fuman de media los fumadores
de México, el universo en este caso serían "los fumadores de México".

2) Muestra: Es el conjunto de individuos del universo que selecciono para


estudiarlos, por ejemplo, a través de una encuesta.

¿Por qué funciona el muestreo?

El muestreo es útil gracias a que podemos acompañarlo de un proceso inverso,


que llamamos generalización de resultados. Es decir, para conocer un
universo lo que hacemos es:

1) Extraer una muestra del mismo.

2) Medir un dato u opinión.

3) Proyectar en el universo el resultado observado en la muestra.

La generalización de resultados añade cierto error al dato que medimos.


Imagina que tomamos una muestra al azar de 1.000 personas de México y les
preguntamos si fuman. Obtengo que el 25% de la muestra fuma. La simple lógica
nos dice que si de 1.000 mexicanos elegidos al azar el 25% fuma, este dato
debería ser indicativo de lo que obtendríamos si preguntásemos a los 122
millones de mexicanos. Ahora bien, el azar podría haber hecho que haya
escogido para mi muestra más fumadores de lo que correspondería a la
proporción exacta que hay en el universo o, por el contrario, que en mi muestra
los fumadores estén algo infrarrepresentados. El azar podría hacer que el
porcentaje de fumadores en la población fuese algo diferente del 25% que hemos
observado en la muestra (tal vez un 25,2%, por ejemplo). Por lo tanto, la
generalización de resultados de una muestra a un universo conlleva aceptar que
cometemos cierto error, tal y como ilustra el siguiente esquema.
Afortunadamente, el error cometido al generalizar resultados puede acotarse
gracias a la estadística. Para ello suelen usarse dos parámetros: el margen de
error, que es la máxima diferencia que esperamos que haya entre el dato
observado en mi muestra y el dato real en el universo, y el nivel de confianza,
que es el nivel de certeza que tenemos de que el dato real esté dentro del margen
de error.

Por ejemplo, en nuestro caso de fumadores mexicanos, si selecciono una


muestra de 471 individuos y les pregunto si fuman, el resultado que obtenga
tendrá un margen de error máximo de ±5% con un nivel de confianza del 97%.
Esta forma de expresar los resultados es la correcta cuando usamos muestreo.

El tamaño de la muestra

¿Qué tamaño de muestra necesito usar para estudiar cierto universo? Depende
del tamaño del universo y del nivel de error que esté dispuesto a aceptar, tal y
como explicábamos en su día en este post. Cuanta más precisión exija, mayor
muestra necesito. Si quiero tener una certeza absoluta en mi resultado, hasta el
último decimal, mi muestra tendrá que ser tan grande como mi universo.

Pero el tamaño de la muestra tiene una propiedad fundamental que explica


porqué el muestreo se usa tanto en tantos ámbitos del conocimiento. Esta
propiedad podría resumirse como sigue: a medida que estudio universos
mayores, el tamaño de muestra que necesito cada vez representa un porcentaje
menor de dicho universo.

Este fenómeno lo explican de forma muy didáctica en Gaussianos.com, un


interesante blog dedicado a las matemáticas. Supongamos que queremos hacer
una encuesta para conocer un porcentaje (podría ser el de gente que fuma) con
un nivel de error determinado, por ejemplo, un margen de error del 5% y una
confianza del 95%. Si el universo a estudiar fuese de tan sólo 100 personas, mi
muestra tendría que ser de 79,5 individuos (es decir, 79,5% del universo, lo que
representa un parte muy importante del total del universo). Si el universo fuese
de 1.000 personas, mi muestra debería ser de 277,7 personas (27,7% del
universo). Y si mi universo fuese de 100.000 personas, la muestra necesaria
sería de 382,7 personas (3,83% del universo).

Por lo tanto, a medida que trabajo con universos más grandes, la muestra que
necesito debe ir creciendo, pero de forma no proporcional, tiende a estancarse y
cada vez representa un porcentaje más pequeño del universo. A partir de cierto
tamaño de universo (en torno a 100.000 individuos), el tamaño de la muestra ya
no necesita crecer más. La siguiente tabla nos muestra algunos ejemplos:

Los datos anteriores nos dicen que por grande que sea el universo, con 385
personas puedo estudiar cualquier dato con el mismo nivel de error (margen de
5%, confianza de 95%). Por esta razón el muestreo es tan poderoso: nos permite
hacer afirmaciones altamente precisas de una gran cantidad de individuos a
través de un parte muy pequeño de los mismo.

Como contrapartida, el ejemplo anterior ilustra que el muestreo no funciona bien


en universos pequeños. Si tengo una clase de 10 alumnos, la opinión de cada
uno de ellos es fundamental para conocer la opinión global, no puedo prescindir
de ninguno. Si no quiero superar el error que nos hemos propuesto, en un
universo de 10 individuos necesito encuestar a todos ellos.

Ventajas e inconvenientes del muestreo

Resumimos a continuación las principales ventajas e inconvenientes de usar


muestreo frente a estudiar todo un universo.

La muestra aleatoria simple: definición y alternativas

La técnica más simple de muestreo, a partir de la cual se desarrollan en resto de


técnicas, es el muestreo aleatorio simple. Una muestra aleatoria simple es
aquella en la que se seleccionan individuos del universo de forma totalmente
aleatoria. Esto implica que todos los individuos deben tener idéntica probabilidad
(no nula) de ser seleccionados para la muestra.

Pero una cosa es la teoría y otra la práctica. Sólo en entornos muy controlados
es posible hacer muestras aleatorias. Por otra parte, cuando tenemos universos
compuestos por grupos homogéneos (entre sí) de personas, podemos
aprovechar esta agrupación para mejorar la precisión de la muestra (o reducir el
tamaño de la misma).
Muestreo probabilístico o no probabilístico

Vimos en un post reciente qué es el muestreo y qué ventajas nos ofrece cuando
queremos estudiar una población. Hoy veremos las dos grandes familias de
técnicas de muestreo existentes: las técnicas de muestreo probabilístico y no
probabilístico. Para ello, empezaremos definiendo el concepto de marco
muestral.

Marco muestral

Un marco muestral es una lista de todos los elementos que componen el


universo que queremos estudiar y de la cual se extrae la muestra. Estos
elementos a investigar pueden ser individuos, pero también pueden ser hogares,
instituciones o cualquier otra cosa susceptible de ser investigada. Cada uno de
estos elementos presentes en el marco muestral se conoce como unidades
muestrales.

Pongamos un ejemplo. Supongamos que queremos medir la satisfacción de los


clientes de una empresa. Para poder generar un marco muestral, podríamos
acceder al sistema informático de la misma y extraer una lista de todas las
personas que han contratado algún producto o servicio en el último año. Cada
una de las personas de esa lista serían unidades muestrales. Seleccionando un
conjunto de estos clientes, obtendríamos una muestra.

La proporción entre el tamaño de la muestra y el tamaño del marco muestral se


conoce como fracción muestral. Ésta, junto con el tamaño del marco muestral,
definen la precisión de los resultados que obtenemos cuando analizamos la
muestra.

Muestreo probabilístico

Hablaremos de muestro probabilístico siempre que se cumplan dos condiciones:

1. Todos los elementos de la población tienen una probabilidad mayor a cero de


ser seleccionados en la muestra.
2. La probabilidad de inclusión de cada elemento en la muestra se conoce de
forma precisa.

El cumplimiento de ambos criterios es el que hace posible obtener resultados no


sesgados cuando se estudia la muestra y determinar el grado de incertidumbre
que añade el proceso de muestreo. En ocasiones, estos resultados no sesgados
requieren usar técnicas de ponderación (weighting), pero esta ponderación es
posible precisamente porque se conoce la probabilidad de que cada individuo
sea seleccionado en la muestra. Las muestras generadas en estas condiciones
se conocen también como muestras probabilísticas.

La definición anterior nos lleva a concluir que sólo podemos hacer muestreo
probabilístico si se dispone de un marco muestral. El censo de un país, el
conjunto de direcciones de hogares en una población o la lista de clientes de una
empresa, son ejemplos de marcos muestrales que hacen posible un muestreo
probabilístico. En cada uno de estos casos, el universo a estudiar es diferente:
habitantes de un país, hogares de una población y clientes de una empresa,
respectivamente.

Una tenemos un marco muestral, la forma exacta en que se utiliza para


seleccionar la muestra define las diferentes técnicas de muestreo probabilístico:
muestreo aleatorio simple, muestreo sistemático, muestreo estratificado,
muestreo por conglomerados...

Muestreo no probabilístico

Sin embargo, no es sencillo cumplir con los requisitos propios de un muestreo


probabilístico:

1. Disponer de un marco muestral es algo relativamente poco habitual en


estudios de mercado. ¿Qué empresas pueden tener listados de toda
población?

2. Lograr que todos los individuos de la población tengan una probabilidad no


nula de ser seleccionados es un requisito igualmente exigente, más aún
conocer la probabilidad de inclusión exacta de cada unidad muestral. Todos los
individuos que no pueden ser seleccionados en una muestra se suelen referir
como unidades fuera de cobertura.

Por todas estas razones, así como por razones de coste, los investigadores
recurren con frecuencia a otras técnicas de muestreo, agrupadas dentro de lo
que se conoce como muestreo no probabilístico. En estas técnicas
alternativas, es habitual seleccionar elementos para la muestra basándose en
hipótesis relativas a la población de interés, lo que se conoce como criterios
de selección. Por ejemplo, seleccionar una muestra buscando individuos por
la calle, tratando de que la mitad sean hombres y la mitad mujeres
(coincidiendo con la distribución que se supone en la población) sería un
criterio de muestreo no probabilísitico.

En estos casos, debido a que la selección de las unidades de la muestra no es


aleatoria, cuando hablamos de muestreo no probabilístico no deberíamos
incluir estimaciones de error. Dicho de otra forma, una muestra no
probabilística nos informa de cómo es un universo pero no nos permite saber
con qué precisión: no podemos establecer unos márgenes de error y unos
niveles de confianza.

Algunas técnicas de muestreo de este tipo son:

- Muestreo por conveniencia.

- Muestreo secuencial.

- Muestreo por cuotas.

- Muestreo discrecional.

- Muestreo por bola de nieve.

Error de muestreo

Tal y como hemos indicado, no es posible conocer qué margen de


error vamos a tener en un estudio (por ejemplo, los resultados de una encuesta)
cuando empleamos muestreo no probabilístico. Esto incluye encuestas en las
que se ha seleccionado personas por la calle, entrevistándolas cara a cara,
haciendo llamadas telefónicas al azar o a través de una muestra obtenida en un
panel online.

En ninguno de estos casos se cumplen los criterios exigidos por el muestreo


probabilístico: tener un marco muestral con unidades para las que puedo calcular
la probabilidad de que sean seleccionadas en mi muestra. En encuestas cara a
cara por la calle no tengo el listado de individuos que componen el universo. En
la encuesta telefónica, aunque disponga de un listado telefónico, no todos los
individuos tienen un teléfono fijo o aparecen en las guías telefónicas públicas.
En el caso de un panel online, las personas que no acceden a internet no pueden
ser seleccionadas y tienen probabilidad de inclusión nula.

Sin embargo, es habitual encontrar estudios hechos con estas técnicas que
indican margen de error y nivel de confianza. Es una práctica formalmente
incorrecta, pero que suelen usar los investigadores con el objetivo de dar una
indicación de la influencia que tiene el tamaño muestral empleado en la precisión
de los resultados. Debería leerse como "si esta muestra fuese probabilística,
ofrecería un margen de error X".

A este respecto, hay diversidad de opiniones sobre la bondad de indicar el


margen de error en estas circunstancias, como se puso de manifiesto en
un debate descrito en el siguiente post.

Muestreo probabilístico: muestreo aleatorio simple

Siguiendo con nuestra serie de posts dedicados al muestreo, hoy os


explicamos la primera de las técnicas de muestreo probabilístico: el muestreo
aleatorio simple. Esta técnica es una de las más populares y sirve de
referencia a todas las demás, aunque en la práctica difícilmente puede
utilizarse.

Muestreo aleatorio simple: Definición

El muestreo aleatorio simple es una técnica de muestreo en la que todos los


elementos que forman el universo - y que por lo tanto están incluídos en el marco
muestral - tienen idéntica probabilidad de ser seleccionados para la muestra. El
proceso de muestreo que emplea esta técnica es equivalente a hacer un sorteo
entre los individuos del universo: asignamos a cada persona un boleto,
introducimos los boletos en una urna y empezamos a extraer boletos al azar.
Todos los individuos que tengan un boleto extraído de la urna formarían la
muestra. Obviamente, en la práctica, estos métodos pueden automatizarse
mediante el uso de programas informáticos.

Dependiendo de si los individuos del universo pueden ser seleccionados más


de una vez en la muestra o no, hablaremos de muestreo aleatorio simple con
reposición o sin reposición.
Si usamos reposición, el hecho de que seleccione un individuo al azar para la
muestra no impide que este mismo individuo pueda volver a ser seleccionado.
Siguiendo con el símil de la urna y los boletos, usar reposición equivale a
reintroducir los boletos de los individuos seleccionados para la muestra antes
de extraer el siguiente boleto.

Si, por el contrario, no usamos reposición, un individuo seleccionado para la


muestra ya no entraría nuevamente en el sorteo. Un individuo solo puede
aparecer una única vez en una muestra.

La pregunta obvia que puedes plantearte es, ¿qué es mejor, usar reposición o
no usala? Responderemos esta pregunta un poco más abajo, pero antes,
revisemos qué precisión logra el muestreo aleatorio simple con reposición para
un tamaño de muestra dado y, alternativamente, qué tamaño de muestra
necesito para garantizar cierta precisión.

Error y tamaño de muestra en muestreo aleatorio simple


con reposición
Supón el siguiente caso. Tienes una población grande de N individuos
(supongamos que de más de 100,000 individuos). Pones un boleto para cada
individuo en una urna. Extraes un boleto, anotas la identidad del individuo y
reintroduces el boleto en la urna. Repites el proceso n veces, hasta obtener una
muestra de tamaño n en la que un individuo podría aparecer varias veces. Esto
es poco probable si N es muy grande y n es mucho menor que N, algo habitual
ya que usamos muestras para no tener que analizar todo el universo.

Una muestra seleccionada de esta forma tiene una propiedad muy útil: la media
de cualquier variable que midamos en la muestra se parecerá a la media
calculada en el total de la población. Y se parecerá de una forma muy concreta:
la media en la muestra seguirá una distribución normal centrada en la media
poblacional y con varianza igual a la varianza poblacional dividida por el tamaño
de la muestra n. Esta relación entre muestra y población se conoce
como teorema central del límite.

Tienes una explicación detallada en este otro post, pero te lo resumimos aquí:
gracias a esta propiedad (es decir, a que sabemos cómo se relaciona la media
de la muestra con la de la población) podemos calcular la probabilidad de que la
media de la muestra esté dentro de un intervalo de valores. Y esto nos permite
saber qué error máximo vamos a tener cuando usamos la media de la muestra
como estimación de la media de la población. En concreto, se cumple que

donde:

- e es el error máximo que vamos a tener (máxima diferencia entre la media de


la muestra y la media de la población).

- ZNC es el valor crítico de corte de una distribución de probabilidad normal para


un nivel de confianza NC.
- σ es la desviación típica (=raiz de la varianza) de la variable que nos interesa
en la población.

- n es el tamaño de muestra.

Si invertimos esta expresión, podemos calcular qué tamaño de


muestra n necesito para garantizar que el error de estimación no supera el
margen de error e con un nivel de confianza NC.

n ≥ZNC2
σ2 e2

¿Y si no reponemos?

Sabemos calcular el error y el tamaño de muestra para el muestreo con


reposición, pero, ¿cómo cambian ambos resultados si no repetimos individuos
en la muestra?

Si podemos considerar que el universo es infinito o, al menos, mucho más


grande que el tamaño de la muestra, no cambia absolutamente nada. Piénsalo
bien: si el universo es muy grande, aunque usemos reposición, la probabilidad
de que escojamos dos veces al azar al mismo individuo es casi nula. Por lo tanto,
usar reposición o no usarla no da resultados diferentes.

Las diferencias entre ambos métodos se producen por lo tanto en situaciones


en los que el tamaño de la población es pequeño. En este caso, el muestreo
sin reposición toma ventaja. Intuitivamente es obvio: si el tamaño de la población
es muy pequeño (digamos 30 individuos) repetir individuos en una muestra es
malgastar una oportunidad de cubrir más información. En otras palabras, es
ineficiente.

Veamos de manera más formal este resultado. Es posible demostrar que en un


muestreo sin reposición, cuando el universo no se puede considerar infinito
(<100,000 individuos), el tamaño de muestra necesario para un determinado
margen de error es inferior al que necesitarías si el universo es infinito. En
concreto, el tamaño de muestra para un universo finito se relaciona con el
tamaño de muestra para universo infinito de la siguiente manera
n=
ninfN ninf + (N-1)

donde ninf es el tamaño de muestra necesario para un universo infinito y N es el


tamaño del universo finito.

Sabiendo que el tamaño de muestra cuando usamos reemplazo (nr) es siempre


igual al tamaño necesario para universo infinito (nr=ninf), podemos concluir que

n=
ninfN ninf + (N-1)
=
nrN nr + (N-1)
=
nr nr/N+ (N-1)/N
< nr
Por lo tanto, el tamaño de muestra necesario para acotar un mismo nivel de error
es siempre más pequeño no reponemos individuos en la muestra. Y, en
definitiva, tanto si lo miramos desde el punto de vista de qué técnica genera
estimaciones más precisas como desde el punto de vista de qué técnica permite
tener la misma precisión con menor tamaño de muestra, se puede concluir que el
muestreo aleatorio simple sin reposición siempre es más eficiente.

✔ Beneficios del muestreo aleatorio simple

El desarrollo de la informática ha permitido que diseñar una muestra aleatoria


simple sea extremadamente rápido y fiable, siempre que tengamos el marco
muestral necesario para ello, claro. La generación de números aleatorios
mediante software (estrictamente son números pseudo-aleatorios) es cada vez
más fiable.

De esta forma, al usar muestreo aleatorio simple nos aseguramos la obtención


de muestras representativas, de manera que la única fuente de error que va a
afectar a mis resultados va a ser el azar. Y lo que es más importante, este error
debido al azar puede calcularse de forma precisa (o al menos acotarse).

✘ Inconvenientes del muestreo aleatorio simple

El único inconveniente es la dificultad de llevarlo a la práctica


en investigaciones reales. Recordemos: al ser una técnica probabilística, es
necesario un marco muestral con todos los individuos y que todos ellos sean
seleccionables para la muestra. Un requisito que difícilmente puede cumplirse
en la mayoría de estudios de mercado y opinión reales, lo que nos obligará a
emplear otras técnicas.

Muestreo probabilístico: muestreo estratificado

Vimos en un post anterior la definición, las ventajas y los inconvenientes del


muestreo aleatorio simple. Hoy vamos a mostraros otra técnica un poco más
sofisticada: el muestreo estratificado.

Esta técnica, perteneciente a la familia de muestreos probabilísticos, antes de


iniciar el proceso de muestreo divide toda la población objeto de estudio en
diferentes subpoblaciones o estratos disjuntos, de manera que un individuo sólo
puede pertenecer a un estrato. Una vez definidos los estratos, la muestra se crea
seleccionando por separado individuos de cada estrato, empleando una técnica
de muestreo cualquiera. Si, por ejemplo, empleamos muestreo aleatorio simple
en cada estrato, hablaremos de muestreo aleatorio estratificado. Este es el
caso más habitual, pero del mismo modo podríamos usar otras técnicas de
muestreo en cada estrato (muestreo sistemático, aleatorio con reposición, etc.).
Los estratos suelen crearse a partir de grupos homogéneos de individuos, que
a su vez son heterogéneos entre diferentes grupos. Por ejemplo, si en un
estudio esperamos encontrar un comportamiento muy diferente entre hombres
y mujeres, puede ser conveniente definir dos estratos, uno por cada sexo. Si la
selección de estos estratos es correcta:

1. Los hombres deberían comportarse de forma parecida entre ellos.


2. Las mujeres deberían comportarse de forma muy similar entre ellas.
3. Hombres y mujeres deberían mostrar comportamientos dispares entre sí.

Si la anterior condición se cumple (estratos homogéneos internamente,


heterogéneos entre sí) el uso del muestreo aleatorio estratificado reduce el
error muestral respecto a un muestreo aleatorio convencional, mejorando
la precisión de nuestros resultados.

Es relativamente habitual definir estratos de acuerdo a algunas variables


sociodemográficas de la población como son edad, sexo, clase social o región
geográfica. Estas variables permiten dividir fácilmente la muestra en grupos
mutuamente excluyentes y, con bastante frecuencia, permiten discriminar
comportamientos diferentes dentro de la población.

Tipos de muestreo estratificado


Dependiendo del tamaño que asignamos a los estratos, hablaremos de
diferentes tipos de muestreo estratificado. También se acostumbra a hablar de
diferentes formas de "afijación" de la muestra en estratos.

1. Muestreo estratificado proporcionado

Cuando dividimos una población en estratos, es habitual que el tamaño de


dichos estratos sea diferente. Por ejemplo, si queremos estudiar el tanto por
ciento de la población que fuma en México y pensamos que la edad puede ser
un buen criterio para estratificar (es decir, pensamos que existen diferencias
importantes en el hábito de fumar dependiendo de la edad), podemos definir 3
estratos: menores de 20 años, de 20 a 44 años y mayores de 44 años. Es de
esperar que al dividir toda la población mexicana en estos 3 estratos no
resulten grupos de igual tamaño. Efectivamente, si miramos datos oficiales,
obtenemos:

* Estrato 1 - Población Mexicana menor de 19 años: 42,4 millones (41,0%)

* Estrato 2 - Población Mexicana de 20 a 44 años: 37,6 millones (36,3%)

* Estrato 3 - Población Mexicana mayor de 44 años: 23,5 millones (22,7%)

Si usamos muestreo estratificado proporcionado, la muestra deberá tener


estratos que guarden las mismas proporciones observadas en la población. Si
en este ejemplo queremos crear una muestra de 1.000 individuos, los estratos
tendrán que tener un tamaño como sigue:

Muestra
Estrato Población Proporción
proporcional

1 42,4M 41,0% 410

2 37,6M 36,3% 363

3 23,5M 22,7% 227


2. Muestreo estratificado uniforme

Hablaremos de una afijación uniforme cuando asignamos el mismo tamaño de


muestra a todos los estratos definidos, sin importar el peso que tienen esos
estratos en la población. Siguiendo con el ejemplo anterior, un muestreo
estratificado uniforme definiría la siguiente muestra por estrato:

Como puedes ver, el tamaño de la muestra es igual en todos los estratos (salvo
pequeñas diferencias debidas al redondeo necesario fruto de dividir 1,000 entre
3), en lugar de seguir las proporciones de la población.

Esta técnica favorece los estratos que tienen menos peso en la población,
equiparándolos en importancia a los estratos más relevantes. Globalmente,
reduce la eficiencia de nuestra muestra (menor precisión en los resultados
globales), pero, como contrapartida, permite estudiar características particulares
de todos los estratos con una precisión mínima mayor. En nuestro ejemplo, si
queremos emitir alguna afirmación específica sobre la población del estrato 3
(mayores de 44 años), podremos hacerlo con menos error muestral si
empleamos una muestra de 333 unidades que si lo hacemos con una muestra
de 227 (como ocurriría en el muestreo estratificado proporcional).

3. Muestreo estratificado óptimo (respecto a la desviación estándar)

En este caso, el tamaño de los estratos en la muestra no guarda proporcionalidad


con la población. Por el contrario, se trata de optimizar el tamaño muestral de
cada estrato con el fin de reducir el margen de error global, teniendo en cuenta
no solo el tamaño de cada estrato en la población sino su desviación estándar.
Esta optimización lo que hace, básicamente, es dedicar más unidades de
muestra de las que corresponderían en un muestreo proporcional a aquellos
estratos que tienen más variabilidad y que por lo tanto son más difíciles de
estimar.

La forma exacta en que se calcula el tamaño óptimo de muestra por estrato es


un tema un poco más técnico, pero tienes una explicación detallada en este post,
por si eres de los que les gusta la estadística.

Eficiencia de los diferentes muestreos estratificados

Las preguntas inevitables son: ¿cuándo conviene emplear la estratificación?,


¿qué tipo de estratificación es más conveniente?

El muestreo estratificado proporcional produce siempre menor o igual


error muestral que el muestreo aleatorio simple, es decir, es más preciso. La
igualdad se produce cuando las medias o las proporciones que estamos
analizando son iguales en todos los estratos. Por lo tanto, la estratificación
produce más beneficio cuanto más diferentes sean los estratos entre sí.

El muestreo estratificado óptimo es siempre igual o más preciso que el


muestreo estratificado proporcional. Ambos métodos son igual de precisos
cuando las desviaciones típicas dentro de cada estrato son iguales, en cuyo caso
ambos métodos son totalmente equivalentes. Por lo tanto, la estratificación
óptima produce más beneficio cuanto más diferencias existan entre las
desviaciones dentro de cada grupo, situación en la que podremos reducir el
tamaño muestral de los grupos más homogéneos en beneficio de los más
heterogéneos. Como contrapartida, es un método más complejo y que requiere
tener mucha información a priori de la muestra que estudiamos, algo que
normalmente no tenemos (rara vez conocemos las desviaciones típicas de los
universos que vamos a investigar).

Tamaños de muestra requeridos por cada técnica


Las técnicas de muestreo estratificado pueden emplearse para estimar de forma
más precisa parámetros de las poblaciones de interés, ya sean medias (p.e.
media de cigarrillos consumidos por los fumadores de México) o proporciones
(p.e. proporción de la población de México que fuma). Pero, inversamente,
también pueden permitirnos reducir el tamaño de muestra requerido para lograr
una estimación con un nivel de error determinado.

La siguiente tabla resume el tamaño de muestra requerido al emplear cada


técnica, en función del error máximo que estamos dispuestos a aceptar (e) y de
las características del propio universo. En estas fórmulas consideramos que el
universo es de tamaño infinito. Si fuese finito, debe aplicarse un factor de
corrección.

Para interpretar el cuadro anterior es necesario tener en cuenta lo siguiente:

- Z es el valor crítico de corte de una distribución normal para lograr un nivel de


confianza deseado. Tienes más información sobre el significado de Z aquí. Los
valores más frecuentes son:

Nivel de confianza 90% -> Z=1,645

Nivel de confianza 95% -> Z=1,96

Nivel de confianza 99% -> Z=2,575


- L es el número de estratos en que particionamos la muestra y h es un índice
que se refiere a un estrato concreto. Por lo tanto, h puede variar entre 1 y L
estratos.

- p es la proporción que buscamos en el total de la población (p.e. % de


fumadores). Por lo tanto, (1-p) es la proporción complementaria, la que no
cumple el criterio buscado (% de no fumadores). Del mismo modo, ph es dicha
proporción dentro de cada uno de los estratos.

- σ2 es la varianza del dato buscado (en el caso de estimar medias) en el total


de la población. Asimismo, σh2 es la varianza dentro de cada estrato.

- e es el margen de error aceptado.

- Wh es el peso que el estrato tiene en la muestra (tamaño del estrato respecto


al total de la muestra). Si hablamos de estratificación proporcional, cada Wh es
igual a la proporción que ese estrato representa en la población. Si hablamos de
estratificación óptima, cada Wh se calcula en función de la dispersión dentro de
cada estrato.

Es posible demostrar a partir de las fórmulas anteriores que los diferentes


métodos de estratificación sólo reducen el tamaño de la muestra necesaria si los
valores de p y σ varían entre estratos. De lo contrario, todas las expresiones son
equivalentes. Veamos un ejemplo: si tomamos la expresión de tamaño de
muestra requerido para estimar una media mediante un muestreo estratificado
óptimo, tenemos

n = Z2
(L∑h=1 wh σh )2 e2
Si consideramos que todas las varianzas de los estratos son iguales (σ h=σ) y
que el tamaño de los estratos es idéntico (W h=1/L), el resultado que obtenemos
es

n = Z2
(L∑h=1 wh σh )2 e2
= Z2
(L∑h=1 (1/L)σ )2 e2
= Z2
((L/L)σ)2 e2
= Z2
σ2 e2
que coincide con el tamaño de muestra necesario para tener un error máximo e
en un muestreo aleatorio simple.

Conclusiones

El muestreo estratificado es una técnica que nos permite reducir el error en


nuestras estimaciones siempre y cuando tengamos cierta información a priori
sobre la existencia de grupos homogéneos en la población. Esperamos que este
post te haya ayudado a aclarar la utilidad de este método. En próximos posts
abordaremos el muestreo sistemático.

Muestreo probabilístico: muestreo sistemático

Siguiendo con nuestra serie de posts dedicados a las técnicas de muestreo y


tras examinar el muestreo estratificado, hoy echaremos un vistazo al muestreo
sistemático.
El muestreo sistemático era muy popular en el pasado, antes de que la aparición
de los ordenadores hiciese trivial un problema que siempre había dado muchos
quebraderos de cabeza a los investigadores: elegir individuos de forma aleatoria
dentro de una muestra. En la medida en que los ordenadores nos han facilitado
la tarea de generar números aleatorios, este problema ha desaparecido.

También se sigue utilizando para seleccionar individuos a lo largo del tiempo.


Por ejemplo, para estudiar la satisfacción de un servicio, podemos elegir
sistemáticamente encuestar a 1 de cada n clientes que nos visitan. En estas
circunstancias, en las que puede existir diferente varianza entre individuos en
diferentes periodos de tiempo, el muestreo sistemático puede ser incluso más
preciso que el muestreo aleatorio puro.

¿En qué consiste el muestreo sistemático?

Es una técnica dentro de la categoría de muestreos probabilísticos - y que por lo


tanto requiere tener un control preciso del marco muestral de individuos
seleccionables junto con la probabilidad de que sean seleccionados - consistente
en escoger un individuo inicial de forma aleatoria entre la población y, a
continuación, seleccionar para la muestra a cada enésimo individuo disponible
en el marco muestral.

El muestreo sistemático es un proceso muy simple y que sólo requiere la elección


de un individuo al azar. El resto del proceso es trivial y rápido. Los resultados
que obtenemos son representativos de la población, de forma similar al muestreo
aleatorio simple, siempre y cuando no haya algún factor intrínseco en la forma
en que los individuos están listados que haga que se reproduzcan ciertas
características poblacionales cada cierto número de individuos. Este suceso es
realmente poco frecuente.

El proceso

De forma concreta, el proceso que seguiríamos en un muestreo sistemático sería


el siguiente:
1. Elaboramos una lista ordenada de los N individuos de la población, lo que
sería el marco muestral.

2. Dividimos el marco muestral en n fragmentos, donde n es el tamaño de


muestra que deseamos. El tamaño de estos fragmentos
será: K=N/n, donde K recibe el nombre de intervalo o coeficiente de elevación.

3. Número de inicio: obtenemos un número aleatorio entero A, menor o igual al


intervalo. Este número corresponderá al primer sujeto que seleccionaremos para
la muestra dentro del primer fragmento en que hemos dividido la población.

4. Selección de los n-1 individuos restantes: Seleccionamos los siguientes


individuos a partir del individuo seleccionado aleatoriamente, mediante una
sucesión aritmética, seleccionando a los individuos del resto de fragmentos en
que hemos dividido la muestra que ocupan la misma posición que el sujeto inicial.
Esto equivale a decir que seleccionaremos los individuos:

A, A + K, A + 2K, A + 3K, ...., A + (n-1)K

Ejemplo

Supongamos que tenemos un marco muestral de 5.000 individuos y deseamos


obtener una muestra de 100 de ellos. Dividimos en primer lugar el marco
muestral en 100 fragmentos de 50 individuos. A continuación
seleccionamos un número aleatorio entre 1 y 50, para extraer el primer individuo
al azar del primer fragmento: por ejemplo el 24. A partir de este individuo, queda
definida la muestra extrayendo los individuos de la lista con intervalos de 50
unidades, tal y como sigue:

24, 74, 124, 174, ..., 4.974

Propiedades del muestreo sistemático

✔ Ventajas
- Obtiene buenas propiedades de representatividad, similares a la de un
muestreo aleatorio simple o incluso superiores, pero de forma más rápida y
simple, al evitar la necesidad de generar tantos números aleatorios como
individuos en la muestra.

- Respecto al muestreo aleatorio, el muestreo sistemático puede garantizarnos


una selección perfectamente equitativa de la población. Esto puede ser de
utilidad si se distinguen grupos dentro de universo, lo que nos podría evitar la
necesidad de usar estratos. Si existe diferente varianza entre los individuos de
los fragmentos, este muestreo puede ser mejor que el aleatorio. Lo veremos
luego.

✘ Desventajas

- Sólo existe la ya mencionada posibilidad de que el orden en que se han listado


los candidatos a la muestra tenga algún tipo de periodicidad oculta que coincida
con el intervalo escogido para generar la muestra sistemática. En este caso,
podríamos generar una muestra sesgada.

Eficiencia del muestreo sistemático

El muestreo sistemático se ideó para mejorar las propiedades del muestreo


aleatorio simple, pero el grado de mejora es variable dependiendo de las
propiedades del universo estudiado.

Para entender las propiedades de este muestreo, hay que tener en cuenta una
cosa: si fijamos el intervalo o coeficiente de elevación según el tamaño de la
muestra que necesitamos, sólo hay un elemento aleatorio dentro del proceso de
muestreo: la unidad inicial que seleccionamos del primer bloque de individuos.
El resto queda fijado de antemano. Esto equivale a decir que sólo
tenemos k posibles muestras diferentes a obtener y que el muestreo es
simplemente escoger una de las k muestras disponibles.
Es posible demostrar que cuanto más supera la varianza dentro de las k posibles
muestras que podemos generar a la varianza poblacional, más precisión
ganamos usando el muestreo sistemático respecto al aleatorio simple. Lo
anterior puede interpretarse diciendo que el muestreo sistemático es
más preciso que el aleatorio simple cuando la variabilidad dentro de las posibles
muestras es superior a la variabilidad dentro de las unidades de la población. La
precisión del muestreo sistemático coincide con la del aleatorio simple cuando
ambas variabilidades coinciden, y esto se da cuando la disposición de los
elementos en la población es totalmente aleatoria.

Muestreo probabilístico: muestreo por conglomerados

Con este post dedicado al muestreo por conglomerados cerramos el primer gran
bloque de posts dedicados al muestreo probabilístico. A partir de la próxima
publicación abordaremos técnicas de muestreo no probabilístico, las más
habituales cuando hablamos de investigación online.

El muestreo por conglomerados es una técnica que aprovecha la existencia


de grupos o conglomerados en la población que representan correctamente el
total de la población en relación a la característica que queremos medir. Dicho
de otro modo, estos grupos contienen toda la variabilidad de la población. Si esto
sucede, podemos seleccionar únicamente algunos de estos conglomerados para
conocer la información de interés del total de la población.

Podemos ver esta técnica desde otro punto de vista. Mientras que en todas las
técnicas vistas hasta ahora las unidades de muestreo coinciden con las unidades
a estudiar (individuos), en el muestreo por conglomerados las unidades de
muestreo son grupos de unidades a estudiar (grupos de individuos), algo que
puede resultar muy beneficioso en términos de coste. A cambio, es habitual
obtener una menor precisión al usar esta técnica, causada por falta de
heterogeneidad dentro de los conglomerados.
El proceso de muestreo

El primer paso para aplicar esta técnica es definir los conglomerados. Se trata
de identificar una característica que permita dividir la población en
grupos disjuntos (sin solapamiento) y de forma exhaustiva (todos los individuos
deben estar en un grupo), de tal manera que los grupos no difieran entre sí en
relación a aquello que queremos medir. Una vez hemos definido estos
conglomerados, seleccionaremos al azar algunos de ellos para estudiarlos.

Un criterio habitual para definir conglomerados es el geográfico. Por ejemplo, si


queremos estudiar qué proporción de la población argentina fuma, podemos
dividir el total de la población en provincias y seleccionar algunas de ellas para
ser estudiadas. Si no tenemos razones de peso para pensar que el porcentaje
de fumadores va a cambiar de una provincia a otra, esta solución nos permitirá
concentrar el esfuerzo de muestreo en un único entorno geográfico. Si el estudio
se va a hacer mediante entrevistas personales, esto representa un importante
ahorro de costes de desplazamientos.

Una vez definimos los conglomerados, el siguiente paso es seleccionar los


conglomerados a estudiar, ya sea mediante un muestreo aleatorio simple o
sistemático.

Por último, una vez seleccionados los conglomerados a estudiar, podemos


investigar a todos los sujetos que forman parte de los mismos, o bien aplicar un
nuevo proceso de muestreo dentro del conglomerado, por ejemplo obteniendo
una muestra mediante muestreo aleatorio simple o sistemático. Si optamos por
esta posibilidad, estaremos hablando de un muestreo en dos etapas
o bietápico: la primera etapa será la selección del conglomerado; la segunda, la
de individuos dentro del conglomerado. Si por el contrario estudiamos todos los
individuos del conglomerado, hablaremos de muestreo por
conglomerados unietápico.

Muestreo estratificado y muestreo por conglomerados

La idea del muestreo por conglomerados recuerda a la del muestreo


estratificado. En ambos casos dividimos la población en grupos. Sin embargo,
los principios detrás de ambas técnicas son en cierto modo opuestos.

El muestreo estratificado es especialmente adecuado cuando los grupos


(estratos) son muy homogéneos internamente y muy diferentes entre sí. En ese
caso, conviene asegurar que tenemos representantes en nuestra muestra que
provienen de todos los estratos. Por el contrario, el muestreo por conglomerados
es muy adecuado cuando los grupos en que dividimos la población son muy
similares entre sí, por lo que no hay gran diferencia entre estudiar individuos de
un grupo o de otro.

Es por ello que, pese a que ambas técnicas dividen la población en estratos o
conglomerados, el proceso de selección de individuos es radicalmente diferente.

Ventajas y desventajas del muestreo por conglomerados

✔ La principal ventaja de esta técnica es de tipo operativa: seleccionar un


conglomerado a estudiar suele ser más fácil y económico que hacer una muestra
aleatoria o sistemática. Hemos visto por ejemplo que usar conglomerados
geográficos puede representar un importante ahorro en desplazamientos de
personas.

Curiosamente, es habitual hacer estudios a través de Internet en los que se sigue


pensando en términos de estudiar sólo unas zonas geográficas, cuando en
realidad a través de Internet no obtenemos ningún beneficio operativo; al
contrario, incurrimos en mayor riesgo de tener menor precisión por diferencias
entre las regiones estudiadas y el resto de la población. Esta práctica es una
herencia injustificada de técnicas que eran buenas en entrevistas personales,
pero que no lo son al usar otras metodologías.

✘ Como principal inconveniente, al usar muestreo por conglomerados


corremos un riesgo importante: que los conglomerados no sean realmente
homogéneos entre ellos. En el ejemplo anterior sobre fumadores en Argentina,
podría suceder que en una de las provincias exista más propensión a fumar, por
ser una región más urbana, por razones culturales, etc.

Eficiencia del muestreo por conglomerados

¿Cómo podemos comparar esta técnica con otras vistas con anterioridad? Lo
bien o mal que va a funcionar esta técnica va a depender, de forma similar a
como ocurría en el muestreo estratificado, de la relación entre la varianza dentro
y fuera de los conglomerados.

Esta relación se suele expresar con un coeficiente de correlación


intraconglomerados (δ), que se define como el coeficiente de correlación lineal
entre todos los pares de valores de la variable objeto de estudio, medidos sobre
las unidades de los conglomerados y extendido a todos los conglomerados. En
definitiva, este coeficiente es una medida de la homogeneidad en el interior de
los conglomerados.

Cuanto menor sea el coeficiente de homogeneidad intraconglomerados δ, mayor


eficiencia arrojará el muestreo por conglomerados. Recordemos que lo ideal es
que los conglomerados sean tan heterogéneos como el total de la muestra, con
el fin de que la selección de un conglomerado concreto nos de la misma
información que la selección de individuos al azar del total de la población.

Si comparamos el muestreo aleatorio simple con el muestreo por


conglomerados, es posible demostrar que si δ=0 ambos métodos son
equivalentes. Esta condición implica que los conglomerados son exactamente
tan heterogéneos como el total de la población. El peor caso sería δ=+1 ,
mientras que el más favorable sería el de δ=-1/(M-1), donde M es el tamaño del
conglomerado. Sin embargo, normalmente δ va a ser siempre mayor que 0, ya
que lo normal es que las unidades de un conglomerado tengan cierto parecido
entre sí.

Otra forma de ver el impacto de este problema es calcular el tamaño de muestra


necesario al emplear muestreo por conglomerados para lograr la misma
precisión de un muestreo aleatorio simple. Esta expresión es la siguiente:

nc = na (1 + (M-1) δ)

donde nc es el tamaño de muestra en muestreo por conglomerados y na es el


tamaño de muestra que necesitaríamos en muestreo aleatorio simple. Por lo
tanto, el factor (1+(M-1) δ) es la variación del tamaño de muestra que
necesitamos debido al uso de conglomerados. Normalmente será un incremento.
Este factor se conoce como efecto de diseño.

Muestreo no probabilístico: muestreo por conveniencia

Iniciamos con este post la segunda parte de nuestra serie dedicada a técnicas
de muestreo. En esta segunda parte te explicamos las técnicas de muestreo no
probabilístico. Empezamos hoy con el muestreo por conveniencia, una de las
técnicas más básicas de muestreo.

El muestreo por conveniencia

Antes de empezar, un recordatorio: hablamos


de muestreo no probabilístico cuando no tenemos acceso a una lista completa
de los individuos que forman la población (marco muestral) y, por lo tanto, no
conocemos la probabilidad de que cada individuo sea seleccionado para la
muestra. La principal consecuencia de esta falta de información es que no
podremos generalizar resultados con precisión estadística. Por lo tanto, los
conceptos de error muestral e, inversamente, de tamaño de muestra mínimo
para acotar el error muestral que te explicábamos aquí, no pueden ser aplicados.
Al menos en sentido estricto.

Teniendo claro esto, veamos qué el muestreo por conveniencia. Es una


técnica comúnmente usada consistente en seleccionar una muestra de la
población por el hecho de que sea accesible. Es decir, los individuos
empleados en la investigación se seleccionan porque están fácilmente
disponibles y porque sabemos que pertenecen a la población de interés, no
porque hayan sido seleccionados mediante un criterio estadístico. Esta
conveniencia, que se suele traducir en una gran facilidad operativa y en bajos
costes de muestreo, tiene como consecuencia la imposibilidad de hacer
afirmaciones generales con rigor estadístico sobre la población.

Por ejemplo, supongamos que queremos conocer la opinión de los estudiantes


universitarios chilenos acerca de la política. Una muestra probabilística requeriría
acceder a un censo del total de estudiantes de todas las universidades chilenas
con el fin de seleccionar al azar un grupo de individuos y encuestarlos. Una
muestra por conveniencia podría consistir en dirigirnos a 3 universidades
cercanas, simplemente porque están en la población en la que reside el
encuestador, y encuestar a unos cuantos individuos que acepten participar al
salir de las aulas por la mañana.

Las limitaciones de este tipo de muestreo son obvias. En el ejemplo anterior,


podría suceder que diferentes tipos de universidades correlacionen con estratos
sociales y con opiniones políticas. Es más, si seleccionamos estudiantes de 3
universidades concretas y los encuestamos por la mañana, sus opiniones
podrían ser diferentes de las de estudiantes del turno de tarde (que tal vez
trabajan al mismo tiempo que estudian).

¿Significa lo anterior que los resultados de una muestra por conveniencia son
totalmente irrelevantes, que no nos dicen nada de la población? No exactamente.
Si tenemos buenas razones para pensar que la selección por conveniencia no
va a introducir sesgos respecto al total de la población, los resultados que
obtendremos pueden ser una buena imagen del universo estudiado. El problema
es que no sabremos exactamente cómo de buena es esa imagen: no se
pueden usar herramientas estadísticas como el margen de error y el intervalo de
confianza para medir la precisión de los resultados. Los lectores del estudio
tendrán que confiar en los criterios de la selección hecha por el investigador.

Los estudios clínicos

No debemos ver el muestreo por conveniencia como un método inútil. De hecho,


es habitual su uso exitoso en muchos ámbitos. Por ejemplo, los estudios clínicos
con voluntarios. En dichos estudios, se solicita a personas con ciertas
características físicas que acudan voluntariamente para formar parte de algún
tipo de investigación o incluso algún tratamiento. El investigador clínico que usa
esta técnica está considerando que cualquier individuo que cumpla con una
cierta característica (por ejemplo, ser diabético) va a ser representativo del
universo. O dicho de otra manera, el hecho de que un individuo vea o no vea la
solicitud de voluntarios, acceda o no a participar, sea de una región o de otra,
etc. no va a afectar a sus resultados en el estudio.

A diferencia del ejemplo anterior sobre estudiantes chilenos, en el caso del


estudio clínico el uso de un muestreo por conveniencia parece apropiado y no
hace pensar que se vayan a producir sesgos en los resultados. La clave está
en considerar si la "conveniencia" en la selección realmente va a introducir
un sesgo.

Estudios piloto

Otro uso frecuente de este tipo de muestreo es la realización de un estudio


piloto. Una muestra por conveniencia en una fase inicial de un proyecto nos
puede dar información sobre tendencias y resultados que vamos a encontrar
al usar una muestra probabilística. Esta información podemos usarla para
modificar el planteamiento del estudio antes de incurrir en una técnica de
muestreo más costosa.
Ventajas e inconvenientes

Dadas las características de este tipo de muestreo, sus pros y sus contras son
evidentes:

✔ La principal virtud del muestreo por conveniencia... ¡es su conveniencia!


Simple, económico, rápido... Nos puede dar información valiosa en muchas
circunstancias, especialmente cuando no existen razones fundamentales que
diferencien a los individuos que tengo accesibles de los que forman el total de la
población.

✘ El principal defecto, la falta de representatividad, la imposibilidad de hacer


aseveraciones estadísticas sobre los resultados y el riesgo de incurrir en sesgos
debido al criterio de muestreo empleado. En el peor de los casos, una muestra
conveniente puede presentar un sesgo sistemático respecto al total de la
población, lo que produciría resultados distorsionados.

Margen de error y nivel de confianza

Es un tema que tratamos en un post anterior. No es correcto usar muestreo por


conveniencia y expresar los resultados del estudio indicando un margen de error
y un nivel de confianza. Sin embargo, es algo que se suele hacer.

Si optas por calcular ese margen de error, deberías indicar que no corresponde
a la muestra empleada, sino a una muestra del tamaño aleatoria simple de ese
tamaño. Y, en cualquier caso, siempre que usemos una muestra por
conveniencia, deberíamos acompañar los resultados con una descripción de
cómo se ha obtenido dicha muestra para que el lector valore qué credibilidad
puede dar a los resultados.

Muestreo no probabilístico: muestreo por cuotas


Llegamos al fin, en nuestra serie de posts dedicada al muestreo, al método
estrella entre los muestreos no probabilísticos: el muestreo por cuotas. Esta
técnica es la más habitual en investigación online a través de paneles. Podemos
ver el muestreo por cuotas como la versión no probabilística del muestreo
estratificado.

Fases de un muestreo por cuotas

El muestreo por cuotas consta de tres fases:

1. Segmentación

En primer lugar, dividimos la población objeto de estudio en grupos de forma


exhaustiva (todos los individuos están en un grupo) y mutuamente exclusiva (un
individuo sólo puede estar en un grupo), de forma similar a la división en estratos
empleada en el muestreo estratificado. Normalmente esta segmentación se
hace empleando alguna variable sociodemográfica como sexo, edad, región o
clase social. Te explicamos un poco más abajo los criterios que deberías seguir
para escoger qué variables usas para segmentar y fijar cuotas.

2. Fijamos el tamaño de las cuotas

A continuación, fijamos el objetivo de individuos a encuestar para cada uno de


estos grupos. Normalmente definiremos estos objetivos de forma proporcional al
tamaño del grupo en la población. Por ejemplo, si hemos definido unos
segmentos por sexo en una población en la que hay un 60% de mujeres y un
40% de hombres, y queremos obtener una muestra de 1.000 personas,
definiremos un objetivo de 600 mujeres y 400 hombres. Estos objetivos se
conocen como cuotas. En este ejemplo, tendríamos una cuota por sexo de 600
mujeres y 400 hombres. En ocasiones se definen cuotas no proporcionales a la
población, por ejemplo, para poder profundizar en el análisis de un grupo
específico.

3. Selección de participantes y comprobación de cuotas

Por último, buscamos participantes para cubrir cada una de las cuotas definidas.
En este punto es donde nos alejamos de un muestreo probabilístico. En el
muestreo por cuotas aceptamos que la selección de individuos no sea aleatoria,
puede ser una selección mediante muestreo por conveniencia. Por ejemplo, en
un estudio en el que hayamos definido una cuota de 100 personas menores de
25 años y 100 personas de 25 o más años, podríamos salir a la calle y abordar
a las personas que encontramos a nuestro paso, preguntarles su edad y
encuestarlas si no hemos cubierto nuestro objetivo.

De acuerdo a la descripción anterior, la diferencia entre el muestreo


estratificado y el muestreo por cuotas está en la forma en que se
seleccionan los participantes. En el muestreo estratificado disponemos de una
lista completa de los individuos que forman el universo (es decir, los posibles
entrevistados), todos ellos con una cierta probabilidad conocida de ser
seleccionados. En el muestreo por cuotas no. Vamos obteniendo candidatos a
formar parte de la muestra de forma no aleatoria y vamos comprobando antes
de entrevistar si son válidos para el estudio (es decir, si pueden formar parte de
una de las cuotas definidas o ya hemos excedido el objetivo). Cuando hay que
descartar a un posible participante por efecto de una cuota (es la mujer 101
cuando nuestra cuota es de 100 mujeres), hablamos de un individuo descartado
por ser quota-full.

La elección de variables

La pregunta que nos podemos plantear es: ¿qué variables escoger en un


muestreo por cuotas? ¿cómo segmentamos la población? Esta cuestión es un
factor clave en este técnica.

Para responder, pensemos en la finalidad de usar cuotas: lograr que la muestra


sea lo más representativa posible del universo estudiado. La idea es la
siguiente: aunque estemos seleccionando individuos para la muestra de forma
no aleatoria, al menos garanticemos que dicha muestra guarda las mismas
proporciones que el universo en relación a algunas variables, como sexo y edad.
Pero, ¿por qué sexo y edad? ¿por qué no usar región? ¿o por qué no usar la
altura y el peso de los individuos?

Las variables que usemos para definir cuotas en una muestra deberían cumplir
dos condiciones:
(1) Que sean variables afectadas (es decir, sesgadas) por la forma no
aleatoria en que seleccionamos individuos para la muestra. Por ejemplo, en
una encuesta telefónica tendemos a encontrar personas de más edad que en
una muestra aleatoria, y también un porcentaje elevado de personas en paro.
Por lo tanto, debería añadir una cuota por edad y una por ocupación.

(2) Que sean variables que influyan en el dato que quiero medir. En un
estudio electoral, podemos aceptar que sexo, edad y región influyen en la
intención de voto. Por lo tanto, nos interesa añadir cuotas sobre estas variables.

Veamos los dos criterios anteriores en un ejemplo concreto. Supongamos que


queremos medir a través de una muestra extraída de un panel online el tanto por
ciento de personas que fuman en una población . ¿Qué variables deberíamos
seleccionar para definir cuotas?

Siguiendo el primer criterio, seleccionaremos variables que puedan aparecer


distorsionadas por el hecho de seleccionar a la muestra en un panel online
respecto a la población general: por ejemplo la edad (en los paneles online suele
haber mayor proporción de jóvenes) y la clase social (los paneles tienen
dificultades para captar personas de clases bajas, especialmente en América
Latina).

Podríamos prescindir de cuotas por región geográfica por un doble motivo.


En primer lugar, los paneles online no suelen captar en una región concreta de
un país, sino que captan a través de medios online que son accesibles desde
cualquier región. Podríamos aceptar por lo tanto que la variable "región" no está
afectada por la selección no aleatoria.

Si atendemos al segundo criterio (cuotas que puedan afectar al resultado


medido), podríamos optar por añadir una cuota de sexo: el hábito de fumar
suele variar entre hombres y mujeres y, salvo que trabajemos con un panel en el
que nos garanticen que la composición por sexo es perfecta, es recomendable
controlar esta cuota también.

Muestreo por cuotas y representatividad


El uso de cuotas en un muestreo no probabilístico no nos va a permitir
transformarlo en probabilístico. Seguiremos sin poder calcular el margen de error
y el nivel de confianza sobre los resultados. Es decir, el uso de cuotas no
permite medir el grado de precisión de nuestros resultados.

¿Significa esto que es lo mismo usar o no usar cuotas? ¿Es el muestreo por
conveniencia equivalente al muestreo por cuotas? La respuesta es NO. El uso
de cuotas pone cierto control a los sesgos que pueden producirse por el
método de selección empleado, nos garantiza que en una serie de variables
clave vamos a reproducir la composición de la población en nuestra muestra. El
problema es que, pese a que es una práctica común por parte de muchos
investigadores, no vamos a poder afirmar cuán representativa es nuestra
muestra. Las cuotas mejoran la representatividad, pero no sabemos cuánto.

Pese a todo, el muestreo por cuotas es uno de los métodos de muestreo más
populares y prácticamente el único método viable cuando hacemos
investigación online (salvo que contemos con un panel probabilístico). Usar
cuotas es un sistema efectivo y económico de obtener muestras que
proporcionan información relevante.

Ventajas e inconvenientes

La principal ventaja del muestreo por cuotas es que ofrece resultados útiles
a un coste efectivo y, si se han elegido correctamente las variables sobre las
que segmentar, dichos resultados suelen ser fiables. Y, a fin de cuentas, es con
mucha diferencia el método no probabilístico que más similitudes guarda con
los métodos probabilísticos.

Los principales inconvenientes son:

1. La imposibilidad de acotar el error que estamos cometiendo al usar este tipo


de muestreo

2. El riesgo de obviar una cuota relevante en un estudio. Por ejemplo, si en un


estudio electoral no fijamos una cuota por regiones y resulta que la tendencia
de voto es muy diferente en unas regiones respecto a otras, los resultados
globales estarán fuertemente distorsionados. La elección de cuotas
adecuadas requiere cierto conocimiento previo del investigador tanto del
problema investigado como de la forma en que se obtienen participantes.

3. El coste del muestreo crece de forma exponencial a medida que añadimos


más cuotas (variables a controlar) y más tramos en cada cuota (en un cuota de
edad, por ejemplo, si definimos grupos de edad de 5 años necesitamos más
tramos que si definimos grupos de edad de 20 años).

Errores frecuentes al usar cuotas en Internet

El muestreo por cuotas es una técnica muy popular. La mayor parte de


estudios de mercado u opinión telefónicos y personales, ante la falta de un
marco muestral preciso (como podría ser un censo de población) emplean
cuotas para asegurar un nivel de representatividad aceptable. Esta técnica
también predomina en estudios online a través de paneles. Sin embargo, el
medio online tiene sus particularidades y es frecuente que algunos
investigadores no las tengan en cuenta, limitándose a reproducir técnicas
empleadas en medios offline. Esta práctica puede producir resultados de menor
calidad y en algunos casos mayores costes.

A continuación, te detallamos algunos ejemplos de diferencias en el uso de


cuotas online y offline.

Cuotas geográficas

En offline: la región del encuestado es una variable clave a controlar cuando se


hacen encuestas personales, por razones obvias. Si los encuestadores están en
una ciudad, todos los entrevistados serán de esa ciudad. Es por ello que la región
es una cuota clave.

Si la región está considerada como una variable irrelevante, se puede usar


muestreo por conglomerados o una versión no probabilística similar. En este
caso, la muestra se obtiene de unas cuantas ciudades, las más importantes de
cada país, para reducir el coste.
En online: la región no es tan importante ya que es normal encontrar personas
de diferentes ciudades en Internet sin incurrir en sobrecostes. Por ello, si el factor
geográfico no es clave, podríamos no controlar las cuotas geográficas. En caso
de que fuese importante, podríamos fijar cuotas para obtener respuesta de todas
las regiones, no de unas pocas ciudades. De esta forma obtendríamos mejores
datos y a menor coste, ya que podríamos usar todo el panel para obtener
resultados.

Cuotas por clase social

En offline: la clase social no suele considerarse una cuota clave en países


europeos y norteamericanos, o al menos no en todos los estudios. Las
diferencias entre clases sociales existen pero no son tan profundas como en
ciertas regiones latinoaméricanas, donde al recolectar los datos mediante
entrevista personal, las clases sociales bajas son muy simples de obtener
mientras que las altas son de difícil acceso.

En online: la clase social es más relevante que en offline, especialmente en


países con una adopción de Internet media o baja. Curiosamente, en estos
países la situación en Internet es inversa a la situación offline: es más fácil
acceder a clases altas en Latinoamérica a través de Internet y es muy difícil
acceder a clases bajas.

Cuotas por sexo y edad

En offline: sexo y edad son variable típicamente controladas mediante cuotas.


En encuestas personales no suelen dar muchos problemas, mientras que en
encuestas telefónicas es más sencillo acceder a mujeres que a hombres, y a
personas mayores que a jóvenes. Con la irrupción del móvil el problema se ha
agravado, ya que los jóvenes apenas usan el teléfono fijo.

En online: ambas variables deben controlarse, igual que en offline. Los paneles
online acceden más fácilmente a gente joven, especialmente en la franja de los
20 a 35 años, pero tienen dificultades con adolescente y personas mayores.
También es habitual que los paneles recluten más mujeres que hombres, porque
son más demandadas para estudios de mercado, por lo que es necesario
controlar la variable sexo.

En offline: la región del encuestado es una variable clave a controlar


cuando se hacen encuestas personales, por razones obvias. Si los
encuestadores están en una ciudad, todos los entrevistados serán de esa
ciudad. Es por ello que la región es una cuota clave.

Si la región está considerada como una variable irrelevante, se puede usar


muestreo por conglomerados o una versión no probabilística similar. En
este caso, la muestra se obtiene de unas cuantas ciudades, las más
importantes de cada país, para reducir el coste.

En online: la región no es tan importante ya que es normal encontrar


personas de diferentes ciudades en Internet sin incurrir en sobrecostes.
Por ello, si el factor geográfico no es clave, podríamos no controlar las
cuotas geográficas. En caso de que fuese importante, podríamos fijar
cuotas para obtener respuesta de todas las regiones, no de unas pocas
ciudades. De esta forma obtendríamos mejores datos y a menor coste, ya
que podríamos usar todo el panel para obtener resultados.

Cuotas por clase social


En offline: la clase social no suele considerarse una cuota clave en países
europeos y norteamericanos, o al menos no en todos los estudios. Las
diferencias entre clases sociales existen pero no son tan profundas como
en ciertas regiones latinoaméricanas, donde al recolectar los datos
mediante entrevista personal, las clases sociales bajas son muy simples
de obtener mientras que las altas son de difícil acceso.

En online: la clase social es más relevante que en offline, especialmente


en países con una adopción de Internet media o baja. Curiosamente, en
estos países la situación en Internet es inversa a la situación offline: es
más fácil acceder a clases altas en Latinoamérica a través de Internet y es
muy difícil acceder a clases bajas.
Cuotas por sexo y edad

En offline: sexo y edad son variable típicamente controladas mediante cuotas.


En encuestas personales no suelen dar muchos problemas, mientras que en
encuestas telefónicas es más sencillo acceder a mujeres que a hombres, y a
personas mayores que a jóvenes. Con la irrupción del móvil el problema se ha
agravado, ya que los jóvenes apenas usan el teléfono fijo.

En online: ambas variables deben controlarse, igual que en offline. Los


paneles online acceden más fácilmente a gente joven, especialmente en la
franja de los 20 a 35 años, pero tienen dificultades con adolescente y personas
mayores. También es habitual que los paneles recluten más mujeres que
hombres, porque son más demandadas para estudios de mercado, por lo que
es necesario controlar la variable sexo.

En offline: la región del encuestado es una variable clave a controlar


cuando se hacen encuestas personales, por razones obvias. Si los
encuestadores están en una ciudad, todos los entrevistados serán de esa
ciudad. Es por ello que la región es una cuota clave.

Si la región está considerada como una variable irrelevante, se puede usar


muestreo por conglomerados o una versión no probabilística similar. En este
caso, la muestra se obtiene de unas cuantas ciudades, las más importantes de
cada país, para reducir el coste.

En online: la región no es tan importante ya que es normal encontrar personas


de diferentes ciudades en Internet sin incurrir en sobrecostes. Por ello, si el
factor geográfico no es clave, podríamos no controlar las cuotas geográficas.
En caso de que fuese importante, podríamos fijar cuotas para obtener
respuesta de todas las regiones, no de unas pocas ciudades. De esta forma
obtendríamos mejores datos y a menor coste, ya que podríamos usar todo el
panel para obtener resultados.
Cuotas por clase social

En offline: la clase social no suele considerarse una cuota clave en países


europeos y norteamericanos, o al menos no en todos los estudios. Las
diferencias entre clases sociales existen pero no son tan profundas como en
ciertas regiones latinoaméricanas, donde al recolectar los datos mediante
entrevista personal, las clases sociales bajas son muy simples de obtener
mientras que las altas son de difícil acceso.

En online: la clase social es más relevante que en offline, especialmente en


países con una adopción de Internet media o baja. Curiosamente, en estos
países la situación en Internet es inversa a la situación offline: es más fácil
acceder a clases altas en Latinoamérica a través de Internet y es muy difícil
acceder a clases bajas.

Cuotas por sexo y edad

En offline: sexo y edad son variable típicamente controladas mediante cuotas.


En encuestas personales no suelen dar muchos problemas, mientras que en
encuestas telefónicas es más sencillo acceder a mujeres que a hombres, y a
personas mayores que a jóvenes. Con la irrupción del móvil el problema se ha
agravado, ya que los jóvenes apenas usan el teléfono fijo.

En online: ambas variables deben controlarse, igual que en offline. Los


paneles online acceden más fácilmente a gente joven, especialmente en la
franja de los 20 a 35 años, pero tienen dificultades con adolescente y personas
mayores. También es habitual que los paneles recluten más mujeres que
hombres, porque son más demandadas para estudios de mercado, por lo que
es necesario controlar la variable sexo.

Muestreo no probabilístico por bola de nieve

Finalizamos con este post nuestra serie dedicada a técnicas de muestro.


Hablaremos de una técnica conocida como bola de nieve (snowball sampling).
El muestreo por bola de nieve es una técnica de muestreo no probabilística en
la que los individuos seleccionados para ser estudiados reclutan a nuevos
participantes entre sus conocidos. El nombre de "bola de nieve" proviene
justamente de esta idea: del mismo modo que una bola de nieve al rodar por una
ladera se va haciendo más y más grande, esta técnica permite que el tamaño de
la muestra vaya creciendo a medida que los individuos seleccionados invitan a
participar a sus conocidos.

La bola de nieve se usa con frecuencia para acceder a poblaciones de baja


incidencia y a individuos de difícil acceso por parte del investigador. En
proyectos en los que se quiere estudiar a un colectivo muy específico (por
ejemplo, personas aficionadas al coleccionismo de monedas), puede resultar
mucho más efectivo obtener una muestra a través de conocidos y amigos de los
propios coleccionistas, que mediante una selección puramente aleatoria, en la
que una gran cantidad de individuos candidatos a participar serían descartados.
Supuestamente, es muy probable que un coleccionista de monedas conozca a
otros coleccionistas de monedas, lo que hace de esta técnica una forma efectiva
de muestrear un colectivo que de otra manera resultaría de difícil acceso para el
investigador.

Por lo tanto, la bola de nieve funciona especialmente bien cuando el rasgo


distintivo de la población que queremos estudiar tiende a agrupar a dichos
individuos, a favorecer su contacto social. Es algo más habitual de lo que podría
parecer a simple vista. Es obvio que coleccionistas, practicantes de un deporte
o aficionados a un tipo de música pueden cumplir con esta propiedad. Pero
también aplica a otros colectivos como pacientes de una enfermedad rara, por
poner un ejemplo, ya que su circunstancia personal facilita que estas personas
entren en contacto con otras personas con el mismo rasgo (por ejemplo, en la
consulta del médico, en asociaciones, etc.).
Proceso

El proceso de creación de una muestra mediante bola de nieve se fundamenta


en usar la red de contactos de unos individuos iniciales para acceder a más
gente de un colectivo. Podríamos dividir este proceso en los siguientes pasos:

1. Definir un programa de participación, en el que se describa el proceso por el


que un individuo invita o refiere a otros para que participen.

2. Identificar colectivos u organizaciones que puedan facilitar el acceso a unos


individuos iniciales que cumplan con el rasgo característico del estudio.

3. Obtener contactos iniciales y pedirles su participación. Esta parte sería similar


a una técnica de muestreo convencional, pero destinada a obtener un tamaño
de muestra reducido.

4. Solicitar a los participantes, una vez finalizada la entrevista, el acceso a otros


contactos.

5. Asegurar la diversidad de contactos mediante una correcta selección de los


individuos iniciales y promoviendo que la recomendación no se limite a contactos
muy cercanos.

Tipos de muestreo bola de nieve

Básicamente podemos identificar dos tipos de muestreo de bola de nieve:

1. Muestreo lineal: Cada individuo participante debe recomendar a otro


individuo, de forma que la muestra crece a un ritmo lineal.

2. Muestreo exponencial: Cada individuo debe invitar a participar a dos o más


individuos. De esta forma, cuanta más gente participa en el estudio, más gente
se añade al mismo.

Ventajas e inconvenientes
Las principales ventajas de esta técnica son:

- Permite muestrear poblaciones de difícil acceso.

- Es un proceso económico y sencillo.

- Requiere poca planificación y pocos recursos humanos: los propios sujetos


entrevistados hacen de mano de obra.

Respecto a los inconvenientes:

- Falta de control sobre cómo se constituye la muestra, ya que está en manos de


los propios encuestados y su criterio el seleccionar a nuevos individuos.

- Como toda técnica no probabilística, la bola de nieve no garantiza


representatividad ni permite conocer el grado de precisión que ofrecerá.

- Esta técnica es especialmente sensible al sesgo de muestreo. Dado que los


individuos participantes se obtienen por invitación de individuos ya
seleccionados, podría suceder que todos los individuos compartan ciertas
características o rasgos, independientemente del rasgo objeto de estudio, por lo
que el muestreo estaría accediendo sólo a un subgrupo de la población a
estudiar. Este problema se pone especialmente de manifiesto si la selección de
individuos iniciales no es suficientemente diversa.

- Tamaño de muestra incontrolado: la técnica no permite fijar a priori con


precisión el tamaño de muestra que vamos a obtener.

Otras consideraciones

Sin duda, el principal problema de la bola de nieve es el riesgo de "sesgos de


comunidad": accedemos a un subgrupo de individuos dentro de nuestro target
y el reclutamiento de nuevos miembros no logra salir de ese subgrupo. El único
remedio contra este mal es hacer una buena selección inicial de individuos, que
nos garantice que cualquier subgrupo existente sea accesible en la red de
contactos de los individuos iniciales.
Cabe destacar que esta técnica muchas veces es la única posible cuando nos
dirigimos a colectivos reducidos en los que no es posible tener un marco
muestral. Es por ello que muchos investigadores trabajan en perfeccionar la
técnica para corregir sus sesgos. En concreto, una de las técnicas más
prometedores en las que se trabaja se conoce como Respondent Driven
Sampling, un sistema que trata de corregir mediante un modelo matemático los
posibles sesgos introducidos en la selección de individuos.

También podría gustarte