Seleccion de Muestras

CAPÍTULO 3
SELECCIÓN DE MUESTRAS
Vicente G. Manzano Arrondo
UNIVERSIDAD DE SEVILLA
1. ABORDAJE DIRECTO DE LA POBLACIÓN

2. SOLUCIÓN: ENCUESTA SÓLO A UNA MUESTRA
2.1. A la búsqueda de una solución
2.2. Representatividad de las muestras
2.3. Fases en la obtención de una muestra
2.4. En definitiva
3. ACERCA DEL TAMAÑO DE LA MUESTRA
3.1. Importancia del concepto
3.2. Algunos consejos
3.3. Expresiones de cálculo
4. MUESTRAS NO ALEATORIAS
5. MUESTREO ALEATORIO
5.1. Muestreo aleatorio simple
5.2. Muestreo sistemático con arranque aleatorio
5.3. Muestreo estratificado
5.4. Muestreo de conglomerados
5.5. Variantes
5.6. ¿Cómo escoger un procedimiento de muestreo?
6. ERRORES DE MUESTREO
6.1. El error muestral y sus expresiones asociadas
6.2. El error muestral y la estimación
6.3. Riesgo en la estimación
6.4. Un ejemplo concreto
7. CONSECUENCIAS DEL MUESTREO EN EL ANÁLISIS DE LOS DATOS
7.1. Ponderación
7.2. Varianzas
7.3. Modelos de muestreo en el software al uso
8. PROBLEMAS PRÁCTICOS
8.1. Problemas con la base de datos
8.2. Problemas con la ausencia de respuesta
8.3. Los encuestadores
8. SOFTWARE PARA EL MUESTREO: SOTAM
ANEXO 1: TABLA DE NÚMEROS ALEATORIOS (3000 dígitos)
ANEXO 2: RUTINA BASIC PARA LA SELECCIÓN DE UNIDADES
-34-
1. ABORDAJE DIRECTO DE LA POBLACIÓN
Existen muchas ocasiones, durante la lectura de un texto, en el que la atención baja sensiblemente y el
lector termina entretenido en imágenes y sensaciones que nada tienen que ver con el libro abierto. De hecho, puede
ocurrir que pase alguna que otra hoja, sin retener absolutamente nada. Quizá sea eso lo que está pasando ahora, o
lo que ha pasado antes de una segunda lectura.
Otra de las variantes en las que se sumerge un lector no muy implicado con la cuestión que se trata en el
texto (o la forma de tratarlo), es buscar tareas tangenciales como contar letras, observar los márgenes o el espaciado
entre palabras, etc.
Bien, pues aquí está todo previsto. Si te encuentras en uno de esos momentos de inspiración ¿qué te parece
la figura 2? Es más, te haré una sugerencia: ¿Podrías contar cuántas veces aparece el símbolo %? Está claro que se
trata de un entretenimiento muy limitado. Con unos minutos de paciencia se puede conseguir una solución. Inténtalo
antes de continuar en el siguiente párrafo.
(Pausa)
¿Ya está? Supongamos que lo has hecho. De todas formas no tengo forma de comprobarlo. ¿Cuál ha sido
el resultado? ... ¿Seguro? La solución correcta es 473. Hay 473 símbolos % en la figura 2. ¿Que cómo lo sé? Le dije
al ordenador que lo hiciera y suele hacer caso. Pero la verdad es que no lo he comprobado, ya que se trata de una
tarea muy poco motivante. Si has realizado el ejercicio puede haber coincidido tu solución con la mía. Y puede que
no. Lo cierto es que cabe esperar cierta discrepancia puesto que una de las características más interesantes de las
personas es nuestra capacidad para no responder siempre del mismo modo, mezcla de error y creatividad. Quizá
has vuelto hasta el inicio de la figura 2. para volver a contar un par de veces, después de perder la cuenta en algún
momento. De todas formas no hay que ser muy riguroso y el autor del texto no está vigilando (además, es
comprensivo).
De la tarea que estamos comentando, cabe establecer un par de conclusiones. La primera es que hay
quehaceres pesados, tediosos o que requieren un esfuerzo de tiempo y concentración especiales, que podrían
ahorrarse si existieran estrategias para ello. La segunda conclusión, derivada de la primera, es que fruto de las
características de la tarea, las personas cometemos errores durante el proceso. Ante tales quehaceres, por lo tanto,
es comprensible que exista una relativa desconfianza acerca del resultado obtenido.
Pongamos, por ejemplo, que no estamos implicados en contar los simbolitos de la figura 2, sino en
encontrar cuántos andaluces fuman, al menos, diez cigarrillos al día. Las conclusiones anteriores son también
aplicables aquí:
1. Imaginemos por un momento que hay que salir a la calle y preguntar a cada uno de los 7.314.644 andaluces
(información actualizada al 01.01.1995) si fuma y, en el caso de una respuesta afirmativa, si la cantidad
supera los nueve cigarrillos al día. ¿Mucho, no? ¿Cuánta gente y durante cuánto tiempo se necesitaría para
culminar con el objetivo de medición? Para la inmensa mayoría de los mortales, es una tarea inabordable.
2. Pero si alguien culminara el trabajo ¿Quién iba a creerse el resultado? Posiblemente, para cuando se hubiera
terminado el estudio, parte del conjunto de personas encuestadas ya habrían fallecido. Quizá ya no exista
el tabaco para entonces. Quizá estén todos y en las mismas condiciones, pero los encuestadores hayan
suministrado respuestas imprecisas y errores. Algunos encuestados lo han sido varias veces. A otros no ha
habido manera de localizarlos (se sabe, por ejemplo, que uno estaba con Curro en el Caribe). Así pues, si
se culminara el estudio ¿Seguro que el porcentaje facilitado es el correcto?
-35-
+ ' + ' + + + ' + % ' ' + % + + % + + + % ( ' ' + + ' + + % % + + + ' + + ' + + + (
+ + + + + ( + % + % Í ' + + % % + + % % ' + % + + Í + % ( + % ' % + ( + + ( % + ' Í
+ ' ( ' + + Í + ( Í ( % ' ' + + % % ' ' ' % + Í ( + % ' + + % ' ' ( % % % % % + + +
% % + + + ' ' + + % ' + ( % % ( ' % Í ' ' ' % + + ( ' ' % % + + + ' ' ' % ( Í ' + '
+ + + Í % + ' Í Í ' + % + + % ' + ' ' % + Í ' + + % ' + % ' ( + + ' + ' ' % + Í + Í
+ + + + ' % + + ' ' ' + Í + ' + + + Í ' ' ' % + + ' + ( % ( % + % ' + + + ( % % + +
' ' ' ' % + % % ' Í + + % Í + % + + + % ( + Ê % % ' % ' + + ' % ' + + + ( ' + + + %
+ Í + % ( ' + + + ' + + % % ( % + + ' + % ' ' + + ' + + ( Í + + + ( % % + % ' ' ( +
+ + + + % % + + % % ' ' + % + % Í + % ' % Í + + + ( + + ( ' + ' Í + ' ( ' + + % % '
Í ( % ' ' + + % % + ' ' % % % ( % + + % ' + + Í ( % ( % % % % Ê ' % + Í + + + ' + +
+ % ' + ' % % ' ' % + ' ' + % + + ( ' + % % + + + ' ' ' % ' ( + ' + + + + Í + % ( '
% + + % % % % ' + ' ' % + Í + + % + % ' ' ' ( + ( ' + ' ' % + Í + Í Í + + + ' % Í '
+ + % % % + ' % + + + ' ( ' + ( ( ' + ' % + % + % + + + ' ' + + % + + % ' ' Í + % '
+ Í + + % + + % + + + % ' + Í % % ' % + + + ' % ' + + + + Í ' % + + % + ' + % ' ' +
+ % ' ' % % % ' % + + ' + % ' ' + + ' + + ( Í ' + + ' % % + % ' ' ( ' + ' % + + % +
+ + ' % ' ' ( + % % % + Í + ' % Í % + ' + ( ( ' + ' ) ' ' % + + % % ' Í ( % + ' + +
% % + ' ' % % % ' % + % % ' + + ( ( % ( % % % % ) ' % + % Í + + ' ' + % + % % ' ( '
' + + + ' ' ' ' + ( ' + + Í % ' % ' ' ' ' + ( % + ' + % % + Í + % ( ' % + + % % % +
' + + + % + ( + + Í + % ' ' + ( + ( ' + + ' % + Í + + ( + + ' % Í + + + % Í + + + (
+ ' ( ' + ( ( + + ' + ' + % + + + + ' ( + % + + % % % ' ' + ' Í + + % + + % + + + %
' + % % % + Í + + + ' % ' + + + + ) ' ' + ( ' ' % % + ( ' + + % ' ' + % % ' % + + '
+ % ' ' + % + + + ( Í ' Í + % + + + + + ' ( ' + ' % + ' % ( + ( ' % ( ' ( + % % ( +
Í % ' Í Í % ' Í + % % ' + ' ' ' + + + + + % + Í + + ' ' + % % Í ' + % % ' ' ' % + %
+ % + + % ' % ( % % Ê ' % ' % + % Í + + ' ' + % % % % ' ( ' + + + ' ' % ( + ' ' ' Í
Í % ' % ' ' ' ' + ( % + ' + % % + Í + Í + + + + % % % + ' + Í ' ' + + + % Í + % ' '
+ ( + ( + + + ' % + + + + ' + + ' % + + % + ' ' + + % Í + + ' ( ' % ( ' + + ' + + %
% % + + + + ' ( + % + % % % ( + ' + ' + % + + Í % + + + Í + + % % Í + Í + + + ' % '
+ % + + ( ' ' + ( ' ' % + % + Í % + ' ' ' % + + ' ) + + ' % % ' + + % ' Í ' ( % + %
% % + % + + ' % % + + ' % % ' % ( + ( ' % Í % % ' Ê ' % Í + + ' ( % % + + ' ' ' + '
' ' + ' ' + ( + + + ' + + % % Í + + Í % ( ' ' % % + % + + + % ' + % ' ' Í + % ' % '
% Í + + ' ' + % % % + + ' ' + + + + ' % ' + ' + + ' Í ' ( % % Í % + + ' % + ' + % %
+ ) ( ' ' ' % + + % ' Í + + + Í + ' + + ' Í % ' + + % Í + % + ( + + + + Í + Í ' % +
+ % ' + + % ( ' ' + + % + + + + + ' + + ' + % ( ' + ' Ê + + + + + ( + % + % Í ' + (
' + + % % + + ) % % + + Í + % ( + % ' % + + + + + + + ' Í ' ' ( ' ' ' % % % + Í % +
' + + % % ' ' ' % + + ' % % ' + + % ' Í ' ( % ( % % % + % + + ' % % + + ' ' ' + + %
% ' Í ' % ( ( + Í % ' Í Í ' % Í + ( ' ' % % + ' + ' ' % ' + ' + ' ' + + Í % + ' % %
% % ( + + Í % ( + ' Ê % + Í ' + + % ' + Í ( + + % ' % ' % + Í + % Í + + % % + + ( '
' + + + + + ' % ' ' ( ' % + ' + ( + Í % + % ' + + ' + ( % + + Í ( ' ' ' % + + % ' Í
+ + + Í + + + + + % Ê ' % % % + + % ' ' + ' % ' Í + ( ' % + + % + + + % ( ' ' + + %
% + % + ' + + ' + % ( ' + + ' + + % + + + ( + % + % ( ' ( ' + ' + + % % + + % % ' +
+ + Í + % ( + % Í + % % + + ( % + ' Í + ' ( ' + + ) + ( Í + + ' + + % % ' ' ' % + (
( % + + ' % + + % ' ' ( % % % + % + + + % % + + + ' ' + + % % ' Í + % ( ' % ' ' ( %
' % + + ( ' ' % % + + + + ' % ' + ' + ' ' + + Í % + ' ( ) ' + % % % ' + + ' ( % + Í
' + + % ' + ( ( + + ' ' ' ' % + Í + Í + + + + ' + % % % ' + + + + + ' % + ' ' ' % +
+ ' + ( % ) % + % ' + ' + ( % % ' + % % + % ( ' + % ' Í + + % Í + + + + + % ( + % %
% + + % ' ' + ' % ' + + + + Í + % + % + Í ' % ( ' ' + + ' + + % Í % + + ' + % ' ' +
+ ' + + + ' + + + + + ( ' ' ( ' + + + + % % + + % % ' + % + + Í + % ( + % + + % Í '
% + ( + + ( + ' ( ' + + % + ' Í ( % ' ' + + % % + ' ' % % Í + + ' % ( + % ' + + % '
Figura 2. Disposición espacial de los símbolos {Ê, Í, %, +, ', (, )}
La inmensa mayoría de las ocasiones en las que se pone en marcha una investigación mediante encuestas,
es imposible o no recomendable trabajar directamente con la población. Se ha comentado la limitación en cuanto
a tiempo, esfuerzo y credibilidad en los resultados. Pero hay un mayor número de problemas. Pongamos, por
ejemplo, que debes dar tu opinión acerca de los productos que suministra una pastelería. Vas al local y comes todos
los pasteles. Al terminar (supongamos que eres capaz de ello), dices algo parecido a «¡No estaban mal!».
Supongamos también que la tienda está en periodo de prácticas y quería saber si ya podría abrir ese día o no sus
puertas al público. Ahora el problema ya no tiene sentido. Ya no hay pasteles que vender. El catador ha terminado
con todos. ¿Qué ha ocurrido?: al medir las unidades, éstas quedan destruidas o transformadas. Si se mide a toda la
población, se destruye o transforma en su conjunto, con lo cual se pierde el sentido de la investigación.
Con las personas ocurre algo parecido a los pasteles: una vez medidas (encuestadas) no son las mismas. Si
abordamos a un conjunto de sujetos que están en la cola para entrar a ver Rambo XVII, y les preguntamos sobre la
influencia nefasta de la violencia en el cine en la inteligencia útil del espectador, quizá no vean la película con los
-36-
mismos ojos que si no les hubiéramos preguntado nada.
Así pues, por lo general, no es posible encuestar a toda la población. Pero si fuera posible, los resultados
no serían creíbles. Y si fueran creíbles, ya no serían aplicables a la población objetivo, pues ésta habría sido
transformada.
2. SOLUCIÓN: ENCUESTA SÓLO A UNA MUESTRA
2.1. A la búsqueda de una solución
En el punto anterior nos planteamos encontrar el número de % que contiene la figura 2. Surgió el problema
de lo costoso del proceso y el problema quedó sin solución. No obstante, cabe esperar que algunos lectores hayan
elaborado ya una estrategia concreta para obtener la medida. Una buena salida es cuadricular la figura 2, como
consta por ejemplo en la figura 4 (página siguiente). Todas las cuadrículas cuentan con el mismo área y el mismo
número de símbolos. En el caso de la figura 4, hay 3x4=12 cuadrículas con 12x14=168 símbolos por cuadrícula.
Podemos escoger una cualquiera y contar el número de veces que aparece %.
La primera cuadrícula (fila 1, columna 1) aparece separada en la figura 3. Su lectura resulta ahora menos
desagradable que en el primer ejercicio. Si abordamos el objetivo de encontrar cuántos símbolos % aparecen, el
resultado al que debe llegarse (salvo errores inintencionados) es 39.
Muy bien ¿Y qué nos importa el 39 ahora, si lo que interesa
+ ' + ' + + + ' + % ' ' + %
es el total para toda la figura 2? La estrategia continúa suponiendo que + + + + + ( + % + % Í ' + +
+ ' ( ' + + Í + ( Í ( % ' '
esa cantidad (39) viene a ser constante para las doce cuadrículas, por % % + + + ' ' + + % ' + ( %
+ + + Í % + ' Í Í ' + % + +
lo que el total debe ser, aproximadamente, 39x12 = 468. + + + + ' % + + ' ' ' + Í +
El procedimiento que hemos puesto en marcha para encontrar ' ' ' ' % + % % ' Í + + % Í
+ Í + % ( ' + + + ' + + % %
solución a la pregunta «¿Cuántos % hay en la figura?», da pié a + + + + % % + + % % ' ' + %
Í ( % ' ' + + % % + ' ' % %
establecer una serie de reflexiones de gran trascendencia en las + % ' + ' % % ' ' % + ' ' +
% + + % % % % ' + ' ' % + Í
investigaciones mediante encuestas:
Figura 3. Disposición de los símbolos

1. Dado que la población en su totalidad no es abordable, existe una en la cuadrícula 1.
estrategia que parte de considerar únicamente una porción de
la población, porción que denominamos muestra.
2. La investigación se realiza sobre la muestra, no sobre la población. No obstante, es ésta última la que interesa,
por lo que debe ponerse en marcha algún procedimiento para el camino de vuelta. En otros términos, una
vez obtenidos los resultados al nivel de la muestra, debe responderse a la pregunta clave ¿qué se habría
obtenido de haber realizado las mediciones directamente en la población? En el ejemplo, se han obtenido
39 ocurrencias de % en la muestra y hemos supuesto que, de haber medido directamente la población, se
habría obtenido 468 observaciones de %.
3. Es razonable pensar que la calidad del camino de vuelta dependa en muy buena medida de cómo se ha realizado
el de ida. En otros términos, no basta con extraer una muestra, sino que el procedimiento de selección de
ésta debe cumplir con determinadas características. El objetivo es garantizar, a través del procedimiento
de selección, que la muestra sea representativa de la población, es decir, que los resultados que se
consigan al nivel de la muestra sean razonablemente extrapolables a la población a la que representa o
sustituye en el estudio.
-37-
+ ' + ' + + + ' + % ' ' + %*+ + % + + + % ( ' ' + + ' +*+ % % + + + ' + + ' + + + (
+ + + + + ( + % + % Í ' + +*% % + + % % ' + % + + Í + %*( + % ' % + ( + + ( % + ' Í
+ ' ( ' + + Í + ( Í ( % ' '*+ + % % ' ' ' % + Í ( + % '*+ + % ' ' ( % % % % % + + +
% % + + + ' ' + + % ' + ( %*% ( ' % Í ' ' ' % + + ( ' '*% % + + + ' ' ' % ( Í ' + '
+ + + Í % + ' Í Í ' + % + +*% ' + ' ' % + Í ' + + % ' +*% ' ( + + ' + ' ' % + Í + Í
+ + + + ' % + + ' ' ' + Í +*' + + + Í ' ' ' % + + ' + (*% ( % + % ' + + + ( % % + +
' ' ' ' % + % % ' Í + + % Í*+ % + + + % ( + Ê % % ' % '*+ + ' % ' + + + ( ' + + + %
+ Í + % ( ' + + + ' + + % %*( % + + ' + % ' ' + + ' + +*( Í + + + ( % % + % ' ' ( +
+ + + + % % + + % % ' ' + %*+ % Í + % ' % Í + + + ( + +*( ' + ' Í + ' ( ' + + % % '
Í ( % ' ' + + % % + ' ' % %*% ( % + + % ' + + Í ( % ( %*% % % Ê ' % + Í + + + ' + +
+ % ' + ' % % ' ' % + ' ' +*% + + ( ' + % % + + + ' ' '*% ' ( + ' + + + + Í + % ( '
% + + % % % % ' + ' ' % + Í*+ + % + % ' ' ' ( + ( ' + '*' % + Í + Í Í + + + ' % Í '
+ + % % % + ' % + + + ' ( '*+ ( ( ' + ' % + % + % + + +*' ' + + % + + % ' ' Í + % '
+ Í + + % + + % + + + % ' +*Í % % ' % + + + ' % ' + + +*+ Í ' % + + % + ' + % ' ' +
+ % ' ' % % % ' % + + ' + %*' ' + + ' + + ( Í ' + + ' %*% + % ' ' ( ' + ' % + + % +
+ + ' % ' ' ( + % % % + Í +*' % Í % + ' + ( ( ' + ' ) '*' % + + % % ' Í ( % + ' + +
% % + ' ' % % % ' % + % % '*+ + ( ( % ( % % % % ) ' % +*% Í + + ' ' + % + % % ' ( '
' + + + ' ' ' ' + ( ' + + Í*% ' % ' ' ' ' + ( % + ' + %*% + Í + % ( ' % + + % % % +
' + + + % + ( + + Í + % ' '*+ ( + ( ' + + ' % + Í + + (*+ + ' % Í + + + % Í + + + (
+ ' ( ' + ( ( + + ' + ' + %*+ + + + ' ( + % + + % % % '*' + ' Í + + % + + % + + + %
' + % % % + Í + + + ' % ' +*+ + + ) ' ' + ( ' ' % % + (*' + + % ' ' + % % ' % + + '
+ % ' ' + % + + + ( Í ' Í +*% + + + + + ' ( ' + ' % + '*% ( + ( ' % ( ' ( + % % ( +
Í % ' Í Í % ' Í + % % ' + '*' ' + + + + + % + Í + + ' '*+ % % Í ' + % % ' ' ' % + %
+ % + + % ' % ( % % Ê ' % '*% + % Í + + ' ' + % % % % '*( ' + + + ' ' % ( + ' ' ' Í
Í % ' % ' ' ' ' + ( % + ' +*% % + Í + Í + + + + % % % +*' + Í ' ' + + + % Í + % ' '
+ ( + ( + + + ' % + + + + '*+ + ' % + + % + ' ' + + % Í*+ + ' ( ' % ( ' + + ' + + %
% % + + + + ' ( + % + % % %*( + ' + ' + % + + Í % + + +*Í + + % % Í + Í + + + ' % '
+ % + + ( ' ' + ( ' ' % + %*+ Í % + ' ' ' % + + ' ) + +*' % % ' + + % ' Í ' ( % + %
% % + % + + ' % % + + ' % %*' % ( + ( ' % Í % % ' Ê ' %*Í + + ' ( % % + + ' ' ' + '
' ' + ' ' + ( + + + ' + + %*% Í + + Í % ( ' ' % % + % +*+ + % ' + % ' ' Í + % ' % '
% Í + + ' ' + % % % + + ' '*+ + + + ' % ' + ' + + ' Í '*( % % Í % + + ' % + ' + % %
+ ) ( ' ' ' % + + % ' Í + +*+ Í + ' + + ' Í % ' + + % Í*+ % + ( + + + + Í + Í ' % +
+ % ' + + % ( ' ' + + % + +*+ + + ' + + ' + % ( ' + ' Ê*+ + + + + ( + % + % Í ' + (
' + + % % + + ) % % + + Í +*% ( + % ' % + + + + + + + '*Í ' ' ( ' ' ' % % % + Í % +
' + + % % ' ' ' % + + ' % %*' + + % ' Í ' ( % ( % % % +*% + + ' % % + + ' ' ' + + %
% ' Í ' % ( ( + Í % ' Í Í '*% Í + ( ' ' % % + ' + ' ' %*' + ' + ' ' + + Í % + ' % %
% % ( + + Í % ( + ' Ê % + Í*' + + % ' + Í ( + + % ' % '*% + Í + % Í + + % % + + ( '

' + + + + + ' % ' ' ( ' % +*' + ( + Í % + % ' + + ' + (*% + + Í ( ' ' ' % + + % ' Í
+ + + Í + + + + + % Ê ' % %*% + + % ' ' + ' % ' Í + ( '*% + + % + + + % ( ' ' + + %
% + % + ' + + ' + % ( ' + +*' + + % + + + ( + % + % ( '*( ' + ' + + % % + + % % ' +
+ + Í + % ( + % Í + % % + +*( % + ' Í + ' ( ' + + ) + (*Í + + ' + + % % ' ' ' % + (
( % + + ' % + + % ' ' ( % %*% + % + + + % % + + + ' ' +*+ % % ' Í + % ( ' % ' ' ( %
' % + + ( ' ' % % + + + + '*% ' + ' + ' ' + + Í % + ' (*) ' + % % % ' + + ' ( % + Í
' + + % ' + ( ( + + ' ' ' '*% + Í + Í + + + + ' + % % %*' + + + + + ' % + ' ' ' % +
+ ' + ( % ) % + % ' + ' + (*% % ' + % % + % ( ' + % ' Í*+ + % Í + + + + + % ( + % %
% + + % ' ' + ' % ' + + + +*Í + % + % + Í ' % ( ' ' + +*' + + % Í % + + ' + % ' ' +
+ ' + + + ' + + + + + ( ' '*( ' + + + + % % + + % % ' +*% + + Í + % ( + % + + % Í '
% + ( + + ( + ' ( ' + + % +*' Í ( % ' ' + + % % + ' ' %*% Í + + ' % ( + % ' + + % '
Figura 4. Cuadriculado de la disposición espacial de los símbolos {Ê, Í, %, +, ', (, )}
4. No se ha medido directamente la población. En su lugar se ha puesto en marcha una estrategia. Como resultado
final, cabe esperar algún error durante el camino de vuelta, ya que la población no tiene por qué coincidir
con la estimación que se hace de ella. En el ejemplo, se supone la existencia de 468 símbolos %, cuando
realmente hay 473. La diferencia entre el valor de la medida en la población y la medida en la muestra
(468-473=5) se desconoce en la práctica (conocer el valor en la población es el objetivo de la
investigación), pero cabe esperar que no sea muy elevado. Esta esperanza es tanto mayor cuanto mejor se
ha seleccionado la muestra.
-38-
Los cuatro párrafos anteriores están muy densos. En ellos se hace explícito los principios básicos de un
muestreo, si bien de forma muy superficial. El objetivo es que a lo largo de este capítulo se asienten con mayor
seguridad.
2.2. Representatividad de las muestras
Hasta el momento hemos hecho explícito la intención de obtener una medida en la población. Dado que
esto no ha sido posible, se ha seleccionado una muestra y realizado la medición en ella. La cuestión es que este
proceder es recomendable sólo si la muestra es representativa de la población que interesa en el estudio.
En el fondo, la representatividad se refiere a que la muestra reúna las características más importantes de
la población de cara a los objetivos del estudio. Pongamos por caso que queremos averiguar la opinión que un
colectivo determinado tiene con respecto a la integración de la mujer al mundo laboral. Es razonable suponer que
el sexo del encuestado puede influir en las respuestas. Si la muestra contiene una proporción más elevada de mujeres
o de hombres que la población de interés, los resultados obtenidos pueden no ser representativos. En este caso se
dice que la muestra está sesgada con respecto a la variable sexo.
Una salida puede consistir en forzar que en la muestra existan las mismas proporciones de hombres y
mujeres que en la población. Esto es posible. Pero pongamos por caso que existen sospechas de que el nivel
socioeconómico sea una variable también influyente en la opinión sobre la integración laboral de la mujer. En tal
situación, debería procurarse que la repartición de esa variable en la muestra fuera un fiel reflejo de su distribución
en la población. También es posible, si bien el diseño del muestro comienza a complicarse. Si se establecen cinco
categorías para el nivel socioeconómico, se debe conseguir 2x5=10 subconjuntos de la población en la muestra.
¿Qué ocurre si la edad también quiere ser considerada? ¿Y la experiencia laboral? ¿Y el nivel y tipo de estudios?,
... Es más, quizá existan variables importantes de las que el investigador no suponga influencia alguna. Quizá el color
de los ojos o la longitud del cabello o ¡quién sabe!.
Está claro que es imposible considerar a todas las variables con algún tipo de repercusión sobre los
objetivos de medida en la investigación. Entonces, ¿cómo garantizar una muestra representativa? Respuesta:
mediante el azar.
Si lanzamos una moneda al aire y dejamos que caiga, una vez que permanece inmóvil mostrará una de sus
dos caras. Será la cara A o la cara B. Si realizamos 100 lanzamientos, cabría esperar que aproximadamente en 50
ocasiones se haya obtenido A y en las 50 restantes, B. En este último resultado no ha intervenido la intención de
quien tira la moneda al aire. Quizá en los tres primeros lanzamientos se ha obtenido sólo A. Pero conforme se ha
continuado con la experiencia y si la moneda está equilibrada, el resultado se ha ido acercando progresivamente a
un porcentaje del 50% para ambas caras.
Se puede repartir a 1000 personas en dos grupos de 500 personas cada uno. Si la repartición es aleatoria
(se lanza una moneda al aire para decidir en qué grupo va cada sujeto), cabe esperar que las proporciones de mujeres
y hombres en cada grupo sean equiparables en ambos grupos y ¡sin un control específico! Igualmente debe ocurrir
con cualquier otra variable: color de ojos, edad, número de calzado, aspiraciones políticas, cantante preferido...
Por esta razón se establece que una muestra, para ser considerada representativa, ha debido de ser obtenida
mediante un procedimiento aleatorio.
No obstante el azar es eso, azar. Su comportamiento es imprevisible con total exactitud. Por esta razón, los
procedimientos de muestreo, aún basándose en la selección aleatoria, establecen ciertas restricciones para garantizar
el control específico de algunas variables. Así, por ejemplo, en la investigación que nos ocupa en este punto, se
pueden extraer dos muestras totalmente aleatorias: una de hombres y otra de mujeres, con la cantidad de sujetos
-39-
necesaria en cada caso para que la proporción de las categorías de sexo coincidan con exactitud en muestra y
población.
En un grueso apartado posterior, de este mismo capítulo, abordaremos los diferentes procedimientos al uso
para obtener muestras aleatorias, bien sea con o sin restricciones o controles específicos. Lo que nos importa aquí
es comprender la importancia del azar para garantizar la representatividad de una muestra. Esta importancia es la
que fundamenta muchos aspectos en la investigación por muestreo, como lo es la selección de los encuestados, el
comportamiento del encuestador, incluso el análisis de datos posterior.
2.3. Fases en la obtención de una muestra
La selección de una muestra concreta y no otra, corresponde a un macro-apartado dentro del marco más
amplio de la investigación en su conjunto. Como cabe esperar que ocurra, los pasos iniciales de la investigación y
la especificación de los objetivos, bañan todo el proceso hasta el establecimiento final de conclusiones, sin que el
diseño de la muestra sea una excepción.
Así pues, el esquema básico de una investigación por muestreo, debe consistir en la culminación de los
siguientes puntos (un esquema mucho más completo y extenso puede encontrarse en Campoy (1980), especialmente
a partir de la página 30):
1. Definición de los objetivos del estudio.

2. Definición de la población o colectivo de interés, que pasa por responder a cuatro preguntas básicas:
- Qué: cuál es el contenido de la población, es una población de qué, cuáles son los elementos básicos que
la conforman.
- Cómo: en qué va a ser medida la población, cuál es su unidad de contenido (unidad de muestreo: familias,
instituciones,...). «Las unidades de muestreo deben ser definidas de forma tal que su
identificación sea inequívoca, no exista solapamiento entre ellas, a cada unidad se le pueda
asignar una probabilidad para su posible selección, y que la totalidad de las unidades de
muestreo coincida con la población que pretendemos estudiar» (Sánchez Crespo, 1967:24).
- Dónde: qué extensión, volumen o número de unidades de muestreo abarca, o bien cuál es el espacio de
referencia.
- Cuándo: en qué momento del tiempo (período de referencia), sea puntual o especificado en un intervalo.
Un caso: alumnos de la Universidad de Sevilla, en grupos de clase, durante el curso académico
1992/1993.
3. Especificación de qué variables deben medirse, en las unidades seleccionadas.

4. Consideración de los recursos reales a disposición del equipo investigador: en qué condiciones se desarrolla el
trabajo y qué potencial y limitaciones existen a niveles personales, materiales, económicos y temporales.
«Cada diseño real representa una adaptación de la teoría de muestreo a los problemas existentes y a los
recursos de que se dispone» (Kish, 1982:46).
5. Obtención, revisión y primeras depuraciones del marco o soporte de información sobre la población (listas,
directorios, mapas, referencias de otras investigaciones, etc.)
6. Construcción o selección y modificación de la/s herramienta/s de recogida de datos.
7. Diseño del muestreo:
-40-
«El diseño de la muestra es una programación preparada de antemano destinada a recopilar y analizar
la información necesaria para satisfacer los objetivos del estudio al más bajo costo posible» (Lininger y
Warwick, 1984:69).
- En función de los puntos 1 a 5, decisión sobre el modelo o tipo de muestreo que va a ser aplicado.
- Decisión acerca del tamaño de la muestra.
- Confección del listado con las unidades de muestreo que se seleccionan, salvo en los diseños de muestreo
donde las unidades concretas son seleccionadas sobre la marcha, durante el trabajo de campo.
- Redacción del programa de operaciones o planificación temporalizada de la fase de recogida de datos.
8. Formación o capacitación de los entrevistadores o encuestadores o experimentadores (en general, agentes). El

agente no sólo es la persona que realiza una entrevista personal con quien facilita los datos; puede ser
también el encargado de repartir, instruir y recoger cuestionarios en un entorno natural. Las consecuencias
de un muestreo inadecuado son igualmente desastrosas en cualquier procedimiento de investigación
científica. Asimismo, las implicaciones en el análisis de datos, con respecto a qué diseño de muestreo fue
realizado, son idénticas en trabajos de entorno natural o de laboratorio, a la hora de manejar estimaciones
de los valores poblacionales.
9. Recogida de datos. Supervisión de la labor de los agentes. Resolución de problemas prácticos (problemas de
marco, personas que rehúsan responder, errores de los agentes,...). Antes de esta etapa, puede ser de mucho
interés realizar un ensayo previo o estudio piloto donde se prueban el procedimiento, el marco, los agentes
y la herramienta.
10. Revisión de los datos recogidos: incoherencias, errores en la codificación o trascripción, decisión sobre nuevos
problemas de marco. Si la cantidad de datos es muy voluminosa puede ser recomendable utilizar métodos
generales de revisión automática (medios informáticos) para todo el conjunto de datos. Para una muestra
aleatoria de éstos, se realiza una revisión y seguimiento de errores mucho más minuciosa (p.e. Aparicio,
1991).
11. Conclusiones operativas útiles para futuras investigaciones en el mismo o similar entorno, en lo que se refiere
a la obtención y trabajo con la muestra.
A grandes rasgos, los puntos 1 al 11 son aspectos cronológicamente ordenados. No obstante, los saltos son
continuos en función de las necesidades del momento. Así, por ejemplo, la construcción de un cuestionario puede
estar en función no sólo directamente de los recursos y definición de la población y variables a medir, sino también
del tamaño de la muestra y la preparación de los agentes, aspectos que limitan sensiblemente la longitud del
cuestionario e influyen sobre su estructura.
Asimismo, los problemas de marco inundan toda la investigación desde sus fases iniciales; la resolución
de inconvenientes fácticos derivados del marco puede durar casi tanto como la investigación misma.
Por otro lado, en los estudios de las ciencias sociales, la población (y, por tanto, la muestra) está constituida,
en último término, por personas; el marco está construido, facilitado, estudiado y depurado por personas; los
investigadores, agentes, entidades financieras, colaboradoras, comerciales, los codificadores y transcriptores, etc.
son o están constituidos por personas; y, por último, quienes facilitan los datos de las mediciones son también
personas. En este entorno, no es posible realizar un buen estudio, planificación y diseño de muestreo y trabajo de
campo, sin plantearse el contacto con todas estas personas, para que llegue a ser lo más exitoso y lo menos
problemático posible, a través de la consideración de factores como la motivación, el trato o el refuerzo (Fazeli y
-41-
otros, 1990). Al respecto, quizá los eslabones más frágiles de la cadena sean los encuestadores y los encuestados
(Noelle, 1970).
2.4. En definitiva
El trabajo de campo es uno de los apartados más voluminosos y costosos en toda investigación no
exclusivamente teórica. Es una fase en la que los aspectos prácticos dominan claramente la situación. Las
limitaciones temporales y, sobretodo, económicas imponen serias restricciones a diseños ideales de recogida de datos
(Cochran, 1976; Raj, 1980; Manheim, 1982). Por ello, la obtención de una muestra a través de un diseño de muestreo
adecuado, no sólo permite ajustarse a las limitaciones prácticas (lo que posibilita el estudio), sino que también
permite concentrar los esfuerzos personales, temporales y económicos en un estudio de mayor calidad y exactitud,
derivando finalmente en unas conclusiones más fiables (Kalton, 1987). Como señala Raj (op. cit.:36) «Es curioso
que se espere que los resultados de una encuesta por muestreo bien planeada y ejecutada sean más exactos (más
cercanos al objetivo de estudio) que los que proceden de un censo completo», afirmación compartida por otros
autores (por ejemplo, Yates, 1981).
3. ACERCA DEL TAMAÑO DE LA MUESTRA
3.1. Importancia del concepto
Sin duda alguna, uno de los aspectos que antes preocupan a un investigador que se enfrenta a un estudio
que requiere selección de una muestra es el tamaño de ésta (Feigl, 1978; Teijeiro, 1990; Sudman, 1983; Kalton,
1987; Fink y Kosecoff, 1989; Czaja y Blair, 1996). La decisión sobre el número de unidades a seleccionar no
siempre está bien fundada y, por el contrario, frecuentemente se encuentra en función de criterios como la
comodidad o el hábito (Manzano, 1996).
Observemos la figura 7 (página 45). En ella se ha realizado un cuadriculado más pequeño que en el caso
de la figura 4. Como resultado, se han obtenido 8x6 = 48 porciones o posibles muestras de la población de símbolos.
Indudablemente, seleccionar una muestra compuesta por una única cuadrícula y contar las ocurrencias del símbolo
%, es mucho más rápido y cómodo en la figura 7 que en la 4. No obstante, esta comodidad conlleva consecuencias
desastrosas. Para obtener una idea de lo que se está tratando, seleccionaremos la primera cuadrícula (figura 5).
En ella, se obtiene un monto de 4 ocurrencias para %, de un total de 42 símbolos. Luego, la estimación para
la población es de 4x48 = 192 unidades %. Se observa la discrepancia entre la
cantidad estimada (192) y la real (473). + ' + ' + + +
Dos cuadrículas más a la derecha (figura 6) se cuentan 12 ocurrencias + + + + + ( +
+ ' ( ' + + Í
para %, lo que implica una estimación de 12x48 = 576 unidades % para la % % + + + ' '
+ + + Í % + '
población. Observemos la enorme distancia entre las estimaciones desde dos + + + + ' % +
muestras provenientes de la misma población: 192 y 576. + + 5% + + + %
Figura
% % + + % % '
El problema origen de estas discrepancias es un tamaño de muestra
+ + % % ' ' '
excesivamente pequeño. En el apartado anterior se menciona la utilidad del % ( ' % Í ' '
% ' + ' ' % +
azar para garantizar la representatividad de la muestra. No obstante esta ' + + + Í ' '
garantía decrece rápidamente conforme el número de ensayos disminuye. Así,
al lanzar un millón de veces una moneda al aire, cabe esperar un porcentaje de Figura 6
cada cara del 50%. Pero si la moneda es lanzada sólo cuatro veces, nadie se
-42-
echaría las manos a la cabeza si apareciera la cara A en las cuatro ocasiones. Son resultados esperables por mero
azar cuando el número de ensayos es tan pequeño.
Está claro, pues, que una muestra demasiado pequeña no puede considerarse representativa. Pero ello no
debe llevar a la creencia de que la mejor regla para el tamaño de una muestra es mejor que sea más bien grande
(Jollife, 1986). Si bien las muestras son, con frecuencia, demasiado pequeñas (Kachelmeier y Messier, 1990), otras
veces son demasiado grandes, y ambos extremos son usualmente fatales (Stuart, 1984). Si es pequeña (con respecto
a lo que debería), no confiamos suficientemente en el control inespecífico del azar y los resultados son poco creíbles.
Si es grande (con respecto a lo que debería), implica un despilfarro innecesario de medios personales, temporales
y económicos e, incluso, una disminución del control efectivo sobre la situación del trabajo de campo, por lo que
los resultados también serían poco creíbles. En definitiva, se requiere obtener un tamaño óptimo.
+ ' + ' + + +*' + % ' ' + %*+ + % + + + %*( ' ' + + ' +*+ % % + + + '*+ + ' + + + (
+ + + + + ( +*% + % Í ' + +*% % + + % % '*+ % + + Í + %*( + % ' % + (*+ + ( % + ' Í
+ ' ( ' + + Í*+ ( Í ( % ' '*+ + % % ' ' '*% + Í ( + % '*+ + % ' ' ( %*% % % % + + +
% % + + + ' '*+ + % ' + ( %*% ( ' % Í ' '*' % + + ( ' '*% % + + + ' '*' % ( Í ' + '
+ + + Í % + '*Í Í ' + % + +*% ' + ' ' % +*Í ' + + % ' +*% ' ( + + ' +*' ' % + Í + Í
+ + + + ' % +*+ ' ' ' + Í +*' + + + Í ' '*' % + + ' + (*% ( % + % ' +*+ + ( % % + +
' ' ' ' % + %*% ' Í + + % Í*+ % + + + % (*+ Ê % % ' % '*+ + ' % ' + +*+ ( ' + + + %
+ Í + % ( ' +*+ + ' + + % %*( % + + ' + %*' ' + + ' + +*( Í + + + ( %*% + % ' ' ( +
+ + + + % % +*+ % % ' ' + %*+ % Í + % ' %*Í + + + ( + +*( ' + ' Í + '*( ' + + % % '
Í ( % ' ' + +*% % + ' ' % %*% ( % + + % '*+ + Í ( % ( %*% % % Ê ' % +*Í + + + ' + +
+ % ' + ' % %*' ' % + ' ' +*% + + ( ' + %*% + + + ' ' '*% ' ( + ' + +*+ + Í + % ( '
% + + % % % %*' + ' ' % + Í*+ + % + % ' '*' ( + ( ' + '*' % + Í + Í Í*+ + + ' % Í '
+ + % % % + '*% + + + ' ( '*+ ( ( ' + ' %*+ % + % + + +*' ' + + % + +*% ' ' Í + % '
+ Í + + % + +*% + + + % ' +*Í % % ' % + +*+ ' % ' + + +*+ Í ' % + + %*+ ' + % ' ' +
+ % ' ' % % %*' % + + ' + %*' ' + + ' + +*( Í ' + + ' %*% + % ' ' ( '*+ ' % + + % +
+ + ' % ' ' (*+ % % % + Í +*' % Í % + ' +*( ( ' + ' ) '*' % + + % % '*Í ( % + ' + +
% % + ' ' % %*% ' % + % % '*+ + ( ( % ( %*% % % ) ' % +*% Í + + ' ' +*% + % % ' ( '
' + + + ' ' '*' + ( ' + + Í*% ' % ' ' ' '*+ ( % + ' + %*% + Í + % ( '*% + + % % % +
' + + + % + (*+ + Í + % ' '*+ ( + ( ' + +*' % + Í + + (*+ + ' % Í + +*+ % Í + + + (

+ ' ( ' + ( (*+ + ' + ' + %*+ + + + ' ( +*% + + % % % '*' + ' Í + + %*+ + % + + + %
' + % % % + Í*+ + + ' % ' +*+ + + ) ' ' +*( ' ' % % + (*' + + % ' ' +*% % ' % + + '
+ % ' ' + % +*+ + ( Í ' Í +*% + + + + + '*( ' + ' % + '*% ( + ( ' % (*' ( + % % ( +
Í % ' Í Í % '*Í + % % ' + '*' ' + + + + +*% + Í + + ' '*+ % % Í ' + %*% ' ' ' % + %
+ % + + % ' %*( % % Ê ' % '*% + % Í + + '*' + % % % % '*( ' + + + ' '*% ( + ' ' ' Í
Í % ' % ' ' '*' + ( % + ' +*% % + Í + Í +*+ + + % % % +*' + Í ' ' + +*+ % Í + % ' '
+ ( + ( + + +*' % + + + + '*+ + ' % + + %*+ ' ' + + % Í*+ + ' ( ' % (*' + + ' + + %
% % + + + + '*( + % + % % %*( + ' + ' + %*+ + Í % + + +*Í + + % % Í +*Í + + + ' % '
+ % + + ( ' '*+ ( ' ' % + %*+ Í % + ' ' '*% + + ' ) + +*' % % ' + + %*' Í ' ( % + %
% % + % + + '*% % + + ' % %*' % ( + ( ' %*Í % % ' Ê ' %*Í + + ' ( % %*+ + ' ' ' + '
' ' + ' ' + (*+ + + ' + + %*% Í + + Í % (*' ' % % + % +*+ + % ' + % '*' Í + % ' % '
% Í + + ' ' +*% % % + + ' '*+ + + + ' % '*+ ' + + ' Í '*( % % Í % + +*' % + ' + % %
+ ) ( ' ' ' %*+ + % ' Í + +*+ Í + ' + + '*Í % ' + + % Í*+ % + ( + + +*+ Í + Í ' % +
+ % ' + + % (*' ' + + % + +*+ + + ' + + '*+ % ( ' + ' Ê*+ + + + + ( +*% + % Í ' + (
' + + % % + +*) % % + + Í +*% ( + % ' % +*+ + + + + + '*Í ' ' ( ' ' '*% % % + Í % +
' + + % % ' '*' % + + ' % %*' + + % ' Í '*( % ( % % % +*% + + ' % % +*+ ' ' ' + + %
% ' Í ' % ( (*+ Í % ' Í Í '*% Í + ( ' ' %*% + ' + ' ' %*' + ' + ' ' +*+ Í % + ' % %
% % ( + + Í %*( + ' Ê % + Í*' + + % ' + Í*( + + % ' % '*% + Í + % Í +*+ % % + + ( '

' + + + + + '*% ' ' ( ' % +*' + ( + Í % +*% ' + + ' + (*% + + Í ( ' '*' % + + % ' Í
+ + + Í + + +*+ + % Ê ' % %*% + + % ' ' +*' % ' Í + ( '*% + + % + + +*% ( ' ' + + %
% + % + ' + +*' + % ( ' + +*' + + % + + +*( + % + % ( '*( ' + ' + + %*% + + % % ' +
+ + Í + % ( +*% Í + % % + +*( % + ' Í + '*( ' + + ) + (*Í + + ' + + %*% ' ' ' % + (
( % + + ' % +*+ % ' ' ( % %*% + % + + + %*% + + + ' ' +*+ % % ' Í + %*( ' % ' ' ( %
-43-
' % + + ( ' '*% % + + + + '*% ' + ' + ' '*+ + Í % + ' (*) ' + % % % '*+ + ' ( % + Í
' + + % ' + (*( + + ' ' ' '*% + Í + Í + +*+ + ' + % % %*' + + + + + '*% + ' ' ' % +
+ ' + ( % ) %*+ % ' + ' + (*% % ' + % % +*% ( ' + % ' Í*+ + % Í + + +*+ + % ( + % %
% + + % ' ' +*' % ' + + + +*Í + % + % + Í*' % ( ' ' + +*' + + % Í % +*+ ' + % ' ' +
+ ' + + + ' +*+ + + + ( ' '*( ' + + + + %*% + + % % ' +*% + + Í + % (*+ % + + % Í '
% + ( + + ( +*' ( ' + + % +*' Í ( % ' ' +*+ % % + ' ' %*% Í + + ' % (*+ % ' + + % '
Figura 7. Cuadriculado de la disposición espacial de los símbolos {Ê, Í, %, +, ', (, )} en 48 porciones.
3.2. Algunos consejos
La solución sobre el tamaño más apropiado de la muestra en la investigación mediante encuestas es harto
complicada, puesto que requiere el conocimiento y el control de múltiples variables (Manzano, 1996). No obstante,
si bien un tratamiento minucioso excede los objetivos de la presente obra, sí que se pueden indicar algunos principios
generales útiles:
1. Debe considerarse el procedimiento de muestreo utilizado. Los procedimientos difieren entre sí en varios
aspectos, entre los que se encuentra la variación de resultados posibles que son capaces de generar. Un
procedimiento que suministre un intervalo reducido de variación es preferible a otro con el que se puede
obtener cualquier cosa. En la comparación de procedimientos que abordaré en un punto posterior se entrará
de nuevo en esta cuestión. Lo importante aquí es que en función del procedimiento utilizado debe recurrirse
a una u otra expresión de cálculo para el tamaño de la muestra.
2. Debe quedar bien definido el grupo de variables importantes del estudio. En las investigaciones mediante
encuestas, se recurre a cuestionarios con multitud de preguntas. No todas son igualmente relevantes.
Incluso, siempre hay algunas que se preguntas por si acaso y considerando que son fáciles de interrogar
y responder. En principio debería calcularse un tamaño de muestra para cada objetivo de medida (estimar
la proporción de respuestas afirmativas a la pregunta 12, estimar una diferencia entre las medias de
respuesta a la pregunta 8 por sexos, etc.). Pero tal proceder es muy laborioso, especialmente sin el auxilio
de herramientas de software. Sin embargo, sí debería realizarse una estimación independiente del tamaño
de muestra para cada una de las preguntas u objetivos de medida que se consideren especialmente
importantes. No debe ocurrir que, tras realizar el trabajo de campo, nos encontremos con que la estimación
para un objetivo de interés especial, es muy frágil, pues la muestra era demasiado pequeña para ese objetivo
(si bien, puede ser adecuada para otras estimaciones, dentro del mismo estudio).
3. La exigencia sobre la cuantía concreta del tamaño óptimo no es ciega al contexto. Unas pocas encuestas más o
menos no representan ninguna diferencia apreciable ni en el tiempo empleado en la recogida de los datos,
ni en el coste del trabajo de campo, ni en la seguridad en los resultados. A su vez, ese intervalo de variación
aceptable para el tamaño de la muestra, crece conforme disminuyen las exigencias de control en el estudio.
Así, por ejemplo, en los estudios piloto las exigencias de control están relajadas, por lo que carece de
sentido emprender la búsqueda de un tamaño de muestra preciso. Los estudios piloto se realizan como un
ensayo general que pretende probar el cuestionario, los encuestadores y cualquier otro elemento del
proceso. También se utiliza para recoger información previa de la población, necesaria para calcular el
tamaño de la muestra definitiva, como lo es alguna medida de variación de las características en la
población. Se tratará en el capítulo 5.
4. La utilización de tablas para calcular el tamaño no son muy recomendables. Fomentan la salida fácil o cómoda,
en detrimento de una solución adecuada. El cálculo del tamaño más recomendable no implica mucho
-44-
tiempo. Incluso la fórmula más compleja llevará pocos minutos aún a un inexperto. Algo más difícil es
tomar decisiones previas al cálculo del tamaño, como las cuantías para el nivel de significación, el error
de precisión, las varianzas poblacionales, etc. En definitiva, no merece la pena ser tacaños con el esfuerzo
en la fase para el cálculo del tamaño de la muestra. Lo único que implican es un poco de tiempo para el
investigador responsable de esta decisión. Si no se culmina adecuadamente, las consecuencias sí pueden
ser negativas, en términos de costes y/o credibilidad en los resultados obtenidos.
5. Por último, uno de los aspectos que los investigadores noveles suelen pasar por alto es la previsión de
estimaciones independientes para diversos colectivos. Cuando se establecen distinciones entre elementos
de la población puede ser para aumentar la representatividad de la muestra (como en el muestreo
estratificado) o para establecer conclusiones del estudio en cada uno de los subcolectivos o dominios
considerados en la población. En este segundo caso, debe considerarse que cada dominio o subconjunto
es una población en sí y que, por tanto, requerirá una muestra por separado. Tal circunstancia elevará con
mucha diferencia el tamaño final de la muestra.
3.3. Expresiones de cálculo
Consciente de que vale más pájaro en mano que ciento volando, seguidamente se explicitan algunas
expresiones de cálculo. Corresponden a cuatro modelos básicos de selección de muestras que trataré algo más
adelante en este mismo capítulo. Se supone que la estimación es de una media. En el caso de que sea una proporción
bastará con sustituir la varianza S2 por la que corresponde a las proporciones: B(1-B). Las expresiones contemplan
tamaños finitos en la población. Es lo que ocurre en investigación mediante encuestas. Sólo en las situaciones de
poblaciones muy grandes (y lo grandes que deben ser depende del contexto de estimación) son aplicables las
expresiones de cálculo para poblaciones infinitas. Pero recogerlas aquí implicaría duplicar el espacio dedicado al
tamaño de muestra en un texto cuyos objetivos son más amplios.
En las siguientes expresiones de cálculo se utilizan los símbolos:
N Número de elementos en la población

NC Número de conglomerados en la población
Ni Número de elementos en el estrato i poblacional
n Número de elementos en la muestra
nC Número de conglomerados en la muestra
F² Varianza de la característica en la población
Fi² Varianza de la característica en la población, en el estrato i
Fe² Varianza de la característica entre los conglomerados de la población
Fd² Varianza de la característica dentro de los conglomerados de la población
Z"/2 Medida estandarizada del riesgo de errar en la estimación. Así, con una probabilidad de errar de
"=0.05, en una distribución normal, corresponde una distancia estandarizada de 1.96
ep Error de precisión o radio del intervalo de estimación
* Grado de correlación u homogeneidad entre conglomerados.
-45-
Muestreo aleatorio simple
Muestreo estratificado
Muestreo de conglomerados monoetápico*
* La segunda expresión corresponde al caso en el que se desconozca un valor aproximado para *
Muestreo de conglomerados con submuestreo (bietápico)
Si se desconoce Fd², sustituir por F²-Fe²
Si se desconoce Fe², sustituir por
-46-
4. MUESTRAS NO ALEATORIAS
Los procedimientos de obtención de muestras mediante estrategias no aleatorias no suelen estar muy bien
vistos en ciencia. La razón es sencilla: no sólo la representatividad está en tela de juicio, sino que no se cuenta con
un procedimiento objetivo de extrapolar los resultados a la población. La estrategia preferida en ciencia para el
camino de vuelta es el cuerpo de conocimiento que se ha denominado inferencia estadística. No es posible hacer
inferencia estadística si la muestra no se ha obtenido mediante un procedimiento aleatorio.
No obstante, las muestras no aleatorias tienen su función especial. Por un lado, existen ocasiones en que
no es posible extraer una muestra aleatoria, como es el caso de poblaciones cuyas unidades se desconocen o se
trasladan continuamente. Además, los procedimientos no aleatorios suelen implicar menos tiempo, esfuerzo y dinero.
Por esta razón, se aplican en situaciones en las que se exige un bajo control a la investigación, especialmente si la
intención es tener una primera impresión de la situación, como en los estudios piloto y en multitud de estudios en
el ámbito comercial. Una posible taxonomía de muestreos no aleatorios es:
1. Sin norma, circunstancial o errático (Azorín, 1969): la muestra se toma sin seguir un criterio claro, sin tener en
cuenta consideraciones especiales para la obtención de la muestra (Cyert y Davidson, 1965). El control por
parte del investigador sobre las fuerzas que actúan en la selección, es nulo o casi inexistente. Es un
muestreo casual y fortuito (los primeros en llegar...). Es, únicamente, un trozo de población. Para Ostle
(1970), este apartado no es un tipo de muestreo, ya que por definición, una muestra es una parte de la
población seleccionada de acuerdo con algún criterio, regla o plan. Un tipo con un criterio muy
cuestionable es el deliberado o por segmentos (Chou, 1972): se escoge el segmento más accesible de la
población. Criterio: la comodidad. Un ejemplo de selección basada en la accesibilidad es la selección de
subpoblaciones previamente dispuestas, como los grupos de clase o colectivos definidos en un espacio y
estructura concretos: determinados pacientes en un hospital, un barrio concreto, etc. Otro tipo de muestreo
fortuito, muy extendido especialmente en el ámbito académico, es el de voluntarios, calificado de «muestreo
realmente terrible» por Bradburn y Sudman (1988:137).
2. Selección experta o de juicio (Särndal y otros, 1992), donde el investigador acude a un experto (que puede ser
él mismo) que utiliza sus prejuicios, experiencia y conocimientos previos, para decidir qué unidades deben
ser incluidas en la muestra por ser los elementos más representativos de la población. La selección experta
es preferida a la aleatoria en los casos en que la muestra debe poseer muy pocos elementos y no se aspira
a una inferencia probabilística (por ejemplo, en algunos estudios piloto). Cuando la muestra es pequeña,
la estimación probabilística es muy imprecisa (el intervalo de estimación es muy amplio) y pierde utilidad.
En esta situación se confía más en la apreciación de un experto que en el azar. El conocimiento de experto
no desaparece en los modelos de muestreo aleatorio, aunque no puede sustituir otros procedimientos de
medida objetivos (Hansen y otros, 1993). Es un componente de gran utilidad, pues consigue reunir
información pertinente para aumentar la representatividad de la muestra. La diferencia estriba en que en
el muestreo de experto, el conocimiento de éste es el componente decisorio, mientras que en los modelos
aleatorios, el conocimiento del experto es una información complementaria con respecto al procedimiento
que es, en esencia, aleatorio. La selección propiamente de experto y algunas variantes de ésta, son
denominadas también modelo intencional u opinático (Azorín, 1969) o aplicando criterio (Raj, 1980).
3. En el muestreo por cuotas, se combinan el muestreo de experto con el circunstancial (Barnett, 1974), generando
un procedimiento no aleatorio, pero sofisticado, de amplio uso (Derdo, 1980; Särndal y otros, op.cit.).
-47-
Inicialmente se recoge información sobre algunas variables poblacionales con respecto a las que podría
realizarse un muestreo estratificado. No obstante, la etapa de selección aleatoria es sustituida por un
procedimiento basado en la subjetividad del encuestador. A éste se le suministra una tabla de contingencia,
en la que figura el número de encuestados que debe conseguir con perfiles determinados .Si bien se puede
recoger información más o menos compleja acerca de la distribución de bastantes variables poblacionales,
en la práctica esta información se circunscribe únicamente a la edad y el sexo (Rodríguez Osuna, 1991).
Dentro de cada subpoblación (por ejemplo, varones de 25 a 35 años), la selección se realiza por juicio del
encuestador e intervienen factores ajenos a éste y no aleatorios, como por ejemplo sus preferencias
personales. Es un tipo de muestreo muy utilizado en sondeos comerciales y que suele dar resultados
satisfactorios. Pero si bien puede ser más rápido y barato que un muestreo probabilístico, presenta la
desventaja de que no permite que se realice inferencias científicas en base a la estadística, con lo que no
es recomendable en estudios a partir de los cuales deban tomarse decisiones importantes (Rodríguez Osuna,
1991). El muestreo por cuotas ocupará un espacio específico en el próximo capítulo, en el que nos
ocuparemos de estrategias de selección de encuestados.
4. Muestreo por bola de nieve (Noelle, 1970; Harvatopoulos, Livan y Sarnin, 1992): se comienza a encuestar a unos
pocos seleccionados, bien sea por su condición de expertos o por criterios de disponibilidad. Tales
contactos llevan a otros, aumentando progresivamente el tamaño de la muestra hasta completar la cantidad
prefijada.
Un ejemplo paradigmático sobre cómo un muestreo no aleatorio puede resultar muy útil es en el caso de
la selección necesaria de colegios electorales durante un sondeo de intención de voto, el mismo día de las elecciones:
existen determinados colegios electorales que han mostrado, en ocasiones similares anteriores, resultados muy
parecidos a los totales de su provincia. Los expertos (en este caso, los especialistas de la empresa consultora)
seleccionan estas unidades necesariamente, es decir, sin que medie un procedimiento aleatorio y, precisamente, la
intención en este proceder es aumentar la representatividad de la muestra.
5. MUESTREO ALEATORIO
Los diseños aleatorios, probabilísticos o al azar se caracterizan básicamente por dos aspectos (por ejemplo,
Sánchez Crespo, 1967, Raj, 1980; Aparicio, 1991; Harvatopoulos y otros, 1992; Särndal y otros, 1992; Czaja y
Blair, 1996):
- Las unidades de muestreo de la población tienen una probabilidad conocida y distinta de cero de ser seleccionadas.
- La selección se realiza mediante un procedimiento que respeta tales probabilidades.
El objetivo «respetar las probabilidades» transciende el contexto teórico del diseño. De hecho, para que el
muestreo sea probabilístico no sólo hay que respetar las probabilidades cuando se diseña un método de selección,
sino también cuando se realiza el estudio en el trabajo de campo. Es en el trabajo de campo cuando las circunstancias
prácticas pueden llegar a distanciar tanto el muestreo diseñado del real, que se pierda la condición de muestra
probabilística (Rodríguez Osuna, 1991); lo que puede ocurrir, por ejemplo, si el comportamiento de los
encuestadores es subjetivo.
En la práctica de la investigación por encuestas, se parte de una misma probabilidad de selección para todas
las unidades de la población. El procedimiento de construcción de la muestra debe comportarse de tal modo que la
-48-
probabilidad de selección de un habitante de un pueblo sea la misma que la de alguien que vive en la ciudad, la
misma para hombres y mujeres, zonas de la periferia o del centro, etc. En tales casos, se habla de muestras
autoponderadas. Es una forma de indicar que el peso de todos los individuos es el mismo. Si los de la ciudad
tuvieran mayor probabilidad de pertenecer a la muestra que los del medio rural, los primeros se encontrarían
sobrerrepresentados, frente a la subrepresentación de los segundos. En tales casos, la muestra ya no sería
autoponderada y debería ponerse en marcha un proceso de ponderación o equilibración previo al análisis de datos,
tal y como abordaré en el apartado específico sobre este tema, más adelante.
El proceso de inferencia o estimación estadística es un procedimiento establecido en base a criterios
probabilísticos. Para que pueda aplicarse una inferencia estadística sobre los resultados obtenidos con una muestra,
es necesario que la selección de ésta se haya efectuado por algún proceso aleatorio (Aparicio, 1991:11). En caso
contrario no puede realizarse una estimación probabilística; es decir, no puede conocerse el margen de error, en
términos de probabilidad, al afirmar que la estimación es o no acertada (Deming, 1966; Sánchez Crespo, 1967;
Chou, 1969; Mills, 1969; Stoetzel y Girard, 1973; Cochran, 1976; McRae, 1978; Kish, 1982; Rodríguez Osuna,
1991).
Existe una amplia variedad de muestreos probabilísticos, especialmente los diseños mixtos y multitud de
variaciones. Sin embargo, unas pocas categorías abarcan, con mejor o peor suerte, a todos estos modelos. Éstas serán
las tratadas en el presente apartado: muestreo aleatorio simple, estratificado y de conglomerados monoetápico, con
las variantes del muestreo de dominios y de conglomerados con submuestreo.
5.1. Muestreo aleatorio simple
La denominación «muestreo aleatorio simple» es la más usual en la literatura. No obstante se encuentran

otros sinónimos como muestreo irrestricto aleatorio o muestreo probabilístico de elementos. Es el modelo más
simple de la serie (Babbie, 1973; Barnett, 1974; Frankel, 1983; Sudman, 1983; Morsy, 1989; Silva, 1993) y, a su
vez, la base teórica sobre la que se asienta el resto (Yates, 1981; Martínez Arias: 1995b), de forma que constituye
el fundamento más trascendente de la teoría de muestreo (Kish, 1982; Stuart, 1984; Mirás, 1985; Levy y Lemeshow,
1991; Rodríguez Osuna, 1991).
Es, sin duda alguna, el procedimiento más simple de concebir, si bien en la práctica es quizá el más difícil
de implementar al enfrentarse con las imperfecciones del marco o base de datos (Gorden, 1980; Bradburn y Sudman,
1988), según veremos en el último apartado de este capítulo. Tal es el caso que «en investigación por encuestas es
virtualmente imposible producir la muestra aleatoria perfecta» (Hutton, 1992:9), por lo que no es un modelo
utilizado usualmente (Hansen y otros, 1993), más que en poblaciones pequeñas (Abad y Servín, 1978).
El procedimiento estándar para la consecución de una muestra aleatoria simple parte de contar con un
marco, listado o base de datos perfecta en la que se encuentra toda la información necesaria sobre la identidad de
las unidades de la población. Mediante un procedimiento aleatorio, son seleccionadas n unidades de la base de datos,
de la que se obtiene también la información sobre dónde se encuentran localizadas estas unidades. El trabajo de
campo consiste en establecer comunicación (personal, telefónica o por correo) con las unidades y realizar la
encuesta. Así, por ejemplo, las unidades pueden corresponder a personas concretas, identificadas y numeradas. Un
procedimiento automático, como un programa de ordenador o la consulta repetida a tablas de números aleatorios,
genera una secuencia de n números aleatorios: son las identificaciones numéricas de los sujetos seleccionados.
Para realizar una selección aleatoria existen, pues, varios recursos. Con la intención de ser útiles, en el
anexo 1 a este capítulo se encuentra una tabla de números aleatorios, en el anexo 2 se describe una rutina breve en
-49-
lenguaje BASIC para generar la selección y en el subapartado software para el muestreo: SOTAM se describe,
someramente, cómo generar una selección aleatoria con el programa SOTAM.
En el muestreo aleatorio simple, las unidades de muestreo coinciden con los elementos de la población.
Además, todos son equiprobables. Estas dos características simplifican mucho los cálculos y las expresiones sobre
las estimaciones. Suelen distinguirse únicamente dos tipos:
1. Sin reemplazo o sin reposición: los elementos de una muestra son todos diferentes, no existen
repeticiones.
2. Con reemplazo o con reposición: los elementos de la población pueden ser seleccionados, en teoría, más
de una vez para la misma muestra, es decir, existe la posibilidad de encontrar en una muestra el mismo
elemento en más de una ocasión.
Desde el punto de vista de las deducciones teóricas, los modelos con o sin reemplazo se traducen en
independencia o dependencia, respectivamente, en las probabilidades de selección, aspectos que llevan a expresiones
diferentes para la estimación de las medidas poblacionales.
Pero desde la práctica de la investigación de encuestas, un modelo con reemplazo carece de sentido. Se
argumenta que conforme el tamaño de la población tiende a ser infinito, la probabilidad de repetición de unidades
tiende a ser cero. Considerando que las expresiones algebraicas para el muestreo con reposición son más sencillas,
se entiende la tendencia a escoger este modelo, especialmente cuando el tamaño de la población es relativamente
grande. Sin embargo, la distinción con/sin reemplazo es artificial y de difícil aplicación conceptual en la práctica
de la investigación por encuestas. Partiendo de un modelo sin reposición, el único coherente en investigación social,
se llega a expresiones que contienen al tamaño de la población como variable independiente. Deducidas las
expresiones cuando N64, se llegan a los formatos que corresponden para modelos con reemplazo. Con ello, el
dilema con/sin reposición es totalmente sustituido desde la discusión de tamaños de población grandes o pequeños,
aspecto éste último, que sí resulta planteable en investigación por encuestas.
Un ejemplo real concreto puede consistir en seleccionar alumnos desde la base de datos de una universidad.
En tal estudio, el marco es bueno: contiene la identificación de cada alumno así como su localización tanto particular
como del centro, curso y asignaturas en las que se encuentra matriculado.
5.2. Muestreo sistemático con arranque aleatorio
Si de una población que consta de N elementos (tamaño N) se quiere conseguir una muestra de tamaño n,
el muestreo sistemático selecciona, a partir del elemento j-ésimo inclusive, n elementos separados entre sí por la
misma cantidad de k elementos ordenados aleatoriamente. Por ejemplo, si N=500, n=50, y se comienza por el sexto
sujeto (j=6) de la lista, marco o base de datos, serán seleccionadas las unidades que ocupan las posiciones
6, 16, 26, 36, ... , 476, 486 y 496
La extracción no implica, pues, n selecciones aleatorias, sino tan sólo una: la primera unidad. Además, el
arranque j también es un número aleatorio entre 1 y k=N/n. La expresión N/n es denominada coeficiente de
elevación.
Suele indicarse que el período o salto sistemático (que coincide con el número de muestras posibles) es
-50-
k=N/n. No obstante, puede ocurrir que N/n no sea un número entero, es decir, que N no sea múltiplo exacto de n.
En ese caso k debe aproximarse a la parte entera de N/n (simbolizado por I(N/n)) o de esta cantidad más uno. Para
cualquier caso, las expresiones que hemos deducido son:
- Período (opcionales): k=I(N/n) ó k=I(N/n)+1
- El tamaño real de la muestra n' será, para cualquiera de los anteriores valores de k:
n'=N/k ó n'=I(N/k)+1 si N/k…I(N/k)
- El número k de muestras totales estará dividido en:
N-k(n'-1) muestras de tamaño n'

kn' - N muestras de tamaño n'-1
Cuando N/n=I(N/n) y el marco se encuentra dispuesto de forma aleatoria, el muestreo sistemático es

equivalente al aleatorio simple. Con el marco en disposición aleatoria, pero con N/n … I(N/n), se puede producir un
sesgo en favor de unas muestras (más numerosas, con un elemento más) que con otras. No obstante, cuando n$50
(Mirás, 1986) estas diferencias son despreciables. Si el marco no está dispuesto aleatoriamente en su conjunto, pero
sí por estratos, el sistemático da los mismos resultados que el estratificado. Otra perspectiva, asemeja el muestreo
sistemático con el de conglomerados (Jolliffe, 1986).
Por último, si el marco no está dispuesto aleatoriamente, si no que puede guardar algún tipo de periodicidad
o tendencia, el muestreo sistemático, aunque posea arranque aleatorio, no es aleatorio ni representativo y, por tanto,
no resulta válido para realizar inferencias probabilísticas. Por ejemplo, si la mayoría de las familias de una población
están compuestas por dos padres y dos hijos y constan en el padrón por ese orden, ocurrirá que un periodo de k=4
llevará a seleccionar mayoritariamente padres o mayoritariamente hijos, con lo que la muestra resultante estará
sesgada en cualquiera de ambas direcciones.
5.3. Muestreo estratificado
En el muestreo estratificado se establecen restricciones a la selección enteramente aleatoria. La conciencia

de que existen variables con influencia sobre la característica que se pretende medir, lleva a ejercer un control
específico. Con respecto a la variable con influencia (sexo, edad, nivel de estudios...) se establecen h categorías. Para
cada categoría se extrae una muestra aleatoria de la población. Por ejemplo, si la variable que interesa controlar es
la edad, considerando las categorías joven, adulto y anciano, se extraerá una muestra de J jóvenes, D adultos y A
ancianos. De esta forma, la muestra final tendrá un tamaño de cuantía n=J+D+A.
Cada uno de los subconjuntos generados por la variable de control se denomina estrato. La denominación
recuerda al ámbito de la geología, donde un estrato se corresponde con una capa homogénea. De hecho, cabe esperar
que los individuos se parezcan más entre sí dentro de los estratos y difieran más de unos estratos a otros, con
respecto a la característica que se pretende medir.
La distinción entre estratos, si se conocen medidas poblacionales en éstos, permite reducir el error tipo
(Gorden, 1980; Levy y Lemeshow, 1991) y, con ello, disminuye el tamaño requerido para la muestra (American
Institute of Certified Public Accountants, 1973; 1974b).
-51-
Conocer las medidas de los estratos poblacionales puede ser uno de los objetivos del estudio, con
independencia de que también interesen medidas del conjunto de la población. No obstante, en tal caso, cabría
utilizar con más propiedad la denominación muestreo de dominios. El objetivo de la estratificación es aumentar las
garantías de representatividad y reducir la variación posible de la característica, consiguiendo un tamaño de muestra
más reducido. Si se pretende establecer conclusiones independientes por estratos, éstos deben considerarse como
poblaciones independientes, definición del muestreo de dominios.
Se llama afijación al procedimiento de reparto de las unidades de muestreo en los diferentes estratos que
componen la muestra. Existen varios procedimientos de afijación, cada uno de ellos con determinadas consecuencias
para la estimación:
1. Uniforme o igual: todos los estratos son del mismo tamaño en la muestra. Rara vez se utiliza, pues ignora los
tamaños poblacionales, información de la que puede disponerse. En términos de precisión en la estimación,
esta afijación favorece a los estratos poblacionales pequeños y perjudica a los de mayor tamaño. Si la
población cuenta, por ejemplo, con 10000 mujeres y 500 hombres y son seleccionados 100 sujetos de cada
colectivo, de cada cinco hombres será seleccionado uno, mientras que sólo se contará con una de cada cien
mujeres. Queda clara la diferencia en términos de representatividad de los colectivos en la muestra.
2. Proporcional: el tamaño del estrato i en la muestra, ni, es proporcional al tamaño del estrato en la población Ni.
Es decir:
donde n/N=f es denominada fracción de muestreo que, se observa, coincide con el inverso del coeficiente
de elevación. En el ejemplo de hombres y mujeres, si son seleccionadas 105 personas para la muestra, éstas
deberían corresponder a 100 mujeres y 5 hombres, de tal forma que en ambos colectivos se respeta la
misma fracción de muestreo (f=0.01 o 1%).
Gracias a la estrategia de mantener la fracción de muestreo constante para todos los estratos,
ocurre que todas las unidades de la población tienen la misma probabilidad f de ser seleccionadas. Así, en
la estimación de la población en su conjunto, no es necesario ponderar las unidades de la muestra en
función del estrato al que pertenezcan. Por esta razón, se denominan a estas muestras estratificadas con
afijación proporcional muestras autoponderadas. Más adelante abordaremos el tema de la ponderación.
3. De varianza mínima (también llamado afijación de Neyman): Para un determinado tamaño fijo de la muestra, se
calculan los tamaños de cada estrato ni de tal forma que la varianza de la muestra sea la más pequeña
posible. El método establecido para el cálculo de estos ni necesita de las varianzas poblacionales; es decir,
hay que conocerlas o estimarlas de algún modo (estudios previos, por ejemplo). Consigue mayor precisión
que la afijación proporcional, pero sólo bajo la suposición de que las varianzas de los estratos poblacionales
están bien estimadas. Como indica Cochran (1976) y Frankel (1983), si bien es el trabajo de Neyman
(1934) el que justifica la denominación de este procedimiento, la obra de Tschuprow (1923) es la primera
en donde se utiliza el recurso de la varianza mínima. Si bien las expresiones matemáticas de esta afijación
pueden ser algo más complejas, lo cierto es que su comprensión es bastante intuitiva. Si contamos con una
población sin varianza, es que todas las unidades tienen el mismo valor de la característica que se pretende
medir. Bastará con seleccionar a una única unidad y generar una estimación sin error. En el caso contrario,
con una varianza muy elevada se puede obtener casi cualquier cosa en una muestra. Por esta razón, ésta
deberá contar con un tamaño suficientemente grande como para generar un error lo más pequeño que
-52-
parezca razonable. Así, en poblaciones con estratos de varianzas sensiblemente diferentes, una forma de
reducir el tamaño de la muestra necesario es escoger más unidades de los estratos con mayor varianza y
menos de los que cuenten con menor varianza. Como efecto secundario, los cálculos se complican al
perderse la autoponderación de la muestra.
4. De compromiso: El muestreo proporcional posee un inconveniente importante si los estratos poblacionales
cuentan con tamaños muy desiguales. La submuestra del estrato poblacional más pequeño, puede contar
con un ni excesivamente bajo, de tal forma que no pueda mantenerse la hipótesis de que se trata de una
submuestra representativa (la estimación al nivel de ese intervalo dará lugar a intervalos desmesuradamente
amplios). El ejemplo de 100 mujeres y 5 hombres es claro al respecto. Una muestra de 5 unidades es
ridícula para la casi totalidad de las investigaciones imaginables e inadmisible en investigación por
encuestas. Una solución consiste en aumentar el tamaño total de la muestra hasta conseguir que todos los
ni sean de cuantía satisfactoria. Pero esta medida puede generar un tamaño de muestra demasiado grande,
con un coste prohibitivo. Otra solución es la afijación de compromiso. En ésta, se establece un tamaño
mínimo para toda submuestra. El resto de los elementos que son seleccionados hasta completar el n
muestral se reparten por estratos de forma proporcional. Como efecto secundario, los cálculos se complican
al perderse la autoponderación de la muestra.
5. Óptima: Es una variación de la afijación de mínima varianza, considerando además un coste particular en la
obtención de cada submuestra. En la afijación óptima se busca la mínima varianza para un coste dado o el
mínimo coste para una varianza dada. No obstante, es éste último un tipo de muestreo infrecuente, salvo
en el contexto de instituciones especializadas (Institutos de estadística, empresas de sondeos de opinión,
etc.). En tales casos, sucesivos estudios sobre la misma población y las mismas variables centrales, ayudan
a concretar medidas aceptablemente fiables sobre las varianzas de los estratos poblacionales, con respecto
a esas variables centrales. Una vez que se considera que las varianzas se conocen suficientemente, se está
en disposición de realizar muestreos estratificados con afijación de Neyman u óptima, lo que permite
aspirar a la misma precisión en las estimaciones, reduciendo costes.
Hay muchos modelos que consiguen una afijación óptima (mínima varianza para un n dado, mínimo n para
un coste dado, etc.), depende de los objetivos que se persigan (Koti, 1988). En cualquier caso, los sistemas de
afijación diferentes al proporcional, requerirán de una fase de ponderación previa al análisis de datos definitivo
(Hedges, 1980) (ver apartado de consecuencias del muestreo en el análisis de los datos).
Mirás (1986) realiza algunas comparaciones de precisión entre las afijaciones proporcional y óptima, con
respecto al muestreo simple aleatorio, concluyendo que:
- la afijación proporcional genera mayor precisión que el muestreo aleatorio simple. Esta afirmación es tanto más
cierta cuanto más diferentes son las medias de los estratos.
- las afijaciones óptimas y de Neyman son más precisas que la proporcional. Esta afirmación es tanto más cierta
cuanto más diferentes sean los errores típicos de los estratos.
Lo usual es que no se considere una única subdivisión en estratos de la población, sino que existan varias
simultáneas. Lo frecuente es que el muestreo estratificado se conciba como polidimensional. Puede establecerse una
primera partición en base a la dimensión sexo, generando las clases mujer y hombre. A su vez, se considera una
-53-
segunda dimensión, la edad categorizada en tres intervalos, generando las clases menos de 25 años, de 25 a 50 años
y más de 50 años. La consideración de varias dimensiones de estratificación no complica el proceso de
conceptualización del modelo puesto que, observando éste en un nivel más globalizador, puede considerarse la
existencia de una única subdivisión, cuyas categorías surgen de las intersecciones entre las categorías de las
dimensiones de estratificación contempladas. Así, la subdivisión final puede contar con la categoría: hombre 1 de
25 a 50 años
5.4. Muestreo de conglomerados
Los conglomerados se corresponden con subdivisiones de la población, al igual que ocurría con los estratos.
No obstante, la característica que define a un conglomerado es que sus unidades coinciden en una localización
común, no necesariamente que son homogéneos en algo. Cuando la definición se establece en términos geográficos
(municipios, comarcas, distritos, barrios...), suele hablarse de muestreo de áreas. Resulta comprensible que los
adultos varones de 35 a 45 años (un estrato) se parezcan más entre sí y se diferencien más del resto de subdivisiones
de la población, que los habitantes de un municipio concreto (un conglomerado o área). Los conglomerados pueden
considerarse como miniaturas, no aleatorias, de la población, por lo que cabe esperar que sean más parecidos unos
conglomerados con respecto a otros que los elementos dentro de cada conglomerado.
En primer lugar, se considera una subdivisión de la población en k conglomerados (familias, colegios,
barrios...). En un segundo momento, se establece una selección de conglomerados, no de las unidades elementales
que los componen. La muestra se construye, pues, con la unión de los conglomerados completos seleccionadas. Una
unidad elemental que pertenezca al subconjunto muestra no ha sido seleccionada aisladamente sino que su extracción
implica la selección del resto de unidades elementales que forman el conglomerado al que pertenece.
Si la probabilidad de selección de los conglomerados es proporcional al número de unidades elementales
que los componen, se trata de un modelo de muestra autoponderada, por lo que la inferencia puede realizarse sin
operaciones especiales intermedias. De esta forma, un conglomerado con 400 unidades debe tener el doble de
posibilidades de ser seleccionado en la muestra, con respecto a un conglomerado de 200 unidades.
Un concepto útil para estudiar la eficacia del muestreo por conglomerados es *, el coeficiente de
homogeneidad:
donde:
N= número de conglomerados.
M= tamaño medio de los conglomerados.
Xij= unidad i del conglomerado j.
Xt = media de las medias de los conglomerados.
F2= varianza total
* es máximo (*=1) con la máxima homogeneidad de los conglomerados, es decir, cuando la varianza
intraconglomerados es cero (dentro de cada conglomerado todas las unidades han suministrado el mismo valor). Es
mínima (*=-1/(M-1)) cuando existe una máxima heterogeneidad, es decir, cuando la varianza inter-conglomerados
-54-
es cero y las únicas variaciones se observan dentro de los conglomerados.
La eficiencia del muestreo por conglomerados frente al aleatorio simple va a depender de la homogeneidad
de los conglomerados, de tal forma que (Mirás, 1986; Azorín y Sánchez Crespo 1986):
A. Si *<0 es más eficiente el muestreo de conglomerados

B. Si *>0 es más eficiente el aleatorio simple
C. Si *=0 las varianzas coinciden
El caso más usual es B, puesto que cabe esperar mayor homogeneidad dentro de los conglomerados que
entre ellos. Así pues, usualmente el muestreo de conglomerados implica una pérdida de precisión en las
estimaciones, frente al muestreo aleatorio. No obstante, presenta dos ventajas muchas veces decisivas para la
planificación del trabajo de campo:
1. Hace más viable la solución de marcos imperfectos pues, contando con un marco de conglomerados, sólo deben
definirse los elementos de los conglomerados seleccionados.
2. Las unidades a medir se encuentran menos dispersas en la población, lo que facilita sensiblemente la fase de
recogida de datos por los agentes.
Estas ventajas definen al muestreo de conglomerados como un modelo de bajo coste (Sudman, 1976;
Hedges, 1980; Stuart, 1984, Levy y Lemeshow, 1991), al menos si los conglomerados coinciden con áreas
geográficas (Derdo, 1980). Tanto es así, que un muestreo por conglomerados puede llegar a ser más preciso que el
aleatorio simple, a pesar de que *>0, puesto que la disminución de los costes por unidad encuestada, permite
aumentar el tamaño de la muestra, lo suficiente como para poder reducir la cuantía de los errores típicos, por debajo
de lo que correspondería a un muestreo aleatorio simple.
5.5. Variantes
Las variaciones que pueden realizarse partiendo de los modelos básicos expuestos en las anteriores páginas,
son muchas. En el presente trabajo, cuyo objetivo no es ser perfectamente exhaustivos en este sentido, expondremos
las variantes más comunes: los llamados muestreos de dominios y bietápico.
5.5.1. Muestreo de dominios
Las denominaciones que recibe este modelo no son unívocas. Quizá la más extendida sea la de muestreo
de dominios (Kish, 1982; Chaudhuri y Stenger, 1992; Särndal y otros, 1992).
Existen algunas ocasiones en las que los objetivos de inferencia implican a dos niveles de conjuntos de
referencia. Las poblaciones en las que se pretende aplicar las inferencias cambian según el nivel de análisis. Este
tipo de muestreo tiene la apariencia de un modelo estratificado, con la salvedad de que las clases son también, y a
determinado nivel de análisis, poblaciones. Así pues, en el muestreo de dominios, interesa concluir tanto a nivel de
toda la población como a nivel de cada uno de los dominios contemplados (Särndal, 1984).
Un ejemplo concreto de este tipo de procedimiento de muestreo es el caso de una investigación a nivel de
una comunidad autónoma, en la que no sólo se pretende extraer conclusiones (realizar inferencias) a nivel de toda
la comunidad, sino también en cada provincia.
-55-
En una primera actuación, cada provincia es una población. Por tanto, dentro de cada provincia se realiza
un muestreo que puede utilizar cualquiera de los procedimientos descritos hasta el momento. Una vez finalizada la
fase de recogida de datos y realizadas las inferencias a nivel de provincia, éstas pasan a ser consideradas estratos
de la población global o comunidad autónoma, estableciendo las inferencias al nivel de ésta.
Lo esperable en tales casos es que la representación de las provincias en la muestra final no sea
proporcional al tamaño de cada una, puesto que la selección se ha realizado procurando una inferencia con suficiente
poder a nivel de cada provincia. Esta circunstancia requiere que, previo al proceso de inferencia a nivel de toda la
región, deba realizarse una ponderación de los datos en función de la provincia de procedencia: las provincias
sobrerrepresentadas en la muestra final (de menor tamaño poblacional) deberán ponderarse con pesos inferiores a
la unidad, mientras que las provincias infrarrepresentadas en la muestra final (de mayor tamaño poblacional) deberán
ponderarse con pesos superiores a la unidad. De esta forma, un muestreo de dominios puede conceptualizarse como
un muestreo estratificado con afijación óptima o de Neyman, donde el tamaño de muestra es tal que permite
estimaciones independientes por clase. Debe considerarse que el objetivo de inferencia en el muestreo estratificado
no es cada una de las clases, sino la población en su conjunto, por lo que las estimaciones por clase generan errores
de precisión muy grandes.
La utilización de este modelo de muestreo se encuentra tan extendida que Hedges (1980:61), afirma que
«en la práctica, el determinante principal del tamaño de muestra es casi siempre la necesidad de observar
separadamente los resultados de los diferentes subgrupos en la muestra total».
5.5.2. Muestreo de conglomerados bietápico o con submuestreo
En principio, cabe esperar que un muestreo bietápico sea aquél que se realiza en dos etapas. No obstante,
aunque esto es cierto, se utiliza la denominación para referirse a un dos-etapas en particular.
La muestra final se obtiene como resultado de seleccionar unidades elementales de los conglomerados que,
en una primera actuación, han sido seleccionadas de la población. Así, en la primera etapa se realiza un muestreo
de conglomerados cuyo resultado es una muestra intermedia de gran tamaño. En la segunda etapa, llamada
submuestreo, se consigue la muestra definitiva realizando una selección de unidades elementales utilizando como
conjuntos de referencia a las clases seleccionadas en la primera etapa.
El proceso permite resolver problemas de marco referentes a la falta de información, razón por la cuál es
sin duda uno de los modelos de muestreo más extendidos (Jolliffe, 1984; Särndal y otros, 1992). Para culminar la
primera etapa basta con tener información sobre la identidad y tamaño de los conglomerados (no de sus elementos
constituyentes). En la segunda etapa únicamente interesa reunir información útil de los conglomerados seleccionados
(no del resto). La existencia de submuestreo hace del modelo bietápico un diseño de selección de muestras
especialmente poderoso, «no en el sentido de que sea más preciso para iguales tamaños de muestra, sino en el
sentido práctico: se puede introducir donde otros esquemas no tienen cabida prácticamente» (Abad y Servín, 1978).
En el ejemplo de las provincias: en una primera etapa son seleccionados municipios dentro de cada
provincia. En la etapa de submuestreo, son seleccionadas unidades elementales únicamente dentro de cada uno de
los conglomerados que han sido seleccionados.
En el muestreo llamado polietápico, cada etapa consiste en la consecución de una muestra cada vez más
pequeña y de tales características que la información que se posee de ella es cada vez más precisa. Por ejemplo, en
un muestreo de conglomerados con tres etapas, se obtendría una muestra de conglomerados en la primera etapa (por
ejemplo, municipios); en un momento posterior se seleccionan conglomerados de menor tamaño dentro de los que
han sido seleccionados en la etapa anterior (por ejemplo, secciones censales dentro de los municipios seleccionados);
-56-
y, por último, de estos últimos conglomerados serán obtenidas las unidades finales que constituirán la muestra
(personas dentro de las secciones censales seleccionadas).
5.6. ¿Cómo escoger un procedimiento de muestreo?
Como suele ocurrir, no hay una regla fácil. En principio y desde la teoría estadística, el muestreo
estratificado es el más recomendable porque permite obtener las muestras de menor tamaño posible, manteniendo
fijas el resto de exigencias en el proceso de inferencia. No obstante hay algunos inconvenientes claros frente a este
consejo:
1. En primer lugar, es posible que no se tenga información sobre las variables de estratificación, en cuyo caso no
es posible estratificar. Puede ocurrir también que aunque se puede acceder a esta información, se sospecha
que las variables consideraas no tienen influencia sobre la característica a medir, por lo que no existirán
diferencias entre estratos y el esfuerzo de la estratificación será en vano. En ambas ocasiones, será más
recomendable el muestreo aleatorio.
2. No obstante, el muestreo aleatorio simple tampoco es posible en multitud de ocasiones puesto que requiere una
base de datos especial y unas condiciones propicias de aplicación que no se encuentran habitualmente. Una
posible solución es improvisar aleatoriamente sobre la marcha mediante la aplicación de las rutas
aleatorias de las que nos ocuparemos en el próximo capítulo. Otra es aplicar un muestreo de conglomerados
con submuestreo en donde se emplee el espacio entre ambas etapas para completar la base de datos de los
conglomerados seleccionados.
Y, aún así, los párrafos anteriores sólo consideran la relación entre el procedimiento de muestreo y los
problemas con el marco o listado de unidades. Por lo general, existen muy serias limitaciones económicas para
decidir tamaños de muestra, pagos de encuestadores, tiempo implicado en el trabajo de campo, material invertido,
etc. Si se incluye el argumento del coste, indudablemente el procedimiento más barato es el de conglomerados
monoetápico, puesto que disminuye el tiempo del trabajo de campo (menos gastos en dietas y sueldos fijos) y las
distancias que deben recorrerse para realizar las encuestas (menos gastos en concepto de desplazamiento).
No obstante, cuando se combinan todos los argumentos, la solución no es única ni fácil. El muestreo de
conglomerados es más barato, pero genera mayor variación de la característica en el muestreo, por lo que requiere
un tamaño de muestra sensiblemente mayor que en el estratificado, por ejemplo. En cada caso se verá si la limitación
económica puede más o menos que la precisión. Así hay tres grupos principales de argumentos que no van en la
misma dirección a la hora de aconsejar un modelo u otro: los costes, la precisión y la información de base. Así,
ordenando a los cuatro procedimientos específicos abordados según las tres variables mencionadas, se obtiene el
resultado
Información que figura
en la tabla
Coste Precisión requerida
---------------------------------------------------------- 5.
Estratificado 4 1 4
Aleatorio 3 2 3
Monoetápico 1 4 1
Submuestreo 2 3 2
Tabla 5. Ordenación de cuánto consigue un procedimiento de selección de muestras,

con respecto a tres variables de interés.
-57-
En las encuestas que se realizan por un procedimiento diferente al cara a cara, la selección del modelo de
muestreo es más sencilla por cuanto que los procedimientos que implican la consideración de conglomerados carecen
de interés. Los conglomerados son artilugios a los que se recurre para completar el marco o para reducir costes en
las encuestas cara a cara. Cuando la entrevista se va a realizar por teléfono o por correo, se parte de una base de
datos completa o suficiente al menos para la selección de encuestados, por lo que no tienen sentido los
conglomerados para recoger información por etapas, como ocurre en la encuesta cara a cara. Por otro lado, en las
encuestas por teléfono y correo no existen gastos por desplazamiento.
En las encuestas por teléfono, el procedimiento de selección de muestras más viable es el aleatorio simple.
Al respecto, lo esperable es que sea un programa de ordenador el que seleccione los números mediante un
procedimiento pseudo-aleatorio con restricciones. Así, se suministra información al programa con respecto a las
limitaciones de prefijos, longitud en número de dígitos, etc. Con esta información el ordenador realiza una selección
de números concretos, si bien puede ocurrir que algunos de ellos no tengan ningún abonado o éste sea una oficina
o cualquier entidad diferente a un domicilio particular. Para poner en marcha este procedimiento no es necesario
contar con información sobre la población más que las restricciones explícitas a la variación posible en cuanto a los
números de teléfono.
En las encuestas por correo, se cuenta con una base de datos que facilita la estratificación. Mayoritariamente
este tipo de encuestas bebe de las bases de entidades comerciales donde consta no sólo la identidad y localización
postal del posible encuestado, sino también algunas variables de interés como su status socioeconómico. De esta
forma, puede establecerse una estratificación y, con ello, reducir el tamaño requerido para la muestra.
6. ERRORES DE MUESTREO
6.1. El error muestral y sus expresiones asociadas
El primer error que aparece en la mente del investigador es la diferencia entre el resultado obtenido en la
muestra y el que se habría obtenido de haber trabajado en la población. Es el principal, sin lugar a dudas, y justifica
el resto de los errores abordados en este punto. Por esta razón, se le denomina, sencillamente, error muestral o
error de muestreo. El mayor deseo del investigador sería poder establecer una afirmación tan categórica como "11
de cada 23 ciudadanos fuman, al menos, un paquete de tabaco al día. Y no me estoy equivocando ni en un cigarrillo,
ni en un ciudadano". Lamentablemente, esto sólo aparece en los sueños.
En el ejemplo, el investigador considera que la proporción de fumadores de al menos un paquete de tabaco,
es p=11/23=0,478 con respecto al total de los ciudadanos (de no importa dónde). No obstante, puede que el
verdadero valor en la población sea A=0,356. La diferencia entre ambos
em = 0.478 - 0,356 = 0,122
es el error muestral (em).

Primera observación: si conociéramos la cuantía del error muestral ¡Qué bien!, bastaría con sumar tal
cantidad a la estimación puntual que se realiza desde la muestra y el investigador daría con seguridad en el valor
-58-
exacto en la población. Por supuesto, esto no ocurre. Así que el valor concreto de em es desconocido. No obstante,
existe alguna alternativa que permite avanzar en el proceso para conocer los valores poblacionales.
Antes de entrar de lleno en ello, es necesario compartir una misma simbología entre texto y lector.
Pongamos que lo que interesa es averiguar el valor de una función poblacional: la media de una variable, la
proporción de una variable, una correlación entre dos variables, etc. Simbolizaremos esta función poblacional con
* (aunque usualmente, la función poblacional se ha bautizado como parámetro, éste último es un término no
unívoco, puesto que también se recurre a él para otros menesteres). Para estimar su valor a partir de las mediciones
realizadas en una muestra, se calcula una función de los datos de ésta, que llamaremos estimador y que será
simbolizada con **. Por ejemplo, se utiliza la media aritmética de los datos de la muestra para estimar el valor de
la media aritmética de los datos de la población. Así pues:
em = ** - *
Una primera aproximación al manejo del error muestral es plantear una medida de su varianza, es decir,
cómo varía el error de una muestra a otra. Si ocurriera que existe una gran variabilidad, entonces el investigador
debería sentir bastante indefensión a la hora de establecer sus conclusiones, ya que su muestra puede ser una de las
muy abundantes muestras raras de la población (es decir, que suministran valores para ** muy alejados de *). La
varianza de ** con respecto a *, es decir, el error muestral al cuadrado por término medio (al igual que ocurre con
la justificación para la expresión de cálculo de una varianza, en ECM, se eleva la diferencia entre los elementos para
transformar las diferencias en cantidades positivas.), recibe el nombre de error cuadrático medio, con la expresión:
donde k indica el número de muestras que pueden ser obtenidas de la misma población, con el mismo tamaño y
siguiendo el mismo modelo de muestreo. La forma empírica de obtener el valor del error cuadrático medio es:
1. Obtención de todas las muestras posibles de la misma población, con el mismo modelo de muestreo y
el mismo número de unidades seleccionadas.
2. Cálculo de ** en la muestra, del error muestral (**-*) y su cuadrado (em²). De esta forma se construye
la distribución muestral de los errores muestrales al cuadrado.
3. Cálculo del promedio del error muestral al cuadrado (media aritmética de todos los em² obtenidos).
Como resulta obvio, este proceso empírico no se hace. Primero porque si somos capaces de obtener todas
las muestras posibles de la población, es que podemos medir directamente a ésta, con lo que el muestreo carece de
sentido. Y, segundo, por que en la práctica no es posible obtener todas las muestras posibles (por ejemplo, de una
población de tan solo 40 unidades, pueden obtenerse alrededor de 140 mil millones de muestras diferentes de
tamaño n=20, con un muestreo aleatorio simple)
Luego, para la siguiente expresión del error cuadrático medio es más correcta que la anterior, puesto que
no indica una extracción empírica real, sino que se muestra en base a valores esperados:
-59-
ECM(**) = E (em)² = E (**-*)²
Al igual que ocurre con cualquier varianza, su manejo resulta incómodo, puesto que utiliza unidades
cuadráticas. La solución más sencilla es calcular la raíz cuadrada del error cuadrático medio. El resultado tiene la
sugerente denominación de error total del muestreo:
Así pues, el error total del muestro indica una medida de la dispersión que cabe esperar en el error
muestral. Cuanto mayor sea su cuantía, más esperable resulta obtener una muestra cuyo ** esté alejado de *.
¿En qué medida es útil ETM(**)?. Sinceramente, no para mucho. El problema del error muestral es que
resulta desconocido a los ojos del investigador. El error cuadrático medio y su derivado, el error total del muestreo,
no sólo manejan el error muestral, sino que añaden otro problema más: el total de las muestras posibles (con las
restricciones señaladas). No obstante, si bien directamente es inmanejable, de forma indirecta puede obtenerse
alguna información de utilidad práctica. Para ello, vamos a definir el concepto de sesgo en un estimador como la
diferencia entre su valor esperado y la función poblacional que se pretende estimar (B = E(**)-*). Con ello:
ECM(**) = E(**-*)² = E(**-[E(**)-B])² = E([**-E(**)]+B])² =

= E(**-E[**])² + E(B)² + 2E(B[**-E(**)]) (1)
Como el sesgo, B, es una constante, entonces:
E(B)² = B²
E(B[**-E(**)]) = BAE[**-E(**)] = BA0 = 0
Sustituyendo ambas expresiones en (1):
ECM(**) = E(**-E[**])²+B² = V(**) + B²
De esta forma, se observa que el error cuadrático medio (el cuadrado del error total del muestreo) puede
subdividirse en dos elementos más. Por un lado, la varianza del estimador (V[**]) y, por otro, su sesgo al cuadrado
(B²). Ambos son también medidas de error, no sólo por participar de ECM(**), sino también por méritos propios:
1. La varianza del estimador tiene una fácil interpretación: cuanto mayor sea su cuantía, mayor dispersión
de valores suministra el estimador y, por tanto, menos fiable es su medida, menos creíble es el resultado
** como sustituto o representante del verdadero valor poblacional *. Por las mismas razones que hemos
comentado en la traducción de ECM a ETM, es preferible manejar la raíz cuadrada de V(**), función que
recibe la denominación de error tipo, error típico o error estándar:
2. Para el sesgo, existen expresiones que muestran su cálculo, si bien están también en función de variables
-60-
poblacionales. Fijémonos que el sesgo de un estimador podría ser bautizado como error muestral medio
o valor esperado del error muestral:
B = E(em) = E(**-*) = E(**)-*
Uniendo los conocimientos adquiridos hasta el momento:
¿Cómo obtener una utilidad de los resultados teóricos presentados hasta el momento?. Es fácil compartir
la idea de que lo ideal es reducir al máximo el error total del muestreo. Una vía indirecta es tomar decisiones tales
que reduzcan sus dos componentes: error típico y sesgo.
Para reducir el error tipo, se puede recurrir al diseño de la muestra. Así, por ejemplo y siguiendo los
conocimientos adquiridos durante el segundo capítulo, un muestreo estratificado genera un error tipo menor (o,
como muy alto, igual) que el aleatorio simple. Para el sesgo, lo ideal es considerar estimadores insesgados (B=0).
Así, en todas las muestras autoponderadas (aleatorio simple, estratificado con afijación proporcional, ...), es decir,
en todas las muestras obtenidas mediante procedimientos que respetan el que todas las unidades de la población
tengan la misma probabilidad de pertenecer a la muestra, la media aritmética de la muestra es un estimador
insesgado de la media aritmética de la población. Otro ejemplo: en un muestreo aleatorio simple, la cuasivarianza
de la muestra es un estimador insesgado de la cuasivarianza en la población.
El error total del muestreo es un concepto interesante, tal y como hemos visto. No obstante, cuando el
investigador ha recogido los datos e, incluso, ha concluido los análisis de inferencia, suministra otros valores de
error a la comunidad científica. Veamos de qué se trata y qué relación guarda con el error muestral.
6.2. El error muestral y la estimación
El error muestral tiene sentido en el ámbito de una estimación puntual: se calcula una función de los datos
de la muestra, que llamamos estimador y se afirma que la función poblacional de interés tiene ese mismo valor. El
error en la estimación puntual es el error de muestreo.
Pero en la práctica, cuando interesa estimar un valor poblacional, no se recurre a una estimación puntual,
sino por intervalo. Así, se establecen conclusiones como la que sigue: "la media de consumo de bebidas alcohólicas
durante la Feria de Sevilla, dentro del recinto ferial, se encuentra entre 3 y 4 litros por visitante y día". «entre 3 y
4» es equivalente a «3,5 ± 0,5». En este último caso, 3,5 representa el valor del estimador, mientras que 0,5 es el
radio del intervalo de estimación. Es obvio que conforme el radio sea mayor, más difícil será que el investigador
se equivoque en la inferencia.
El radio del intervalo de estimación ha recibido varias denominaciones. Se puede encontrar incluso "error
muestral". Grave error, puesto que su cuantía es desconocida, tal y como hemos visto en el subapartado anterior.
Hay quien lo denomina "error de estimación", con cierta lógica linguística. Sin embargo, también se puede encontrar
la expresión "error de estimación" para referirse a la discrepancia entre ** y *. Nosotros preferimos la expresión
error de precisión (ep) (Manzano, 1996). Cuanto mayor es ep, más imprecisa es la estimación, puesto que el
intervalo es mayor.
Usualmente, se define el proceso de estimación por intervalo indicando que existe cierta dosis de confianza
(probabilidad) en que el valor de la función poblacional de interés *, se encuentre dentro del intervalo de
-61-
estimación. Si denominamos a ese valor de probabilidad con la letra griega 8, entonces:
p (* , (**±ep)) = 8
Esta misma información puede expresarse de otra forma, indicando:
p (em # ep ) = 8
Es decir, si bien el error muestral es desconocido, se espera que su cuantía no rebase la del error de
precisión. Esta esperanza se mide en términos de probabilidad con el valor 8. Así pues, dentro de la estimación por
intervalo, el error de precisión puede ser conceptualizado como “el máximo valor esperado para el error muestral”.
6.3. Riesgo en la estimación
En el subapartado anterior se ha mencionado el valor de probabilidad 8. Si en la literatura estadística no

es posible encontrar unicidad de criterios con respecto a los errores muestral y de estimación, el caos es total con
respecto a ese valor de probabilidad. Lo más fácil es encontrar una sencilla letra p para representarlo (lo que se
confunde con una proporción, por ejemplo). Si bien, no es inusual encontrar la letra griega " como alternativa. No
es tampoco una buena alternativa. " aparece también en la teoría de la decisión estadística, como nivel de
significación estadística. Es un valor que el investigador decide antes de la obtención de los datos y que representa
el máximo riesgo que está dispuesto a asumir cuando rechaza la hipótesis nula. Así pues, es un valor de probabilidad
que aparece antes que los datos. Muy relacionado con " es el grado de significación estadística. Es un valor de
probabilidad que se calcula con los datos del estudio y que representa el riesgo calculado de errar al rechazar la
hipótesis nula. El investigador procederá al rechazo si ocurre que el riesgo calculado (grado de significación) es
inferior al máximo establecido (nivel de significación). Así pues, el grado es un valor de probabilidad que aparece
después que los datos.
En la estimación estadística, la confianza en que * se encuentre en el intervalo, puede ser calculada o
establecida. En la situación más frecuente, el investigador decide un valor para 8 y, tras obtener los datos, calcula
ep, construyendo seguidamente el intervalo. No obstante, resulta viable (y así se ejercita con no poca frecuencia),
construir primero el intervalo de estimación (es decir, definir primeramente un valor para ep) y después, calcular
8.
No es éste el lugar más apropiado para sugerir diferentes símbolos para las diferentes situaciones, no
obstante, si es deseable que el lector sepa discriminar que encontrará tanto valores de 8 calculados como pre-
establecidos, y tanto con el símbolo p, como ".
6.4. Un ejemplo concreto
Hasta el momento, se han tratado diversos errores. Se comenzó con el total del muestreo, desglosable en
el error tipo y en el medio. Tras ese discurso teórico, pasamos a situaciones más prácticas: el contexto de estimación,
en el que apareció el error de precisión y los riesgos asociados. Es el momento de ver tales conceptos con algún
ejemplo práctico.
Para ello, consideramos una población de 7 unidades y la selección de una muestra de 4 elementos. Son
-62-
posibles, por tanto =35 muestras diferentes. En cada una de ellas vamos a calcular la media aritmética, el error
muestral y el cuadrado de ambos valores para posteriores operaciones.

Con respecto a la población:
Datos: 5, 3, 8, 7, 4, 5, 3 Media: 5
Con respecto a las muestras:
muestra ² em e m²
1 5 3 8 7 5.7500 33.0625 0.7500 0.5625

2 5 3 8 4 5.0000 25.0000 0.0000 0.0000
3 5 3 8 5 5.2500 27.5625 0.2500 0.0625
4 5 3 8 3 4.7500 22.5625 -0.2500 0.0625
5 5 3 7 4 4.7500 22.5625 -0.2500 0.0625
6 5 3 7 5 5.0000 25.0000 0.0000 0.0000
7 5 3 7 3 4.5000 20.2500 -0.5000 0.2500
8 5 3 4 5 4.2500 18.0625 -0.7500 0.5625
9 5 3 4 3 3.7500 14.0625 -1.2500 1.5625
10 5 3 5 3 4.0000 16.0000 -1.0000 1.0000
11 5 8 7 4 6.0000 36.0000 1.0000 1.0000
12 5 8 7 5 6.2500 39.0625 1.2500 1.5625
13 5 8 7 3 5.7500 33.0625 0.7500 0.5625
14 5 8 4 5 5.5000 30.2500 0.5000 0.2500
15 5 8 4 3 5.0000 25.0000 0.0000 0.0000
16 5 8 5 3 5.2500 27.5625 0.2500 0.0625
17 5 7 4 5 5.2500 27.5625 0.2500 0.0625
18 5 7 4 3 4.7500 22.5625 -0.2500 0.0625
19 5 7 5 3 5.0000 25.0000 0.0000 0.0000
20 5 4 5 3 4.2500 18.0625 -0.7500 0.5625
21 3 8 7 4 5.5000 30.2500 0.5000 0.2500
22 3 8 7 5 5.7500 33.0625 0.7500 0.5625
23 3 8 7 3 5.2500 27.5625 0.2500 0.0625
24 3 8 4 5 5.0000 25.0000 0.0000 0.0000
25 3 8 4 3 4.5000 20.2500 -0.5000 0.2500
26 3 8 5 3 4.7500 22.5625 -0.2500 0.0625
27 3 7 4 5 4.7500 22.5625 -0.2500 0.0625
28 3 7 4 3 4.2500 18.0625 -0.7500 0.5625
29 3 7 5 3 4.5000 20.2500 -0.5000 0.2500
30 3 4 5 3 3.7500 14.0625 -1.2500 1.5625
31 8 7 4 5 6.0000 36.0000 1.0000 1.0000
32 8 7 4 3 5.5000 30.2500 0.5000 0.2500
33 8 7 5 3 5.7500 33.0625 0.7500 0.5625
34 8 4 5 3 5.0000 25.0000 0.0000 0.0000
35 7 4 5 3 4.7500 22.5625 -0.2500 0.0625
Total 175 888.75 0 13.75

Como se observa en la quinta columna, la suma de los errores muestrales es cero, por lo que estamos ante
un estimador insesgado, por esta razón, su valor esperado coincide con la media poblacional y el error total del
muestreo con el error tipo.
-63-
La distribución muestral de la media en este ejemplo, no sigue una ley normal. Pero estos datos concretos
nos resultan útiles, no sólo para ejercitar los conceptos y sus expresiones asociadas, sino también para observar como
dioses la relación entre los errores muestral y de precisión en una estimación por intervalo.
Supongamos que el investigador decide un error de precisión de 1/2. Su intención es, por tanto, realizar una
estimación por intervalo con una «anchura» de una unidad. Al realizar la selección de unidades, obtiene la muestra
identificada con el número de orden 16 en la tabla anterior (5, 8, 5, 3). La media correspondiente es 5,25. Luego,
construye el intervalo:
3))))))3))))))3))))))3))))))3
4.75 5.00 5.25 5.50 5.75
El centro del intervalo es 5,25; valor al que suma y resta el error de precisión ep = 0,5 para obtener los
extremos (4,75; 5,75). Se observa que el valor :=5 se encuentra en el intervalo, por lo que la estimación es un
acierto (em = 0,25 < 0,5 = ep).
Supongamos ahora que la muestra obtenida es la 22 (3, 8, 7, 5), cuya media es 5,75. Por tanto:
3))))))3))))))3))))))3))))))3
5.25 5.50 5.75 6.00 6.25
Como se observa, la función poblacional :=5 no se encuentra en el intervalo, (em = 0,75 > 0,5 = ep), por
lo que la estimación no acierta en el valor poblacional.
7. CONSECUENCIAS DEL MUESTREO EN EL ANÁLISIS DE LOS DATOS
7.1. Ponderación
Lo esperable, en investigación mediante encuestas, es que el investigador esté interesado en establecer

conclusiones a nivel de la población, sin otorgar mayor importancia a unos colectivos que a otros. En investigación
comercial puede ocurrir que determinados grupos sean de mayor interés (por ejemplo, el de mayor poder adquisitivo
o una laguna de edad en cuanto al consumo de un producto) que otros. En tal caso la muestra y las conclusiones
pueden estar sesgadas en sentido de contar con mayor participación de unidades que provienen de los colectivos de
mayor interés.
No obstante, en la mayoría de las ocasiones, las conclusiones se redactan en términos similares a «un X%
de los españoles fuman, al menos, diez cigarrillos al día», «X de cada diez niños andaluces desconoce quién fue Blas
Infante», «Un sevillano consume una media de X litros de vino fino durante la Feria de Abril», etc. Las conclusiones
-64-
se establecen al nivel de la población que interesa, en su globalidad, por lo que un peso diferencial de los
subcolectivos implicados en la muestra, es indeseable.
Esta idea trae consigo el que los elementos constituyentes de la población tengan una representación acorde
a su relevancia: aquéllos con mayor representación en la población deben tener un peso también mayor en la muestra.
Cuando el procedimiento de selección consigue respetar este principio, se habla de muestras autoponderadas. Si,
por el contrario, los elementos tienen en la muestra una importancia desigual con respecto a la población de origen,
procede realizar una manipulación previa al análisis de datos, que recibe el nombre de ponderación de casos
(Adams, 1989).
En el contexto de los modelos de muestreo considerados en el presente trabajo, dos son las situaciones en
las que puede violarse la autoponderación:
1. Selección mediante muestreo estratificado con afijación óptima y varianzas desiguales por estratos, lo que origina
que los estratos con mayor varianza cuenten con una representación mayor en la muestra de la que
corresponde a su tamaño.
2. Muestreo de dominios. Dado que cada uno de éstos debe contar con una muestra independiente representativa
con los mismos parámetros definitorios (por ejemplo, el mismo riesgo " y el mismo error de precisión),
los dominios con menor tamaño tendrán una representación porcentual mayor que los dominios mayores.
La ponderación de casos consiste en aplicar un peso a cada dato que puede diferir de 1. En el análisis de
datos, el peso sustituye a la frecuencia tradicional o, en otros términos, la frecuencia habitual de cada dato (1)
constituye un caso particular de peso en el que todo caso tiene la misma importancia. Denominando wi al peso en
la muestra del dato i, podemos distinguir tres situaciones, según el grupo de procedencia del dato:
1. (wi > 1). El colectivo se encuentra sobrerrepresentado. La proporción de participación del colectivo en la muestra
es superior a la proporción que le corresponde en la población. Ocurre con estratos de mayor varianza que
el resto o dominios pequeños. Luego, el peso de estos datos, durante el análisis estadístico, debe ser menor
que la unidad, de tal forma que la suma de pesos corresponda a la frecuencia total teórica en una muestra
autoponderada.
2. (wi < 1). El colectivo se encuentra subrepresentado. La razón de participación del colectivo en la muestra es
inferior a la proporción que le corresponde en la población. Ocurre con estratos de menor varianza que el
resto o dominios grandes. Luego, el peso de estos datos, durante el análisis estadístico, debe ser mayor que
la unidad, de tal forma que la suma de pesos corresponda a la frecuencia total teórica en una muestra
autoponderada.
3. (wi = 1). Las frecuencias de los datos de este colectivo no requiere ninguna manipulación previa. Si tal peso
coincide en todos los grupos, se trata de una muestra autoponderada.
Llamaremos ni a la representación del colectivo i en la muestra. Si ésta fuera autoponderada:
-65-
Luego, las frecuencias de los datos del colectivo i deben someterse a la transformación (aquí utilizamos wi
como el peso que debe tener el dato):
Veamos un ejemplo. Se ha realizado un muestreo en un municipio, distinguiendo entre los estratos E1, E2,
E3 y E4. El procedimiento de selección ha consistido en un estratificado con afijación de mínima varianza. En la
tabla que sigue se muestra la identidad del estrato (E), el tamaño en la población (N), el tamaño en la muestra (n),
las operaciones de cálculo para el peso de cada estrato (Cálculo) y el peso resultante (Peso):
E N n
Cálculo
Peso
E1 5630 150
(5630A580)/(21805A150)
.998
E2 3500 148 (3500A580)/(21805A148) .629
E3 2800 125 (2800A580)/(21805A125) .596
E4 9875 157 (9875A580)/(21805A157) 1.673
)))))) ))))
Total 21805 580
7.2. Varianzas
Una vez realizado el muestreo y analizados los datos al nivel de la muestra, procede establecer las
inferencias y concluir consecuentemente. Para realizar estimaciones se requiere construir un intervalo de valores
alrededor del estadístico calculado (una proporción, por ejemplo). La estimación por intervalo requiere, entonces,
un valor central (el estadístico), una medida de variación de la distribución muestral (el error típico, en función del
tamaño de la muestra y del modelo de muestreo) y una medida de seguridad en la estimación (distancia estandarizada
en la distribución teórica de probabilidad). En el caso de la estimacióin de una proporción:
El valor Fp corresponde al error típico o desviación tipo de la distribución muestral de proporciones.

Depende del tamaño de la muestra y del modelo de muestreo. Para no resultar innecesariamente redundantes,
basaremos la exposición en las fórmulas de Azorín y Sánchez Crespo (1986), donde se encuentra la que se refiere
a la estimación de medias para el muestreo aleatorio simple en poblaciones finitas (página 65), estratificado (página
-66-
85) y de conglomerados bietápico (página 187).
Muestreo aleatorio
donde S es la desviación tipo de la característica en la muestra, N es el tamaño de la población y n es el tamaño de

la muestra.
donde Si es la desviación tipo de la característica en el estrato i (en la muestra), Ni es el tamaño del estrato i en la
población y ni es el tamaño del estrato i en la muestra.
Muestreo de conglomerados monoetápico
donde Se es la variación entre las medias de los conglomerados en la muestra, NC es el número de conglomerados
en la población y nC es el número de conglomerados en la muestra.
Muestreo de conglomerados con submuestreo
donde NC es el número de conglomerados en la población, nC es el número de conglomerados en la muestra, n es

el número de unidades elementales en la muestra, N es el número de unidades elementales en la población y los
estimadores de las varianzas poblacionales entre y dentro conglomerados, corresponden a los componentes típicos
del análisis de la varianza:
-67-
7.3. Modelos de muestreo en el software al uso
No se dispone de soporte informático para realizar las estimaciones, en el software estadístico convencional,
considerando el procedimiento de extracción de la muestra. La asunción de un modelo de muestra aleatorio simple
para poblaciones de gran tamaño (o sin reemplazo o reposición) es la base para los desarrollos de los métodos
estadísticos (Kish y Frankel, 1974), así como para los programas de análisis estadístico (Martínez Arias, 1995a).
Como expresa Särndal (1984), el diseño utilizado para la obtención de la muestra tiene efecto sobre las conclusiones
extraídas del análisis de datos, pero la mayoría de los programas de ordenador no consideran el modelo de muestreo.
Es más, si el modelo de muestreo no ha sido el aleatorio simple para poblaciones de gran tamaño, las estimaciones
de las varianzas suelen ser erróneas e invalidar las conclusiones.
Ante el problema o deficiencia planteada, pueden plantearse dos soluciones factibles. La primera de ellas
es confeccionar utilidades informáticas que contemplen el procedimiento concreto que se ha utilizado en la
extracción de la muestra, adecuando los procesos de estimación y decisión a cada contexto concreto. No obstante,
la mayoría de las ocasiones, el software específico de tratamiento de datos que corrige las deficiencias originadas
al salir del patrón estándar, apenas existe o bien es confeccionado para instituciones que no facilitan su uso
(Aparicio, 1991). Una buena excepción es el programa para ordenadores compatibles IBM PC denominado PC
CARP, que permite el análisis de datos provenientes de modelos de muestra con estratificación y conglomerados
polietápico (y modelos de complejidad inferior a éste), realizando estimaciones para el total de la población y para
los colectivos contemplados (Fuller y otros, 1986).
La segunda de las soluciones consiste en ingeniar estrategias tales que permitan utilizar el software
estadístico convencional, de tal forma que los resultados de la inferencia sean sensibles al procedimiento de
extracción de muestras utilizado.
Existe una estrategia para conseguir que el software estadístico comercial realice inferencias, considerando
el procedimiento de extracción de muestras utilizado en la investigación cuyos datos se analizan (Manzano, 1996).
Consiste en modificar la varianza de los datos de la muestra antes de hacer la inferencia. Para ello, si la intención
es estimar la media o la proporción (u otra medida poblacional) de la característica X, bastará con generar la variable
derivada Y mediante una transformación simple de X consistente en:
La expresión anterior permite multiplicar por k² la varianza de la muestra sin variar su media aritmética.
La cuestión, pues, es contar con la expresión de cálculo para la variable k, según sea el procedimiento de
encuesta utilizado. Así, si se ha realizado un muestreo aleatorio simple considerando una población de tamaño
infinito, k=1. En todos los demás casos, el valor de k debe ser calculado. Veamos las expresiones concretas,
suponiendo en todo caso que las poblaciones (elementos y conglomerados) tienen tamaños finitos y utilizando los
mismo símbolos del subapartado anterior sobre varianzas:
Muestreo aleatorio simple
-68-
Muestreo de conglomerados monoetápico
Muestreo de conglomerados con submuestreo
8. PROBLEMAS PRÁCTICOS
La puesta en práctica de una investigación por muestreo cuenta con algunos problemas específicos en lo
referente a la selección de muestras. Durante el presente apartado abordaremos los más importantes, observando
algunas soluciones.
8.1. Problemas con la base de datos
Como vimos, la selección de muestras necesita de la existencia de una buena base de datos, listado o marco
de la población en la que se desea aplicar los resultados del estudio. Pero ocurre que, en la práctica, existen
abundantes imperfecciones de marco.
Podemos considerar la existencia de tres tipos de marco de interés desde una investigación por encuestas:
* Basadas en los censos. Son los listados oficiales de que disponen las instituciones públicas: los ayuntamientos e
institutos de estadística nacional o por comunidades autónomas. Una de las funciones de los institutos de
estadística es facilitar información a la población. Por ello, cuentan con servicios específicos de atención
e información. Por un lado, publican los resultados censales periódicamente y en varios formatos. Alguno
de ellos nos será de utilidad. Inclusive, algunos institutos cuentan también con una base informatizada,
implementada en software que se puede adquirir o consultar y que permite construir un archivo de salida;
como por ejemplo, el programa SIMA, del Instituto de Estadística de Andalucía. La información más
actual, no obstante, se encuentra en el padrón municipal, pero éste no siempre está disponible ni organizado
convenientemente. Depende del ayuntamiento de que se trate, pueden tenerse más o menos facilidades para
obtener información.
A pesar de su carácter oficial, los censos no son perfectos. Por ello y con el objetivo de adecuarse
lo más posible a los hechos, los datos referidos a la población se encuentran divididos u organizados en dos
-69-
categorías: población de derecho (la que debería encontrarse) y población de hecho (la que parece que se
encuentra realmente). No obstante la actualización de los datos oficiales se realiza con relativa lentitud
considerando la motilidad de las poblaciones. Pero es muy útil y aunque no coincida con total exactitud
(aspiración imposible) los errores entran en el saco de las imprecisiones admisibles.
Por lo general, los datos oficiales se estructuran en tablas de contingencia con abundantes
subdivisiones donde constan las frecuencias por zonas, edades, sexo, nivel de estudios y año de
actualización.
Los problemas más frecuentes se derivan de cambios en la estructura de los municipios (uniones
y disgregaciones completas o parciales), la ausencia de información en el censo con respecto a variables
de interés y problemas de colaboración con los ayuntamientos. Ante cualquiera de ellos, una salida viable
y fácil, que además permite obtener una información aproximada, es la estimación lineal. Pongamos por
caso que carezco de la repartición de frecuencias, por categorías de edad, para un municipio, pero sí cuento
con su total poblacional (número total de empadronados). A partir de la tabla de contingencia o de
estratificación de la provincia (que consta en la información pública del instituto de estadística nacional y
de la comunidad), puedo reproducir la repartición al nivel del municipio, manteniendo los mismos
porcentajes, proporciones o razones que a nivel de la provincia. Por ejemplo, si de 450000 habitantes de
la provincia, 198000 son hombres (un 44%), se estimará que de los 3500 empadronados en el municipio,
1540 serán hombres (aplicando 3500x.44). No obstante y por lo general, existe una buena disposición por
parte de los ayuntamientos para facilitar información global (número de mujeres, por ejemplo, no
identificaciones personales), por lo que en algunas ocasiones basta incluso con una llamada por teléfono
para obtener la información necesaria.
* Basadas en listados comerciales. Existen empresas cuyo único cometido es almacenar datos de posibles
compradores. Cuentan con esta información y la venden a quien esté dispuesto a comprarla. La información
cuenta con nombres, apellidos, dirección y algunas características de interés como el estado civil, sexo y
edad, y una idea del poder adquisitivo a partir de la zona de residencia, tipo de ocupación o, directamente,
nivel de ingresos.
Si bien el origen de estas bases de datos puede ser muy variado, un procedimiento frecuente
consiste en aprovechar el consentimiento de la persona a registrar, por medio de un regalo seguro o un
sorteo. Así, por ejemplo, para recibir en casa una mantelería, un muñeco de peluche, un libro de recetas o
una casita de plástico, el interesado rellena un cupón con sus datos personales y lo envía por correo. Al
respecto, cada vez es más frecuente observar en tales cupones un pequeño texto donde se indica algo así
como «si usted desea que sus datos sean borrados de nuestra base, por favor, indíquelo tachando la casilla
adjunta».
Estos marcos son de interés puesto que cuentan con información actualizada y específica. Pero
suelen ser propiedad de la marca que ha gestionado su obtención. Por esta razón, la entidad comercial que
desee hacer uso de una base de datos similar, deberá comprar la información a una empresa especializada.
* Ligadas al contexto: Cuando la población de interés no es, digamos, la población global sino una de características
muy específicas, puede existir un marco asociado de fácil localización. Por ejemplo, si se desea hacer una
encuesta en una cadena de comercios, la entidad tiene la identificación exacta de todos sus empleados. Otro
caso: un estudio con estudiantes universitarios. En las dependencias administrativas de la universidad que
se trate, tienen la identificación y localización de cada uno de los estudiantes matriculados durante el curso
académico actual. Otro más: una encuesta sobre satisfacción con el producto, promovida por una empresa
de coches. La entidad cuenta con una base de datos donde figura, incluso, el número de teléfono de los
-70-
clientes.
En las bases de datos ligadas al contexto es donde menos problemas se encuentra el investigador
en el caso, claro está, de que el estudio esté promovido por la entidad propietaria de la información.
Las investigaciones mediante encuestas por teléfono y por correo son las que disponen de un marco más
fácil de conseguir, si bien más difícil de actualizar. En las encuestas por teléfono la exigencia mínima es contar con
la definición o características de los números de teléfono de interés. Pueden corresponder sólo a un prefijo
determinado y variar únicamente parte de los dígitos situados más a la derecha. Es difícil contar con una base de
datos de números de teléfono aparte de las empresas de teléfono, obviamente. Por lo que la selección de números
mediante un procedimiento automático debe hacerse mediante generación aleatoria.
Por otro lado, la existencia de un listín telefónico no facilita la tarea en el sentido de que la selección
aleatoria es tediosa, exige esfuerzo y está sujeta a error. Si se utilizara el listín, un procedimiento aconsejable es
poner en marcha un muestreo sistemático con arranque aleatorio. Se supone que la distribución de los abonados es,
en la práctica, aleatoria, ya que se disponen por orden alfabético, característica que cabe esperar no correlacione con
ninguna de las variables de interés. La utilización del soporte impreso, frente al informático, tiene la ventaja de que
permite descartar los números que no corresponden a domicilios particulares.
Por último, existe una limitación muy criticada con respecto a las encuestas telefónicas: el sesgo de
cobertura. Mientras que todos los habitantes habitan en algún sitio, no todos tienen un teléfono de localización. No
obstante, este problema decrece con velocidad, de tal forma que las encuestas por teléfono se muestran como una
poderosa alternativa (en tiempo y, sobretodo, en costes) a las personales o cara a cara.
En referencia a las encuestas por correo, si éstas se realizan con direcciones concretas, las imperfecciones
del marco corresponden a problemas de recogida o actualización de la información por parte de las empresas
dedicadas a ello. No obstante, suele estar en vigor un acuerdo entre las dos partes interesadas según el cual la
comunicación de una dirección errónea desde la entidad encuestadora a la propietaria de la base de datos, es
gratificada de alguna forma. La mínima recompensa se traduce en una nueva dirección, pero pueden existir variantes
como descuentos en el presupuesto, direcciones extra, etc. Consideremos que ambas entidades están interesadas en
que la base de datos sea actual: quien encuesta porque ello aumenta las garantías de una muestra aleatoria, quien
suministra la base porque aumenta la calidad de ésta.
Con respecto al sesgo de cobertura, cabe señalar que las encuestas por correo no pueden aspirar a encuestar
a cualquier tipo de población (inicialmente al alcance del procedimiento cara a cara). Sin embargo, en la práctica
no interesa cualquier tipo de población, de tal forma que el procedimiento es seleccionado si existe un marco
adecuado a la población de interés.
8.2. Problemas con la ausencia de respuesta
La famosa expresión popular «del dicho al hecho hay mucho trecho» tiene una aplicación directa en
investigación mediante encuestas cuando se trata de obtener la muestra que se ha diseñado. El primer problema ha
sido abordado en el subapartado anterior: el marco del que se dispone no es perfecto. Pero el problema más grave
con el que se encuentra el investigador viene después: cuando debe contarse con la colaboración de la población y
recoger la información de interés. Hay gente que no se encuentra, otros que se localizan pero que no responden y
otros que responden pero no a todo. En cualquier caso, tales sucesos se aglutinan en torno a un problema común,
omnipresente y de gran trascendencia en investigación mediante encuestas: el fenómeno de la no-respuesta.
No es de extrañar, pues, que sea «éste uno de los problemas de no muestreo que más atención ha recibido
-71-
por parte de los investigadores del método de encuestas» (Martínez Arias, 1995a:499). Y ello principalmente por
dos inconvenientes de peso que genera: disminuye el tamaño de la muestra y provoca un sesgo importante en los
resultados (Adams, 1989:105; Aparicio,1991:60; Levy y Lemeshow, 1991:303) al no contar con la información
proveniente de subpoblaciones concretas (a las que representan las unidades faltantes en el conjunto final de datos).
Cuando alguien no responde a una encuesta, cabe sospechar que exista alguna variable que pueda explicar tal
acontecimiento y es posible que esa variable tenga relación con la característica que se pretende medir. Pongamos
por ejemplo, que no se consiguiera la colaboración de buena parte de los empresarios en una investigación sobre
el futuro laboral. ¿Quién creería los resultados del estudio?
Es preceptivo el facilitar una medida de éxito en la participación de la población, a la hora de facilitar los
resultados del estudio. Esta medida es conocida como tasa de respuesta (tr): número de unidades que han sido
encuestadas con respecto al número de unidades que deberían haber sido encuestadas.
Pero ¿cómo de alta debe ser la tasa de respuesta? La contestación es muy sencilla: «la regla general es
‘cuanto más alta mejor’» (Fink y Kosecoff, 1989). Pero la aspiración al 100% es utópica. Groves y Kahn (1979:3-4)
facilitan algunas explicaciones al respecto:
- La gente no está y cuando está, está ocupada.

- O no creen que el estudio tenga consecuencias positivas o sospechan que tenga consecuencias negativas
o ambas cosas.
- Desconfían de abrir la puerta de casa a extraños.
Aspectos a los que podríamos añadir la influencia negativa que sobre la actitud de la población frente a las
encuestas se ejerce desde la venta a domicilio (Manzano y otros, 1996). De hecho, si una investigación no pública
alcanza una tasa de respuesta superior al 90% puede considerarse un verdadero éxito. Con mucha frecuencia, lo
esperable es trabajar con tasas inferiores al 90% incluso en estudios donde se realizan revisitas.
En general, cabe señalar una falta de máxima motivación o implicación en responder, lo que explica en
parte el éxito de los censos precedidos por campañas de concienciación (Aparicio, 1991). Por otro lado, la
conciencia de este problema lleva a los investigadores, especialmente en psicología social, al estudio de los
conceptos de altruismo y conformidad como factores explicativos de la cooperación de los potenciales entrevistados
en las encuestas (Groves, 1990).
Por otro lado, la ausencia de respuesta puede ser debida a diferentes categorías de carácter técnico que
tienen influencia en el modo en que son calculados los índices descriptivos de la no respuesta. Así, Lessler y
Kalsbeek (1992:123-125), indican las siguientes categorías:
- Determinadas subpoblaciones no pueden ser elegidas. Se encuentran en la población geográfica pero no

pertenecen a la población objetivo. Es el caso de alguien que abre la puerta pero no debe ser
encuestado (no corresponde al intervalo de edad de interés, corresponde a una categoría ya
completa...).
- El seleccionado es elegible, pero se encuentra ausente del domicilio.
- El seleccionado es elegible, se encuentra en su domicilio, pero rehúsa responder.
-72-
- El seleccionado es elegible, se encuentra en su domicilio, accede a responder, pero existen impedimentos
físicos, mentales, emocionales o de lenguaje que impiden la respuesta (por ejemplo, una
enfermedad temporal que dificulta la expresión oral).
De las cuatro, la segunda (ausencia o no contacto) y la tercera (rechazo o no cooperación) son las más
comunes (Martínez Arias, 1995a) como fenómenos básicos para el cálculo de la no respuesta.
Existe una muy abundante literatura sobre cuantías concretas para tasas de respuesta. Pero esta amplitud
de información no va seguida de una calidad ni utilidad parejas. Ocurre que existe cierta reticencia a facilitar tasas
de no respuesta en general, puesto que conforme ésta es mayor, disminuye la credibilidad en los resultados
facilitados por el investigador. Por otro lado, los contextos de aplicación de las encuestas son muy variados y
dispares espacio-temporalmente. Así, la mayoría de los estudios sobre el tema provienen de Estados Unidos, lugar
muy peculiar en términos de frecuencia y actitud frente a las encuestas.
Otro problema relacionado es la amplia y muy extensa cantidad de tasas de respuesta que se facilitan en
los diferentes estudios. Dependen del tipo de investigación, medios disponibles, preparación de los encuestadores,
cuestionario utilizado, contexto social en el que se realiza la encuesta, entorno geográfico y cultural, etc. La única
conclusión con una validez amplia, pero con excepciones, es cualitativa y se refiere a que la tasa de respuesta es
mayor en la entrevista personal, seguida muy de cerca por la telefónica y, bastante lejos ya, la entrevista postal. No
obstante, algunos estudios comparativos otorgan el primer lugar a la encuesta por teléfono (Groves y Lyberg, 1988)
lo que hace suponer que, al menos en Estados Unidos, el desarrollo técnico y la acumulación de experiencia para
la encuesta por teléfono la sofistica y permite un mayor aumento del control de las respuestas.
Los problemas de no-respuesta en los tres procedimientos de encuestas son diferentes. En términos
generales, la cuestión es la misma: no se ha obtenido respuesta por parte del seleccionado. No obstante, existen
ciertas particularidades.
En la entrevista cara a cara, el encuestador cuenta con información y habilidades para resolver dudas,
motivar e indagar respuestas, por lo que aumenta la probabilidad de obtenerlas.
En la entrevista por teléfono, no existe la invasión de la intimidad y la seguridad que el encuestado puede
sentir o temer ante una entrevista cara a cara, por lo que el acto de coger el teléfono resulta más fácil que el de abrir
la puerta. Pero igualmente, es menos agresivo colgar el teléfono que cerrar la puerta, cuando no se desea continuar
con la conversación. En general, depende mucho de las habilidades del encuestador, características de su voz, tipos
de pregunta y longitud del cuestionario.
La entrevista por correo es, sin duda, la que muestra menor tasa de respuesta. La sensación de compromiso
con el encuestador (por teléfono o cara a cara) no existe, puesto que es el procedimiento menos personal. Por otro
lado, cuando una persona es entrevistada por teléfono o cara a cara, ése es el momento y el lugar, mientras que
responder a un cuestionario que se ha enviado por correo puede aplazarse indefinidamente. Se han puesto en marcha
procedimientos para reducir la no-respuesta que pasan principalmente por facilitar la tarea (cuestionarios breves y
fáciles de responder que impliquen poco esfuerzo y que incluyan el sobre sellado para su devolución) y motivar al
encuestado (con textos de interés e incentivos económicos o regalos). En el capítulo próximo, sobre selección del
encuestado, volveremos brevemente sobre esta cuestión, que, por otro lado, ya fue tratada en el capítulo anterior.
Pero sea cual fuere el procedimiento aplicado y mientras no existan fundamentadas razones para suponer
lo contrario, el colectivo de unidades que no responden cuenta con unas características definitorias cuya ignorancia
puede invalidar con facilidad los resultados del estudio, al menos si se mantiene la misma población objeto inicial.
De este modo, la tasa de respuesta no debería influir en el cálculo del tamaño óptimo de la muestra. La estrategia
más recomendable es insistir en las unidades seleccionadas pero no entrevistadas. Al respecto, el encuestador tiene
-73-
instrucciones precisas para insistir en la entrevista, quedar con los que comparten la vivienda con el seleccionado
para pasar más adelante...
Una estrategia muy recomendable, desde la teoría del muestreo (que no desde la práctica de las limitaciones
económicas) es tratar al colectivo de unidades de no-respuesta como una población de la que debe obtenerse una
muestra, por lo que se debe poner en marcha una investigación paralela a la principal, incluyendo especialmente la
fase de recogida de datos.
8.3. Los encuestadores
Se supone que el investigador que diseña un estudio mediante encuestas tiene un conocimiento teórico
suficiente como para abordar la tarea. Pero puede elaborar el diseño de la investigación en general y de la muestra
en particular, desde el sillón de un despacho.
Pero llega el momento de la verdad: un grupo de gente debe salir a la calle (o llamar por teléfono) y realizar
las encuestas. Son los encuestadores. Sobre sus espaldas recae buena parte de la credibilidad en los resultados finales
del estudio. El trabajo de campo cuenta con abundantes oportunidades para relajar la atención, tomar decisiones
incorrectas y provocar errores. Un encuestador puede seleccionar una calle a la izquierda en lugar de la derecha
sencillamente por que ésta es cuesta arriba mientras que la otra no. En tal caso, las familias residentes en barrios altos
tendrían menos oportunidades de pertenecer a la muestra que las de los barrios más bajos, con lo que se obtendría
una muestra sesgada.
El encuestador ideal es aquél que conoce su trabajo, sabe cómo hacerlo y lo hace bien. Tales características
globales idílicas serán concretadas en un capítulo posterior, sobre la selección del encuestado.
Para garantizar, en la medida de las posibilidades del investigador, que el encuestador cuenta con tales
características (a ser posible), debe ponerse en marcha un proceso de formación o reciclaje de encuestadores antes
del trabajo de campo. Igualmente y sobretodo si el estudio tiene cierta envergadura, cabe estructurar un sistema de
supervisión que puede aconsejar, inclusive, la repetición, por parte del inspector, de parte de los movimientos del
encuestador. Por ejemplo, visitar a una persona encuestada y preguntarle acerca de la entrevista realizada.
9. SOFTWARE PARA EL MUESTREO: SOTAM
Realizar una buena investigación mediante encuestas implica una dosis alta de esfuerzo por parte de los
diseñadores del estudio. Deben tomar muchas decisiones a lo largo del proceso y algunas de ellas requieren un
dominio profundo de conocimientos teóricos y prácticos. En tales circunstancias, se agradece la existencia de
productos del software que ayuden a tomar decisiones. En el presente subapartado se menciona uno de ellos:
SOTAM1, mediante el que un investigador social puede obtener ayuda en puntos diferentes del proceso del diseño
y selección de muestras.
El cometido principal de SOTAM, que justifica su creación, es ayudar al investigador a tomar una decisión
sobre el tamaño óptimo de la muestra. No obstante incluye multitud de utilidades tangenciales: decisión
El producto fue elaborado por el autor de este capítulo con motivo de su tesis doctoral sobre decisión de
un tamaño óptimo de muestra en investigación mediante encuestas. Existe una versión de distribución libre.
Los interesados en obtener una copia deben ponerse en contacto con cualquiera de los autores de este
manual o consultar la página Web: URL: http://www.ualm.es/~arojas/manzano/sotam.html.
-74-
procedimiento de encuesta, modelo de muestreo, selección de encuestados, elaboración de informes, etc.
Por lo que se refiere a los aspectos que han sido abordados en el presente capítulo, SOTAM permite:
1. Decidir un procedimiento de selección de muestras: aleatorio simple, estratificado con afijación óptima,
conglomerados monoetápico o con submuestreo. Para ello, el sistema somete al usuario a un conjunto de
preguntas cuyas respuestas justifican el flujo interrogatorio. Una de las utilidades genera un archivo de
disco en código ASCII donde figura la justificación de la decisión.
2. Decidir un tamaño de muestra óptimo. SOTAM cuenta con muchas utilidades en torno a esta cuestión. El módulo
principal se compone de una pantalla de tanteos donde el usuario va introduciendo valores para
determinadas variables y observando sus repercusiones en el tamaño de muestra resultante. Asimismo
puede cambiar la referencia y situar n como independiente, definiendo el error de precisión, el tamaño de
efecto o los riesgos " o $ como variables dependientes del resto. Dado que una de las necesidades para
obtener un tamaño adecuado es conocer información sobre determinadas variables en la población,
SOTAM cuenta con un módulo de indagación en el que pregunta al usuario determinadas cuestiones y, en
el caso de que éste las desconozca, el sistema decide por su cuenta. Mediante un conjunto de módulos
específicos, SOTAM es capaz de tomar una decisión sobre el tamaño de la muestra en contextos de
inferencia múltiple y considerando los costes del estudio. Elabora automáticamente salidas en código ASCII
con justificación del tamaño de muestra, tablas de tamaños en función de otras variables, esquema o cuadro
de muestreo, etc.
3. Una vez con el modelo de muestreo decidido y un tamaño de muestra concreto, SOTAM permite realizar una
selección individual: decide qué sujetos van a ser seleccionados en un muestreo aleatorio o estratificado,
o qué conglomerados en un monoetápico, o qué participación van a tener qué conglomerados en un
bietápico. A su vez, genera matrices de información variada, como es el caso de los pesos o ponderaciones
que deberán considerarse tras el trabajo de campo y antes del análisis estadístico. Si la encuesta va a
realizarse por teléfono, genera aleatoriamente un listado de números, según restricciones que se especifican
por separado para el prefijo y el resto de los dígitos.
4. Cuenta con un conjunto de utilidades de generación aleatoria que permiten decidir cuál es el generador básico (de
la distribución uniforme continua), el modelo de distribución, la estética o formato de la tabla de salida,
etc., incluyendo una utilidad que genera tablas específicas para encuestadores en la realización de las rutas
aleatorias. La tabla que se muestra en el anexo 1 ha sido construida por SOTAM.
La figura 8 muestra una relación de módulos ejecutables del programa, en el caso de que el usuario escoja
el procedimiento de navegación por módulos.
64444444444444444444444444444444444444447 64444444444444444444447
5*1. Pantalla tanteo para tamaños 5 5*1. Aleatorio simple 5
5*2. Decisión procedimiento de encuesta 5 5*2. Estratificado 5
5*3. Decisión modelo de muestreo 5 5*3. Conglomerados 5
5*4. Pantalla tanteo para costes 5 5*4. Submuestreo 5
5*5. Múltiples variables 5 9444444444444444444L448
5 6. UtilidadesAAAAAAAAAAAAAAAAAAAAAAAAAK))))))))), *
5 7. EntornoAAAAAAAAAAAAAAAAAAAAAAAAAAAAK)))), * *
5 8. Ejecutar programa del DOS 5 * * 64444444444444444444444444444444447 *
5 (Si el usuario pulsa F1)AAAAAAAAAAAAAAK), * * 5*1. Matriz de números aleatorios 5 *
94444444444444444444444444444444444444448 * * * 5*2. Números de teléfono 5 *
+))))))))))))))))))- * * 5*3. Tablas para encuestadores 5 *
64444444444444444444444N447 * * 944444444444444444444444444444444L8 *
5 1. Información SOTAM 5 * * * *
5 2. Información hardware 5 * * * *
5 3. Información software 5 * 644N444444444444444444444444444444444447 * *
5 4. Cómo utilizar SOTAM 5 * 5*1. Recursos de optimización 5 * *
944444444444444444444444448 * 5*2. Probabilidades y distancias 5 * *
* 5 3. Generación aleatoriaAAAAAAAAAAAAAAK)- *
* 5 4. Selección de unidadesAAAAAAAAAAAAAK)))))-
* 5*5. Tamaños para dominios 5
-75-
+)))))))))))))))))))- 5 6. Generación de informesAAAAAAAAAAAAK)))),
* 5*7. Utilización de software comercial 5 *
6444444444444444444444444N447 5*8. Visualización de archivos 5 *
5 1. Colores del entorno 5 9444444444444444444444444444444444444448 *
5 2. Control de inicioAAAAAAK))))))))))))))), *
5 3. Tipo usuarioAAAAAAAAAAAK))))))))))), * 644444444444444444444444444444444N4447
5 4. Opciones por defectoAAAK))))), * .)))))))))), 5*1. Esquema del muestreo 5
5 5. Señal audibleAAAAAAAAAAK)), * 644N444444444447 * 5*2. Justificación del tamaño 5
5 6. Otro archivo de salida 5 * * 5 1. Inexperto 5 * 5*3. Justificación del modelo 5
94444444444444444444444444448 * * 5 2. Experto 5 * 5*4. Justificación del procedimiento 5
* * 9444444444444448 * 94444444444444444444444444444444444448
* * *
+)))))))))))))))))- * *
6444444444444N447 6444444444444444N444444447 6444444444N4444444444444444444444444444444444444447
5 1. Desactivar 5 5 1. Actualizar 5 5 1. Comenzar sesión por las opciones por defecto 5
5 2. Activar 5 5 2. Definición original 5 5 2. Comenzar sesión en el último estado 5
94444444444444448 94444444444444444444444448 944444444444444444444444444444444444444444444444448 Figura
8. Relación de los módulos de acción de SOTAM, en función del menú de pertenencia.
ANEXO 1: TABLA DE NÚMEROS ALEATORIOS (3000 dígitos)
-76-
36277 79771 94055 23255 49454 22163 93562 98683 42152 22210 76459 91204 04215 29993 74085
61350 51503 55988 01460 58420 61227 96936 20829 38453 63391 99242 21806 44058 14949 81895
81029 30004 04018 77008 53445 24195 75678 05639 34327 40161 80735 31209 37643 18394 39341
63075 37564 63356 98888 43497 36762 21307 60822 14555 32165 04437 64665 61742 30179 32208
73689 27868 13743 09724 92884 89141 67393 09781 96951 14046 62714 05451 59100 56413 77772
33694 44399 74915 16115 68373 76768 20772 31183 88984 59289 98936 55063 44884 89058 13725
44858 78454 66003 70234 16827 82521 35748 78810 22303 36587 65788 91988 64696 36094 41215
84685 64744 18991 33736 46748 72526 16617 03882 94036 98521 43993 00952 03760 39468 63362
80986 05923 41775 64340 86591 57482 24428 23561 72537 46551 19541 95979 66728 18210 48173
76861 82694 23268 73742 80176 60927 81874 05607 80098 05888 41420 86030 79295 63840 03355
57088 74698 46970 07197 04274 72712 74741 16221 70401 56276 52257 35416 31673 09925 52315
39483 56579 05246 47985 01633 98946 20304 76228 86932 17447 58648 10906 19300 63305 73716
31516 01821 41468 97596 87417 31591 56259 87391 20986 08535 12766 59360 25053 78281 21342
64836 79120 08320 34520 07228 78627 83748 27217 07276 61524 76269 89281 15058 59150 46415
36569 41053 86526 43485 46293 82001 05895 23519 48457 84308 06872 29123 00015 66961 66095
15069 89084 62074 38511 09260 60743 90706 19393 25227 65801 16274 22709 03460 24406 48140
22630 48421 83953 28563 21828 06372 45888 99621 17230 89503 49730 46807 15244 17273 58755
12933 98809 94790 77950 74207 52458 94848 82017 99112 47780 90518 44166 41478 62837 18760
29464 59980 01181 53439 61833 05837 16248 74049 44354 84001 40129 29949 74124 98792 29923
63520 51068 55299 01893 67586 20813 63875 07368 21653 50854 77053 49762 21159 26281 69751
49809 04056 18802 31814 57592 01683 88949 79102 83586 29059 86018 88826 24534 48428 66052
90990 26840 49405 71657 42548 09493 08627 57602 31616 04606 81044 51794 03276 33238 61926
67760 08333 58808 65242 45993 66939 90674 65163 90955 26485 71096 64361 48905 88421 42153
59764 32036 92263 89340 57778 59807 01287 55467 41342 37323 20482 16739 94992 37380 24549
41645 90313 33050 86699 84011 05370 61293 71998 02512 43714 95972 04366 48370 58782 16581
86888 26533 82662 72482 16656 41324 72457 06052 93602 97833 44426 10119 63346 06408 49902
64186 93387 19585 92295 63693 68814 12283 92342 46590 61335 74347 00124 44216 31481 21634
26119 71592 28551 31358 67067 90961 08584 33522 69373 91938 14189 85081 52026 51160 00135
74150 47139 23577 94327 45809 75771 04458 10292 50867 01340 07774 88526 09472 33206 07695
33487 69019 13628 06893 91439 30954 84687 02296 74569 34796 31873 00310 02339 43820 98000
83875 79856 63015 59272 37524 79913 67082 84178 32845 75583 29232 26544 47903 03825 14530
45046 86247 38504 46899 90904 01314 59115 29420 69067 25194 15015 59189 83857 14989 48585
36134 40365 86959 52652 05879 48941 92435 06718 35919 62119 34827 06225 11346 54816 34875
89123 03867 16879 42657 86749 74014 64167 68652 14124 71084 73892 09599 33493 51117 76055
11906 34471 56722 27613 94560 93693 42668 16682 89673 66110 36859 88342 18304 46992 52825
93400 43873 50308 31058 52005 75739 50229 76020 11551 56162 49426 33971 73487 27219 44829
17101 77329 74406 42843 44872 86354 40532 26407 22388 05547 01804 80057 22446 09614 26710
75378 18116 71765 69077 90436 46359 57063 87579 28779 81038 89432 33436 43847 01647 71953
11599 67727 57548 01722 26390 57522 91118 78667 82898 29491 95185 48412 91474 34967 49251
78452 04651 77360 48758 53879 97349 77408 31655 46400 59412 85190 29281 16546 06700 11184
-77-
ANEXO 2: RUTINA BASIC PARA LA SELECCIÓN DE UNIDADES
El listado que sigue ha sido probado en GWBASIC y en QBASIC sin problemas. En la ejecución, pregunta
por el tamaño de la población y de la muestra así como el nombre del archivo de salida en el que grabar la selección.
Como resultado se obtiene un listado de números aleatorios que representan las unidades seleccionadas.
Por ejemplo, en una población con 5000 unidades de la que se requieran 60 para la muestra, se puede
obtener:
4495 966 1105 4401 4765 2800

2671 3218 3490 4746 4041 4917
2576 1676 4419 2845 4428 2481
496 4101 3324 4582 4562 1482
1020 3119 3720 955 2459 4086
29 3120 4630 3024 2308 3394
948 4145 290 440 1830 1295
293 1419 4079 764 1995 3558
3141 3231 2594 1760 2489 3555
386 2833 843 3804 1475 4139
Listado:
10 KEY OFF : CLS
20 INPUT "Número de elementos en la población: ",POB
30 INPUT "Número de elementos a seleccionar para la muestra: ",MUE
40 INPUT "Nombre del archivo para la salida: ",SAL$
50 DIM D(MUE)
60 OPEN SAL$ FOR OUTPUT AS #1
70 RANDOMIZE TIMER
80 FOR A=1 TO MUE
90 DATO=INT(RND*POB)+1
100 FOR B=1 TO A-1
110 IF DATO=D(B) THEN 90
120 NEXT B
130 D(A)=DATO
140 PRINT #1, DATO
150 NEXT A
160 CLOSE #1 : SYSTEM
-78-

Seleccion de Muestras

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Seleccion de Muestras

Cargado por

Copyright:

Formatos disponibles

CAPÍTULO 3

1. ABORDAJE DIRECTO DE LA POBLACIÓN

Figura 2. Disposición espacial de los símbolos {Ê, Í, %, +, ', (, )}

2. SOLUCIÓN: ENCUESTA SÓLO A UNA MUESTRA

2.1. A la búsqueda de una solución

Figura 3. Disposición de los símbolos

% % ( + + Í % ( + ' Ê % + Í*' + + % ' + Í ( + + % ' % '*% + Í + % Í + + % % + + ( '

Figura 4. Cuadriculado de la disposición espacial de los símbolos {Ê, Í, %, +, ', (, )}

2.2. Representatividad de las muestras

2.3. Fases en la obtención de una muestra

1. Definición de los objetivos del estudio.

3. Especificación de qué variables deben medirse, en las unidades seleccionadas.

8. Formación o capacitación de los entrevistadores o encuestadores o experimentadores (en general, agentes). El

3. ACERCA DEL TAMAÑO DE LA MUESTRA

3.1. Importancia del concepto

' + + + % + (*+ + Í + % ' '*+ ( + ( ' + +*' % + Í + + (*+ + ' % Í + +*+ % Í + + + (

% % ( + + Í %*( + ' Ê % + Í*' + + % ' + Í*( + + % ' % '*% + Í + % Í +*+ % % + + ( '

Figura 7. Cuadriculado de la disposición espacial de los símbolos {Ê, Í, %, +, ', (, )} en 48 porciones.

3.2. Algunos consejos

3.3. Expresiones de cálculo

En las siguientes expresiones de cálculo se utilizan los símbolos:

N Número de elementos en la población

Muestreo de conglomerados monoetápico*

* La segunda expresión corresponde al caso en el que se desconozca un valor aproximado para *

Muestreo de conglomerados con submuestreo (bietápico)

Si se desconoce Fd², sustituir por F²-Fe²

Si se desconoce Fe², sustituir por

5.1. Muestreo aleatorio simple

La denominación «muestreo aleatorio simple» es la más usual en la literatura. No obstante se encuentran

5.2. Muestreo sistemático con arranque aleatorio

6, 16, 26, 36, ... , 476, 486 y 496

- Período (opcionales): k=I(N/n) ó k=I(N/n)+1

n'=N/k ó n'=I(N/k)+1 si N/k…I(N/k)

- El número k de muestras totales estará dividido en:

N-k(n'-1) muestras de tamaño n'

Cuando N/n=I(N/n) y el marco se encuentra dispuesto de forma aleatoria, el muestreo sistemático es

5.3. Muestreo estratificado

En el muestreo estratificado se establecen restricciones a la selección enteramente aleatoria. La conciencia

5.4. Muestreo de conglomerados

A. Si *<0 es más eficiente el muestreo de conglomerados

5.5.1. Muestreo de dominios

5.5.2. Muestreo de conglomerados bietápico o con submuestreo

5.6. ¿Cómo escoger un procedimiento de muestreo?

Tabla 5. Ordenación de cuánto consigue un procedimiento de selección de muestras,

6.1. El error muestral y sus expresiones asociadas

em = 0.478 - 0,356 = 0,122

es el error muestral (em).

ECM(**) = E(**-*)² = E(**-[E(**)-B])² = E([**-E(**)]+B])² =

Como el sesgo, B, es una constante, entonces:

Sustituyendo ambas expresiones en (1):

ECM(**) = E(**-E[**])²+B² = V(**) + B²

B = E(em) = E(**-*) = E(**)-*

Uniendo los conocimientos adquiridos hasta el momento:

6.2. El error muestral y la estimación

Esta misma información puede expresarse de otra forma, indicando:

6.3. Riesgo en la estimación

En el subapartado anterior se ha mencionado el valor de probabilidad 8. Si en la literatura estadística no

6.4. Un ejemplo concreto

muestral y el cuadrado de ambos valores para posteriores operaciones.

Con respecto a las muestras:

1 5 3 8 7 5.7500 33.0625 0.7500 0.5625

Total 175 888.75 0 13.75

7. CONSECUENCIAS DEL MUESTREO EN EL ANÁLISIS DE LOS DATOS

Lo esperable, en investigación mediante encuestas, es que el investigador esté interesado en establecer

% % ( + + Í % ( + ' Ê % + Í' + + % ' + Í ( + + % ' % '% + Í + % Í + + % % + + ( '

' + + + % + (+ + Í + % ' '+ ( + ( ' + +' % + Í + + (+ + ' % Í + +*+ % Í + + + (

% % ( + + Í %( + ' Ê % + Í' + + % ' + Í( + + % ' % '% + Í + % Í +*+ % % + + ( '

ECM() = E(-*)² = E(-[E()-B])² = E([-E()]+B])² =

ECM() = E(-E[])²+B² = V() + B²