Está en la página 1de 333

INSTITUTO SUPERIOR DE CIENCIAS MÉDICAS DE LA HABANA

DISEÑO RAZONADO DE MUESTRAS Y


CAPTACIÓN DE DATOS PARA LA
INVESTIGACIÓN SANITARIA

Dr. Luis Carlos Silva Ayçaguer


Investigador Titular
Profesor de la Escuela de Salud Pública de La Habana

La Habana Junio del 2000.


CAPITULO 1. MARCO CONCEPTUAL DE LAS TÉCNICAS MUESTRALES
1.1 La muestra: un modelo de la realidad

1.2 Las técnicas muestrales como herramienta de la investigación

1.2.1 Las preguntas de investigación


1.2.2 Técnicas cualitativas: una puntualización oportuna

1.3 Estudios descriptivos y analíticos

1.4 Problema de muestreo en estudios descriptivos

1.5 Unidades de análisis, unidades de muestreo y marco muestral

1.6 Probabilidad de selección y diseños probabilísticos

1.7 Diseños equiprobabilísticos

1.7.1 Algunos ejemplos simples


1.7.2 Tamaño muestral y probabilidades de inclusión
1.7.3 Una ilustración histórica

1.8 Muestras no probabilísticas

1.9 El concepto de representatividad y el papel del azar

1.9.1 La noción de representatividad


1.9.2 ¿Garantiza el azar la representatividad?
1.9.3 Los méritos del azar
1.9.4 Elegir el método, aceptar la muestra

1.10 Estimación puntual y por intervalos

1.10.1 Interpretación de los intervalos de confianza


1.10.2 La zona más probable
1.10.3 Intervalos de confianza como alternativa de las pruebas de hipótesis
1.10.4 Error absoluto y error relativo

1.11 Muestras y censos

Bibliografía
CAPITULO 2 LA ENCUESTA

2.1 Organización de la encuesta

2.1.2 Las tareas básicas


2.1.3 Errores ajenos al muestreo

2.2 El cuestionario

2.2.1 Formas de aplicación


2.2.2 Ubicación de las preguntas
2.2.3 Tipos de preguntas

2.3 Indicaciones para el diseño de cuestionarios y redacción de preguntas

2.3.1 Recomendaciones generales para la construcción del cuestionario


2.3.2 Pautas específicas para la redacción de interrogantes

2.4 Validación y muestra piloto

Bibliografía

CAPITULO 3. MUESTREO SIMPLE ALEATORIO

3.1 Introducción

3.2 Definición y métodos de selección

3.2.1 Números aleatorios y pseudoaleatorios

3.3 Media y varianza de los estimadores

3.3.1 Estimación de la media poblacional


3.3.2 Varianza de la estimación de la media

3.4 Un ejemplo ilustrativo

3.5 Distribución de la media muestral

3.6 Cálculo de los intervalos de confianza

3.7 Tamaño de la muestra

3.8 Estimación de otros parámetros

3.8.1 Estimación de un total poblacional


3.8.2 Estimación de una fracción o proporción
3.8.3 Error absoluto, error relativo y estimaciones complementarias

3.9 Un problema de urnas

3.10 Desarrollo de un ejemplo práctico

3.11 Complementos del muestreo simple aleatorio


3.11.1 Muestreo simple aleatorio con reemplazo
3.11.2 Subconjuntos de una muestra simple aleatoria
3.11.3 Estimación de una razón

APÉNDICE: El azar y los números pseudoaleatorios

Bibliografía

CAPITULO 4. MUESTREO SISTEMÁTICO

4.1 Una alternativa al muestreo simple aleatorio

4.2 Método regular de selección.

4.3 Estimación de parámetros.

4.4 Otorgamiento de una probabilidad fija y selección en fases


4.5 Varianza de la media muestral

4.6 Una advertencia académica

4.7 Aplicaciones del muestreo sistemático

Bibliografía

CAPITULO 5. MUESTREO ALEATORIO ESTRATIFICADO

5.1 La necesidad de ponderaciones

5.2 Estratificación y representatividad

5.3 Procedimientos de estimación

5.4 Dos ejemplos ilustrativos

5.5 Complementos del muestreo aleatorio estratificado

5.5.1 Asignación de tamaños muestrales a los estratos


5.5.2 Tamaño de muestra
5.5.3 Número de estratos
5.5.4 Posestratificación

Bibliografía

CAPITULO 6. MUESTREO POR CONGLOMERADOS

6.1 Selección en etapas

6.2 Muestreo por conglomerados monoetápico

6.2.1 Tres rasgos claves


6.2.2 Estimación insesgada y de razón
6.2.3 Estimación de errores
6.2.4 Una incongruencia del estimador insesgado

6.3 Muestreo en etapas con submuestreo

6.3.1 Estimador sin sesgo


6.3.2 Probabilidades de selección
6.3.3 Estimador de razón
6.3.4 Ilustración

6.4 Muestreo polietápico

6.5 Efecto de diseño

Bibliografía

CAPITULO 7 UN DISEÑO ESPECIAL: SELECCIÓN DE CONGLOMERADOS CON


PROBABILIDADES PROPORCIONALES SUS TAMAÑOS

7.1 Procedimiento de selección

7.2 Estructura probabilística

7.2 Selección de unidades en la segunda etapa

7.4 Notación

7.5 Procedimientos de estimación

7.6 Manejo práctico de las aproximaciones de tamaño

CAPITULO 8. MUESTREO ESTRATIFICADO POLIETÁPICO

8.1 Estratificación de unidades de primera etapa


8.2 Estructura y notación

8.3 Método de selección

8.3 Procedimientos de estimación

8.4 Un ejemplo detallado del muestreo estratificado polietápico

8.5 Otros aspectos del muestreo estratificado polietápico

8.5.1 Unidades autorrepresentadas


8.5.2 Dos UPE por estrato
8.5.3 Tratamiento de "cross-clases"
8.5.4 Caso no equiprobabilístico

8.6 Tamaño muestral y efecto de diseño

Bibliografía

CAPITULO 9. OTRAS TÉCNICAS DE MUESTREO

9.1 Muestreo replicado

9.2 Técnica de respuesta aleatorizada

9.2 Estimación por pesca y repesca

9.4 Muestreo condicional en dos fases

9.5 Muestreo en el tiempo

9.6 Muestras maestras

9.6 Muestreo y técnicas de evaluación rápida

9.8 Estimación de eventos infrecuentes y muestreo en red

9.9 Medias según unidades de información

9.10 Diseños con cuestionario parcial

Bibliografía

CAPITULO 10. MUESTREO Y TÉCNICAS ESTADÍSTICAS CONVENCIONALES

10.1 Técnicas estadísticas aplicadas a muestras complejas

10.2 Muestras transversales y causalidad


10.2.1 Premisa de precedencia temporal
10.2.2 ¿Computar o no computar asociaciones en estudios transversales?
10.2.3 Una ilustración detallada
10.2.4 Consideraciones finales

10.3 Tamaño de muestra en estudios clínicos y de epidemiología analítica

10.4 Selección de casos y controles

10.5 Análisis contextual

10.6 Asignación aleatoria

Bibliografía

CAPITULO 11. RECURSOS COMPUTACIONALES PARA EL TRATAMIENTO DE


DATOS MUESTRALES

11.1 Programas para determinación de tamaños muestrales

11.2 Tratamiento de datos en una muestra simple aleatoria

11.3 Diseños no equiprobabilísticos y empleo de ponderaciones

11.4 Programas para la estimación de errores en muestras complejas

11.4.1 Módulo CSAMPLE de EPIINFO


11.4.2 Otros programas

11.5 Programas para la selección de muestras

11.6 Sistema general de simulación de diseños y aplicaciones muestrales

11.6.1 Programas de selección


11.6.2 Simulación de muestras
11.6.3 Otras aplicaciones informáticas relacionadas con el muestreo
11.6.4 Requerimientos y rasgos generales del sistema

Bibliografía

CAPITULO 12. REFLEXIONES CRITICAS SOBRE LA PRACTICA MUESTRAL


CONTEMPORANEA

12.1 Marco de extrapolación


12.1.1 Una regla rígida
12.1.2 Pruebas de significación en "muestras poblacionales"
12.1.3 Necesidad de un superuniverso
12.1.4 Información autorrepresentada

12.2 Problemas del marco muestral

12.3 El problema del tamaño muestral

12.3.1 Repasando la teoría oficial


12.3.1 Seis realidades escamoteadas
12.3.3 El caso de las pruebas de hipótesis
12.3.4 Reconocimiento de lo subjetivo.
12.3.5 Finalmente, ¿qué hacer?

12.4 El problema de la no-respuesta

12.4.1 El modelo esencial


12.4.2 Técnicas para reducir la no respuesta
12.4.3 Técnicas para la imputación
12.4.4 Corrección de estimadores

12.5 Determinación de valores normales

12.5.1 El recorrido normal


12.5.2 ¿Qué población ha de muestrearse?
12.5.3 Carácter histórico de la normalidad

12.6 Las encuestas en la prensa

12.6.1 Estereotipos tendenciosos


12.6.2 Lo que ocultan las afirmaciones globales
12.6.3 Falsos vaticinios

12.7 Cálculo y presentación de errores muestrales

12.8 Conjurando errores comunes

12.8.1 Fracción de muestreo versus tamaño muestral


12.8.2 ¿Un 50 % mágico?
12.8.3 Un esfuerzo estéril
12.8.4 Sustitución mecánica de unidades
12.8.5 Rutas aleatorias

Bibliografía

INDICE ALFABÉTICO DE AUTORES

INDICE DE MATERIAS
L.C.Silva
PRESENTACIÓN

La presente obra constituye una prolongación, tanto cualitativa como cuantitativa, de mi libro
"Muestreo para la investigación en ciencias de la salud" publicado por la Editorial "Díaz de Santos"
hace más de un lustro atrás. Habiéndose empleado como texto en decenas de cursos de
posgrado impartidos en varios países, fueron cuantiosas las insuficiencias detectadas que ahora
procuro enmendar o mitigar.

En aquella edición ya se señalaba la existencia de diversos textos orientados a proveer a


estudiantes e investigadores de recursos instrumentales para el diseño de muestras. Sin embargo,
después de unos cuantos años de práctica docente e investigativa relacionada con el muestreo en
el campo de la salud, sigo considerando conveniente contar con un material que ponga el máximo
énfasis en la interpretación cualitativa de sus resultados básicos y que, simultáneamente, centre
su atención en el nivel empírico dentro del que opera la salud pública: las investigaciones de
salud y epidemiológicas concretas.

En la versión anterior ya se pretendía ofrecer un material cuya comprensión exigiera solamente


conocimientos elementales de estadística y probabilidades y que expresamente eludiera, por
tanto, la derivación matemática de resultados, así como las fórmulas repletas de signos de
sumatoria y subíndices que sólo causan extrañeza y desconcierto al investigador simple. Tal
espíritu ha sido enteramente respetado en la versión actual. El acopio de una ya prolongada
experiencia en la materia me ha convencido de que los textos vertebrados en torno a
formulaciones abigarradas poco tienen que ver con las expectativas de mis colegas salubristas y
epidemiólogos. Sin embargo, diversos aspectos reclamaban actualización y un manejo más
acucioso, con el fin de incrementar su interés práctico. Por otra parte, este libro procura ser más
abarcador en varios sentidos: ahora se aborda un crecido número de asuntos previamente no
considerados, con lo cual la versión actual duplica el número de capítulos. Especialmente
enriquecido se ha visto el texto destinado al área de captación de datos. El lector hallará además
que ya sea por medio de notas técnicas laterales o de apéndices se trata de satisfacer las
inquietudes de lectores más avezados, o que se interesan en aspectos más avanzados.

Por otra parte, a lo largo del texto se han introducido diversos ejemplos concretos con el fin de
compartir -aunque sea de manera parcial- mi modesta experiencia en el empleo de las técnicas
muestrales como medio auxiliar para dar respuesta a diversas interrogantes relacionadas con el
estado de salud de la población, los problemas económicos de la salud pública, la organización de
los servicios de salud y otras cuestiones afines.

Con fines ilustrativos y procurando optimizar la comunicación de los principios en que reposa toda
la teoría muestral, se apela en varios puntos del libro a ejemplos artificiales en que las poblaciones
son de muy pequeño tamaño. Naturalmente, tales ejemplos carecen de realismo, ya que en la
práctica no tiene sentido aplicar técnicas de muestreo a poblaciones minúsculas. Sin embargo, la
naturaleza de algunos de los problemas tratados es completamente independiente de los tamaños
poblacional y muestral; de modo que trabajar con poblaciones muy reducidas no supone ningún
escollo conceptual a la vez que favorece didácticamente la exposición.

En términos generales, la obra procura además romper con diversos dogmas y mitos que se han
ido consolidando en la metodología "oficial" del muestreo. Se trata de poner en su justo lugar
ciertos métodos frecuentemente invocados en algunos textos clásicos y que, aun teniendo

1
L.C.Silva
ocasionalmente cierto interés académico, están objetivamente alejados de las posibilidades
prácticas regulares, o son directa y llanamente desconocidos por ellas.

Para consolidar y comunicar las ideas contenidas en este libro he contado con innumerables
fuentes de estímulo. Desde el punto de vista formativo en materia de muestreo, siempre me
sentiré en deuda con mis queridos profesores y amigos Leslie Kish de la Universidad de Michigan
y Joseph Machek de la Universidad Carolina de Praga por sus generosas enseñanzas. Y desde
una perspectiva más general, expreso mi agradecimiento al profesor Francisco Rojas Ochoa, del
Instituto Superior de Ciencias Médicas de la Habana, maestro por antonomasia de un par de
generaciones de salubristas e investigadores cubanos. Agradezco igualmente a todos mis
alumnos y, especialmente, a la ya larga lista de aquellos amigos y colegas españoles, quienes de
un modo u otro han promovido mi actividad docente sobre técnicas muestrales en diversos puntos
del estado español; la lista de estos colegas (seguramente incompleta) incluye a Alfonso Abaigar,
Pepe Almenara, Esther Arbesú, Rodrigo Arquiaga, Txema Arteagoitía, Clotilde Boix, Carlos
Campillo, José Manuel Casas, Javier Damián, Manuel Díaz-Olalla, Iñaki Galán, Gonzalo Grandes,
Eliseo Guallar, Gonzalo Gutiérrez, Juan Ramón Lacalle, Jesús Martín, José María Martín Moreno,
María Mar Martínez, Antonio Pareja, Luis Prieto, Elías Rovira, José Manuel Salamanca, Emilio
Sánchez Cantalejo, Antonio Segura, Patricio Suárez, Enrique Vázquez, Tomás Vega y Angel
Vilches. Por su inestimable colaboración técnica, agradezco a mi alumno Ramón Suárez, a cuya
habilidad como programador debemos, los lectores y yo, la posibilidad de explotar un sistema
informático original y eficiente que apoya al texto.

Luis Carlos Silva


La Habana, junio de 2000

2
L.C.Silva
CAPITULO 1 MARCO CONCEPTUAL DE LAS TÉCNICAS MUESTRALES

1.1 La muestra: un modelo de la realidad

El muestreo es aquella disciplina estadística que ofrece herramientas para la solución de un


problema que, en el contexto de la investigación científica de salud, resulta virtualmente universal:
determinar qué parte de una realidad debe examinarse con la finalidad de hacer inferencias sobre
ella.

La necesidad de pronunciarse sobre un fenómeno o asunto habiéndolo observado solo


parcialmente se presenta con extrema frecuencia en la cotidianidad y abarca las más diversas es-
feras de la vida diaria. Por ejemplo, luego de algunos contactos con un país, se vierten criterios
sobre sus habitantes, partiendo de dos novelas de un escritor, se opina sobre su obra y, tras
examinar un cm3 de sangre de un paciente, se valora todo su volumen sanguíneo. Se trata de una
práctica natural cuya validez está determinada por el mero sentido común.

Naturalmente, un proceso inductivo de tal naturaleza, que va de lo particular a lo general, inevita-


blemente entraña la posibilidad de cometer errores, y es claramente intuitivo que dichos errores
están llamados a ser mayores en la medida que la porción observada sea más reducida y, sobre
todo, en la medida que ella no refleje o "represente" la realidad (a la que en el lenguaje muestral
suele llamarse población o universo) sobre la que recaerán las conclusiones de la inferencia.

El muestreo, como proceder científico, funciona de manera similar, pero procura aportar métodos
formales que contribuyan razonablemente a conseguir que la muestra conforme un modelo del
universo. En efecto, en el problema del universo y la muestra estamos ante un singular ejemplo
del proceso de representación de la realidad objetiva mediante un modelo. Obtener una "buena
muestra" significa, precisamente, configurar una versión simplificada de la población, que
reproduzca sus rasgos básicos a la vez que desdeñe los inesenciales y, como debe ocurrir con
todo modelo eficiente, que sea suficientemente simple como para resultar manejable, pero no
tanto como para que se difuminen sus perfiles específicos fundamentales. Kish (1989) describe
una buena muestra como un "espejo" de la población, o una "población en miniatura".

En rigor, la tarea del muestrista va más allá: además de determinar el método de selección de la
muestra y, por tanto, su tamaño, ha de establecer los procedimientos que habrán de aplicarse a
los datos así obtenidos para realizar inferencias fecundas. Diversas razones prácticas pueden
mencionarse para justificar el uso de esta técnica. Sin embargo, en última instancia, la fun-
damental es la necesidad de ahorrar recursos. Por lo general, resulta literalmente imposible
estudiar a todos los individuos que integran una población (hacer un censo). Este imperativo
económico ha estado presente siempre, aunque no fue hasta la década de los treinta del presente
siglo, con un célebre trabajo presentado por el polaco Jerzy Neyman ante la Royal Statistical
Society1, cuando se comenzó a desarrollar una teoría orgánica sobre las técnicas que permiten
superar de manera científica esa dificultad (Neyman, 1934). El impulso determinante se produjo
fundamentalmente en Gran Bretaña, Estados Unidos y, más tarde, también en la India y los
países escandinavos.

1
Algunos de los resultados allí expuestos, sin embargo, habían sido
publicados diez años antes por el ruso A.A. Chuprov, según reseñan

3
L.C.Silva

El uso del muestreo fue generalizándose y sus bases teóricas experimentaron un proceso de
cimentación gradual hasta la consolidación de esta disciplina como una rama con "personalidad
propia" dentro de la estadística. Los siguientes datos reflejan elocuentemente tanto su juventud
como su rápida expansión: mientras el International Statistical Institute (ISI) fue fundado el siglo
pasado y constituye una de las asociaciones científicas internacionales más antiguas que
funcionan en la actualidad, no es hasta 1971 que se establece la Asociación Internacional de
Muestristas como una de sus secciones. Sin embargo, en 1997 ya contaba con 1244 miembros
de 131 países (IASS,1997). Por otra parte, en las últimas cuatro décadas se ha ido conformando
un cuerpo teórico sólido recogido en una ya larga serie de libros exclusivamente dedicados al
tema (véase el interesante trabajo ad hoc de Parada, 1987) integrada, entre otros, por los
siguientes “clásicos”: Hansen, Hurwitz and Madow (1953), Slonim (1960), Deming (1960),
Sampford (1962), Kish (1965), Murthy (1967), Des Raj (1968), Yamane (1970), Som (1973),
Cochran (1977), Williams (1978), Jessen (1978), Scheaffer, Mendenhall y Ott (1979), Yates
(1980), Levy y Lemeshow (1980) , Kalton (1983), Stuart (1984), Sukhatme, Sukhatme,
Sukhatme y Asok (1984), Dalenius (1985).

1.2 Las técnicas muestrales como herramienta de la investigación

Como se ha dicho, las técnicas muestrales son herramientas de trabajo especialmente útiles en el
ámbito de la investigación científica, aunque también son intensamente utilizadas en áreas tales
como la indagación de mercado y los sondeos políticos y electorales. Constituyendo la investi-
gación el marco operativo que nos ocupará, y siendo ésta una actividad que con demasiada
frecuencia es objeto de confusión, no resulta ocioso detenerse brevemente a caracterizarla y
adelantar algunas reflexiones relevantes a los efectos que nos interesan.

1.2.1 Las preguntas de investigación

La investigación científica es una actividad de finalidad cognoscitiva; es decir, una acción


destinada a obtener nuevos conocimientos que cubran una laguna en la comprensión de la
realidad, o que contribuyan al entendimiento de algo que se domina imperfectamente (Silva,
1989). Ella supone, necesariamente, o bien la existencia de preguntas claramente definidas sobre
un dominio concreto, o bien, si el alcance del problema y la madurez del autor lo consienten, la
formulación de hipótesis que demanden del método científico para su valoración rigurosa.

La estructura del pensamiento y del accionar de un investigador en la fase de formulación del


problema debe discurrir según los siguientes elementos insoslayables (Silva, 1991):

1.- expresar el problema nítidamente (mediante preguntas o hipótesis)

2.- fundamentar la necesidad de encararlo (consignar beneficios esperados)

3.- exponer tanto el marco teórico en que se inscribe como los antecedentes en que reposa

Azorín y Sánchez (1986).

4
L.C.Silva

Ahora bien, los estudios que más se vinculan con la teoría muestral, tal y como la entenderemos
predominantemente en el presente libro, son los llamados estudios descriptivos: aquéllos que
tienen por objeto básico caracterizar cómo es una población.

Es harto frecuente que, al valorar cierta realidad, sea necesario conocer datos generales en
términos resumidos (promedios, porcentajes, medidas de variabilidad, etc.), que contribuyan a una
interpretación más clara de sus rasgos. Los estudios descriptivos también se suelen llevar
adelante con el afán de obtener información que permita la fundamentación empírica de hipótesis
sobre las leyes que rigen los fenómenos examinados (hipótesis de causalidad).

Es preciso reconocer que uno de los problemas más frecuentes presentes en los estudios de tipo
descriptivo consiste en que las preguntas que se plantea el investigador no son suficientemente
explícitas, de manera que quedan subsumidas dentro de un planteamiento muy general, con
frecuencia borroso. Supongamos que se plantea el problema en términos como los siguientes:
"Estudiar epidemiológicamente el comportamiento de la gripe en el país durante el período
1980-1990". Más que un verdadero problema, lo que se ha planteado en este caso es un dominio
de interés. No comprender la diferencia entre consignar una esfera de trabajo y formular preguntas
concretas casi siempre garantiza el desconcierto futuro. El curso natural de un proceso de
investigación con tal punto de partida suele ser como sigue:

(a) Confección de un cuestionario en que se acumula de manera más bien caótica una serie
de ítems relacionadas con ese dominio, pero cuya función específica se ignora o a lo sumo
solo se intuye

(b) Acopio de cierto monto de información (a menudo enorme) llamada a ser en gran parte
desechada

(c) Acudir a un bioestadístico que supuestamente tendría que "desfacer un entuerto" pero que
nunca podrá saber bien en qué consiste su tarea, ya que el hecho de que haya trabajo de
terreno, se cuente con datos y se puedan construir tablas, no modifica el problema car-
dinal: que la formulación de preguntas rectoras sigue siendo un capítulo pendiente

Es evidente que el método que vaya a adoptarse para contestar una pregunta de investigación
solo puede decidirse una vez que ella ha sido formulada con toda nitidez. El cuestionario que ha
de utilizarse, por tanto, solo podrá ser diseñado de manera racional una vez que todas las
preguntas a las que se quiere dar respuesta han sido explícitamente planteadas y cuando estén al
menos bosquejadas las tablas por medio de las cuales habrán de resumirse los datos. Unas y
otras configuran el único criterio lógico para decidir la pertinencia de los aspectos incorporados al
cuestionario que se planifica aplicar.

5
L.C.Silva
Por otra parte, un verdadero estudio descriptivo debe, en mi opinión, trascender la simple
contemplación neutra de la realidad. Los “trabajos contemplativos”, muchas veces indistinguibles
de un informe administrativo que no va más allá que lo que una computadora puede producir y
que justamente se detiene allí donde nuestro cerebro resulta imprescindible, no constituyen
verdadera investigación científica. Esta solo tiene lugar cuando nace de una vocación crítica,
capaz de transformar los resultados numéricos en juicios de valor. Es imprescindible, en fin, dejar
claro que las técnicas de muestreo pueden contribuir a que los resultados sean extrapolables y
precisos, pero su traducción al plano conceptual, su conversión en valoraciones, exige el concurso
de una cultura científica de los investigadores, que poco tiene que ver con el muestreo u otros
instrumentos estadísticos.

1.2.2 Técnicas cualitativas: una puntualización oportuna

Como ya señalé recientemente en otro sitio (Silva, 1997), una gran cantidad de problemas de
índole social se abordaron durante muchos años sin emplear técnicas formales de encuesta, sino
mediante información no susceptible de ser manejada en un entorno cuantitativo.

Los procedimientos de análisis eran de orden básicamente cualitativo, especialmente entre


antropólogos y etnógrafos, pero también entre sociólogos, psicólogos e, incluso, clínicos.
Investigadores de la talla de Max Weber llegaban a sostener que la sociología conseguía sus
resultados por medio de la comprensión, a diferencia de las ciencias naturales, que procedían por
vía de la explicación (Boudon, 1978). Tal afirmación resulta hoy un poco extraña, con un sentido
difícil de entender cabalmente, pero en cualquier caso es expresiva de la tendencia a segregar las
metodologías de uno y otro tipo.

Con el tiempo, fueron expandiéndose diversos desarrollos teóricos -en especial las técnicas de
muestreo- que, al propiciar la cuantificación de los resultados y permitir la síntesis, por tanto, de
manera más formal, fueron desplazando de la práctica a dichas técnicas cualitativas de análisis, a
la vez que las iban devaluando metodológicamente. En rigor, los procedimientos cualitativos
nunca desaparecieron y en cierta medida tuvieron incluso expresiones importantes de renovación
y vitalidad; lo que sí se consolidó como realidad fue la separación casi absoluta2 entre unas y
otras.

2
Tal parcelamiento, sin embargo, tuvo excepciones desde muy temprano.
El estudio, por citar un ejemplo, de Warner (1947), en que se combinan
las encuestas formales con la "observación etnográfica", da cuenta de
ello.

6
L.C.Silva
El epidemiólogo típico de la nueva hornada positivista, cuya gestión, quisiéralo o no, tenía
profunda connotación sociológica, miraba con desdén al antropólogo que se perdía en lo que, a su
juicio, no pasaba de ser diletantismo subjetivo y visión novelada de la realidad. El científico social
clásico, por su parte, recelaba de las tecnologías presuntamente encartonadas que le proponían
los estadísticos y que lo obligarían a reducir la riqueza de sus observaciones a tablas y porcen-
tajes. Gurvitch (1950), por ejemplo, escribía que "cuando las estadísticas no se aplican en un
marco cuidadosamente acotado y verificado, no constituyen más que manipulaciones puramente
matemáticas de grandes cifras" y, refiriéndose a las técnicas formales de encuestas, encarnadas
por entonces en la archifamosa empresa que las popularizara en Estados Unidos, destilaba una
inusitada agresividad con afirmaciones como que "los procedimientos de Gallup son irrisorias
búsquedas de promedios arbitrarios que no existen y operan en el vacío".

Almeida (1992) atribuye el divorcio entre técnicas cuantitativas y cualitativas al profundo


compromiso de la epidemiología con las primeras, lo cual impidió una integración más estrecha
entre las estrategias de investigación de las ciencias sociales en general. Y agrega:

Decir que uno se pierde en lo específico, o que el otro siempre ofrece una
aproximación superficial de cuestiones complejas, perdidas en los grandes
números, es una actitud por lo menos ingenua que algunas veces aparece entre
investigadores de ambas disciplinas....La naturaleza desigual y multifacética del
objeto epidemiológico y su determinante justificará el empleo de un sensato
"pluralismo metodológico".

Entre las más connotadas técnicas cualitativas, todas bosquejadas y referenciadas por
Castellanos (1989), se hallan la asamblea o fórum comunitario, el famoso brainstorming y el
menos conocido brainwriting, las entrevistas en profundidad, las técnicas grupales (nominal, de
discusión y Delfos), la historia de vida, el uso de informantes claves, la observación estructurada y
la observación participante.

El debate que he bosquejado tiene plena vigencia. La investigadora australiana Frances Baum ha
desarrollado una circunstanciada defensa de la posibilidad y la conveniencia de asumir una
integración metodológica que supere las distancias que objetivamente se viven hoy (véase Baum,
1997). No todos comparten sin embargo lo que podría entenderse como una facilista conciliación
salomónica. Por ejemplo, Prieto (1997) sostiene que los llamados “métodos cualitativos” son “no
científicos” debido a que no cumplen ciertos requisitos generales que se consideran esenciales,
tales como que conduzcan a los mismos resultados aunque los observadores sean diferentes.

Es cierto que virtualmente todas las técnicas de este tipo suponen la existencia de lo subjetivo e
intentan aprehenderlo sin ruborizarse. A mi juicio, sin embargo, no hay motivos para el rubor si se
repara en que para cierto tipo de problemas esos métodos resultan tanto o más recomendables
que determinadas aplicaciones estadísticas cuya objetividad dista mucho de ser absoluta.

7
L.C.Silva
Las encuestas estructuradas, por ejemplo, por lo común restringen marcadamente el espacio de
expresión de los interrogados. Con ello se viabiliza y simplifica notablemente el procesamiento es-
tadístico, pero no se salva de la subjetividad al investigador; éste "contamina" el proceso tan
pronto se fijan, tanto sintáctica como conceptualmente, las respuestas posibles. La diferencia
básica entre los procedimientos cuantitativos y los cualitativos no estriba en que aquéllos sean
objetivos y éstos no, sino en el punto y el modo en que se introduce la subjetividad: los últimos
ponen el énfasis en permitir y hasta en promover que los actores sociales participen con su propia
subjetividad en el proceso; en los primeros la subjetividad -poca o mucha, pero inevitable- es
virtualmente monopolizada por los investigadores.

Las técnicas cualitativas tienen, sin embargo, un alcance limitado. Si bien pueden ser un magnífico
instrumento alternativo o complementario de las encuestas para resolver algunas tareas
específicas (tales como sopesar un estado de opinión u ordenar jerárquicamente un paquete de
necesidades según prioridades), resultan inoperantes por sí mismas en muchísimos problemas de
investigación epidemiológica, en la inmensa mayoría de los del área clínica y en la virtual totalidad
de los problemas planteados por las ciencias básicas. No obstante, resulta poco razonable
renunciar dogmáticamente al empleo de métodos que han demostrado su eficacia y que en
determinados contextos pueden operar en régimen de simbiosis con recursos como los que nos
ocupan predominantemente en este libro.

1.3 Estudios descriptivos y analíticos

Las técnicas de muestreo en las que se pone el énfasis en este libro son aquellas que procede
aplicar específicamente ante preguntas de investigación que apuntan en dirección descriptiva,
aunque las investigaciones que van más allá de la descripción y procuran descubrir explicaciones
(los llamados "estudios analíticos") también operan, desde luego, con muestras. Sin embargo, el
manejo de series de observaciones que se derivan de un conjunto numeroso de condiciones
externas y que se obtienen sin intervención formal de las técnicas clásicas de muestreo, no sólo
es común sino inevitable en muchas -probablemente la mayoría- de las investigaciones analíticas.

Un ejemplo típico se produce cuando se quiere establecer el cuadro causal de una enfermedad; lo
que se estudia es la asociación de algún factor exógeno -tal como el hábito de fumar o el régimen
nutricional- con la presencia o ausencia de la enfermedad. En una situación tal, no suelen elegirse
muestras formales a partir de listados poblacionales; el énfasis debe ponerse en conseguir que los
grupos sean similares a todos los efectos salvo en lo que concierne al factor (la mal llamada
comparabilidad3 entre el grupo de casos con el de controles), antes que en la representatividad
que unos y otros exhiban en relación con las respectivas poblaciones (Keller, 1969). Dicho de
otro modo, en los estudios analíticos la demanda metodológica fundamental en relación con las
muestras no concierne a la representatividad, sino al grado de similitud que exhiban los grupos
que vayan a compararse.

3
Creo que el término no es afortunado, pues dos cosas son comparables no
cuando son parecidas, sino cuando son susceptibles de comparación. No
es posible comparar el diámetro de una naranja con el peso de un
plátano, pero sí se puede comparar la talla de un ser humano con la
distancia entre La Habana y Madrid.

8
L.C.Silva
Si bien, como se ha dicho, este libro se concentra en el ámbito descriptivo; el importante tema del
muestreo en estudios analíticos se aborda específicamente en el Capítulo 10.

1.4 Problema de muestreo en estudios descriptivos

Supongamos que estamos ante una población finita cualquiera -o sea, un conjunto de entes
susceptibles, al menos teóricamente, de ser listados- y que se quiere conocer una característica
general o parámetro, definido por el resultado numérico de "combinar" de alguna manera prefijada
los datos que se obtendrían en caso de que se midiesen todos los elementos de la población4.

Por ejemplo, podría tratarse del porcentaje de aquellos ancianos de una comunidad que son
capaces de valerse por sí mismos, del salario promedio de los médicos de un país, del número
total de historias clínicas deficientemente llenadas en un hospital, o de la edad mediana en que se
produce la menarquía en las zonas urbanas de una provincia. Si en lugar de proceder a obtener
los datos necesarios para todas y 5cada una de las unidades de la población de interés (todos los
ancianos de la comunidad, la totalidad de los médicos del país, el conjunto completo de historias
clínicas o todas las niñas y adolescentes de la parte urbana de la provincia), se decide examinar
solo una porción de tales unidades, y estimar el número desconocido a partir de dicha información,
entonces decimos que se ha planteado un problema de estimación por muestreo.

Para dar solución a tal problema es necesario -expresado esquemáticamente- encarar las
siguientes tareas:

a) delimitar el número de unidades o elementos que deben estudiarse

b) establecer la forma en que se efectuará la selección

c) determinar el modo en que se procesarán los datos para realizar la estimación

d) identificar el procedimiento de cálculo estimado del error que se comete en el proceso


inferencial (la distancia máxima estimada entre la estimación efectuada y el parámetro
desconocido)

4
Aunque aquí, con el fin de simplificar la exposición, nos estamos
refiriendo a un parámetro, en la práctica regular no hay un único
parámetro por estimar, sino varias decenas de ellos. Por ejemplo, en
un estudio sobre productividad médica en la asistencia de urgencia el
objetivo central puede que sea estimar el número promedio de pacientes
atendidos por hora, pero difícilmente el interés se circunscriba al
conocimiento de ese número; típicamente, se deseará obtener tablas que
contemplen aspectos tales como el diagnóstico, la edad del médico, los
horarios de trabajo, etc.
5

9
L.C.Silva
Lejos de lo que pudiera pensarse, estas cuatro tareas se condicionan mutuamente, incluso en el
sentido de que no es posible abordarlas secuencialmente: se necesita una aproximación si-
multánea e integral que, para cada nuevo problema de muestreo, puede demandar un enfoque
relativamente original.

1.5 Unidades de análisis, unidades de muestreo y marco muestral

Se denomina unidad de análisis a cada uno de los elementos o sujetos que componen la
población y que podrían ser, en su momento, objeto de interrogatorio o medición.

Ocasionalmente, antes de seleccionar la muestra, la población se divide en unidades de primera


etapa (UPE). Cada UPE puede estar conformada por un conjunto de unidades de análisis6. En
cualquier caso, las unidades de muestreo de primera etapa deben cubrir por entero a la población
sin intersecarse; o sea, todo miembro de la población o unidad de análisis pertenecerá a una y
sólo una UPE. En el caso más general, una unidad de muestreo puede estar conformada a su
vez por un conjunto de unidades de muestreo correspondientes a una etapa posterior de
selección. Se llama marco muestral al conjunto de listas de todas las unidades de muestreo
necesarias para llevar adelante el proceso.

Para fijar mejor estas nociones, supongamos que se estudia una población de escolares para
conocer la prevalencia de cierta dolencia. Cada escolar es una unidad de análisis (el ente que se
examina). Si se tiene un listado de todos los escolares al que se aplica un método de selección
directamente, entonces dicho listado es el marco muestral, y las unidades de análisis son también
las de muestreo. Pero, si en lugar de contar con un listado de escolares, se tiene uno de
escuelas, algunas de las cuales se elegirán para el estudio, entonces las unidades primarias de
muestreo serán las escuelas. Si, hecha esta selección, se toman sólo algunas aulas de las
escuelas elegidas y, finalmente, dentro de estas últimas se eligen alumnos para integrar la
muestra definitiva, entonces habría tres procesos escalonados de selección; existen en este caso
las llamadas unidades de muestreo de primera, segunda y tercera etapa (escuelas, aulas y
alumnos respectivamente). El conjunto de listados imprescindibles para la selección total (de es-
cuelas primero, después el de las aulas que tiene cada escuela seleccionada, y finalmente el de
niños dentro de cada una de las aulas así elegidas) constituyen el marco muestral del estudio.

1.6 Probabilidad de selección y diseños probabilísticos

Un paso de crucial relevancia en el proceso histórico de consolidación de la teoría del muestreo


fue dado con la introducción del azar en el acto de selección muestral.

6
La situación en que las unidades de muestreo son directamente las
unidades de análisis es un caso particular.

10
L.C.Silva
Supongamos que se ha concebido un procedimiento de selección muestral cualquiera de una
población  integrada por N elementos:  = e1 , e2 ,    e N. El azar puede intervenir de muchos
modos en ese proceso, pero se considera que se ha conferido un carácter estadísticamente
riguroso al método de selección solo cuando se cumplen dos condiciones: que el procedimiento
otorgue a cada elemento de la población una probabilidad  i conocida de integrar la muestra (es
decir, que  i se conozca de antemano para todo elemento ei de  ), y que tal probabilidad no
sea nula para elemento alguno (esto es,  i > 0 para todo i ). En tal caso, se dice que se ha
seguido un método probabilístico de muestreo.

Consideremos el conjunto de todas las muestras posibles (es decir, aquellos subconjuntos de la
población que, teniendo en cuenta el método de selección que se ha prefijado, puedan resultar
elegidos en calidad de muestra). Si M j representa a la j-ésima de esas muestras posibles y ei
es un elemento cualquiera de la población, entonces la probabilidad  i de que ei resulte
seleccionado es igual a la suma de las probabilidades que tienen de ser elegidas todas aquellas
muestras posibles que contienen al elemento ei . En términos formales, esto es:
= i  P( M
M j  ei
j )

donde ( M j ) representa la probabilidad que tiene M j de ser el subconjunto elegido como


muestra. A modo de ilustración consideremos una situación en extremo simple y, desde luego, sin
interés práctico alguno.

Numeremos los meses del año del 1 al 12 y supongamos que se desea una muestra de ellos.
Supongamos además que se forman 3 subconjuntos de meses:
M = {1, 2, 3, 4, 5, 6}
1

M = {1,7, 8, 9, 10, 11}


2

M = {1, 6, 12}
3

11
L.C.Silva
Supongamos que la selección de los meses de los meses, se realiza del modo siguiente: se tiran
dos monedas; si salen dos caras, la muestra será igual a M 1 ; si salen 2 escudos, estará formada
por los elementos de M 2 y en otro caso, coincidirá con M 3 . Las probabilidades respectivas de

las 3 muestras posibles son: P M 1   P M 3 


1 1 3
   . La probabilidad de que el mes de
4 2 4
enero sea elegido es 1 (será seleccionado con certeza), pues las 3 muestras posibles lo con-
1
tienen. La probabilidad de selección de los meses 2, 3, 4, 5, 7, 8, 9, 10 y 11 es igual a , pues en
4
cada caso es esa la probabilidad de la única muestra posible que lo contiene; la probabilidad de
1 1 3 1
junio (mes 6) es + = y, finalmente, la de que resulte elegido el mes de diciembre es ,
4 2 4 2
pues esa es la probabilidad de que M , la única muestra que contiene al 12, resulte elegida.
3

1.7 Diseños equiprobabilísticos

Una forma especial de diseño probabilístico es aquel en que todos los sujetos de la población
tienen la misma probabilidad de ser seleccionados (  i es constante para todo i); en tal caso se
dice que el método es equiprobabilístico.

1.7.1 Algunos ejemplos simples

Veamos a continuación algunos ejemplos relacionados con esta condición. Consideremos para
ello la población formada por los 365 días del año 1998 y valoremos algunos métodos para selec-
cionar una muestra de días7.

Ejemplo 1. Se ponen 365 bolas en una urna, cada una de las cuales lleva inscrito un día
diferente del año. Se extraen sucesivamente 10 de ellas de manera similar a como se procede
en la lotería; se incluyen en la muestra los días consignados en dichas bolas.

Es muy intuitivo (véase la demostración en la Sección 3.2); que la probabilidad común a todos los
10
días es = i
365
Ejemplo 2. Se procede como en el ejemplo anterior, pero la bola elegida entre las 365 de la
urna solo sirve para seleccionar un mes del año (se elige el mes al que pertenece el día señalado
en esa bola). Luego se toman al azar exactamente 10 días de dicho mes.

7
Lo que va a medirse en esas unidades de análisis puede ser la humedad
ambiental o el número de accidentes automovilísticos registrados en
una ciudad. A los efectos de esta ilustración, sin embargo, ese dato
es irrelevante.

12
L.C.Silva
La probabilidad de que resulte elegido un día dado, P(D) , es igual al producto de dos
probabilidades: la de que resulte seleccionado el mes que contiene a dicho día, P(M) , y la
probabilidad condicional P(D | M) de que sea ese uno de los 10 días seleccionados supuesto
que fue seleccionado el mes que lo contiene. Esto es: P(D) = P(M) P(D | M) Es fácil apreciar

que P(M) =
N , donde
N es el número de días contenidos en el mes de que se trate, y que
i
i
365
10
P(D | M) = ; de modo que:
N i

N 10 10
=
i
i . =
365 N i 365

13
L.C.Silva

O sea, que la probabilidad es la misma para todos los días.

Ejemplo 3. Se colocan los nombres de los 12 meses en respectivas tarjetas y, tras mezclarlas
concienzudamente, se eligen 3 de ellas; se incluyen en la muestra todos
los días contenidos en los tres meses seleccionados.

3
La probabilidad de cualquier mes es ; puesto que un día queda automáticamente elegido si lo
12
fue el mes en que está contenido, todos los días del año tendrán esa misma probabilidad de
3
inclusión:  i = .
12

Como comentario lateral, advirtamos que este ejemplo evoca una situación práctica totalmente
verosímil. Supongamos que tenemos un listado de 50 viviendas en las que viven 225 personas.
Se quiere una muestra de individuos y se decide seleccionar 10 viviendas al azar e incluir en la
muestra a todos los individuos que las habitan. La muestra tendrá tantos elementos como sujetos
vivan en las 10 viviendas elegidas. Puesto que ese número no se conoce hasta que no se haya
concluido la selección de las viviendas, el tamaño de la muestra de sujetos depende de cuáles
sean las viviendas que el azar haya determinado. Sin embargo, el diseño es equiprobabilístico.
Efectivamente, la probabilidad de inclusión de cada individuo coincide con la que tenga su
vivienda de estar entre las 10 que se seleccionen; o sea, todos los elementos tienen la misma
10
probabilidad de inclusión: = 0,2 .
50

Ejemplo 4. Para cada día se tira una moneda al aire; si sale cruz, se elige ese día; en otro
caso, ese día se descarta.

1
En este caso es evidente que =i para todo i . La muestra puede tener un tamaño que va
2
desde 0 a 365.

En los ejemplos 3 y 4, a diferencia de los dos primeros, el tamaño muestral no está fijo de
antemano sino que es aleatorio: no lo conoceremos hasta que no termine la selección. De hecho,
por tanto, el tamaño muestral es en esos dos casos una variable aleatoria.

1.7.2 Tamaño muestral y probabilidades de selección

14
L.C.Silva
Hablar del valor esperado del tamaño muestral solo tiene un sentido no trivial para diseños en que,
como en los dos últimos ejemplos, el tamaño muestral resultante no es constante. Como se verá
más adelante, en la práctica es frecuente que se trabaje con métodos de muestreo para los que el
tamaño muestral no se conoce hasta que no concluya el proceso de selección. Sin embargo, si el
procedimiento es probabilístico, siempre se podrá tener una idea de cuál podría ser el tamaño que
se obtendrá.

Si dicho procedimiento se repitiera muchas veces, los respectivos tamaños de muestra serían
“realizaciones” de una variable aleatoria. El promedio de tales realizaciones es el valor esperado
de la variable. El valor esperado del tamaño muestral es el número "en torno al cual" se ubican los
distintos tamaños de muestra posibles (lo que "cabe esperar" que resulte); formalmente esto es:

E(n) = h
nh P(n = nh )

15
L.C.Silva

donde los n h son los tamaños de muestra posibles y donde P(n = n h ) denota la probabilidad de
que el tamaño muestral resultante sea n h . Una manera alternativa de computar este número
viene dada por la siguiente propiedad:

La suma de las probabilidades de selección de todos los miembros de la población es igual al


N

valor esperado del tamaño muestral (véase Des Raj, 1968). Formalmente: E ( n)  
i 1
i

Consideremos el Ejemplo 3 de la Sección 1.7.1. Se trataba de una muestra de los 365 días del
año 2001, conformada con los días pertenecientes a 3 meses elegidos al azar. El cálculo de los
diferentes tamaños de muestra posibles y de sus respectivas probabilidades es bastante
laborioso. Sin embargo, usando la propiedad, el cómputo de E ( n) es inmediato; en efecto,
puesto que el procedimiento es equiprobabilístico (con  i  0,25 para todos los días), se tiene:
365
365

I 1
i

4
 91,25

Si el tamaño de muestra es fijo (como en los ejemplos 1 y 2), este resultado se reduce a afirmar
que la suma de las probabilidades de inclusión de todos los elementos de la población coincide
con el tamaño muestral. Si además de producir tamaño muestral fijo, el diseño es equiprobabi-
lístico, y llamamos  a la probabilidad común a todos los elementos, entonces se cumple,
n
necesariamente, que = .
N

1.7.3 Una ilustración histórica

Los diseños equiprobabilísticos tienen varias ventajas, que se expondrán en diversos puntos del
texto. De momento, sin embargo, solo destacaremos que, ocasionalmente, el carácter
equiprobabilístico del método es prácticamente vital. Esto resulta evidente, por ejemplo, cuando
se trata de elegir números que determinan premios en una lotería, o en los procesos de
asignación aleatoria dentro de algunos diseños experimentales.

Una ilustración interesante que muestra cuán espinoso puede ser este asunto, se vincula con un
hecho acaecido en 1997 con motivo de un proceso de selección muestral llevado adelante por el
ejército español.

Cuando se hacía el llamado a filas para servir en las fuerzas armadas, estaba entonces
establecido que una parte de los candidatos fuese exonerada de tal obligación, así como que la
selección de los agraciados se verificase públicamente y por un procedimiento que otorgara la
misma probabilidad de ser eximidos a todos los jóvenes españoles cuyas edades estuviesen
comprendidas entre dos fechas prefijadas.

16
L.C.Silva

El modo en que se llevó adelante el procedimiento en 1997 parecía correcto (equiprobabilístico);


pero no lo era. Para exponerlo, consideremos un ejemplo estructuralmente equivalente, aunque
numéricamente mucho más sencillo que el real. Su explicación tiene cierta complejidad, por lo que
se recomienda no adentrarse en sus detalles si no se posee cierta destreza algebraica y
probabilística.

Supongamos que se quieren elegir n=5 sujetos de un listado que consta de N=17 individuos, los
cuales se numeran del 0 al 16. La selección se realiza por un método que consta de las
siguientes dos etapas:

Primera etapa: Se elige un número r entre 0 y 16. Para ello, primero se eligen dos
números b1 y b2 Para decidir el valor de b1 se tira una moneda al aire: si sale cara,
entonces se toma b1 = 0 ; si sale escudo, se toma b1 = 1 . La elección de b2 depende del
resultado obtenido para b1 según la regla siguiente:

a) Si b1 es 0, de una urna que contiene 10 bolas numeradas del 0 a 9 se elige una y


se toma dicho número como b2 .

b) Si b1 es 1, se elige también una bola pero de una urna que contiene 7 bolas,
numeradas del 0 al 6 (vale decir, se elige un número al azar entre 0 y 6); b2 es el
número de dicha bola

Hecho esto, se define r  10 b1  b2 , que es el número entre 0 y 16 que se buscaba en


esta primera etapa.

Segunda etapa: Una vez elegido r, se seleccionan los sujetos que están en los lugares r,
r+1, r+2, r+3, r+4 del listado. Si r es inferior a 13, estos 5 números no ofrecen dudas. Si
13  r  16 , entonces se considera que el listado es circular; por ejemplo, si r=15,
entonces r+1=16, r+2=0, r+3=1 y r+4=2

Corroboremos ahora que la probabilidad que tienen los sujetos del listado de ser elegidos no es la
misma para todos sino que difiere entre individuos según la posición que ocupen en el listado.

La probabilidad de seleccionar el número r  10 b1  b2 es igual a la probabilidad de seleccionar


b1 multiplicada por la de elegir b2 dado que se seleccionó b1 :
P r  10b1  b2   P b1  . P b2 b1 

Esta probabilidad puede tomar sólo dos valores diferentes (llamémosle A y B), en dependencia
de que b1 sea 0 ó 1 respectivamente.
Puesto que P ( b1 = 0) = P ( b1 = 1) = 0.5 , es muy fácil convencerse de que dichos valores son:
1 1 1 1 1 1
A= . = y B= . =
2 10 20 2 7 14

17
L.C.Silva

y de que:
A para h : 0, ···, 9

P(r  h) = 
 B para h : 10, ···, 16

Ahora recordemos que el sujeto que ocupa el lugar h resulta elegido siempre que se produzca
alguna de las 5 siguientes posibilidades: r=h, r=h-1, r=h-2, r=h-3, o r=h-4. Consecuentemente,
para calcular la probabilidad de selección que corresponde al sujeto h, (0  h  16) , a la que
llamaremos P * (h) , debe computarse la suma de las probabilidades de estos 5 eventos; o sea, ha
de aplicarse debe aplicarse la siguiente fórmula:
4

P (h) =  P (r  h - i)
*

i=0

18
L.C.Silva
Por ejemplo, la probabilidad de que el noveno sujeto resulte elegido es:
P * 9   P r  9  P r  8  P r  7   P r  6   P r  5

y la de que quede seleccionado el segundo, recordando el convenio de circularidad, es:

P 2   P r  2  P r  1  P r  0   P r  1  P r  2 
*

 P r  2   P r  1  P r  0  P r  16   P r  15
Finalmente, puesto que P ( r  h) sólo puede ser igual a A o a B, es obvio que P* (h) es
necesariamente de la forma kA + (5 - k)B donde k es un número entre 0 y 5 que cambia en
dependencia del valor de h . A partir de esto se puede construir fácilmente la tabla donde se
recogen las probabilidades de cada uno de los 17 sujetos, marcadamente diferentes entre sí,
como se muestra a continuación:

Sujeto h P*(h) Valor

0 A + 4B 47/140
1 2A + 3B 44/140
2 3A + 2B 41/140
3 4A + B 38/140
4 5A 35/140
5 5A 35/140
6 5A 35/140
7 5A 35/140
8 5A 35/140
9 5A 35/140
10 4A + B 38/140
11 3A + 2B 41/140
12 2A + 3B 44/140
13 A + 4B 47/140
14 5B 10/140
15 5B 10/140
16 5B 10/140

19
L.C.Silva
Total 50A + 35B 5

16

La última fila de la tabla permite comprobar que:  P (h) = n ,


h= 0
*

tal y como afirmaba la propiedad arriba enunciada.

1.8 Muestras no probabilísticas

Un primer caso de interés que debe analizarse es el de las muestras que, habiendo sido
planificadas probabilísticamente, pierden ese carácter en la fase de terreno, circunstancia que
puede introducir un fuerte sesgo que descalifique los resultados.

Imaginemos que se planifica un estudio de morbilidad bucal en cierta área de salud y que el
procedimiento de selección establecido consiste en tomar una de cada 6 viviendas a lo largo de un
listado que incluye a todas las casas del área con vistas a examinar entonces a todos los
residentes de las que resulten seleccionadas. Es fácil demostrar que, en principio, si la primera de
1
las casas se elige con probabilidad igual a (por ejemplo mediante el lanzamiento de un dado),
6
entonces todo residente del área tiene la misma probabilidad de ser examinado. Supongamos, sin
embargo que, en la práctica, en lugar de establecer que se regrese una y otra vez a cada casa
seleccionada hasta completar el examen de todos sus habitantes, se sigue la regla de realizar el
reconocimiento estomatológico solo a los individuos que se hallen en la vivienda en el momento
de la visita.

De tal suerte, los ancianos tendrán en la práctica una probabilidad mucho más alta de ser
encuestados (por tenerla de estar presentes en el momento de la visita) que niños y adultos.
Como el cuadro morboso típico de un anciano es, en términos generales, cualitativa y cuan-
titativamente diferente al del resto de la población, el panorama general brindado por la muestra
no permitirá obtener una visión real de lo que verdaderamente ocurre en el área de salud. Pero, el
problema que interesa destacar ahora no es tanto que se pierda el carácter equiprobabilístico del
diseño como el hecho de que, bajo estas circunstancias, las probabilidades de selección pasarían
a ser, en rigor, desconocidas, pues el verdadero mecanismo de elección queda afectado por
determinantes que ya no están bajo control del muestrista.

Por otra parte, ocasionalmente, el muestreo no probabilístico (que algunos autores han
denominado indebidamente "opinático") se emplea de manera deliberada. Los procedimientos
pueden ser de varios tipos. Circunscribiéndonos al caso en que se tiene una población bien
definida de la cual se va a obtener una muestra, las formas básicas de selección no probabilística
son las cuatro siguientes:

a) selección realizada sin método alguno

b) muestreo semiprobabilístico

c) muestreo por cuotas

20
L.C.Silva

d) selección según criterio de autoridad

El primer método (selección "al tun tun"), en que los elementos se eligen sin reflexión ni previsión
algunas, está obviamente sujeto a importantes e incontrolables sesgos; consecuentemente, es
simplemente ajeno a la buena práctica científica.

El muestreo semiprobabilístico es -como lo indica su nombre- un procedimiento cuyo carácter


probabilístico se mantiene solo hasta cierto punto del proceso de selección y se abandona de ahí
en adelante. Cochran, Mosteller y Tukey (1954) lo ilustran del modo siguiente: se quiere una
muestra de hojas de una plantación para su control fitosanitario; se hace una selección
probabilística de una muestra de árboles, pero dentro de cada árbol elegido se toma un grupo de
hojas según el criterio del técnico que selecciona la muestra.

Otro ejemplo de tal tipo de selección se puede presentar cuando se siguen reglas como la de
suplir a la persona elegida por un vecino en caso de que ella no se encuentre en la vivienda; en tal
situación, las viviendas pueden haberse lelegido probabilísticamente, pero esa condición se pierde
en la etapa siguiente, con la posible aparición de sesgos, derivados del hecho, por ejemplo, de
que las amas de casa pueden quedar muy sobrerrepresentadas en la muestra.

El muestreo por cuotas -muy usado en las encuestas de opinión y de mercado- concierne
fundamentalmente a la investigación con poblaciones humanas. Parte del principio de forzar a
que la muestra contenga el mismo porcentaje de individuos con ciertas características prefijadas
que la población entera. Según los intereses que se consideren relevantes, se divide la población
en subclases mutuamente excluyentes y -generalmente a partir de datos censales- se obtienen los
porcentajes abarcados por cada una de dichas subclases. Se establece entonces que la muestra
tenga sus elementos distribuidos dentro de las subclases de manera tal que los porcentajes
muestrales coincidan a la postre con los de la población. Para lograrlo se le asigna a cada
enumerador una zona específica (por ejemplo, una manzana) y se le permite que allí entreviste a
los individuos que él escoja, siempre que lo haga dentro de las restricciones determinadas por las
cuotas de muestreo estipuladas. Así, por ejemplo, se le indica hacer 10 encuestas: de las cuales
5 han de ser a hombres y 5 a mujeres; se establece que uno de los 10 debe ser profesional; que
dos de los encuestados deben ser mayores de 50 años, 6 han de estar entre 25 y 49, en tanto que
los otros dos deben tener entre 15 y 24. Al reunir las selecciones realizadas por todos los
enumeradores se tendrá con certeza que la mitad de la muestra estará integrada por mujeres, el
10 % por profesionales, etc. Es obvio que el procedimiento, como ocurre en definitiva con todo
método no probabilístico, puede conducir a importantes sesgos (los enumeradores podrían, por
poner un ejemplo, evitar las viviendas con escaleras o las que tienen perros.

Finalmente, se tiene el caso en que la muestra es determinada mediante el criterio razonado de


autoridades en la materia del estudio. En la aplicación de este método, los investigadores
sopesan cuidadosamente las características de los elementos que integran la población para
elegir racionalmente aquéllos que a su juicio pueden conformar el mejor modelo de la realidad de
acuerdo con los objetivos del trabajo

21
L.C.Silva
Como consecuencia de una extendida confusión entre azar y representatividad que se aborda en
la próxima seccion puede ocurrir que esta alternativa se descarte automáticamente por
considerarse intrínsecamente mala; en efecto, al tener en cuenta que la muestra no fue
seleccionada por medio del azar, el investigador puede sentir que su estudio carece del rigor
científico necesario. Ese sentimiento -o el afán de desarrollar acciones destinadas a conjurarlo- no
siempre se apoya en la justa evaluación metodológica de los procedimientos aplicados; en
ocasiones reposa simplemente en la falta de comprensión cabal del contenido y alcance de los
conceptos en juego. Existen circunstancias en que lo único razonable es optar, precisamente, por
este tipo de elección, en lugar de por un método probabilístico. Se trata fundamentalmente de
situaciones en las que el tamaño de muestra planificado es muy pequeño, sobre todo si también el
tamaño poblacional lo es.

Por ejemplo, imaginemos que se quiere estudiar el funcionamiento del conjunto de los 25
hospitales de una provincia, y que se decide hacerlo a través de una evaluación exhaustiva de 4
de ellos: es mejor seleccionar los cuatro que racionalmente se consideren más representativos
antes que permitir que sea el azar quien los determine. La clave técnica de esa preferencia radica
en que, si bien los errores de las estimaciones no podrán ser objetivamente medidos, éstos van a
resultar menores y ello es, en última instancia, lo que por encima de todo se desea. Por otra
parte, es intuitivamente razonable, ya que carece de sentido que, en lugar de usar el azar como
una herramienta ventajosa, quedemos en sus manos hasta el punto de ser posibles víctimas del
modo en que se desempeñe. Adviértase que el azar bien podría producir (y en este caso no con
baja probabilidad) muestras totalmente inconvenientes, del tipo en que todos los hospitales sean
de la capital provincial, o que ninguno sea docente. Además, en situaciones como la descrita,
normalmente no se realizarán estimaciones en el sentido formal, como pudiera ocurrir en poblacio-
nes grandes, sino que las valoraciones globales tienden a ser más bien de naturaleza cualitativa.

1.9 El concepto de representatividad y el papel del azar

1.9.1 La noción de representatividad

Es necesario comenzar enfatizando que la noción de representatividad sólo tiene un alcance


intuitivo. En efecto, no existe una definición formal que permita establecer si una muestra concreta
es o no representativa, ni estimar siquiera su grado de representatividad. Esta noción intuitiva, sin
embargo, es tan familiar que resulta muy fácil hallar ejemplos de la vida cotidiana que ilustren su
empleo.

En el terreno científico, sin embargo, es conveniente y posible manejar estas ideas de manera
menos vaga. En ese sentido puede consultarse el libro clásico de Stephan y McCarthy (1958);
allí, a la vez que se alerta acerca de que la expresión "muestra representativa" nunca podrá tener
un significado formalizable, se sugieren algunas ideas en la línea de aproximarse al que le
confiere nuestro sentido común.

La noción que, a juicio nuestro, mejor sintetiza el concepto de representatividad muestral es la


siguiente: para conseguirla, lo que debe procurarse es que la muestra exhiba internamente el
mismo grado de diversidad que la población.

22
L.C.Silva
Imaginemos, por ejemplo, que un estudio sobre las opiniones de la población general acerca del
sistema de atención primaria se ha llevado adelante interrogando solo a estudiantes de medicina.
Se trata sin duda de una muestra (un subconjunto) de la población, pero inmediatamente será
apreciada con suspicacia; porqué no nos parecería "representativa" tal muestra? Básicamente,
porque sospechamos o sabemos que es demasiado uniforme: la población general es más
heterogénea que la de estudiantes a los efectos del tema que nos ocupa8.

Las conclusiones derivadas del proceso inferencial, por su propia naturaleza, siempre estarán
sujetas a error. Otra manera de entender el concepto es la siguiente: una muestra puede
considerarse representativa0 a los efectos de ciertos aspectos específicos de la población cuando
el error en que se incurre al emplearla para hacer estimaciones sobre esos aspectos no excede
ciertos límites prefijados. Esto subraya el hecho de que una muestra puede ser representativa de
ciertos rasgos y no de otros (por ejemplo, serlo de la distribución poblacional en cuanto a grupos
sanguíneos pero no en cuanto al nivel de escolaridad).

1.9.2 Garantiza el azar la representatividad?

Consideremos la siguiente situación. En una escuela primaria hay 100 niños de cada sexo y se
quiere estudiar el rendimiento académico del total de los 200 educandos a partir de una muestra
de 50 de ellos. Si se permite que sea exclusivamente el azar quien determine los 50 elementos de
la muestra, bien podría ocurrir que todos fuesen varones (aunque tal evento sea tan extraor-
dinariamente improbable que a todos los efectos prácticos pueda considerarse virtualmente
imposible). En tal caso, naturalmente, la muestra no sería representativa con relación al género y,
consecuentemente, tampoco respecto de aquellos factores directa o indirectamente asociados a
él. Aunque de manera menos exagerada, igual consideración podrían merecer, por ejemplo,
muestras con 40 varones y 10 niñas, o viceversa.
*****
Si se supiera -como suele ocurrir- que aquello que se investiga está asociado con el género,
parecería justificado y prudente rechazar tales muestras (si se produjeran) como fuente de
eventual generalización. Sin embargo, quizás tampoco sería deseable que la muestra contuviese
a 16 de los 20 alumnos zurdos que hay en la escuela, o que el porcentaje de alumnos de la
muestra cuyas madres sean universitarias resulte mucho menor que el mismo porcentaje entre los
200 alumnos del centro, pues también podrían existir nexos indirectos, quizás desconocidos, entre
el desempeño escolar y el hecho de ser zurdo, o entre dicho desempeño y la escolaridad de la
madre.

Sin embargo, es evidente que si se descartaran muestras "inconvenientes" una y otra vez hasta
obtener una que no lo parezca, el uso del azar se reduciría a un autoengaño, además de que el
proceso de escudriñar las muestras en esta línea sería por lo general impracticable y, en definitiva,
interminable.

8
Esa es, en esencia, la razón por la cual las “votaciones” que suelen
incluirse en los sitios WEB carecen de todo fundamento científico como
instrumento para conocer «la opinión pública»

23
L.C.Silva
Por otra parte, repárese en que el examen de la muestra propiamente dicha no puede servir para
evaluar su calidad como modelo representativo del universo que se estudia. En primer lugar,
porque habría que analizar un número virtualmente ilimitado de características poblacionales
todas las cuales deberían quedar fidedignamente reflejadas en la muestra y, en segundo lugar,
porque se opera con una muestra precisamente en virtud de que las características poblacionales
se desconocen.

Ahora bien, hay que subrayar que el solo hecho de que empleando el azar puedan obtenerse tales
muestras pone en evidencia que dicho método no asegura ni mucho menos la representatividad.
Este es el nudo conceptual de máximo interés: contrariamente a una convicción bastante
extendida, lo cierto es que el azar no inyecta representatividad a la muestra específica que pudiera
obtenerse por su conducto.

Abundando en el tema, supongamos ahora que el muestrista decide tomar en calidad de muestra
al conjunto de los 50 estudiantes que hayan alcanzado en matemáticas las notas más altas de la
escuela; al objetársele el procedimiento con la crítica de que no intervino el azar, y de que tal
muestra es obviamente no representativa, él puede argüir que mediante el azar cualquier
subconjunto de 50 alumnos podría haber resultado elegido -entre ellos, aquél integrado por los
más destacados en matemática- y que, en tal caso, exactamente las mismas conclusiones no
serían objetadas. ¿Acaso un poema merece diferente consideración en dependencia de que sea
leído por la mañana o por la tarde, de que sea anónimo o esté firmado por un poeta encumbrado?
¿Por qué entonces aceptar cierta muestra si fue seleccionada al azar pero rechazar esa misma
muestra si fue intencionalmente decidida? Formalmente, el argumento esgrimido contra el azar
como exigencia parece impecable.

1.9.3 Los méritos del azar

El problema de sacrificar el instrumento de la aleatoriedad en el altar de esa lógica estriba, como


ya se apuntó, en que así se estaría licitando cualquier manipulación tendenciosa del objeto de
estudio, en contradicción con un principio elemental del proceder científico.

¿Cuáles son entonces los méritos del azar? Se reducen a dos: en primer lugar, los
procedimientos probabilísticos satisfacen esa exigencia intuitiva de eliminar -o mitigar al menos- la
carga subjetiva que podría influir en la elección de los elementos que se van a examinar (y, por
ende, en las conclusiones). El azar juega el papel de seguro contra distorsiones sistemáticas,
sean o no deliberadas, y ese papel es por lo general insustituible, aunque no resuelve la
encrucijada lógica en que nos hallamos. En segundo lugar, y esto es realmente crucial, sólo
cuando el método es probabilístico se podrá solucionar la tarea de medir el grado de precisión con
que se realizan las estimaciones.

El investigador, naturalmente, desea dos cosas: en primer lugar y sobre todo, que ese margen de
imprecisión en sus conclusiones sea pequeño y, en segundo lugar, tener una estimación de cuál
es la magnitud real del error. El carácter probabilístico del método de selección asegura esto
último -y en ello radica precisamente su virtud fundamental-, aunque no necesariamente garantice
lo primero.

24
L.C.Silva

1.9.4 Elegir el método, aceptar la muestra

La clave del razonamiento en que se fundamenta el empleo del azar radica en lo siguiente: la
confianza que pueda depositarse en una muestra depende vital y exclusivamente de la que
merezca el procedimiento que la produjo. Vale la pena detenerse en este punto, que es el
aspecto metodológicamente más relevante.

En general, no se emplea un método porque siempre funcione eficientemente, ni se descarta


porque siempre fracase. La elección racional de un procedimiento (independientemente de lo que
se procure resolver con él) nada tiene que ver con la infalibilidad; con lo que tiene que ver es con
la evaluación del riesgo de que nos conduzca al fracaso: si éste es muy pequeño, se adopta; si es
muy grande, se desdeña. Así nos conducimos cotidianamente cada vez que elegimos
racionalmente una manera dada para resolver algo (comunicarnos con alguien, comprar un
producto, trasladarnos a algún sitio, etc.) En el caso de la selección de muestras, casi siempre es
posible que nos toque en suerte una muestra muy "deficiente"; pero si los tamaños de la población
y de la muestra no son muy reducidos, entonces muy probablemente la muestra resultante será
representativa a cualquier efecto de interés9. Dicho de otro modo, las muestras "deficientes" serán
relativamente pocas. La que resulte seleccionada cuando se aplique un procedimiento dado de
muestreo no tiene una confiabilidad intrínseca; una vez elegida no tiene mayor sentido pensar
siquiera en sus posibles méritos. Importan los méritos del diseño que la produjo; como se ha
dicho, él es "bueno", como ocurre con cualquier otro método, cuando la inmensa mayoría de sus
desenlaces sean satisfactorios. Por otra parte, una vez aplicado el procedimiento de muestreo,
será típicamente imposible enterarse siquiera acerca de la calidad de la muestra obtenida.

En la práctica, después de meditar cuidadosamente el procedimiento muestral y de haberlo


aplicado consecuentemente, el estudio debe continuarse usando la muestra que haya resultado
sin que se admitan manipulaciones a posteriori, por muy razonables que pudieran parecer.

Cabe recordar, por otra parte, que la ciencia no avanza de manera lineal sino en virtud de una
singularidad que la hace única: su propia capacidad autocorrectora. De modo que no es muy
grave que ocasionalmente lleguemos a resultados incorrectos, pues para considerar que algo es
cierto no bastan unos resultados aislados que lo confirmen, sino que es menester que éstos se
hayan replicado. La verdad científica se abre paso con carácter necesario, a pesar de los
elementos casuales que puedan coyunturalmente ocultarla o tergiversarla (Silva, 1977); desde el
punto de vista del progreso científico, las consecuencias de algunas pifias en el contexto de
muchos aciertos no son por, lo general, desastrosas.

En síntesis, al permitir que el azar determine la base de la generalización se corre el riesgo de


que, en algunos casos particulares, esta última resulte equivocada; pero en la medida en que se
siga esta práctica, supuesto que se adopten medidas para que aquella contingencia sea más bien
excepcional, la resultante final de las generalizaciones terminará por imponerse con fuerza de ley.

9
De hecho, eso es lo que afirma en esencia la "ley de los grandes
números" descubierta por Bernoulli y bien conocida por los probabilis-
tas.

25
L.C.Silva

1.10 Estimación puntual y por intervalos

Como ya se ha dicho, en el contexto de los estudios descriptivos la caracterización que se procura


realizar casi siempre supone la estimación de parámetros. Concentrémonos en un parámetro
genérico al que llamaremos  (que puede representar, por ejemplo, la prevalencia de asmáticos o
el número total de cardiópatas en una comunidad).

Supongamos que estamos en el primer caso y que un técnico de salud ha estimado ese número
mediante un diseño probabilístico y que comunica que la estimación de  es igual a 11 %. Esto,
obviamente, no quiere decir que la prevalencia sea exactamente igual a 11 %. Cuando se nos dice
que la estimación es 11 %, sabemos que esto quiere decir que el verdadero valor de  es "más o
menos" igual a 11. La demanda, natural, sin embargo es conocer cuánto "más o menos".

Es decir, resulta inmediata la aspiración de contar no solo con una estimación puntual de  , sino
también con una idea del error máximo que pudiera estar afectando a dicha estimación. Esto
equivale a disponer de un intervalo en cuyo seno quepa esperar que se halle el parámetro.

1.10.1 Interpretación del intervalo de confianza

Un intervalo de confianza para un parámetro P es, informalmente definido, una pareja de


números.  ˆ 1 y ˆ 2 entre los cuales podamos "estar confiados" que se halla el parámetro en
cuestión. Es obvio que no es lo mismo creer que  es 11 % más o menos 0.5 %, que creer que
es 11 % más o menos 4 %, o que solo saber que es "aproximadamente" igual a 11 %, pero no
tener la menor idea acerca de cuál es la magnitud del error posible.

Para interpretar adecuadamente este intervalo debe repararse en lo siguiente: para cada muestra
posible de la población, puede obtenerse un intervalo de confianza, aquél al que ella dé lugar.
Quiere decir que el intervalo es el resultado de haber realizado una experiencia aleatoria; Ese
intervalo puede contener o no al parámetro, aunque si ello efectivamente ocurre o no es algo que
no podremos nunca dirimir en la práctica: lo que puede afirmarse es que, para un alto porcentaje
de las muestras, el intervalo resultante contiene al parámetro desconocido.

La virtud del intervalo que se obtiene para la única muestra que se selecciona en la práctica
estriba en que se produjo por un método confiable; o sea, se podrá estar razonablemente confiado
en que ese único intervalo que tocó en suerte no estará entre los pocos que no contienen al
parámetro. Consecuentemente, si el intervalo se construye por un método tal que acierta a
"atrapar" a  , por ejemplo, el 95 % de las veces, se dice que "  se halla entre ̂1 y ̂2 con una
confiabilidad del 95 %".

Para ilustrar estas ideas, supongamos que cierto estudio tiene entre sus propósitos conocer el
gasto promedio en medicamentos en que incurren mensualmente los núcleos familiares de cierta
comunidad. Los investigadores conocen por estudios similares que dicho valor debe estar entre
$2.00 y $6.00, pero necesitan un dato más preciso. Naturalmente, si se opta por el uso del mues-
treo, el verdadero promedio nunca será conocido con certeza absoluta.

26
L.C.Silva
Supongamos que tras una encuesta por muestreo se obtuvo, en calidad de estimación, que dicho
gasto promedio asciende a $3.25. ¿Qué significa ese dato si no se tiene una idea del posible error
cometido? Virtualmente nada. Sin embargo, si además se informase de que el error máximo es
e = $0.15 , lo que se está afirmando es que el verdadero gasto promedio se encuentra casi con
seguridad entre $3.10 y $3.40. Ahora, si en lugar de $0.15, el error asociado a la estimación
ascendiera a $3,20, entonces lo único que se conocería, en definitiva, sería que el verdadero
gasto medio está entre $0.05 y $6.45. O sea, no se agregaría absolutamente nada a lo que ya se
conocía de antemano. Es preciso comprender que la estimación aislada, sin una medida del error
que pueda estar afectándola, carece virtualmente de interés.

Cuando un titular de prensa afirma algo como lo siguiente:

"A partir de una rigurosa muestra aleatoria de 300 hombres de la capital, los
expertos han estimado que el porcentaje de hombres que usan preservativos
regularmente subió en el curso del último año de 31,4 % a 35,7 %"

pero escamotea (quizás porque no considera necesario comunicarlo) que el error máximo
asociado a esta última estimación es de 4,6 %, probablemente el lector común quede
automáticamente persuadido de que ese consumo ha aumentado. Pero lo que realmente se sabe
es que el porcentaje actual está, muy probablemente, entre 31,1 % y 40,3 %, de modo que
pudiera ser incluso inferior al 31,4 % obtenido antes.

Supongamos que, a su vez, aquel 31,4 % se había obtenido con una muestra que produjo tal
estimación con error estimado de un 6,0 %. Entonces el verdadero valor inicial podría
verosímilmente haber sido, por ejemplo, 36,0 % (número que está dentro del intervalo que va de
25,4 % a 37,4 %, correspondiente al porcentaje estimado para el año anterior). En síntesis, la
verdad que está detrás de la declaración según la cual "el uso de preservativos subió de 31,4 % a
35,7 %", pudiera tener como realidad subyacente que "el empleo de preservativos bajó del 36,0 %
al 31,2 %", ya que esta última afirmación es perfectamente compatible con los resultados que
arrojaron los estudios. Otra ilustración práctica concerniente a este tema se desarrolla en detalle
en la Sección 3.6.

1.10.2 La zona más probable

Una pregunta natural que suelen hacerse algunos investigadores es la siguiente: ¿son todos los
puntos del intervalo igualmente probables? Replanteémosla en un marco más específico. Supon-
gamos que la prevalencia de asmáticos considerada en la sección anterior ha sido estimada como
11 % con un error máximo del 2 %; de modo que el intervalo de confianza sería [9 % - 13 %].
¿Hay más razones para pensar que  sea igual a 11 % que, por ejemplo, a 12 %? O, dicho de
otro modo: puesto que 12 está dentro del intervalo, es tan verosímil que  sea 12 como que 
sea igual a 11, punto medio del intervalo? Es cierto que todos los valores del segmento 9 % - 13
% son “compatibles” con  , pero realmente, es más verosímil que  esté más cerca del punto
medio del intervalo que de cualquier otro punto del mismo10.

10
El término “verosímil” no se ha elegido solo porque sea semánticamente
expresivo como recurso del castellano (que lo es), sino porque el punto medio
del intervalo es la estimación que maximiza la función de verosimilitud (es la

27
L.C.Silva

1.10.3 Intervalo de confianza como alternativa a las pruebas de hipótesis

No mucho después de su aparición, las pruebas de hipótesis clásicas empezaron a recibir fuertes
críticas. Un detallado examen histórico y conceptual sobre este polémico asunto se puede hallar
en Silva (1999).

Diversos juicios críticos pueden encontrarse en la obra de muchos objetores actuales y pasados
del uso de las pruebas de hipótesis; entre ellos cabe mencionar a Rozeboom (1960), Rothman
(1978), Salsburg (1985), Walker (1986), Gardner y Altman (1986), Thompson (1987),
Goodman y Royall (1988), Goodman (1992), Chia (1997), Barnett y Mathisen (1997) y
Goodman (1999). La crítica fundamental, sin embargo, estriba en el hecho siguiente: que se
encuentre o no significación depende de un elemento externo a la realidad que se estudia, el
tamaño de muestra.

Como uno de los "remedios", desde hace algún tiempo se ha venido sugiriendo la estrategia de
suplir las pruebas de hipótesis por el empleo de intervalos de confianza, alternativa defendida con
vehemencia por diversos autores entre los que se destacan los connotados estadísticos británicos
Martin Gardner y Douglas Altman (véanse Gardner y Altman, 1986; Gardner y Altman, 1987)
vinculados al British Medical Journal, y secundada actualmente por muchos editores de revistas
médicas (Véase: Bulpitt (1987) de Lancet, Evans, Mills y Dawson (1988) de British Heart
Journal, Davidoff (1999) de Annals of Internal Medicine). A estos dos estadísticos se debe
incluso un software (Confidence Interval Analysis, CIA) que permite el cómputo de intervalos de
confianza para una amplia gama de parámetros en el caso de que la muestra haya sido simple
aleatoria.

Estos autores sugieren que los intervalos sean empleados como recurso expresivo básico
"siempre que se haga una inferencia de los resultados a un ámbito más abarcador y que
concierna a medidas de resumen -no a características individuales- tales como tasas, diferencias
de medias, coeficientes de regresión, etc". Las revistas mencionadas no exigen que los famosos
valores p deban ser necesariamente suprimidos pero, en cualquier caso, sí que ocupen a lo
sumo un lugar secundario o complementario.

estimación “máximo verosímil” de P). Este concepto desborda el alcance del


presente texto, pero debe consignarse que toda la teoría de la verosimilitud,
en su momento relegada por la popularidad de las pruebas de significación,
recupera cada día más espacio. Véase Royall (1999).

28
L.C.Silva
El argumento central en que se sustenta esta corriente de opinión proclama que los intervalos son
mucho más informativos que el mero valor de p , ya que éste no transmite información alguna
sobre la magnitud de la diferencia o de la asociación que se valora, en tanto que el intervalo nos
provee de un recorrido de valores posibles para el valor poblacional (o compatibles con él), en
lugar de una dicotomía arbitraria. Se añade, por otra parte que los intervalos incluyen toda la
información necesaria para aplicar la prueba de significación si se deseara realizarla, puesto que,
por ejemplo, si H o establece que 1 =  2 , rechazar H o equivale a que el intervalo de confianza
para 1 -  2 no contenga al cero.

Puesto que con frecuencia las pruebas de hipótesis se emplean para valorar la diferencia entre
dos parámetros, lo que debe construirse es un intervalo de confianza para la diferencia (Altman,
1980), y no formar dos intervalos (uno para cada parámetro) con el fin de examinar si se
intersecan o no; en caso de que los datos estuvieran pareados, tal práctica no sería solamente
inconveniente, sino directamente errónea.

En mi opinión, el uso de intervalos de confianza es menos inadecuado que el de las pruebas de


hipótesis, en especial porque proveen más información y por aportar un enfoque más flexible. De
hecho, si se procede a estimar, pongamos por caso, una diferencia entre medias poblacionales y
se corrobora que el error de esa estimación es suficientemente pequeño como para considerar
que dicha estimación es eficiente (por ejemplo, que el error es inferior al 5 % de la magnitud de la
propia estimación11) , lo cual equivale a que el intervalo de confianza sea suficientemente
estrecho, entonces ya se cuenta con toda la información necesaria para hacerse un juicio acerca
del problema abordado. En efecto, lo que corresponde hacer una vez que ha alcanzado ese
punto es simplemente pronunciarse sobre la sustantividad o significación clínica de la diferencia
en cuestión. Vale decir, el esquema de pensamiento en términos de intervalos de confianza ante
una diferencia de dos porcentajes, sería del modo que refleja el diagrama de flujo que se
reproduce en la Figura 1.1.

1.10.4 Error absoluto y error relativo

Como se ha dicho, a través de una muestra probabilística se puede estimar un parámetro  , así
como el error (llamémosle e ) inherente a dicha estimación; a partir de ese conocimiento, se puede
ˆ 1 , ˆ 2 ) dentro del cual podemos estar altamente confiados que se halle  .
construir un intervalo ( 
Generalmente (no siempre), los extremos 
ˆ 1 y ˆ 2 se obtienen respectivamente sustrayendo de y
sumando a la estimación puntual ̂ el valor e ; es decir:

ˆ 1 = ˆ - e y ˆ 2 = ˆ + e

11
Véase el concepto de error relativo en la Sección 1.10.4.

29
L.C.Silva
Naturalmente, lo que se desea es que el error e sea pequeño (es decir, que el intervalo sea lo
más estrecho posible).

Supongamos que nos informan de que la longitud de cierto objeto se ha medido con precisión de
2 cms (es decir, que la distancia entre la medición y la verdadera longitud asciende a lo sumo a 2
centímetros). Es éste un error grande o pequeño? Puede considerarse inaceptable o, por el
contrario, refleja una buena precisión?

Naturalmente, no es posible pronunciarse al respecto hasta que no sepamos de qué objeto se


trata. Si lo que se ha medido es la talla de un individuo, adulto probablemente tal precisión resulte
satisfactoria; pero, obviamente, no sería ese el caso si lo que se mide es el radio de un anillo, un
número posiblemente mucho menor que el propio error cometido. Si lo que se midió hubiese sido,
en cambio, la longitud de un autobús, entonces habría que considerar que el error mencionado es
absolutamente despreciable. En fin, para valorar o calificar la magnitud de un error se piensa,
tácita o explícitamente, en términos relativos.

El error de muestreo no es una excepción. Con frecuencia, después de calcular el error asociado
a la estimación de p , se procede a computar, el llamado error relativo de la estimación:
e
er =
p

30
L.C.Silva

Debe notarse que, mientras e viene dado en las mismas unidades en que se mide la variable, er
es un índice que carece de unidades.

Consecuentemente, suele expresarse en términos de porcentaje (es decir, multiplicado por 100).
Por ejemplo, tomando las ilustraciones de la sección precedente, diríamos que el error relativo con
que se estimó el gasto promedio en medicamentos fue del 4.6 % en el primer caso (ya que
0.25 3.20
= 0.046 ) y del 98.5 % (pues = 0.985 ) en el segundo.
3.25 3.25

En general se considera que un error relativo no superior al 10 % (es decir, un valor de er inferior
a 0.1) resulta aceptable a todos los efectos prácticos. Tal consideración empírica es compatible
con nuestros puntos de vista en la vida diaria: si una señora de 42 años nos dice que tiene 40,
diríamos que está "redondeando" (el error relativo es 5%), pero si nos comunica que tiene 30,
12
diríamos que nos ha mentido (en ese caso er = = 0.18 ).
42
El mismo enfoque cabe aplicar a la estimación por ejemplo de una diferencia de parámetros, la
cual tiene su propio error y para la cual se puede construir su propio intervalo de confianza.

1.11 Muestras y censos

El costo de los censos es enorme. Esa es, precisamente, una de las razones para emplear
muestras. Cada una de las preguntas supone un costo y este ha de multiplicarse por el tamaño
de la población (de hogares o personas) o por el de la muestra, si se opta por esta alternativa.
Consecuentemente, los cuestionarios empleados en los censos deben ser, en lo posible,
relativamente breves y sencillos.

No obstante, cada vez con más frecuencia se están combinando datos propiamente censales con
los obtenidos mediante encuestas por muestreo, que se incluyen como parte del propio censo.
Estas muestras pueden sustituir incluso a los censos, en cuyo caso tienden a ser de gran tamaño
(suelen constituir entre el 1 % y el 25 % de la población). Un enfoque más versátil consiste en
diseñar una muestra grande que tal vez abarque un tercio o un cuarto de la población) para
aquellas preguntas sobre las que se necesita gran detalle, además de una mucho más pequeña
(abarcadora del 1 %, del 0,5 % de la población) para las preguntas más complejas o difíciles.

El muestreo no solo reduce el costo total que supone obtener estos datos; puede también producir
mayor precisión, especialmente cuando se adoptan medidas que mejoren la calidad del dato
primario, tales como la de formar encuestadores debidamente preparados.

31
L.C.Silva
El uso conjunto de registros y de encuestas por muestreo está resultando exitoso; tal ha sido el
caso de los países escandinavos, que poseen unos excelentes registros de población. Por
ejemplo, Dinamarca prescindió del censo desde 1980 y utilizó en su lugar las llamadas
"estimaciones de áreas locales".

CAPITULO 2 LA ENCUESTA Y EL CUESTIONARIO

Aunque las técnicas muestrales pueden emplearse en principio en cualquier tipo de universo, lo
cierto es que sus aplicaciones en el ámbito sanitario se verifican predominantemente sobre
poblaciones humanas, especialmente para interrogar individuos y en ocasiones también para
medirlos (registrar datos cuantitativos captados con o sin instrumentos). Típicamente, entonces, el
interrogatorio está presente en las investigaciones de salud pública y epidemiología, en especial
en aquellas que tienen un componente social. De ahí su estrecho vínculo con el muestreo.

Para dar solución a un problema de muestreo en tal tipo de situación es necesario por tanto
programar una encuesta, actividad compleja que exige alto grado de organización y demanda
colaboración de profesionales y técnicos de diversas especialidades y perfiles.

De modo que las técnicas muestrales y las encuestas, aunque no están inexorablemente
vinculadas entre sí, suelen venir aparejadas. El presente capítulo procura profundizar en los más
importantes aspectos técnicos en esta materia.

2.1 Organización de la encuesta

2.1.1 Las tareas básicas

Una vez definidos los objetivos de la encuesta, los pasos fundamentales que deben darse para
completar el proceso de su aplicación son, en esencia, los siete siguientes:

1. Redactar un cuestionario

2. Confeccionar un plan de tabulación y análisis

3. Construir un marco muestral adecuado

4. Diseñar la muestra

5. Aplicar el cuestionario a las unidades elegidas

6. Procesar la información

7. Realizar inferencias

32
L.C.Silva
Sin embargo, la buena práctica de las encuestas no permite que estas tareas se completen de
manera lineal. Es altamente recomendable, por poner un ejemplo, realizar una experiencia piloto
que retroalimente a los investigadores y les permita realizar enmiendas al proyecto original.

El esquema recogido en la Figura 2.1 e inspirado en un folleto divulgativo de la American


Statistical Society, presenta la secuencia e interrelaciones de las acciones que se deben concretar
para el exitoso desarrollo de una encuesta por muestreo.

Las flechas del diagrama indican el orden de precedencia de las acciones. Por ejemplo, para el
desarrollo de la encuesta piloto, nodo crucial del proceso, se observa que hay dos actividades
previas, ambas igualmente medulares: confeccionar el proyecto de cuestionario y establecer la
forma en que se habría de tomar la información primaria en terreno. Por otra parte, una vez
llevado a cabo dicho pilotaje, sus resultados influirán en el desarrollo de tres tareas: concluir el
diseño muestral, ajustar el cuestionario y definir las formas definitivas de trabajo en la práctica
(tales como selección de horarios, estimación del tiempo que supone completar el cuestionario e
identificación de aspectos cuya calidad debe ser especialmente controlada). Por otra parte, como
muestra el diagrama, el proceso completo incluye un amplio conjunto de acciones a cuya
eficiencia se subordina en buena medida la calidad de los resultados finales.

2.1.2 Errores ajenos al muestreo

A lo largo de la encuesta pueden introducirse errores ajenos al hecho de que la información


proceda de una muestra (y no de un censo). No son errores inherentes al proceso inferencial,
sino a las diversas actividades prácticas que deben ejecutarse. Estos reciben el nombre de
errores no muestrales y pueden producirse por deficiencias en aspectos tales como el diseño del
cuestionario, la estructura o redacción de las preguntas, o durante el registro de la información.

Es difícil minimizar la importancia de este tipo de errores. Ocasionalmente se presta atención


priorizada a los errores de muestreo y se consigue reducirlos en unos pocos puntos de porcentaje
o, incluso, fracciones de punto; y al mismo tiempo, se desdeñan los principios que deben
observarse al diseñar el cuestionario. Sin embargo, varios experimentos de vieja data ponen en
evidencia que el monto potencial de error inducido por preguntas deficientemente formuladas
puede superar los 20 o los 30 puntos de porcentaje (Payne, 1951). Lo más llamativo del asunto es
que, mientras incrementar la precisión refinando el diseño muestral o aumentando el tamaño de
muestra puede hacer crecer notablemente los costes, el proceso de mejorar el cuestionario del
que provienen los datos es, en cambio, sumamente económico por lo general (Fowler, 1995).

Con el fin de aportar elementos que permitan disminuir el margen de información primaria inser-
vible o de dudosa calidad, vale la pena detenerse en las técnicas de confección de cuestionarios.

2.2 El cuestionario

33
L.C.Silva
Un cuestionario es un documento concebido para ayudar en el proceso de obtener y registrar
información a través de una secuencia de preguntas o mediciones. En lo que resta de este
capítulo, nos concentraremos en aquella información que se procura obtener a través de
preguntas; éstas, a diferencia de las mediciones físicas que se realizan por medio de
instrumentos, suelen constituir la única vía para obtener información medular que permita alcanzar
los objetivos de una investigación. Por una parte, como es obvio, no hay otro modo de medir
niveles de satisfacción, sentimientos o grados de concordancia con una opinión. Por otra parte, la
medición de la magnitud o la frecuencia con que el individuo realiza o ha realizado ciertas
actividades a menudo exige de una indagación directa. Por ejemplo, no todos los delitos son
denunciados a la policía ni todos los episodios morbosos registrados por el sistema de salud, de
modo que el testimonio de los propios individuos puede ser la única vía confiable para hacer
estimaciones adecuadas relacionadas con la seguridad ciudadana o el estado de salud de la
población. Ha de tenerse en cuenta, además, que incluso lo que queda registrado puede ser
diferente de lo que el sujeto es capaz de testimoniar (Jabine, 1987).

Los aspectos que se tratan a continuación procuran demostrar que tanto las modalidades de
aplicación como la forma en que se diseñan las preguntas tienen notable importancia. Durante
muchos años se subvaloró la relevancia de estos aspectos y en el mejor de los casos se
consideraban pertenecientes a la esfera del sentido común. Más recientemente, sin embargo, el
tema ha alcanzado mayor prominencia y ha sido objeto de no pocos y reveladores experimentos.
Se ha desarrollado un marco teórico altamente estructurado y se dispone de textos exclusivos que
tratan el asunto con todos los requerimientos de una disciplina científica consolidada. Entre los
más destacados de la última hornada cabe mencionar los libros de Tanur (1992), Fowler (1995) y
Sudman, Bradburn y Schwarz (1995).

2.2.1 Formas de aplicación

Los modos en que un cuestionario puede aplicarse son, esencialmente cuatro: a través de un
encuestador o entrevistador, usando cuestionarios autoadministrados, (el propio sujeto
interrogado lo cumplimenta), mediante indagación telefónica, y procurando respuestas por correo.
En cuanto al registro de respuestas, se manejan dos alternativas fundamentales: la modalidad
clásica, consistente en que se transcriban al papel los resultados, y las variantes en las que el
proceso de registro se auxilia de la computadora.

Para decidir la modalidad que se empleará, el sentido lógico del investigador se complementará,
entre otros factores, con la naturaleza del tema abordado, las características culturales de la
población que se estudia y los recursos disponibles. Es evidente, por ejemplo, que la
autoenumeración es más apropiada cuando la encuesta se aplica a sujetos que se hallan reunidos
que a individuos aislados, o que hay información que no puede recabarse telefónicamente por
exigir una apreciación visual directa, como cuando la encuesta incluye, por ejemplo, un examen
dental.

Ocasionalmente se hacen combinaciones; por ejemplo, se ha comprobado que las entrevistas


telefónicas son mas útiles y viables cuando se realizan después de haberse producido las
entrevistas personales (supuesto, naturalmente, que el estudio exija tal seguimiento).

34
L.C.Silva
La encuesta asistida por ordenador, bautizada como CADAC (Computer Assisted Data Collection)
está planteando oportunidades insospechadas hasta hace poco, especialmente si se tienen en
cuenta las posibilidades que abre Internet.

La oportunidad de hacer exámenes de consistencia de las respuestas simultáneamente con su


registro (y por ende, de realizar in situ las enmiendas que procedan), además del ahorro de papel,
personal y tiempo que supone, ha llevado a la entusiasmada adopción de dicho método por
muchas agencias especializadas y por cada vez más equipos de investigadores. Los efectos de
tal procedimiento están siendo estudiados desde finales de los años 80 (Saris, 1989; Weeks,
1992; Nicholls, Baker y Martin, 1986). De hecho, se han manejado dos variantes fundamentales:
el uso de las computadoras para el desarrollo de entrevistas (Baker, 1992; Couper y Burt, 1994)
y su aplicación en los cuestionarios autoadministrados (O'Reill y col., 1994).

Cabe esperar que este proceso renovador siga extendiéndose en la medida que se generalicen
otras tecnologías de acceso a informantes potenciales como el correo electrónico, que despertó
interés a estos efectos desde su surgimiento (Kiesler y Sproull, 1986) en virtud de la nueva y
atractiva posibilidad de realizar encuestas sin necesidad de contactar ni física ni verbalmente a los
encuestados.

35
L.C.Silva
2.2.2 Ubicación de las preguntas

Se acostumbra a colocar mecánicamente todas las preguntas generales (nombre, género,


ocupación, etc) al comienzo de la encuesta. No necesariamente es esta una decisión óptima.
Como ocurre con cualquier decisión que se adopta rutinariamente, puede ser en unos casos
atinada y en otros no. En particular, pudiera ser conveniente colocar algunas de estas preguntas
en otros puntos del cuestionario, de manera que se evite un largo y aburrido tramo inicial, y
también porque algunas preguntas generales pueden ser ocasionalmente embarazosas.

Otra pregunta relevante es: ¿cuál debe ser la estrategia para ubicar las preguntas que, tocando
temas desagradables o embarazosos son, sin embargo, de vital importancia para el estudio? Una
recomendación casi universalmente admitida es que no deben colocarse al principio del
cuestionario. Se ha sugerido, incluso, que se deben dejar todas las preguntas conflictivas para el
final, "sonsacar" cuanto se pueda sobre ellas y dar por terminada la entrevista si surgen
problemas. Este enfoque podría por una parte ser éticamente cuestionable, pero además revela
una forma de facilismo difícil de defender, ya que asume como legítimo que queden preguntas en
blanco a la vez que no invita a una reflexión crítica orientada a evitar tal contingencia.

2.2.3 Tipos de preguntas

Las preguntas pueden ser caracterizadas según distintos ejes de clasificación. Por ejemplo,
atendiendo al grado de aporte que se espera del interrogado, pueden ser abiertas o cerradas, o
desde el punto de vista métrico, según el cual pueden ser cualitativas o cuantitativas.

Cada tipo de preguntas puede ofrecer dificultades específicas en cuanto al modo de manejar los
resultados, lo cual a su vez depende en muy buena medida del objetivo con que se formula.
Haremos algunos comentarios al respecto en la medida que se considere oportuno para las
diferentes modalidades que se comentan en las secciones siguientes.

2.2.3.1 Preguntas cerradas y abiertas

Lo más frecuente es formular preguntas cerradas, aquellas cuyas respuestas posibles han sido
previstas en su totalidad por el investigador y se ofrecen al encuestado para que él elija la que
mejor se ajuste a su situación. Tal suele ser el caso bien familiar en que se indaga el género
(masculino/femenino), el estado civil, o el grupo étnico al que pertenece el sujeto; también están
en ese caso las preguntas de opinión que exigen posicionamiento del interrogado según una
escala ordinal, como la siguiente:

36
L.C.Silva

¿Cómo cree usted que ha sido la gestión del gobierno en materia de salud ambiental en el
último año?

___ muy eficiente


___ eficiente
___ aceptable
___ ineficiente
___ muy ineficiente

Mucho se ha investigado acerca de cuáles y cuántas categorías emplear. Hay consenso en que
no deben usarse más de 10 (Andrews, 1984), aunque un número entre 5 y 7 suele ser lo más
adecuado.

La capacidad discriminatoria de la misma pregunta puede verse apreciablemente modificada por


las opciones de respuesta con las cuales se cierra. Por ejemplo, consideremos las siguientes
opciones:

¿ Cómo considera usted que es su estado de salud actualmente?

Bueno___ Malo___

¿ Cómo considera usted que es su estado de salud actualmente?

Bueno___ Aceptable___ Malo___

¿ Cómo considera usted que es su estado de salud actualmente?

Óptimo___ Muy bueno___ Bueno___ Regular___ Malo___

Página -1-
L.C.Silva

El porcentaje de los que optan por la última categoría (estado de salud malo) disminuiría en la
medida que el número de alternativas se incrementa. Quiere esto decir que la interpretación del
resultado no puede hacerse al margen del contexto que configura el conjunto de respuestas
posibles. Consecuentemente, nuestro pensamiento debe operar en sentido inverso: elegir ese
conjunto en función de lo que realmente queremos que constituya una guía para la interpretación.

Cuando la pregunta es abierta el entrevistado responde redactando (o exponiendo verbalmente,


según el caso) su respuesta de manera libre. Se preguntaría, por ejemplo:

¿Cuál es su opinión acerca del grado de eficiencia de la gestión gubernamental en materia


de sanidad ambiental?

Y se daría en espacio para verter dicha opinión.

2.2.3.2 Preguntas cuantitativas o cualitativas

Las preguntas cuantitativas son aquellas cuya respuesta consiste en un número; por una parte,
están las dimensiones objetivamente medibles (años cumplidos, colesterolemia o circunferencia
cefálica) y, por otra, las cuantificaciones en que interviene la subjetividad del sujeto interrogado,
(cuántos hijos quisiera tener o qué salario le parecería justo percibir). Las cualitativas, por su
parte, son aquellas en que se desemboca en una clasificación, como ocurre con la actividad
ocupacional o el grupo sanguíneo.

2.2.3.3 Preguntas de ordenación

En las preguntas de ordenación se pide al entrevistado que ubique jerárquicamente una serie de
alternativas de acuerdo con su preferencia personal o teniendo en cuenta algún otro marco
referencial. Dos ejemplos son los siguientes:

Ponga en orden de importancia para su vida los siguientes aspectos numerándolos del más
importante (1) al menos importante (5):

____ Trabajo
____ Dinero
____ Relaciones de amistad
____ Relaciones de pareja
____ Salud

Página -2-
L.C.Silva

¿ En qué orden cronológico deben a su juicio introducirse los alimentos siguientes a los niños
durante su primer año de vida? Poner números del 1 al 4 .

____ Granos
____ Pescado
____ Carne de res
____ Cereales

Cabe distinguir dos situaciones diferentes: cuando existe y cuando no existe un orden óptimo (o
correcto). El segundo ejemplo ilustra el caso en que tal orden existe (según OMS, primero debe
introducirse el cereal, y luego los granos, la carne y el pescado por ese orden). Aquí las
alternativas de análisis son diversas: desde computar el porcentaje de sujetos que colocan cierta
categoría en primer lugar hasta el lugar promedio que ocupa una categoría. En el primero,
obviamente, no existe una ordenación que pueda considerarse correcta o incorrecta.

Un tipo de pregunta singular dentro de esta línea se produce cuando se solicita al interrogado que
coloque en cierto orden un conjunto de "nominaciones". Tal es el caso de lo que Linniger y
Warwick (1978) califican como "una técnica sociométrica", que se emplea para obtener
información sobre el patrón de sentimientos positivos y negativos entre los miembros de un grupo.
Se insta a cada integrante del grupo a que haga un número limitado de "nominaciones", e indique
a aquellas personas de su entorno que más quieren o admiran, o a quienes consideran más
adecuadas a ciertos efectos. La ilustración que sigue está tomada de un estudio de normas
comunitarias en un colegio norteamericano (Bennington College) realizado por Newcomb y col.
(1967):

Supongamos que durante el próximo invierno habrá una importante reunión de


representantes de los estudiantes de cada uno de los tipos de colegios norteamericanos.
Cada colegio seleccionado deberá estar representado por tres estudiantes que serán
elegidos por sus compañeros. Es lógico suponer que este colegio será juzgado, en buena
medida, por los estudiantes que los representen. Por favor, anote debajo los nombres de por
los menos dos estudiantes (y no más de cinco) a quienes usted admire en forma especial,
independientemente de las razones que tenga para ello.

Página -3-
L.C.Silva

2.2.3.4 Preguntas de escala

Las preguntas de escala pueden ser de varios tipos. Las más importantes se exponen e ilustran a
continuación:

1. Escalas de analogía visual

La escala analógica visual se compone de una pregunta y de un segmento de recta (de 8 a 10


centímetros de longitud) en cuyos extremos se colocan calificaciones opuestas tales como "sin
dolor" y "máximo dolor imaginable" y sin texto adicional que califique las posiciones intermedias. El
interrogado debe colocar una marca en el punto del segmento que considere más adecuado a su
situación. Por ejemplo, en una encuesta a pacientes asmáticos puede aparecer la siguiente
pregunta:

¿Cuán fuertes han sido los ataques asmáticos que ha sufrido en la última semana? Indique
su situación con una marca en el punto que le parezca adecuado dentro del segmento
siguiente:

No tuve De extrema
Ataques intensidad

Página -4-
L.C.Silva

Huskisson (1974) obtuvo en un estudio que el 7 % de los pacientes interrogados por este medio
tuvo dificultades para comprender la demanda. Este mismo autor con un colega (Scott y
Huskisson, 1979) empleó con éxito, sin embargo, este tipo de escalas para medir cambios tras
un tratamiento. El interés de este enfoque radica en que, si bien la personalidad de cada sujeto
llevaría a que éste quede ubicado según su propia metrización subjetiva, tal problema afectaría a
ambas magnitudes (antes y después del tratamiento), de modo que la distancia entre ellas mediría
la diferencia, con lo cual se mitigaría o, incluso, se cancelaría el efecto de la subjetividad individual.

2. Escalas de Likert

Para la valoración del grado en que un individuo comparte cierta línea de pensamiento o teoría
general, un tipo de escala adecuada es la propuesta por Likert (1952).

Para aplicarla se considera una secuencia de afirmaciones (se ha sugerido que sean alrededor de
15) que se pronuncian (algunas a favor y otras en contra) acerca de determinado punto de vista
general; para cada afirmación la persona encuestada debe elegir en cada caso una de varias
(usualmente 5) alternativas, que expresan diversos grados de adhesión a dicha posición. Por
ejemplo, las afirmaciones y las alternativas de respuesta que se ofrecen al entrevistado para cada
una de las afirmaciones podrían ser como las dos que se enuncian a continuación:

Indice de adherencia para escalas tipo Likert Supongamos que en un estudio en que se
emplean escalas tipo Likert hay k afirmaciones y que el interrogado debe optar por una de r
alternativas que se ofrecen para cada una de ellas. Llamemos xi a la opción elegida ante la
afirmación i-ésima (por ejemplo x6 = 2 si el sujeto eligió la segunda respuesta para la sexta
afirmación), se puede computar entonces un Indice de Adherencia ( IA ) mediante la fórmula:

Z
IA 
rk

Página -5-
L.C.Silva
 xi  1 si la afirmación está formulada " positivamente"
k

donde: Z =  y i y y = 
i=1 r  x si la afirmación esta formulada " negativamente"
 i

El valor de IA se mueve dentro del intervalo (0, 1) e indica el grado en que el sujeto interrogado
simpatiza con la corriente de opinión o punto de vista cuyo apoyo se investiga: el valor IA = 1
indicaría absoluta adherencia, en tanto que IA = 0 significaría discrepancia total.

(A) La práctica de la medicina privada es altamente conveniente

1.- Discrepo totalmente


2.- No lo comparto
3.- Lo comparto sólo parcialmente
4.- Estoy de acuerdo en lo esencial
5.- Estoy totalmente de acuerdo

(B) Resulta inaceptable tratar la salud como una mercancía más

1.- Discrepo totalmente


2.- No lo comparto
3.- Lo comparto solo parcialmente
4.- Estoy de acuerdo en lo esencial
5.- Estoy totalmente de acuerdo
Imaginemos, por ejemplo, que hay k = 9 afirmaciones y r = 5 alternativas (supongamos que para
esta ilustración las afirmaciones que ocupan los lugares impares son "positivas" y las que ocupan
los lugares pares son "negativas"), y que las respuestas ( x1 , x 2 ,···, x9 ) son, respectivamente, las
siguientes: 1, 3, 4, 5, 5, 2, 2, 2 y 5.

El cómputo de IA arrojaría, entonces, lo siguiente:

(0 + 2 + 3 + 0 + 4 + 3 + 1 + 3 + 4) 20
IA = = = 0.44
(9)(5) 45

Página -6-
L.C.Silva

3. Escala semántico diferencial

Este método (Osgood, Suci y Tannembaum, 1957) utiliza una serie de alternativas de
evaluación (usualmente con un número de opciones entre 7 y 10) colocadas entre dos polos que
representan posiciones opuestas: bueno-malo, agradable-desagradable, positivo-negativo, fuerte-
débil o excitable-tranquilo.

Por ejemplo, al indagar sobre el trabajo del sistema sanitario en la comunidad, podría preguntarse:

¿ Qué le parece el funcionamiento del sistema sanitario actual?

Pésimo 1 2 3 4 5 6 7 8 9 10 Óptimo

Cabe advertir que al construir escalas de este tipo los investigadores suelen poner todo el énfasis
en las palabras elegidas para ubicar en los extremos y desdeñan el efecto que sobre el
interrogado ejercen los valores numéricos ofrecidos.

Para ilustrar la importancia que puede alcanzar tal efecto, consideremos la experiencia siguiente.
Se pregunta sobre el grado en el cual el sujeto cree que su vida ha sido exitosa y se ofrecen 11
alternativas de respuesta. Consideremos que hay dos formatos alternativos, ambos creciendo
desde "absolutamente inexitosa" a "absolutamente exitosa". La pregunta es la misma, pero la
semiótica de la escala empleada se modifica. Una posibilidad consiste en que la escala vaya de 0
a 10:

¿Cuán exitosa Ud. diría que ha sido su vida?

Absolutamente Absolutamente
inexitosa 0 1 2 3 4 5 6 7 8 9 10 exitosa

Otra variante es plantear una escala que va de -5 a 5:

¿Cuán exitosa Ud. diría que ha sido su vida?

Absolutamente Absolutamente
inexitosa -5 -4 -3 -2 -1 0 1 2 3 4 5 exitosa

Página -7-
L.C.Silva
¿Qué significan los puntos extremos para el interrogado? La condición "absolutamente inexitosa",
¿qué quiere decir? ¿qué el sujeto ha padecido una ausencia total de éxitos, o que su vida ha
estado signada por grandes fracasos explícitos? Se ha comprobado que los interrogados acuden
a la propia escala numérica para responderse a sí mismos esta pregunta, y por ende, para
descifrar lo que en realidad se les está preguntando.

Un estudio realizado con 1025 adultos asignados aleatoriamente a cada una de las dos
alternativas (Schwarz y col., 1991) produjo resultados claramente diferenciados, como muestra la
Tabla 2.1. La escala que va de -5 a +5 subraya la polaridad entre los extremos y hace pensar en
que el extremo inferior (-5) concierne a grandes fracasos, mientras que la que va de 0 a 10 hace
pensar que ese extremo inferior (0) se trata de ausencia de éxitos apreciables.

Tabla 2.1 Distribución de respuestas según valores en cada una de las escalas
numéricas

Escala de 0 a 10 (n=477) Escala de -5 a +5 (n=550)

Valor en la es- % % acumulado Valor en la es- % % acumulado


cala cala

0 - - -5 1 1
1 - - -4 - 1
2 2 2 -3 1 2
3 5 7 -2 1 3
4 7 14 -1 1 4
5 21 35 0 9 13
6 14 49 +1 9 22
7 21 70 +2 23 45
8 21 88 +3 36 81
9 6 97 +4 15 98
10 3 100 +5 4 100

Página -8-
L.C.Silva
Los resultados son elocuentes por sí mismos, pero llamo la atención sobre uno de ellos: el
porcentaje de sujetos que se ubica en la mitad inferior del espectro de posibilidades asciende a 35
para la escala de 0 a 10 y solo a 13 (¡casi un tercio!) para la que va de
-5 a +5.

4. Escalas gráficas

Andrews y Withey (1976) sugirieron el uso de un recurso gráfico como el que se muestra a
continuación, especialmente para la “medición” de sentimientos. Una pregunta típica podría ser
como sigue:

¿Cuál de las siguientes caras expresa mejor cómo Ud. se siente con respecto a la atención de
enfermería que recibe en la consulta?

A B C D E

Página -9-
L.C.Silva
2.3 Indicaciones para el diseño de cuestionarios y redacción de preguntas

La elección, organización y redacción de las preguntas constituye un proceso complejo y delicado,


que exige reflexión y paciencia, especialmente para revisar una y otra vez el proyecto de
cuestionario antes de traspasar el umbral crítico que supone su aplicación en el terreno hasta que
no se tenga razonable certeza de que cumple las debidas condiciones.

A continuación se enuncian, comentan e ilustran, por una parte, algunas recomendaciones


generales que, a mi juicio, han de contemplarse en el proceso de concepción y construcción del
cuestionario y, en segundo lugar, una serie de pautas específicas que cabe tener en cuenta en el
momento de confeccionar los interrogantes.

2.3.1 Recomendaciones generales para la construcción del cuestionario

La lista de 10 recomendaciones generales es la siguiente:

1. COMPROBAR QUE LAS PREGUNTAS QUE SE REALIZAN SE DERIVEN


EXCLUSIVAMENTE DE LAS QUE SE HAYA FORMULADO EL INVESTIGADOR

2. CONFORMAR CUESTIONARIOS TAN BREVES COMO SEA POSIBLE

3. CONSEGUIR QUE LAS PREGUNTAS SEAN AUTOEXPLICATIVAS

4. REDUCIR AL MÍNIMO LAS PREGUNTAS QUE EXIJAN REMEMORACIÓN A LARGO


PLAZO

5. EVITAR LAS PREGUNTAS ABIERTAS SALVO SITUACIONES EXCPCIONALES

6. EMPLEAR LA TÉCNICA DE RETROTRADUCCIÓN SIEMPRE QUE LA ENCUESTA


ORIGINAL HAYA SIDO REDACTADA EN OTRO IDIOMA

7. TENER EN CUENTA QUE EL INTERROGADO SUELE NO ADOPTAR UNA POSICIÓN


CRÍTICA ANTE LA REDACCIÓN O LA FORMA DE LA PREGUNTA

8. REPARAR EN QUE EL INTERROGADO TIENDE A PREOCUPARSE MÁS POR LA


IMAGEN QUE DA QUE POR LA EXACTITUD DE LA INFORMACIÓN QUE COMUNICA

9. VALORAR LA CONVENIENCIA DE USAR UNA PREGUNTA “DE FILTRO” ANTES QUE


INDAGAR DIRECTAMENTE SOBRE DETERMINADA CONDUCTA U OPINIÓN

10. TENER EN CUENTA QUE UNA PREGUNTA QUE PROCURE OBTENER UNA OPINIÓN,
SI SE PROYECTA SOBRE OTRA PERSONA, PUEDE CONSEGUIR MÁS VERACIDAD
QUE CUANDO SE RECLAMA DE MANERA DIRECTA

Página -10-
L.C.Silva
A continuación se discuten e ilustran una por una estas recomendaciones. Debe señalarse que
la totalidad de los ejemplos que se citan proceden de estudios reales. Algunos de ellos son
trabajos de tesis de terminación de maestría o de especialidad desarrollados por alumnos de la
Facultad de Salud Pública de La Habana. En estos casos no se trata, por tanto, de estudios
realizados por profesionales del muestreo o especialistas en confección de encuestas; creemos
que, justamente, eso le confiere más interés, pues muchos de estos ejemplos recogen el tipo
de errores en que pudieran incurrir los destinatarios naturales del presente libro.

1.- COMPROBAR QUE LAS PREGUNTAS QUE SE REALIZAN SE DERIVEN


EXCLUSIVAMENTE DE LAS QUE SE HAYA FORMULADO EL INVESTIGADOR

Deben evitarse todos los aspectos para los que no se haya previsto un tratamiento derivado de las
preguntas de investigación previamente formuladas. Se trata de conjurar uno de los errores más
frecuentes: el de confeccionar cuestionarios que recogen una gran cantidad de información
relacionada con lo que se está investigando, pero cuya función real, en rigor, no se ha previsto.

Especialmente frecuentes (y perniciosas) son las “preguntas inerciales”, aquellas que se hacen
con el argumento de que son “importantes”. Argüir que se incluye cierta pregunta en un
cuestionario "porque es importante", es esencialmente lo mismo que decir que se incluye
porque se incluye. Si el investigador cree firmemente que cierta pregunta ha de integrar el
cuestionario pese a que no se derive de objetivo alguno, entonces será necesario revisar los
objetivos; pero es crucial que haya consistencia entre los propósitos del estudio y el contenido
del cuestionario.

2.- CONFORMAR CUESTIONARIOS TAN BREVES COMO SEA POSIBLE

Cualquiera que haya diseñado un cuestionario sabe o debería saber que los temas que en él
deben incluirse han de ser sólo aquellos determinados por los problemas que se quieren resolver,
como se señala en la recomendación anterior. Sin embargo, aun bajo esta premisa hay un grado
ineludible de relatividad y, por ende, un margen objetivo para adoptar decisiones personales:
siempre es posible incluir menos o más preguntas; por eso mismo no huelga insistir en que a
veces los cuestionarios abarcan un crecido número de preguntas de las cuales solo una
pequeña porción será efectivamente utilizada, en tanto que el resto será desechado una vez
que se llegue a la fase de análisis de las respuestas. Es crucial hacer un esfuerzo para evitar
tal despilfarro de recursos materiales, tiempo y energía. Por otra parte, los cuestionarios muy
largos producen fatiga y desestímulo en el sujeto interrogado, y siempre será preferible
sacrificar, llegado el caso, parte de los objetivos en aras de preservar la calidad del dato
primario.

3. CONSEGUIR QUE LAS PREGUNTAS SEAN AUTOEXPLICATIVAS

Página -11-
L.C.Silva
De ser posible, deben evitarse aquellas preguntas cuyas respuestas demanden de
"instructivos" para los encuestadores (con más razón, para los propios entrevistados, en caso
de que se planifique usar un cuestionario autoadministrado). La experiencia generalizada dice
que el personal designado para la tarea de recoger los datos no consulta instructivo alguno sino
que, en el mejor de los casos, se conduce según la comprensión que haya alcanzado durante
la etapa preparatoria sobre la naturaleza de las preguntas. Por ejemplo, es mejor solicitar a
una mujer que: "Señale el número de veces que ha quedado embarazada, se haya o no
producido el parto” antes que preguntar por el número de embarazos aclarando al enumerador
en un documento independiente que ese número incluye tanto los partos como los abortos.

En línea con esta recomendación, se halla el hecho claramente demostrado (Mangione,


Fowler y Louis, 1992) de que aquellas interrogantes que más esclarecimiento necesiten de los
entrevistadores, peores resultados producen.

4. REDUCIR AL MÍNIMO LAS PREGUNTAS QUE EXIJAN REMEMORACIÓN A LARGO


PLAZO

El interés del investigador casi nunca es equivalente al de los sujetos interrogados; es por ello
que facilitar la cooperación de estos últimos se torna medular. Debe intentarse que las
respuestas emerjan rápidamente de la memoria, sin la menor dificultad; para ello es altamente
recomendable evitar las preguntas que exijan rememoración a largo plazo.

Cuando se reclama información sobre acontecimientos muy lejanos, el sesgo se incrementa,


pues el interrogado puede no recordar lo que se le pide y responder, si llega a hacerlo, de
modo tentativo y ajeno a todo rigor.

Según Lehnen y Skogan (1981), en la Encuesta Nacional de Salud de Estados Unidos,


cuando se pregunta el número de días de trabajo perdidos por razones de salud, el reclamo de
ciñe a las últimas dos semanas precisamente por el temor al incremento de imprecisiones que
cabe esperar si se elige un lapso mayor.

Sin embargo, es preciso tener en cuenta que, independientemente del lapso transcurrido, los
errores son más frecuentes cuando se indaga sobre sucesos comunes o de poca importancia; por
ejemplo, es más fácil recordar detalles sobre una enfermedad aguda padecida años atrás, que el
número de veces que se ha sufrido dolor de cabeza en el último bimestre. También se ha
demostrado que, cuanto más próximo haya sido un acontecimiento con la manera de pensar o los
deseos del interrogado, con más facilidad dicho acontecimiento será recordado por él
(Eisenhower, Mathiowetz y Morganstein, 1991)

5. EVITAR LAS PREGUNTAS ABIERTAS SALVO SITUACIONES EXCEPCIONALES

Página -12-
L.C.Silva
Sobre todo cuando el método empleado se inscribe en el ambiente de las técnicas cualitativas
(véase Sección 1.2.2), las preguntas abiertas pueden ser enteramente apropiadas. Si se indaga
acerca de cuál es la comida favorita, es imposible anticipar todas las respuestas posibles. A
veces, lo que se quiere es justamente una descripción personal que obliga a “dar la palabra” al
encuestado. Tal sería el caso, por ejemplo, de un estudio sobre el grado de esfuerzo que ha de
hacer el sujeto en su trabajo; en tal caso, lo más oportuno sería pedir: “Describa a grandes rasgos
el trabajo que realiza”, o de uno que intente desbrozar los trillos por los cuales se desarrolla la
epidemia de SIDA, en el cual podría ser útil preguntar a los sujetos seropositivos: “¿Cómo cree
Ud. que se infestó con el VIH?”. En tales circunstancias, la respuesta del sujeto no puede
encasillarse de ninguna manera a priori pues, justamente, lo que se desea es obtener testimonios
complejos que más tarde serán procesados de manera especial.

En el contexto de las encuestas clásicas, sin embargo, este tipo de preguntas pueden generar
problemas diversos. Schuman y Presser (1981) han demostrado que las preguntas son más
fiables y tienen más validez cuando al interrogado se le ofrece un conjunto de respuestas
concretas por las cuales optar que cuando se le pide que se exprese libremente.

Una misma pregunta abierta puede ser respondida con expresiones muy diferentes,
circunstancia que suele entorpecer muy considerablemente el procesamiento ya que, en tal
caso, si se quieren construir tablas formales, las diferentes respuestas deben ser examinadas
una a una para conformar las categorías primero, e ir clasificando a posteriori a los sujetos.
Además de ser un proceso arduo y tedioso, el margen para la subjetividad por parte de quien
haga la clasificación es muy acusado. La pregunta abierta, por otra parte, exige más tiempo y
consume mayor energía, tanto por parte del entrevistado como del entrevistador.

Ahora bien, las preguntas cerradas tienen que estar “bien cerradas”. No siempre el
investigador consigue ser eficiente en ese sentido y puede por esa vía generar conflictos de
considerable magnitud y difícil solución.

Una idea de cuán conflictivo o difícil resulta redactar atinadamente una pregunta de este tipo
puede alcanzarse reparando en la siguiente y curiosa circunstancia. De un libro, ciertamente
interesante en muchos puntos, en que se aborda de manera exhaustiva y cuidadosa el
tema(Linniger y Warwick, 1978), reproduzco textualmente el siguiente ejemplo de una
pregunta cerrada, presuntamente bien formulada:

Página -13-
L.C.Silva
De los siguientes tipos de enfermedades, ¿cuáles se han presentado en su familia?

__ Ningún problema serio

__ Uno o más de los miembros de la familia es inválido y requiere muchos cuidados

__ Uno o más de los miembros de la familia está lisiado o es defectuoso, pero no


requiere mucha atención

__ Cuentas de hospital y honorarios médicos muy altos

Al menos dos aspectos pueden objetarse frente a tal "paradigma". En primer lugar, las
respuestas posibles no son excluyentes. Si bien esto puede considerarse formalmente legítimo,
pues se pregunta cuáles tipos de enfermedades se han presentado (y no cuál), lo cierto es que
alguien pudiera marcar las opciones primera y tercera (hay algún lisiado, pero a juicio del
entrevistado ese enfermo no requiere mucha atención, de modo que a su juicio no hay ningún
problema serio). Sin embargo, daría la impresión de que los autores de la encuesta aspiran a
que se opte por la primera alternativa sólo cuando no proceda marcar ninguna de las otras. En
segundo lugar, algo más importante: como revela una lectura cuidadosa, no todas las
alternativas que se brindan son "tipos de enfermedades", como se anuncia en el
encabezamiento.

Uno de los métodos que se ha sugerido para “cerrar” la pregunta con alternativas apropiadas
ha sido aplicar una prueba previa con preguntas abiertas similares y utilizar las respuestas que
se presenten con más frecuencia como opciones de respuesta para conformar definitivamente
la pregunta cerrada (Scheaffer, Mendenhall y Lyman, 1996).

Una cuestión debatible es si conviene o no “cerrar” las preguntas cuantitativas. Mi opinión es


que no debe hacerse, ya que al crear categorías para datos cuantitativos como la edad, se
pierde innecesariamente información. Hay, sin embargo, situaciones más bien excepcionales
en que, quizás con el sano propósito de no obtener respuestas vagas, se exige un nivel de
precisión exagerado que termina por producir un error mucho mayor. Consideremos, por
ejemplo, la siguiente formulación:

¿Cuántos cigarrillos fuma como promedio diariamente? |__|__|

Se fuerza al sujeto a dar un dato preciso, esté o no en condiciones de hacerlo, con lo cual
puede contribuirse, paradójicamente, a la invalidez de los resultados. Una opción capaz de
extraer datos más próximos a la verdad sería plantear la pregunta con alternativas de
respuesta menos precisas pero más confiables:

Página -14-
L.C.Silva

¿Cuántos cigarrillos fuma como promedio diariamente?

___ ninguno
___ de 1 a 20
___ de 21 a 40
___ más de 40

6. EMPLEAR LA TÉCNICA DE RETROTRADUCCIÓN SIEMPRE QUE LA ENCUESTA


ORIGINAL HAYA SIDO REDACTADA EN OTRO IDIOMA

Si el material de partida fuera un cuestionario creado en otro idioma, entonces es imprescindible


corroborar la calidad de la traducción. Un recurso natural es aplicar lo que ha dado en llamarse
"retrotraducción"; esto es, traducir nuevamente al idioma original el texto que se obtuvo como
resultado de la primera traducción. La expectativa es que la versión original no difiera apreciable-
mente del resultado de la retrotraducción; en tal caso podrá confiarse en que el documento con el
que se trabajará ha respetado el espíritu del original y, sobre todo, que ha reproducido
adecuadamente su contenido.

Debe enfatizarse no obstante que, aunque la retrotraducción es un recurso bastante útil para
contribuir a la fidelidad de la traducción de las palabras, no garantiza la equivalencia del
significado. En Anderson (1967) y Deutscher (1973) pueden hallarse detalles acerca de diversas
técnicas para lograr equivalencia en la traducción. Cabe subrayar que, una vez hecha la
traducción y habiéndose confirmado su eficiencia, estamos en el mismo punto que cuando se
adopta un cuestionario elaborado por otros pero redactado originalmente en nuestro propio
idioma y que no es, por tanto, menester traducir: no hay forma alguna de constatar
empíricamente que el cuestionario "funciona" en un sitio del mismo modo que lo hace en
otro(véanse más detalles en Silva, 1997).

7. TENER EN CUENTA QUE EL INTERROGADO SUELE NO ADOPTAR UNA POSICIÓN


CRÍTICA ANTE LA REDACCIÓN O LA FORMA DE LA PREGUNTA

Ciertamente, esta es una indicación tan sutil como esencial. Para explicarla acudiré a una
experiencia llevada adelante con 189 estudiantes de primer año de la carrera de medicina de
La Habana (véanse detalles en Silva y Macías, 2000). A los efectos de los que nos ocupa, se
formuló a todos los alumnos de esa muestra la siguiente pregunta mediante encuesta anónima:

En su opinión ¿es la informática una tecnología completamente inteligente respecto del futuro?

Si ___ No___

Página -15-
L.C.Silva

Leyendo la pregunta tal y como se formula, el encuestado debería negarse a responderla: la


redacción empleada es un galimatías sin sentido; debe desconcertarlo hasta el punto de no
permitirle responder ni afirmativa ni negativamente, ya que la categoría "tecnología completamente
inteligente" no significa nada, y la aclaración "respecto del futuro" no hace más que empeorar las
cosas.

A pesar de las insalvables dudas que se deberían presentar ante tal pregunta, solo 9 de los
estudiantes (el 5%) se negó a responder o reaccionó mediante algún tipo de señalamiento crítico;
el resto respondió como si la formulación tuviera sentido: 171 (90%) respondió que SI y el 5%
restante dijo NO estar de acuerdo con la afirmación. Estos porcentajes confirman claramente que
los encuestados suelen encarar las encuestas de manera acrítica: cuando leen una pregunta, se
hacen su propia composición de lugar (que puede diferir marcadamente entre unos y otros), sin
esforzarse por desentrañar la intención del investigador. Consecuentemente, es a éste a quien
corresponde poner todo el empeño para conseguir que su pregunta sea uniforme y
adecuadamente interpretada.

8. REPARAR EN QUE EL INTERROGADO TIENDE A PREOCUPARSE MÁS POR LA


IMAGEN QUE DA QUE POR LA EXACTITUD DE LA INFORMACIÓN QUE COMUNICA

Se ha demostrado que el temor a dar una imagen negativa, desagradable o que a juicio del
sujeto pudiera ser socialmente inconveniente, genera una tendencia a que éste dé respuestas
más acordes al afán por producir buena impresión que al de informar la verdad.

La técnica de respuesta aleatorizada que se discute en la Sección 9.2 fue creada justamente
para superar los sesgos que tal tendencia genera. Una expresión particular de este fenómeno
se produce en relación con la posible imagen de desinformación o ignorancia, que suele
conducir a que el entrevistado actúe como si dominara algo que realmente ignora. Por ejemplo,
en ocasiones, cuando a los encuestados se les ha pedido opinión sobre materias oscuras o
ficticias, se ha puesto al descubierto que un número apreciable ha sido capaz de emitir
opiniones aun cuando no tenían ningún conocimiento a priori sobre el tema.

Por ejemplo, Bishop, Oldenick y Tuchfarber(1986) en sus encuestas experimentales pidieron


criterios sobre fenómenos que no existían y obtuvieron que nada menos que un tercio de los
interrogados respondieron como si tuviera sentido dar tales opiniones. En relación con esta
recomendación, en el estudio de Silva y Macías(2000) antes mencionado, se preguntó a los
189 alumnos de medicina lo siguiente:

¿Comparte usted los argumentos existentes para fundamentar que se otorgue el premio Nobel
al creador de la vacuna antimeningocóccica?

Si___ No____ No conozco del tema ___

Página -16-
L.C.Silva

Para contestarla afirmativa o negativamente es necesario conocer algo imposible de conocer, ya


que no existe tal propuesta de premio Nobel (ni, por tanto, argumento alguno con el cual
concordar o no). Aunque lo lógico sería que todos optaran por la tercera posibilidad, se obtuvo un
porcentaje muy apreciable acumulado por las dos primeras, como se aprecia en la siguiente tabla:

Reacción de los encuestados Nº %


Comparten los argumentos 68 36,0
No comparten los argumentos 15 7,9
Reconocen desconocimiento 106 56,1
Total 189 100,0

Es notable que uno de cada tres haya dicho compartir criterios inexistentes y que uno de cada
ocho haya renegado de dichos criterios, con lo cual se acumula nada menos que un 44% de
respuestas “deshonestas”. Esto convalida la idea de que el temor a dar una imagen de
desinformación suele conducir a que el entrevistado actúe como si conociera algo que realmente
ignora, o a que comunique en calidad de ponderada convicción un punto de vista que acaba de
improvisar.

Para solucionar este problema, en algunas situaciones, sería mejor incluir varias opciones de
respuesta sobre lo que se desea conocer y ofrecer al interrogado la posibilidad de elegir la que
considere correcta según su conocimiento. En lugar de preguntar:

¿Considera que la penicilina cura el catarro?

Si___ No___ No sé___

podría ser mejor que, aunque sólo interese el conocimiento acerca del efecto de la penicilina
sobre el catarro, se emplee esta otra formulación:

La penicilina es un procedimiento adecuado para curar:

las neumonías Si__ No__ No sé___


las enfermedades de la piel Si__ No__ No sé___
el catarro Si__ No__ No sé___
algunas enfermedades oculares Si__ No__ No sé___

Página -17-
L.C.Silva
Cuando se trata de respuestas que pudieran resultar vergonzosas por el contenido, se ha
sugerido (Sudman y Bradburn, 1982) contextualizar las preguntas para “suavizar” la situación.
Por ejemplo, en lugar de preguntar directamente:

Su consumo de bebidas alcohólicas por lo general es:

nulo__ escaso__ moderado__ alto__ muy alto__

Podría ser mejor realizar la siguiente secuencia de preguntas:

a) En general, Ud. diría que Ud. ingiere bebidas alcohólicas:

menos que sus amigos__


aproximadamente igual que ellos__
más que sus amigos__

b) Piense en aquel de sus amigos que más alcohol consume. ¿Cuántos tragos Ud. cree que él
consume a diario como promedio?:
__ __

c) ¿Y cuánto consume Ud. aquellos días en que lo hace? ¿Aproximadamente cuántos


tragos?
__ __

Habiéndose hecho primero las preguntas contextuales a) y b), se ha probado (Fowler, 1993)
que el monto testimoniado en c) es significativamente superior. Otra variante es insertar la
“pregunta conflictiva” en el contexto de otras que no lo son. Por ejemplo, preguntar:

Algunos estudios han señalado que ciertas conductas son protectoras del infarto. Ha hecho en
los últimos siete días alguna de las siguientes actividades:

1. Realizar ejercicios durante


no menos de 20 minutos si___ no___

2. Tomar al menos una aspirina si___ no___

Página -18-
L.C.Silva

3. Consumir vino, cerveza, ron


u otra bebida alcohólica si___ no___

4. Comer frutas si___ no___

Relacionado con estas tendencias se halla el impulso de muchos, especialmente si el nivel


cultural es bajo (Converse y Presser, 1986) a “estar de acuerdo” con lo que se les propone.

Finalmente, puesto que se ha demostrado (véase Aquilino y Losciuto, 1990 y Fowler, 1993)
que el fenómeno que nos ocupa es menos acusado cuando los cuestionarios son
autoadministrados que cuando la encuesta la realiza un entrevistador, en este último caso debe
ponerse especial cautela.

9. VALORAR LA CONVENIENCIA DE USAR UNA PREGUNTA “DE FILTRO” ANTES QUE


INDAGAR DIRECTAMENTE SOBRE DETERMINADA CONDUCTA U OPINIÓN

El uso de la pregunta “de filtro” es en ocasiones muy aconsejable, pues con ella se puede
conseguir mejor organización de la encuesta, ahorrar tiempo y que el interrogado entienda
mejor y más fácilmente lo que se quiere de él. En un estudio en que se interrogaba a
funcionarios del sistema educativo(Fonseca, 1987), se preguntaba:

¿Reciben los niños de este centro atención estomatológica sistemáticamente?

____ preventiva
____ curativa
____ ambas
____ no la reciben

Tal y como está redactada, muchos podrían marcar en cualquiera de las primeras tres opciones
y dar por sentado que la atención estomatológica ofrecida a los niños es “sistemática” aunque
no fuera ese el caso; si optara por la cuarta posibilidad, no se podrá saber si opina que no se
ofrece atención alguna o que la que se brinda no es sistemática. Los resultados podrían ser
más precisos si se preguntara de la siguiente manera:

¿Los niños de este centro reciben atención estomatológica sistemática?


Si___ No___(pasar a la próxima pregunta)

¿Qué tipo de atención reciben?

preventiva Si___ No___

Página -19-
L.C.Silva

curativa Si___ No___

Knauper (1997) sugiere considerar críticamente la siguiente formulación:

En los últimos 10 años, ¿cuántas veces ha sido usted víctima de alguna conducta criminal? __
__

Ser víctima de una conducta criminal no es una situación frecuente y, hecha la pregunta de
este modo, algunos podrían considerar como “conducta criminal” cualquier situación
desagradable relacionada con el delito. Según este autor, el asunto sería encarado con mayor
rigor si se replanteara de la siguiente forma:

En los últimos 10 años, ¿ha sido usted víctima de alguna conducta criminal?

No ___ (pasa a la siguiente)


Si ___

Si respondió que Si, ¿cuántas veces? __ __

Sin embargo, esto no es más que un paliativo; lo ideal sería dejar claro en la propia formulación
qué ha de entenderse por “conducta criminal” (véase la recomendación número 3).

En el estudio de Silva y Macías (2000) con 189 estudiantes universitarios se hizo un


experimento consistente en dividir el grupo aleatoriamente en dos partes (A y B) y formularles,
respectivamente, las preguntas siguientes:

Grupo A: Para el estudio independiente, ¿utiliza usted la biblioteca?

Página -20-
L.C.Silva
Si ____ No____(pasar a la siguiente)

¿Cuántas veces hace uso de ella a lo largo de un mes?

___una ___dos a tres ___cuatro a cinco ___más de cinco

Grupo B: Para el estudio independiente, ¿cuántas veces hace uso de la biblioteca a lo largo de
un mes?

__ nunca
__ una
__ dos o tres
__ cuatro o cinco
__ más de cinco

Si la pregunta de filtro tuviera un efecto, entonces cabría esperar resultados diferentes en cuanto
a lo que dicha pregunta trata de delimitar. Los resultados fueron elocuentes:

Página -21-
L.C.Silva

Número de veces que Grupo A Grupo B


usa la biblioteca No % No %
Nunca 51 54,3 15 15,8
Una 5 5,3 13 13,7
Dos o tres 13 13,8 34 35,8
Cuatro o cinco 10 10,6 19 20,0
Más de cinco 15 16,0 14 14,7

La diferencia entre 54,3% y 15,8% es impresionante: revela que la pregunta de filtro contribuyó
en grado notable a que los encuestados reconocieran que no usaban la biblioteca para el
estudio individual.

10. TENER EN CUENTA QUE UNA PREGUNTA QUE PROCURE OBTENER UNA
OPINIÓN, SI SE PROYECTA SOBRE OTRA PERSONA, PUEDE CONSEGUIR MÁS
VERACIDAD QUE CUANDO SE RECLAMA DE MANERA DIRECTA

Para valorar el efecto de esta estrategia, el estudio de Silva y Macías (2000) operó
nuevamente con los dos grupos de estudiantes aleatoriamente conformados. Las preguntas
empleadas fueron:

Grupo A: Un compañero suyo se ve involucrado en un fraude académico. ¿Cuál es su opinión


acerca de la medida que debe tomarse? Estaría a favor de:

___ sancionarlo pero permitirle que continúe la carrera


___ expulsarlo de la carrera
___ hacerle sólo una advertencia

Grupo B: Si usted se ve involucrado en un fraude académico, la medida adecuada que


procede aplicarle en su opinión sería:

___ sancionarlo pero permitirle que continúe la carrera


___ expulsarlo de la carrera
___ hacerle sólo una advertencia

Los resultados se resumen a continuación:

Página -22-
L.C.Silva
Grupo A Grupo B
No. % No. %

Opciones
Sancionarlo pero permitirle que continúe la 65 69,1 58 62,4
carrera
Expulsarlo de la carrera 14 14,9 9 9,7
Hacerle sólo una advertencia 15 16,0 26 27,9
Total 94 100,0 93 100,0

Los porcentajes correspondientes a la opción más “benévola” fueron, según se tratara del
propio interrogado o de otra persona respectivamente, 27,9 frente a 16,0. Es decir, la opción de
“perdonar” al alumno se elige casi dos veces más para sí mismo que para otro.

La recomendación que nos ocupa no debe confundirse con la posibilidad que en ocasiones se
aplica de permitir que quien responda no sea el sujeto elegido sino un familiar u otro allegado
(los llamados proxy respondents en la literatura anglófona) ya sea porque el sujeto no se
encuentra o por estar incapacitado. La experiencia demuestra, sin embargo que, típicamente,
estos sustitutos no consiguen suplir adecuadamente a los verdaderos destinatarios de las
preguntas (véanse, por ejemplo, Clarridge y Massagli, 1989 o Rodger y Herzog, 1989)

2.3.2 Pautas específicas para la redacción de interrogantes

Uno de los libros más consultados recientemente en materia de redacción de preguntas, debido
a Fowler (1995), establece que una “buena pregunta” es aquella capaz de obtener el tipo
específico de respuesta que se necesita conocer, conseguir que los interrogados comprendan
el significado de la pregunta (especialmente, que todos entiendan lo mismo), que sea
susceptible de ser contestada por todos ellos, así como que promueva que la respuesta
recogida sea fidedigna y acorde con lo que se quiere.

Sin embargo, éstas no son más que indicaciones generales, que no constituyen una guía
detallada que solucione realmente los problemas que suelen aparecer durante la confección de
las preguntas y ayude a su elaboración.

Aunque algunos autores, como el propio Fowler, se han enfrascado en darle solución a este
problema, se trata de una materia en permanente crecimiento, de modo que considero de
interés ofrecer una guía actualizada que procura indicar e ilustrar exhaustivamente los errores
que con más reiteración se presentan como resultado de no transitar por un camino
teóricamente riguroso en el llamado "arte de preguntar". Las 12 pautas que se enumeran a
continuación intentan poner de relieve los errores más frecuentes y servir de alerta para
encarar adecuadamente la confección del cuestionario dentro del proceso investigativo.

Página -23-
L.C.Silva

1. Eliminar toda ambigüedad en la formulación


2. Evitar las preguntas negativas
3. Garantizar que la indagación tenga sentido para todos los interrogados
4. Utilizar un lenguaje sencillo y asequible
5. Usar una sintaxis correcta y coherente
6. Ubicar las frases condicionales o definiciones al inicio de la formulación
7. Evitar el uso de preguntas de respuesta múltiple
8. Contemplar todas las situaciones posibles e impedir que el interrogado pueda
ubicarse en más de una categoría de respuesta
9. Procurar no inducir las respuestas salvo que sea una decisión deliberada
10. Las preguntas deben ser específicas
11. Las preguntas deben ser sensibles
12. Evitar la inclusión de dos o más preguntas en una misma formulación

A continuación se explican e ilustran, en casi todos los casos con ejemplos reales, cada una de
las 12 pautas enunciadas.

1.- Eliminar toda ambigüedad en la formulación

No es nada infrecuente que la redacción contenga elementos de ambigüedad que restan


confiabilidad a los resultados. Entre los problemas más frecuentes se halla la presencia de
términos indefinidos, un aspecto de suprema importancia. Donde menos nos imaginamos –si
no estamos especialmente atentos al problema surgen dudas y ambigüedades exclusivamente
atribuibles a la ausencia de claridad sobre el significado de los términos empleados.

Para asegurarse de que un término dado será consistentemente entendido, puede ser útil
incluir la definición que se requiere dentro de la propia formulación de la pregunta.
Ocasionalmente, usando varias preguntas que cubran todos los aspectos susceptibles de ser
registrados, se suple el uso de definiciones y se ayuda a que el encuestado emita una ajustada
respuesta final.

Hay que asegurarse de que todos los términos relevantes que se hayan empleado estén bien
definidos. Quizás la principal fuente de deficiencias de los cuestionarios provenga de esta
insuficiencia, la cual podría ser obvia, aunque casi siempre es más bien sutil. Imaginemos la
pregunta siguiente:

¿Ha realizado ejercicios físicos en algún momento de la semana pasada?


Si ___ No ___

¿Qué es hacer “ejercicios físicos”? Por ejemplo, ¿incluyen el acto de caminar? ¿Durante
cuánto tiempo ha de extenderse para considerar que los ha hecho? ¿Y qué es “la semana
pasada”? ¿Los últimos siete días, o los siete días previos al último lunes? Quizás debería
reformularse así:

Página -24-
L.C.Silva

¿Ha realizado gimnasia, caminatas u otra forma de ejercitación física por más de 20 minutos en
algún momento de los últimos siete días?
Si ___ No ___

2. Evitar las preguntas negativas

La inclusión de negaciones dentro de la pregunta casi siempre asegura que se introduzca un


elemento de incertidumbre. Consideremos la siguiente interrogante:

Algunos médicos defensores de la lactancia materna opinan que no debe permitirse la


publicidad de la leche maternizada. ¿Está Ud. de acuerdo?

Si ___ No ___ No tengo opinión ___

Si piensa que, en efecto, no debe permitirse la publicidad de la leche artificial, no sabrá si


marcar que SI (sí comparte la afirmación) o que NO (no debe permitirse la publicidad). Una
formulación correcta puede ser:

Algunos médicos defensores de la lactancia materna opinan que debe prohibirse la publicidad
de la leche maternizada. ¿Está Ud. de acuerdo con ellos?
Si ___ No ___ No tengo opinión ___

3.- Garantizar que la indagación tenga sentido para todos los interrogados

¿Es la pregunta aplicable a todos los encuestados? A veces se consigue desconcertar al


entrevistado preguntándole algo como "¿Qué edad tiene su esposa?" siendo él soltero; pero
ello se produce, sobre todo, cuando la formulación es tal que él no se reconoce en ninguna de
las alternativas que se le ofrecen.

Un ejemplo típico se da cuando no se maneja la posibilidad de que el sujeto comunique que no


tiene opinión sobre el asunto tratado, ya que, si efectivamente no la tuviera, no sabría qué
hacer; si deja en blanco todas las casillas, entonces no se podrá saber si se trata de que no
tiene opinión formada, de que la pregunta no le fue formulada, o de que su respuesta no fue
registrada, que son tres cosas bien diferentes12.

12
Por cierto, en algunos ámbitos se ha generalizado la curiosa costumbre de
adicionar la categoría NS/NC (es decir, "no sabe, no contesta"). Esto es absurdo,
porque no es lo mismo "no saber" que abstenerse de contestar. En principio, esta
última posibilidad no debe ofrecerse como opción.

Página -25-
L.C.Silva

En un estudio (González, 1991) se preguntaba:

Años de convivencia con cónyuge fumador _____

Aquí podrían presentarse dos problemas: primero que el entrevistado no tenga cónyuge, y
segundo que éste no sea fumador. Mejor sería esta variante:

En su relación de pareja, se encuentra usted:

__ Sola (Termina aquí)

__ Acompañada

¿es su compañero fumador? Si_ No_(Termina aquí)

¿Cuántos años de convivencia llevan? _____

4.- Utilizar un lenguaje sencillo y asequible

Un requerimiento básico para obtener información objetiva y exacta es asegurarse de que


todos los interrogados entiendan por igual lo que se indaga. Los investigadores deben estar
razonablemente seguros de que las palabras o términos utilizados tengan el mismo significado
para todos los que enfrentan la pregunta. Por tanto, lo más recomendable será usar un
lenguaje sencillo, eliminando todo tipo de locuciones extranjeras y asegurándose de que las
palabras sean directas y familiares; debe evitarse el uso de abreviaturas, siglas, argot, etc.
Asimismo, como bien subrayan Rebagliato, Ruiz y Arranz (1996), las frases deben utilizar una
estructura gramatical tan sencilla como sea posible.

Consideremos, el siguiente ejemplo:

Marque con una cruz en la casilla que corresponda a la religión que Ud. practica:

Católica ___
Protestante ___
Islámica ___
Otra ___
Ninguna ___

Página -26-
L.C.Silva

Sería mejor reducir la pregunta del modo siguiente:

Religión que practica:

Católica ___
Protestante ___
Islámica ___
Otra ___
Ninguna ___

Página -27-
L.C.Silva

En definitiva, el encuestador aplicará la segunda alternativa aunque estuviese redactada de la


primera forma, y en general buscará por sí mismo una formulación simple en caso de que el
texto "oficial" sea más frondoso de lo necesario.

Es obvio que resultaría improcedente preguntar:

¿Ha consumido Ud. antagonistas del calcio en el último trimestre?

Si___ No___

Aquellos interrogados que no posean conocimientos farmacológicos tendrían gran dificultad


para responder; muchos de ellos por temor a demostrar ignorancia o por no conocer a qué se
refiere el investigador, podrían responder Si o No, cuando en rigor ni siquiera saben lo que se
les pregunta.

Sin embargo, como han señalado Clark y Schober (1992), la comprensión del lenguaje muchas
veces no concierne a las palabras elegidas, sino al significado que tienen para quien las
formula. Por ejemplo, las palabras empleadas en la siguiente pregunta no ofrecen dudas por sí
mismas:

¿Cómo se ha sentido en la última semana?

Bien ____ Regular ____ Mal ____

Pero ¿qué debe responder el entrevistado?, ¿se indaga acerca de su estado de ánimo?,
¿sobre su bienestar físico?, ¿sobre el grado en que ha considerado exitoso su desempeño
laboral o social a lo largo de la semana? Desde luego, las respuestas a estas preguntas
podrían hallarse en las propias alternativas que se ofrezcan al interrogado, pero a veces tales
alternativas son en ese sentido neutras, como ocurre precisamente en el ejemplo.

5- Usar una sintaxis correcta y coherente

Resulta medular pulir la redacción empleada y ser cuidadoso con la sintaxis. Usar una sintaxis
sin errores facilita al interrogado la comprensión de la pregunta y que le dé la importancia que
merece. Una formulación como la que sigue es absolutamente típica:

Considera usted que la participación de la enfermera en el control de enfermos crónicos es:

Página -28-
L.C.Silva

__ importante
__ necesaria
__ pobre
__ poco útil
__ lleva el mayor peso del trabajo
__ no participa

Si se conecta la frase inicial con cualquiera de las dos últimas opciones de respuesta, la
oración pierde sentido. Decir, por ejemplo, "La participación de la enfermera en el control de
enfermos crónicos es no participa" es sintácticamente incoherente. Por otra parte, en la
redacción precedente se piden a la vez opiniones genéricas (1 y 2) y testimonios completos
(opciones 3, 4, 5 y 6). Para resolver la situación se podría desdoblar la interrogante según esos
dos tipos. Sin embargo, por excepción, no daré una solución para el ejemplo que nos ocupa:
“arreglar” esta formulación es demasiado complicado, pues además de los señalamientos ya
hechos, aparece la opción de que la participación sea “importante”, la cual es completamente
inespecífica (véase Pauta Nº11). Además hay riesgo de redundancia, pues si la participación
de la enfermera en el control es considerada necesaria, entonces ineludiblemente tendrá que
ser conceptuada como “importante”.

En ocasiones nos encontramos frente a una pregunta que puede no ser correctamente
respondida por falta de lógica o debido a su inconsistencia sintáctica. El sentido común debe
resolver esta situación. No obstante, vale la pena detenernos en el tema y poner algunos
ejemplos más, pues muchos de los cuestionarios contienen preguntas con errores de esta
índole.

En el cuestionario (dirigido a padres) de un estudio sobre retardo en el desarrollo psíquico


infantil (Avila, 1994), aparece la pregunta siguiente:

¿Asiste usted con frecuencia a las reuniones de padres?

Si ___ No ___ En ocasiones ___

La deficiencia aparece al dar la opción "en ocasiones"; el hecho de preguntar si asiste “con
frecuencia” es inconsistente con esta posibilidad. Para solucionar la situación, se podría
eliminar el término "con frecuencia", que de por sí es equívoco, y que en este caso nada
agrega. Una solución podría ser entonces la siguiente:

¿Asiste usted a las reuniones de padre?

Siempre ___ En ocasiones ___ Nunca ___

Página -29-
L.C.Silva

Página -30-
L.C.Silva
En otro estudio (Gutiérrez, 1987) se lee:

¿Ingiere bebidas alcohólicas?

Si__ No___

¿Con qué frecuencia?

__diariamente
__una vez a la semana
__2-3 veces por semana
__4-6 veces por semana
__esporádicamente
__no ingiere bebidas alcohólicas

La última opción es innecesaria, porque si previamente se indaga sobre la presencia o no del


hábito, basta con enviar a la próxima pregunta a quienes se manifiesten negativamente y
eliminar esa última opción para quienes dieron una respuesta inicial afirmativa.

6.- Ubicar las frases condicionales y definiciones al inicio de la formulación

Cuando la pregunta contiene una frase condicional o la definición de algún término empleado
para formularla, ubicar dicha frase o definición al inicio de la formulación contribuye a la
objetividad de la respuesta. La experiencia de Silva y Macías (2000) con los estudiantes de
medicina también abordó este tema. Las preguntas formuladas a los grupos A y B fueron:

Grupo A: Cuando un alumno ha tenido problema con el transporte y llega tarde a clases,
¿considera que debe ser justificado?

Si___ No___

Grupo B: En su opinión ¿debe justificarse la tardanza a clases de un alumno cuando se ha


producido por problemas con el transporte?

Si ___ No____

El contenido de las dos preguntas es en esencia el mismo; solo varía la localización de la frase
condicional, que se pone al inicio (caso A), o al final de la formulación (caso B). Si tal variación
tuviera algún efecto, los resultados serían diferentes. Lo que puede ocurrir (era lo que se quería
poner en evidencia), es que cuando la condición se encuentra al final, ya leída la pregunta, el
resto pierde interés para algunos encuestados y por tanto tal condición no es tenida en cuenta al
responder. De hecho, en este caso los resultados convalidaron esta presunción:

Página -31-
L.C.Silva

Respuestas Grupo A Grupo B


Nº % Nº %
Si 82 87,2 75 78,9
No 12 12,8 20 21,1

El mayor porcentaje de respuestas positivas correspondió, en efecto, al grupo al que se formuló


la pregunta que tenía la frase condicional colocada al inicio de la formulación, resultado
compatible con lo esperado.

En una encuesta a padres (Avila, 1994) se preguntaba:

¿Cree Ud. que los maestros de la escuela se encuentran suficientemente preparados para el
tratamiento de los contenidos de educación sexual?
Si __ No __

Sería mejor especificar primero a qué área de la preparación magisterial se alude preguntando:

Para el tratamiento de los contenidos de educación sexual, ¿se encuentran en su opinión


suficientemente preparados los maestros de la escuela?

Si __ No __ No tengo opinión __

7.- Evitar el uso de preguntas de respuesta múltiple.

Un tipo especial de pregunta cerrada es aquel en que se permite escoger más de una
alternativa (también llamada pregunta de respuesta múltiple). Imaginemos que en un estudio
sobre consumo de fármacos se formula la siguiente pregunta:

Página -32-
L.C.Silva

De los siguientes medicamentos, marque aquellos que ha consumido al menos una vez en
los últimos 30 días:

Aspirina ____
Atenolol ____
Librium ____
Ninguno ____

Nótese que, en verdad, se están haciendo tres preguntas diferentes. En rigor, la última
alternativa es innecesaria, ya que si se ofrecen sólo las tres primeras, quien estuviera en el
caso de no haber consumido ninguno de los tres fármacos podría comunicarlo mediante el
recurso de dejar en blanco las tres posibilidades. El inconveniente fundamental, como ya se
dijo, radica en que ese mismo resultado se obtendría en caso de que la pregunta, por olvido u
otra razón, no llegase a ser formulada.

Aunque la formulación que nos ocupa tiene cierto atractivo por su simplicidad, sería preferible
forzar a un pronunciamiento explícito planteándola del modo siguiente:

Señale si ha consumido los siguientes medicamentos al menos una vez en los últimos 30
días:

Aspirina SI____ NO____


Atenolol SI____ NO____
Librium SI____ NO____

Página -33-
L.C.Silva

Otro ejemplo de preguntas de respuesta múltiple, tomado textualmente de Ortiz (1996), es el


siguiente:

En su familia pueden haber ocurrido una serie de problemas de salud; por favor, refiéralos.
¿Cuáles ha presentado durante el último año?

__ miembros con invalidez y/o minusvalía


__ miembros con amenaza de muerte
__ trastornos psiquiátricos
__ algún familiar con padecimiento crónico
__ alcoholismo

Además de la falta de uniformidad en las opciones (algunas empiezan mencionando problemas


y otras con la palabra “miembros”), lo que ahora importa es que algunos interrogados dejarán
en blanco ciertas opciones de la pregunta, de modo que no se podrá saber si olvidaron
responder, si no estaban incluidos dentro de dicha categoría de respuesta, si no se registró la
situación, o si no tenían conocimiento al respecto. Más correcto sería redactarla de la siguiente
manera:

Durante el último año en su familia pueden haber ocurrido algunos problemas de salud. Acerca
de cada una de las siguientes posibilidades señale si alguno de sus miembros los ha padecido
durante el último año:

__ invalidez o minusvalía Si__ No__


__ amenaza de muerte Si__ No__
__ trastornos psiquiátricos Si__ No__
__ padecimiento crónico Si__ No__
__ alcoholismo Si__ No__

En resumen, puede afirmase que las preguntas de respuesta múltiple suelen ofrecer dudas al
sujeto encuestado y conducir a la comisión de errores a investigadores poco experimentados.
Por otra parte, si tales preguntas se conforman a través de varias preguntas simples, como se
ha sugerido, los análisis estadísticos posibles se simplifican y esclarecen de manera natural, a
la vez que las alternativas para llevarlo adelante se incrementan, ya que se pueden considerar
distribuciones tanto para cada categoría simple como para subconjuntos de categorías (por
ejemplo, en el caso de la primera ilustración, se podría computar el porcentaje de los
encuestados que no han consumido ni atenolol ni librium)

Página -34-
L.C.Silva
8.- Contemplar todas las situaciones posibles e impedir que el interrogado pueda
ubicarse en más de una categoría de respuesta

Para el cumplimiento de esta pauta es necesario haber identificado todas las alternativas
posibles. Las posibles respuestas han de ser excluyentes y exhaustivas.

En una encuesta relacionada con contaminantes ambientales, Navarro (1989) incluía la


siguiente pregunta, dirigida a trabajadores que padecían cierta enfermedad:

Durante el último año usted ha tenido necesidad de ausentarse por descompensación o


complicación de su enfermedad de base al:

__ trabajo
__ estudio
__ trabajo y estudio
__ no trabaja
__ no estudia

Quien se vea enfrentado a responder esta pregunta puede tener muchas dudas; por ejemplo, el
que marque en la opción "trabajo", podrá además marcar en "no estudia" si, en efecto, no
estudiara. La formulación correcta (y mucho más simple) sería:

Durante el último año, ¿ha tenido usted necesidad de ausentarse por descompensación o
complicación de su enfermedad de base al:

Trabajo? Si__ No__ No procede __

Estudio? Si__ No__ No procede __

El ejemplo que sigue, tomado de Moreira (1994), es típico:

Página -35-
L.C.Silva

¿Quién lo atiende actualmente?

__ familiar
__ vecino
__ amigo
__ vive solo
__ nadie

Puede darse el caso de que a algunos interrogados corresponda colocarse en más de una
opción, ya que son atendidos por más de una de las personas enumeradas (por ejemplo,
familiar y vecino), así como que otros se vean imposibilitados de marcar en cualquiera de ellas,
como le ocurriría a un sujeto atendido por una institución de seguro social. Se presenta otro
error con la penúltima categoría de respuesta, la cual introduce una formulación inconsistente
(véase Pauta Nº6) ya que si la persona vive sola o no, es un dato en principio irrelevante a los
efectos de quién sea la persona que atiende al sujeto encuestado. La formulación correcta
podría ser la siguiente:

¿Quién lo atiende actualmente?

familiar Si__ No__


vecino Si__ No__
amigo Si__ No__
otro Si__ No__

Naturalmente, en este caso quizás sería conveniente insertar una pregunta de filtro
(Recomendación Nº9 de la Sección 2.3.1) que indague si el sujeto es o no atendido por alguien.

9.- Procurar no inducir las respuestas salvo que sea una decisión deliberada

Una pregunta “persuasiva” o inductora impulsa al entrevistado a preferir determinada respuesta


(ya sea por el hecho de que aceptarla tiene cierta connotación favorable, o por sugerencia
directa) y muchas veces compromete su libre opinión.

A veces la inducción se produce de manera bastante sutil como consecuencia del empleo de
palabras cargadas de emotividad, planteamientos que apelan a estereotipos o formulaciones
que entrañan juicios de valor implícitos. Por ejemplo, algunas personas desocupadas podrían
encontrar embarazoso contestar "no" si se les pregunta "¿Usted trabaja"?, pero estarían más
proclives a hacerlo si la pregunta fuese: "¿Tiene usted trabajo actualmente"? Análogamente,
puede haber personas renuentes a admitir que algo debe ser “prohibido” pero que estarían de
acuerdo en “no permitir” esa misma cosa.

Avila(1994) preguntaba a los padres:

Página -36-
L.C.Silva

¿Qué castigos utiliza más frecuentemente contra su hijo?

___ Penitencia
___ Golpes
___ Gritos
___ Amarrarlo
___ Quitarle la ropa
___ Otros ¿cuáles? ___________________________

Virtualmente, tal pregunta está "obligando" a los encuestados a admitir que castigan a sus hijos,
ya que no se contempló siquiera la opción de que el padre no castigue a su hijo; a la vez, el uso
de la preposición “contra” puede condicionar al interrogado. Una pregunta de filtro puede ayudar
(véase Recomendación Nº9).

En determinados contextos, hacer una pregunta inductora puede, sin embargo, ser beneficioso
para la calidad de las estimaciones. Posteriormente al famoso trabajo de Kinsey, Pomeroy y
Martin (1953) sobre conducta sexual femenina, el autor principal del informe argumentaba que
si se le pregunta a la gente si acostumbra a realizar algunas prácticas sexuales "bochornosas",
lo negarían aunque fuera cierto, en tanto que si se les pregunta cuándo, dónde o con qué
frecuencia la hacen, es más probable que lo admitan. Silva y Macías (2000) encararon este
asunto formulando las preguntas siguientes a los dos grupos de estudiantes aleatoriamente
conformados:

Grupo A: Muchos psicólogos y estudiosos del tema consideran que para resolver problemas
de la vida cotidiana es casi inevitable, en ocasiones, decir mentiras ¿lo ha hecho usted durante
el último mes?
Si___ No____

Grupo B: Para resolver algún asunto de la vida cotidiana, ¿ha dicho usted alguna mentira
durante el último mes?
Si ___ No____

Como se ve, una de ellas (Grupo A) inducía la respuesta, ya que incluía un comentario previo
que tomaba partido hacia la respuesta afirmativa; en el otro cuestionario, la pregunta se hacía
neutra y directamente. Puesto que responder afirmativamente a una pregunta como esta no es
nada enaltecedor, el hecho de recibir anticipadamente un comentario que "justifica" la conducta
reprobable, ayudaría a conseguir cierta información difícil de obtener. Los resultados fueron:

Respuestas Grupo A Grupo B

Página -37-
L.C.Silva
Nº % Nº %
Mintió 65 69,1 45 47,4
No mintió 29 30,9 50 52,6

Se obtuvo un porcentaje mucho mayor de respuestas positivas en el caso de usar la pregunta


bajo una formula inductora (69%) que para el caso contrario (47%), lo cual parece validar
inequívocamente la idea de que las preguntas inductoras pueden servir de ayuda para obtener
ciertas informaciones difíciles de conseguir al preguntar directamente. De modo que, si bien
generalmente se advierte (atinadamente) del sesgo que pueden introducir las formulaciones
inductoras, tal advertencia no debe asimilarse mecánicamente.

En esta materia, uno de los investigadores más interesantes es el profesor alemán Norbert
Schwarz, de la Universidad de Michigan, a quien debemos una serie de sorprendentes
resultados. En sus trabajos ha puesto de relieve que normalmente se considera al cuestionario
como un método para obtener información del entrevistado sin reparar en que también es un
medio de dar información a éste.

Un hallazgo interesante en esta dirección fue puesto de relieve en Schwarz (1995); consiste
específicamente en mostrar cómo algunos encuestados se apoyan en el cuestionario para
elegir la respuesta (véanse también Schwarz y Hippler, 1991; Sudman, Bradburn y Schwarz,
1995; Schwarz, 1997). Se trata de que los encuestados asumen que las escalas que se le
proponen reflejan el conocimiento del investigador sobre la distribución del fenómeno y se
apoyan en ello para elegir la respuesta.

En relación con ello, Silva y Macías (2000) hicieron respectivas preguntas en el experimento
con sus dos grupos de estudiantes:

Grupo A: ¿Cuántas horas dedica aproximadamente al estudio individual cada día?

__menos de ½ __½ a 1 __1 a 2 __2 a 3 __3 y más

Grupo B: ¿Cuántas horas dedica aproximadamente al estudio individual cada día?

__menos de 3 __3 a 3½ __3 ½ a 4 __4 a 5 __5 y más

Página -38-
L.C.Silva
Como se aprecia, en realidad se elaboró una única pregunta, pero se usaron escalas diferentes,
de baja y alta frecuencia respectivamente, y de modo que los lapsos se interceptaran a la vez
que el “centro” fuera muy diferente en un caso y en el otro. Los resultados obtenidos fueron:

Horas diarias dedicadas al estudio individual


Grupo A (baja frecuencia) Grupo B (alta frecuencia)
Escala Nº % Escala Nº %
Menos de 1/2 3 3,2 Menos de 3 20 21,1
½
a1 13 13,8 3 a 3 1/2 22 23,2
1a2 30 31,9 3 1/2 a 4 29 30,5
2a3 25 26,6 4a5 12 12,6
3 y más 23 24,5 5 y más 12 12,6

Como se ve, el porcentaje de estudiantes que marcó alguna de las primeras 4 opciones en el
Grupo A es muy diferente del porcentaje de los que eligieron la primera opción en el Grupo B.
En efecto, el porcentaje de encuestados que marcaron el periodo menor de 3 horas para el
Grupo A (76%) fue muy superior al de los que hicieron lo propio para el Grupo B (21%). Muchos
sujetos se apoyan aparentemente en la propia escala que se les ofrece; asumen que si los
investigadores han elegido esta escala es por que saben que la mayoría de las personas están
en el centro y se distribuye “normalmente” hacia los extremos. Dicho de otro modo, muchos que
se autoconsideran “promediales” se ubican en el centro independientemente de cuál sea dicha
categoría central.

10.- Las preguntas deben ser sensibles

Una pregunta tiene sentido práctico si produce respuestas diferentes siempre que los sujetos
sean realmente diferentes. No deben formularse preguntas que, por su naturaleza, produzcan
una concentración desmedida de sujetos en una misma categoría de respuesta. Tales
preguntas son poco informativas. Consideremos un ejemplo tomado de Triana (1998).

Si le ofrecen un cambio de trabajo, ¿qué haría usted?

__ lo aceptaría
__ lo pensaría
__ lo aceptaría sin vacilación
__ lo aceptaría con reserva

Una gran mayoría debe marcar en la opción "lo pensaría", ya que muy pocos tendrán una
opinión incondicional (probablemente, nadie en sus cabales optaría por la primera alternativa
sin contar con más datos). Aunque los individuos tengan visiones muy diferentes acerca de su
actual trabajo, probablemente contesten del mismo modo. La pregunta así formulada no es
sensible a las variaciones que existen en el universo investigado. Algo mejor sería usar, por
ejemplo, variantes como la siguiente:

Página -39-
L.C.Silva

Si le ofrecen un cambio de trabajo donde mejore en un 30% su salario, ¿qué haría usted?

___lo aceptaría
___lo rechazaría
___depende de otros elementos

11.- Las preguntas deben ser específicas

La pregunta es específica si sólo produce respuestas diferentes para sujetos que a ese
respecto sean diferentes. Imaginemos que se quiere saber la edad a la cual un profesional
universitario inició su vida laboral, pero que se pregunta:

¿Cuándo empezaste a trabajar?

Un interrogado pudiera responder: «A los 27 años», otro: «En 1996» y otro: “Cuando terminé la
carrera”. Sin embargo ellos pudieran haber comenzado su vida laboral a la misma edad
(deberían responder lo mismo si la pregunta hubiera sido específica). Esta pregunta no tendría
porqué tener dificultad si se redactara adecuadamente, especificando lo que el investigador
busca. Se podría lograr una respuesta uniforme, como ocurre en la reformulación que sigue:

¿A qué edad empezaste a trabajar? _____

No deben redactarse las preguntas de manera tal que se carezca de un marco referencial claro
y consientan que se “escapen” casos con una condición dada; esto dispersaría la respuesta
más allá de lo debido y aportaría pocos beneficios, ya que no tendría la capacidad de colocar a
cada quién «donde le toca».

12.- Evitar la inclusión de dos o más preguntas en una misma formulación

El planteamiento de dos o más preguntas dentro de una misma formulación introduce una
ambigüedad que compromete la fiabilidad de los resultados.

En un trabajo sobre el desempeño de la enfermera, Sabido (1998) incluye la siguiente pregunta


dirigida a un paciente:

¿La enfermera encuestadora le habló sobre la enfermedad que usted tiene, le explicó porqué la
tiene y cómo evitarla?

Si___ No____ No recuerdo ___

Página -40-
L.C.Silva

Tal y como se formula, puede resultar imposible responder adecuadamente; la formulación está
incluyendo tres preguntas en una sola, y sólo se obtendría una respuesta adecuada si para
todas las situaciones consideradas la respuesta coincidiera; en otro caso se produciría
desconcierto y, en última instancia, se obtendrán respuestas carentes de fiabilidad. La pregunta
podría redactarse de la siguiente manera:

En relación con su enfermedad, ¿le explicó la enfermera encuestadora

sobre la enfermedad que padece? Si__ No__ No recuerdo __


por qué la tiene? Si__ No__ No recuerdo __
cómo evitarla? Si__ No__ No recuerdo __

La ambivalencia puede aparecer de manera menos evidente, como en el siguiente ejemplo,


tomado de Saeteros (1998):

El trabajo del colectivo pedagógico y del personal de salud en cuanto a la preparación de la


familia en aspectos de promoción y educación para la salud es:

____ Suficiente
____ Regular
____ Insuficiente

Cuando algún interrogado considere que el trabajo de ambos equipos merece la misma
calificación, no se presentaría ninguna dificultad; el problema aparecerá cuando no sea así. Por
ejemplo, si una persona considera que el trabajo del colectivo pedagógico es "Regular" pero
que el del personal de salud es "Suficiente", no sabría qué responder. La pregunta debería
formularse así:

A continuación se mencionan dos de los grupos encargados de la preparación de las familias


en aspectos de promoción y educación para la salud. ¿Cómo considera su trabajo?

Colectivo pedagógico:__ Suficiente __ Regular __ Insuficiente


Personal de salud: __ Suficiente __ Regular __ Insuficiente

En Silva (1993) se incluía este otro ejemplo:

Marque con una cruz en la casilla adecuada, de acuerdo con su punto de vista:

Página -41-
L.C.Silva

La leche materna es altamente beneficiosa y debe ser el único alimento que se suministre
durante los 4 primeros meses de vida.

SI ___ NO ____

Al menos dos dificultades se abren para el sujeto interrogado. Si él comparte que la leche
materna es beneficiosa, pero piensa que no necesariamente debe consumirse de manera
exclusiva, marcaría NO (pues formalmente no comparte la afirmación tal y como ella se ha
hecho); pero lo mismo tendría que hacer si opina de manera diametralmente opuesta
(considera que no es beneficiosa y que debe emplearse la leche de vaca maternizada), de
modo que también en este caso podría legítimamente marcar NO. Por otra parte, no se
contempla la posibilidad de que el sujeto no tenga una opinión formada sobre el asunto.

El enunciado podría replantearse del modo siguiente:

Página -42-
L.C.Silva

Marque en la casilla adecuada, de acuerdo con su punto de vista:

Sobre el empleo de la leche materna durante los primeros cuatro meses de vida, Ud. cree que:

* es una práctica beneficiosa

si___ no___ no tengo opinión___

* lo ideal es suministrarla de modo exclusivo

si___ no___ no tengo opinión___

En el experimento de Silva y Macías (2000) varias veces citado, se formularon estas preguntas
a los respectivos grupos de estudiantes:

Grupo A: ¿Considera usted que las actividades prácticas previstas para su formación
profesional comienzan en el momento oportuno y se extienden suficientemente?

__ de acuerdo __ en desacuerdo __ no sé

Grupo B: ¿Considera usted que las actividades prácticas previstas para su formación
profesional:

comienzan en el momento oportuno?

__ de acuerdo __ en desacuerdo __ no sé

se extienden suficientemente?

__ de acuerdo __ en desacuerdo __ no sé

Página -43-
L.C.Silva
La expectativa era encontrar diferencia entre los resultados de una y otra encuesta, puesto que
cuando las dos afirmaciones están dentro de la misma formulación, el interrogado puede tener
dudas en caso de que no esté de acuerdo con (o no sepa sobre) una sola de las dos
interrogantes; en tal caso no podría discernir entre estar en desacuerdo con la afirmación tal y
como se hizo o con sólo una parte de ella; cuando ambas situaciones se separan, tal
ambivalencia queda resuelta. Los resultados son expresivos:

Grupo A Nº %
De acuerdo 60 63,8
En desacuerdo 17 18,1
No sé 17 18,1
Total 94 100,0

Primera Pregunta
De En No sé Total
Grupo B
acuerdo desacuerdo
De acuerdo 34 29 4 67
Segunda En desacuerdo 14 4 2 20
pregunta No sé 2 1 5 8
Total 50 34 11 95

Como se aprecia, en el caso en que se reunieron las dos afirmaciones dentro de una misma
formulación, se obtuvo un porcentaje mucho mayor de encuestados que opinaban estar “de
acuerdo” (64%) que el obtenido para el cuestionario que las separaba: solo 34 de los 95
estudiantes del grupo B (36%) dijeron estar “de acuerdo” con ambas afirmaciones. Los
resultados varían entre los dos grupos debido, verosímilmente, a la dualidad contenida en la
pregunta; aparentemente, muchos encuestados que solamente estaban de acuerdo con una
parte de lo que se le preguntó, expresaron su acuerdo global dentro del grupo A.

2.4 Validación y estudio piloto

Ante una encuesta que ya se ha llevado adelante, no es infrecuente escuchar preguntas críticas
tales como: ¿fue validada esta encuesta? o ¿fue validado el cuestionario? El término validación,
que es de por sí conflictivo (véase Silva, 1997), se maneja en estos casos de manera bastante
confusa.

Página -44-
L.C.Silva
Es importante puntualizar que, en principio, lo que puede validarse es un instrumento o un
procedimiento concebido para medir una dimensión concreta, sea esta de naturaleza física (como
la temperatura corporal o el pliegue suprahilíaco de un sujeto) o abstracta (como la inteligencia o
el nivel socio-económico). Validar tal instrumento equivale a corroborar que él efectivamente mide
lo que se supone que mide.

Cuando se trata de una noción abstracta, es muy común que el instrumento empleado sea una
variable sintética construida a partir de las respuestas que se obtienen del entrevistado a través de
una encuesta. Tal variable sí puede y debe validarse (Silva, 1997).

Sin embargo, "validar" un cuestionario carece de sentido claro, ya que éste suele ser simplemente
un conjunto de preguntas y no un instrumento cuantificador en el sentido que puede serlo un
termómetro, el índice Apgar o un test de inteligencia.

Naturalmente, hay preguntas que por sí mismas intentan “medir” algo y, en tal caso, ocurre con
ellas lo mismo que con cualquier otro instrumento: pueden y deben -de ser posible- ser validadas.
Hay otras, por ejemplo todas aquellas con las que se intenta establecer algo de la esfera subjetiva
y que por tanto no son susceptibles de ser respondidas correcta o incorrectamente, para las
cuales la susodicha «validación» no tienen mayor sentido.

Sin embargo, los cuestionarios deben ser "probados" en la práctica, generalmente a través de una
encuesta piloto. Es decir, lo que en cualquier caso resulta crucial es adoptar medidas para
conseguir que la información recabada que se recoja tenga calidad, y esa es una de las funciones
básicas del estudio piloto. La necesidad de hacer pruebas preliminares con el cuestionario, como
con otras partes esenciales de la encuesta, está fuera de toda duda. Si por «validar un
cuestionario» se entiende corroborar que supera con éxito estas pruebas, entonces todo se
reduciría a que para ello se ha empleado un nombre ya acuñado para otro fin; pero
desafortunadamente con cierta frecuencia se invoca la necesidad de hacer esa validación sin que
esté bien definido qué se ha de entender bajo ese término.

En cuanto al estudio piloto, es grande la tentación de creer que «esta vez no hace falta realizarlo,
puesto que todo está claro»; sin embargo, nada es más peligroso que caer en esa trampa. Por
supuesto, el equipo investigador debe estar totalmente de acuerdo en que el cuestionario es
eficiente antes de aplicarlo en el terreno, pero las valoraciones teóricas no pueden suplir el
contacto directo con la población que se va a estudiar. La falta de pruebas preliminares
adecuadas es una de las mayores fuentes de fracaso en encuestas que podrían haber sido
enteramente exitosas.

Para llevar adelante esta prueba previa casi nunca se realizan diseños probabilísticos formales;
suele bastar con aplicarla a unas pocas decenas de sujetos, elegidos sobre bases de
conveniencia y disponibilidad (Fowler, 1995).

Página -45-
L.C.Silva
Las pruebas piloto deben utilizarse para evaluar no sólo la claridad de los ítems del cuestionario,
sino también la eficacia de las instrucciones, la factibilidad del diseño muestral, la calidad de las
entrevistas, la eficiencia de la organización del trabajo de campo, la magnitud del rechazo y las
razones de su existencia, la duración de la entrevista, la idoneidad del método de encuesta para el
problema que se aborda y los costos. Permiten además delimitar si las preguntas contienen
expresiones locales que puedan ser incorporadas a las formulaciones (o eliminadas de ellas) para
evitar malentendidos e incrementar la fluidez comunicativa, así como cuáles son las preguntas o
secciones que ofrecen mayores dificultades y cuáles son capaces de producir irritación, embarazo
o confusión.

Es crucial que las condiciones en que se realice el pilotaje sean las mismas en que se llevará
adelante la encuesta real. A veces, por ejemplo, los interrogatorios del pilotaje los desarrollan los
propios directores del estudio. Craso error: estos tienen por lo general niveles de compromiso y
sensibilidad con el estudio marcadamente superiores que los de un encuestador asalariado.

Es conveniente que los encuestadores rindan un informe, preferiblemente escrito, de su


experiencia en el pilotaje. Son ellos los agentes llamados a identificar los problemas y propiciar un
diagnóstico adecuado del cuestionario (Converse y Presser, 1986). Un aspecto que debe
recabarse es que para cada rechazo el encuestador consigne las razones. El análisis cuidadoso
de esta información es de extrema importancia para la adopción de medidas preventivas de la
llamada "no-respuesta". Por ejemplo, en una encuesta en que los sujetos deban ser contactados
en la vivienda, resulta conveniente adicionar una pregunta como la siguiente:

[] No existe o no pudo localizarse la dirección

[] Casa desocupada o no enclavada en edificio residencial

[] No había nadie en la casa

[] El entrevistado estaba ausente

[] Se produjo una negativa parcial a contesta

[] Se produjo una negativa total a colaborar

[] El entrevistado resulto inaccesible por alguna razón personal o administrativa

[ ] Otra (especifique)

Página -46-
L.C.Silva

Este tipo de pruebas, sin embargo, no son una panacea. Presser (1989) discute sus posibles
limitaciones, tales como la subjetividad del propio encuestador participante, potenciada por el
pequeño tamaño muestral, típico de los pilotajes, que puede dar lugar a que una anécdota puntual
se erija en calidad de problema general. Precisamente, debido a esas limitaciones es que se ha
sugerido emplear recursos alternativos o complementarios como la del “grupo focal”, una técnica
de vieja data que sigue produciendo interés, como pone de manifiesto la reciente aparición de
libros destinados exclusivamente a ella (véanse Morgan, 1988 o Stewart y Shamdasani, 1990). Se
trata, en esencia, de reunir a un grupo de entre 6 y 10 personas más bien heterogéneas, y
conseguir mediante un intercambio centrado en los objetivos del estudio, que se expongan las
advertencias pertinentes acerca de las fuentes potenciales de dificultad debidas a aspectos tales
como la redacción de las preguntas, el lenguaje empleado y la capacidad o conocimiento de la
población encuestada.

CAPITULO 3. MUESTREO SIMPLE ALEATORIO

3.1 Introducción

En este capítulo se presenta el muestreo simple aleatorio (MSA), el más sencillo y conocido
procedimiento probabilístico de selección. Como se verá en su momento, se trata –
paradójicamente, tal vez- del método menos utilizado en forma "pura" en la práctica del diseño de
muestras. Varias razones justifican, sin embargo, que se haga un estudio detallado de sus rasgos
y propiedades.

En primer lugar, es un procedimiento básico como componente de casi todos los diseños que se
explican más adelante. En segundo lugar, el muestreo simple aleatorio se utiliza ampliamente en
el diseño experimental (en particular, en la fase de asignación de casos a los tratamientos en el
marco de los ensayos clínicos controlados) y constituye el más importante punto de contacto de la
teoría de muestreo en poblaciones finitas con la estadística inferencial clásica (Fienberg y Tanur,
1996).

Finalmente, una prominente función adicional del MSA en este libro es la de viabilizar la
introducción formal de un amplio espectro de conceptos, ideas y notaciones que, si bien tienen
valor general para cualquier tipo de diseño muestral, se comprenden más fácilmente en el
contexto de un diseño sencillo como este.

3.2 Definición y métodos de selección

Página -47-
L.C.Silva
Supongamos que se quiere seleccionar una muestra de tamaño X de una población que consta
de X=15=20 unidades (donde, naturalmente, E = E = 0.1 ). Se dice que el procedimiento de selección es un
3000 0
r

muestreo simple aleatorio si el proceso aplicado otorga la misma probabilidad de selección a todo
subconjunto de tamaño  de la población.

Más abajo se demuestra que el MSA otorga a los  sujetos de la población la misma probabili-
n
dad de quedar incluidos en la muestra, y que dicha probabilidad común es igual a f = . El MSA
N
es, por tanto, un procedimiento equiprobabilístico; cabe subrayar, sin embargo, que no todo
método muestral que produzca equiprobabilidad coincide con el MSA, como ocasionalmente se
tiende a pensar y como se ha dicho incluso en algunos buenos libros aunque no
especializados en muestreo.

Para fijar la definición, supongamos que se tiene un listado de 12 niños ordenados


alfabéticamente y que, de ellos, se quieren seleccionar E o . Consideremos las siguientes tres
alternativas para la selección:

A) Tomar los 6 primeros elementos del listado

B) Dividir el listado en dos grupos: uno formado por los 6 primeros elementos y el otro por los
restantes 6; lanzar una moneda al aire y tomar en calidad de muestra a los elementos del
primer grupo en caso de obtener cara, y a los del segundo si se obtiene escudo

C) Asignar números del 1 al 12 a los elementos de la lista. Colocar en una urna 12 bolas
numeradas sucesivamente, mezclar totalmente las bolas y seleccionar "a ciegas" 6 de
ellas; finalmente, admitir en la muestra a los elementos cuyos números aparezcan
señalados en las bolas elegidas

El método A no es probabilístico: los últimos 6 elementos del listado no podrán integrar la


muestra.

El método B, en cambio, es probabilístico, ya que toda unidad tiene una probabilidad no nula y
conocida de quedar incluida en la muestra. En efecto, la probabilidad de inclusión de cada niño
es la misma que tiene el grupo al que pertenece. Esta es, obviamente, igual a 0,5; de modo que la
probabilidad es igual para todos ellos, con lo cual el procedimiento es, además, equiprobabilístico.
Sin embargo, el método no equivale al MSA, ya que existen subconjuntos de 6 elementos que no
pueden resultar seleccionados al aplicarlo (por ejemplo, el de los que ocupan los lugares impares
en el listado).

El método C, por último, es MSA, ya que cualquiera de los subconjuntos diferentes que pueden
formarse con 6 niños puede ser elegido y, dado el modo de selección, es claro que ninguno de
dichos conjuntos tiene más probabilidad que otro de ser el que a la postre resulte seleccionado.
Detengámonos en este punto.

De la teoría combinatoria sabemos que el número total de subconjuntos posibles es:

Página -48-
L.C.Silva
N N! 12!
K =   = = = 924
 n  (N - n)! n! 6! 6!
Por tanto, ese es también el número K de muestras posibles en este caso. Puesto que todas
ellas tienen igual probabilidad de ser la que finalmente quede conformada, dicha probabilidad es
1
igual a .
K

Dado un elemento de la población, ¿cuántas de las posibles muestras lo contienen?: tantas como
subconjuntos de tamaño nI - 1t lpueden conformarse a partir del conjunto de los N - 1 individuos
que quedan en la población cuando se suprime aquel cuya probabilidad de selección estamos
considerando. Unos segundos de reflexión permiten apreciar que dicho número es:
 N - 1 (N - 1)! 11!
K =   =
*
= = 462
 n - 1 (N - n) ! (n - 1) ! 6! 5!

Página -49-
L.C.Silva
de modo que la probabilidad de inclusión, igual a  i =   ( M j ) como vimos en la Sección 1.6,
ei  M j

*
1 K = n para todo elemento
equivale en este caso a sumar K * veces el valor ; es decir;  i =
K K N
462 6
de la población. En nuestro ejemplo:  i = =  0,5 .
924 12

3.2.1 Número aleatorios

Para determinar cuál de las posibles muestras será la elegida pueden adoptarse diversos
métodos concretos. El que se sugirió en tercer lugar para seleccionar 6 de 12 niños, es
evidentemente generalizable; se trata de numerar los individuos secuencialmente desde 1 hasta
N , escribir dichos números en otras tantas bolas o tarjetas, luego mezclar adecuadamente estas
últimas, y finalmente seleccionar n de ellas para identificar a los individuos de la muestra.

Sin embargo, este recurso adolece de algunos defectos. Por ejemplo, exige la posesión o
creación de un despositivo físico en cuya "imparcialidad" haya razones para creer; además,
cuando N y n son números bastante grandes, que es lo común en la práctica, su aplicación
resultaría extraordinariamente engorrosa.

Con el fin de facilitar el proceso de selección simple aleatoria florecieron en la década del 50 las
llamadas tablas de números aleatorios. Para su construcción se simuló un mecanismo análogo al
de la urna en cuanto al principio, aunque mucho más preciso en el sentido de eliminar posibles
tendencias que favorecieran la aparición de un dígito más que la de otro y, más generalmente,
para evitar que alguna secuencia de dígitos tuviera mayor frecuencia de aparición que otra
secuencia cualquiera con el mismo número de cifras.

La Tabla 3.1 reproduce 150 dígitos que integran uno de los bloques de números aleatorios
contenidos en la tabla de Fisher y Yates (1963).

Tabla 3.1 Números casuales o aleatorios


03 47 43 73 86 36 96 47 36 61 46 98 63 71 62
97 74 24 67 62 42 81 14 57 20 42 53 32 37 32
16 76 62 27 66 56 50 26 71 07 32 90 79 78 53
12 56 85 99 26 96 96 68 27 31 05 03 72 93 15
55 59 56 35 64 38 54 82 46 22 31 62 43 09 90

16 22 77 94 39 49 54 43 54 82 17 37 93 23 78
84 42 17 53 31 57 24 55 06 88 77 04 74 47 67
63 01 63 78 59 16 95 55 67 19 98 10 50 71 75
33 21 12 34 29 78 64 56 07 82 52 42 07 44 38
57 60 86 32 44 09 47 27 96 54 49 17 46 09 62

Página -50-
L.C.Silva
Hasta la aparición y difusión de los microprocesadores, aún tenía sentido explicar cómo se utiliza
una tabla como la que parcialmente hemos reproducido (así se hacía, por ejemplo, en Silva,
1982). Desde mediados de la década de los 80, ya no lo tiene. En efecto, las PC13 nos relevan de
aplicar tediosas manipulaciones, pues cualquier lenguaje de programación contiene eficientes
generadores de números aleatorios. Los números aleatorios se emplean en varios dominios;
además de su importantísimo papel en el marco del muestreo, constituyen un ingrediente clave en
el campo de la simulación, en algunas áreas del análisis numérico, como recurso en la
programación y en la experimentación en física. Pero lo que ahora puntualmente interesa es que
gracias a dichos generadores, hoy contamos con programas muy rápidos y precisos para la
selección de una muestra simple aleatoria (véase Capítulo 11).

Algunas aclaraciones y notas técnicas sobre el tema de la generación de números aleatorios


pueden hallarse en el apéndice del presente capítulo.

3.3 Media y varianza de los estimadores

3.3.1 Estimación de la media poblacional

Como se ha dicho, los objetivos que llevan a seleccionar una muestra suelen exigir la estimación
de parámetros poblacionales. Consideremos este problema en el contexto del MSA.

Supongamos que se quiere conocer el promedio de cierta variable X en una población finita de
N elementos. Si la medición de X se practicase sobre todos los elementos, se obtendrían los N
números correspondientes a las respectivas observaciones. Denotémoslos
mediante X 1 , X 2 ,..., X N . Supongamos que se quiere conocer el promedio X de esos N
números:
1 N

X=
N
X
i=1
i

13
Usaremos la expresión PC (iniciales de Personal Computer) para
designar a los modernos microprocesadores, también denominados
"ordenadores personales" en algunas latitudes.

Página -51-
L.C.Silva

Admitamos que se selecciona una muestra de n elementos mediante MSA y que los numeramos
desde 1 hasta n , según el orden en que van siendo seleccionados. La Figura 3.1 representa una
muestra simple aleatoria como la que nos ocupa. Usaremos minúsculas para designar los valores
de X correspondientes a la muestra; o sea, designaremos como x1 , x 2 ,..., x n a los valores de la
muestra, donde xi representa el valor de X para el i-ésimo elemento seleccionado, el cual puede
ser cualquier elemento del conjunto de datos poblacionales.

Llamaremos x a la media muestral que, en el caso del MSA, usaremos en calidad de estimador
de X . Es decir:

1 n
x=  xi
n i=1

n
Y llamaremos fracción de muestreo al valor f = . Además de coincidir con la probabilidad de
N
selección común a todos los elementos de la población, f expresa la fracción que representa el
tamaño muestral respecto del tamaño poblacional. El valor que asume x queda determinado una
vez seleccionada la muestra; pero antes de contar con una muestra concreta, puede considerarse
que x es una variable, puesto que a cada muestra posible corresponde su propia media muestral
específica. Además, dado que la selección de la muestra depende del azar, se trata de una
variable aleatoria, que puede asumir hasta K valores diferentes (tantos como muestras posibles
N!
hay), donde –como vimos en la sección 3.2- K 
N  n  ! n !

La pregunta natural en este punto es la siguiente: ¿por qué aceptar x como estimador de X ¿por
qué no tomar, por ejemplo, la mediana del conjunto x1 ,..., x n en calidad de estimador?; e incluso
¿por qué no admitir alguna otra función de los datos muestrales como pudiera ser el estadígrafo
n

G= 3 x +5?
i=1
2
i

Es fácil corroborar que el promedio de todas las medias muestrales coincide exactamente con la
media poblacional. Es decir, si llamamos x h a la h-ésima de esas posibles medias, en términos
formales se tendría:
K
1
x h =X 3.1
K h=1

Página -52-
L.C.Silva
Este hecho se sintetiza diciendo que x es un estimador insesgado del parámetro X .

La conveniencia de trabajar con estimadores insesgados es clara desde el punto de vista intuitivo:
ello significa que las estimaciones posibles se reparten "equilibradamente" alrededor del
parámetro desconocido. Esa es una condición, por ejemplo, que no cumplen ni la mediana de
los datos muestrales ni el estrafalario estadígrafo G , como puede comprobar fácilmente el lector
construyendo una pequeña población. Por ejemplo, consideremos el conjunto poblacional de
tamaño N = 4 siguiente: {3, 9, 18, 30} , cuya media es X = 15,0 , con una muestra de tamaño
n = 3 . El número K de posibles muestras es igual a 4. La Tabla 3.2 recoge dichas muestras,
así como los tres estadígrafos considerados y sus promedios para las muestras posibles.

Tabla 3.2 Muestras posibles de tamaño 3 en la población y estadígrafos correspondientes

Muestra Media Mediana G


3 9 18 10 9 7,5
3 9 30 14 9 10,0
3 18 30 17 18 10,7
9 18 30 19 18 10,9

Promedio 15 13,5 9,8

Obsérvese que el promedio de las 4 medias muestrales coincide con la media poblacional
1 4
( x=  xi = 15 ), pero que no ocurre lo mismo con la mediana ni, mucho menos, con el
4 i= 1
estadígrafo G .

El ejemplo demuestra que ni la mediana ni G son estimadores insesgados, pero no demuestra


(sólo corrobora) que la media muestral x lo sea.

Procede mencionar en este punto una propiedad general:

Si la muestra es equiprobabilística y su tamaño no depende del azar (tamaño fijo), entonces la


media muestral siempre es un estimador insesgado de la media poblacional.

Página -53-
L.C.Silva
Siendo el muestreo simple aleatorio un método de selección equiprobabilístico que produce
muestras de tamaño fijo, se deduce que en este caso, la media muestral estima sin sesgo a la
poblacional. El mensaje central de este resultado (cuya demostración puede hallarse en Kish,
1965), puede traducirse del modo siguiente: los procedimientos equiprobabilísticos son tales que,
para estimar una media poblacional (o un porcentaje) simplemente se utiliza la media muestral (o
el porcentaje muestral). Usar el promedio muestral, que parece lo natural, no siempre es
adecuado, como se ilustra en próximos capítulos.

3.3.2 Varianza de la estimación de la media

Sin embargo, no se gana mucho con que el estimador sea insesgado si tales estimaciones (o
muchas de ellas) están alejadas del parámetro ( X ,en este caso). Lo que resulta verdaderamente
conveniente es que todas las estimaciones posibles (o, al menos, la inmensa mayoría de ellas) se
hallen en una pequeña vecindad del parámetro; solo de ese modo se podrá estar razonablemente
confiado de que la única estimación que a la postre va a hacerse habrá de estar próxima al
parámetro que se quiere conocer.

Recuérdese una vez más que la utilidad de un procedimiento cualquiera depende de la frecuencia
con que éste produce buenos resultados.

Una manera en principio lógica de medir globalmente el grado en que las distintas estimaciones
posibles se dispersan en torno a X consiste en promediar las K distancias entre las estimaciones y
X . En el caso de usar la media muestral como estimador, tendríamos:
K
1
D=
K
( x
h=1
h -X)

Página -54-
L.C.Silva

Sin embargo, el valor de D será nulo, debido a que se están sumando números negativos y
positivos equidistantes de cero en promedio. Para eludir ese problema, una solución consiste en
promediar los cuadrados de las diferencias. Tal promedio es lo que se denomina error cuadrático
medio de x :

K
VAR( x ) =
1
( x h - X )2 3.2
K h=1

El ECM de un estimador es una medida resumen de cuán eficiente es usarlo como vía para
estimar el parámetro de interés. En el ejemplo que se resumió en la Tabla 3.2 es fácil calcular
que ECM

ECM ( x)  11,5 , ECM  Mediana   22,5 , ECM G   29,1

En este ejemplo, por tanto, x sería el mejor estimador, le seguiría la mediana y el esotérico G
sería el menos eficiente. Cuando, como ocurre con la media muestral, el estimador es
insesgado, entonces el ECM coincide con la varianza del estimador.

O sea, en este caso, la expresión según la cual se mide la calidad del estimador no es otra cosa
que la varianza del conjunto de posibles estimaciones puntuales de la media poblacional. Es
importante comprender que, con acuerdo a la consideración arriba desarrollada, lo ideal sería que
VAR ( x ) fuese lo más pequeña posible.

Para elegir x como estimador, además de las razones mencionadas y de otras que veremos más
adelante, se tiene en cuenta que VAR ( x ) , definida por [3.2], puede expresarse en función de una
medida de la variabilidad poblacional. En efecto, puede demostrarse que:
2
S
VAR( x ) = (1 - f) 3.3
n

Página -55-
L.C.Silva
N
1
donde S 2 =  ( X i - X )2 es un número que cuantifica cuán dispersos entre sí están de los
N - 1 i=1
N valores poblacionales14

Cabe advertir que la varianza poblacional podría definirse del mismo modo que S 2 pero
i=1
dividiendo la suma ( X
n
i
2
- x ) por N en lugar de por N - 1 ; de hecho, aunque no hay dudas

acerca de que S 2 mide la variabilidad de los datos (ya que en el fondo, a esos efectos, da igual si
la suma de las distancias cuadráticas si se divide cerca e por un número o por el otro), la definición
de S 2 parece algo antinatural.

La fórmula [3.3] permite ver que la varianza del estimador es mayor cuanto mayor sea la
variabilidad de los datos poblacionales. Dicho de otro modo: cuanto más variable sea la realidad
que se estudia, mayor será la dispersión de las posibles estimaciones de X (suponiendo, desde
luego, que n no se modifica) y, por ende, menor la eficiencia de la media muestral como
estimador de la media poblacional. Se trata de un resultado sumamente intuitivo; símiles de la
vida cotidiana vienen a la mente: por ejemplo, es más fácil "acertar" cuando se vaticina la reacción
de un sujeto estable y ordenado ante cierto estímulo que ante la de alguien impulsivo y de carácter
variable ante ese mismo estímulo.

Por otra parte, puede observarse que VAR ( x ) disminuye en la medida que aumenta el tamaño
muestral n (una característica del proceso, por cierto, que, al menos teóricamente, sí está en
manos del investigador conseguir modificar). Este rasgo de la fórmula [3.3] refleja otro hecho
intuitivo: con el incremento del tamaño de la muestra, aumenta la calidad del proceso inferencial.

Una consecuencia más se saca de la fórmula [3.3] (en este caso, bastante sorprendente): a partir
de cierta magnitud, el tamaño de la población tiene una influencia virtualmente nula en la eficiencia
de la estimación. Si se tuvieran n y S 2 constantes, Var ( X ) crece en la medida que aumenta
N , pero de modo imperceptible a partir de cierto tamaño poblacional, tal y como refleja la Figura
3.2.

En términos prácticos, esta afirmación tiene expresiones como las que ilustra el ejemplo siguiente:

14
Las demostraciones de las fórmulas [3.1] y [3.3] pueden verse -desarrolladas con recursos elementales-
en Yamane (1970).

Página -56-
L.C.Silva
El salario medio de las mujeres en edad fértil se puede estimar tan aceptablemente con una
muestra de –digamos- 500 mujeres en una gran ciudad (por ejemplo, de 1 millón de habitantes)
como en un pueblo 10 veces menor15. En ambos casos el valor de f (magnitud relativa de la
muestra) será tan cercano a cero (0.0005 y 0.005 respectivamente) que el factor 1 - f puede
suplirse por 1 en ambos casos; o, lo que es equivalente, puede suprimirse.

En cambio, si se fijan N y S 2 , la disminución de Var ( X ) cuando aumenta n es sostenida y


pronunciada (véase Figura 3.3) hasta anularse en el caso extremo en que n = N (1 - f = 0) , algo
natural, puesto que en tal caso extremo no estaríamos ante una muestra sino ante un censo, de
modo que tampoco puede haber variabilidad.

Estas relaciones entre la eficiencia del estimador con cada uno de los tres parámetros
considerados (tamaño muestral, heterogeneidad poblacional y tamaño del universo) son
esencialmente válidas en toda situación de muestreo, cualquiera sea el diseño, incluidos aquellos
más complejos y realistas que el MSA, aunque allí no se deriven tan claramente de la formulación
correspondiente.

3.4 Un ejemplo ilustrativo

En esta sección se analizará detenidamente un ejemplo artificial por conducto del cual se procura
ilustrar el comportamiento de un estimador en el contexto del MSA y, simultáneamente,
sedimentar los principios conceptuales introducidos en la sección precedente.

Supongamos que en una ciudad hay N = 15 hospitales y que la variable X en estudio es el


número de médicos que laboran en cada cual. Los valores de X en estas 15 unidades de
análisis aparecen en la Tabla 3.3.

Tabla 3.3 Número de médicos en una población artificial de 15 hospitales

Hospital (i) Número de


médicos ( xi )
1 130
2 230
3 310
4 200
5 350
6 220

15
Naturalmente, se está asumiendo que la variable "salario" tiene análogo grado de heterogeneidad en ambas
poblaciones.

Página -57-
L.C.Silva
7 180
8 270
9 150
10 90
11 480
12 190
13 60
14 40
15 100
Total 3000
 200
Promedio X

Al realizar una selección aleatoria16 de tamaño n = 2 sobre esta población, se obtiene alguna de
 15  15!
las 105 muestras posibles. (Nótese que k =   = = 105 )
 2  13!2!

En la práctica, dicha muestra nos proveería de una estimación del parámetro X . En este
3000
ejemplo, de finalidad didáctica, sabemos que X = = 200 y podemos conocer los 105
15
posibles valores de x . La Tabla 3.4 refleja las 105 muestras posibles de tamaño 2 y las
respectivas estimaciones de X .

Si se suman los números correspondiente a las 105 celdas ocupadas de la Tabla 3.4, el
resultado es igual a 21.000; al dividirlo por 105, se obtiene el número 200, que no es otra cosa
que la media poblacional, tal y como anunciaba la fórmula [3.1].

Tabla 3.4. Estimaciones de X para cada una de las muestras de tamaño 2 que pueden ob-
tenerse por MSA de la población descrita en la Tabla 3.3.

HOSPITALES
1 2 3 4 5 6 7 8 9 10 11 12 13 14
2 180

16
En lo sucesivo, cuando se diga que la selección es aleatoria o al
azar, se entenderá que nos referimos a un MSA.

Página -58-
L.C.Silva

H 3 220 270

O 4 165 215 255

S 5 240 290 330 275

P 6 175 225 265 210 285

I 7 155 205 245 190 265 200

T 8 200 250 290 235 310 245 225

A 9 140 190 230 175 250 185 165 210

L 10 110 160 200 145 220 155 135 180 120

E 11 305 355 395 340 415 350 330 375 315 285

S 12 160 210 250 195 270 205 185 230 170 140 335

13 95 145 185 130 205 140 120 165 105 75 270 125
14 85 135 175 120 195 130 110 155 95 65 260 115 50
15 115 165 205 150 225 160 140 185 125 95 290 145 80 70

En la Tabla 3.4 se observa que las 105 estimaciones posibles se encuentran entre 50 y 415;
quiere esto decir que, si bien se hallan "alrededor" del valor X = 200 , algunas están muy
distantes del número que se pretende estimar. En efecto, si el azar determinara que los hospitales
de la muestra fueran el 13 y el 14, tendríamos x = 50 , una acusada subestimación del parámetro.
Análogamente, si los elegidos fueran el 5 y el 11, estaríamos en el otro caso extremo, pues
x = 415 arroja una marcada sobrestimación de X .

Se recordará que la expresión [3.2] da una medida promedio de la distancia a que se hallan las
distintas estimaciones del valor central:
VAR ( x ) = 6017,1

Página -59-
L.C.Silva

Puede corroborarse ahora la validez de la expresión [3.3]: al calcular S 2 se obtiene, en efecto,


que:

1 15
2
S =  ( X i - 200 )2 = 13885,7
14 i=1

y puede comprobarse que:

2
S 13885,7 2
(1 - f) = (1 - ) = 6017,1
n 2 15

Se había afirmado que la magnitud de VAR ( x ) disminuía con el aumento de n . Esto se puede
comprobar de inmediato; por ejemplo, para n = 3 podríamos calcular los 455 valores de x a que
darían lugar las respectivas muestras de tamaño 3 y computar la varianza de ese conjunto; pero
no necesitamos hacer tal esfuerzo: la relación [3.3] nos habilita para hacerlo rápidamente en este
caso en que, por excepción, conocemos S 2 . Aplicándola entonces para n = 3 , se tiene:
13885,7  3 
VAR ( x ) =  1 -  = 3702,9
3  15 

Página -60-
L.C.Silva

Como se ve, la disminución en la variabilidad del conjunto de medias es notable. Otro modo de
apreciarlo sería a través del examen del recorrido del conjunto de medias muestrales. ¿Cuáles
serían las muestras más "desfavorables" que pudieran producirse? Por una parte, la formada por
los hospitales 10, 13, y 14 (que produciría la estimación ( x = 60,3 )N, y por otra la formada por los
elementos 3, 5 y 11 ( x = 380,0 ).

La Tabla 3.5 resume los valores de VAR ( x ) y el recorrido (menor y mayor valor de x para todos
los posibles tamaños de muestra (desde 1 hasta 15). Como ya sabíamos, VAR ( x ) va
disminuyendo en la medida que aumenta el tamaño de la muestra. El recorrido, por su parte,
también va estrechándose hasta llegar a la situación extrema en que ambos puntos coinciden con
la media poblacional. Este caso refleja la situación en que -de hecho- no se ha tomado una
muestra como tal, sino que se trabaja con toda la población.

Tabla 3.5 Valores aproximados de VAR ( x ) y recorrido de las medias posibles para MSA de
la población de la Tabla 3.2 con distintos tamaños de muestra

n VAR ( x ) Recorrido

Min Max

1 12960,0 40,0 630,0


2 6017,1 50,0 415,0
3 3702,9 60,3 380,0
4 2545,7 72,5 352,5
5 1851,4 89,0 328,0
6 1388,6 95,0 310,0
7 1058,0 107,1 294,3
8 810,0 117,5 281,3
9 617,1 126,7 270,0
10 462,1 136,0 258,0
11 336,6 144,6 246,4
12 231,4 155,0 234,2
13 142,4 166,9 233,1
14 66,1 180,0 211,4
15 0,0 200,0 200,0

Página -61-
L.C.Silva

3.5 Distribución de la media muestral

En la Sección 3.3 se discutieron el valor esperado y la varianza de la media muestral, pero no


se analizó la distribución que sigue esta variable aleatoria. En un sentido totalmente informal,
lo que debe entenderse por distribución de una variable aleatoria es la forma del histograma
que puede formarse con un conjunto numeroso de observaciones de dicha variable.

Si consideramos el ejemplo de la Sección 3.4 y el contenido de la Tabla 3.4, es posible formar


una tabla de clases y frecuencias que refleje cómo se distribuyen los 105 valores de x entre los
valores extremos: 50 y 415. No es difícil constatar que, si se toman, por ejemplo, intervalos de
longitud igual a 40, la distribución porcentual de x es la siguiente:

40- 79 80-119 120-159 160-199 200-239 240-279 280-319 320-359 360-399 400-439

4 10 19 20 18 13 8 5 2 1

Un examen similar puede repetirse para otros tamaños de muestra (n=3, n=4, etc.) teniendo en
cuenta, para cada caso, todas las posibles muestras y sus correspondientes medias.

La Tabla 3.5 resume el resultado de esa operación para valores de n desde 2 hasta 14, en
intervalos de amplitud 40. Varias apreciaciones pueden realizarse a partir de dicha tabla.

En primer lugar, es notable que, para todos los tamaños muestrales, un alto porcentaje de las
estimaciones se ubique en los intervalos 160-199 o 200-239. Por otra parte, se advierte que tal
porcentaje crece rápidamente en la medida que aumenta n : el 34 % de las medias caen en
esos intervalos para n = 2 (o sea, 35 de los 105 valores de x ), mientras que, por ejemplo, para
n = 5 ya se tiene que el 62 % de las estimaciones (1866 de las 3003 posibles) se ubican allí, y
para n = 8 ocurre con el 83 % de las 6435 posibles muestras de ese tamaño.

Tabla 3.5 Distribución porcentual según intervalos de todas las posibles medias
correspondientes al MSA de tamaños n de 2 a 14 para la población descrita en la Tabla 3.2.

INTERVALOS

n 40- 80- 120- 160- 200- 240- 280- 320- 360- 400- Número
79 119 159 199 239 279 319 359 399 439 de
muestra
s
2 4 10 20 21 13 14 8 6 2 1 105

3 1 7 19 25 21 15 8 3 - - 455

Página -62-
L.C.Silva

4 - 4 18 29 26 16 6 1 - - 1365

5 - 2 16 32 30 16 4 - - - 3003

6 - 1 14 36 34 14 2 - - - 5005

7 - - 11 38 39 12 - - - - 6435

8 - - 8 41 42 9 - - - - 6435

9 - - 6 43 46 5 - - - - 5005

10 - - 4 44 50 2 - - - - 3003

11 - - 2 45 53 - - - - - 1365

12 - - - 45 55 - - - - - 455

13 - - - 45 55 - - - - - 105

14 - - - 40 60 - - - - - 12

Por otra parte, puede observarse que la forma de los histogramas que resultan de dichas tablas va
aproximándose, en la medida que aumenta el tamaño muestral, a la de la famosa campana de
Gauss (es decir, a la de una distribución normal). Esto es una expresión empírica del archifamoso
teorema central del límite. Las Figuras 3.4, 3.5 y 3.6, que reflejan las distribuciones porcentuales
construidas con las 10 clases (de longitud 40 cada una) de la Tabla 3.6, para los casos
correspondientes a n = 2 , n = 4 y n = 6 respectivamente, permiten apreciarlo de manera más
palpable.

Es importante enfatizar que estas propiedades de la distribución de x son válidas de manera


general; o sea, no dependen ni de la naturaleza de los datos ni tampoco de la magnitud relativa
del tamaño muestral. Con esto último queda subrayado que para considerar que x sigue
aproximadamente una distribución normal no es necesario que el tamaño muestral constituya una
fracción importante del tamaño poblacional, sino que basta que sea grande en términos absolutos
(es decir: en la medida que aumenta n, los histogramas tienden a asumir la forma de la campana
de Gauss). Concretamente, cuando n supera a 50 (como ocurre prácticamente en toda muestra
real), la distribución de los valores de x será siempre muy aproximadamente igual a la
mencionada distribución teórica, cualquiera sea el valor de N y cualquiera sea la distribución de
la variable X .

Página -63-
L.C.Silva
Como se recordará, esta distribución tiene la propiedad, por ejemplo, de que aproximadamente el
95% de las observaciones distan de la media menos que dos veces17 su desviación estándar
(independientemente de los valores que tengan estos dos parámetros).

Por ejemplo, si se recuerda que en nuestro ejemplo VAR( x ) = 77.6 para n = 2 , y se calcula
| x - 200 | para los 105 valores de la Tabla 3.4, se puede corroborar que 101 de ellos (el 88%, no
muy lejano del porcentaje 95% esperado) son menores que el producto (1.96)(77,6)=152,0. Algo
similar (aunque mucho más ajustado a lo esperado) ocurre para valores mayores de n . Por
ejemplo, de las 6435 medias muestrales calculables para n = 8 , 6157 (esto es, el 95,7%) distan
de X menos que (1.96)( 810 )=55.8. La utilidad fundamental que tiene esta característica de la
distribución de x estriba en que nos habilita para la construcción de intervalos de confianza.

Luego de sacar una muestra concreta -y suponiendo que se conociera S 2 - se podría calcular lo
que llamaremos error de muestreo:
E = (1.96 ) VAR( x ) 3.4
Sumando E a la estimación x obtenida, se tiene el extremo superior del intervalo y restando E
de x , el extremo inferior18.

3.6. Cálculo de los intervalos de confianza

Al observar la fórmula [3.4], se advierte de inmediato que en la práctica sería imposible calcular
este intervalo de confianza, ya que en un problema real, S 2 es desconocido; su cómputo exige
conocer los valores de X para todos los miembros de la población, y eso es precisamente lo que
se quiere suplir mediante el recurso del muestreo.

Sin embargo, este número puede ser estimado a través de la propia muestra mediante la llamada
varianza muestral:
1 n
2
s =  ( xi - x )2 3.5
n - 1 i=1

17
El valor exacto es 1.96, percentil 97.5 de la distribución normal estándar.

18
En rigor, habría que considerar la llamada "confiabilidad". Aquí se ha partido de que se trabajó con una
confiabilidad del 95% y se ha puesto sistemáticamente el número 1.96, correspondiente al percentil 97.5
de la distribución normal estándar. Tal simplificación resulta acorde con el espíritu del libro y con la
práctica más extendida. El caso general, sin embargo, resulta muy fácil de construir para cualquier
lector entrenado en teoría elemental de probabilidades.

Página -64-
L.C.Silva

Puede demostrarse que en el caso que nos ocupa (MSA), S 2 es un estimador insesgado de S 2 ;
N
o sea, que el promedio de todos los valores de s 2 , calculados para las   muestras posibles,
 n
coincide con S 2 .

En este punto ya se puede construir un intervalo de confianza que depende solo de elementos
conocidos. Sustituyendo S 2 en lugar de S 2 en [3.3], se puede estimar VAR( x ) mediante la
fórmula siguiente:
S2
var( x ) = (1 - f) 3.6
n

Se estima entonces el error de muestreo:


2
e = (1.96) 
s
(1 - f) 3.7
n
y, finalmente, se construye el intervalo en sí:

 x - e ,x+e  3.8

Página -65-
L.C.Silva

Debe notarse que e es la mitad de la longitud del intervalo de confianza; por lo tanto, si
efectivamente ocurriese que X está dentro del intervalo, entonces la distancia entre la estimación
x y el parámetro X es, a lo sumo, igual a e ; de ahí que se considere ese número como el error
asociado a la estimación.

3.7 Tamaño de la muestra

De las secciones precedentes se deriva una primera conclusión, tan importante como intuitiva: el
tamaño de muestra tiene un papel determinante sobre la magnitud del error muestral de las es-
timaciones; consecuentemente, el tamaño mínimo necesario dependerá del error máximo que se
considere admisible.

Desde luego, en la práctica hay una limitación adicional evidente: los recursos. Los requerimientos
de precisión se supeditan, en última instancia, a las posibilidades materiales con que se cuente. Si
obviamos por el momento este aspecto del problema19, el asunto puede plantearse en los
términos siguientes: cuál es el tamaño de muestra mínimo con que puede estimarse X de
manera que | x - X | sea menor que cierta magnitud prestablecida? Ya sabemos que tomando n
suficientemente grande se podrá estar virtualmente seguro de que se cumpla que | x - X |  E ,
por pequeño que sea el valor de E .

Por consiguiente, la solución exige que se comience por establecer el valor máximo que puede
admitirse para E. Supongamos que, luego de un análisis con el especialista, se arriba a la
convicción de que basta conocer X con error no superior a E 0 .

Por ejemplo, si lo que se quiere es conocer el salario medio en cierta población, y se declara que
se admite un error máximo de hasta E 0 = 7 pesos, entonces es que se está pensado en términos
como los siguientes: "Si el verdadero promedio fuera $320, pero lo que se me informa es que
asciende a $327, entonces considero que conozco adecuadamente el dato; sin embargo, si se me
dijera es que ese número es, por ejemplo, $312, y luego me entero de la cifra verdadera, entonces
considero que estaba trabajando con un dato demasiado alejado de la verdad". Tal valor de E 0
determina el tamaño mínimo necesario. Puesto que la relación entre el error y el tamaño muestral
viene dada por la fórmula [3.4], para conocer n , todo lo que hay que hacer es despejarla de la
2
S n
expresión E 0 = (1.96) (1 - ) .
n N

Al hacer tal despeje (maniobra algebraica que, por cierto, no es inmediata), se obtiene:

19
En la Sección 12.3. se discuten detalladamente diversos aspectos
relacionados con el tamaño muestral.

Página -66-
L.C.Silva
n0
n=
n
1+ 0
N
donde
(1.96 )2 S 2
no = 2
3.9
Eo

Página -67-
L.C.Silva

Como se aprecia en esta fórmula, el tamaño muestral depende de tres elementos: del tamaño
poblacional N, de la varianza poblacional S 2 y del máximo error admisible E 0 , elementos que, por
tanto, deben ser conocidos de antemano para aplicar la fórmula. Para cada uno de ellos cabe
hacer algunas consideraciones20.

i) Tamaño poblacional

El MSA exige la posesión de un listado de elementos; por lo tanto, con más razón, el tamaño de
ese listado también tiene que conocerse. Sin embargo, en la práctica suele ocurrir que el
verdadero tamaño de la población se ignora; esa es una de las razones por las que raramente se
utiliza el MSA "puro". Es fácil comprender que, por ejemplo, el número exacto de mujeres en edad
fértil en una provincia o la cantidad de niños del país que tienen entre 3 y 5 años son, en
condiciones normales, números desconocidos, aunque, naturalmente, casi siempre se puedan
tener valores aproximados (sobre todo poco después de un Censo Nacional). En otro tipo de
poblaciones, tales como el conjunto de sujetos de una ciudad cuyo padre haya muerto de un
infarto de miocardio, conocer exactamente ese número es simplemente quimérico. Prescindiendo
por el momento de esta limitación, consideremos brevemente la influencia de la magnitud de N
sobre el tamaño de muestra necesario.

Aquí se presenta un hecho muy poco intuitivo: la influencia de N es -en la mayor parte de las
situaciones prácticas- despreciable. En efecto, si se tienen dos poblaciones con
aproximadamente el mismo valor de S y los requerimientos de precisión no varían, el tamaño de
2

muestra necesario será aproximadamente el mismo aunque las poblaciones sean de tamaños
muy diferentes. Dicho de otro modo: lo que influye de manera sustancial en la precisión de las
estimaciones no es la magnitud relativa de la muestra con respecto a la que tenga la población
(expresada formalmente a través de la fracción de muestreo f ), sino el tamaño absoluto de la
muestra. Esto es válido cuando, como ocurre casi siempre, se trate de poblaciones muy grandes
respecto de los posibles tamaños muestrales, pero no rige cuando el valor de f sea apreciable
(por ejemplo, no cuando sea mayor que 0.1)

20
En rigor, dependen de un cuarto componente, la confiabilidad; pero ya
se aclaró que se asumiría la más convencional (95%).

Página -68-
L.C.Silva
Para ilustrar estas ideas, supongamos que se planifican dos estudios de fecundidad: uno en una
gran ciudad donde hay alrededor de medio millón de mujeres en edad fértil, y otro en uno de sus
municipios que tiene unas 55 000 mujeres en esa franja de edad. Supongamos que en ambos
casos se quiere conocer mediante MSA el salario medio de dichas mujeres con error no mayor de
$7 y que -de estudios anteriores- se conoce que S es aproximadamente igual a $75 para ambos
grupos. ¿Cuál sería el tamaño de muestra necesario en cada estudio? Hay que aplicar la fórmula
(1.96 )2 (75 )2
[3.9] para cada situación: n0 = 2
 441 es el mismo en los dos casos (no depende de
7
N); el efecto del tamaño poblacional puede evaluarse calculando
n0 . Para toda la ciudad se
1 + nN0
441 441
tiene n = 441
 441 y, para el municipio, n = 441
 437 .
1 + 500.000 1 + 55.000

O sea, el tamaño de muestra para ambas poblaciones sería básicamente el mismo. Sin embargo,
si el estudio se fuese a verificar en un área de salud que tuviese solo 1000 mujeres en las edades
441
de interés, la reducción del tamaño de muestra sería apreciable: n = 441
 306 .
1 + 1.000

ii) Máximo error admisible.

El máximo error admisible E 0 refleja el grado de precisión que se desea como mínimo. Puesto
que E o figura en el denominador de la fórmula de no , y como a su vez n crece cuando lo hace
no , la fórmula [3.9] conduce a que el aumento en la precisión exigida incrementa el tamaño
muestral necesario, hecho compatible con nuestro sentido común.

En su determinación interviene vitalmente el usuario del muestreo, ya que es él quien mejor puede
identificar las consecuencias prácticas que se podrían producir, en caso de superar un error dado.

Cabe aquí hacer una observación en consonancia con las consideraciones preliminares
contenidas en la Sección 1.10.4.

Puesto que la fórmula [3.9] exige que anticipemos un error máximo admisible, es evidente que
éste habrá de nacer de una reflexión racional (si tuviera sentido fijar E 0 libremente, entonces sería
mejor decidir el tamaño muestral directamente sin más trámite). Las claves de esa racionalidad
son dos:

a) La situación práctica, que conduce a que nos preguntemos ¿cuál sería un nivel de precisión
mínimo aceptable teniendo en cuenta lo que ya se sabe sobre este parámetro? En efecto, no
tendría sentido plantearse estimar, por ejemplo, la tasa de ciegos en una ciudad con un error
absoluto máximo de 2%, ya que cualquiera que sea el intervalo que obtengamos, éste será
“no informativo” (véase Sección 12.8.2).

Página -69-
L.C.Silva
b) La magnitud que a grandes rasgos tiene el parámetro. Por poner un ejemplo elocuente, es
fácil advertir que no se puede valorar si una precisión de un kilogramo, al estimar un peso
promedio, es o no aceptable mientras se ignore qué es lo que estamos pesando
(probablemente sería exageradamente exigente si se trata de camiones, adecuada si fueran
personas adultas, y totalmente insuficiente si fueran lombrices). Se trata del mismo callejón sin
salida en que se estaría si, para medir la longitud de un objeto, hubiera que decidir si ha de
emplearse una cinta métrica, una regla escolar, un pie de rey o un micrómetro sin conocer
cuál es el objeto en cuestión.

Ambos asuntos, emparentados entre sí, conducen a pensar en términos relativos a la hora de fijar
Eo .

Típicamente, E 0 suele tomarse entre el 5% y el 10% de la magnitud que presumiblemente podría


tener el parámetro que se quiere estimar ( er = 0.05 o er = 0.10 respectivamente).

iii) Varianza poblacional

Aquí se presenta una situación contradictoria: para calcular n se necesita S 2 , pero éste no solo
es un parámetro desconocido sino que ni siquiera puede estimarse, ya que, obviamente, la deter-
minación del tamaño muestral es previa al acto de la selección (y, por ende, anterior a toda
aspiración de emplearla para hacer una estimación). Básicamente son dos las opciones que se
sugieren en los textos clásicos para resolver esta contradicción:

a) estimarlo a través de una muestra piloto

b) obtener un valor a partir de las referencias que se tengan de trabajos o experiencias


similares ya realizados

En general, es claramente intuitivo que cuanto más variable sea cierta realidad, más información
sobre la misma será necesario poseer para poder describirla aceptablemente. Por ejemplo, un
cm2 de cierta tela puede servir para apreciar cómo es toda la tela si ésta es uniforme; pero sería
insuficiente si se tratara de un estampado; y cuanto más complejo sea el estampado, mayor será
la muestra de tela necesaria para describirlo. La fórmula [3.9] sintetiza este hecho ya que, a
mayor valor de S 2 , mayor es el tamaño muestral necesario.

En esta sección se ha tratado el problema de la determinación del tamaño muestral de manera


bastante esquemática. En la práctica el asunto es mucho más complejo por múltiples razones; la
primera de ellas es que en las aplicaciones más comunes no se utiliza el modelo que se ha
supuesto aquí (MSA). Por esa razón, en el último capítulo (Sección 12.3) se vuelve a abordar el
tema, entonces con un enfoque mucho más flexible y realista.

3.8 Estimación de otros parámetros

Página -70-
L.C.Silva
Las secciones anteriores se dedicaron al caso en que el problema de muestreo se asocia a la
estimación de una media poblacional. Con frecuencia, sin embargo, el interés se centra en la
estimación del total acumulado por una variable en una población o -con muchísima más
frecuencia- en la estimación de un porcentaje o de una fracción o proporción21. Como se verá, la
teoría correspondiente a estos casos se asocia íntimamente a la desarrollada para la media pobla-
cional.

N
Supongamos que lo que se desea es estimar el parámetro X T = X
i=1
i , el llamado total

poblacional de la variable X. Consideremos, por ejemplo, que se tiene una población de N sujetos
que fueron objetos de cierta intervención quirúrgica, donde se define X i como el costo de la
operación correspondiente al i-ésimo sujeto y se quiere conocer el gasto total X T en que incurrió
el sistema de salud como consecuencia de esas N intervenciones. Obtenido dicho dato para los n
integrantes de una MSA, se tiene la información muestral x1 , x 2 ,.., x n ¿Cómo obtener una es-
timación insesgada de X T a partir de los datos muestrales?

Advirtiendo que X T = N X , es evidente que Xˆ T = N x cumple la condición de insesgamiento.


De aquí se deduce inmediatamente que:
var( Xˆ T ) = N 2 var( x ) 3.10

21
En la literatura estadística (especialmente en la que se dedica al
muestreo), se suele hablar de "proporción" para referirse a una
fracción en que el denominador es un número de unidades y el numerador
es el número de tales unidades que cumplen alguna condición. Ignoro
de dónde surge esta práctica (que abarca al inglés, con el término
proportion) pero la considero incorrecta. En efecto, el término
proporción está reservado para una relación en que intervienen cuatro
elementos. Se dice, por ejemplo, que a y b guardan la misma
proporción que c y d cuando se cumple que
Install Equation Editor and double-
click here to view equation. ¡Error!
Sólo el documento
principal.. Sin embargo, la expresión está tan
extendida que ocasionalmente la emplearemos como
sinónimo de fracción.

Página -71-
L.C.Silva

La fórmula ya conocida para obtener un intervalo de confianza vale ahora con la modificación
correspondiente para la varianza.

Cabe consignar que el resultado que se acaba de exponer es un caso particular del siguiente
teorema, cuya demostración puede hallarse en Kish (1965):

xt
Si llamamos xT al total muestral correspondiente a una muestra equiprobabilística entonces

es un estimador insesgado del total poblacional, donde  es la probabilidad de inclusión (común a
n
xi
todos los elementos). Más generalmente, cualquiera sea el diseño, 
i=1
es una estimación
i
insesgada del total poblacional.

Supongamos ahora que lo que interesa es estimar una proporción. O sea, se tiene una población
de N elementos, cada uno de los cuales posee o no cierta característica, y lo que se quiere es
estimar la fracción P = NA , donde A es el número total de elementos que poseen dicha condición.
Obviamente,  es un número mayor o igual que 0 y no mayor que 1. Con frecuencia este
parámetro se expresa multiplicado por una potencia conveniente de 10; tal es el caso -por
ejemplo- de los porcentajes, que no son sino fracciones multiplicadas por 100.

Para estudiar este problema resulta ventajoso "cuantificar" la variable cualitativa de la siguiente
manera: se define la variable X que sólo puede tomar el valor 1 o el valor 0 en dependencia de
que el sujeto tenga o no, respectivamente, la característica en estudio. O sea, se considera que la
población de valores X 1 , X 2 ,  , X N está integrada por ceros y unos, donde X i = 1 si el i-ésimo
sujeto tiene la condición y X i = 0 en caso de que no la tenga. A partir de ello es evidente que
N N
1
 X = A y, por lo tanto que, P = N  X
i=1
i
i=1
i .

Esto quiere decir que la proporción es un caso particular de la media aritmética; o sea, cuando X i
asume la forma particular que se acaba de describir, la media X pasa a ser la fracción P que
ahora nos ocupa.

Este es un hecho de singular importancia, ya que ahora solo resta adecuar la teoría desarrollada
para la estimación de X a esta forma particular de la variable.

En particular, teniendo en cuenta que para esos valores de X i se cumple que


N

 X =X = A
i=1
i
i=1
2
i

Página -72-
L.C.Silva
2
 N 
  X i 
 i=1  = A - A = N (P - 2 ) , no es difícil constatar que [3.3] se
N N 2
y que  ( X i - X ) =  X i2 -
2
P
i=1 i=1 N N
reduce, en este caso, a:

VAR (p) =
N PQ
(1 - f) 3.11
N -1 n
donde Q = 1 -  .

Si seleccionamos una muestra mediante MSA y llamamos x1 , x 2 ,  , x n a los valores de estos


1 n
elementos, se tiene que  xi es la fracción muestral de sujetos con la característica. En efecto,
n i=1
n
análogamente a como ocurre a nivel poblacional, la suma x
i=1
i tiene tantos sumandos iguales a 1

como elementos de la muestra tengan la condición. Llamémosle a a ese número y denotemos la


proporción muestral mediante la letra p .

Ahora, como ya sabemos que x es un estimador insesgado de X , independientemente de


cuáles sean los valores específicos que tengan los elementos e la población, se deduce que p es
un estimador insesgado de P .

1  n 2 
Observando ahora que [3.5] es equivalente a s 2 =   xi - n x 2  y que en este caso parti-
n - 1  i=1 
n n
cular se cumple  x =  x = a , se infiere que s
i=1
2
1
i=1
i
2
puede expresarse como una función de p :

donde q = 1 - p .

La varianza de p puede estimarse -haciendo uso de [3.6]- mediante:

var(p) =
pq
(1 - f) 3.12
n-1

Sustituyendo en la fórmula [3.4], tenemos que:

e = (1.96)
pq
(1 - f) 3.13
n-1

Página -73-
L.C.Silva

De modo que se puede calcular el intervalo de confianza para P con la fórmula [3.8].

Razonando de la misma manera, a partir de [3.9], es fácil arribar a que el tamaño de muestra
mínimo para estimar P con error absoluto no mayor que E 0 y confiabilidad del 95% viene dado
por:
no n0
n= 
N - 1 no 1 + nN0 -1
+
N N
donde
(1.96 )2 PQ
no = 2
3.14
Eo

Página -74-
L.C.Silva

3.8.3 Error absoluto, error relativo y estimaciones complementarias

Cuando se estima una fracción P , se está de hecho estimando también su complemento


Q  1  P . Puesto que el error absoluto estimado viene dado por la fórmula
pq
e  1,96 (1  f ) , es obvio que éste será el mismo para P que para Q ; consecuentemente,
n
e e
salvo que P  Q  0.5 , los errores relativos er ( p )  y er ( q )  nunca serán iguales.
P Q

Mirándolo al revés, si se fijara un error relativo para determinar el tamaño muestral a la hora de
estimar P , y el mismo error relativo para estimar Q , se obtendrían tamaños de muestra
diferentes, lo cual carece de sentido. Dicho de otro modo: no es posible estimar tanto P como Q
con el mismo error relativo22. ¿Cómo conciliar esta realidad con la recomendación opuesta, según
la cual lo único racional es operar con errores relativos? Reproduzco a continuación las ideas
contenidas en Silva (2000) sobre este controvertido asunto.

Consideremos primero un caso más general que el de P y Q : supongamos que se quiere


estimar una distribución donde, en lugar de 2, hay K categorías. Es decir, se quieren estimar K
K

porcentajes P1 , P2 ,···,PK que cumplen la condición  P  1.


I 1
i
¿Qué fórmula emplear para

determinar el tamaño muestral con el fin de estimar estos porcentajes?

Supongamos que K=3 y que para determinar ese tamaño elegimos uno de los porcentajes de
interés (digamos, P1 ). En principio los tres porcentajes interesan por igual, como por ejemplo
ocurriría si se tratara de estimar tasas de enfermos con SIDA, de seronegativos y de seropositivos
a VIH. Si se fija un valor para P1 a priori y un error absoluto e1 , se podrá aplicar la fórmula [3.14]

usando n0 
1,962
P1 100  P1 
. Pero, siendo así, entonces no se tendrá control alguno sobre la
2
e1
precisión con que se estimarán P2 y P3 , estimaciones que serán “rehenes” del e1 elegido.

A mi juicio lo único razonable sería centrar el interés en el más pequeño de todos, fijar un error
que se considere razonable (directamente un error relativo, o un error absoluto, pero teniendo en
cuenta cuál pudiera ser el valor de esa fracción, que es lo mismo que fijar un error relativo) y, con
esos datos, aplicar la fórmula, que producirá un tamaño con el cual se estimarían adecuadamente
(probablemente, con creces) los demás.

22
Esta circunstancia ha conducido a algunos autores (Seuc, 1998;
Marrugat, Vila y Pavesi 1999, por citar dos ejemplos) a recomendar
que se fije, simplemente, un error absoluto (el cual sí será común a
ambos parámetros).

Página -75-
L.C.Silva

Para ilustrar lo anterior, supongamos que hay 4 categorías de interés y que la distribución
verdadera es 3%, 10%, 18% y 69%. Supongamos que se elige la cuarta fracción para determinar
el tamaño muestral con que se quieren estimar las 4, y que como anticipación se establece el
valor P4  70 , así como un error absoluto de e4  7 . La fórmula [3.14] usando

n0 
1,96 P 100  P  , produciría un tamaño de muestra igual a n=165 (suponiendo, ahora y
2
4 4
2
e4
en el resto de esta Sección, que la fracción de muestreo es despreciable). Si tras seleccionar tal
muestra se obtuvieran, pongamos por caso, las estimaciones 2%, 10% y 18% para los tres
primeros porcentajes, los respectivos errores estimados serían aproximadamente 2%, 5% y 6%
(errores relativos de 100%, 50% y 33% respectivamente). Es virtualmente seguro que en el primer
caso, y quizás en el segundo y hasta en el tercero, los intervalos obtenidos no contribuyan a saber
nada que no se conociera de antemano. Lo que hay que hacer es concentrarse en el primero de
ellos (por ser el más pequeño) y fijar como error absoluto un valor que pudiera ser quizás e1  0,6
(20% de 3), lo cual arrojaría que el tamaño necesario es 2102. Ello producirá para los otros tres
porcentajes, respectivamente, los siguientes errores absolutos: 1.3%, 1.6% y 2.0%. Ellos pudieran
ser, en algunos de los casos, más pequeños de lo necesario, pero ese es el precio que hay que
pagar por el hecho de que una de las tasas que interese (la primera) sea tan pequeña.

La situación en que K=2 no es más que un caso particular de lo anterior. Habría que elegir el
menor de los dos (entre P y 1  P ) y calcular el tamaño necesario fijando sobre bases racionales
el error para éste. Es la única manera de estar seguros de que dicho error absoluto estimado
(común a ambos en este caso) será razonablemente pequeño tanto para el menor como para el
mayor de los dos porcentajes complementarios23.

3.9 Un problema de urnas

A continuación se plantea un problema que resulta útil en más de un sentido. En primer lugar
porque es bonito (en definitiva, porque no reivindicar la belleza como algo útil?). En segundo
lugar porque subraya el papel del tamaño muestral absoluto en relación con la precisión. Y,
finalmente, porque enfatiza que la varianza de los estimadores es el recurso natural para valorar la
eficiencia de un procedimiento muestral (especialmente, para comparar procedimientos
muestrales alternativos).

Supongamos que dos personas participan en el juego que se describe a continuación. En un


salón hay dos urnas (A y B) cada una de las cuales contiene bolas rojas y blancas. La urna A
contiene N A = 200 bolas en total, en tanto que la B contiene N B = 10.000 ; el porcentaje P de
bolas rojas se desconoce, pero se sabe que es el mismo en ambas urnas. De lo que se trata es
de estimarlo; para ello se consideran solo dos estrategias posibles:
A: Seleccionar n A = 50 bolas al azar de la urna A

23
En relación con este tema, véase también la Sección 12.8.2.

Página -76-
L.C.Silva
B: Seleccionar n B = 300 bolas al azar de la urna B

Supongamos que cada uno de los dos contendientes selecciona una estrategia diferente; hecha la
experiencia, cada uno obtiene su estimación, basada, naturalmente, en la fracción muestral de
A B
bolas rojas PA  y PB  según el caso, donde  A y  B representan el número de bolas de
nA nB
ese color que hay en la muestra de tamaño 50 y 300 respectivamente. El ganador del juego es
aquél cuya estimación de P sea más precisa. O sea, A ganará si | p A - P | es menor que
| p B - P | , y B gana en caso contrario. Si p A dista de P tanto como p B , se declarará un empate.
¿Cuál estrategia será la más favorable? Dicho de otro modo, ¿cuál de las dos alternativas
produce la victoria con mayor probabilidad?

El problema puede plantearse en términos de errores muestrales: en ambos casos se hace un


MSA para estimar el mismo porcentaje desconocido, pero con tamaños muestrales y poblaciona-
les diferentes. La pregunta formulada equivale a establecer para cuál de las dos estrategias el
error de muestreo es menor.

El sentido común o la intuición indican (equivocadamente) a la mayor parte de las personas que
debe elegirse la estrategia A, pues la inferencia se estaría basando en la observación del 25 % de
la población (50 de 200), en tanto que bajo la estrategia B ésta se basaría en un mísero 3 % de la
población (300 de 10.000). Sin embargo, 300 es mucho mayor que 50 y, por ende, la primera
muestra contiene más información que la segunda, hecho que parece no contar para la mayoría
de las personas.

En palabras de Kahneman y Tversky (1972): "la noción de que la varianza muestral decrece
proporcionalmente con el aumento del tamaño absoluto de la muestra no parece integrar del
repertorio de intuiciones del ser humano". Bar-Hillel (1979) realizó una experiencia consistente en
plantear a 110 estudiantes que solicitaban su ingreso a la universidad un problema similar al que
hemos formulado arriba. El 65 % de ellos escogió la estrategia A y el resto la B. En mi
experiencia, el porcentaje de individuos que se pronuncia por la estrategia más ineficiente es aun
mayor.

Volviendo al problema, al aplicar la fórmula [3.11], se tiene:


PQ N A - n A 200 - 50
VAR ( p A ) = = PQ = (0,015) PQ
nA - 1 N A (49)(200)

PQ N B - n B 10000 - 300
VAR ( p B ) = = PQ = (0,003) PQ
nB - 1 N B (299)(10000)

Página -77-
L.C.Silva

O sea, independientemente del valor de P , VAR ( p B ) es 5 veces menor que VAR ( p A ) . Si se


hace 1000 veces la experiencia: ¿en cuántas de ellas ganará cada contrincante? La respuesta no
tiene una solución analítica simple aunque sepamos que estrategia B conducirá más veces a la
victoria que la estrategia A para cualquier valor del porcentaje común a ambas urnas. En una
experiencia simulada se obtuvo, por poner un ejemplo, lo siguiente: para P = 0,40 , B ganó 705
veces, perdió 272 veces y se produjeron 23 empates. Para P = 0,01 (solo el 1 % de las bolas son
rojas en cada urna), B ganó en 902 oportunidades, perdió 56 veces y se obtuvieron 42 empates.
El programa URNAS que se halla dentro del módulo de simulaciones de SIGESMU (véase el
Capítulo 11) permite simular esta experiencia con parámetros ( N a , N a , nb , N b y P ) definidos por
el usuario.

3.10 Discusión de un ejemplo práctico

Supongamos que se tienen 6760 historias clínicas (HC) acopiadas durante varios años por el
servicio de psiquiatría de un hospital, correspondientes a pacientes que ya lo abandonaron
(alrededor del 15 % por fallecimiento y el 85 % restante por recibir el alta). Las HC se hallan
archivadas de modo que pueden numerarse del 1 al 6760 y se quiere seleccionar una muestra
con vistas a una auditoría médica. Aunque la encuesta habrá de registrar diversos aspectos (y
será más acuciosa para los sujetos que recibieron el alta con la etiqueta de "muerte hospitalaria"),
admitamos que interesa especialmente estimar dos parámetros: porcentaje de historias que
contenían alguna deficiencia24 y tiempo medio de estancia. Supongamos que este último, sin
embargo, solo interesa para los sujetos que estaban vivos en el momento del alta.

Habiéndose decidido aplicar un MSA, el primer paso consiste en determinar el tamaño de muestra
necesario. Supongamos que se plantea que la precisión no tiene que ser mayor que la que brinda
un error relativo del 10 %. Esto quiere decir que si el verdadero valor del tiempo medio de
estancia fuese, por ejemplo, de 20 días, el error máximo que se admitiría para dicha estimación
sería de 2 días.

Consideremos que -como es usual- se ha decidido trabajar con confiabilidad igual al 95 %. Para
poder aplicar la fórmula [3.9] hace falta aún tener una idea de la varianza de esta variable (tiempo
de estancia).

Al examinar una muestra piloto de 15 historias de sujetos vivos al alta (elegidas sin ningún criterio
especial)25 se obtuvieron los siguientes resultados (en días):

24
No definiremos ahora qué se entiende por "deficiencia" de una HC, pues
ello resulta irrelevante; en una encuesta real, sin embargo, tal
definición operacional sería de máxima importancia.
25
No procede que para este pilotaje se haga un diseño riguroso; todos los
objetivos del estudio piloto suelen alcanzarse sin dificultad haciendo
una selección informal, esencialmente basada en el sentido
común.(Véase Sección 2.4)

Página -78-
L.C.Silva

18 67 12 49 32 146 36 27 121 83 8 16 10 30 30

La media y la varianza de estos números son iguales, respectivamente, a26:


1 15
X P=  X P i = 45.7
15 i=1

1 15
= ( X
2 2
S P Pi - X P ) = 1727.95
14 i=1

26
Se ha usado el subíndice P para subrayar que se trata de datos salidos del
pilotaje.

Página -79-
L.C.Silva

Puesto que el 10 % de X P es igual a 4.6, tomaremos E 0 =4.6. Aplicando la fórmula [3.9] se tiene
entonces que: n = 299,7
Finalmente, hay que contemplar el hecho de que solo el 85 % del total de las historias clínicas
corresponden a los individuos que interesan a los efectos de este parámetro (vivos al alta). De
modo que la cifra final sería el resultado de dividir 299.7 entre 0.85, operación que arroja un
tamaño muestral de 353 historias.

Por otra parte, supongamos que de un estudio anterior se conoce que alrededor del 30 % de las
historias clínicas de psiquiatría presentan alguna anomalía en el sentido definido para este
estudio. Si queremos estimar  con el mismo error relativo mencionado antes (10 %)27, en
términos absolutos se trata entonces de la décima parte de 30; es decir E 0 = 3 . De modo que, a
los efectos del porcentaje, el tamaño muestral sería, según la fórmula [3.14]: n = 791 .

Los números 353 y 791, candidatos a constituir el tamaño muestral, son marcadamente
discrepantes: ¿cuál elegir? Una solución es alcanzar una especie de compromiso como, por
ejemplo, un número intermedio; también puede ser el mayor de los dos (lo cual cubriría ambas
demandas, una de ellas con creces), u otra variante que no esté muy alejada de las alternativas
en juego. Supongamos que, finalmente, se decidió estudiar 600 historias clínicas. O sea, se
supone, en resumen, que con una muestra de alrededor de 600 historias se podrá estimar
adecuadamente el tiempo medio de estancia X y el porcentaje de historias con deficiencias,
ambos con error relativo no muy alejado del 10 %. Así las cosas, se tiene que la fracción de
muestreo es f = 0,088 .

Supongamos que, a lo largo del estudio de la muestra, cinco de las HC seleccionadas tuvieron
que ser desechadas por resultar ilegibles, de modo que los datos corresponden a solo 595
encuestas. Hecho el estudio, se obtuvo que el número de historias con anomalías ascendió a 203
y que el número el historias correspondientes a altas de sujetos que salieron vivos resultó ser 487.

Por otra parte, si llamamos X i al número de días que estuvo ingresado el paciente
correspondiente a la i-ésima historia clínica entre aquéllos 487 que salieron vivos del servicio,
supongamos que se obtuvieron los siguientes resultados:
487

 x = 22411
i =1
i s 2 = 2012.21

27
Cabe preguntarse, como es natural, qué porcentaje tomar como bueno para la
definición del error relativo o, alternativamente, porqué tomar el
10%. No existe ninguna razón especial; quizás 2 argumentos pueden
invocarse. Primero, que un error del 10% de lo que se mide, suele
admitirse en la vida común como algo "aceptable". Segundo, que los
humanos tenemos 10 dedos (o sea, el número 10 es el más cercano a
nuestros ojos, lo cual le dé quizás preferencia sobre el 9 o el 10,2).

Página -80-
L.C.Silva

En este punto, ya es inmediato el cómputo de intervalos de confianza para los parámetros.

Comencemos por las estimaciones puntuales:


22411 203
x= = 46.02 p= = 0.341
487 595

Se ha de notar que los denominadores son diferentes: mientras el porcentaje se estima


empleando la muestra completa (595 historias clínicas), la media se estima con la submuestra de
los 487 que estaban vivos al alta. Esta última, tal y como se verá más adelante (Sección 3.11.2)
puede considerarse un MSA del universo de pacientes vivos en el momento del alta hospitalaria.

Resumiendo hasta ahora: los resultados muestrales permiten decir que el tiempo de estancia
estimado para sujetos vivos en el momento del alta es de 46 días, y que el 34 % de las historias
reflejan alguna anomalía. Ahora corresponde estimar los errores asociados a estas estimaciones.

Con los datos arriba consignados y usando las fórmulas [3.6] y [3.12] respectivamente se
obtienen las estimaciones de las varianzas, necesarias para estimar los errores:

var( x ) = 3,776 var(p) = 0,00042

Página -81-
L.C.Silva

Finalmente, los intervalos de confianza, calculados a través de la fórmula usual, son: [42,2 - 49,8]
para la media (en días), y [30,1 - 38,1] para el porcentaje. Quiere esto decir que se puede estar
virtualmente seguro de que, aproximando a días completos, la estancia media en el hospital de
aquellos pacientes (del total de 6760) que estaban vivos al alta, no está por debajo de 42 ni por
encima de 50 días. Análogamente, el porcentaje de HC que exhiben alguna anomalía no supera
al 38 % ni es menor del 30 %28.

Obsérvese ahora que los errores relativos estimados son, respectivamente, del 8 % y del 12 %; o
sea, en el primer caso un número menor que el deseado, y en el segundo, uno mayor29. Esto es
totalmente lógico y ocurre típicamente en cualquier encuesta: algunas estimaciones serán más
precisas de lo previsto y otras menos, pues dependen de las variabilidades verdaderamente
estimadas con la muestra y no de las especulaciones realizadas para poder establecer el tamaño
muestral (aparte de que los tamaños calculados eran diferentes mientras que el empleado, desde
luego, es único).

Del ejemplo se deriva un planteamiento general ya formulado: debe procurarse una estimación
con el nivel de precisión previsto, y para ello ha de tomarse un tamaño muestral "adecuado" (en el
bien entendido de que éste es un concepto relativo y por ende susceptible de un manejo flexible).
Pero si, por alguna razón, esto no se lograse, queda un dividendo de gran importancia: luego de la
encuesta siempre puede calcularse de manera objetiva la magnitud del error en que, a lo sumo, se
incurrió. Asimismo, puede calcularse el error asociado a la estimación de cualquier otro parámetro
que con esa muestra quiera investigarse, aunque no haya intervenido en la determinación del
tamaño muestral, como ocurre con la inmensa mayoría de ellos.
3.11 Complementos del muestreo simple aleatorio

3.11.1 Muestreo simple aleatorio con reemplazo

Supongamos que en el ejemplo c) de la Sección 3.2, en lugar de seleccionar 5 bolas


simultáneamente de entre las 10 que se hallan en la urna, se procede del siguiente modo: se saca
una bola, se anota su número y se reintegra a la urna; después se mezclan las diez bolas y se
repite el procedimiento en otras cuatro oportunidades. Bajo tal procedimiento una misma bola
puede ser seleccionada más de una vez.

Cuando una población de tamaño N se somete a la elección de n elementos de manera tal que,
1
en cada selección, todos los elementos tienen probabilidad de ser elegidos, se dice que se ha
N
realizado un muestreo simple aleatorio con reemplazo. (MSACR)

28
Nótese que, en rigor, 38.1 supera a 38, pero solo en un marco de
puntillosidad formal: para el "pensamiento estadístico", estos dos
números son una misma cosa.
29
Estos errores relativos se estiman, naturalmente, dividiendo la mitad de la
longitud de los intervalos de confianza entre la estimación puntual
del parámetro.

Página -82-
L.C.Silva

Si un elemento quedase incluido más de una vez en la muestra, al hacer cualquier estimación
debe repetirse el valor correspondiente de la variable tantas veces como esto haya ocurrido. Al
igual que con MSA, puede demostrarse que la media muestral x es un estimador insesgado de
X , así como que la fórmula para la varianza de x es, en este caso, la siguiente:
N - 1 S2
VAR R ( x ) = 3.15
N n

Al comparar [3.15] con [3.3] se aprecia que la varianza de la media, si se ha usado MSA, nunca
puede ser mayor que la que corresponde al MSACR. En efecto, puede observarse que la
igualdad sólo se produce si n = 1 (en cuyo caso, naturalmente, ambos métodos se reducen a lo
mismo), pero que si n > 1 , entonces necesariamente se cumple que:
VAR R ( x ) > VAR( x )

Página -83-
L.C.Silva

Este resultado es completamente lógico, ya que el MSA siempre produce muestras integradas por
n elementos diferentes de la población, en tanto que a través de MSACR, el número de
elementos distintos entre sí puede ser menor, con la consecuente pérdida de información. Es
decir, el MSA siempre. Será más eficiente que el MSACR para un mismo tamaño muestral.

Corresponde enfatizar, que aquí se han usado las fórmulas de la varianza con un objetivo
diferente del más usual: hasta ahora se habían empleado, básicamente, para hallar estimadores
del error de muestreo, pero en este caso, al igual que en el problema de las urnas de la Sección
3.9, han servido para comparar dos métodos de selección. Esto tiene importancia metodológica:
ilustra cómo pueden y deben hacerse evaluaciones relativas de los procedimientos desde un
punto de vista general e independiente de los resultados fortuitos a que pueden dar lugar las
aplicaciones específicas.

3.11.2 Subconjuntos de una muestra simple aleatoria

En Hansen, Hurwitz y Madow (1953) se puede ver la demostración del siguiente resultado:

Si se toma una muestra mediante MSA de una población, entonces los


elementos de dicha muestra que tengan cierta característica constituyen
una muestra simple aleatoria del subconjunto de la población definido por
la posesión de dicha característica.

Este resultado tiene relevancia práctica, ya que es muy común la situación en la cual, además
de ciertas estimaciones poblacionales, se desea hacer algunas estimaciones restringidas a una
parte de la población, a la que suele llamársele una clase o un dominio de la población.

Por ejemplo, imaginemos que se proyecta una encuesta para estudiar la morbilidad por accidentes
entre estudiantes de enseñanza media. Además del interés por estimar ciertos parámetros
poblacionales (por ejemplo, el promedio de días de clase perdidos por concepto de accidentes, o
el porcentaje de individuos accidentados durante cierto lapso), lo natural es que también se
deseen estimaciones según grupos de edad y sexo, o dentro de otros dominios (clases) como el
de los alumnos escolarmente más y menos calificados, los que practican o no deportes, etc.

Lo que afirma el teorema es que si la selección inicial se efectuó mediante MSA, entonces para
estudiar una subpoblación se puede considerar que los elementos de la muestra que estén en
dicha parte constituyen una MSA de la misma. De modo que el procesamiento de esa submuestra
puede hacerse con la misma teoría general que se aplicaría a la muestra inicial30. Debe
consignarse, sin embargo, que el nuevo tamaño muestral de esta submuestra pasará a ser -en
rigor- una variable aleatoria.

30
De hecho, así fue como se procedió para estimar la media muestral del
tiempo de estancia en el ejemplo de la Sección 3.11.

Página -84-
L.C.Silva
Este resultado tiene utilidad práctica incluso por otra razón: con frecuencia el listado al que se
tiene acceso contiene elementos que no pertenecen a la población objeto y se hallan dispersos
dentro de dicho listado. En tal caso, si se conoce que la fracción de estos elementos ajenos a la
población de interés es  , se toma una muestra de tamaño y se trabaja luego con los que efec-
tivamente pertenezcan a dicha población.

Por ejemplo, supongamos que se tiene un listado con los nombres y centros de trabajo de un
conjunto de enfermeras en el cual no aparece consignada la edad, pero que lo que interesa para
un estudio de morbilidad laboral es seleccionar una muestra de 100 enfermeras mayores de 35
años. Si se sabe que solo el 40 % de las que tienen esta profesión sobrepasan tal edad (o sea
 = 0,6 ), entonces deben seleccionarse 100
0.4 = 250
por MSA y conservar solo aquéllas mayores
de 35 años para el estudio; ese conjunto puede ser tratado como una MSA tomada de la
población de elementos mayores de 35 años.

Por extensión, para muestras bastante grandes y si se trata de subconjuntos que no se


"concentran" en zonas específicas de la población, sino que están dispersas dentro de ella, este
resultado vale para cualquier diseño muestral. Es decir: el subconjunto de una muestra definido
por la posesión de un rasgo dado puede considerarse, en esencia, una muestra de todos los que
tienen dicho rasgo, que ha sido seleccionada con el mismo procedimiento muestral usado para la
muestra completa.

3.11.3 Asignación aleatoria

Supongamos que se planifica un ensayo clínico para evaluar la eficacia de la homeopatía en la


curación de la conjuntivitis y que se compararan 3 tratamientos: cierto remedio homeopático (A),
agua (B) y un colirio convencional (C). Se ha decidido tratar 50 pacientes con cada uno de ellos.
Es necesario asignar aleatoriamente los próximos 150 enfermos que acudan a la consulta de
modo que queden ubicados 50 en cada uno de ellos. Potencialmente, se cuenta con un listado de
150 sujetos. La asignación aleatoria a los tres grupos no es otra cosa que seleccionar una
muestra simple aleatoria de tamaño 50 y asignarle el tratamiento A a sus integrantes; luego
obtener otra muestra simple aleatoria de los otros 100 asignar el tratamiento B a éstos y
finalmente el tratamiento C a los 50 que restan. El procedimiento es algo engorroso, aun
contando con un programa informático para realizar selección aleatoria, ya que después de la
primera selección habría que renumerar del 1 al 100 a los sujetos no seleccionados. Por eso es
conveniente contar con programas ad hoc para la asignación, aunque, en rigor, lo que éstos
hacen es aplicar sucesivamente el MSA.

El programa ASAL incluido dentro del módulo de Simulaciones dentro de SIGESMU tiene
exactamente ese propósito (véase Capítulo 11).

3.11.4 Estimación de razón

Página -85-
L.C.Silva
Supongamos que estamos ante una población finita de N elementos y que se están
considerando dos variables diferentes X e Y , susceptibles de ser medidas sobre cada unidad de
análisis.

Puede entonces considerarse la razón entre los totales respectivos de estas variables en la
población. O sea, podemos definir un nuevo parámetro poblacional, al que llamaremos razón,
mediante la fórmula:
N

Y
3.16
i
i=1
R= N

X
i=1
i

Vale la pena detenerse brevemente a considerar algunas situaciones que ilustran el posible
interés por estimar razones. Los siguientes recuadros contienen tres de ellas:

Supongamos que se estudia una comunidad integrada por núcleos familiares y definamos:

Xi = salario mensual que recibe la i-ésima familia

Yi = gasto mensual en que incurre la i-ésima familia por concepto de medicinas

El parámetro R expresa qué fracción o parte del salario es utilizado en la comunidad para

adquirir medicinas. En este caso R es un número entre 0 y 1.

Página -86-
L.C.Silva

La población en estudio está integrada por las viviendas de un área de salud. Se definen:

Yi = número de habitaciones de la vivienda i-ésima

Xi = número de residentes habituales de la vivienda i-ésima.

R puede entenderse en este caso como un índice de hacinamiento en el área de salud, que

expresa el número medio de individuos por habitación. R puede, teóricamente, ser mayor,

igual o menor que 1.

Se tiene una población de estudiantes (por ejemplo, alumnos de tercer año de medicina).
Consideremos:

Yi = promedio de notas del i-ésimo alumno en tercer año

Xi = promedio de notas obtenidas por el i-ésimo alumno durante su segundo año

R es un número que refleja si el grupo de estudiantes experimentó o no una mejoría de uno a

otro año, y expresa la magnitud de la mejoría (si R>1) o del deterioro (si R fuera menor que la

unidad).

Página -87-
L.C.Silva

El estimador que usualmente se utiliza es:


n

y
3.17
i
i=1
Rˆ = n

x
i=1
i

Supongamos que se desea estimar R a través de un muestreo simple aleatorio. Sean


x1 , x 2 ,  , x n y y1 , y 2 ,  , y n los resultados obtenidos al medir X y Y en n unidades
seleccionadas por MSA.
Se trata de un estimador sesgado: basta crear un ejemplo sencillo para corroborar que el
promedio de todos los posibles valores de R̂ no coincide con R .

Debe advertirse, como rasgo distintivo peculiar, que tanto el numerador como el denominador son,
en este caso, resultados aleatorios.

Se puede demostrar, sin embargo, que el sesgo de R̂ es una magnitud que disminuye
rápidamente cuando n aumenta, y que se aproxima a 0 para valores medianamente grandes del
tamaño muestral.

La varianza de R̂ se estima mediante la fórmula:


n n 2 n n

var(Rˆ ) =
1- f
  y i + Rˆ 2  x - 2 Rˆ  x
2
i i yi  3.18
x
2
T n - 1  i=1 i=1 i=1 
n
donde xT = x
i=1
i es el total muestral de la variable X .

Debe señalarse que la fórmula [3.18] se puede usar sólo si la variabilidad del denominador de R̂
no es muy acusada. Concretamente, como medida de variabilidad de xT se ha sugerido el
siguiente valor:
sx
cv = n(1 - f)
xT

Página -88-
L.C.Silva
xi - x 2 . En términos prácticos, se exige que cv sea menor que 0.2 (Kish,
n
1
donde s x = 
n - 1 i=1
1965).

Consideremos que en el segundo ejemplo arriba mencionado el tamaño poblacional es N = 184 y


que los valores de X e Y para una muestra simple aleatoria de tamaño n = 12 son los que
siguen:

Vivienda 1 2 3 4 5 6 7 8 9 10 11 12 Total

Habitaciones 2 1 3 4 2 2 2 2 3 2 1 4 28
Residentes 7 5 2 3 2 2 1 9 5 7 9 11 63

Entonces:
12 63
1- R̂ = = 2,25
var(r) = 184  12 [453 + (2,25
28 )2 (76) - 2(2,25)(14 7) ] = 0,229
2
28 11

Página -89-
L.C.Silva
Es fácil corroborar que cv = 1,41 y que en este caso puede emplearse [3.18], lo cual arroja el
resultado: e = (1.96) 0,229 = 0,94 . Es decir, se estima que hay 2,25 individuos por habitacion
con un error de casi un habitante.

APÉNDICE: El azar y los números pseudoaleatorios

Una posible definición de lo que significa el azar sería "aquello no susceptible de ser programado".
Obviamente, esto se contradice directamente con la existencia de programas computacionales
capaces de producir números aleatorios. En rigor, lo que se puede obtener con las PC son los
llamados números pseudoaleatorios. Vale decir: se trata de algoritmos que permiten obtener
secuencias de dígitos que soportan adecuadamente las pruebas de aleatoriedad y son
considerados como aleatorios a todos los efectos prácticos.

El trabajo original en esta materia fue debido a Neuman (1951), quien introdujo el método
conocido como middle square. La idea central era tomar un número inicial (semilla) de n dígitos,
elevarlo al cuadrado para formar así un número de 2n dígitos, tomar entonces los n dígitos
intermedios para continuar el ciclo elevándolo al cuadrado, y continuar sucesivamente el proceso.
Por ejemplo, consideremos n = 4 y tomemos la semilla S 0 = 8374 . Los siguientes tres números
de la secuencia serían:
S 0 = 70123876 --------> S 1 = 1238
2

S 1 = 1532644 --------> S 2 = 3264


2

S 2 = 10653696 --------> S 3 = 6536


2

Lamentablemente, este proceso conduce bastante rápidamente a una repetición periódica,


especialmente si uno de los dígitos elegidos para integrar S 0 es cero.

Una importante contribución en el refinamiento de estos procesos fue debida a Lehmer (1951)
quien propuso el método de la congruencia lineal, en que una sucesión de números "aleatorios" se
obtiene a partir de una semilla r o (no negativa y menor que cierto m prefijado) del modo siguiente:

r i + 1 = (a r i + b) mod m

Página -90-
L.C.Silva
donde los números a y b son también no negativos e inferiores a m (NOTA: recordar que la
expresión X = Y mod m equivale a decir que el resto resultante de dividir Y entre m es igual a
X , en ese caso se dice que Y es congruente con X módulo m ). Tras obtener la sucesión, los
números aleatorios serán ai =
r i . Por ejemplo, si tomamos m = 235 , a = 4 , b = 13 y = 21 , se
ro
m
tiene que a r o + b = (4) (21) + 13 = 97 ; por otra parte, 97/235 = 0 * 35 + 97 , de modo que,
r 1 = 97 . Los primeros 10 valores de r i y de Ai serían:
r0 = 21 a0 = 0.089
r1 = 97 a1 = 0.413
r2 = 166 a2 = 0.706
r3 = 207 a3 = 0.880
r4 = 136 a4 = 0.579
r5 = 87 a5 = 0.370
r6 = 126 a6 = 0.536
r7 = 47 a7 = 0.200
r8 = 201 a8 = 0.855
r9 = 112 a9 = 0.477

El trabajo realizado a lo largo de los últimos 40 años en esta área ha sido intenso y productivo.
Revisiones exhaustivas de esos esfuerzos pueden hallarse en Sowey (1978), James (1990) y
Dodge (1996).

CAPITULO 4. MUESTREO SISTEMÁTICO

4.1 Una alternativa al muestreo simple aleatorio

Supongamos que se quiere elegir una muestra de tamaño 80 de un listado de médicos que
contiene exactamente 16.000 nombres ordenados alfabéticamente.

Una primera idea sería seleccionar una muestra simple aleatoria, en cuyo caso la fracción de
muestreo sería igual a f = 16000
80 1
= 200 ; esto quiere decir que la muestra contendría el 0,5 % de los
individuos de la lista. Para aplicar tal procedimiento sería necesario numerar primero
consecutivamente a los 16.000 elementos de la población, después seleccionar al azar 80
números menores que 16000 diferentes entre sí y, finalmente, identificar a los 80 sujetos
asociados con los números resultantes. Como resulta evidente, tal procedimiento resulta
considerablemente laborioso.

Puede entonces contemplarse un recurso alternativo, conocido como muestreo sistemático (MS),
el cual se bosqueja a continuación.

Se selecciona un número aleatorio r entre 1 y 200 y se forma la sucesión siguiente:


r, r + 200, r + 400,    , r + 15800

Página -91-
L.C.Silva
que consta de exactamente 80 números e identifica a otros tantos individuos diferentes. Los
elementos que integran esta muestra se han determinado por un procedimiento en el que inter-
viene el azar, aunque de manera muy especial. En efecto, tan pronto se elige aleatoriamente el
primer elemento de la muestra (el que ocupa el r-ésimo lugar del listado), queda automáticamente
determinado todo el subconjunto que resultará seleccionado en calidad de muestra. El número r
que se elige para iniciar el proceso de selección se denomina arranque aleatorio.

Es fácil convencerse de que en este ejemplo, puesto que hay sólo 200 arranques posibles y de
que las muestras posibles son disjuntas31 entre sí, el número de tales muestras posibles es
también igual a 200. Esto contrasta notablemente con el astronómico número de posibilidades a
que daría lugar un MSA. Es natural preguntarse si, a partir de esta peculiaridad, ambos métodos
son igualmente eficientes o no. A ello nos referiremos más adelante pero, por el momento,
corresponde subrayar la sencillez del trámite.
Tal sencillez se torna extrema en determinadas situaciones, para las que no es preciso siquiera
asignar números previamente a los elementos de la población, sino que basta con disponer de un
marco muestral con cierta ordenación físicamente explícita (visitas sucesivas de pacientes a un
centro, renglones en un libro de registro o historias clínicas en un estante). A modo de ilustración,
supongamos que se tiene un archivo con 3000 tarjetas o fichas de identificación de pacientes y
que se quiere seleccionar una muestra de tamaño 300 para estimar el porcentaje de tarjetas que
adolecen de algún tipo de omisión. Supongamos que el número elegido entre 1 y 10 resultó ser el
7: se toma la séptima tarjeta, se cuentan 9 tarjetas y se extrae la siguiente (decimoséptima según
el orden). El procedimiento se repite hasta que se haya "recorrido" el archivo completo.

4.2 Método regular de selección

Al plantearnos el problema de obtener una muestra sistemática de n elementos de un listado que


contiene N unidades, pueden
distinguirse formalmente dos situaciones:

(a) N es un múltiplo de n

(b) N no es un múltiplo de n

31
Es decir, ningún sujeto del listado puede pertenecer a más de una de
las muestras que pueden producirse.

Página -92-
L.C.Silva
El caso (a) equivale a que exista un número entero K tal que N = n K . La fracción de muestreo
será, por tanto, igual a f = K1 . Para aplicar el método descrito en la Sección 4.1 se selecciona el
arranque aleatorio r entre 1 y K y, a partir del sujeto que ocupa el lugar r , se van tomando
sucesivamente los que están K lugares más adelante hasta completar n elementos. En el caso
(b) no existe un entero K que cumpla N = n K . No obstante, una posibilidad para la aplicación
N
del método consiste en definir K como la parte entera de la fracción n (o simplemente como
el entero más próximo a dicha fracción) y con ese número obrar como en el caso (a). Al número
K se le llama intervalo de selección, y al procedimiento, método regular de selección sistemática.

No es difícil advertir de que, tanto en el caso (a) como en el (b), el método es equiprobabilístico;
así se deriva de las siguientes tres circunstancias: i) todo elemento de la población tiene
1
probabilidad K de ser seleccionado, ya que cada arranque tiene esta probabilidad de ser el
que resulte elegido, ii) cada muestra tiene la misma probabilidad de ser seleccionada que la que
corresponde al arranque que la determina, iii) cada elemento está en una y solo una de dichas
muestras.

Por otra parte, en el caso (a) el tamaño de muestra es necesariamente igual a n , pero en el caso
(b) dicho tamaño es un número que puede ser igual n o a n+1, en dependencia de que el
N
arranque r seleccionado sobrepase o no respectivamente, al resto de la razón . Por ejemplo, si
n
27
N = 27 y n = 6 podemos decidir que K sea la parte entera de 6 (o sea, K = 4 ), con lo cual
se tiene que 27=(6)(4)+3. Como se aprecia, el resto es 3; es fácil comprobar que si el arranque
(que se elige entre 1 y 4) es 1, 2 ó 3, entonces el tamaño de muestra es 7; pero si r es igual a 4
(sobrepasa al resto), entonces el tamaño de muestra es igual a 6.

Un esquema que ilustra gráficamente cómo se procede con este método es el que aparece en la
Figura 4.1. Allí se ha representado una pequeña población de 71 sujetos de la que se ha
seleccionado sistemáticamente una muestra de n = 12 unidades mediante la aplicación de un
intervalo de magnitud k = 6 a partir del arranque r = 3 . Nótese que para llevar adelante este
proceso hay que definir previamente cuál es el orden en que se considera organizada la
población. En el ejemplo de la Figura 4.1 se ha asumido que los sujetos están ordenados de
izquierda a derecha y que en cada nueva línea se recomienza por la izquierda (el mismo orden
que rige para leer las palabras en un texto escrito en idioma castellano).

4.3 Estimación de parámetros

Página -93-
L.C.Silva
Según un resultado de la Sección 3.12.2, la media muestral x es un estimador insesgado de X
en el caso (a), pero no necesariamente en el caso (b). Sin embargo, este sesgo es virtualmente
despreciable, especialmente si n es mayor que 40 (o sea, casi siempre); de modo que -a todos
los efectos prácticos- la distinción entre ambas situaciones, salvo contadas excepciones, es
irrelevante.
N
La situación en que n no es un número entero puede abordarse por otros procedimientos.
Por ejemplo, para el caso en que se desea seleccionar una muestra equiprobabilística de tamaño
exactamente igual a 51la de la situación (b), Kish (1965) sugiere el método del intervalo frac-
cional.

4.4 Otorgamiento de una probabilidad fija y selección en fases

Ocasionalmente, el interés radica en obtener una muestra equiprobabilística de un listado a partir


de una probabilidad prefijada32. O sea, en lugar de tener prestablecido un tamaño de muestra, en
esos casos se fija de antemano la probabilidad de inclusión que debe asignarse a cada unidad del
listado (o equivalentemente, el porcentaje de la población que debe quedar incluido en la
muestra). En tal situación se puede aplicar el método de selección en fases, debido a Fariñas y
Silva (1984), que procura resolver el problema de manera simple y económica. La teoría general
se desarrolla en el trabajo citado; a continuación sólo se describe una forma particular del método
general.

Supongamos que se tiene un listado de N = 70 elementos y que se desea una muestra


sistemática, pero seleccionada de manera que la probabilidad de inclusión para todo elemento sea
igual a f = 0,37 . Se plantea tomar un elemento de cada 3 por el método regular y, en una
segunda fase, adicionar, por el mismo método, un elemento de cada 18 de los que no fueron
seleccionados en la primera.

Supongamos que el primer arranque aleatorio (para la selección en la primera fase con intervalo
K1 = 3 ) fue igual a 2. Esto hace que seleccionemos los 23 sujetos que ocupan los lugares: 2, 5,
8, ...., 62, 65 y 68. Al listado remanente de 47 sujetos se le aplica ahora el método regular pero
con intervalo K2 = 18 . Supongamos que en este segundo caso el arranque fue el 3: se adicionan
a la muestra los individuos que están en los lugares 3, 21 y 39 del listado de los no seleccionados
(que resultan ser los elementos 4, 31 y 58 del listado original). En este ejemplo, en definitiva, la
muestra quedaría integrada por los 26 (37% de 70) individuos que ocupan los lugares marcados
en el listado que se reproduce a continuación:

1 2 3 4 5
6 7 8 9 10
11 12 13 14 15
16 17 18 19 20
32
Como se verá más adelante, en diseños complejos de la práctica suele
presentarse tal necesidad.

Página -94-
L.C.Silva
21 22 23 24 25
26 27 28 29 30
31 32 33 34 35
36 37 38 39 40
41 42 43 44 45
46 47 48 49 50
51 52 53 54 55
56 57 58 59 60
61 62 63 64 65
66 67 68 69 70

Nota: Aparecen en negrita los que se eligen en la primera fase y subrayados los que se adicionan
en la segunda

En general, si se obtiene una parte de la población mediante el método regular con intervalo K1 y
se adiciona otra parte mediante la aplicación del intervalo K2 a los no seleccionados en la primera
fase, es fácil demostrar que la probabilidad de inclusión de cada individuo es igual a:

f=
K1 + K2 - 1
4.1
K1 K2

En el ejemplo, esto es: f = 3(3)(18)


+18 -1
= 0.37

En Fariñas y Silva (1984) se considera una segunda posibilidad: tomar una muestra por el
método regular con intervalo K1 y suprimir de ella una parte de los elementos por el propio
método regular, pero con intervalo K2 . Puede demostrarse que en ese caso la probabilidad de
quedar seleccionado es, para cada elemento, igual a:

f=
K2 - 1
4.2
K1 K2

Página -95-
L.C.Silva

por ejemplo, si f = 0.42 , se puede tomar 1 de cada 2 y eliminar 1 de cada 6 de los que resulten
6 -1
elegidos. Es fácil ver que 0.42 = . En la misma población anterior de tamaño N = 70 , si se
(2)(6)
toma r1 = 1 (sujetos impares) y r2 = 5 , el resultado de la selección sería el siguiente:

1 2 3 4 5
6 7 8 9 10
11 12 13 14 15
16 17 18 19 20
21 22 23 24 25
26 27 28 29 30
31 32 33 34 35
36 37 38 39 40
41 42 43 44 45
46 47 48 49 50
51 52 53 54 55
56 57 58 59 60
61 62 63 64 65
66 67 68 69 70

Nota: Aparecen en negrita los sujetos finalmente elegidos, y subrayados los que fueron
eliminados en la segunda fase

Si se parte de la probabilidad, digamos f , entonces hay que hallar un par de números enteros
K1 y K2 que satisfagan con aceptable aproximación, o bien la ecuación [4.1], o bien la [4.2]. La
Tabla 4.1 presenta los intervalos de selección adecuados para la aplicación combinada del
método regular en las dos fases para cada f entre 0,01 y 0,50 (restringiendo K1 y K2 a valores
no superiores a 50).

En lugar de detallar los métodos considerados y la notación correspondiente, optamos por ilustrar
el uso de la tabla con tres ejemplos.

Ejemplo 1 f = 0,05

Se aplica el método regular con K1 = 20 . En este caso, K2 = 0 ; es decir, no procede aplicar una
segunda fase, pues hay un número entero cuyo inverso coincide con f .

Ejemplo 2 f = 0,15

Para este valor de f , la tabla señala K1 = 6 y K2 = - 10 . Hay que seleccionar un individuo de


cada 6 y luego aplicar el método regular con intervalo de magnitud 10 a la muestra seleccionada
para suprimir de ella los elementos resultantes de esta segunda maniobra. El signo menos indica,
precisamente, que el intervalo se aplica sobre la muestra para eliminar elementos de ella.

Página -96-
L.C.Silva

Ejemplo 3 f = 0,61

Como f > 0,5 se buscan los intervalos para 1 - f = 0,39 : K1 = 3 y K2 = 12 . Se aplica el método
regular con intervalo K1  3 y luego se adiciona uno de cada 12 de los sujetos no
seleccionados. De ese modo se ha elegido un subconjunto que constituye el 39% de la población.
Finalmente, se toma en calidad de muestra el complemento de ese subconjunto33

Tabla 4.1 Intervalos de selección (K1,K2) para aplicar el método en dos fases que produce
probabilidad de selección igual a f

f K1 K2 f K1 K2

.01 50 -2 .26 6 9
.02 50 0 .27 4 38
.03 33 0 .28 4 25
.04 25 0 .29 4 19
.05 20 0 .30 3 -10
.06 16 -25 .31 3 -14
.07 14 -50 .32 3 -25
.08 12 -25 .33 3 0
.09 10 -10 .34 3 60
.10 10 0 .35 3 40
.11 11 48 .36 3 25
.12 8 -25 .37 3 18
.13 7 -11 .38 3 14
.14 7 -50 .39 3 12
.15 6 -10 .40 2 -5
.16 6 -25 .41 3 9
.17 7 32 .42 2 -6

33
Notar que esa táctica permite que la Tabla 4.1 solo contemple las
soluciones para valores de f inferiores a 0,51.

Página -97-
L.C.Silva
.18 5 -10 .43 2 -7
.19 5 -20 .44 2 -8
.20 5 0 .45 2 -10
.21 9 9 .46 2 -12
.22 5 40 .47 2 -17
.23 5 27 .48 2 -25
.24 4 -25 .49 2 -50
.25 4 0 .50 2 0

Página -98-
L.C.Silva
4.5 Varianza de la media muestral

Una diferencia obvia entre el MSA y el MS radica en que en el segundo procedimiento la


ordenación de los elementos dentro del listado es un componente íntimamente relacionado con
los posibles resultados del método de selección, en tanto que para el MSA la ordenación original
de la población es completamente irrelevante. Concretamente, como se ilustra más adelante en
esta sección, en MS el ordenamiento de la población determina las muestras posibles y, por lo
tanto, también la varianza del estimador que se considere.

N
Para la discusión subsiguiente, asumiremos que se está en la situación en que el intervalo n es
un número entero K . En tal caso, las k muestras posibles contienen exactamente n elementos y
son disjuntas dos a dos, (ya que no existe ningún elemento de la población que pertenezca a más
de una de las muestras posibles).

Llamemos xi a la media muestral correspondiente a la i-ésima de las K muestras posibles y


x ij al elemento j-ésimo de dicha muestra. Como ya sabíamos de la Sección 4.2, la media
muestral es un estimador insesgado; es fácil comprobar que:
K
1
X=
K
x
i=1
i

En efecto:
K K n K n
1 1 1 1
K

i= 1
xi =
K
 
i= 1 n j= 1
X ij =
Kn
x
i= 1 j = 1
IJ

Ahora, puesto que Kn = N , y dado que ninguna pareja de muestras posibles se interesecan, la
expresión de la derecha coincide con X .

Según la definición, se tiene que la varianza de x puede escribirse del modo siguiente:
K
VAR( x ) =
1
( x - X ) i
2
4.3
K i=1

Página -1-
L.C.Silva

Consideremos como ilustración el ejemplo de la Sección 3.4. Es fácil ver que, considerando el
listado de hospitales en el orden en que aparece en la Tabla 3.3, se pueden seleccionar K = 5
muestras de tamaño n = 3 . La Tabla 4.2 resume los posibles resultados.

Tabla 4.2 Estimaciones de X 57 para cada una de las muestras de tamaño 3 que pueden
obtenerse por MS de la población descrita en la Tabla 3.3.
Arranque r Hospitales Muestra Media Muestral
seleccionados

1 1 6 11 130 220 480 276,7


2 2 7 12 230 180 190 200,0
3 3 8 13 310 270 60 213,3
4 4 9 14 200 150 40 130,0
5 5 10 15 350 90 100 180,0

El promedio de estos 5 valores posibles de x es, efectivamente, igual a 200, la media poblacional.

Al aplicar la fórmula [4.3] se tiene que VAR( x ) = 2272,0 . Lo natural ahora es comparar este
resultado con el que se obtiene para un MSA de n = 3 elementos. En la Tabla 3.5 se vio que, en
tal caso, VAR( x ) = 3702,9 . De modo que, en este ejemplo, el muestreo sistemático resulta más
eficiente que el MSA de tamaño n = 3 . ¿Estamos ante una situación típica? ¿Se trata de una
casualidad? ¿de una excepción?.

Para responder a estas preguntas, notemos que cuando se aplica un MS el valor de VAR( x )
depende de la ordenación original con que aparezcan los elementos en el marco muestral. Las
muestras posibles en un muestreo sistemático dependen del orden en que se hallen las unidades
de análisis dentro del listado; consecuentemente, la varianza entre las medias posibles también se
modifica al cambiar dicho orden.

Por ejemplo, cuando decimos que si se usa una muestra sistemática de tamaño n = 3 en la pobla-
ción de la Tabla 3.3 la varianza asociada a la estimación de la media es igual a
VAR( x ) = 2272,0 ,se sobrentiende que nos referimos a la población de hospitales listada en el
orden en que aparecen en dicha tabla. Pero si los mismos 15 hospitales se organizaran de otro
modo, entonces las 5 muestras posibles de tamaño 3 no son las de la Tabla 4.2 sino otras 5
(dependientes de la organización específica del listado original) y, consecuentemente, otro sería el
valor de VAR( x ) . Por ejemplo, si ordenamos la misma población de hospitales de menor a
mayor según número de médicos, las muestras posibles y las estimaciones correspondientes
serían las que se muestran en la Tabla 4.3.

Página -2-
L.C.Silva
Tabla 4.3 Estimaciones de X para cada una de las muestras de tamaño 3 que pueden ob-
tenerse por MS de la población descrita en la Tabla 3.3, pero ordenada de menor a
mayor.

Arranque r Hospitales Muestra Media Muestral


seleccionados

1 14 9 2 40 150 230 140,0


2 13 7 8 60 180 270 170,0
3 10 12 3 90 190 310 196,7
4 15 4 5 100 200 350 216,7
5 1 6 11 130 220 480 276,7

Obsérvese que, en este caso, los posibles valores de x se parecen entre sí, y son a su vez más
próximos a X = 200 . La varianza de 58 es ahora igual a 2134,5, desde luego inferior a 2272.0
(ya que el ordenamiento impuesto fuerza a que cada una de las muestras posibles "recorra" la
población), y menor por tanto que la varianza correspondiente al MSA (3702,9). Otras
ordenaciones producirán, sin embargo, que Var( x ) sea mayor que este último valor.

De hecho, existe un interesante resultado teórico al respecto, que se puede enunciar del modo
siguiente (Madow y Madow, 1944):

Si consideramos las N! ordenamientos posibles de una población de tamaño N ,


y llamamos V sys (i) a la varianza de x para un MS en la i-ésima de esas
poblaciones, entonces:
1 N!
 V sys (i) = Var MSA ( x )
N! i=1

Página -3-
L.C.Silva
donde Var MSA ( x ) es la varianza de x en el caso del MSA. Se trata de un teorema sin interés
_
práctico directo que resalta que no hay una varianza única de x asociada a la población
(independiente del orden que tengan sus elementos) y, sobre todo, que el MS es equivalente “en
promedio” al MSA si consideramos todos los posibles ordenamientos.

4.6 Una advertencia académica

Supongamos que tenemos un campo con 45 árboles de naranja que se halla ubicado entre un
riachuelo y una carretera, tal y como se bosqueja en la Figura 4.2. Se quiere una muestra de
árboles para estimar qué porcentaje de ellos está infestado por cierta plaga de insectos.
Supongamos que la humedad sea favorable a la plaga, así como que el monóxido de carbono que
despiden los vehículos automotores sea, por el contrario, hostil al habitat de los insectos. En la
figura, los árboles sombreados son los que padecen la plaga; en concordancia con las
condiciones antes señaladas, los árboles próximos al río están infestados en su inmensa mayoría,
y los que se hallan cercanos a la carretera están casi totalmente libres de infección.

Supongamos ahora que los árboles se numeran verticalmente como se señala en la Figura 4.3,
así como que se ha decidido tomar exactamente 1 de cada 5 árboles entre los 45 que existen. En
tales circunstancias, si el arranque elegido fuese r = 1 , entonces la muestra estaría formada por
los nueve naranjos que se hallan a la vera de la carretera, de modo que se llegaría a la estimación
de que la plaga alcanza al 100% de los árboles (Figura 4.3). Si r = 5 , entonces tendríamos la
otra estimación extrema: 0 %. Otros valores de
m

 X T
i

x = i =1
m
[6.2] 60 darían lugar a valores menos aberrantes.
i =1
N i

El ejemplo aporta una elegante y sugestiva ilustración del efecto nefasto que podría derivarse de
una organización cíclica de la población. Sin embargo, la situación es de ciencia ficción. La vida
es, desde luego, mucho más rica y florida que la situación elaborada (arduamente) en la
construcción precedente. Nótese que para que se produzca la situación descrita no solo se
necesita una realidad encartonada y uniforme hasta extremos exagerados, sino que además el
muestrista tendría que sumarse a la confabulación tomando exactamente las decisiones
necesarias para que se produzca el problema: basta con que, en lugar de k = 5 se hubiese
tomado k = 6 (Figura 4.4), o manteniendo K = 5 , que los árboles se hubiesen numerado de otro
modo (digamos, de izquierda a derecha, Figura 4.5) para que las muestras posibles tuviesen otro
aspecto totalmente diferente. Es decir, incluso en una situación de por sí insólitamente
desfavorable, el MS habrá de producir regularmente muestras perfectamente aceptables.

Página -4-
L.C.Silva
El ejemplo que he ideado es del tipo de los que clásicamente se invocan para alertar acerca del
"peligro" que puede esconderse detrás del MS. Típicamente, la organización de los listados con
que objetivamente se trabaja en la práctica habrá de ser ajena a cualquier ciclicidad u otro rasgo
que haga superior al primer método respecto del segundo, a los efectos de la precisión de los
estimadores. Es decir, si bien teóricamente se pueden producir tanto ordenamientos más favora-
bles (para los que cada una de las muestras posibles exhiben gran variabilidad interna) como or-
denamientos muy desfavorables (para los que las muestras posibles son todas, o en su mayoría,
internamente homogéneas y, por ende, poco representativas), en la práctica tales regularidades
no se presentan casi nunca. Consecuentemente, en general, los valores de VAR( x ) para MS y
para MSA no serán muy diferentes.

A nuestro juicio, es importante subrayar esta circunstancia, ya que el peligro inherente a un


presunto comportamiento periódico de ciertas variables ha sido advertido en algunos textos,
cuando en realidad no se trata más que de una posibilidad de interés casi exclusivamente
académico.

El problema, no obstante, es real, y podría presentarse aunque sea por excepción. De hecho, tras
muchos años de experiencia en esta materia, solo conozco un ejemplo de este tipo, y es tan obvio
que no parece necesitar de un marco teórico que nos ayude a precavernos. Se trata del caso en
que las unidades de muestreo son días de cierto año. Supongamos que aquellos días elegidos de
un calendario serán los señalados para estudiar la asistencia de pacientes a un cuerpo de guardia
(por ejemplo, para estimar el porcentaje de "urgencias verdaderas"). Si la elección fuera
sistemática con intervalo k = 7 , entonces todos los días de la muestra serían iguales en cuanto a
su ubicación dentro de la semana (todos serían lunes, o todos martes, etc.). Puesto que el
número de urgencias verdaderas guarda cierta ciclicidad a lo largo de la semana (es mayor, por
ejemplo, los sábados que los lunes), la muestra estaría claramente sesgada.

Es fácil reparar, sin embargo, en que la mencionada dificultad quedaría anulada tan pronto se
tome otro intervalo de selección. Por ejemplo, bastaría tomar K = 6 o K = 8 para producir el
efecto completamente opuesto: cualquier muestra contendría representación de todos los días de
la semana en similar o, incluso, igual proporción.

4.7 Aplicaciones del muestreo sistemático

El muestreo sistemático adolece de un problema notable: a diferencia del muestreo simple


aleatorio, es formalmente imposible computar los errores asociados a las estimaciones a partir de
la muestra utilizada para la obtención de estas últimas. Ello se debe a que la fórmula [4.3] no
puede ponerse en función de un parámetro poblacional susceptible de ser estimado con la propia
muestra, como ocurría con S 2 en MSA. Los métodos de muestreo que presentan esta carencia
se denominan no mensurables.

Página -5-
L.C.Silva
Tal deficiencia invalidaría, en principio, el uso del muestreo sistemático, si es que se desea estimar
la magnitud de los errores de muestreo a que da lugar. Para superar este escollo teórico, lo que
se hace es utilizar los resultados correspondientes al MSA aunque se haya practicado un MS.
Vale decir: cuando se utiliza el MS en el acto de selección, tanto el tamaño de la muestra como las
estimaciones de los parámetros de los errores se calculan como si se fuese a utilizar o se hubiese
utilizado un MSA.

Esta línea de actuación se fundamenta en el hecho de que, en la mayoría de las situaciones


prácticas, el orden del listado es esencialmente equivalente al que resultaría tras una permutación
aleatoria, en cuyo caso, desde luego, es lo mismo elegir una MS que una MSA.

Un rasgo singular del MS, como ya se consignó, consiste en que, a diferencia del caso en que se
emplea MSA, no siempre hace falta tener explícitamente y de antemano un listado como tal de las
unidades de análisis. Por ejemplo, si se desea una muestra de altas hospitalarias correspon-
dientes a cierto año en determinado hospital y el estudio se está planificando en algún momento
del año anterior al de su desarrollo, entonces obviamente se desconocen los individuos
específicos que integrarán la población de interés (o sea, la población de sujetos que habrán de
recibir el alta en el hospital); no se sabe siquiera el número de elementos que tendrá dicha pobla-
ción. Es imposible, por tanto, delimitar los integrantes de la muestra a través de un MSA. Sin
embargo, como es obvio, puede establecerse algún sistema que permita dar una ordenación
consecutiva a los pacientes que van a ir recibiendo el alta, y prestablecer con toda precisión los
elementos que integrarán una muestra sistemática de esa futura población de altas.

Digamos que se desea una muestra de 480 individuos y que, con acuerdo a la experiencia previa,
se presume que el número de altas que se habrán de producir a lo largo del año entrante
480
ascenderá a unos 3200 pacientes; se calcula entonces f = 3200 = 0.15 , 611o que significa
que debe seleccionarse aproximadamente el 15 % de la futura población. Es fácil ver que en este
caso no hay ningún entero cuyo inverso sea igual o muy cercano a 0.15; pero se puede aplicar el
método de selección en dos fases.

En la Tabla 4.1 vemos que basta tomar un sujeto de cada 6 y eliminar uno de cada 10 altas así
seleccionadas. Tomando un arranque entre 1 y 6 ( r = 3 , por ejemplo) y otro entre 1 y 10
(digamos r = 8 ), es fácil conformar el listado de individuos -identificados por los lugares
correspondientes- que habrán de seleccionarse. De antemano se sabría, por ejemplo, que los
individuos que ocupen los lugares 3,9,15,21,27,33,39,51,57 y 63 en el orden de altas serían los
primeros 10 sujetos que habrán de incorporarse a la muestra. Este listado de sujetos previstos
para ser encuestados y que conforman la futura muestra puede extenderse tanto como se desee.
Como se ignora el número exacto de elementos de la población que se habrá de conformar a lo
largo del año próximo, puede confeccionarse el listado de sujetos llamados a ser seleccionados
usando un supuesto número de altas mucho mayor que lo que razonablemente caba esperar, por
ejemplo, 4000 (en lugar de 3200). De tal suerte, si en realidad se produjesen, digamos, 3425 altas
a lo largo del año, la muestra, naturalmente, no contendrá 480 individuos, sino 514, pero todas las
altas tendrían probabilidad igual a 0.15 de integrarla (en tal caso, los números que identifican la
muestra y que estén entre 3426 y 4000, simplemente se ignorarían).

Página -6-
L.C.Silva
Debe señalarse que el procedimiento de selección sistemática es utilizado como sustituto del MSA
en el contexto de otros procedimientos más complejos que tienen este último método incorporado
en algunas de sus etapas. Tal es el caso del muestreo aleatorio estratificado y el del muestreo por
conglomerados, que serán objeto de atención en los próximos capítulos.

CAPITULO 5. MUESTREO ALEATORIO ESTRATIFICADO

El MSA, introducido y desarrollado en el Capítulo 3, es una técnica de selección que reposa


exclusivamente en el azar. Sin embargo, como ya se examinó detenidamente en la Sección 1.9,
el azar no es una garantía de representatividad.

Supongamos que en la población bajo estudio pueden identificarse diferentes grupos de


elementos cuya representación en la muestra quisiera asegurarse (por ejemplo, diferentes grupos
ocupacionales en un estudio de salud laboral). La manera natural de lograrlo es conformar
listados separados para cada uno de dichos grupos y seleccionar submuestras dentro de cada
uno de ellos. Actuando de esa manera, no sólo se asegura la representación de cada grupo en la
muestra, sino que se puede controlar de antemano qué parte de la muestra habrá de proceder de
cada uno de ellos.

La idea subyacente en esa estrategia es la misma que se asocia a la búsqueda de


representatividad: hacer que la muestra resulte tan variable como sea la población. Para llevar a
la práctica este tipo de selección es necesario contar con una información previa sobre la
población que permita tanto la definición de los grupos mencionados como la confección de
listados de los elementos correspondientes a cada subconjunto. Antes de discutir con detalle esta
alternativa, detengámonos en un ejemplo introductorio.

5.1 Necesidad de ponderaciones

Consideremos una fábrica que cuenta con 1000 trabajadores: 900 mujeres y 100 hombres.
Supongamos que el 80% de los hombres y el 10% de las mujeres fuman, de modo que el
porcentaje general de fumadores asciende a 17.0% (es decir,  = 0.17 ), como se aprecia tras un
simple cálculo aritmético. Pero supongamos momentáneamente que esos datos se ignoran, y que
se quiere estimar dicho porcentaje general de fumadores mediante muestreo.

Supongamos que para ello se selecciona una muestra de tamaño 100 de conformada por 50
mujeres y 50 hombres, en ambos casos elegidos al azar, y que los resultados son los siguientes:
38 hombres y 6 mujeres de la muestra son fumadores (datos compatibles con los porcentajes
reales, aunque para el muestrista estos últimos sean desconocidos). La muestra contiene por
tanto 44 fumadores en total.

Página -7-
L.C.Silva
De modo que el porcentaje muestral es igual a 44%, resultado de dividir 44 entre el tamaño
muestral. Supongamos, finalmente, que ese es el número que se da en calidad de estimación; es
decir, que se infiere que el 44% de los trabajadores son fumadores. Obviamente, tal conclusión es
bastante disparatada, ya que el porcentaje real de fumadores era 17. ¿Qué ha ocurrido? ¿En
qué consistió el error cometido?

Una primera reacción podría llevarnos a atribuir el error al hecho de "no haber tomado una
muestra representativa en términos de género, ya que hay una sobrerrepresentación masculina" y
los hombres de esta fábrica fuman más que las mujeres. Sin embargo, ello no constituye error
alguno. El error se comete en el momento en que se hace la extrapolación de la muestra al
universo; es decir, cuando se dice que el hallazgo de un porcentaje muestral de 44% permite
inferir que éste será el porcentaje poblacional.

Un enfoque elemental (aplicando un par de veces la "regla de tres") conduce a estimar que el 76%
de los hombres de la fábrica y el 12% de sus mujeres -es decir, 76 y 108 trabajadores de los
respectivos géneros - son fumadores. Vale decir, se infiere que 184 de los 1000 obreros son
fumadores, para una estimación del 18.4%. Evidentemente, la estimación 0.184 está mucho más
próxima de  = 0.17 que la proporción muestral p = 0.44 .

Lo ocurrido fue que la muestra se trató como si fuera un MSA, o un MS cuando en realidad ésta ni
siquiera era equiprobabilística. En efecto, la probabilidad que tuvo cada mujer de ser elegida fue
n1 50 1
igual a f 1= N1
= 900 = 18 , mientras que la de cada hombre fue 9 veces ma-
n2 50 1
yor: f 2= N2
= 100 = 2 .

La moraleja fundamental que se extrae de esta ilustración es que, cuando la muestra no se ha


elegido mediante un procedimiento que otorgue la misma probabilidad de inclusión a todas las
unidades de análisis, entonces las estimaciones no pueden realizarse miméticamente, como se
haría en un MSA (estimar la media o el porcentaje poblacionales a través de la simple media o
porcentaje muestrales), sino que es menester introducir ponderaciones.

Procede intercalar aquí una fórmula general (válida para cualquier diseño muestral) que produce
una estimación adecuada de la media poblacional. Esta es:
n

 i xi
xˆ =
i=1
n 5.1

i=1
i

Página -8-
L.C.Silva
1
donde  i = y i es la probabilidad de inclusión que correspondió a la i-ésima unidad
i
muestral. Es inmediato que si el procedimiento fuera equiprobabilístico, entonces i sería
constante, y x se reduciría a la media muestral.
La fórmula [5.1], como ya se dijo, es completamente general, de modo que "funcionará" también
en el ejemplo que nos ocupa. Si se repara en que  i = 18 para las 50 mujeres de la muestra y
 i = 2 para los 50 varones, resultará fácil advertir que:

18  xi + 2  xi
iH iH
x =
1000

donde H representa el subconjunto muestral de hombres y M lo propio para las mujeres.

Finalmente, si se define
 1 si el sujeto fuma

xi = 
 0 si el sujeto no fuma

Página -9-
L.C.Silva
entonces se llega al mismo número obtenido antes: X  = 0,184 :

5.2 Estratificación y representatividad

Con el fin de obtener una muestra que tenga en sí una variabilidad similar a la de la población, lo
ideal sería conseguir que los subconjuntos en que ella se divide fuesen internamente homogéneos
y -consecuentemente- diferentes o heterogéneos entre sí.

Para ilustrar estas ideas supongamos que se quiere investigar la morbilidad bucal de los escolares
de una ciudad y que los investigadores saben que los patrones morbosos dependen en buena
medida del nivel cultural de los padres. De modo que, para tener un cuadro real de la magnitud y
la estructura del problema, sería conveniente examinar escolares procedentes de los diversos
"estratos socio-económicos" de la población. En lugar de obtener un listado global de todos los
escolares, el muestrista podría procurarse listas separadas de niños según distintas zonas de la
ciudad, escogidas éstas de manera que cada una se identifique a grandes rasgos con uno de los
estratos socio-económicos considerados. Con el marco muestral así dividido, se procede a la
selección de niños dentro de cada listado separadamente. De tal suerte, la muestra contendrá
niños de todos los grupos diferentes34.

En la ilustración del párrafo precedente se ha utilizado el término "estrato socio-económico",


procedente del lenguaje común, por su connotación semántica en el sentido de aludir a un grupo
homogéneo en algún sentido. Cuando se aplica este tipo de muestreo, los grupos en que se
divide la población son conocidos como estratos.
Cuando para seleccionar los sujetos dentro de los estratos se utiliza un procedimiento en que
interviene el azar, se dice que se aplica un muestreo aleatorio estratificado (MAE). En lo sucesivo
se asumirá que el método de selección practicado dentro de cada estrato es muestreo simple
aleatorio equivalentemente, muestreo sistemático.

5.3 Procedimientos de estimación

Como antes, supondremos que la población se compone de N elementos y que se quiere selec-
cionar una muestra de tamaño n . Ahora se supone que este universo está dividido en L estratos
de tamaños N 1 , N 2 ,..., N L cuya suma es, desde luego, igual a N . Se denota por nh al tamaño
de la muestra seleccionada en el estrato h, de modo que la suma n1 + n2 +    + n L será el
tamaño total n de la muestra. La Figura 5.1 muestra la estructura general del MAE usando un
ejemplo en que se habrían construido L = 5 estratos.

34
Esta es una estratificación indirecta. Es evidente que resultaría
utópico plantearse la obtención de listas directamente conformadas por
niños de cada estrato, ya que no es realista la aspiración de
clasificar a cada niño según una "escala socio-económica" previamente
confeccionada.

Página -10-
L.C.Silva
2
x
Para cierta variable X llamaremos respectivamente h y s h a las estimaciones de la media y la
varianza dentro del i-ésimo estrato. Estos valores se computan con las mismas fórmulas usadas
en muestreo simple aleatorio ( x y s 2 ), pero ahora dentro de cada estrato con los n h elementos
allí seleccionados.

nh ah ,
Análogamente, se pueden definir fh= Nh , la fracción de muestreo en ese estrato; y p h =
nh
la fracción de individuos que tienen cierta característica en el estrato h, donde ah es el número
de individuos de la muestra con ese rasgo en dicho estrato.

Un estimador insesgado de la media poblacional X viene dado por la fórmula siguiente:


L

xI =  W h xh 5 .2 
h= 1

Nh
donde W h = es un número no negativo y no mayor que uno, el cual que refleja qué parte (o
N
porcentaje, si se multiplica por 100) de la población corresponde al estrato h. Ob-
L
viamente, W
h=1
h  1.

Es fácil convencerse de que x I no es igual a la media muestral. De hecho, x I es una media


ponderada de las medias x1 , x2 , ···, x L procedentes de los estratos, con W 1 ,W 2 , ···,W L como
ponderaciones.

Del mismo modo, la estimación de una proporción  se realiza mediante el estimador insesgado
correspondiente:
L
pI =  W h ph 5 .3 
h= 1

Página -11-
L.C.Silva

De hecho, [5.2] y [5.3] son formas particulares que asume la fórmula general [5.1] para el caso del
MAE. Nótese, sin embargo, que [5.1] es una media ponderada de individuos mientras que [5.2] es
un promedio ponderado de medias, aunque en este caso particular resultan ser expresiones
algebraicas equivalentes.

El ejemplo de la fábrica desarrollado en la sección anterior constituye, obviamente, una ilustración


del MAE. Allí teníamos:

Estrato 1 Estrato 2
(Hombres) (Mujeres)

N 1 = 100 N 2 = 900
W 1 = 0.1 W 2 = 0.9
n1 = 50 n2 = 50
a1 = 38 a2 = 6

Al aplicar [5.3], tenemos:


38 6
P I = (0.1) + (0.9) = 0.184
50 50
como era de esperar.

El ejemplo ilustra no solo que p I no coincide con p , sino también cómo, en ciertas circunstancias,
el uso de la simple fracción muestral sería totalmente erróneo a la vez que el estimador insesgado
p I está en principio libre de objeción.

Para que un diseño basado en MAE sea equiprobabilístico debe cum-plirse la siguiente
condición:

f 1 = f 2 = ···= f L  f =
n
5.4
N

Página -12-
L.C.Silva

nh n
Dicho de otro modo, debe ocurrir que = para todo h. En ese caso (y solo en ese caso),
Nh N
se tendrá xI = x y pI = p .
La condición [5.4] aparece implícitamente en la formulación siguiente: en el contexto del MAE,
la media muestral es un estimador insesgado de X si y sólo si se cumple que el tamaño
muestral n se ha repartido entre los diferentes estratos de manera proporcional a sus tamaños.

Para calcular los errores de muestreo asociados a los estimadores en este diseño, basta adver-
tir que la selección muestral es independiente dentro de los estratos (la elección que resulte en
uno no influye en cuáles sean los elementos elegidos en otro) y recordar de la teoría de
probabilidades que:

L L
VAR (   h Z h ) =   h 2 VAR ( Z h )
h=1 h=1

donde  1 , 2 ,... L son constantes cualesquiera, siempre que Z 1 , Z 2 ,   , Z L sean variables


aleatorias independientes.

En el caso que nos ocupa:

L s 2h
var( x I ) = W 2
h (1 - f h ) 5 . 5 
h= 1
nh

L phqh
var( p I ) =  W 2h (1 - f ) h 5.6
h=1
n h -1

Página -13-
L.C.Silva

ya que en cada estrato la selección se ha verificado mediante MSA, y solo se trata de usar las
fórmulas [3.6] y [3.12] dentro de cada sumando.

No es difícil ver ahora que si se cumple la condición de proporcionalidad [5.4], la expresiones


[5.5] y [5.6] se simplifican, y pasan a ser:
(1 - f) L
var( x ) =
n h=1
 2
W h sh 5.7
(1 - f) L
var(p) = W h ph qh 5.8
n - 1 h=1

Página -14-
L.C.Silva

n
donde f = es la fracción general de muestreo (coincidente, en este caso, con las fracciones
N
de muestreo de los estratos).

Al examinar la expresión de var( x I ) se observa que la precisión del estimador aumenta si


crecen los valores de n h , y que dicha precisión es más alta en la medida que las varianzas s 2h
sean menores. Tales resultados, además de ser lógicos, confirman la aseveración general que se
hiciera cuando estudiamos el MSA, en el sentido de que, cualquiera fuese el diseño, esa sería la
relación entre variabilidad, tamaño muestral y precisión.

Por otra parte, nótese que, la fórmula de la varianza tiene L sumandos dentro de los cuales se
hallan los respectivos valores que estiman la variabilidad interna de los estratos (los s 2h ). En la
medida que se haya logrado construir estratos internamente homogéneos, éstas varianzas serán
pequeñas, y el aporte de los diferentes sumandos a la varianza general también lo será. Esto
quiere decir que la fórmula refleja la situación que, en definitiva, condujo a la estratificación: cuanto
más homogéneos sean los estratos, más precisas resultarán las estimaciones producidas por este
sistema de selección.

Debe consignarse, sin embargo, que la ganancia de precisión producida por el MAE respecto
del MSA suele ser modesta, particularmente en el caso de la estimación de porcentajes. Ex-
cepcionalmente, incluso (véase ejercicio 5.3 del Capítulo 5 de Hansen, Hurwitz y Madow,
1953) puede ocurrir que el MAE llegue a ser menos preciso que el MSA. b, en general resulta
muy poco frecuente que la situación práctica consienta la conformación de estratos eficientes.

Para calcular intervalos de confianza para X o para  es necesario estimar el error asociado a
la estimación puntual realizada. Como es usual, según el caso, se calculan:
e = (1.96) var( x I ) o e = (1.96) var( pi )

Finalmente, con el fin de obtener los extremos del intervalo de confianza, se aplica la fórmula ya
conocida, consistente en restar el error de la estimación puntual para el extremo inferior y luego
sumarlo a ella para el superior.

5.4 Dos ejemplos ilustrativos

En esta sección se exponen dos ejemplos de naturaleza diferente. El primero se basa en la misma
ilustración de los hospitales y los médicos introducida en la Sección 3.4, y tiene idéntico propósito:
aprovechar un caso artificial en que se conoce toda la población con el fin de examinar las
propiedades y los fundamentos del método. El segundo concierne a un problema de índole
práctica.

Página -15-
L.C.Silva
Supongamos que para la población de la Tabla 3.3 se quiere estimar X mediante una MAE de
tamaño n = 2 , donde n1 = n2 = 1 , y que dicha población se ha dividido en L = 2 estratos de la
manera que se recoge en la Tabla 5.1:

Tabla 5.1 Estratos formados para la población de 15 hospitales de la Tabla 3.3


HOSPITALES

Estrato 1 1 7 9 10 13 14 15 -
Estrato 2 2 3 4 5 6 8 11 12

Tenemos, por lo tanto, L = 2, N = 15, N 1 = 7 y N 2 = 8 . Puesto que las muestras tienen que
constituirse mediante un hospital de cada estrato, sólo 56 de los 105 subconjuntos posibles de
tamaño dos, pueden resultar elegidos como muestra (resultado de multiplicar 7 por 8). Las
posibles muestras y las estimaciones para el caso en que se emplea la media muestral se
resumen en la Tabla 5.2.

Tabla 5.2 Medias muestrales para cada una de las muestras de tamaño n = 2 que pueden
obtenerse por MAE de la población descrita en la Tabla 3.3 con los estratos de la
Tabla 5.1
E S T R A T O 1

(1) (7) (9) (10) (13) (14) (15)


130 180 150 90 60 40 100

E (2) 230 180 205 190 160 145 135 165


S (3) 300 220 245 230 200 185 175 205
T (4) 200 165 190 175 145 130 120 150
R (5) 350 240 265 250 220 205 195 225
A (6) 220 175 200 185 155 140 130 160
T (8) 270 200 225 210 180 165 155 185
O (11) 480 305 330 315 285 270 260 290
S (12) 190 160 185 170 140 125 115 145
Nota: Entre paréntesis aparece el número que identifica a cada hospital, y al lado el número de
médicos.

Página -16-
L.C.Silva
Si se promedian los 56 números de la Tabla 5.2, se obtiene el valor 194,6. Como se ve, el
promedio de las medias muestrales no coincide con la media poblacional X = 200 , como ya
sabemos, la media muestral no es un estimador insesgado en ausencia de equiprobabilidad. En
56
1
este caso, la distancia entre
56
x
h=1
h y X , a diferencia del ejemplo de la fábrica, es pequeña,

debido a que la disparidad de las probabilidades de inclusión entre diferentes estratos no es tan
acusada: si bien no se cumple la condición de proporcionalidad, ya que las dos fracciones
1 1
muestrales no coinciden ( f 1 = y f 2 = ) , la diferencia entre ellas dista de ser apreciable.
7 8

En la Tabla 5.3 se vuelven a calcular las 56 estimaciones posibles, pero empleando la fórmula
[5.2], que en este caso se reduce a:
7 8
x Ij = x1j + x 2j
15 15

Página -17-
L.C.Silva
donde { x1j , x 2j } sería la i-ésima muestra posible.
Tabla 5.3 Estimaciones de X según la fórmula [5.2] para cada muestra de tamaño 2 que
pueden obtenerse por MAE de la población descrita en la Tabla 3.3 con los estratos definidos en
la Tabla 5.1

E S T R A T O 1

(1) (7) (9) (10) (13) (14) (15)


130 180 150 90 60 40 100

E (2) 230 183.3 206.7 192.7 164.7 150.7 141.3 169.3


S (3) 300 226.0 249.3 235.3 207.3 193.3 184.0 212.0
T (4) 200 267.3 190.7 176.7 148.7 134.7 125.3 153.3
R (5) 350 247.3 270.7 256.7 228.7 214.7 205.3 233.3
A (6) 220 178.0 201.3 187.3 159.3 145.3 136.0 164.0
T (8) 270 204.7 228.0 214.0 186.0 172.0 162.7 190.7
O (11) 480 316.7 340.0 326.0 298.0 284.0 274.7 302.7
S (12) 190 162.0 185.3 171.3 143.3 129.3 120.0 148.0

Nota:Entre paréntesis aparece el número que identifica a cada hospital, y al lado el número de
egresos.

En este último caso, la media de las 56 estimaciones sí coincide, naturalmente, con el


parámetro X = 200 , con lo cual se corrobora el carácter insesgado de x I . Si se calcula la
varianza de este último conjunto de 56 estimaciones, se obtiene:
56
1
VAR( x I ) =
56
( x
j=1
Ij - X )2 = 2822.7

Página -18-
L.C.Silva
donde x Ij denota la i-ésima media ponderada entre las 56 estimaciones posibles. Por otra parte,
en la Sección 3.4 habíamos obtenido que la varianza de x por MSA de ese mismo tamaño
( n = 2 ) era igual a 6017,1, un número más de dos veces mayor; o sea, con la estratificación
planteada35, la varianza se reduce a la mitad.

Es evidente que en la práctica el criterio de estratificación no puede ser, como se ha hecho en


este ejemplo, el de agrupar directamente los elementos de la población según los valores de la
propia variable que se estudia, puesto que tales valores se desconocen. Como ya se consignó
antes, lo que se pudiera hacer es buscar alguna variable de clasificación correlacionada con las
que se estudian y utilizarla para llevar adelante la ubicación en estratos. Esto es, precisamente,
lo que se ilustra con el siguiente ejemplo.

Supongamos que se tiene un listado de 1825 pacientes hospitalizados durante cierto período en
un hospital y que se quiere conocer, entre otras medidas de eficiencia, el tiempo promedio de
estancia en dicho centro. Se conoce que en cierta fecha empezó a regir un conjunto de medidas
administrativas presuntamente influyentes en la variable de interés. Puesto que el listado está
organizado cronológicamente por fechas de alta, resulta fácil dividirlo en dos estratos: 1200
pacientes que recibieron el alta antes de la fecha en cuestión, y 625 que la recibieron después.
Se planifica tomar una muestra con la misma asignación en los estratos (de 60 individuos en cada
uno), y estimar el parámetro a través de los 120 datos tomados de las hojas de alta que se hallan
en las historias clínicas.

En resumen, se tiene:
L = 2 N = 1825 N 1 = 1200 N 2 = 625 W 1 = 0.66 W 2 = 0.34
n1 = 60 n2 = 60 n = 120

Supongamos que los resultados (días de estancia del i-ésimo paciente de la muestra
correspondiente al i-ésimo estrato) se resumen del modo siguiente:
60 60 60 60
 xi(1) = 624,  xi(2) = 346,  x 2i(1) = 8249,  x 2i(2) = 3869
i=1 i=1 i=1 i=1

donde xi(1) denota el i-ésimo elemento del primer estrato y xi(2) el del segundo. De aquí,
aplicando [5.2], se obtiene que:

x I = W 1 x1 + W 2 x 2 = 8.82

35
Obsérvese que esta es la estratificación óptima, ya que no hay otra
manera de formar dos estratos con esos tamaños de modo que resulten
internamente más homogéneos.

Página -19-
L.C.Silva

O sea, se estima que el tiempo medio de estancia fue de 8.82 días, cifra diferente, desde luego, a
la media muestral simple, que sería igual a:

Para aplicar ahora la fórmula [5.5] hace falta computar las estimaciones de la varianza dentro de
los estratos:

s12 = 28.8 s 22 = 31.8


(624 + 346)
= 8.08
(60 + 60)

Como f 1 = 0.050 y f 2 = 0.096 , sustituyendo en [5.5] se tiene:


28.8 31.8
var ( x I ) = (0.66) 2 (0.950) + (0.34) 2 (0.904) = 0.2540
60 60

El error absoluto estimado, con un 95% de confiabilidad, es entonces igual a


e = (1.96) 0.2540 = 0.95 , de modo que los límites de confianza para X son:
8.82-0.95 =7.87 y 8.82+0.95=9.77

Podríamos decir entonces que estamos altamente confiados en que el tiempo medio de
estancia es un número que se halla entre 7,9 y 9,8 días.

5.5 Complementos del muestreo aleatorio estratificado

Página -20-
L.C.Silva

5.5.1 Asignación de tamaños muestrales a los estratos

Al aplicar un MAE, una vez que se ha determinado el tamaño n , es necesario determinar cómo va
a distribuirse ese tamaño entre los L estratos; o sea, debe decidirse el modo en que se dividirá el
tamaño general n en los tamaños n1 , n 2 , , n L correspondientes a los estratos respectivos. A
tal proceso se le llama asignación de tamaños muestrales a los estratos.

Ya se había considerado la asignación proporcional, resumida a través de la fórmula [5.4] (la más
comúnmente usada), la única que produce una muestra equiprobabilística. Sin embargo, esta
asignación no es necesariamente la más eficiente; es decir, no es el modo de repartir el tamaño
muestral que da lugar a menor varianza de los estimadores.

Intuitivamente, no es difícil sospechar que si la fracción de muestreo es mayor en los estratos con
varianzas mayores que en los menos variables, para un mismo tamaño general de la muestra la
precisión aumentará. Puede demostrarse (Yamane, 1970) que la varianza de x i se hace
mínima si n se desagrega en sumandos proporcionales al producto del tamaño del estrato por la
raíz cuadrada de su varianza. Dicho de manera resumida: la manera óptima de asignar tamaños
muestrales a los estratos a partir de un tamaño muestral general igual a n , es definir nh del
modo siguiente:

nh =n L
N hS h 5.9 
 N hS h
h =1
L.C.Silva

A tal manera de asignar los tamaños muestrales se le denomina asignación de Neyman, debido a
que fue conocida inicialmente cuando la expuso Neyman (1934), aunque luego se supo que su
descubrimiento se había producido 11 años antes (Tschuprow, 1923).

Naturalmente, para aplicar la asignación [5.9] es necesario conocer todos los valores de S 2h ,
además de los tamaños de los estratos; esto es, hablando estrictamente, imposible. Sin embargo,
tal como ocurría al calcular el tamaño de muestra en MSA (Sección 3.7), podría recurrirse
supuestamente a procedimientos que permitan una aplicación aproximada de la asignación.

Todo esto es, sin embargo, algo de interés esencialmente académico: en la práctica, de las pocas
veces que se emplea el MAE directamente a las unidades de análisis, casi siempre se aplica la
asignación proporcional; es decir, salvo raras excepciones, nunca se emplea otro tipo de
asignaciones. Además de las limitaciones impuestas por la carencia de la información necesaria,
nótese que cada parámetro de interés exigiría su propia asignación (un estrato puede ser muy
variable para cierta dimensión X y homogéneo para otra X * ); pero en la práctica solo puede
haber una asignación, puesto que se selecciona una única muestra. En rigor, esta advertencia es
más pertinente cuanto más alambicados sean los procedimientos sugeridos. Muchos de ellos son
quizás más interesantes teóricamente, pero proporcionalmente más estériles en la práctica
(véase, por ejemplo, Bearwood, Holton y Hammersley, 1959).

5.5.2 Tamaño de muestra

El enfoque que procede utilizar para determinar el tamaño de muestra necesario sería
esencialmente el mismo que se introdujo en la Sección 3.7: identificar n tal que el error
L
E = (1.96) W VAR( x )
h=1
h
2
h
L.C.Silva
no exceda cierta magnitud prefijada, y despejar n de esta relación.

Sin embargo, una estrategia razonable sería la de actuar, sin más trámite, como si se tratara de un
MSA. Por una parte, difícilmente se encuentran datos para aplicar las fórmulas resultantes (en
particular, el conocimiento previo de las varianzas dentro de los estratos difícilmente serían otra
cosa que el resultado de un acto de especulación) y, por otra, las fórmulas del MSA en la práctica
siempre producirán tamaños mayores, de modo que empleándolas no habría riesgos de trabajar
con tamaños insuficientes.

5.5.3 Número de estratos

Aunque se han conseguido algunos desarrollos teóricos destinados a guiar al muestrista acerca
del número óptimo de estratos que debe construir (véase Cochran, 1977), las sugerencias más
útiles -a nuestro juicio- provienen de la experiencia práctica acumulada. Parece indiscutible la
conveniencia de evitar la consideración de estratos muy pequeños y en general, se ha sugerido
tomar L entre 3 y 10 con el fin de lograr una ganancia apreciable de precisión.

5.5.4 Postestratificación

Una posibilidad ocasionalmente practicable consiste en realizar estimaciones teniendo en cuenta


estratos poblacionales aunque la estratificación formal no haya intervenido en el diseño. Es decir,
aplicar ponderaciones a pesar de haber seleccionado una MSA o un MS. Si los tamaños N h se
conocieran (por ejemplo, a partir de datos censales, estadísticas oficiales u otra fuentes), se
pueden clasificar las unidades a posteriori y aplicar [5.2], donde xh es la media de los sujetos que
resulten elegidos dentro del estrato h . El método exigiría que los nh fuesen suficientemente
grandes (quizás mayores que 30).

CAPITULO 6 MUESTREO POR CONGLOMERADOS

Para introducir este transcendente método de selección muestral, imaginemos un problema


práctico de magnitud tal como el que supone estudiar la anemia en una gran ciudad.
Naturalmente, en una situación real de este tipo, donde se pretende seleccionar una muestra de
tan vasto universo, nunca se desea estimar un sólo parámetro. En la práctica, probablemente, se
quieran sondear aspectos tales como la prevalencia por sexos y grupos de edad, o indagar ciertas
relaciones como la que pudiera existir entre niveles de hemoglobina en sangre y condiciones
socioeconómicas. Sin embargo, para esta discusión supondremos, una vez más, que se trata de
un problema simple: la estimación de la prevalencia de anemia como único parámetro de interés.
L.C.Silva
36
Consideremos la posibilidad de encarar dicho problema a través de un MSA . Puesto que las
unidades de análisis son todos los residentes de la ciudad, el primer requerimiento sería el de
conseguir un listado de la totalidad de los individuos que allí residen: una lista que podría llegar a
contar con alrededor de 400.000 individuos. Las dificultades para obtener tal información, que
incluiría nombres y direcciones, son obvias; dicho más claramente, en condiciones normales, si se
deseara que tal lista estuviera realmente actualizada, se estaría ante un escollo simplemente
insalvable. Supongamos, no obstante, que éste se ha superado y valoremos las dificultades a que
aún estaría abocado el proyecto.

Admitamos que se desea una muestra de 2.000 ciudadanos y que se ha concluido el engorroso
proceso de identificar 2.000 números aleatorios diferentes entre 1 y, digamos, 402.80637. Ahora
nos encontraríamos un panorama desolador: al identificar los lugares de residencia de estos
2.000 sujetos, se comprobaría que están dispersos a lo largo y ancho de la ciudad. La mera
perspectiva de recorrerla palmo a palmo para tomar muestras de sangre y practicar interrogatorios
desalentaría a cualquier investigador con sentido común. En efecto, no tardaría en ser
considerada una alternativa tal como la de seleccionar, pongamos por caso, unas 50 de las miles
de manzanas que existen y completar la muestra tomando alrededor de 40 sujetos por manzana,
consiguiendo así que el esfuerzo se concentre en unos pocos núcleos urbanos pequeños.
Evidentemente, una variante de este tipo resultaría mucho más económica.

En resumen: ante un problema real de mediana o gran envergadura, no resulta posible la


aplicación de un método muestral que opere con un listado de todas las unidades de análisis. La
imposibilidad se debe tanto al hecho de que usualmente se carece de una fuente adecuada de la
cual obtener tal marco muestral, como a que -aun en caso de que se obtuviese el listado
completo- el gasto en que se incurriría para llevar adelante el estudio de una muestra
inevitablemente dispersa sería prohibitivo, o muy difícilmente justificable.

6.1 Selección en etapas

La solución del problema pasa necesariamente por la selección de la muestra en etapas. La


población se divide en cierto número de partes o conglomerados a las que se llama unidades de
primera etapa (UPE); cada una de ellas puede a su vez atomizarse en subconjuntos llamados
unidades de segunda etapa (USE), y así sucesivamente, hasta llegar a cierta etapa cuyas
unidades estén directamente integradas por los sujetos que serán objeto de interrogatorio o
medición. La idea estriba, entonces, en seleccionar un número de UPE, luego tomar un conjunto
de USE dentro de las que integran las UPE seleccionadas, y continuar "bajando" hasta llegar a
seleccionar las unidades de análisis que conformen la muestra final.

36
Toda la discusión y el razonamiento que siguen valen también para el
caso en que se valore el uso de MS o de MAE.
37
Para no perder realismo se supone que el listado consta exactamente de
402.806 individuos. En la práctica, incluso, el verdadero tamaño N de
la población virtualmente imposible de conocer.
L.C.Silva
Ilustremos un proceso de esa naturaleza aprovechando el mismo ejemplo arriba planteado: la
ciudad se divide en sectores censales (UPE), los sectores se consideran divididos en manzanas
(USE) y éstas en viviendas, las cuales están finalmente integradas por individuos, que son en este
caso las unidades de análisis. Supongamos que se seleccionan 40 sectores entre todos los que
existen en la ciudad3839, y que dentro de cada uno de ellos se toman 5 manzanas; supongamos
que se continúa con la selección de 10 viviendas en cada una de las 200 manzanas ya obtenidas
y que, finalmente, se escoge un individuo dentro de cada vivienda elegida para determinar así los
2000 elementos de la muestra. El proceso ha transitado en este caso por cuatro etapas de
selección: sectores, manzanas, viviendas e individuos.

Un distintivo clave del proceso de selección en el muestreo en etapas consiste en que la


necesidad de listados de las unidades de muestreo en una etapa se limita a aquellas unidades se-
leccionadas en la etapa anterior. Así, en nuestro ejemplo, se necesita un listado de sectores; luego
uno de manzanas, pero solo para los 40 sectores escogidos; en su momento se necesitará un
listado de viviendas, pero solamente para las 200 manzanas elegidas en dichos sectores; y
finalmente un listado de sujetos para cada una de las 2000 viviendas seleccionadas.

Como es obvio, la conformación de estos listados no puede producirse al unísono, sino que tiene
ser escalonada, ya que en una etapa aún no se conoce qué listados han de ser necesarios en la
siguiente. Esto economiza recursos y favorece la agilidad del proceso; por ejemplo, la lista de
residentes en una vivienda puede conformarse in situ, cuando ésta sea por primera vez visitada
para realizar la encuesta correspondiente.

En síntesis: la totalidad de las unidades de análisis está potencialmente contenida en el marco, de


manera que todo individuo tiene posibilidades de quedar en la muestra a pesar de que solo una
ínfima parte de ellos llega a ser explícitamente listada (en este caso, los habitantes de las 2.000
viviendas seleccionadas en la tercera etapa y de los cuales se elegirán a la postre los 2000
sujetos de la muestra). Finalmente, en lo que concierne al acto de toma de información en
terreno, las ventajas prácticas y económicas son evidentes.

Hasta ahora, solo se ha expuesto la estructura del diseño. Naturalmente, en cada etapa de
selección pueden aplicarse diversos métodos específicos. En las restantes secciones de este
capítulo se desarrollan y discuten algunas variantes y se analizan algunos de sus méritos y
desventajas relativas.

6.2 Muestreo por conglomerados monoetápico

Supongamos que estamos ante una población finita de N elementos (unidades de análisis)

dividida en p conglomerados (UPE) cuyos tamaños son N 1 , N 2 , , N M , de modo que


 .

38
39
De momento, no interesa detenerse en el método de selección empleado
ni para este ni para las siguientes etapas.
L.C.Silva
Consideremos que se planifica seleccionar una muestra simple aleatoria de m UPE y que la
muestra final esté integrada por todas las unidades de análisis contenidas en dichos
conglomerados. En tal caso, se dice que se trata de una muestra por conglomerados
monoetápica puesto que, en efecto, la selección de elementos de la población se ha verificado en
una sola etapa. La estructura de este diseño se ilustra gráficamente (Figura 6.1) con un caso en
que  y m= 3 .

6.2.1. Tres rasgos singulares

Antes de discutir los problemas de estimación asociados a este procedimiento, detengámonos


brevemente en el examen de tres de sus características o propiedades generales.

(i) El método es equiprobabilístico

En efecto, tratándose de una selección simple aleatoria de conglomerados, cada uno de ellos
m
tiene probabilidad de inclusión igual a f = M . Puesto que cada unidad de análisis queda
automáticamente incluida en la muestra una vez que se selecciona la UPE que la contiene, es
evidente que todos los elementos de la población tienen esa misma probabilidad de inclusión.

(ii) El tamaño muestral es aleatorio

El tamaño total de la muestra n es, en este caso, igual a la suma de los que tengan las UPE
m
seleccionadas: n = N
i=1
i . Si los tamaños N 1 , N 2 , , N M son diferentes entre sí (como ocurre en la

práctica, casi sin excepción), entonces el valor de n dependerá de los tamaños de las UPE que
resulten seleccionadas. Esta característica constituye una desventaja del procedimiento, ya que
imposibilita que se conozca de antemano el número de encuestas que habrán de realizarse lo
cual, a su vez, conspira contra una demanda elemental para la planificación de esfuerzos y
recursos.

Naturalmente, si los N i no son muy diferentes, entonces la imprevisibilidad de n no será muy


acusada, y esta desventaja queda, a los efectos prácticos, diluida. Debe tenerse en cuenta que,
de hecho, nunca el tamaño muestral es exactamente igual al planificado ya que, en el mejor de los
casos, se verá afectado en una u otra medida por el hecho de que algunos individuos no
responden (la llamada "no respuesta", aspecto tratado con detalle en la Sección 12.4).

Resumiendo: la variabilidad del tamaño muestral depende de las diferencias que exhiban los
tamaños de las UPE N 1 , N 2 , , N M entre sí.
Detengámonos en un ejemplo sencillo para ilustrarlo. Supongamos que M = 8 y que los valores
de los tamaños de los conglomerados son los siguientes:
L.C.Silva
UPE (i) 1 2 3 4 5 6 7 8

Tamaño ( N i ) 40 10 100 80 70 140 20 20

Si se plantea llevar adelante un muestreo por conglomerados mediante la selección de m = 3


UPE,¿cuáles son los valores posibles del tamaño muestral? Por simple inspección de los valores
3
de los N i , se constata que n = N
i=1
i es una variable aleatoria cuyo valor mínimo se alcanza

cuando resultan seleccionados los conglomerados 2,7 y 8 ( n = 10 + 20 + 20 = 50 ), y cuyo máximo


valor sería el que alcanza si las UPE seleccionadas fueran las correspondientes a los números 3,4
y 6 ( n = 100 + 80 + 140 = 320 ).

O sea, el tamaño muestral puede moverse entre 50 y 320. La distancia entre estas dos cotas
constituye una medida rudimentaria de la variabilidad de n , pero -como es natural- pueden usarse
medidas más refinadas, como la desviación estándar o el coeficiente de variación; de momento,
sin embargo, basta con ésta.

Si, en cambio, los valores de los N i fuesen más parecidos entre sí, entonces la variabilidad del
tamaño muestral no sería tan marcada. Por ejemplo, supongamos que los valores fuesen:

UPE (i) 1 2 3 4 5 6 7 8

Tamaño ( N i ) 60 65 70 40 55 80 50 60

En este caso, n queda necesariamente constreñido entre 145 y 215, un recorrido -en efecto-
mucho más reducido. En este segundo caso, por tanto, aunque se mantiene el carácter aleatorio
del tamaño muestral, su "control" previo es considerablemente mayor.

(iii) No es preciso conocer el tamaño poblacional

En efecto, otra propiedad (en este caso ventajosa) del procedimiento radica en que no sólo no es
necesario tener un listado de las unidades de análisis para realizar la selección, sino que ni
siquiera hace falta conocer el tamaño N de la población. La ventaja dimana del hecho de que
-como se apuntara en la sección precedente - en la práctica el valor exacto de N se puede
conocer solo en raras ocasiones.

6.2.2 Estimación insesgada y de razón


L.C.Silva
Toca ahora considerar el problema de estimación que se abre cuando se ha realizado un
T
muestreo por conglomerados monoetápico. Llamemos X i al valor acumulado (o total) de X por
todas las unidades que integran el conglomerado i-ésimo.

Puede demostrarse que:


 m
xI =
1 M
X T
i 6.1
N m i=1

es un estimador insesgado de X . Es importante señalar que la ventaja expresada en el punto (iii)


de la sección precedente, consistente en que no es preciso conocer N para llevar adelante el
proceso de selección, desaparece tan pronto entramos en la fase de estimación: efectivamente,
uno de los "ingredientes" que aparecen en [6.1] es el tamaño poblacional.

Una variante para la estimación del parámetro X que no demanda conocer r es la de emplear,
sencillamente, la media muestral que, en este caso, sería igual a:
m
 XTi
x= i = 1
m  6 .2
 Ni
i= 1

A x se le llama estimador de razón, pues es una razón de dos variables aleatorias. A diferencia
del caso anterior, la media muestral [6.2] no es insesgada. El sesgo suele ser, sin embargo,
despreciable; por tanto, siendo [6.2] mucho más simple y natural que [6.1], lo regular es utilizar x
como estimación de X cuando se emplea este tipo de diseño.

Huelga extenderse en que la situación descrita abarca el caso de la estimación de una proporción
T
P . Si llamamos X i al número de aquellos individuos del i-ésimo conglomerado elegido que
poseen cierta característica, entonces [6.1] y [6.2] son estimadores (insesgado el primero, con un
pequeño sesgo el segundo) de la fracción de individuos con dicha característica en toda la
población. Respectivamente, los denotaremos mediante p I y p .

Consideremos el ejemplo en extremo simple, de una población con 3 conglomerados ( M = 3 ).


Supongamos que se tiene:

N 1 = 40 N 2 = 60 N 3 = 100
L.C.Silva

y que se han contado los sujetos de cada conglomerado que tienen cierto rasgo (por ejemplo, ser
mujer) con los siguientes resultados:

T T T
X 1 = 10 X 2 = 20 X 3 = 40

M
 XTi
La fracción poblacional de mujeres es P = i = 1 = 70 = 0.35 . Consideremos ahora todas las
M 200
 Ni
i=1
muestras posibles de tamaño m = 2 (que se reducen a 3) y sus resultados, los cuales se resumen
a continuación:
+-----------------------+
¦ Estimaciones de P ¦ +---------------------------------------+-----------------------¦
¦Muestra¦ UPE ¦ Tamaño ¦Número de ¦ Estimador ¦Estimador ¦ ¦ ¦elegidos ¦ muestral ¦
mujeres ¦ insesgado ¦de razón ¦
+-------+---------+----------+----------+------------+----------¦
¦ 1 ¦ 1,2 ¦ 100 ¦ 30 ¦ 0.225 ¦ 0.300 ¦
¦ ¦ ¦ ¦ ¦ ¦ ¦
¦ 2 ¦ 1,3 ¦ 140 ¦ 50 ¦ 0.375 ¦ 0.357 ¦
¦ ¦ ¦ ¦ ¦ ¦ ¦
¦ 3 ¦ 2,3 ¦ 160 ¦ 60 ¦ 0.450 ¦ 0.375 ¦
+---------------------------------------------------------------+

Es fácil constatar que el promedio de las 3 estimaciones posibles, cuando se emplea el estimador
p I ; coincide con P ; en tanto que el de las estimaciones de razón es igual a 0.344, diferente del
parámetro.

En resumen, al utilizar el económico procedimiento de muestreo monoetápico, se pueden aplicar


dos métodos de estimación: el estimador insesgado [6.1] o el estimador de razón [6.2], más
simple y natural. Ambos son inconvenientes cuando la variabilidad de los tamaños de las UPE es
grande y el primero no puede usarse si -como ocurre con frecuencia- el tamaño poblacional N se
desconoce.

6.2.3 Estimación de errores

Procede considerar ahora el problema de estimación de los errores.

Para el estimador [6.1], la varianza se estima empleando la siguiente expresión:


2
M 2 sI 6 .3
var( x I ) = (1 - f)
N2 m
L.C.Silva
donde

m 1 m 1 m

 ( X Ti - X T ) = X
2 2 T T
f= S =
I X i
M m - 1 i=1
m i=1

Para el estimador [6.2], la fórmula es:


m  
m m m

 + x  N - 2x  X 6.4
1- f
var( x ) = 2
 ( X Ti )2 2 2
i
T
i N i
n m - 1  i=1 i=1 i=1 

La fórmula [6.4], sin embargo, es una aproximación cuya validez se subordina al cumplimiento de
la siguiente condición40:
m(1 - f) s 2I < (0.2)n 6.5

40
El coeficiente 0.2 es un número esencialmente arbitrario que se
sugiere en Kish (1965).
L.C.Silva

Para ilustrar estas fórmulas, consideremos ahora otro ejemplo. Se investigan los certificados de
defunción acumulados durante varios años en una oficina central, los cuales se hallan
almacenados en 480 paquetes de diferentes tamaños. El número de certificados por paquete
oscila entre 50 y 300, pero se desconoce para cada uno de ellos.

Supongamos que se cuenta, sin embargo, con el número exacto del total de certificados
acopiados durante el lapso que se investiga, el cual asciende a 84.228. Se quiere estimar la
proporción P de certificados que contienen algún apartado en blanco, u otro defecto apreciable
en su llenado.

Supongamos que del total de 480, se seleccionan 20 paquetes mediante muestreo simple
aleatorio. Los resultados obtenidos al contar el número de unidades N i y el de certificados defec-
T
tuosos Xi en los paquetes elegidos son los que se reflejan en la Tabla 6.1.

Tabla 6.1 Tamaños de 20 paquetes de certificados de defunción y número de certificados


defectuosos por paquete

Paquete i Número de certificados Certificados


(UPE) Ni defectuosos X Ti

1 221 14
2 84 11
3 76 21
4 58 4
5 49 13
6 302 75
7 101 13
8 211 61
9 204 50
10 64 8
11 92 14
12 58 32
13 63 6
14 118 21
15 195 58
L.C.Silva
16 222 41
17 97 10
18 123 11
19 284 101
20 82 23
Total 2704 587

Los datos de resumen relevantes son:


M = 480 N = 84.228 m = 20
1 m m
f= n =  N i = 2.704  XT
i = 587
24 i=1 i=1

m m m
 N i2 = 488.024  ( XT 2  XT
i ) = 30.715 i N i = 113.334
i=1 i=1 i=1

A partir de ellos, puede calcularse [6.1]: x I = 0.167 y, aplicando [6.3], se


tiene: var( x I ) = 0,001105

Por otra parte, la media muestral, según [6.2], es igual a:


587
x = 2704 = 0,217
L.C.Silva

Para evaluar la precisión de esta estimación, se utiliza la fórmula [6.4] y se obtiene


var( x ) = 0,000622 , resultado válido ya que, como es fácil corroborar, en este caso se cumple la
condición [6.5].

En resumen, la fracción P se ha estimado, con los mismos datos, por dos vías, y los resultados
son los siguientes:

Estimador Estimación Error Intervalo


Insesgado 0,167 0,065 [0,102-0,223]
De razón 0,217 0,048 [0,169-0,266]

O sea, si se usa el estimador de razón, se concluye que entre el 17 % y el 27 % de los certificados


contienen error, mientras que, por el otro método, se concluiría que dicho parámetro está entre 10
% y 22 %.

Se aprecia, por otra parte, que el estimador de razón produjo aparentemente41 un resultado más
preciso, pero también que, incluso en este caso, el error es considerable: asciende a un 5 %. En
términos relativos, esto representa un 23 % de la magnitud estimada del parámetro.

6.2.4 Una incongruencia del estimador insesgado

Un caso interesante se produce cuando cada elemento puede clasificarse en K categorías


diferentes (K  2) y se desea estimar la distribución de la población según dichas clases; es decir,
estimar las fracciones P1 , P 2 ,..., P K correspondientes a cada una de dichas categorías.

Si se trabajara con los métodos de selección estudiados anteriormente (MSA ,MS o MAE), la
estimación dichas fracciones con cada uno de estos Pi se podría llevar adelante según las
fórmulas correspondientes sin incongruencia alguna; es fácil convencerse, sin embargo, de que en
el caso del muestreo por conglomerados monoetápico, al estimar los Pi mediante la fórmula [6.1]
K
se obtienen estimaciones Pˆ 1 , Pˆ 2 , , Pˆ K cuya suma no es la unidad:  Pˆ  1 .
i=1
i Esto es obviamente
K
contraproducente, ya que por definición se cumple que  P = 1.
i=1
i

41
No podemos estar totalmente seguros de ello, porque sólo contamos con
estimaciones de las varianzas y no con las varianzas verdaderas, que
son de hecho imposibles de conocer a través de datos muestrales.
L.C.Silva
Por ejemplo, supongamos que se tiene la siguiente situación: en una escuela que tiene N = 850
alumnos en total, ubicados en M = 26 grupos; se han seleccionado m = 4 de estos grupos, la
totalidad de cuyos integrantes fue interrogada sobre diversos aspectos relacionados con
accidentes. Una de las preguntas clasificaba a cada alumno en una de K = 3 categorías según
número de accidentes sufridos durante el último año:

(1) No tuvo accidente alguno

(2) Tuvo sólo un accidente

(3) Tuvo más de un accidente

Los resultados fueron:

+---------------------------+
¦ Categorías ¦
+---------------------+---------------------------¦
¦ Grupo ¦ Tamaño ¦ (1) (2) (3) ¦
¦---------+-----------+---------------------------¦
¦ 1 ¦ 24 ¦ 20 3 1 ¦
¦ 2 ¦ 31 ¦ 30 1 0 ¦
¦ 3 ¦ 18 ¦ 14 2 2 ¦
¦ 4 ¦ 25 ¦ 19 4 2 ¦
¦---------+-----------+---------------------------¦
¦ Total ¦ 98 ¦ 83 10 5 ¦
+-------------------------------------------------+

Al aplicar la fórmula [6.1] a cada categoría se obtiene:


M 1 4 26 83
Pˆ 1 =  XT = = 0.63
N m i = 1 i1 850 4

M 1 4 26 10
Pˆ 2 =  XT = = 0.08
N m i = 1 i2 850 4

M 1 4 26 5
Pˆ 3 =  XT
i3 = = 0.04
N mi=1 850 4
L.C.Silva

La suma de estos tres números es 0.75. De modo que, en caso de que se usara [6.1] para
estimar cada una de las fracciones, la distribución porcentual de alumnos según estas tres clases -
en que necesariamente se ubica todo elemento de la población- no abarcaría al 100 % de la
K
población, sino solo al 75 % de ella! En general, es fácil probar que la suma  Pˆ
i=1
i de las

m n
estimaciones insesgadas es igual a la unidad si y solo si se cumple la relación = , donde
M N
m
n =  N i . Tal condición, como es obvio, ocurre solo excepcionalmente. En Silva y Rubí (1983)
i=1
se discute esta situación aberrante, nunca consignada en textos de muestreo que, sin embargo,
se regodean en complicados desarrollos formales sobre los estimadores insesgados.

El problema que se ha presentado abarca al caso en que K = 2 ; es decir, al caso hiperfrecuente


en que se estima una simple fracción o proporción. En efecto, en esta situación la anomalía se
traduce en el hecho de que Pˆ  1 - Qˆ supuesto que tanto  como su complemento Q se estiman
mediante [6.1]. Lo que ocurre es que, en la práctica, se obtiene la estimación de  y, si resulta
necesario referirse a la fracción (o porcentaje) de los sujetos que tienen la condición
complementaria, directamente se emplea 1 - ̂ en lugar de reestimar Q a través de Q̂ . Ello
explica que esta grosera incongruencia del estimador quede oculta. Para abundar sobre el tema
consideremos el mismo ejemplo arriba expuesto pero considerando solo dos categorías: no haber
sufrido accidente alguno y haber tenido al menos un accidente. La situación sería:

Grupo Tamaño Categorías


(1) (2)
1 24 20 4
2 31 30 1
3 18 14 4
4 25 19 6

Si se estima la fracción de no accidentados, esta es como vimos 63 %; si alguien nos pregunta por
el porcentaje de accidentados, usualmente restaríamos 63 de 100 y responderíamos: 37 %. Sin
embargo, si se aplica [6.1] para estimar este último porcentaje, se obtendría un número
26 15
aparatosamente diferente: 12 % (resultado de calcular: . ).
850 4

La solución obvia para eludir esta inconsistencia consiste en usar el simple estimador de razón
[6.2] (es decir, el porcentaje muestral). En ese caso, las estimaciones serían:
L.C.Silva
m

X
i=1
T
ij

pj= m

N
i=1
i

cuya suma, naturalmente, es la unidad. En el caso inicial (con tres categorías), por ejemplo, se
tendría:
83
p1 = 98 p 2 = 10
98 p 3 = 985
L.C.Silva

6.3 Muestreo en etapas con submuestreo

El muestreo monoetápico es en muchas situaciones eficiente y perfectamente aplicable; ello


explica que se emplee con bastante frecuencia, especialmente en estudios de magnitud reducida.
Tiene algunas desventajas, sin embargo; además de la impredecibilidad del tamaño muestral que,
como se vio, pudiera llegar a ser acusada, ha de contemplarse la que se explica a continuación.

En ocasiones la población es demasiado grande para que el muestreo por conglomerados


monoetápico sea aplicable, ya que, bien no resuelve el problema de la dispersión incosteable de la
muestra (a la vez que exige poseer unos listados que por lo general son virtualmente imposibles
de conseguir), bien las UPE serían desmesuradamente grandes.

Supongamos que se planifica seleccionar una muestra de unos 2.000 ancianos de una ciudad de
alrededor de 1.700.000 habitantes. La población objeto (o diana) consta de unos 148.000 sujetos
elegibles (ancianos) para el estudio, los cuales, como es natural, se dispersan por todo el
perímetro urbano. Descartados, como es obvio, el MSA, el MAE y el MS por las razones ya
consabidas (detalladas en la Sección 6.1), valoremos la posibilidad de emplear un muestreo
monoetápico. Cuáles podrían ser las UPE?

La ciudad se divide en 98 municipios de tamaños esencialmente similares, y cada uno de ellos se


subdivide en circunscripciones (entre 300 y 400 circunscripciones en cada municipio).
Supongamos, por mencionar un número realista, que la ciudad consta de 32.144 circunscripciones
en total.

Si se tomara cierta cantidad de municipios en calidad de UPE, se abre un problema evidente: en


cada municipio hay no menos de 1500 ancianos; entonces resulta imposible elegir por muestreo
monoetápico alrededor de 2.000 elementos, ya que el número mínimo de UPE que hay que
elegir42 ( m = 2 ) produciría un tamaño acusadamente mayor que el deseado (aproximadamente
3000).

42
Obsérvese que con un solo conglomerado no podrían estimarse errores,
ya que tanto la fórmula [6.3] como la [6.4] contienen el el término
Install Equation Editor and double-
click here to view equation. en el denominador.
L.C.Silva
Por otra parte, si se optase por seleccionar circunscripciones en calidad de UPE (entre las 32.044
existentes) para luego estudiar todos los ancianos allí radicados, y así completar el muestreo por
conglomerados monoetápico, cuántas de tales circunscripciones habría que seleccionar? Un
simple cómputo aritmético deja ver que, como promedio, habrá unos 4 ó 5 ancianos en cada una
de estas UPE. De modo que, para tener unos 2 000 sujetos, en la muestra, harían falta más de
400 circunscripciones, lo cual implica que la muestra exhibirá una dispersión geográfica muy
probablemente indeseable o directamente incosteable (además del engorro que supone
procurarse un listado de decenas de miles de circunscripciones y después operar con él). La
introducción de al menos una etapa adicional de muestreo resuelve estas dificultades43.

La estructura del muestreo por conglomerados bietápico y la notación correspondiente se exponen


a continuación. Se trata de seleccionar cierto número m de UPE y, dentro de cada UPE
seleccionada, elegir una parte de las unidades de análisis que la integran. La Figura 6.2 refleja
este diseño para un caso en que hay M = 13 UPE en total, de las cuales se toman m = 3 para
aplicarles submuestreo.

Por ejemplo, retomando la ilustración de los certificados de defunción desarrollado en la Sección


6.2.3, se podría considerar la elección de una muestra de 3.000 certifica dos mediante la selección
inicial de 60 paquetes al azar del conjunto de los 480 almacenados, y luego tomar 50 certificados
de cada paquete así seleccionado.

En general consideramos que hay M UPE de tamaños N 1 , N 2 ,..., N M y que se seleccionan m


de ellas; luego, en el i-ésimo conglomerado elegido, se toman ni unidades para formar la
muestra44. La notación que usaremos es consistente con la que se introdujo en la sección
precedente:

Población Muestra
Número de elementos de la i- Ni ni
ésima unidad
Media de la variable X en la Xi xi
i-ésima unidad
Número de UPE M m
Número total de elementos M m
N =  Ni n =  ni
i=1 i=1

43

44
Es fácil advertir que, cuando se toman todos los conglomerados (m=M),
entonces estamos exactamente ante la estructura de un MAE y que, en el
caso en que se tenga ni=Ni para todas las UPE, lo que se realiza no es
más que un muestreo por conglomerados monoetápico. O sea: el muestreo
por conglomerados bietápico abarca tanto al MAE como al muestreo
monoetápico, como casos particulares.
L.C.Silva

6.3.1 Estimador sin sesgo

Si la selección de las m UPE de entre las M existentes se hace mediante MSA, y este mismo
método se utiliza para elegir los elementos dentro de las UPE seleccionadas, puede probarse que
un estimador insesgado de X viene dado por:
m

N 6.6
M
xc = i xi
Nm i=1

y un estimador insesgado de P , como caso particular, por:


m

N 6.7
M
pc = i pi
Nm i=1

donde pi es la fracción muestral de sujetos del i-ésimo conglomerado seleccionado que poseen
el atributo que se estudia.

Las fórmulas exactas para estimar la varianza de xc y pc son en extremo complicadas y


engorrosas. En la práctica, los estimadores [6.6] y [6.7] sólo se emplean raramente, pero
considero conveniente reproducirlas, sobre todo para que se pueda apreciar dicha complejidad.
Para la media tenemos:
1  M 2(M - m) s 2x M N i - ni s i2 
m
var( x c ) = 
N 2  M m m
+ N
i=1
2
i
ni ni 
 6.8

1 m 1 ni m
donde s 2x =  Xi X
m - 1 i=1
( ˆ - ˆ * 2
) y 2
Si =  xij xi
ni - 1 j=1
( - )
2
con X i N i xi X m  Xˆ i , y donde
ˆ = , ˆ *
= 1

i=1

xij denota el valor de X para la i-ésima unidad elegida en el i-ésimo conglomerado de la


muestra.

Para el caso de una fracción, la fórmula es:


1  M 2(M - m) pi qi 
m m

 N  Nn n 6.9
1 M i-
var( p c ) =  [ N i pi - i pi ] 2 + i

N 2  M m(m - 1) i=1
m i=1
m i=1 i ni - 1 
L.C.Silva
donde qi = 1 - pi .

La estrategia general que se ha expuesto no necesariamente produce muestras e-


quiprobabilísticas, circunstancia parcialmente responsable del abigarramiento que exhiben las
fórmulas [6.8] y [6.9].

6.3.2 Probabilidades de selección

Cabe ahora intercalar la cuestión de cómo se calculan, en general, las probabilidades de inclusión
bajo el régimen de selección en dos etapas. La regla de cómputo general de la probabilidad de
inclusión f de un sujeto de la población es la siguiente:
f = f1 f2 6.10
donde f 1 es la probabilidad de que se elija la UPE en que se halla el sujeto y f 2 es la
probabilidad condicional de que éste resulte seleccionado dado que lo fue la UPE que lo contiene.

Adviértase que la fórmula [6.10] no es más que la aplicación de un resultado elemental de teoría
de probabilidades, el que establece que P(A  B) = P(B | A)P(A) En este caso, A representa el
suceso de que sea elegido el conglomerado que contiene a la unidad considerada y B el de que
ésta última sea elegida en la segunda etapa.

Si los m conglomerados se eligen por un método equiprobabilístico (por ejemplo, MSA o MS),
m
entonces f 1 = para todas las UPE.
M

Análogamente, si los ni individuos dentro del i-ésimo conglomerado seleccionado se toman por
medio de MSA o por MS, entonces, para los N i individuos de esa UPE se tiene que f 2 = ni
Ni
.
Aplicando [6.10] se arriba a que la probabilidad final de una unidad perteneciente al conglomerado
i-ésimo es igual al producto de esas dos fracciones:

f=
m ni
6.11
M Ni
L.C.Silva

Para la elección de los tamaños ni no hay ninguna regla; cualquier valor para ni es en principio
legítimo. Sin embargo, suelen valorarse dos casos particulares:

(a) Seleccionar una fracción fija de unidades de análisis dentro de los conglomerados
elegidos (es decir, el mismo porcentaje en cada uno de ellos).

(b) Seleccionar un número fijo, digamos n , de elementos dentro de cada UPE seleccionada
(el mismo número de unidades de segunda etapa en todas y cada una de las UPE,
independientemente de sus tamaños).

En el primer caso se tiene una muestra final equiprobabilística, pero el tamaño final sería aleatorio.
1
En efecto: si f 2 es constante (por ejemplo, f 2 =
, suponiendo que se decide tomar el 10 % de
10
los elementos contenidos en cada uno de los m conglomerados), entonces según la fórmula
m
[6.10] se tiene que f = f , un número que no depende de qué conglomerado se trate y por lo
M 2
tanto igual para todos los elementos de la población. Por otra parte, el tamaño muestral
ascendería en ese ejemplo al 10 % del número de sujetos abarcados por las m UPE que hayan
resultado elegidas; consecuentemente, dicho tamaño se ignorará hasta tanto no concluya la
elección aleatoria en la primera etapa.

En el segundo caso -cuando se toma un número fijo de unidades en cada UPE- ocurre lo
contrario: el tamaño final de la muestra es fijo (igual al producto m n ), pero, según [6.10], la
probabilidad de inclusión de cada sujeto es inversamente proporcional al número de unidades de
m n
análisis que integran la UPE que lo contiene: , dependiente de i (igual dentro de cada UPE,
M Ni
pero diferente entre conglomerados que tengan tamaños diferentes).

Al igual que en el caso monoetápico, si los tamaños de las UPE son muy diferentes unos de
otros, la variante (a) debe evidentemente descartarse porque el tamaño final de muestra sería
virtualmente impredecible. De no ser éste el caso, tanto la variante (a) como la (b) pueden
utilizarse, pero las fórmulas [6.6], [6.7], [6.8] y [6.9] sólo pueden emplearse en el infrecuente caso
en que se conozca exactamente el tamaño poblacional.

6.3.3 Estimador de razón

Además de que muchas veces se desconoce N , debe enfatizarse que, en rigor, lo ideal y más
conveniente es prescindir de formulaciones tan abigarradas como las que se asocian a los
estimadores insesgados. Una alternativa de mucho mayor aplicación en la práctica consiste en el
empleo de un estimador de razón. Si el procedimiento es equiprobabilístico, éste no es otra cosa
que la media muestral; si no lo fue, hay que incorporar ponderaciones. Veamos este último caso
(el más general).
L.C.Silva

Si llamamos y ij al valor de la variable Y para el sujeto j de la unidad de primera etapa i-ésima y


wij a la ponderación que corresponde a ese valor (el inverso de la probabilidad de selección que
ni ni
tuvo ese sujeto), se definen y i = w
j= i
ij y ij # xi =  wij .
j=i

m m
Con estos valores pueden computarse x y y : x = 
i=1
xi y y = y ,
i=1
i y con ellos, por último, se

produce la estimación:

r=
y
6.12
x

La varianza de r se estima, finalmente, mediante la fórmula siguiente:


 m m m 
 + r  x - 2r  x y  6.13
1 m 
var(r)  y i2 2 2
x2 m - 1  i i i
 i=1 i=1 i=1 
L.C.Silva

Nótese que la fórmula [6.13] tiene la misma estructura que [6.4]. Si el diseño es
equiprobabilístico, las ponderaciones pueden eliminarse. Los valores de y i y xi se reducen a:
ni ni
yi =  yij xi =  xij
j=1 j=1

y [6.13] coincide enteramente con [6.4] aunque con otra notación, salvo que en [6.13] se ha
considerado que f  0 , lo cual es enteramente razonable, ya que el empleo de muestreo
bietápico se asocia típicamente a poblaciones considerablemente grandes.

6.3.4 Ilustración

Consideremos nuevamente el ejemplo de los certificados de defunción introducidos en la Sección


6.2.3, pero suponiendo que se han tomado ni = 30 sujetos con MSA o MS en cada uno de los
m = 20 paquetes. Como se recordará, el número total de paquetes era M = 480 , de modo que la
m ni 20 30
probabilidad de selección de un sujeto en la i-ésima UPE es igual a = , de donde se
M N i 480 N i
deduce que a todos los elementos de esa UPE les corresponde la ponderación:
480 N i
wi = = 0,8 N i . Los resultados son los que recoge la Tabla 6.2.
600

Tabla 6.2 Tamaños de 20 paquetes de certificados de defunción y número de certificados


defectuosos por paquete y datos para el cómputo de estimaciones

Paquete i Ni ni wij 30
Yi xi
(UPE) y
j =1
ij

1 221 30 176,8 2 353,6 5304


2 84 30 67,2 4 268,8 2016
3 76 30 60,8 9 547,2 1824
4 58 30 46,4 0 0 1392
5 49 30 39,2 7 274,4 1176
6 302 30 241,6 6 1449,6 7248
7 101 30 80,8 2 161,6 2424
8 211 30 168,8 9 1519,2 5064
9 204 30 163,2 4 652,8 4896
L.C.Silva
10 64 30 51,2 1 51,2 1536
11 92 30 73,6 5 368,0 2208
12 58 30 46,4 14 649,6 1392
13 63 30 50,4 3 151,2 1512
14 118 30 94,4 5 472,0 2832
15 195 30 156,0 10 1560 4680
16 222 30 177,6 6 1065,6 5328
17 97 30 77,6 3 232,8 2328
18 123 30 98,4 3 295,2 2952
19 284 30 227,2 6 1363,2 6816
20 82 30 65,6 11 721,6 1968

A partir de estos datos, se obtiene:


20
 yi
y i=1 12.157,6
r= = = = 0,187
x 20 64.896
 xi
i=1

Por otra parte:


20 20 20
 yi2 = 12.328.714 ,9  xi2 = 281.101.824  xi yi = 53.990.073,6
i=1 i=1 i=1

y al aplicar [6.13] para m = 20 , x = 64.896 y r = 0,187 se obtiene:


var(r) = 0,000491 var(r) = 0,022
L.C.Silva

De modo que el error de esta estimación se estima en (1,96)(2,2) = 4,3% y el intervalo de


confianza, finalmente, resulta ser [14,3% - 23,1%]

6.4 Muestreo polietápico

Hasta aquí se ha discutido en detalle el caso bietápico. Pero el muestreo en etapas puede
aplicarse, desde luego, a poblaciones tan grandes que pudieran exigir la incorporación de tres,
cuatro o incluso más etapas de selección. Todos los conceptos desarrollados pueden extenderse
fácilmente a tal situación. Por ejemplo, si el número de etapas fuese 4, la fórmula [6.10] pasaría a
ser:
f = f1 f2 f3 f4
L.C.Silva

La fórmula [6.12] y [6.13] tienen valor general; es decir, son igualmente válidas en la situación
polietápica. Esto quiere decir que lo único que influye de manera sustancial en el cómputo de
errores es la variabilidad que exhiben entre sí los datos para las unidades de primera etapa,
independientemente de cuántas etapas adicionales se hayan empleado (Kalton, 1979).

6.5 Efecto de diseño

En este punto debe insertarse un concepto de cierta importancia, sobre todo teórica: el llamado
efecto de diseño. Antes de introducirlo, reparemos en la siguiente circunstancia: el muestreo en
etapas es en general menos eficiente que el MSA (supuesto, naturalmente, que no se modifica el
tamaño muestral) en lo que concierne a la precisión de los estimadores. Ello se debe a que, en la
práctica, las mismas circunstancias que agrupan o conglomeran a los sujetos suelen hacerlos
parecidos entre sí y, por lo tanto, al tomar información de sujetos procedentes de unos pocos
conglomerados, ésta tiende a ser redundante y menos informativa que la que se obtendría a partir
de una muestra con el mismo número de individuos, pero dispersa por toda la población.

Esta reducción de la representatividad es claramente intuitiva; una rápida mirada a la Figura 6.3
ayuda a persuadirnos de ello: la muestra consta de 28 sujetos, pero en un caso se hallan
concentrados en dos conglomerados, y en el otro dispersos por toda la población.

El grado en que la conglomeración induce una pérdida de eficiencia puede expresarse


formalmente en términos de los errores de muestreo; más específicamente, en términos de la
varianza de los estimadores.

Concretamente, supongamos que se quiere estimar X con una muestra de cierto tamaño n y
que se manejan dos alternativas: MSA y muestreo en etapas (ME), en cualquiera de sus

variantes. Llamemos V MSA ( x ) y V ME ( x ) a las varianzas respectivas; entonces usualmente


se tendrá que V MSA ( x ) < V ME ( x ) . A la razón entre tales números se le llama efecto de diseño
y se le denota por DEFF . El nombre -un apócope de la expresión inglesa "design effect"- es
sugestivo de la noción subyacente, ya que se entiende que un MSA no es en rigor un diseño, sino
que consiste en la toma de información exclusivamente basada en el azar, sin intervención
"diseñadora" del muestrista; en cambio, en el proceso del muestreo en etapas hay una serie de
decisiones involucradas acerca de cuáles y cuántas son las UPE, cuáles las unidades de segunda
etapa, etc. El diseño consiste, precisamente, en el resultado de haber adoptado adoptar tales
decisiones, y DEFF mide el efecto de hacerlo con respecto al caso en que solo interviene el
ciego azar.

Es decir, se define

DEFF =
V ME ( x )
6.14
V MSA ( x )
L.C.Silva

DEFF es normalmente mayor que 1, y el grado en que excede a este número expresa cuánta
eficiencia se ha perdido como consecuencia de haber aplicado un diseño menos preciso (aunque
también mucho más económico y práctico) que un MSA.

En la práctica, cuando se ha realizado un muestreo en etapas, DEFF puede estimarse mediante


deff (inherente a dicho diseño) del modo siguiente:

1. Se hace la estimación var ME ( x ) de V ME ( x ) mediante la fórmula que corresponda al


diseño elegido (usualmente, algún tipo de muestreo en etapas)

2. Se toman los n elementos resultantes en la muestra como si provinieran de un MSA (sin


reparar en la UPE de la que proceden) y se calcula la varianza de los datos muestrales,
exactamente como se habría hecho en un MSA. Por ejemplo, si se trata de la estimación
n

( x - x )
2
de una media, se calcula s 2 = n1-1 i donde n es el tamaño de la muestra
i=1
resultante del diseño en cuestión, xi el valor de su i-ésimo integrante.

s2
3. Se calcula var MSA ( x ) = que es una estimación de la varianza de x bajo MSA (donde
n
se suele prescindir del factor de corrección).

var ME ( x )
4. Se computa: deff =
var MSA ( x )

NOTA: Se ha desarrollado el caso en que se estima el DEFF correspondiente a una


media; si se tratara de una fracción o proporción, la formulación es la misma, pero
contemplando que se pondría xi = 1 en caso de que el i-ésimo sujeto tuviera la
característica y xi = 0 en el caso opuesto.

Podemos medir ahora el efecto de diseño correspondiente al ejemplo de la sección precedente.


Se tenía que la estimación de la fracción de certificados defectuosos era: p = 0,187 y que
var(r) = 0,000491 (esta sería var ME ( x ) ).

r (1 - r) (0,187)(0,813) 0.000491
Ahora var msa (p) = = = 0,000253 y deff = 0.000253 = 1.94 .
n 600

En este ejemplo, el muestreo en etapas es aproximadamente 2 veces más ineficiente que el MSA
en lo que hace a la estimación de la fracción de certificados defectuosos.
L.C.Silva

CAPITULO 7 UN DISEÑO ESPECIAL: SELECCIÓN DE CONGLOMERADOS CON


PROBABILIDADES PROPORCIONALES A SUS TAMAÑOS

Este capítulo se destina a explicar un procedimiento que posee especial importancia práctica y
cuya esencia estriba en seleccionar las UPE con diferentes probabilidades en lugar de hacerlo a
través de un método que -como el MSA- otorgue iguales posibilidades de elección a todas ellas.

Consideremos que se quiere diseñar una muestra para estudiar la morbilidad hospitalaria de una
región y que se decide hacerlo mediante una muestra de aproximadamente 2000 historias clínicas
correspondientes a altas hospitalarias producidas durante el último año. Supongamos que las
altas proceden de 106 hospitales y que en total ascienden a unas 400.000 a lo largo del año. La
selección de altas se hará en dos etapas, escogiendo inicialmente m = 10 hospitales, y luego 200
sujetos de cada uno.

Supongamos que, al analizar la distribución de altas por hospitales, se advierte que ésta dista de
ser uniforme: hay un pequeño grupo de 12 grandes hospitales que genera en total el 45 % de las
altas hospitalarias de la región. Consecuentemente, si la selección de las 10 UPE se realizara con
MSA, entonces cada uno de estos 12 hospitales grandes tendría la misma probabilidad de ser
incluido en la muestra que la de todos los restantes, la mayoría de los cuales son pequeñas
unidades municipales y que -por su naturaleza- reflejan un tipo muy particular de morbilidad
hospitalaria.

A partir de estas consideraciones, puesto que las UPE tienen tamaños muy diferentes, es
intuitivamente ilógico usar un procedimiento equiprobabilístico en la primera etapa. Se corre el
riesgo, por ejemplo, de que muchos hospitales grandes (quizás todos) queden fuera del estudio, lo
cual sería obviamente "chocante". Dicho en términos más técnicos: la posibilidad de tener
muestras demasiado homogéneas (es decir, poco representativas) sería muy grande.

7.1 Procedimiento de selección

Consideremos un método específico destinado a eliminar esta dificultad, el cual -como se verá-
exhibe varias virtudes adicionales. Se trata de un muestreo equiprobabilístico que se realiza en
varias etapas, pero otorgando a cada UPE una probabilidad de selección proporcional a su
tamaño. La versión que se explica a continuación corresponde a un diseño en dos etapas. En la
medida que se desarrolle se expondrá, paralelamente, un ejemplo sencillo.

Supongamos nuevamente que se tiene una población de N unidades de análisis divididas en M


conglomerados de tamaños N 1 , N 2 , , N M . En la vida real suele ocurrir que los N i no se conocen
de antemano con exactitud. Por lo tanto, para no perder realismo, en lo sucesivo consideraremos
que lo que se conoce son ciertas aproximaciones A1 , A2 , Am de los tamaños reales. Al tamaño
total aproximado lo llamaremos A .

Por ejemplo, supongamos que se cuenta con los datos provenientes de un censo no actualizado
de los residentes de un sector de salud que tiene aproximadamente A = 2200 individuos
distribuidos en M = 8 manzanas del siguiente modo:
L.C.Silva

Manzana 1 2 3 4 5 6 7 8

Tamaño 115 220 525 310 205 190 425 210

La idea es seleccionar una muestra de aproximadamente n elementos en dos etapas: obtener m


UPE con probabilidades de selección proporcionales a sus tamaños, y luego tomar
aproximadamente n individuos en cada UPE ( n = m n )45; por ejemplo, fijemos n = 200 , m = 4 y
n = 50 . Así las cosas, la probabilidad común que se otorgará a todos los sujetos será igual
n 200
a: f = = .
A 2200

A continuación se exponen, comentan e ilustran los seis pasos que deben darse para llevar
adelante la selección.

(1) Crear una lista de las UPE y obtener los tamaños acumulados Ci = A1 + A2 + ... + Ai a
lo largo de la misma.

Install Equation Editor and double-


Acerca de la determinación de click here to view equation.
45
¡Error! Sólo
Install Equation Editor and double-
el documento principal. y click here to view equation. ¡Error!
Sólo el documento principal. nos referiremos más
adelante.
L.C.Silva
En el ejemplo, esto significa conformar una tabla como la siguiente:
Manzana Tamaño Ai Tamaño acumulado C i

1 115 115
2 220 335
3 525 860
4 310 1170
5 205 1375
6 190 1565
7 425 1990
8 210 2200

(2) Calcular el intervalo de selección I = A/m .

2200
En el ejemplo, esto es I = = 550 .
4

(3) Seleccionar un número aleatorio R entre 1 e I.

Supongamos que el número elegido al azar entre 1 y 550 resultó ser R = 369 .

(4) Se calculan los números siguientes:


Z1 = R Z2 = R + I Z3 = R + 2I ... Zm = R + (m-1)I

En nuestro caso, estos m = 4 números son:


369 919 1469 2019
L.C.Silva
(5) Asociar cada uno de estos números con una UPE del modo siguiente: se selecciona
para cada Zi la primera UPE cuyo tamaño acumulado supere o iguale al número en
cuestión.

De ese modo, 369 identifica a la manzana 3 (pues C 3 = 860 es el primer valor de C i no superado
por 369); 919 identifica a la UPE número 4 por ser 1.170 el primer acumulado que lo supera; 1.469
identifica a la manzana 6 y 2.019 a la última. Así, en el ejemplo, han quedado elegidos los
conglomerados que ocupan los lugares 3,4,6 y 8 del listado.

(6) Dentro del conglomerado i-ésimo, obtener una muestra equiprobabilística con
probabilidad f2 = n/Ai

50 50 50 50
En nuestro caso se aplican fracciones de muestreo de magnitud , , , y
525 310 190 210
respectivamente a los listados de individuos en las manzanas elegidas.

7.2 Estructura probabilística

Analicemos ahora la estructura probabilística inherente al procedimiento descrito. Se puede


demostrar que la probabilidad de que sea elegido el conglomerado i-ésimo es igual a
Ai = m Ai . No es difícil corroborarlo con un ejemplo cualquiera: el conglomerado 6,
f 1=
I A
pongamos por caso, resulta elegido siempre que uno de los números Z i se halle entre 1376 y
1565; esto ocurre a su vez si R es uno de los 190 valores que se encuentran entre 276 y 465. El
valor de R que se obtuvo en el ejemplo fue 369 y está en ese caso; pero si hubiese sido 466, ya
no hubiera producido la selección de esta sexta UPE, pues 666+(2)(550)=1566, un número mayor
que C 5 = 1565 ; de modo que hay 190 posibles valores de R que dan lugar a dicha selección.
Siendo 550 el número de arranques diferentes (es decir, de valores posibles de R ), la
190
probabilidad de selección de la sexta UPE es igual a
190
550 , que coincide con 4 2200 .

Dentro del i-ésimo conglomerado, se ha fijado que la probabilidad de que un sujeto resulte
n
seleccionado sea f 2 = . De ese modo se consigue la equiprobabilidad general programada:
Ai
Install Equation Editor and double-
click here to view equation.
L.C.Silva
Ai n mn n
f1 f 2  m    f
A Ai A A
Es necesario tener en cuenta que en el momento de seleccionar los elementos dentro de las UPE
elegidas en la primera etapa es preciso contar con listas de los verdaderos elementos que las
integran. El número de elementos de esta lista, N i es -en general- diferente de Ai (próximo si la
aproximación es buena, distante en otro caso).

Si en cada UPE elegida se tomasen exactamente n elementos (con MSA, por ejemplo) en cada
UPE elegida –lo cual pudiera ser un primer impulso-, la probabilidad de cada elemento en la
n n
segunda etapa sería , de modo que la probabilidad general sería: m Ai , un número
Ni A Ni
n
diferente de f = , salvo que no se hubieran hecho aproximaciones, sino que se conocieran los
A
tamaños exactos (o, equivalentemente, que se cumpliera que Ai = N i para todas las UPE).

7.3 Selección de unidades en la segunda etapa

n
En principio, hay dos maneras de conseguir que la subselección se produzca con probabilidad
Ai
entre los N i elementos de la i-ésima UPE:

n
(a) Usar muestreo sistemático en fases con la propia probabilidad
Ai

n Ni
(b) Seleccionar sujetos mediante MSA u otro procedimiento equiprobabilístico
Ai

La primera variante resulta en general más expedita, pero cualquiera de estas maneras de
practicar el submuestreo produce el mismo efecto: en lugar de obtener exactamente n USE por
cada UPE seleccionada, se obtendrá un número aleatorio xi cuya proximidad con n dependerá
de cuán buena haya sido la aproximación Ai que se empleó como sucedáneo de N i . Si
Ai > N i , entonces xi será menor que n , y viceversa.

En síntesis, el método es equiprobabilístico y produce una muestra de tamaño aproximadamente


igual a n . Consecuentemente, la media y la fracción muestrales estiman adecuadamente a los
parámetros correspondientes.
L.C.Silva
En el ejemplo de la Sección 7.1 se habían seleccionado las manzanas 3,4,6 y 8. Para hacer la
subselección hay que obtener los listados de los individuos que realmente residen en esas 4
manzanas. Supongamos que para esta segunda etapa se ha optado por el primer procedimiento.

Tomemos, por ejemplo, la manzana 8 (cuarta elegida): supongamos que cuando se procede a
censar las viviendas, se obtiene un listado de 205 individuos (en lugar de los 210 supuestos).
n 50
Primero se calcula = = 0.238  0.24 , y de inmediato se aplica un muestreo sistemático en
Ai 210
fases (nótese que en este caso no puede usarse el método regular). En la Tabla 4.2; buscamos
los intervalos K1 y K2 que corresponden a f = 0.24 y obtenemos: K1 = 4 y K2 = - 25 .
Admitamos que se obtiene como primer arranque aleatorio (entre 1 y 4) el número r 1 = 4 , y como
segundo arranque r 2 = 10 ; es fácil corroborar que, en ese caso, se eligen exactamente 49 sujetos
de los 205 existentes.

En el caso de la manzana 3 del listado (primera que se seleccionó), se tenía A1 = 525 ;


supongamos que, cuando se va al terreno, se detecta que N 1 = 612 , ya que, por ejemplo, un
edificio que no existía cuando se hizo el registro del que salieron los Ai fue posteriormente
n 50
habitado46 Se calcula = = 0,095  0,10. En este caso no es preciso acudir a la Tabla 4.2;
Ai 525
como f 2 = 0.1 , es obvio que el problema se resuelve seleccionando 1 de cada 10 elementos del
listado de 612 Supongamos que se arranca en r = 7 ; de este modo serán elegidos x1 = 61
individuos47 .

De manera similar se conduce el proceso para las otras dos manzanas seleccionadas. Como se
ve, el número de unidades de análisis tomadas para la encuesta dentro de una UPE no es en
general igual a n = 50 , sino un número aleatorio cuya magnitud depende básicamente de la
diferencia que haya entre Ai y N i . El ejemplo de la primera manzana de la muestra es un caso
extremo ( Ai considerablemente menor que N i ) y por ello la diferencia entre x1 y n es notable.
Sin embargo, aun cuando se produzca alguna pifia relativamente grande como esta, si las
aproximaciones fluctúan por encima y por debajo de los respectivos tamaños para unas y otras
m
UPE, y supuesto que m no es muy pequeño, entonces x = x
i=1
i debe ser muy próximo a

n = mn .

46
Este incidente revela que la fuente de información para obtener
Install Equation Editor and double-
los click here to view equation. Sólo ¡Error! el documento
principal.fue bastante defectuosa.
47
Serían 62 sujetos si el arranque fuese 1 ó 2
L.C.Silva
Nota:
Ocasionalmente podría ocurrir que 2 o más números de los Z i obtenidos identificaran al mismo
conglomerado; esto solo pasaría para una UPE cuyo valor de Ai fuera muy grande
(necesariamente mayor que I ). En tal caso, en dicha UPE se aplica sucesivamente la fracción
n
tantas veces como números la hayan identificado.
Ai

7.4 Notación

Una vez seleccionadas las unidades de análisis, se procede a la aplicación de la encuesta


propiamente dicha. Como veremos, la estimación de los errores se consigue sin necesidad de
conocer más que los totales dentro de cada UPE. Llamaremos y i a dichos totales; o sea, y i es
la suma de los valores de la variable en estudio para los xi sujetos elegidos en la i-ésima UPE
seleccionada, (o el número de individuos que posee cierto rasgo bajo estudio entre los xi
interrogados, si lo que se quiere estimar es una fracción poblacional).

Por ejemplo, consideremos que en el diseño que venimos considerando se quieren estimar los
siguientes dos parámetros:

a) la fracción de individuos que tienen anticuerpos a cierto virus

b) el número medio de consultas médicas por habitante que recibió la población durante el
último año

En la cuarta manzana se encuestaron 49 sujetos ( x4 = 49 ); supongamos que 14 tenían


anticuerpos de modo que y 4 = 14 . Si entre esos mismos 49 encuestados se acumularon 62
visitas al médico, entonces, a los efectos de la estimación del segundo parámetro, se tiene
y 4 = 62 .
L.C.Silva
La Tabla 7.1 recoge todos los datos relevantes del ejemplo hipotético, supuesto que ya se tienen
los resultados de la encuesta.

Tabla 7.1 Resultados en el ejemplo de la aplicación del método de muestreo en dos


etapas y selección de las UPE con probabilidad proporcional a los tamaños
aproximados

N del conglomerado en la muestra (i) 1 2 3 4


Tamaño aproximado Ai 525 310 190 210

Tamaños reales N i 612 301 190 204

 50  0.10 0.16 0.26 0.24


Fracción de submuestreo  
 Ai 
Tamaño de la submuestra xi 61 48 50 49

Total de individuos que tenían anticuerpos en 19 13 10 14


(1)
la submuestra y i

Total de consultas médicas recibidas por los 97 102 16 62


(2)
integrantes de la submuestra y i

El procedimiento explicado -como ya se ha dicho- produce una muestra equiprobabilística. Tal


muestra no tiene tamaño fijo; éste es un valor aleatorio x que no puede -por tanto- predecirse con
exactitud. Sin embargo, usualmente se tiene mucho mayor control del tamaño muestral que con
el muestreo monoetápico. En el ejemplo, el tamaño final resultó ser 208 en lugar del 200 previsto.
La diferencia dista de ser muy apreciable, pero en cualquier caso es debida básicamente a la
mala "aproximación" obtenida para la primera UPE elegida48.

7.5 Procedimientos de estimación

Para estimar una media o una fracción poblacionales se usan, respectivamente, la media o
fracción muestrales. Sin embargo, debe recordarse el carácter aleatorio del tamaño de muestra.
m
Este es x =  x , de modo que dichos estimadores son razones de variables aleatorias.
i=1
i

Tanto la media como la proporción se estiman entonces mediante la fórmula siguiente:


48
En el ejemplo hemos supuesto que para los 208 individuos se pudo
obtener respuesta para las dos preguntas. En la práctica ocurrirá que
el tamaño de muestra real variará de una pregunta a otra como
resultado de la no respuesta.
L.C.Silva
m
 yi
r= i=1
m  7.1
 xi
i=1

En nuestro ejemplo teníamos, a partir de la Tabla 7.1, que el tamaño muestral es


x = 61 + 48 + 50 + 49 = 208 . La estimación de la proporción P de individuos con anticuerpos en
m

y (1)
i
56
la población es r (1) = i=1
m = = 0,269 y la estimación del promedio de consultas por
X
208
i
i=1
habitante a lo largo del año resulta ser
m
 y(2)
i
i=1 277
r(2) = = = 1,33
m 208
 Xi
i=1

Se puede demostrar que, si se tuviera Ai = N i para todas las UPE (una situación inusual y, por
tanto, de escaso interés práctico), en cuyo caso xi = n , entonces:
1  m 2 
var( r ) =   y - mr 2   7.2
2 
m(m - 1) n  i = 1
i 

es una estimación insesgada de la varianza de r .

Adviértase que la fórmula de var( r ) es en este caso de una sencillez extrema, sobre todo si se
tiene en cuenta la complejidad del método.

Pero, lamentablemente, la vida es más rica que las mejores previsiones, de modo que en general
se trabaja con aproximaciones, y en tal caso la estimación de la varianza del estimador [7.1] viene
dada por la misma fórmula utilizada para el caso monoetápico; con la notación que tenemos
ahora, ésta es:

1 - f m  m 2 2 m 2 m 
var(r) =
  y i + r  x i - 2r  x i y i 

7.3
x2 m - 1 i = 1 i=1 i=1 

cuya validez se supedita a que se cumpla la condición:


m
( 1 - f )m s 2x < (0,2)  x i  7.4
i=1
L.C.Silva
 m 
n
donde s 2x =  xi2 - . En las aplicaciones prácticas, usualmente se tiene que f = A  0 , de
1 
m -1 
 i=1
x 2 
m

modo que se puede suprimir el factor (1 - f) de la fórmula [7.3].

En nuestro ejemplo se tiene f = 200


2200 = 0,091 m = 4 s 2x = 33,664 , de modo que, en efecto, se
cumple [7.4], ya que:
(1 - f) ms 2x = 11,546 y (0,2)x = 41,600

Al aplicar [7.3] para calcular la varianza estimada de ambas estimaciones, se tiene lo siguiente:
var( r (1) ) = 0,00054

var( r (2) ) = 0,11956

Sumando y restando el error absoluto (1,96) var(r) en cada caso, los intervalos de confianza al
95% de confiabilidad para P y X son, respectivamente, [0,224-0,315] y [0,654-2,009].

Como se ve, los errores son considerables (0,046 para la fracción y 0,678 para el número medio
de consultas); en términos relativos ascienden a 17.1 % y 60 % respectivamente. Ello se debe a
que en este pequeño ejemplo didáctico, el número de UPE seleccionadas ( m = 4 ) es muy
reducido, algo inusual en la práctica.

Resumiendo: en esta sección se ha introducido y discutido un procedimiento puntual que posee


los siguientes rasgos:

a) es equiprobabilístico

b) el tamaño muestral está bajo control

c) otorga probabilidades de selección proporcionales al tamaño de las UPE

d) el tamaño de muestra dentro de cada UPE es básicamente el mismo

Los cuatro rasgos mencionados son atractivos por diferentes razones. El carácter
equiprobabilístico es favorable porque en ese caso todas las fórmulas son más simples, porque es
psicológicamente más admisible por parte del personal lego en la materia y porque la
incorporación de ponderaciones siempre resta algo de eficiencia a las estimaciones (Kish, 1965).
La ventaja de poder hacer una predicción razonable del tamaño muestral es evidente. Por otra
parte, el hecho de que las UPE mayores tengan más oportunidad de ser elegidas que las más
pequeñas contribuye, como se explicó antes, a la representatividad. Finalmente, desde el punto
de vista logístico, en lo que concierne a trabajo de terreno, tener tamaños similares dentro de cada
una de las UPE, independientemente de la magnitud de muestra que tengan, suele ser altamente
L.C.Silva
conveniente, porque ayuda sensiblemente a la organización del trabajo de terreno.

7.6 Manejo práctico de las aproximaciones de tamaño

Todo el procedimiento explicado en este capítulo reposa en que se cumpla la siguiente condición:
A
n  Ai 
m

n Ai
Esto se debe a que las razones y son probabilidades de selección y, como tales tienen
Ai I
que ser números no mayores que 1.

La condición Ai < I solo habrá de incumplirse cuando exista alguna UPE cuyo tamaño sea
extraordinariamente grande respecto del resto. Nótese que el incumplimiento de dicha condición
A
no es muy probable, ya que m es usualmente mucho menor que M , de modo que M (que no
A
es otra cosa que el valor promedio de los Ai ) habrá de ser sustancialmente menor que I = m .
Consecuentemente, solo un conglomerado que sea muchísimo mayor que los restantes (y por
ende mucho mayor que la media de todos ellos T) podría producir tal incumplimiento. No
obstante, qué hacer cuando los tamaños de los Ai sean tales que esa condición no se cumpla?

Hay que recordar que el carácter equiprobabilístico de la muestra es totalmente independiente de


la calidad que tengan las aproximaciones. De modo que los Ai que se usen para llevar adelante
el procedimiento pueden ser aumentados o disminuidos (si ello resulta conveniente) sin
comprometer aquél carácter. Si las modificaciones de las aproximaciones con que se habrá de
trabajar no son muy notables, entonces tampoco el tamaño final de muestra se verá afectado de
manera apreciable, y aun en caso de que lo sean, puede ocurrir que dicho tamaño no diste mucho
del esperado gracias a las compensaciones que podrían producirse si hubiera tanto
sobrestimaciones como subestimaciones.

A continuación se exponen algunas maniobras que se pueden realizar si fuese menester:

1) Si para algunas UPE se tiene n > Ai

a) Una primera variante es actuar según se explica en la NOTA con que concluye la
Sección 7.3.
L.C.Silva

b) Otra variante consiste, sencillamente, en atribuir a dicha UPE un tamaño


aproximado AI = n (lo cual equivale a que en la segunda etapa se tomarán todos
los integrantes de dicho UPE). Esto puede recomendarse si la diferencia entre el
tamaño aproximado y n no es muy acusada (digamos, si n no lo supera en más
del 20 %).

c) Una tercera posibilidad consiste en unir las UPE conflictivas a otras contiguas, de
modo que el problema desaparezca. En tal caso, la UPE resultante de la unión
antedicha tendrá tamaño aproximado igual a la suma de los Ai correspondientes a
las UPE que la componen, y será considerada como un solo conglomerado (de ahí
la importancia de que sus componentes sean contiguos o, más generalmente, de
que luego no constituya un problema práctico a los efectos del submuestreo en
caso de ser seleccionada).

A
2) Si alguna UPE tiene tamaño aproximado mayor que m

a) La primera variante consiste en dividir este conglomerado en dos o más UPE. Tal
manipulación se haría de manera que la suma de los tamaños aproximados de
estas últimas coincida con el de la UPE que es objeto de la división. Es importante
que -en tal caso- las nuevas UPE estén bien delimitadas, de manera que si alguna
de ellas resultase seleccionada, no haya ambigüedad en la fase de submuestreo.

A
b) Si m es solo "un poco mayor" que el tamaño aproximado de la UPE49 , entonces
este último valor puede disminuirse. Nótese que no basta con atribuirle el valor
A
m , ya que tal disminución producirá un nuevo tamaño aproximado de toda la
población y, por tanto, al dividir ese nuevo valor de A por m , el problema se
reproduce. Por ejemplo, si los tamaños aproximados en un estrato son iguales a
40, 60, 20 y 180 ( A = 300 ), y m = 2 , se tiene A = 150. . Si se decidiera atribuir
m
sustituyera sin más el tamaño 150 a la cuarta UPE en lugar de 180, se tendría que
A 270
40+60+20+150=270 y   13,5 , de modo que no se eliminaría el
m 2
problema, ya que 135<150. Quiere esto decir que, cuando el procedimiento sea
utilizado, el Ai i "conflictivo" tendría que reducirse bastante por debajo del valor de
I ; y debe replantearse siempre todo el cómputo con el fin de corroborar que la
condición que se procura asegurar sea válida para la nueva configuración.

49
Si hubiera alguna UPE cuyo tamaño aproximado fuera mucho mayor que I,
entonces el tratamiento del asunto es radicalmente diferente y se
aborda en el Capítulo 8.
L.C.Silva
Finalmente, cabe señalar que puede ser conveniente conseguir, en el contexto de estas
manipulaciones, que todos los Ai sean múltiplos de n . En tal caso, en la fase de subselección se
tendrá que cada fracción de muestreo sea igual al inverso de un entero y se podrá entonces
aplicar el método regular de selección sistemática en lugar del más engorroso de selección en
fases. Consecuentemente, de ser posible, se "redondean" los tamaños de las UPE llevándolos a
ser múltiples de n y obtener así intervalos enter

CAPITULO 8. MUESTREO ESTRATIFICADO POLIETÁPICO

Hasta ahora se han desarrollado diversos procedimientos de selección de muestras con diferentes
niveles de complejidad. Puede decirse, sin embargo, que se han manejado tres situaciones
alternativas básicas: muestreo "directo" de unidades de análisis (muestreo simple aleatorio o
sistemático, tratados en los Capítulos 3 y 4), muestreo estratificado (Capítulo 5) y muestreo por
conglomerados (Capítulos 6 y 7)

El presente Capítulo presenta un diseño en el que se integran todas las técnicas precedentes: se
combina el muestreo estratificado para la elección de unidades en la primera etapa con el
muestreo en etapas dentro de las UPE seleccionadas; aunque no se trata de una definición
formal, a los diseños de ese tipo se les suele denominar genéricamente diseños complejos

La introducción de estratos al nivel de las UPE es conveniente, ya que puede mitigar el notable
efecto negativo para la representatividad que, muy a pesar del muestrista, suele producir el
muestreo por conglomerados. La idea es enteramente natural y consiste en introducir la técnica
de muestreo estratificado en la primera etapa; o sea: organizar las UPE en estratos y luego
seleccionar algunos conglomerados de todos y cada uno de los estratos considerados. Las
unidades de análisis se seleccionan posteriormente (en una o más etapas) dentro de cada UPE
elegida en los estratos. A esta estrategia se la denomina muestreo estratificado polietápico (MEP)

8.1 Estratificación de unidades de primera etap

La literatura recoge múltiples ejemplos de vocación didáctica sobre la aplicación de este


procedimiento. El excelente texto de Moser y Kalton (1971) expone detalladamente un ejemplo
de una encuesta de opinión realizada en Gran Bretaña; otra ilustración detallada puede hallarse
en Lininger y Warwick (1978), uno de los textos más abarcadores sobre la conducción de
encuestas.

En el terreno investigativo, la aplicación de este diseño es harto frecuente. Fue empleado


intensamente, por ejemplo, en ocasión de los estudios desarrollados bajo la égida de la Encuesta
Mundial de Fecundidad en las décadas de setenta y los ochenta. En un estudio comparativo de
las características básicas de los diseños muestrales usados en 17 países europeos para realizar
la encuesta nacional de fecundidad, Berent, Jones y Siddiqui (1982) consignan la aparición de
estratificación de UPE en 15 de ellos, 14 de los cuales usaron más de una etapa (entre 2 y 5).
Otra peculiaridad de la inmensa mayoría de los diseños -14 de los 17- fue su carácter
equiprobabilístico.
L.C.Silva

Para la creación de los estratos se debe seguir -como en el MAE- el criterio de conformar, en lo
posible, grupos homogéneos de población. En ocasiones se utilizan criterios geográficos
(provincias o municipios), zonas ecológicas o socioculturalmente diferentes entre sí, o con distintas
densidades de población. Estos criterios han merecido atención; en O'Muircheartaigh (1977) se
puede hallar, por ejemplo, una discusión sobre las ventajas de este último criterio. Un eje de
clasificación muy usado en encuestas de población (ocasionalmente cruzado con otro) es el
definido por la localización, en urbano-rural, de las vivienda de los individuos.

8.2 Estructura y notación

La presente sección expone el uso del muestreo estratificado polietápico y algunos de los
problemas asociados a su aplicación.
Supongamos que estamos ante una población finita de tamaño N , dividida en M UPE; así como
que este conjunto de conglomerados se ha organizado en L estratos y que en el estrato h
L
(h : 1,..., L) hay M h UPE, de modo que  M h= M .
h=1

El plan consiste en seleccionar una muestra de unidades de análisis según la siguiente estrategia:
elegir primero, en cada estrato, cierto número mh de UPE (de modo que en total se eligen
L
m =  mh UPE), y realizar luego una subselección de unidades de análisis dentro de cada UPE
h=1
obtenida en la primera etapa.

En la Figura 8.1 se representa la estructura de este diseño. En ese ejemplo se ha reflejado el


caso en que hay L = 3 estratos y M = 18 UPE, de las cuales m = 6 resultan elegidas y son
objeto de subselección.

Para llevar adelante este plan general se puede adoptar alguna de un sinnúmero de tácticas
diferentes. Lo ideal es que el muestrista domine la teoría general de manera que, atendiendo a
cada problema específico, pueda optar por aquella variante que mejor armonice con la situación
en que se produce el problema (definida en lo esencial por los objetivos de la encuesta, el marco
muestral disponible, la información que se posea sobre la población, los recursos disponibles y el
tiempo con que se cuenta).

Sin embargo, para ser coherentes con la tónica del presente texto, entre cuyos propósitos se halla
el de facilitar el proceso de aplicación de las técnicas muestrales a estudiantes e investigadores no
especialistas en la materia, he optado por poner en primer plano un procedimiento particular de
muestreo estratificado polietápico que -por sus características- puede ser aplicado en una amplia
gama de situaciones de la investigación de salud y del ámbito epidemiológico. Sirve a la vez
como ilustración de este tipo de diseño, aunque se trata de un procedimiento equiprobabilístico.
En la sección 8.6.4 se bosquejan casos más generales.
L.C.Silva
Denotemos por Ah al tamaño aproximado del estrato h y por A al de toda la población (por
"tamaño aproximado", entiéndase número aproximado de unidades de análisis). Supongamos
que se ha considerado que el tamaño muestral requerido es igual a n y que se exigirá que todos
n
los sujetos tengan probabilidad de selección igual a f = . Se supone, además, que en cada
A
UPE se tomarán alrededor de n unidades de análisis y que se planifica seleccionar m de las M
UPE que integran la población. Esto quiere decir que, tal y como se hizo en el capítulo
precedente, se deben definir n, n y m de manera que n = n m 50. Cabe enfatizar, sin embargo
que, a todos los efectos prácticos, basta con que el tamaño general de muestra, el número de
UPE seleccionadas, y el número de unidades que a la postre resulten elegidas en cada UPE
seleccionada sean solo aproximadamente iguales a n , m y n respectivamente.

Antes de proceder a la selección debe corroborarse que, para toda UPE, se cumple la siguiente
A
relación: el tamaño aproximado que se le atribuya ha de hallarse entre n y
m . Es importante
advertir que el análisis del cumplimiento de esta restricción para el tamaño aproximado de las UPE
y las eventuales medidas que deben adoptarse en caso de que no se cumpla, pueden y deben
realizarse antes de dar por concluida la formación de los estratos. En la práctica, la condición
exigida suele cumplirse, sobre todo si, como es usual, las UPE son relativamente grandes y
además M es bastante mayor que m . Las acciones que deben desplegarse cuando esto no se
cumple son las mismas detalladas en la Sección 7.6. Un caso no tratado allí, que merece especial
atención y que sí se presenta con alguna frecuencia, es el que se produce cuando existe al menos
una UPE cuyo tamaño es mucho mayor que el de cualquier otra. El manejo de tal situación se
explica en la Sección 8.6.1. Una discusión más detallada sobre tamaños inadecuados puede
hallarse en Kish (1965) y Kish (1978).

8.3 Método de selección

Una vez configurados los estratos, debe procederse a la selección de las UPE. Este proceso es
esencialmente el mismo que el explicado en la Sección 7.3; consiste en otorgar a las UPE
probabilidades de selección proporcionales a sus tamaños aproximados.

El método, concretamente, discurre según los siguientes tres pasos:

50
Estos tres números deben responder, en rigor, a un análisis de costo-
eficiencia acerca del cual se hacen algunas consideraciones más
adelante (Sección 8.7).
L.C.Silva

1. Calcular I = A/m

2. Formar una tabla dentro de cada estrato en la que se ordenen las UPE y calcular los
tamaños aproximados acumulados.

3. Aplicar en todos los estratos el método de selección de UPE expuesto en la Sección


7.3, usando en todos ellos el intervalo I.

Por ejemplo, supongamos que se quiere hacer un control de calidad en las historias clínicas de
individuos que ingresan debido a una intoxicación en los hospitales de cierta región. En la región
hay L = 5 provincias (estratos) que abarcan M = 65 hospitales (UPE). En calidad de
aproximación se decidió considerar el número de ese tipo de altas en el año anterior y seleccionar
m = 20 UPE en total. Como tamaño aproximado total se asumió el valor A = 2400 (es decir, que
se estima que se produjeron alrededor de 2400 ingresos por concepto de intoxicación); por lo
tanto, el intervalo de selección que ha de aplicarse es I = 2400 20 = 120 . Para seleccionar los
hospitales que quedarán en la muestra dentro de cada estrato se procede a ordenarlos y a
calcular de inmediato sus tamaños acumulados51. Para el h-ésimo estrato se escoge ahora,
aleatoriamente, un número R h entre 1 e I = 120 , y se construyen los números
R h , R h + I, R h + 2 I,..., hasta llegar al mayor número que no sobrepase el tamaño atribuido al
 
estrato Ah . De la manera usual (a través de los tamaños acumulados, como se explicó en la
sección 7.3) se identifican las UPE elegidas; al número de UPE que resultan seleccionadas le
llamaremos, como se había dicho, mh .

Ahora supongamos que en un estrato, por ejemplo el tercero, se tiene M 3 = 5 y A3 = 270 ; para
elegir las m3 UPE que le corresponden hay que seleccionar aleatoriamente un número R 3 entre 1
y 120. En la Tabla 8.1 se resume la información relevante sobre dicho estrato y sobre las
alternativas de selección de UPE en el mismo.

Tabla 8.1 Listado de hospitales en un estrato hipotético con sus tamaños aproximados
y los arranques aleatorios que determinarían su elección.

51
Puede ser conveniente buscar un índice que refleje de algún modo la
eficiencia de la gestión hospitalaria (sobre el supuesto de que podría
estar asociada a la calidad de las historias) como pauta para
establecer ese orden. Por ejemplo, se podría elegir el tiempo medio
de estancia hospitalaria durante el año anterior y ordenar los
hospitales de menor a mayor según el valor de dicho tiempo medio.
Actuando de ese modo, se asegurará que la muestra de UPE "recorra"
todo el espectro de valores inherentes al índice escogido.
L.C.Silva
Hospital(UPE) A (4.2) B(6.3) C (6.4) D (8.2) E (9.8)
Tamaño 20 40 60 70 80
aproximado
Tamaño 20 60 120 190 270
aproximado
acumulado
Arranques 1-20 21-60 61-120 1-70 1 - 30 71 -
aleatorio que 120
determinan la
elección de
cada UPE

NOTA: El número entre paréntesis es el número medio de días de estancia en cada hospital
Nótese que en el diseño que se está sugiriendo, el número m3 de UPE seleccionadas es aleato-
rio; por ejemplo, si el R3 que resulte elegido es un número que se halla entre 1 y 20, entonces se
seleccionan 3 UPE: A, D y E; pero si fuese, digamos, R 3 = 65 entonces resultarán elegidos solo
dos hospitales: C y E. Resumiendo, en este ejemplo se tiene que m3 = 2 si R 3 está entre 31 y
120, pero m3 = 3 si R 3 resulta estar entre 1 y 30.

Para completar la muestra de manera que toda unidad de análisis tenga probabilidad de inclusión
n
igual a f= A , basta subseleccionar las unidades -dentro de cada UPE elegida- con fracción de
muestreo igual a la razón entre n y el tamaño aproximado que se haya atribuido desde el
comienzo a dicha UPE.

Ahora bien, el proceso de subseleccionar con dicha probabilidad entre los sujetos que integran la
UPE en cuestión puede llevarse adelante de diversas maneras. Si las UPE no son muy grandes,
puede actuarse como en el caso explicado en la Sección 7.3 (cuando no se estratificaba); o sea:
subseleccionar directamente sobre el listado de los elementos existentes en el listado a través de
muestreo sistemático en fases, o mediante un MSA un tamaño de muestra establecido, de suerte
que se cumpla forzosamente la demanda probabilística inicial.

Sin embargo, la obtención de listados dentro de las UPE seleccionadas puede ser en extremo
dificultosa o simplemente prohibitiva. Por ejemplo, si se tratase de una encuesta nacional de
fecundidad en la que se hubiesen seleccionado, digamos, m = 52 municipios de las provincias
(estratos) del país, entonces habría que encarar la onerosa (acaso irrealizable) tarea de obtener
los listados de mujeres de 15 a 49 años en cada uno de los 52 municipios.

Pero, afortunadamente, para la aplicación de las fórmulas de estimación de parámetros y de sus


errores (que se expondrán más adelante) cualquier procedimiento que produzca la probabilidad
requerida en la UPE es lícito. Siendo así, pueden valorarse variantes tales como:
L.C.Silva
* Formar "bloques" de unidades de análisis dentro de cada UPE seleccionada, elegir por
muestreo sistemático una parte de ellos con la probabilidad prefijada y luego encuestar a
todos los integrantes de dichos bloques. En Silva (1981) se desarrolla un ejemplo en que
las UPE son áreas de salud y los bloques son viviendas completas: en ese caso, en lugar
de un listado de las mujeres del área, basta contar con uno de las viviendas que dicha
área abarca.

* Aplicar un muestreo bietápico dentro de cada UPE seleccionada mediante la formación de


bloques, los cuales se someten a una selección con probabilidad proporcional a los
tamaños aproximados, y luego se submuestrean. Esto es: aplicar una muestra bietápica
con probabilidades proporcionales a los tamaños aproximados (tal y como se estudió en el
capítulo precedente) dentro de cada una de las UPE elegidas52.

8.4 Procedimientos de estimación

Cualquiera que sea el método de subselección dentro de la i-ésima UPE del estrato h, se obtendrá
un cierto número de unidades de análisis que provienen de dicha UPE; a ese número se le
denotará por x hi . También usaremos las notaciones:
mh L
xh =  xhi x= x h
i=1 h=1

Para cualquier variable que se esté investigando, se llamará genéricamente y hi al total


acumulado para dicha variable por los x hi elementos de la UPE i-ésima del i-ésima estrato. O
sea, si se trata de una característica dicotómica (que cada elemento tiene o no), entonces y hi es
el número de sujetos en la muestra obtenida dentro de esa UPE (de tamaño x ni ) que poseen el
atributo; si la variable es cuantitativa, y hi representa la suma de los valores de dicha variable para
los x hi sujetos examinados en esa UPE. También se definen, finalmente:
mh L
y h =  y hi y y =  y h .
i=1 h=1

Con esta información, se estima la media poblacional de la variable (fracción o proporción en el


caso de que la variable sea cualitativa) mediante el ya familiar estimador de razón:

r=
y
x
8.1

52
Notar que este método lleva el procedimiento a tres etapas de
selección.
L.C.Silva

La varianza de r se estima mediante la fórmula siguiente:


1 f  L L L 
var(r) =   U + r 2  V - 2r  W 
 h h h 8.2
x2 h= 1 h=1 h=1 
donde
 mh 
U h= 1
m h -1
m
 h  y - y 
2
hi
2
h
 i=1 

 mh 
Vh = 1
m h -1

 m h  - x 
x 2hi 2
h
 i=1 

 mh 
Wh = 1
m h -1

m
 h  
x hi y hi - x h y h 
 i=1 

La fórmula [8.2] es una aproximación cuya validez se subordina a que se cumpla la siguiente
condición:
L
(1 - f) V
h=1
h < (0.2)x 8.3

Si se desea estimar el total Y de la variable en la población, puede usarse el estimador


insesgado:

Yˆ =
y
8.4
f
cuya varianza puede estimarse mediante:
1 L
var(Yˆ) =  Uh  8.5
f 2 h=1
L.C.Silva

8.5 Un ejemplo detallado del Muestreo Estratificado Polietápico

A continuación, se ilustran los procedimientos explicados en las Secciones 8.2 y 8.3 mediante la
exposición detallada de un minúsculo estudio transversal de la población adulta de una pequeña
comunidad con el fin de examinar su situación estomatológica. Imaginemos que, entre otros, se
quiere estimar tres parámetros:

1. tasa de prevalencia de adultos necesitados de atención estomatológica, P

2. número total de tales sujetos, Y

3. número medio de caries por persona, R

Supondremos que el área cuenta con 5 sectores y abarca en total 38 manzanas. Se quiere que la
muestra involucre a los 5 sectores con el fin de asegurar alguna representatividad adicional, y se
dispone de los datos sobre el número aproximado de adultos en cada una de las manzanas, tal y
como se registra en el Tabla 8.1.

Tabla 8.1. Tamaños aproximados de las manzanas existentes en la población según


sectores

Sector1 Sector2 Sector3 Sector4 Sector5

1 420 150 230 340 540


M

A
2 500 390 430 200 340

3 230 250 330 140 430

4 120 340 400 450 290


L.C.Silva
5 220 550 340 510 540

6 550 450 200 240 330

7 540 260 430 --- 530

8 --- 350 230 --- 540

9 --- 410 --- --- ---

NOTA:El símbolo --- denota que las manzanas así marcadas no existen en los sectores
respectivos.

Se decide entonces seleccionar una muestra equiprobabilística estratificada bietápica tomando los
sectores como estratos ( L = 5 ) y las manzanas como UPE. La Tabla 8.1 permite ver que
M 1 = 7, M 2 = 9 , etc. Se ha decidido tomar alrededor de m = 15 manzanas para elegir finalmente
unos n = 630 adultos. De modo que se fija æ = 42 , resultado de dividir n entre m .

Es fácil constatar que A = 13.740 , de modo que f = n = 630 = 0,046 ; puesto que m = 15 , el
A 13.740
intervalo resulta ser I = A = 13.740 = 916 . También puede constatarse que los tamaños
m 15
aproximados de las 38 UPE cumplen con la restricción de estar entre æ = 42 e I = 916 .

Hay que elegir un número aleatorio entre 1 y 916 para cada uno de los 5 estratos. Supongamos
que éstos fueron respectivamente los siguientes:
R1 = 23 R 2 = 345 R 3 = 105 R 4 = 701 R 5 = 456
L.C.Silva

Al aplicar la regla de selección basada en los tamaños aproximados dentro de cada sector,
resultan elegidas las manzanas cuyas celdas aparecen ocupadas con números en la tabla 8.2 y,
por lo tanto, quedan fuera de la muestra las restantes (marcadas con tres asteriscos en el
cuadro)53. En esa tabla aparecen los verdaderos tamaños para dichas manzanas (es decir, el
número real de unidades de análisis que integraban los listados conformados a posteriori para los
conglomerados elegidos):

Tabla 8.2 Tamaños reales de las manzanas seleccionadas en la primera etapa

Manzanas Sector1 Sector2 Sector3 Sector 4 Sector5

1 420 160 204 *** 542

2 *** *** *** *** ***

3 235 *** 300 144 436

4 *** 354 *** 444 ***

5 *** *** *** *** ***

6 554 440 206 *** 331

7 *** *** *** --- ***

8 --- *** *** --- 540

9 --- 420 --- --- ---

En la Tabla 8.2 se observa que:

m1 = 3 m2 = 4 m3 = 3 m4 = 2 m5 = 4

53
El lector puede corroborarlo formando los acumulados; es decir,
sumando sucesivamente 916 al arranque correspondiente a cada estrato y
aplicando la regla de selección explicada en la Sección 7.3.
L.C.Silva

y, por lo tanto, que el número final de UPE elegidas ascendió a m = 16 .

Para hacer la selección dentro de cada UPE, primero se computó la fracción de muestreo que en
cada caso correspondía aplicar: se dividió n entre el tamaño aproximado del conglomerado en
cuestión. Por ejemplo, para la tercera UPE elegida en el segundo estrato, se calculó: 45042
= 0.09 .
A partir de la Tabla 4.2 se determinó el procedimiento sistemático que procedía aplicar (MSF). En
la UPE mencionada, por ejemplo, se tomó (del verdadero listado de 440 adultos) por muestreo sis-
temático uno de cada 10 sujetos y, finalmente, se eliminó uno de cada 10 de los 44 así elegidos.
La muestra en este conglomerado resultó ser de 40 sujetos.

En la Tabla 8.3 aparecen los tamaños de muestra resultantes después de esta operación en cada
una de las 16 UPE seleccionadas.

Tabla 8.3 Tamaños muestrales resultantes en las 16 manzanas seleccionadas

Manzanas Sector1 Sector2 Sector3 Sector 4 Sector5

1 42 45 37 *** 42

2 *** *** *** *** ***

3 43 *** 38 44 43

4 *** 44 *** 43 ***

5 *** *** *** *** ***

6 42 40 43 *** 42

7 *** *** *** --- ***

8 --- *** *** --- 42

9 --- 43 --- --- ---

Se ve ahora que x11 = 42, x12 = 43, x13 = 42, x21 = 45 , etc. y se puede corroborar que los tamaños
muestrales por estratos fueron:
x1 = 127 x2 = 172 x 3 = 118 x 4 = 87 x 5 = 169
L.C.Silva
así como que el tamaño de muestra final fue x = 673 . Con esta información ya se puede
corroborar fácilmente que se cumple ampliamente la condición [8.3].

Los resultados de la encuesta en cuanto a las dos variables relevantes (tener problemas de salud
bucal que exigen atención y número de caries) se resumen en la Tabla 8.4. Allí se recogen los
valores de cada UPE de la muestra, necesarios para hacer las estimaciones: número de sujetos
con necesidad de atención ( y hi ) y número de caries acumulados por los sujetos encuestados
( y hi ). Este último aparece entre paréntesis.

Tabla 8.4 Número de sujetos con necesidad de atención estomatológica en cada


manzana de la muestra y número de caries acumuladas por ellos.

Manzanas Sector1 Sector2 Sector3 Sector 4 Sector5

1 7 (21) 18 (14) 0 (0) *** 37 (50)

2 *** *** *** *** ***

3 12 (13) *** 1 (1) 4 (4) 39(33)

4 *** 4 (5) *** 2 (1) ***

5 *** *** *** *** ***

6 3 (17) 12 (7) 2 (5) *** 35 (49)

7 *** *** *** --- ***

8 --- *** *** --- 30 (22)

9 --- 10 (16) --- --- ---

Los resultados de este último cuadro reflejan que, por ejemplo, y 52 = 39 ; es decir, 39 de los 43
elementos examinados en la segunda UPE del quinto estrato necesitaban atención, y entre dichos
43 sujetos habían acumulado y 52 = 33 caries54.

Se puede apreciar, finalmente, que los totales de adultos enfermos por estratos fueron:

Install Equation Editor and double-


Como se ve, hemos usado el símbolo click here to view equation.
54
¡Error!
Sólo el documento principal.para representar el número
de caries acumuladascon el fin de distinguirlo
Install Equation Editor and double-
de click here to view equation. , el número de sujetos que
necesitan atención.
L.C.Silva
y1 = 22 y 2 = 44 y 3 = 3 y 4 = 6 y 5 = 141
de modo que y = 216 . Para el número total de caries, los resultados respectivos fueron:
y1 = 51 y 2 = 42 y 3 = 6 y 4 = 5 y 5 = 154

con lo cual, y = 258 . Con estos datos, se pueden estimar ahora los tres parámetros:

1. Tasa de prevalencia de adultos necesitados de atención estomatológica( P )

1 - f  L e =p(1.96)
y 216L
var(p) = 0,045 L 
 = 0,00052
var(p) =
  U h=+ xp 2= 673
 =V 0,321
h - 2p  W h

x2  h = 1 h=1 h=1 
con lo cual se calcula el intervalo de confianza, que en términos de porcentajes es: [27,6-36,6].

2. Número total de sujetos necesitados de atención ( Y ):

1 L Ŷ = y = 216 = 4.696
var(y) =  U h = 24.891 e = (1,96) var(Yˆ) = 309
f 2h=1 f 0,046

lo que da lugar al intervalo: [4.387-5.005]

3. Número medio de caries por persona ( R ):

y 258
 eL =r(1,96) L
var(r) L
= 0,085 
var(r) = 1x- 2f   U =h + r=2  =
Vh - 
0,383
2r Wh  = 0,00190
 h=1 x h673
=1 h=1 
L.C.Silva
Con esos datos se puede construir, finalmente, el intervalo de confianza: [0,298-0,468]

8.6 Otros aspectos del muestreo estratificado polietápico

Siendo el diseño más complejo, es por consecuencia el más versátil. A continuación se explican
algunos aspectos particulares de interés básicamente práctico.

8.6.1 Unidades autorrepresentadas

Procede ahora considerar una situación especial: la que se produce cuando una UPE es
extraordinariamente grande respecto de las restantes. En tal caso, el tratamiento es diferente: esa
unidad se convierte por sí misma en un nuevo estrato independiente, también llamado unidad
autorrepresentada. Con cada UPE autorrepresentada se procede en lo sucesivo como con los
restantes estratos. Para ello esta UPE devenida en estrato debe dividirse en subconjuntos que
harán las veces de conglomerados, parte de los cuales se seleccionan en una primera etapa para
ser luego submuestreados. Esto quiere decir que deben crearse especialmente conglomerados
que posteriormente desempeñarán exactamente el mismo papel que las UPE en los estratos
comunes.

Consideremos el siguiente ejemplo. En una ciudad existen 24 hospitales y se quiere hacer un


estudio de satisfacción laboral entre el personal que labora en la atención secundaria. La ciudad
puede dividirse en 3 zonas: este, centro y oeste, pero una de las 5 UPE en la zona Este es un
hospital de grandes proporciones (al que denominamos "Hospital Central"), tal y como refleja el
diagrama de la Figura 8.2. Dicho Hospital, cuyo número de trabajadores es tal vez 5 ó 6 veces
mayor que el número promedio de los restantes, se convertirá en un estrato. Supongamos que se
divide dicho centro en 6 "áreas" (área administrativa, área de urgencia, área quirúrgica, etc). Así
la población pasaría a tener 4 estratos y 29 UPE distribuidas en dichos estratos, como muestra la
Figura 8.3.

8.6.2 Dos UPE por estrato

El planteamiento general presentado en la Sección 8.4 es susceptible de simplificaciones cuya


incorporación al diseño no deben soslayarse si se dan las condiciones propicias.

El primer y mas notable caso particular, valorado por Kish (1965) como "la clave más importante
en el diseño contemporáneo de encuestas por muestreo"55 consiste en seleccionar exactamente
mh = 2 UPE en cada estrato. Este método se identifica con el nombre de selección pareada de
unidades primarias.

55
Esta afirmación, que data de hace 35 años, resulta en la actualidad
exagerada, pues el advenimiento de las PC ha abierto posibilidades
computacionales entonces inalcanzables.
L.C.Silva
Para su desarrollo es necesario hacer algunos ajustes previos. Si se ha planificado seleccionar
m UPE, hay que crear L = m estratos. Esto debe hacerse de manera tal que los Ah sean iguales
2
para todos los estratos; o sea, hay que forzar las cosas de manera tal que Ah = A = 2A , lo cual se
L m
logra mediante la “manipulación” oportuna de los tamaños aproximados de las unidades de
primera etapa y con una definición adecuada de los estratos.

Ocasionalmente, además de disminuir o aumentar los tamaños aproximados, hay que dividir o
unir diferentes UPE. Un ejemplo detallado de ese proceso puede encontrarse en Silva y
Barreras(1983), donde se exponen algunos resultados de una encuesta nacional basada en
este tipo de diseño.

Una vez establecida la configuración en estratos con las restricciones arriba mencionadas, se
sigue exactamente el procedimiento explicado en la sección anterior. Las fórmulas de estimación
adoptan en este caso expresiones muy simplificadas: U h ,V h y W h pasan a ser:
1 2 2
U h = ( yh - yh )

2
V h = ( x h1 - x h 2 )

1 2
W h = ( x h1 - x h 2 )( y h - y h )
L.C.Silva

8.6.3 Tratamiento de "cross-clases"

Un aspecto hasta ahora escasamente tratado en el presente texto y que merece especial atención
concierne a las estimaciones que se restringen a una parte de la población. Con extrema
frecuencia se presenta la situación siguiente: se proyecta una encuesta para estimar un conjunto
de datos poblacionales, pero se tiene tanto o más interés en conocer estos mismos datos para
ciertos subconjuntos o clases de dicha población. Por ejemplo, una encuesta nacional puede
tener entre sus objetivos básicos la estimación de los niveles de fecundidad en todo el país, pero
típicamente también interesará realizar dicha estimación según grupos de edad, según sectores
económicos, según tipos de ocupación o número de hijos de la mujer (la mal llamada "paridad"),
para cada estado civil, etc.

Casi sin excepción estas clases (por ejemplo: mujeres entre 25 y 30 años, mujeres casadas o
amas de casa), aparecen representadas en todas las UPE y todos los estratos; de ahí que se les
llame cross-clases (clases que "atraviesan" los conglomerados y los estratos, en lugar de
concentrarse en solo algunos de ellos).

Cabe preguntarse cómo proceder en caso de que se quiera estimar -por ejemplo- una media o
una proporción dentro de una cross- clase. La respuesta es sencilla: como consecuencia del
carácter equiprobabilístico de la muestra, aquellos elementos de la muestra que pertenecen a
cierta cross-clase constituyen una muestra equiprobabilística de la subpoblación definida por las
mismas restricciones que definen dicha cross-clase. Por ejemplo, las mujeres casadas de la
muestra constituyen una muestra equiprobabilística de la subpoblación integrada solo por mujeres
casadas. Y tanto la estructura como las propiedades del diseño son "heredadas" por estos
subconjuntos. Esto quiere decir que todas las fórmulas desde [8.1] hasta [8.5]56 pueden ser
utilizadas en este caso, con una única precaución: x hi representa ahora al número de elementos
encuestados en la i-ésima UPE del i-ésimo estrato que pertenezcan a la cross-clase y y hi es el
total acumulado de la variable por esos xhi sujetos. Al igual que en los diseños anteriores, puede
medirse el efecto de diseño ( deff ) para la estimación dentro de la cross-clase.

8.6.4 Caso no equiprobabilístico

El diseño explicado en las Secciones 8.2 y 8.3 tenía una forma muy particular. Sin embargo, bien
puede ocurrir que, por decisión expresa del muestrista o por razones ajenas al investigador, se
haya adoptado un MEP en que los tamaños muestrales y los procedimientos de selección no
hayan seguido ningún patrón específico (en particular, que no sea equiprobabilístico).
Imaginemos que estamos ante la situación ya discutida en la Sección 8.4. Como se recordará, el
área constaba de 5 sectores (estratos) y abarcaba en total 38 manzanas.

56
Este resultado es válido, naturalmente, también para el caso
particular en que no se emplea estratificación, desarrollado en el
Capítulo 7
L.C.Silva

Ahora supongamos que se eligieron las manzanas dentro de cada sector mediante muestreo
simple aleatorio y que se decidió hacerlo del modo siguiente:
m1 = 2 m2 = 3 m3 = 2 m4 = 4 m5 = 2
L.C.Silva

Supongamos que los conglomerados así elegidos fueron los que refleja la Tabla 8.5, el cual
también refleja las probabilidades que les correspondieron a estas UPE en la primera etapa.

Tabla 8.5 UPE seleccionadas por sectores y probabilidades de inclusión

Manzana Sector1 Sector2 Sector3 Sector4 Sector5

Probabilidad 2 3 2 4 2
7 9 8 6 8
Manzanas 2,5 2,3,5 7,8 1,3,5,6 2,6
Elegidas

Una vez en terreno se tomaron muestras sistemáticas de sujetos con el intervalo I = 5 (es decir
f 2 = 0,2 ) en todas y cada una de las 13 UPE seleccionadas. Siendo así, los tamaños de las UPE
y los tamaños muestrales correspondientes fueron los que refleja la Tabla 8.6.

Tabla 8.6 Tamaños de las manzanas elegidas y de los tamaños muestrales resultantes
tras la selección sistemática
Manzana Sector1 Sector2 Sector3 Sector4 Sector5

1 *** *** *** 321(64) ***

2 518(104) 372(75) *** *** 341(69)

3 *** 244(48) *** 144(29) ***

4 *** *** *** *** ***

5 221(44) 524(105) *** 507(101) ***

6 *** *** *** 243(48) 331(66)

7 *** *** 426 (86) --- ***

8 --- *** 260 (52) --- ***

9 --- *** --- --- ---


NOTA: Los tamaños muestrales resultantes están entre paréntesis

La Tabla 8.7 recoge los resultados de la encuesta realizada sobre este muestra (número de
sujetos con necesidad de atención estomatológica)

Tabla 8.7 Resultados de la encuesta en las manzanas seleccionadas


Manzana Sector1 Sector2 Sector3 Sector4 Sector5
L.C.Silva
1 *** *** *** 4 ***

2 21 64 *** *** 65

3 *** 40 *** 3 ***

4 *** *** *** *** ***

5 12 83 *** 7 ***

6 *** *** *** 1 47

7 *** *** 86 --- ***

8 --- *** 52 --- ***

9 --- *** --- --- ---

Las probabilidades de selección que tuvieron en este ejemplo todos los elementos de la muestra
son las que se reflejan en la Tabla 8.8.

Tabla 8.8. Probabilidades de selección de los elementos de las diferentes manzanas


elegidas

UPE Sector1 Sector2 Sector3 Sector4 Sector5

1 21 2 31 3 21 2 41 4 21 2
= = = = =
7 5 35 9 5 45 9 5 45 6 5 30 8 5 40
2 21 2 31 3 21 2 41 4 21 2
= = = = =
7 5 35 9 5 45 9 5 45 6 5 30 8 5 40
3 - 31 3 - 41 4 -
= =
9 5 45 6 5 30
4 - - - 41 4 -
=
6 5 30

Consecuentemente, las ponderaciones que deben emplearse son las que se recogen en la Tabla
8.9:

Tabla 8.9. Ponderaciones que corresponden a los elementos de las diferentes


manzanas elegidas

UPE Sector1 Sector2 Sector3 Sector4 Sector5


L.C.Silva
1 17,5 15,0 22,5 7,5 20,0

2 17,5 15,0 22,5 7,5 20,0

3 - 15,0 - 7,5 -

4 - - - 7,5 -

Si llamamos y hij al valor de la variable Y para el sujeto j de la unidad de primera etapa i-ésima en
el estrato h, y whij a la ponderación que corresponde a ese valor (usualmente el inverso de la
probabilidad de selección que correspondió a ese sujeto), se definen:
y =w y
hij
y x =  w donde j recorre los sujetos de esa unidad de primera etapa y ese
hi hij hi hij
j j
estrato.

Con estos valores pueden computarse las siguientes expresiones:


mh L
x h =  x hi x =  xh
i=1 h=1
y
mh L
yh =  yhi y=  y
h
i=1 h=1
L.C.Silva
donde mh es el número de UPE elegidas en el estrato h, en tanto que L es el número de
estratos involucrados. Ahora se pueden aplicar las fórmulas [8.1] y [8.2], válidas en la presente
situación.

El lector puede corroborar que, aplicadas tales fórmulas, se obtiene: r = 0.436 var(r) = 0,0425 ,
así como que el intervalo de confianza al 95% es 0,352 - 0,519 .

Puede comprobarse, adicionalmente, que si se tratan los datos como si procedieran de un MSA,
tendríamos: r = 0.400 y Var(r) = 0,1642 de modo que la estimación de DEFF sería
2
 0,0425 
deff =   = 6,7 .
 0,0164 

8.7 Tamaño muestral y efecto de diseño

Suponiendo que se ha identificado un parámetro como el más importante del estudio en los
diseños multietápicos (involucren o no estratificación), el "discurso oficial" del muestreo plantea
que ha de comenzarse por calcular el tamaño de muestra correspondiente a la estimación de ese
parámetro bajo la suposición de que se usa MSA; llamemos n s a ese número. Para compensar el
hecho de que se trata de un "diseño complejo", usualmente afectado por un efecto debido a la
conglomeración, n s debe ser aumentado. Lo que se hace es multiplicarlo por el DEFF
correspondiente al diseño en juego. Naturalmente, no es fácil hallar una estimación adecuada de
DEFF para ese parámetro "más importante". En la práctica se asume que DEFF se halla entre
1.5 y 3.0: si se piensa que los individuos de una misma UPE son muy parecidos entre sí respecto
de lo que se investiga, se toma DEFF más próximo a 3; de lo contrario, se elige uno un valor
más bien próximo a 1.5 (se aumenta el tamaño correspondiente a un MSA en alrededor de 3
veces y en un 50 %, respectivamente).

Puesto que a veces es difícil identificar un parámetro como el más importante, se ha sugerido que
este procedimiento se aplique para los 3 ó 4 parámetros que se consideren más relevantes y,
finalmente, tomar como tamaño definitivo un valor que se halle dentro del recorrido de las
magnitudes así obtenidas.

El número final planificado debe contemplar la magnitud esperable de la llamada "no-respuesta"


(tema que se aborda en la Sección 12.4). Si se espera que el porcentaje de individuos que va a

responder sea de alrededor de  , se divide el tamaño deseado por 100 . Por ejemplo, si se
sospecha que sólo el 85 % de las unidades podrá ser efectivamente interrogado, se calcula el
tamaño:
(DEFF) 100
n = ns
85
L.C.Silva

Resulta conveniente que el número que finalmente se establezca para n sea un múltiplo del n
que se haya planificado. Con el fin de determinar el número m de UPE que se debe seleccionar
se trabaja con este tamaño total n "redondeado".

En Hansen, Hurwitz y Madow (1953) se sugiere que m esté aproximadamente entre 15 y 50. No
n
obstante, tal regla debe ser observada con espíritu flexible, de manera que si æ resultase igual,
digamos, a m = 10 o a m = 56 , no necesariamente tendría que desecharse dicho resultado. En
rigor, el elemento determinante es el análisis de recursos a que deben someterse los números
m, n y n. .

En la determinación de n hay que tener en cuenta el significado práctico que tiene tal número de
unidades en una UPE. Por ejemplo, quizás se quiere que los interrogatorios en cada UPE sean
concluidos a lo largo de un solo día, con el fin de movilizar una sola vez al equipo de
encuestadores hacia el sitio en que se ubica dicha UPE. Si se sabe que, en un mismo día, pueden
realizarse 20 pero no 30 encuestas, podría decidirse que n fuera igual a 20, 40 u otro múltiplo de
20.

Asimismo, debe valorarse el efecto económico de trasladarse a m UPE. En general, es obvio


que resulta más conveniente desde el punto de vista de la representatividad tomar m grande y n
pequeño (bajo la restricción n = mn ) que viceversa, pero también lo es que, cuanto mayor sea m ,
mayores serán los gastos en la generalidad de las situaciones reales.

Como se puede apreciar tras la lectura de la presente Sección, el espíritu con que se sugiere
enfrentar el problema de decidir los tamaños de muestra dentro de las diferentes etapas del
diseño es abiertamente flexible. Se dan algunas ideas y pautas generales, pero al final tal proceso
quedará redondeado por el sentido común. Las numerosas formulaciones matemáticas que se
han sugerido para resolver este problema (véase el libro clásico de Hansen, Hurwitz y Madow,
1953) son muy interesantes para los estadístico-matemáticos pero han demostrado ser estériles
para los investigadores aplicados.

CAPITULO 9. OTRAS TÉCNICAS DE MUESTREO

En el presente capítulo se pasa revista someramente a diversas técnicas íntimamente vinculadas


al muestreo. Si bien no guardan, en general, relación mutua, todas aportan información
complementaria de interés y contribuyen a conformar una cultura más sólida tanto en materia de
selección muestral como de estimación.
L.C.Silva
9.1 Muestreo replicado

Esta técnica de muestreo, que data de la década del 40 y que fue defendida con especial
entusiasmo por Deming (1960), procura simplificar el conflictivo proceso de estimación de los
errores de muestreo. La idea básica consiste en seleccionar varias muestras independientes
(también llamadas muestras interpenetrantes), todas con el mismo diseño y cada una de las
cuales pudiera por sí misma ser fuente de estimaciones. Mediante el uso combinado de la
información procedente de todas ellas se pueden obtener, efectivamente, estimadores sumamente
simples de los errores, lo cual es especialmente atractivo cuando se trata de estadígrafos
complejos tales como coeficientes de regresión o de concordancia, no considerados en este libro.
El procedimiento demanda que se seleccionen k muestras independientes, cada una resultante
de un diseño que puede tener toda la complejidad que se quiera.

Supongamos que se tiene un parámetro  y cierto procedimiento de estimación asociado a algún


diseño muestral específico. Llamemos ˆ 1 , ˆ 2 ,.., ˆ k a las estimaciones procedentes de
respectivas muestras obtenidas tras haberse aplicado sucesivamente este diseño, y consideremos
1 k
su promedio como estimador de  : ˆ M =  ˆ . De esta forma, se puede calcular la varianza
k j=1 j
de ˆ M mediante:
k

 ( ˆ j
- ˆ M )2
var( ˆ M ) = j=1
.
k(k - 1)

Ilustres muestristas, como Mahalanobis y Lahiri, propugnaban que el número de muestras


"interpenetrantes" independientes fuese k = 4 . Una descripción del método, en que se
recomienda enfáticamente tomar k = 10 replicaciones, puede hallarse en Deming (1960).

Fuertemente emparentados con este método de las replicaciones reiteradas, se hallan los
procedimientos conocidos como jackknife más recientemente, los métodos de remuestreo
conocidos como bootstrap (Efron, 1982); exposiciones adecuadas pueden hallarse en Rust
(1985) y Rao y col. (1986). Todos estos métodos tienen en común que remuestrean de las
mismas unidades previamente seleccionadas y producen errores de muestreo que son
aproximadamente iguales entre sí (Kish y Frankel, 1974).

9.2 Técnica de respuesta aleatorizada

Como se discutió en la Sección 2.3, las investigaciones son a veces de naturaleza tal que los
encuestados tienden a negarse a responder o, peor aun, deciden distorsionar la verdad. Esto
resulta especialmente verosímil cuando se trata de indagaciones de índole muy personal, o que
involucran rasgos embarazosos tales como ciertas prácticas sexuales, conductas socialmente
censuradas o prácticas ilegales.
L.C.Silva
En una situación en que las preguntas formuladas sean de naturaleza altamente comprometedora
sería iluso esperar que las respuestas fuesen veraces y, por tanto, poco riguroso sacar conclu-
siones globales de tal información, salvo que se hayan adoptado precauciones metodológicas
especiales. El recurso convencional consiste en comprometerse a conservar el anonimato, pero
así no siempre se consigue disipar las posibles suspicacias de los encuestados.

Con el fin de mitigar estos efectos, Warner (1965) ideó un muy ingenioso procedimiento de
interrogatorio basado en la estrategia de que el interrogado "inyecte" cierto error a su respuesta
mediante un recurso regido por el azar. La idea central consiste en que el interrogado realice un
experimento aleatorio (tal como lanzar un dado) y, sin revelar el resultado obtenido, dé una
información que dependa, según cierta regla predeterminada, tanto de tal resultado como de su
verdadera situación ante la cuestión indagada. Así, el encuestador nunca conocerá la situación
que realmente corresponde al individuo; pero el estadístico, usando los datos recogidos y las leyes
probabilísticas que rigen el experimento, podrá obtener datos globales correctos sobre la
población.

A continuación se expone la descripción que se hace en Silva (1982) y Silva (1997) de un


problema de este tipo, y de la solución que se empleó para encararlo.

En 1973 se realizó una encuesta de fecundidad (véase Krotki y Mc Daniel, 1975) en Alberta,
Canadá, sitio donde el aborto provocado era en aquel momento ilegal, salvo que mediaran
razones terapéuticas. Entre otras, se formulaban las siguientes dos preguntas:

1. ¿HA TENIDO UN ABORTO PROVOCADO (TERAPÉUTICO O ILEGAL) A LO LARGO DE


1972?

2. ¿SE HA CASADO EN ALGUNA OPORTUNIDAD?

Es fácil advertir el carácter altamente sensitivo de la primera pregunta en aquel medio, así como
que la segunda carece, en principio, de carácter embarazoso y, por ende, de todo efecto
inhibitorio.

Se seleccionaron tres muestras independientes, de 327, 269 y 342 mujeres en edad fértil
respectivamente. Con cada una de ellas se siguieron sendos procedimientos, diferentes entre sí;
para comenzar, expondremos cómo se procedió con las dos primeras.

La primera se abordó, sin más, a través del interrogatorio directo; a las integrantes de la segunda
se les indicó enviar su respuesta por correo sin consignar el remitente (encuesta anónima). Se
procuraba eliminar así, en este segundo grupo, las razones para la distorsión que verosímilmente
aquejarían al primero.

Los porcentajes de respuestas afirmativas que se obtuvieron para la pregunta comprometedora


fueron 0,3 % y 0,8 % respectivamente: como se ve, el segundo es casi tres veces mayor que el
primero, presumiblemente debido al efecto desinhibitorio producido por el anonimato. Para la
segunda pregunta, en cambio, estos porcentajes fueron 82,3 % y 81,8 %; la notable similitud entre
estos dos números refleja y confirma la naturaleza no comprometedora de la pregunta.
L.C.Silva
Cabía preguntarse, sin embargo, si los resultados de la encuesta anónima eran realmente
confiables. Para valorarlo, se encaró el problema desde otro ángulo. En lugar de centrar la
atención en los porcentajes, se consideró el número total de abortos ilegales que se verificaron en
la ciudad durante el año 1972. Al tener en cuenta el total de mujeres en edad fértil en la ciudad y
el resultado de la primera muestra, se estimó que 1148 mujeres habían sido objeto de algún tipo
de aborto; cuando se utilizó el resultado de la encuesta anónima, el número estimado de abortos,
fuesen terapéuticos o ilegales, ascendió a 3058.

Hasta aquí todo parece lógico pero, por su carácter oficial, se conocía el número de abortos de
índole terapéutica (y por tanto, legales): ¡fueron 4040 en el período! Ello revela que incluso la
encuesta anónima padeció de un apreciable subregistro, ya que el número de abortos
terapéuticos no puede ser mayor que la totalidad de interrupciones57 (terapéuticas e ilegales).
Con esto se ilustra convincentemente la inoperancia que puede aquejar a una encuesta anónima
como recurso para evitar el posible temor que genera el interrogatorio en virtud de que pudieran
divulgarse sus respuestas.

Este problema venía planteando un desafío a los estadísticos: ¿cómo obtener conclusiones
confiables sin dejar de conseguir que cada interrogado sepa (no que crea ni que confíe, sino que
sepa) que no es posible establecer su situación respecto de la condición embarazosa? La
solución encontrada fue la que se aplicó a la tercera muestra en el estudio canadiense. Se trata de
una expresión sencilla del llamado método de respuesta aleatorizada, elegida entre numerosos
procedimientos concebidos bajo el mismo principio.
En un cartón se dibuja un círculo que se divide en dos secciones dentro de las cuales aparecen
afirmaciones complementarias de la manera indicada en la Figura 9.1.

La parte más pequeña abarca la cuarta parte del área total del círculo. Fija al centro del círculo
hay una saeta metálica que, tras un impulso inicial de la persona interrogada, gira libremente.
Cada mujer debe encarar aquella de las dos afirmaciones que resulte señalada por la flecha al
detenerse. En dependencia de su situación real, declara si es "verdadera" o "falsa" la afirmación
seleccionada por el mecanismo; el encuestador simplemente anota esta respuesta (verdadero o
falso), sin conocer, naturalmente, a qué afirmación corresponde.

Una vez interrogadas n mujeres, se conocerá el número a de las que contestaron "verdadero".
Puede suponerse que solo a una cuarta parte de las mujeres les haya correspondido evaluar la
afirmación contenida en la sección pequeña, y también, obviamente, que el resultado de cada
experimento (la región en que cae la flecha) es independiente de que la mujer se haya o no
practicado un aborto. Usando la teoría elemental de probabilidades, estas suposiciones permiten
a n-a
afirmar que    + (1 -  ) donde  es la fracción del círculo correspondiente a la
n n
declaración afirmativa.

57
Aquí se está equiparando el número de mujeres que abortaron en un año
con el de abortos producidos en ese período, ya que el caso de una
sola mujer con dos o más interrupciones en tan breve lapso, aunque
posible, es muy poco probable.
L.C.Silva
Es fácil deducir que el porcentaje desconocido  de mujeres que tuvieron un aborto se estima, en
1
este caso (donde  = ), puede estimarse mediante la fórmula [9.1]:
4
ˆ =
3n - 4a
9.1
2n
L.C.Silva

Como se recordará, en la encuesta se habían tomado 3 muestras. Cada una de las 342 mujeres
de la tercera fue interrogada mediante el procedimiento descrito; a = 251 de ellas respondieron
que era verdadera la afirmación sobre la cual les tocó pronunciarse, de modo que, según [9.1], el
porcentaje de mujeres que se habían realizado abortos se estima como 3.2%. Cabe preguntarse
ahora ¿es efectivamente eficaz el procedimiento? Los porcentajes estimados con los tres métodos
de encuesta se resumen en la Tabla 9.1.

Tabla 9.1 Estimaciones de los porcentajes de mujeres con abortos y de mujeres


casadas según método de encuesta

Encuesta Anónima por Respuesta


directa correo aleatorizada

Tamaño muestral 327 269 342

¿Ha tenido un aborto provocado


(terapéutico o ilegal) durante 1972? 0,3% 0,8% 3,2%
¿Se ha casado en alguna
oportunidad? 82,3% 81,8% 84,4%

Por otra parte, las estimaciones de los totales para los diferentes tipos de abortos se resumen en
la Tabla 9.2.

Tabla 9.2 Número estimado del total de abortos según método de encuesta

Método de interrogatorio

TIPO DE ABORTOS Encuesta Anónima por Respuesta


directa correo aleatoriz.
Provocados (desconocido) 1.148 3.058 14.197
Terapéuticos (conocido) 4.040 4.040 4.040
Ilegales (diferencia) -2.892 - 982 10.157

Las cifras son sumamente elocuentes: según se aprecia en la Tabla 9.1, cuando se emplea
respuesta aleatorizada, el porcentaje de abortadoras (pregunta comprometedora) se multiplica
por 10, en tanto que el de casadas (pregunta inocua) no exhibe prácticamente variación alguna.
Por otra parte, la Tabla 9.2 muestra que, mientras los dos procedimientos convencionales
arrojaron conclusiones disparatadas (el total de abortos ilegales era negativo), la técnica de
respuesta aleatorizada consiguió arrancar una estimación enteramente razonable de dicho
número.
L.C.Silva
Numerosos procedimientos similares al que se ha explicado (en los que se involucran artilugios
tales como cartas, dados o monedas) fueron creados para encarar problemas como éste. Uno
más simple que el de Warner consiste en solicitar que se lance una moneda y pedir al sujeto
que, si sale cara, responda a la pregunta: "¿Ha tenido Ud. un aborto?>> en tanto que, si el
resultado es escudo, responda SI. En este caso es fácil ver que la estimación de mujeres que
abortaron se estimaría mediante: Pˆ = 2 p s - 1 , donde p s representa la fracción de mujeres
encuestadas que respondieron SI.
Más tarde, se crearon incluso procedimientos para estimar promedios, como muestra el
siguiente ejemplo de Dalenius y Vitale (1974), quienes adecuaron el procedimiento de Warner
para estimar la media  de una variable cuantitativa "conflictiva", tal como la edad de la primeras
relaciones sexuales ( X ).

Se parte de que X puede tomar cualquiera de los 35 valores que van desde 15 a 49 años y que
se trabaja con una muestra de n mujeres que admiten haber tenido tales relaciones en el
momento de la encuesta. En un cartón se dibuja un círculo que se divide en 35 secciones iguales
que se numeran sucesivamente del 15 al 49. Fija al centro del círculo hay, como antes, una varilla
metálica que la interrogada hace girar; cuando el dispositivo se detiene, el extremo de la varilla
reposará sobre un número que, naturalmente, el encuestador no conocerá. Cada mujer se
circunscribe a decir NO en caso de que sus primeras relaciones sexuales se hayan verificado a
una edad estrictamente superior al número señalado por la saeta, y SI en caso opuesto. Puede
a
probarse que ̂ = 15 + 35 es un estimador insesgado de la media, donde a es el número de
n
mujeres que contestaron NO.

Si, por ejemplo, el porcentaje de respuestas negativas es 40 %, entonces


̂ = 15 + (35)(0,4)= 29 ; o sea, se estima que la edad media del comienzo de las relaciones
sexuales en esa población es 29 años.

NOTA: Naturalmente, todas estas estimaciones están afectadas por cierto error. Además del
error del muestreo, en este caso está presente un componente de error debido
al efecto que produce el mecanismo aleatorio. No se examinará, sin embargo,
este problema aquí, ya que desborda el nivel del libro. Su solución puede
hallarse, por ejemplo, en Boruch y Cecil (1979).

La técnica de respuesta aleatorizada alcanzó un considerable aval práctico. Muchas


experiencias se realizaron en esferas tales como fecundidad, conducta sexual, consumo de
alcohol, actuaciones ilegales y fraude académico. Massey, Ezatti y Folsom (1989) la
sugirieron para estimar el porcentaje de personas que niegan falsamente mantener conductas
de riesgo en relación con el SIDA.

A través de una encuesta basada en esta técnica, Zdep y Rhodes (1971) encontraron, por
ejemplo, que la estimación del porcentaje de individuos que golpean a sus hijos era cinco veces
mayor que lo que arrojó el método de respuesta anónima por correo.
L.C.Silva
En algunos países de alto desarrollo el procedimiento ha servido para mostrar que la
prevalencia de drogadicción es mucho mayor de lo que los métodos tradicionales hacían
suponer; por ejemplo, el estudio de Brown y Harding (1973) -en que se encuestaron miles de
individuos- produjo estimaciones dos veces mayores para submuestras tratadas con respuesta
aleatorizada que para otras manejadas anónimamente.

Otros estudios proporcionan resultados igualmente elocuentes; es obvio, sin embargo, que el
mero hecho de que las diferencias entre las estimaciones obtenidas con respuesta aleatorizada
y por un método convencional sean muy marcadas no constituyen prueba irrefutable de la
eficiencia del procedimiento. Los trabajos de validación realizados agregaron en su momento
algún aliento adicional a las expectativas creadas por el método. Para llevar adelante tal
validación es menester comparar los verdaderos parámetros (suponiendo, claro, que éstos
sean conocidos) tanto con las estimaciones obtenidas por conducto de la técnica novedosa
como con las que proceden de métodos tradicionales. Lamb y Stem (1978) y Tracy y Fox
(1981) obtuvieron resultados bastante estimulantes en esta línea.

La experiencia acumulada hace pensar que, en general, el nivel de confianza del sujeto
interrogado aumenta considerablemente entre los que acceden a participar; sin embargo, el
grado de participación no se ha visto sensiblemente incrementado. En efecto, los métodos es-
tadísticos pueden generar suspicacia y desconcierto entre los interrogados y -según se informa
en la literatura- su aplicación no ha producido la disminución esperada en las tasas de no
respuesta.

La manera en que se explican y aplican los procedimientos, el mecanismo aleatorio utilizado y,


especialmente, el nivel cultural de los encuestados, parecen influir decisivamente en el éxito de
procedimientos como éste.

En este sentido, Silva (1984) apuntaba algunas sugerencias:

a) La técnica debe aplicarse a una parte de la muestra piloto y el método regular a la


otra parte; así podría evaluarse su comprensión, grado de aceptación y funcionamiento
general en la población.

b) En su fase de aplicación es preciso constatar que cada interrogado ha comprendido


no sólo aquello que se espera de él, sino que entienda que el método, efectivamente, le
confiere absoluta privacidad.

c) Las preguntas tratadas por respuesta aleatorizada deben aparecer al final del
cuestionario, después de las que se formulan por vías convencionales y previa explica-
ción de que se trata de un procedimiento para cuya aplicación se solicita especial
cooperación.
L.C.Silva
Las posibilidades de comunicación horizontal que actualmente ofrece Internet y el
correo electrónico abren oportunidades novedosas a la técnica que nos ocupa, ya que si
el sujeto encuestado recibe la demanda por esta vía, puede operar según se le indique
sin testigos, y el dispositivo físico (dados, ruleta, baraja o lo que sea) puede suplirse por
un recurso simulado a través de un programa que se adjunte a la propia encuesta para
que el usuario ejecute y responda en función del resultado.

9.3 Estimación por pesca y repesca

Un problema interesante surge cuando se quiere estimar el número total (llamémosle N ) de


animales que habitan una zona; por ejemplo, águilas en un valle o peces en un lago. Una técnica
para abordar este problema consiste en emplear el sistema denominado de captura-recaptura o
pesca-repesca. En su versión más elemental la técnica consiste en tomar una muestra de n
animales (por ejemplo, un conjunto de peces), marcarlos mediante algún procedimiento (un anillo
o una cruz de pintura) y devolverlos a la zona (al lago). Una vez que los ya capturados se
mezclen con los restantes, se selecciona una nueva muestra, ahora de m animales. Se cuenta el
número k de los que están marcados entre estos últimos (es decir, los que fueron capturados en
las dos ocasiones).

Es muy fácil comprender que, basándose en los supuestos de que la población no se modifica
durante el lapso que dura el estudio y de que en ambos procesos de selección todos los anima-
les tienen igual probabilidad de selección, un estimador adecuado del tamaño poblacional es el
siguiente:

Nˆ =
nm
9.2
k

De hecho, en Feller (1950) se demuestra que [9.2] es un estimador de máxima verosimilitud58.

Un sencillo razonamiento conduce a la fórmula [9.2] de manera natural. Imaginemos que


inicialmente se pescaron n = 1.300 peces, que en la segunda ocasión se capturaron m = 2.500 y
que k = 125 de éstos últimos habían integrado también la primera muestra. A juzgar por los
resultados de la segunda muestra, el 5 % de la totalidad de los peces del lago llevan marca (125
de 2.500). De modo que 1.300 (total de peces marcados) representa el 5 % del número
desconocido. Concretamente, N debe ser 20 veces mayor que 1.300; es decir: se estima que
hay 26.000 peces en total. La fórmula [9.2] produce, desde luego, el mismo resultado:

(1.300)(2.500)
N̂ = = 26.000
125

58
La "función de verosimilitud" es un recurso usualmente aplicado en Teoría de
Estimación cuya definición desborda el nivel del presente texto. La
estimación máximo verosímil es el valor que conduce al estimador más
razonable dados los datos que se poseen.
L.C.Silva

Existen diversas aplicaciones del procedimiento, cuya versión más simple se acaba de
exponer(Hook y Regal, 1995). El modelo podría emplearse, por ejemplo, para estimar el
número total de ambulancias o de coches con matrícula diplomática en una ciudad59, pero
existe una amplia experiencia de apliceciones en epidemiología, como se aprecia en el trabajo
de Hook y Regal (1995) donde se reseñan más de 60 trabajos prácticos sobre el tema. El
espectro de posibles situaciones y recursos para encararlas es florido; sin embargo, nos
concentraremos en una de las aplicaciones más señaladas en el ámbito salubrista concierne al
afán de evaluar la integridad de los sistemas de registro en salud pública, en lo que también se
conoce como sistemas duales de registro (Wells, 1971).

El más clásico fue propuesto por Chrandasekar y Deming (1949) para estimar ciertos datos
globales aprovechando las discordancias entre dos sistemas de registro independientes que
traten de obtener información sobre un mismo tipo de acontecimientos. Para estimar el número
total de tales acontecimientos, el procedimiento asume que la población de donde procede la
información es cerrada (en el mismo sentido en que lo es la población de peces) y que es
posible identificar correctamente tanto los casos que aparecen en ambos registros como los
que solo están en uno de ellos pero no en el otro.

La información necesaria es el número a de casos registrados en los dos sistemas, el número b


de los que registra el registro 1 pero no el 2, y los que se hallan en el segundo pero no en el
primero, al que llamamos c . Se definen n1 = a + b y n2 = a + c y se obtiene la estimación del total
N de sujetos que están en al menos uno de los dos. El estimador [9.2] con esta notación sería:

Nˆ = n1 n2
a

Pero también se ha propuesto el estimador:


( + 1)( n2 + 1)
Nˆ = n1 [9.3]
a +1

La estimación de la varianza de N̂ viene dada por:


( + 1)( n2 + 1) cb
Var(Nˆ ) = n1 [9.4]
(a + 1 )2 (a + 2)

59
Se trataría de anotar las matrículas de un conjunto de estos coches
mientras circulan "aleatoriamente" durante cierto lapso, y hacerlo
nuevamente unos días más tarde.
L.C.Silva

Una aplicación vinculada a los problemas de muestreo es la siguiente (Teutsch y Churchill,


1994): imaginemos que en una comunidad hay un registro de asmáticos que se pretende
emplear en calidad de marco muestral pero que se sabe que es incompleto; se tiene un
segundo registro independiente y se quiere estimar la magnitud de las deficiencias de cobertura
presentes en el marco inicial. Hay a = 140 sujetos que están en ambos registros; b = 20 están
en el registro 1 pero no en el 2 y c = 55 se hallan en el 2 pero no en el 1.

El total de sujetos teóricamente elegibles sería, según [9.3], igual a:


(164 + 1)(195 + 1)
N̂ = = 229.4
(140 + 1)

La varianza de N̂ sería:
(165)(196)(20)(55)
var(Nˆ ) = = 12.6
(141 )2 (142)
L.C.Silva

De modo que un intervalo de confianza para N sería 229.4 _ + (1.96) 12.6 ; es decir, puede
estarse razonablemente seguro de que el número de asmáticos se halla entre 222 y 236. Para
más detalles, véase Wolter (1983).

9.4 Muestreo condicional en dos fases

Supongamos que se está realizando un estudio de morbilidad para estimar la prevalencia de


cierta dolencia, pero imaginemos que se presenta la siguiente singularidad: el costo de la
prueba diagnóstica que se considera óptima (a la que llamaremos T2) es demasiado alto como
para realizarla a todos los sujetos de la muestra, a la vez que existe una prueba más barata
(llamémosla T1) de relativamente baja especificidad pero muy sensible. Es decir: si el sujeto
padece la dolencia arrojará casi con seguridad un resultado "positivo" ante la prueba T1, pero la
casi completa confirmación sólo se obtendrá si se repite ese resultado cuando se le aplique la
prueba T2.

Una estrategia común en tales circunstancias es la siguiente: realizar la prueba T1 a una


muestra (que, en principio consideraremos elegida simplemente al azar, pero que puede ser
seleccionada por cualquier otro método) de tamaño n y luego aplicar T2 solo a n2 individuos
elegidos al azar de los n1 que resultaron "positivos" bajo T1 donde n2  n1 . Supongamos que en
esta segunda fase son m los positivos. La prueba T1 funciona como una especie de tamizaje o
screening inicial y el diseño puede denominarse muestreo condicional en dos fases. La
situación es la que refleja la Figura 9.2. El problema consiste en estimar la tasa de prevalencia
de la dolencia empleando la información que resulta de aplicar las dos fases. Consideraremos
positivo solo a quienes hayan arrojado el resultado T 2 + y T 1 +

La probabilidad de que se produzca esa conjunción es igual, según el teorema de Bayes, a


P( T 2 + | T 1 +) P( T 1 +) , lo cual se estima, si suponemos que se aplicó un diseño equiprobabilístico
m n1
en ambas ocasiones, a través del producto . .
n2 n
Por ejemplo, si el primer tamizaje se llevó adelante con 200 sujetos, de los cuales 120
resultaron ser positivos, y al aplicar T 2 a 50 de estos últimos, resultaron 20 positivos, entonces
120 20 24
n = 200 n1 = 120 n2 = 50 m = 20 , de modo que pˆ = . =  0,24 .
200 50 100

La estimación del error de este estimador es complicada por tratarse del producto de una
proporción y una razón, especialmente si los diseños empleados en ambas etapas fueron
complejos. El problema aquí esbozado está abierto, especialmente para el caso en que se
conocen la sensibilidad y la especificidad de las pruebas involucradas, datos que pudieran ser
incorporados con provecho en todo el proceso de estimación.

9.5 Muestreo en el tiempo


L.C.Silva

Se comentan Brevemente a continuación algunas estrategias de diseños temporales en las


encuestas por muestreo. Por regla general, algunas de estas alternativas se adoptan por
simple hábito o por tradición, y con frecuencia no se ha tenido en cuenta la selección
probabilística en la dimensión temporal. No pocas veces se usan los llamados períodos
"típicos" (representativos), tal y como ocurre con el 1º de abril para los censos decenales en
Estados Unidos; en su momento se consideró que dicha fecha era "típica" y más conveniente
que cualquier otro día, hasta que ya se volvió tradicional, al igual que ocurre con la tercera
semana para representar a la población cada mes en el Current Population Survey (US
Census Bureau, 1978). Ocurre, en fin, como con las áreas "típicas", que también fueron muy
utilizadas como paradigmas de representatividad espacial hasta que se generalizó el uso del
muestreo probabilístico de áreas.

El muestreo a lo largo de un intervalo dado de tiempo representa una posibilidad: de la misma


manera que una población se ubica en el espacio, también puede considerarse el tiempo como
otra dimensión de la variación. Las poblaciones varían de un año a otro y de una semana a
otra, del mismo modo que varían entre regiones o municipios. El muestreo probabilístico de
áreas poblacionales sirve como recurso que contempla la variación espacial, pero la variación
temporal puede tener tanta o más importancia, especialmente en cuanto a las modificaciones
cíclicas, (estacionales, semanales o incluso diarias). Cuando por limitaciones de orden
práctico, como las existentes para los censos decenales, se requiere un período único, la
selección basada en criterios subjetivos de un "período representativo" puede ser preferible a
una elección en que intervenga el azar. Pero cuando se cuente con un número mayor de
períodos, cabe considerar la posibilidad de realizar una selección probabilística de los períodos
(de igual modo que se haría con las áreas).

Los cortes transversales, por regla general, tienden a sacrificar la cobertura temporal, mientras
que los estudios longitudinales están limitados espacialmente. Los diseños matriciales para
muestrear tanto el espacio como el tiempo mediante muestras periódicas equilibradas pueden
constituir una solución integral.

Las encuestas periódicas, diseñadas para determinados períodos pueden ser promediadas
para el total del intervalo que abarcan. Con las muestras repetidas podemos estar en
condiciones de mejorar la calidad y reducir los costos; por otra parte, las muestras repetidas
pueden producir datos para construir series temporales que permitan estimar cambios y
tendencias; y, finalmente, las medias y sumas obtenidas con muestras repetidas pueden
producir resultados inferenciales mejores que los basados en muestras únicas (Kish, 1989).

9.6 Muestras maestras


L.C.Silva
Sería difícil imaginar muestras periódicas que pudiesen aplicarse sin contar con marcos
muestrales tipo o muestras maestras. Dichos marcos pueden suministrar muchos datos
auxiliares para mejorar las muestras periódicas. El término "muestra maestra" alude a una
colección de mapas, listas, planos y otras informaciones auxiliares, ya sean referidas a toda la
población o a una amplia selección de unidades primarias de muestreo, que a su vez sirven
como marco para seleccionar las muestras necesarias. Es posible seleccionar, por ejemplo en
una primera fase inicial, una muestra grande (digamos de manzanas) para después elegir a
partir de esas listas ya preparadas, y según se necesiten, las unidades de las siguientes etapas
para conformar las muestras reales de cada nueva encuesta. Una "muestra tipo" puede incluso
contener datos personales obtenidos en entrevistas realizadas en una primera fase, de modo
que sobre una submuestra de estos individuos entrevistos se efectúan las encuestas que vayan
siendo necesarias.

Tales submuestras, con frecuencia, son objeto de rotación: se conservan las UPE iniciales (con
sus probabilidades) y en momentos sucesivos se completan las selecciones correspondientes a
etapas posteriores, contemplando para estas subselecciones las probabilidades originalmente
previstas.

Para ilustrarlo con un ejemplo muy sencillo imaginemos que en una comunidad hay 12
escuelas primarias e las que se han seleccionado 3 con probabilidades proporcionales al número
de niños, y que luego se eligieron 20 niños por escuela para completar una muestra
equiprobabilística de 60 sujetos. Supongamos que las probabilidades de selección resultaron ser
las siguientes:

f 1 = 0,12 f 2 = 0,43 f 3 = 0,28

Dos años más tarde, se realiza otra encuesta con la misma población: los niños de las 12
escuelas existentes. Naturalmente, los niños ya no serán los mismos, ni será igual el número
de niños por escuela, ni el número total de niños. Supongamos que en este segundo momento
se quiere una muestra equiprobabilística con f = 0.03 como probabilidad general (calculada
mediante la determinación del tamaño n deseado y del actual valor de N , o eligiendo la misma
f del estudio anterior). En tal caso, pueden usarse las mismas 3 escuelas y aplicarse entonces,
respectivamente, las siguientes fracciones de muestreo (quizás mediante muestreo sistemático en
fases): a las listas de alumnos que ahora se hallen en dichas escuelas
f 11 = 0,25 f 21 = 0,07 f 31 = 0,11
L.C.Silva
que son las necesarias para que se cumpla la condición f i f i  = f .

9.7 Muestreo y técnicas de evaluación rápida

En los últimos años se ha venido hablando con insistencia de las llamadas técnicas rápidas de
evaluación sanitaria. En un número de World Health Statistics Quarterly especialmente
destinado al tema se puede apreciar que abarcan a las técnicas de muestreo. Bennet y col
(1991) exponen lo que ellos denominan "método general simplificado de muestreo por
conglomerados" como alternativa a un procedimiento propuesto años antes por Henderson y
Sundaresan (1982), consistente en tomar 30 conglomerados y 7 sujetos en cada uno, un
diseño simplemente arbitrario.

Ahora bien, en mi opinión, el planteamiento de Bennet y sus colaboradores no se distingue en


lo esencial del que formula la teoría clásica de muestreo y, en el fondo, no es otra cosa que el
contenido del Capítulo 7 del presente libro. A mi juicio, más que una técnica rápida de
evaluación, lo que ellos hacen es una exposición rápida de una técnica convencional.

9.8 Estimación de eventos infrecuentes y muestreo en red

Supongamos que se desea estimar el número total de casos de cierta enfermedad (por
ejemplo, un tipo de cáncer o de hepatitis) acaecidos en la población durante un lapso dado. El
procedimiento convencional sería interrogar una muestra de sujetos e indagar si han tenido o
no la enfermedad; pero, si la dolencia es muy poco frecuente, el tamaño muestral debería ser
muy grande.

Una alternativa sería seleccionar un conjunto de médicos e interrogarlos a ellos en lugar de a


los posibles enfermos, y preguntarles cuántos casos diferentes han atendido a lo largo de cierto
lapso previo. La dificultad estriba, en principio, en que más de un médico puede informar del
mismo caso. Cuando se trata de cuantificar un acontecimiento poco frecuente en una
comunidad, este recurso, puede ser, sin embargo, en extremo útil.

Cuando se admite una regla de conteo múltiple como la que se describe a continuación con un
ejemplo, el método de muestreo suele denominarse muestreo en red.

Supongamos que en una escuela hay A = 600 alumnos distribuidos en varios grupos. Cada
alumno tiene cierto número de profesores. Dicho número depende del año escolar que curse y de
otros aspectos académicos inherentes al estudiante en cuestión; consecuentemente, puede diferir
de alumno a alumno. Imaginemos que el número total de docentes es 12 y que se quiere estimar
el número de alumnos X que cometieron fraude académico a lo largo del último año.

La manera natural de realizar la estimación es seleccionar una muestra de alumnos (por


ejemplo, a = 50 estudiantes) e indagar en el expediente de cada cual si ha cometido o no un
fraude. Si para na de ellos se tiene respuesta afirmativa, entonces la estimación sería:
A
Xˆ 1 = na
a
L.C.Silva

Supongamos que en total se han producido 4 casos de fraude; es evidente que la inmensa
mayoría de las muestras posibles de tamaño 50 producirían na = 0 y, por tanto, la estimación
Xˆ 1 = 0 (puede demostrarse que ello ocurrirá concretamente con el 70.5 % de las muestras).
Como ya sabemos (véase Sección 3.3), la varianza de Xˆ 1 es igual a:
na PQ a
Var( Xˆ 1 ) = A2 Var( ) = A2 (1 - )
a a A

4
Puesto que P = , tenemos:
600
600 2 4 596 50
Var( Xˆ 1 ) = (1 - ) = 43.71
50 600 600 600

Otra posibilidad es tomar una muestra de profesores (digamos, n = 5 de los N = 12 ) y


preguntar a cada cual cuántos de sus alumnos han cometido un fraude en el último año. La
dificultad radica en que un mismo alumno puede ser señalado por varios profesores (suponiendo
que todos los profesores de un alumno conocen si éste ha incurrido o no en la mencionada
transgresión).

Una posible solución para evitar este posible sobreregistro consiste en establecer que un
profesor solo pueda informar los casos de fraude cometidos en su asignatura. Llamemos xi al
número de alumnos identificados bajo dicha regla por el i-ésimo profesor de la muestra. Entonces,
un estimador insesgado de X sería:

n
N
Xˆ 2 =
n
x
i=1
i

Por ejemplo, si a uno de los 5 profesores de la muestra le correspondieron dos casos de


fraude, a otro un caso, y ningún caso a los restantes tres, entonces la estimación sería:

12 36
Xˆ 2 = (2 + 1+ 0 + 0 + 0) = = 7.2
5 5
L.C.Silva

Imaginemos que, estructuralmente, la situación es como la que refleja la Figura 9.3. Allí
aparecen los N = 12 profesores de la escuela y los cuatro alumnos que han cometido fraude.
Las flechas una a cada uno de éstos alumnos con cada uno de sus profesores.

Esto quiere decir que el primer alumno tiene 4 profesores, el segundo tiene 3, el tercero tiene 5
y el cuarto tiene 2. Por otra parte las flechas de trazo grueso indican, para cada alumno, con
qué profesor específico se produjo el fraude.

Por otra parte, la Figura 9.3 también permite apreciar la situación de los profesores. Por
ejemplo, de ella se deduce que solo a 3 profesores se les ha cometido fraude y que para uno
de los 12 se dio la situación de que ninguno de sus alumnos cometió fraude. La situación se
resume en la Tabla 9.3

Tabla 9.3 Situación de los profesores de la escuela en relación con el número de


alumnos que han cometido fraude

Alumnos suyos que Alumnos suyos que


Profesor hicieron fraude en su cometieron fraude Xi
*

asignatura X i en alguna
asignatura
1 0 1 1
4
2 0 1 1
4
3 0 1 1
4
4 2 2 1 1
+
4 3
5 0 1 1 1
+
4 3
6 0 2 1 1
+
3 5
7 1 1 1
5
8 0 1 1
5
9 0 1 1
5
L.C.Silva
10 1 2 1 1
+
5 2
11 0 1 1
2
12 0 0 0
Nota: X *i se define más adelante.

La varianza de Xˆ 2 es:
2
n
Var( Xˆ 2 ) = N 2 S (1 - )
n N
1 N
donde S 2 =  ( X i - X ) con X . Es fácil ver que, con los datos de la Tabla 9.3, se tiene
N - 1 i=1
4 1
X= = y S 2 = 0.424 , de modo que Var( Xˆ 2 ) = 2.67 .
12 3

Adviértase que en este caso Xˆ 2 será igual a cero para todas las muestras que no contengan a
los 3 profesores a los que le cometieron fraude (es decir, a los que hemos numerado 4, 7 y 10).
 12 
El total de muestras posibles es   = 792 , y el número de las que no contienen a ninguno de
 6
9
los profesores mencionados es   = 126 , de modo que ahora solo el 16% de las muestras (126
5
de 792) da lugar a la estimación Xˆ 2 = 0 .

Una tercera posibilidad es admitir para la muestra de profesores el llamado "conteo múltiple":
cada profesor comunica el número de todos sus alumnos que hayan cometido fraude.
Obviamente, la probabilidad de que un alumno sea señalado es inversamente proporcional al
m
 ij
número de profesores que tenga. Se define x*i = 
j=i sj
para el i-ésimo profesor, donde m es el

número total de alumnos diferentes que han sido reportados, donde  ij vale 1 si el profesor i
tiene entre sus alumnos al alumno j y  ij = 0 en otro caso, y donde s j es el número de
profesores que tiene el alumno j . Entonces se define:
n
N
Xˆ 3 =
n
x
i=1
*
i
L.C.Silva

Se puede probar que Xˆ 3 también es un estimador insesgado de X. En el ejemplo, los valores de


xi son los que se hallan en la última columna de la Tabla 9.3.
*

Así, por ejemplo, si en la muestra quedaran seleccionados los primeros 5 profesores, entonces
12  5 2 
Xˆ sería igual a  +  = 4,2 . Adviértase que en este caso ninguna de las muestras
3

5 4 3
produciría la oberración de dar lugar a una estimación de X igual a 0.
La varianza de Xˆ 3 tiene la misma estructura que la de Xˆ 3 tiene la misma estructura que la de
2 S*  n
 
2
1 N
ˆ
X2 : Var  ˆ
X3  = N  1 -  donde S
2
* = 
2
X i - X . En este caso, S* = 0.4241 y
2

n  N N - 1 i=1
Var( Xˆ 3 ) = 0.829 . Como se aprecia, Var( Xˆ 3 ) es mucho menor que Var( Xˆ 2 ) ; lo que revela las
ventajas de este procedimiento, especialmente útil para la estimación de totales en caso de que
las prevalencias sean muy bajas (digamos, del orden 3 % o menos). Un ejemplo de aplicación de
esta técnica puede hallarse en Sirken (1970). La teoría correspondiente a muestreo en red para
diseños más complejos que el MSA (por ejemplo, para muestreo por conglomerados) puede
hallarse en Levy (1977).

9.9 Medias según unidades de información

Según consigna Kish (1965), alrededor de 1957 (después de los primeros éxitos rusos en
cosmonáutica) aparecieron en Estados Unidos informaciones sobrecogedoras sobre la
enseñanza de las ciencias en este país: en la mitad de los colegios de enseñanza media no se
impartía física, la cuarta parte no enseñaba química y otra cuarta parte no enseñaba geometría.
No tardó en repararse en que, aunque los colegios con tales expresiones de retraso eran
realmente muchos, sólo abarcaban al 2 % de los estudiantes de enseñanza media.

Había muchos más colegios pequeños que grandes, pero una pequeña fracción de colegios
grandes contenía un gran porcentaje de estudiantes, a la vez que los programas de estudio que
ofrecían los colegios grandes se diferenciaban radicalmente de los pequeños. Por ello, la
presentación de las condiciones promedio de los colegios proporcionaba una imagen
tergiversada de las condiciones en que se encontraba la inmensa mayoría de los estudiantes.

Este problema se puede presentar cada vez que se emplean grupos de elementos de tamaños
muy diferentes entre sí que no sólo constituyen unidades de muestreo, sino que también
operan como unidades de observación, y ocurre cuando se observa una característica grupal
de cada unidad y se asigna tal condición a todos los elementos comprendidos dentro de las
unidades. Las posibles diferencias entre las medias simples no ponderadas de las unidades y
las medias ponderadas de los elementos son grandes, lo cual supone notables sesgos en caso
de que se emplee como recurso descriptivo la media inadecuada.
L.C.Silva
Supongamos que se tienen n unidades de tamaños N 1 , N 2 ,..., N n y una variable Y dicotómica
( Y i = 1 si la i-ésima de estas unidades tiene cierto rasgo, y Y i = 0 en caso contrario) La media
1 n
simple no ponderada para las unidades es Y = Y i , en tanto que la media ponderada es:
n i=1
n

n N Y i i

Y w = W i Y i =
i=1
donde W i =
Ni
n n
i=1
N
i=1
i N
i=1
i

Si los N i fuesen iguales entre sí, ambos estadígrafos coincidirían, pero las variaciones de tamaño
que existen en muchos de los grupos sociales que con frecuencia son sujetos de observación y de
promediación, puede ser notable. Unidades como ciudades y provincias, universidades u
hospitales, suelen tener tamaños que difieren marcadamente entre sí. Si la correlación entre el
tamaño y la variable de estudio no es desdeñable, la diferencia entre la media ponderada y la no
ponderada puede ser grande.

Consideremos la simplificada situación siguiente: tenemos n = 5 hospitales cuyos tamaños


(medidos en términos del número de médicos) son iguales a 300, 510, 820, 60 y 50 .
Supongamos que solo en los 2 últimos hay graves problemas de ventilación. Si bien es cierto
que el 40 % de los hospitales padece el mencionado problema, en realidad solo el 7 % del
total de médicos trabajan en tales hospitales y estaría por tanto realmente afectado por el
problema. (110 de 1740).
L.C.Silva

9.10 Diseños con cuestionario parcial

En la Sección 2.3 habíamos abogado a favor de que se confeccionaran cuestionarios tan


cortos como fuera posible. Sin embargo, no siempre puede conseguirse brevedad;
ocasionalmente es imprescindible la inclusión de un gran número de preguntas para
satisfacer los objetivos de la encuesta.

Para conciliar esta realidad con el afán de que las encuestas sean cortos se ha ideado un
ingenioso recurso al que denominaremos diseño con cuestionario parcial (Wacholder,
Carroll, Pee y Gail, 1994). La idea consiste en que cada encuestado responda solo a
una parte del cuestionario, a la vez que se procede de modo que cada una de sus
preguntas sea contestada, como mínimo, por un subconjunto de sujetos de la muestra. El
método en cuestión, también discutido por Williams y Ryan (1996), Raghunathan y
Grizzle (1995) y Zeger y Thomas (1997), puede bosquejarse a través del ejemplo
siguiente.

Supongamos que las preguntas del cuestionario se dividen en cuatro bloques


mutuamente excluyentes (B1, B2, B3, B4) y que la muestra se divide a su vez en tres
submuestras (S1, S2, S3) que tampoco se intersecan entre sí. Se decide que todas las
preguntas incluidas en B1 se formulen a la totalidad de la muestra, en tanto que a los
integrantes de cada una de las tres submuestras se le formulan las preguntas incluidas en
solo uno de los tres bloques restantes. Por ejemplo, a la submuestra S1 se le aplican -
además de B1- las preguntas del bloque B2; a la S2 las preguntas de B1 y B3, y a la
tercera submuestra, S3, las del bloque B1 y B4. Esquemáticamente, la situación sería la
que se recoge el Tabla 9.4.

Tabla 9.4 Diseño con cuestionario parcial para tres submuestras y cuatro
bloques de preguntas con un bloque común.

B1 B2 B3 B4

S1 x x
S2 x X
S3 x x

En una situación como la descrita, la limitación básica que se presenta es que resultaría
imposible "cruzar" preguntas pertenecientes a bloques diferentes, salvo que uno de
dichos bloques sea el primero. Por ejemplo, si la condición enfermo crónico se pregunta
en el bloque B2 y la ocupación en el B4, será imposible computar tasas de prevalencia de
enfermos crónicos según ocupación. Por otra parte, las estimaciones correspondientes a
las preguntas de los bloques B2, B3, y B4 se realizan a solo una tercera parte de la
muestra, con la consecuente disminución de precisión en las estimaciones correspon-
dientes.

Una partición menos "radical" pudiera ser acorde al diseño de la Tabla 9.5:
L.C.Silva

Tabla 9.5 Diseño con cuestionario parcial para tres submuestras y cuatro
bloques de preguntas con un bloque común y una replicación
de los otros.

B1 B2 B3 B4

S1 x x x
S2 x x X
S3 x x X

En este caso, cada pregunta de los bloques 2,3, y 4 quedaría incluida en las dos terceras
partes de la muestra total y caso ya sería posible hacer cruzamientos de dos preguntas
cualesquiera de la encuesta, aunque en ellos participarían a lo sumo los dos tercios de la
muestra (si una de ellas procede de B1 y la otra no) y en muchos casos, un tercio (si una
es, por ejemplo, de B2 y la otra de B4).

Lo lógico es que en B1 se ubiquen todas las preguntas generales (nombre, ubicación,


etc.), así como aquellas más importantes (las que exijan estimaciones más precisas) y,
finalmente, las que puedan ser útiles como variables auxiliares, en el sentido que se
explica más abajo.

Consideremos dos preguntas P1 y P2, ambas politómicas. supongamos que se ha


seleccionado una MSA de tamaño n de una población con N unidades de análisis y que
se quiere estimar N ij : el número de sujetos incluidos en la categoría i respecto de P1 y en
la categoría j respecto de P2, donde P1 es una pregunta que pertenece a B1 (bloque para
el cual n sujetos han respondido) y donde P2 es una pregunta de algún otro bloque a la
cual responden solo m individuos, que conforman a su vez una MSA de la muestra inicial.

La estimación natural o directa de N ij se deriva de aplicar una simple "regla de tres":

Nˆ ij =
N
mij 9.5
m
donde mij es el número de personas de la muestra que son en la celda ij de la tabla de
contingencia. La varianza de este estimador se estima mediante:
N 2  m  mij  mij 
var( Nˆ ij ) = 1 -  1- 9.6
m  N  m  m 

Una alternativa para realizar la estimación consiste en hacer uso de los resultados de la
muestra completa para la pregunta P1, además de los que arroja la submuestra:
a
Nˆ ij =
N mij
ni. 9.10
n mi.
L.C.Silva

donde ni. y mi. representan el número de personas que están en la categoría i -ésima de
la pregunta P1 para la muestra y para la submuestra respectivamente.

La varianza de este segundo estimador se estima mediante:

 
Var Nˆ ija =
N 2  n  mij  mij  N 2  m  ni. mij  mij 
1 - 
n  N  m 
1- + 1 -  1-
m  m  n  n mi.  mi. 
9.11

Veamos un ejemplo de este proceso.

Imaginemos que N = 400 y n = 120 . A todos los sujetos se les aplica el bloque B1.
Supongamos que B2, B3, y B4 se aplican respectivamente a submuestras disjuntas de
tamaño m = 40 . Consideremos dos preguntas dicotómicas: P1 (que pertenece a B1) y P2
(que pertenece a B2). Se desea estimar N 12 , el número de sujetos que tienen el rasgo
de interés en relación con ambas interrogantes. Supongamos que para P1 la condición
es poseída por 60 de los 120 sujetos encuestados, que para P2 la respuesta positiva fue
dada por 30 sujetos de la submuestra de 40, y que hay 20 individuos que respondieron
afirmativamente a ambas interrogantes.

De modo que, en resumen, tenemos que: n = 120 , m = 40 , N = 400 , m12 = 20 , m1 .= 30


y n1 = 50 .

Con estos datos se computa:


400
Nˆ 12 = 20 = 200
40

(400)  40  20  20 
2
var( Nˆ 12 ) = 1 -   1 -  = 450.0
40  400  40  40 

y por otra parte

var Nˆ =
(400 )2  120  20  20 a  400 60
1 -   1 - Nˆ 12=+120 30 50 = 133.3
a
12
120  400  40  40 

(400 )2  40  6 20  20 
1 -   1 -  = 413.0
40  120  120 30  30 
L.C.Silva

a
La situación del ejemplo, donde Nˆ 12 tiene menor varianza (y es por ende un estimador
más preciso) que Nˆ 12 , es típica.

CAPITULO 10. MUESTREO Y TÉCNICAS ESTADÍSTICAS CONVENCIONALES

Históricamente, el cuerpo teórico clásico de la inferencia estadística nació de manera


independiente al del muestreo para poblaciones finitas y se mantuvo esencialmente
separado de él durante largo tiempo. Aunque las inquietudes al respecto vienen de antaño,
solo en los últimos diez años se han dado pasos productivos que puedan considerarse,
además, integradores. En este capítulo se agrupan diversos tópicos que, si bien son
relativamente inconexos entre sí, comparten el hecho de ubicarse en esas zonas comunes a
ambas esferas concernientes al muestreo.

10.1 Técnicas estadísticas aplicadas a muestras complejas

Como es bien conocido, virtualmente todos los desarrollos teóricos conseguidos en materia
de inferencia estadística parten del supuesto de que la muestra es simple aleatoria y
procedente de una población infinita (es decir, que los datos son independientes y provienen
de una distribución teórica dada). Sin embargo, en la práctica diaria -tanto en la clínica como
en la epidemiológica se utilizan procedimientos concebidos bajo tal supuesto de indepen-
dencia, aun cuando la muestra provenga de diseños muestrales complejos como los
explicados en capítulos precedentes.

La serie de aportes teóricos concretos destinados a ir cubriendo esa laguna entre la teoría y
una parte no despreciable de la práctica, concierne a esfuerzos para resolver problemas
tales como, por poner un ejemplo, realizar "adecuadamente" un análisis de regresión
múltiple con datos precedentes de una muestra por conglomerados bietápica.

Si bien el vínculo entre el muestreo en poblaciones finitas y las técnicas inferenciales


clásicas (tales como teoría de estimación, pruebas de hipótesis, modelos lineales, métodos
no paramétricos, técnicas de correlación o análisis multivariante), ha ganado en
formalización, la situación sigue dando motivos para el debate y margen para el
esclarecimiento.

El problema central radica, como sabemos, en que la conglomeración (presente en la


inmensa mayoría de los diseños que se aplican realmente) casi siempre entraña cierto grado
de dependencia mutua -mayor o menor, dependiendo de la población y de las variables-
entre las observaciones. Consecuentemente, proceder como si se cumpliera la condición de
independencia suele producir anomalías tales como sesgos en las estimaciones e
incrementos indebidos en la potencia de las pruebas de hipótesis.
L.C.Silva

Este asunto exhibe gran complejidad teórica (véanse Kish y Frankel, 1974; Lee, Forthofer
y Lorimor, 1989 Skinner, Holt y Smith, 1989) Lethonen y Pahkinen, 1995). Las fórmulas
aproximadas para realizar las estimaciones de parámetros simples (medias y totales) y sus
varianzas bajo diseños complejos pueden deducirse de diversos modos; los que se han
recogido en capítulos precedentes se han conseguido, básicamente, a partir de desarrollos
en series de Taylor. Las fórmulas para resolver problemas inferenciales más complejos (por
ejemplo, estimación de coeficientes de regresión o pruebas de independencia entre
variables) parten de demandas matemáticas tanto o más avanzadas, de modo que su
solución desborda ampliamente el nivel del presente material.

Ahora bien, es preciso recordar que, como se explicó en el Capítulo 1, los problemas que se
centran en la estimación son teórica y prácticamente diferentes de aquellos cuyas preguntas
demandan de la comparación. Justamente, es para los primeros que se han conseguido
soluciones más claras. Para aquellos centrados en la comparación, en cambio, el empleo de
técnicas complejas de muestreo como las discutidas en el presente libro ha recibido poca
atención.

Lo que suele hacerse en la práctica es llevar adelante el análisis asumiendo que la muestra
es simple aleatoria y prescindiendo totalmente de que se hayan usado o no diseños
complejos. Debe señalarse, sin embargo, que tal realidad dista de ser grave; y no lo es por
la sencilla razón de que la inmensa mayoría de los estudios se llevan adelante con datos que
no solo no proceden de muestras complejamente diseñadas, sino que ni siquiera
corresponden a muestras formales en sentido alguno.

Usualmente se trata de datos empíricos que procuran representar poblaciones definidas por
situaciones abstractas generales, tales como el conjunto de los pacientes hipertensos
tratados de cierto modo especificado y el de los tratados de otra forma. La exigencia de
trabajar con muestras obtenidas formalmente sería simplemente paralizante, tanto por las
dificultades prácticas que supone conseguirlo como por el hecho de que algunas de estas
poblaciones abstractas no admiten, por definición, la conformación de un listado. Y aquí,
como suele ocurrir tantas veces, es mejor colaborar con lo inevitable. (véanse comentarios
adicionales en la Sección 10.4 y, una amplia discusión de este tema en la Sección 12.3).

10.2 Muestras transversales y causalidad

A continuación y en este contexto se valora un problema de máxima importancia. No


obstante su aparente simplicidad, es ciertamente insidioso, hasta el punto de que puede
provocar no pocos estropicios. Es sumamente frecuente la situación en que, aunque no se
ha manejado un diseño concebido con vistas a la comparación, sino que se ha obtenido una
muestra "representativa" de cierta población (háyase empleado o no un método formal de
selección), se considera la posibilidad de realizar "cruzamientos" para medir asociación
entre variables. Se trata de una zona donde, en mi opinión, reina apreciable confusión
metodológica, la cual merece, por tanto, consideración detenida.

10.2.1 Premisa de precedencia temporal


L.C.Silva

En 1965, Sir Austin Bradford Hill pronuncia su famoso y trascendente discurso ante la
Sección de Medicina Ocupacional de la Royal Society of Medicine. Los criterios allí
expuestos aportan bases teóricas universalmente reconocidas y por su utilidad para el
examen de las relaciones de causalidad en medicina y, especialmente, en epidemiología.
Hill (1992) enumera nueve pautas que han de considerarse en estudios epidemiológicos y
cuya corroboración incrementaría la convicción de que cierta relación observada es de
naturaleza causal.

Se parte de que se ha observado una asociación claramente definida entre dos fenómenos
dinámicos, representados por medio de sendas variables X e Y, y que se ha descartado la
posibilidad de que dicha asociación sea exclusivamente atribuible al azar60. La asociación
registrada entre una variable X y otra Y puede deberse, además de al azar, a la presencia de
errores sistemáticos en la medición (sesgos) o a la distorsión introducida por los llamados
factores de confusión61.

Los nueve rasgos de tal asociación que este autor identifica como elementos que aumentan
su valor en tanto indicio de causalidad, son: intensidad, consistencia, especificidad, gradiente
dosis-respuesta, coherencia, fundamento experimental, analogía y adecuada secuencia
temporal. El papel de las primeras ocho pautas es, precisamente, consolidar la idea de que
no resulta aceptable ninguna de aquellas tres posibles explicaciones (azar, sesgos,
confusión). En tal caso solo quedan, formalmente, dos alternativas: X es causa de Y, o Y es
causa de X. Para poder inclinarnos por una de ellas, hay que atender a la precedencia
temporal que guarden los datos, la última de las premisas de Hill. Nos concentraremos
entonces en ella, la única que nada tiene que ver con aspectos teóricos. Es la más obvia, la
menos discutible (ya que es condición sine qua non) y, quizás por eso mismo,
lamentablemente, una de las menos contempladas.

Más formalmente, se trata de la pauta basada en que la acción de un agente causal siempre
precede al efecto: "Para que una modificación en cierta condición X pueda considerarse
responsable de los cambios que se producen en otra condición Y, es imprescindible que X
haya actuado antes de que Y se haya modificado". Toda hipótesis de causalidad involucra a
un efecto y a una presunta causa; lo que plantea dicho postulado (y esto es lo relevante) es
que, para considerar empíricamente avalado el hecho de que la supuesta causa produce tal
efecto, los acontecimientos han de haberse observado de suerte que haya certeza acerca de
que la precedencia temporal con que se generaron los datos sea compatible con la
afirmación causal que se valora.

60
Ese es -exacta y únicamente- el papel que desempeñan las
pruebas de hipótesis: si la asociación es significativamente
diferente de 0, entonces puede afirmarse con escaso margen de
error que la relación entre X y Y no se ha observado por mera
casualidad.
61
Variables que se relacionan tanto con X con Y y cumplen la condición
de no ser un estadio intermedio en la secuencia causal entre
la exposición y el efecto.
L.C.Silva

Subrayo nuevamente que en este caso no nos referimos a una condición cuyo cumplimiento
aumente la convicción de que la hipótesis sea cierta; es mucho más que eso: se trata de una
premisa metodológicamente imprescindible. Tal condición, a la que denominaremos premisa
de precedencia temporal (PPT), está directamente vinculada al diseño del estudio, ya que es
éste el que puede (y debe) garantizar la validez de aquella.

Los estudios prospectivos, en los cuales, como su nombre indica, los hechos supuestamente
se miden o registran en el mismo orden temporal en que se producen, se prestan a menos
suspicacias en cuanto a que se haya cumplido o no la PPT. De hecho, en el caso particular
de los estudios experimentales no existe siquiera este peligro; en los observacionales de
cohorte, dado que la observación comienza cuando aún no se han producido los desenlaces
que se están considerando, tal riesgo está casi siempre conjurado62 por el propio diseño.

Los estudios transversales y retrospectivos, en los cuales solo puede intentarse la


reconstrucción histórica de los acontecimientos, son, en cambio, altamente vulnerables al no
cumplimiento de la PPT. En este tipo de estudios, con más frecuencia que la deseada
(Silva, y Benavides, 1999), se soslaya toda consideración sobre esta premisa, o
directamente se actúa sin reparar en que no ha sido satisfecha. Aunque existen trabajos que
advierten la necesidad de eludir esta falacia (véanse, por ejemplo, Susser, 1973 y Gray y
Kramer, 1988), se trata de un error frecuente, poco enfatizado, escasamente ilustrado, que
asume diferentes formas, y cuyos efectos han sido poco estudiados.

10.2.2 ¿Computar o no computar asociaciones en estudios transversales?

La problemática tratada en la sección precedente desde la perspectiva que nos interesa, nos
lleva a la constatación de que, ante la tentación natural de calcular asociaciones entre
variables, en el caso de los estudios considerados "transversales", coexisten tres puntos de
vista:

(a) hacer el cálculo en cuestión sin el menor reparo

(b) negar taxativa y terminantemente el "derecho" a realizar cruzamientos (y por tanto a


computar indicadores que miden asociación, tales como riesgos relativos u odds
ratios) con el argumento de que, en un estudio transversal, tal maniobra es ilegítima

(c) admitir que, si bien tales estudios no permiten sacar conclusiones causales,
consienten al menos la medición de asociaciones como un recurso que se emplea
sin más pretensiones que complementar o enriquecer la descripción

La primera opción es claramente errónea y es responsable de la mayor cantidad de los


errores. En cuanto a las dos últimas, tal y como están formuladas, cabe decir que tanto una
como otra originan confusión; ambos principios son, por razones diferentes, cuestionables.
Para fundamentarlo, consideremos la situación detenidamente.

62
El asunto es suficientemente insidioso como para que, incluso en
tal caso, pueda producirse, el problema (véase Silva, 1997)
L.C.Silva

En el primero de esos dos casos, la "prohibición" que suele esgrimirse es la siguiente: siendo
el estudio transversal, ¿cómo puede soslayarse un principio como el de la PPT (véase
Sección 10.2.1), que tal tipo de estudios es intrínsecamente incapaz de garantizar?

Procede dejar sentado, en primer lugar, que si bien la descripción no constituye un


procedimiento explicativo per se, es, sin embargo, una forma legítima de investigación
biomédica y constituye un pilar básico de cualquier otra expresión. No en balde, Greenland
(1990) llega a afirmar que "la primera tarea del epidemiólogo es descriptiva". Pero ese
argumento es netamente irrelevante a los efectos que nos ocupan.

Lo crucial ahora es distinguir nítidamente entre dos conceptos que suelen manejarse como
si fueran idénticos aunque distan de serlo: investigación descriptiva e investigación
transversal. Mientras la primera clasificación alude al propósito del estudio, la segunda
concierne al marco metodológico en que se verifica. La confusión se ha originado en la
ambivalencia del adjetivo "transversal", el cual tiene dos acepciones radicalmente diferentes:
por una parte, sirve para indicar que los datos se toman temporalmente en un único "corte"
indagatorio (por oposición a aquellos en que los datos se van recopilando en la medida que
acaecen los hechos de los que proceden); y por otra, para aludir al hecho de que la
información concierne a lo que está ocurriendo ahora (lo que rige en el momento en que se
verifica el interrogatorio o la medición).

Veremos más abajo que si lo que se ha hecho es estrictamente esto último, la estimación de
medidas de asociación nunca tiene sentido claro; cuando el estudio es "transversal" en el
sentido de la primera acepción, sin embargo, sí puede tenerlo.

Para fijar ideas imaginemos que se valora el posible efecto del consumo de golosinas sobre
la obesidad infantil; o sea, que se quiere cuantificar en qué grado ese consumo constituye un
factor de riesgo (concepto que, dicho sea de paso, en su sentido epidemiológico ha dado
lugar a una vasta producción teórica y práctica, pero también a no pocas confusiones y
falacias63; véanse Silva, 1997b y García, 1999).

63
Piédrola et al (1990) definen un factor de riesgo como aquel
"factor endógeno o exógeno, que puede ser controlado, precede al
comienzo de la enfermedad, está asociado a un incremento de la
probabilidad de incidencia de una enfermedad y tiene respon-
sabilidad en su producción".
L.C.Silva

Supongamos que se realiza un estudio con ese fin en 1999 y que se interroga a todos los
niños de una muestra (tanto a quienes en el momento de la encuesta padecen de obesidad
como a los que en dicho momento están libres de la dolencia); y supongamos que se
recogen ciertos datos, tales como si en la actualidad consumen regularmente golosinas, o si
practican ejercicios. Estos datos pueden ser útiles para estimar la prevalencia de obesidad o
el monto en que se consumen golosinas, pero no permiten evaluar el posible efecto causal,
por ejemplo, del consumo de golosinas sobre el desarrollo de la enfermedad, pues lo que
realmente interesaría conocer no ha sido registrado. Si el sujeto las consume en estos
momentos carece de todo interés; lo que verdaderamente importa es si lo hacía o no antes
de cierto momento para el cual se sabe (o se puede legítimamente suponer) que ninguno de
los interrogados tenía la enfermedad. Si durante la entrevista se pregunta a obesos y a no
obesos si comían regularmente chocolates en 1994 (cinco años antes) y se eliminan del
análisis a aquellos individuos que eran obesos en aquella época, entonces sí podría hacerse
dicha valoración, independientemente de que el estudio sea "transversal". De hecho, a los
efectos que interesan, no lo es.

Tal inadvertencia, llamativamente frecuente, es sumamente insidiosa. Cuando se desdeña


este "detalle", se pierde la lógica del estudio y se arruina cualquier interpretación potencial de
sus resultados. Ello puede ser catastrófico, aunque muchos investigadores no lo tomen en
cuenta, o lo consideren como un problema menor que se resuelve consignando en la
discusión que fue una "limitación" del estudio.

Un ejemplo como el que sigue ilustra situaciones frecuentes de este tipo. Consideremos las
variables insatisfacción laboral y estrés, y contemplemos el planteamiento de una pregunta
tal como si hay asociación entre ambas condiciones. Si lo que se hace es determinar la
situación vigente para ambas cuestiones, entonces la asociación que se mida tendrá un
sentido inexorablemente borroso. Obviamente, "malas" condiciones de trabajo pueden
contribuir al deterioro de la estabilidad emocional y traducirse en altos niveles de estrés.
Pero también ocurrirá que algunos sujetos estresados experimentarán insatisfacción laboral -
incluso en un entorno de trabajo favorable- como consecuencia exclusiva de su estado
emocional. Cada factor puede ser causa contribuyente o retroalimentadora del otro, de
modo que una pregunta neutra sobre la existencia de asociación suele no conducir a
ninguna parte.

El acto de investigación podría servir para examinar, o bien el efecto del primer factor sobre
el segundo, o bien el del segundo sobre el primero (e incluso, ocasionalmente, ambos
efectos), pero ello exige un diseño que contemple la observación de los hechos de manera
que el orden temporal en que ellos ocurren quede debidamente registrado, de suerte que la
PPT pueda ser debidamente considerada. Cuando el "diseño" no es otra cosa que la
selección de una "muestra representativa", entonces o bien no se dispone de información
temporal alguna (y por tanto el análisis no procede), o bien la información necesaria acerca
del orden en que ocurrieron los hechos puede establecerse gracias al modo en que se
formulan las preguntas, en cuyo caso sí pudiera ser adecuado.

El tercer posicionamiento arriba consignado consistía en computar medidas de asociación,


pero aclarando que se hace sin pretensiones de que arrojar luz en materia de causalidad.
L.C.Silva

Esta alternativa para dar "solución" al problema está ciertamente preñada de ingenuidad:
consiste en curarse en salud mediante el subterfugio de comunicar que "solo se quiere cuan-
tificar la asociación entre X y Y", como si las palabras pudieran dar un salvoconducto, y como
si medir la asociación pudiera tener un interés intrínseco (lo cual es absurdo, puesto que no
solo éste, sino ningún procedimiento puede ser un fin en sí mismo); como si tal
cuantificación, en fin, tuviera algún sentido cuando no se inserta en el contexto de una con-
jetura causal.

A nadie se le ocurriría investigar, por ejemplo, si hay asociación entre tiempo de estadía
hospitalaria de un sujeto ingresado y el color de la vivienda de dicho paciente. ¿A qué se
debe? Simplemente, a que siempre que se mide una asociación es porque se tiene una
sospecha fundamentada, aunque sea subconsciente, de que tal medición pudiera brindar
una prueba de causalidad o, por lo menos, ser indicio de ella. El mero acto de cuantificación
de una asociación (sea a través de coeficientes de correlación, diferencias de porcentajes,
odds ratios o de cualquier otro medio) entraña, implícita o explícitamente, un afán explicativo
puesto que dimana, necesariamente, de una sospecha razonable en esa dirección.
Está muy extendido el temor a admitir explícita y claramente que se quiere "probar que X
influye en Y" o "evaluar el grado en que X puede considerarse una causa de Y".
Parcialmente, ello se debe a la dificultad que supone la tarea de evaluar causalidad, a la mul-
titud de sesgos que se pueden cometer, así como al temor que genera el compromiso que
siempre se contrae cuando se anuncia que lo que se busca es una explicación. De ahí que,
aun cuando se proceda a calcular medidas de asociación, algunos investigadores se
apresuren a dejar claro que no tienen intenciones explicativas. Lo que pasa es que tal
declaración es en el fondo falsa pues, si no las tuvieran, carecería de todo sentido llevar
adelante tal maniobra computacional. El asunto no se resuelve, por tanto, declarando una u
otra intención, sino asegurándose de que el cómputo es interpretable siempre que se haga.

En síntesis:

a) Si se generan "cruzamientos" o se calculan medidas de asociación, es


necesariamente porque se piensa en términos causales, independientemente de que
se procure enmascararlo proclamando otra cosa.

b) Si el estudio es "epidemiológicamente transversal" (se registra el status quo


prevaleciente al margen de la temporalidad), entonces realizar esta acción es un
acto, cuando menos, estéril, y con frecuencia pernicioso.

10.2.3 Una ilustración detallada

Con el fin de consolidar las ideas precedentes, consideremos más detalladamente el mismo
ejemplo ya esbozado. Supongamos que en el año 2000 se ha seleccionado una muestra de
n = 500 138 niños de 10 años, representativa de una comunidad donde la prevalencia de
obesidad en esa edad es, aproximadamente, del 10 %; admitamos que la muestra contiene
450 niños "normales" y 50 obesos, y supongamos que se formulan dos preguntas de
naturaleza dicotómica (la respuesta es SI o NO) a las madres de estos 500 niños. A saber:

1. ¿Come su hijo golosinas regularmente?

2. ¿Era el padre del niño obeso en el momento del nacimiento?


L.C.Silva

Al procesar los resultados que se derivan de la primera pregunta, se obtiene la Tabla 10.1.
Cualquier examen que se haga de la tabla conduciría en principio a la conclusión de que la
asociación entre obesidad y consumo es negativa; es decir, tiende a ocurrir que quienes no
consumen son obesos y viceversa. En efecto, el porcentaje de obesos entre consumidores
(2,4 %) es casi 20 veces menor que entre no consumidores (44,4 %). El odds ratio es
muchísimo menor que la unidad:
10 . 50
= = 0.03
40 . 400
L.C.Silva

Pero el asunto es que ninguna de estas valoraciones permite arribar a conclusión alguna.

Tabla 10.1 Distribución de la muestra según se trate o no de obesos y según


consumo de golosinas (año 2000)

NIÑO OBESO

SI NO Total

CONSUME SI 10 400 410


GOLOSINAS
NO 40 50 90

Total 50 450 500

La clave del problema radica en que la pregunta no tiene en cuenta el orden en que
aparecieron los acontecimientos que se registran; de hecho, es imposible establecerlo.
Todas las alternativas son posibles (obesos que consumían golosinas antes de serlo, no
obesos que dejaron de serlo cuando abandonaron el consumo, obesos que dejaron de
consumir golosinas precisamente por estar enfermos, etc). Lo que no es posible es
determinar cuál de esas alternativas correspondió a cada sujeto de la muestra. Imaginemos
que tenemos una máquina del tiempo y que retrocedemos 6 años. Descubrimos que estos
500 niños (todos de cuatro años) eran entonces normopesos, pero que 100 de ellos eran
consumidores regulares de golosinas en tanto que los restantes 400 no lo eran. Con el paso
del tiempo, digamos, a los dos años, 40 de los primeros desarrollan obesidad, al igual que 10
de los no consumidores, sin que se modificara esencialmente el patrón de consumo.

En ese punto un corte transversal hubiera producido la Tabla 10.2. Las tasas de incidencia
son, entonces, de 40,0% y 2,5% respectivamente, indicio de una intensa asociación positiva.

Tabla 10.2 Distribución de la muestra según se trate o no de obesos y según


consumo de golosinas (año 1998).

NIÑO OBESO

SI NO Total

CONSUME SI 40 60 100
GOLOSINAS
NO 10 390 400

Total 50 450 500


L.C.Silva

Supongamos que en esa etapa hay una gran ofensiva publicitaria a favor del consumo de
golosinas entre escolares, con la que se consigue que 340 de los 390 que no consumían ni
eran obesos pasen a consumir; paralelamente, 30 de los 40 obesos consumidores
abandonan el hábito por prescripción médica de modo que se llega a la situación actual
(Tabla 10.1). La falacia implícita en el hecho de no reparar en la temporalidad cuando se
analiza dicha Tabla 10.1 es obvia.

El problema es típico de las situaciones en las que aparecen involucradas las enfermedades
crónicas: el conocimiento de lo que ocurrió antes de su comienzo puede ser muy difícil (o
imposible), debido a la dificultad (o imposibilidad) para identificar el momento en que
comenzó el trastorno.

Supongamos ahora que en relación con la obesidad del padre se obtienen los resultados
recogidos en la Tabla 10.3.

Tabla 10.3 Distribución de la muestra según fuese o no obeso el padre en el


momento del nacimiento del niño.

NIÑO OBESO

SI NO Total

PADRE SI 30 50 80
OBESO
NO 20 400 420

Total 50 450 500

La Tabla 10.3 permite apreciar una intensa asociación positiva entre ambas condiciones
morbosas (padece obesidad el 38 % de los niños de padres que eran obesos, y solo el 5 %
de aquellos cuyos padres no lo eran). En este caso, sin embargo, a partir de los resultados,
sí puede prosperarse cualitativa y conceptualmente. Que fuera o no obeso es una condición
del padre anterior a la situación que pueda tener su hijo ahora, de modo que la asociación
tiene, al menos en principio64, una interpretación razonable en términos causales.

10.2.4 Consideraciones finales

64
Naturalmente, no me detengo en el examen del efecto de posibles
factores confusores ni en otras consideraciones metodologicamente
imprescindibles para el examen de relaciones cuasales, además de
las que nos ocupan.
L.C.Silva

Como resumen de toda la discusión anterior, cabe concluir lo siguiente: Cuando se ha


seleccionado una muestra de cierta población y se han indagado ciertas características de
sus elementos, la interpretación de los “cruzamientos” entre variables se supedita a que se
haya contemplado la temporalidad de los datos registrados, ya sea en el diseño del estudio o
en el de las preguntas. No hay reglas generales para establecer en qué caso estamos. Tales
cruzamientos pueden ser fructuosos o pueden estar condenados a no tener sentido alguno,
pero ello nunca dependerá exclusivamente de etiquetas tales como “transversal”,
“longitudinal” que se le apliquen a los estudios.

10.3 Tamaño de muestra en estudios clínicos y de epidemiología analítica

Una necesidad harto frecuente entre investigadores de la clínica y la epidemiología consiste


en la determinación de los tamaños muestrales necesarios para los grupos que serán objeto
de comparación. Esta es una demanda formal de los financiadores, y también una obvia
necesidad práctica de los autores. Hay dos alternativas fundamentales: resolverlo a través
de fórmulas matemáticas, o tomar la decisión por medios más informales. En este capítulo
nos circunscribiremos a exponer e ilustrar el caso en que se opta por un procedimiento
matemático formal.

Entre muchas variantes, consideremos un ejemplo típico: se quiere discutir la hipótesis que
afirma que dos porcentajes 1 y  2 son iguales, con la hipótesis alternativa de que son
diferentes. Imaginemos que se trata de un ensayo clínico en que 1 es la tasa de
recuperación de pacientes que reciben un tratamiento convencional, y  2 la de los que
reciben uno experimental.

El problema consiste en determinar el tamaño de muestra mínimo n con que debe


conformarse cada grupo (el mismo para ambos), de modo que la prueba estadística con que
se va a valorar la hipótesis sea capaz de detectar como significativa (no atribuible al azar)
una diferencia mínima prefijada entre 1 y  2 . La fórmula correspondiente65 es la siguiente:

2
  2 * (1 - * ) + Z 1 -  
 Z1- 2 P1(1 - 1 ) + P 2 (1 -  2 ) 
n=  2
 10.1
( 1 -  2 )

donde  y  representan las probabilidades máximas admisibles de cometer,


respectivamente, los errores de tipo I (rechazar indebidamente la hipótesis nula) y de tipo II
(no rechazarla a pesar de ser falsa), y donde * =
1 +  2 .
2

65
Debo advertir que ésta es una de las múltiples situaciones
posibles (aunque, talvez, también una de las más
frecuentes). Incluso para esta misma situación, sin
embargo, existen otros enfoques.
L.C.Silva

En esta situación el investigador ha de prefijar  (por ejemplo, puede elegirse el sacralizado


 = 0.05 ) y  (se toma con frecuencia  = 0.2 ). Supongamos que 1 es conocido en la
práctica clínica y que asciende a 60 % ( 1 = 0.6 ), así como que la diferencia se considerará
"clínicamente relevante" si la tasa de recuperación se eleva, desde ese supuesto 60 %, por
lo menos, hasta 70 % ( 2 = 0.7 ). En tal caso la aplicación de [10.1] arrojaría n  745 .

Lo que se ha expuesto aquí es sólo un ejemplo que ilustra el modo en que teóricamente
habría que conducirse; no nos interesa reproducir aquí un recetario, no sólo por el
resquemor que nos producen las recetas (véase Sección 12.3), sino porque para ello ya
tenemos el libro de Lemeshow, Hosmer, Klar y Lwanga (1990), el cual incluye además un
conjunto de tablas que relevarían al usuario de aplicar por sí mismos las fórmulas.
Adicionalmente, existen diversos programas computacionales que ofrecen solución a éste y
a problemas similares (véase Sección 11.1), de modo que tales tablas son, incluso,
prácticamente innecesarias.

10.4 Selección de casos y controles

Los estudios de casos y controles constituyen un recurso metodológico de notable


prominencia en la investigación biomédica contemporánea; de ahí la conveniencia de
comentar algunos aspectos relevantes en relación con las muestras en que se basan.

La selección de la muestra en estos estudios es a menudo problemática y presenta rasgos y


exigencias específicas que han de considerarse con rigor para dar validez al estudio.

La definición de caso es particularmente importante para tomar decisiones en materia de


selección, tanto para elegir los propios casos como para definir y seleccionar los controles.
Resulta crucial delimitar muy cuidadosamente qué es un caso; solo entonces procede iden-
tificarlo operacionalmente con vistas a la selección real.

Lasky y Stolley (1994) ponen como ejemplo la definición conceptual del VIH (una persona
para la cual, en caso de que se le aplicara la prueba del VIH, se obtendría un resultado
positivo), frente a una definición operacional (personas a las cuales, habiéndoseles
practicado la prueba, se les declaró VIH positivas). Aquellos factores que influyan en la
decisión de realizar la prueba, así como sus características intrínsecas (sensibilidad y
especificidad), son los elementos que a la postre determinan quién se convierte
operacionalmente en un caso positivo. Según estos autores, mediante la comparación del
grupo definido conceptualmente con el definido operacionalmente, los investigadores serán
capaces de enumerar posibles sesgos de selección que pueden afectar el grupo final de
casos. Vale decir, el ejercicio de pensar en la posible brecha existente entre las definiciones
conceptual y operacional ayuda al investigador a reconocer sesgos potenciales y a idear
procedimientos para minimizarlos, o por lo menos estimarlos.
L.C.Silva

Resulta crucial que se actúe en función de que todos los casos verdaderos tengan la misma
probabilidad de quedar incluidos en el estudio, pero también de que entre los casos no se
introduzcan sujetos que no lo son. Típicamente, sin embargo, el requerimiento de
equiprobabilidad no se lleva adelante de manera formal (en el sentido de aplicar el azar a un
listado de candidatos). Los casos pudieran ser, por ejemplo, todos los niños ingresados con
leucemia durante cierto número de años en los hospitales de una región; lo que se requiere
es que tal muestra sea "representativa" del conjunto genérico de "niños leucémicos" y el
esfuerzo debe orientarse en dirección a evitar que determinados niños tengan, sea por
razones administrativas, criterios de ingreso u otras, menor oportunidad que otros de ser
incluidos. De modo que en una situación como la mencionada, lo que está en juego es si
ese conjunto de hospitales y los niños que ingresan en ellos aportan una muestra que pueda
considerarse "representativa".

El tema de la selección de controles ha generado una enconada discusión en la literatura


epidemiológica (Véanse Feinstein y Horwitz, 1983, Pearce y Checkoway, 1988 y
Wacholder, McLaughlin, Silverman y col, 1992). Esta elección se subordina en buena
medida a la definición de caso, ya que los controles deben provenir de la misma población
que estaba en riesgo de padecer la enfermedad. El principio es intuitivamente aceptable.
Los niños, por poner un ejemplo obvio, son inaceptables como controles en un estudio sobre
el efecto del hábito de fumar que procura evaluar la demencia senil, puesto que si bien ellos
cumplen con la condición central (no tener demencia senil), tampoco están en riesgo de
tener la condición presuntamente generadora de la enfermedad (hábito de fumar). En la
mayoría de los casos, sin embargo, este debate en mucho más sutil. Cuando los casos
provienen de un centro asistencial que los ha detectado como tales, a veces ocurre que es
precisamente la presencia del factor cuyo efecto se quiere estudiar la responsable de que el
sujeto haya acudido, y por ende los portadores del factor tienen a priori más oportunidad de
convertirse en casos.

Entre las fuentes más comunes para conseguir controles están los pacientes de hospitales o
clínicas, las listas de certificados de defunción, los registros de morbilidad, amigos, familiares
o vecinos de los casos, y la "población general". En lo que parece haber claro consenso es
en cuanto a que la teoría formal de diseños muestrales tiene escasa incidencia en este tipo
de estudios.

Otro aspecto de interés se relaciona con los tamaños muestrales; en esa materia, el
contenido de la Sección 10.3 es esencialmente válido aquí. Una particularidad radica en
tomar más de un control por caso. Gail, Williams, Byar y col (1976) demuestran que,
cuando el número de casos es limitado, un aumento en el grupo de controles (varios
controles por cada caso) aumentará la potencia del estudio.
El aumento en la razón de controles por caso produce ganancias en este sentido hasta que
se llega a una razón de 4 por 1; a partir de este punto, el incremento de la potencia es casi
siempre demasiado pequeño para compensar los gastos que supone. En cualquier caso,
aumentar la razón de controles por caso parece ser útil y factible solo cuando hay pocos
casos disponibles.

10.5 Análisis contextual


L.C.Silva

Los estudios ecológicos son aquellos en que las mediciones, tanto de factores con-
dicionantes como de daños, se verifican a nivel de grupos poblacionales y no al de los
sujetos que portan dichos factores o sufren los daños (Susser, 1998). Esta modalidad ha
sido crecientemente desdeñada y excluida de la investigación epidemiológica contem-
poránea. Como dato elocuente, repárese en que, por poner un ejemplo, a lo largo del bienio
1996-1997 el American Journal of Epidemiology publicó 999 artículos originales; solo 9 de
ellos eran de este tipo. Ello se debe en parte al temor que despierta la "falacia ecológica",
descrita por primera vez hace medio siglo por Robinson (1950): el hecho de que una
asociación que se produce entre grupos de sujetos pudiera no existir, o incluso tener signo
opuesto cuando las mismas variables se miden al nivel de los individuos (véase una
ilustración en Silva, 1997a). El riesgo de incurrir en tal falacia es real pero, ¿por qué dar por
sentado que, en el fondo, siempre se quiere elucidar el problema a nivel individual? Esta
premisa ha tomado una dimensión tal en nuestra mente, que ha conseguido obstaculizar que
centremos la discusión, precisamente, en un marco social.

Si en un estudio, por ejemplo, se demostrara que la presencia de niños con bajo peso al
nacer es más frecuente en las comunidades con altos índices de desempleo que en las que
lo tienen bajo, entonces la afirmación no puede trasladarse automáticamente al nivel de los
sujetos (es decir, tal vez no pueda concluirse que los hijos de los desempleados nazcan con
la condición de "bajo peso" con mayor frecuencia que los hijos de los que tienen un puesto
de trabajo regular), so pena de incurrir en la susodicha falacia ecológica. Pero lo importante
es que tal vez no haya ningún afán en hacer ese traslado; quizás el interés esté directamente
orientado a evaluar el efecto de ese indicador sobre todos los miembros de la comunidad,
tengan o no vinculación laboral remunerada. Consideraciones similares pueden hacerse
sobre los efectos de "variables ecológicas" tales como regulaciones jurídicas, formas de
organización laboral, valores religiosos predominantes o grado de desigualdad.

Pero el desdén hacia los estudios ecológicos también se debe, en buena medida, a prejui-
cios injustificados (Schwartz, 1984); tanto es así que estos estudios han llegado a
conceptualizarse sólo como sucedáneos -como un mal menor- de aquellos en que las
unidades de análisis son los individuos, a pesar de que, como recuerda Susser (1994),
constituyen una herramienta de la salud pública y la epidemiología, con su propio peso
específico, y con cuyo concurso se ha producido conocimiento enteramente vigente aún
después de muchos años.

Los rasgos contextuales pueden y suelen tener impactos globales sobre todos los sujetos
abarcados por ellos. Esto es así no sólo en el sentido en que operan condiciones
intrínsecamente ecológicas que, como la contaminación ambiental, no distinguen entre unos
y otros individuos y los afecta a todos en una u otra medida. También ocurre con rasgos
globales conformados a partir de características de los sujetos, tales como el porcentaje de
analfabetos en una comunidad, los cuales frecuentemente influyen sobre todos los
individuos, analfabetos o no.

Uno de los más arraigados y perniciosos prejuicios se concentra en el postulado de que las
condiciones grupales, asociadas a variables medidas a nivel de grupos, no representan
agentes causales de enfermedad. Esta corriente de pensamiento científico, coherente con la
insistente convocatoria actual al individualismo en muchas esferas de la vida (que en el
campo de la salud se concreta en la práctica de culpabilizar a la víctima, trasladar los costos
operativos de la asistencia a quien la recibe, y promover la privatización de los servicios),
tiene un importante componente ideológico.
L.C.Silva

Se ha perdido de vista incluso que cuando se mide un rasgo individual muchas veces se
está midiendo algo distinto que cuando se trata de ese mismo rasgo pero mirado a nivel
colectivo. Por ejemplo, el concepto de pobreza referido a un sujeto no es el mismo que el
que corresponde a la pobreza de la comunidad en la que él vive; tanto es así que quien
resida en una comunidad empobrecida, por ejemplo, se verá afectado por todos los condicio-
namientos globales derivados de esa pobreza (tales como violencia falta de higiene
comunal), independientemente de que su personal nivel económico sea más o sea menos
elevado.

Hasta la expresión "variable medida a nivel de grupo" es tendenciosa, pues parece descartar
a priori el posible interés hacia aquellas variables que solo pueden medirse a ese nivel por
ser intrínsecamente concernientes a una agrupación (Diez, 1998). Sin embargo, existen
importantes constructos que no tienen sentido a nivel individual, sino solo cuando se trata de
un colectivo. Por poner un ejemplo, cualquier médico de familia sabe que un individuo que
vive en una "familia desestructurada", en cuyo seno se verifican tensiones graves, suele no
ser un individuo sano en el sentido amplio del concepto, incluso aunque entendiéramos la
enfermedad solo como mera desviación de la fisiología normal del sujeto. El ejemplo ilustra
el posible papel etiológico de un rasgo grupal, así como que tal rasgo (desestructuración
familiar, en este caso) solo tiene sentido para el colectivo y nunca para sus integrantes como
entes aislados.

Quizás la más emblemática declaración que refleja hasta dónde ha llegado la esterilizante
contracción de la epidemiología al nivel individual de análisis sea la que hizo Rothman
(1986) cuando escribió que "la clase social no se relaciona causalmente con ninguna o casi
ninguna enfermedad". Para dar solo un elemento persuasivo en dirección contraria,
bastaría detenerse en algunos de los numerosos trabajos que ponen en evidencia la notable
persistencia a lo largo de decenas de años de una marcada declive de la esperanza de vida
y de otros indicadores de salud entre estratos socioeconómicos (véase Syme, 1989).

En síntesis, puesto que la búsqueda de factores etiológicos ubicados al nivel del individuo ha
resultado ser tan poco fructuosa (Silva, 1997b), y dado que no quedan dudas de que existen
factores colectivos cuyo valor etiológico puede ser crucial, eludir el examen de los problemas
en su dimensión socio-epidemiológica resulta absurdo. Ha de reconocerse que estas
nuevas líneas de pensamiento aún esperan por aportes operativos más concretos, pero ya
se aprecian resultados interesantes en esta dirección (véanse por ejemplo Evans, Morris y
Marmor, 1994 y Wilkinson, 1996).

Tras estas consideraciones teóricas, lo que importa destacar es que las técnicas muestrales
clásicas se concentran en la selección de sujetos y no de grupos (salvo, como paso
intermedio, para seleccionar los sujetos de su seno); pero, de hecho, tales procedimientos se
pueden aplicar análogamente para diversos niveles de agregados. Los métodos estadísticos
integradores de variables medidas a diversos niveles de agregación (multilevel analysis y
modelos jerárquicos) parten del supuesto de MSA y aún reclaman un marco teórico sólido
para el caso de los diseños muestrales formales.

10.6 Asignación aleatoria

Como es bien conocido, la metodología de los ensayos clínicos controlados reposa sobre
dos pilares fundamentales: el enmascaramiento de los tratamientos y la asignación aleatoria
de los sujetos a las distintas alternativas terapéuticas consideradas.
L.C.Silva

El primero de estos recursos no es de índole estadística, sino estructural: concierne al hecho


de que los pacientes involucrados no conozcan cuál de los tratamientos en juego es el que le
ha correspondido (Hulley y Cummings, 1988). Cuando esto se consigue, se dice que el
estudio es "ciego". Variantes más sofisticadas involucran otros niveles de enmascaramiento:
si quienes evalúan los resultados también ignoran el tratamiento que corresponde a cada
paciente, el estudio es "doble ciego"; y si otro tanto ocurre, además, con los que administran
el tratamiento (los propios terapeutas), se dice que es "triple ciego".

Sin embargo, lo que se relaciona directamente con el muestreo es la tarea de asignar los
sujetos a los grupos experimentales. Supongamos que se planifica un ensayo clínico para
evaluar la eficacia de la homeopatía en la curación de cierto tipo de conjuntivitis, y que se
compararan tres tratamientos: remedio homeopático (A), agua destilada (B) y un colirio
convencional (C). Supongamos que se ha decidido aplicar cada uno de ellos a 50
pacientes. Asumamos que es entonces necesario distribuir aleatoriamente a cada uno de
los próximos 150 portadores de esa forma de conjuntivitis que acudan a la consulta a uno de
los tres tratamientos, y hacerlo de modo que queden 50 en cada cual.

Aplicar una asignación aleatoria a los tres grupos en las condiciones mencionadas no es otra
cosa que lo siguiente: primero, sacar una muestra simple aleatoria de tamaño 50 de dicho
listado y asignarle el tratamiento A a sus integrantes; luego obtener otra muestra simple
aleatoria de 50 entre los 100 que restan y asignar el tratamiento B a éstos, y finalmente
ubicar en el C a los 50 pacientes no elegidos hasta entonces.

El procedimiento es algo engorroso, aun contando con un programa informático que realice
una selección simple aleatoria dentro de un listado. En efecto, después de seleccionar el
primer grupo de 50 habría que renumerar del 1 al 100 a los sujetos no elegidos, y aplicar
entonces por segunda vez el programa. Por eso es conveniente contar con programas ad
hoc para realizar la asignación, aunque lo que tales programas hacen en esencia es aplicar
sucesivamente el MSA. Para obtener información sobre programas informáticos que
solucionan esta tarea, véase la Sección 11.1.

Debe aclararse, sin embargo, que hemos descrito una situación ideal, no necesariamente
acorde con las circunstancias o restricciones reales. Ocasionalmente no se puede delimitar
de antemano con exactitud cuántos pacientes quedarán en el estudio. Eso ocurre, por
ejemplo, si en lugar de precisar el número de individuos que quedarán incluidos, lo que se
fija es un lapso durante el cual se irán incorporando pacientes al ensayo. Puesto que es
conveniente que cuando se haga el análisis, los grupos tengan tamaños similares entre sí,
una manera de ayudar a conseguirlo consiste en asignar los pacientes del modo siguiente:
imaginemos que se trata de k tratamientos y que en determinado momento se han asignado
m1 , m 2 , ..., m k sujetos respectivamente.

k 1 - mi
Llamemos m =  mi . El sujeto m + 1 se asigna al grupo i con probabilidad Pi = m ; es
i=1 k - 1
decir, con probabilidad variable, más concretamente, menor cuanto mayor sea el número de
sujetos ya asignados a dicho grupo hasta ese momento. De ese modo, la asignación va
prosperando "equilibradamente". El programa de asignación aleatoria a tratamientos que se
incluye dentro de SIGESMU (véase la Sección 11.5.4), contempla esta posibilidad.
L.C.Silva

CAPITULO 11. RECURSOS COMPUTACIONALES PARA EL TRATAMIENTO DE


DATOS MUESTRALES

En este capítulo se pasa revista a las más importantes aplicaciones informáticas disponibles
que se relacionan con los procesos de selección de muestras en poblaciones finitas y con la
estimación de parámetros y el manejo de problemas inferenciales en ese contexto. La
información aquí contenida corre el riesgo evidente de envejecer rápidamente, habida cuenta
de la vertiginosa renovación de recursos computacionales de que disfrutamos (y que
padecemos) desde hace ya varios años.

Siempre he defendido el punto de vista según el cual el dominio de los recursos informáticos
debe adquirirse de manera esencialmente autodidacta y, en particular, mediante el proceso
de "hurgar" individualmente dentro de los programas para comprenderlos. Por lo general es
recomendable prescindir de cursos y con bastante frecuencia resulta posible desentenderse,
incluso, de manuales detallados (Silva, 1997). Por esa razón, el contenido subsiguiente se
circunscribe casi enteramente66 a reseñar los recursos disponibles sin explicar en detalle
cómo explotarlos.

11.1 Programas para determinar tamaños muestrales

Existen varios programas para establecer el tamaño muestral adecuado para un estudio.
Casi todos se reducen, sin embargo, al caso del MSA (para problemas de estimación) y a la
determinación de tamaños de dos grupos cuyos resultados habrán de compararse (en
problemas analíticos simples). Estas dos situaciones, claramente distintas entre sí, se
manejan mediante enfoques también diferentes. Algunos paquetes, como por ejemplo, dos
módulos de EPIINFO: (STATCALC y EPITABLE) y, especialmente, el sistema EPIDAT
(Vázquez y col., 1997), contienen soluciones de ese tipo. En EPIDAT se recogen muchas
de los procedimientos descritos y tabulados en el libro ya mencionado anteriormente y
destinado exclusivamente al tema (Lwanga y Lemeshow, 1991). Otro programa (Study
Design Pack) que contiene diversos recursos para el diseño, el que nos ocupa entre ellos, ha
sido divulgado por el laboratorio Glaxo Wellcome. Puesto que las mencionadas aplicaciones
informáticas son sumamente "amigables" y, por otra parte, dado que considero que la
solución algorítmica de este importante asunto es intrínsecamente cuestionable (véanse
Secciones 10.3 y 12.3), no me extenderé más en este punto.

11.2 Tratamiento de datos en una muestra simple aleatoria

Como se explicó en el capítulo precedente, la teoría estadística clásica se ha desarrollado


durante varias décadas partiendo del supuesto de que la muestra disponible es simple
aleatoria. Consecuentemente, con el desarrollo de los nuevos microprocesadores, se
generó una copiosa producción de software vertebrado en torno a ese supuesto; en efecto, a
partir de los años 80 proliferaron los grandes paquetes con aplicaciones estadísticas (SPSS,
BMDP, EGRET, MINITAB, SYSTAT, SAS, S-PLUS y GLIM entre otros), los cuales no han
dejado desde entonces de desarrollarse cualitativa y cuantitativamente a través de versiones
sucesivas, aunque sin separarse nunca, en lo esencial, del supuesto en cuestión.

66
Se hace una cierta excepción en la Sección 11.4.1
L.C.Silva

Aparentemente, al menos cuando se trata de un MSA, la interfaz entre muestreo formal y


técnicas estadísticas clásicas quedó computacionalmente resuelta. Cabe advertir que, en
rigor, casi ninguna de estas aplicaciones informáticas incorpora los factores de corrección
que formalmente exigiría una muestra simple aleatoria obtenida de una población finita (es
decir, de un listado). Este, sin embargo, es un asunto de importancia marginal, pues los
resultados son virtualmente equivalentes, contémplese o no dicha corrección. De modo que
lo que realmente interesa examinar es el abanico de soluciones computacionales disponibles
cuando se han aplicado diseños muestrales de mayor complejidad, tales como los que se
han estudiado en los capítulos 5, 6, 7 y 8.

11.3 Diseños no equiprobabilísticos y empleo de ponderaciones

Cada uno de los diseños muestrales formales que hemos venido considerando es
susceptible de clasificación en alguno de los cuatro grupos que pueden formarse al cruzar
dos ejes: el que separa a los procedimientos según se manejen o no estratos en algún punto
del diseño, y el que concierne al empleo o no de conglomerados (independientemente del
número de etapas involucradas en caso afirmativo). La Tabla 11.1 recoge la ubicación de
cada uno de los siete diseños diferentes que se han abordado en este libro en las cuatro
celdas generadas por la combinación de posibilidades a que dan lugar estos dos ejes.

Tabla 11.1 Distribución de métodos de muestreo según empleen o no


estratificación y según usen o no etapas

EMPLEO DE ESTRATIFICACIÓN

NO SI

E * Simple aleatorio * Aleatorio


M NO estratificado
P E * Sistemático
L T
E A
O P
A
D S
E
* Monoetápico * Estratificado
SI polietápico
* Bietápico

* Multietápico

Tres de estos procedimientos son, por definición, equiprobabilísticos: el muestreo simple


aleatorio, el muestreo sistemático y el muestreo monoetápico67. Los restantes cuatro pueden
serlo o no, en dependencia de los recursos empleados para la selección y de los tamaños de
muestra elegidos para los estratos y las UPE.
67
En rigor, en cualquiera de los tres casos podrían haberse introdu-
cido modificaciones que los hubieran convertido en procedimientos
no equiprobabilísticos. Por ejemplo, se podría realizar un
L.C.Silva

Para los diseños no equiprobabilísticos, las más recientes versiones de algunos paquetes
estadísticos, como SPSS, han procurado mitigar el problema que nos ocupa (suponer MSA
sin que lo sea) mediante la incorporación de ponderaciones que permitan corregir los
resultados con acuerdo a la probabilidad de inclusión que hayan tenido los sujetos.

Concretamente, esto significa que se brinda la posibilidad siguiente: en lugar de operar con
los datos resultantes de las mediciones, los valores de xi , se ofrece la posibilidad de trabajar
con datos transformados, xi = xi  i , donde  i es un número positivo por cuyo conducto se
*

pondera el valor correspondiente al i-ésimo individuo. La ponderación natural consiste en


definir  i como el inverso de la probabilidad de selección  i correspondiente al i-ésimo
1
sujeto:  i = .
i

La lógica de este procedimiento estriba en que si cierto individuo I 1 tuvo mayor probabilidad
de inclusión (digamos, el doble) que otro I 2 , el grado de representación implícita que supone
la presencia de I 2 en la muestra es diferente al de I 1 ; en este ejemplo, I 1 "sobrerrep-
resenta" a los sujetos de su tipo. Consecuentemente, el "peso o influencia" de dicho sujeto
en el análisis debe ser menor (en este caso, la mitad) que el de aquél; es decir, debe
cumplirse que  1 =
 2 . Este recurso, si bien compensa los desequilibrios que afectan a la
2
muestra en materia de representatividad, no soluciona el hecho de que el método estadístico
maneja los datos como si fueran independientes, cuando es bien sabido que la estructura de
los diseños complejos introduce dependencias, a veces fuertes, entre los individuos de la
muestra68. Por esa razón se han desarrollado sistemas informáticos de estadística que
contemplan cabalmente esa eventual complejidad de los diseños, como se reseña en la
siguiente sección.

11.4 Programas para la estimación de errores en muestras complejas

En los últimos años se ha ido conformando una creciente producción de software


especializado para el manejo de procedimientos estadísticos asociados a muestras
procedentes de diseños complejos. A continuación se expone con cierto detalle el que a
juicio nuestro es más sencillo y "amistoso": el módulo CSAMPLE de la versión 6.0 EPIINIFO
para DOS69. Posteriormente se reseñan muy brevemente otros programas disponibles.

muestreo por conglomerados monoetápico tomando las UPE con probab-


ilidad proporcional a sus tamaños, o un muestreo directo de
unidades de análisis que, por ejemplo, forzara la presencia de
algunas de ellas y continuara con la aplicación de un MSA sobre el
resto. Sin embargo, tal y como los hemos estudiado, en los tres
casos se trata de diseños equiprobabilísticos.
68
Más concretamente, los sujetos de un mismo conglomerado se
parecen, típicamente, más entre sí que los que proceden de
conglomerados diferentes

69 En el momento en que este libro vea la luz, probablemente ya esté


disponible la versión de EPIINFO para WINDOWS (EPI2000). El tratamiento
que allí se da al tema que nos ocupa, no es muy diferente del que aquí
L.C.Silva

11.4.1 Módulo CSAMPLE de EPIINFO

EPIINFO es un sistema informático de distribución gratuita, subvencionado por la


Organización Mundial de la Salud (OMS) y desarrollado por el Centro de Control de
Enfermedades (CDC) de Estados Unidos. A diferencia de otros sistemas similares, al menos
en lo que concierne al procesamiento estadístico de datos, EPIINFO se ha caracterizado
hasta ahora por evitar en lo posible todo "maximalismo": ofrece sólo los recursos analíticos
fundamentales y exhibe un marcado afán de simplificar las cosas al investigador. En lugar
de atiborrarlo con posibilidades que muchas veces resultarán desconcertantes al usuario,
sobre todo cuando éste no conoce los recursos que se le ofrecen, en EPIINFO éstas se han
reducido a lo verdaderamente esencial. Además, en lugar de pedir frecuentemente al usuario
que opte entre varias alternativas, EPIINFO (especialmente en sus módulos STATCALC y
ANALISIS) suele proceder sin más a hacer los procesamientos esenciales, de manera que el
usuario luego escoge los resultados que considere relevantes o procedentes a los efectos
de su estudio.

A partir de la Versión 6.0, EPIINFO incorporó el módulo CSAMPLE, cuyo propósito exclusivo
es el cómputo de estimaciones puntuales y por intervalos de algunos parámetros en diseños
muestrales complejos.

El programa parte de que toda la información necesaria se halla en una base de datos que
contiene tantos registros como individuos tenga la muestra. En dicha base, además de las
variables sustantivas de interés para cada sujeto, tales como pudieran ser edad, talla,
número de hijos, etc, se incluyen, cuando procede, los tres campos necesarios a los efectos
de que CSAMPLE identifique la posición de dicha unidad dentro del diseño muestral
empleado (estrato al que pertenece, conglomerado en que se halla y ponderación que le
corresponde).

se explica en cuestiones de fondo. El usuario hallará, sin embargo,


diversas diferencias de forma o de procedimiento. Por ejemplo, la nueva
versión incluye la posibilidad de trabajar con ficheros de EXCEL y
ACCESS.

En el momento en que este libro vea la luz, probablemente ya esté


disponible la versión de EPIINFO para WINDOWS (EPI2000). El
tratamiento que allí se da al tema que nos ocupa, no es muy
diferente del que aquí se explica en cuestiones de fondo.
El usuario hallará, sin embargo, diversas diferencias de
forma o de procedimiento. Por ejemplo, la nueva versión
incluye la posibilidad de trabajar con ficheros de EXCEL y
ACCESS.
L.C.Silva

Cuando se invoca el programa, se presenta un cuadro de diálogo que solicita la identificación


de un fichero con extensión REC (el formato de los ficheros con que opera EPIINFO y que
se crean en otro de sus módulos70) que es el que ha de contener la información muestral
(con un número de records o registros igual al tamaño muestral, como ya se dijo). Una vez
cargado ese fichero, se presenta la siguiente pantalla:

¦+-[]---------- Epi Info CSAMPLE ---------------+¦¦


¦¦ Main _____ Strata _____ ¦¦¦
¦¦ ¦¦¦
¦¦ ¦¦¦
¦¦ PSU _____ Weight _____ ¦¦¦
¦¦ ¦¦¦
¦¦ ¦¦¦
¦¦ + Value 1 ¦¦¦
¦¦ Crosstab ____ ¦ ¦¦¦
¦¦ ----------¦ Value 2 ¦¦¦
¦¦ ¦ ¦¦¦
¦¦ Output options + ¦¦¦
¦¦ () Screen ¦¦¦
¦¦ ( ) Printer File name ¦¦¦
¦¦ ( ) File -------¦ +--------+ ¦¦¦
¦¦ +--------+ ¦¦¦
¦¦ ¦¦¦
¦¦ Tables _ ¦¦¦
¦¦ ¯¯¯¯¯¯¯¯¯¯ Cancel _ Sort _ ¦¦¦
¦¦ Means _ ¯¯¯¯¯¯¯¯¯¯ ¯¯¯¯¯¯¯¯ ¦¦¦
¦¦ ¯¯¯¯¯¯¯¯¯¯ ¦¦¦
¦+-----------------------------------------------+¦¦

A través del llenado de los cuatro primeros campos presentes en esta pantalla (Main, Strata,
PSU y Weight) se informa a CSAMPLE cuál es la variable con que se va a operar (en el
primero) y cuál el diseño muestral que se usó (en los otros tres).

El sistema exige que en el campo Main se consigne la variable del fichero cuya media o
distribución será objeto de estimación. Los campos Strata (estratos), PSU71 (unidades de
primera etapa) y Weight (ponderaciones) son opcionales; su función se reduce a informar a
CSAMPLE del diseño muestral que se aplicó y del cual se obtuvo la muestra cuyos
resultados se hallan en el fichero de trabajo.

70
Naturalmente, EPIINFO cuenta con posibilidades de importación que
permiten "traducir" al formato REC los ficheros originalmente con-
feccionados en otros sistemas, tales como hojas electrónicas o
bases de datos.
71
Primary Sampling Units
L.C.Silva

La regla fundamental para completar esta tarea es la siguiente: si uno de esos campos se
deja en blanco, significa que el elemento correspondiente no ha intervenido en el diseño. Así,
dejando el campo Strata en blanco se estaría indicando que en el diseño no se ha empleado
estratificación; si no se llena PSU, ello significa que no se han empleado etapas en el
proceso de selección y, finalmente, dejar el campo Weight sin rellenar, es el modo de
comunicar que el método muestral aplicado es equiprobabilístico.

Así, una vez que se mencione una variable en Main, si se dejaran las otras tres en blanco, el
programa entiende que se trata de una muestra simple aleatoria. Pero cuando cualquiera de
estas tres circunstancias se haya producido (estratificación, conglomeración o ausencia de
equiprobabilidad), hay que ocupar los espacios correspondientes con los nombres de
aquellos campos de la base de datos que contengan la información que corresponda.

Resumiendo, si el diseño no es MSA, entonces el modo en que se indica a CSAMPLE de


qué diseño se trata es, como ya se expuso, muy simple: basta llenar los campos Strata, PSU
y Weight según proceda. Para captar cuán sencillo es este proceso, remitámosnos a la
Tabla 11.1. Strata y PSU indican a qué celda de dicha tabla pertenece el diseño muestral
empleado. Weight (si procede) se llena solamente cuando el diseño no es equiprobabilístico;
en tal caso, ha de colocarse aquel campo de la base que contiene para cada sujeto el
inverso de su probabilidad de selección.

Por ejemplo, si la muestra se ha obtenido mediante muestreo aleatorio estratificado con


asignación proporcional, entonces los campos PSU y Weight deben quedar vacíos, ya que el
diseño no implicó uso de conglomerados y es equiprobabilístico, pero se colocará en Strata
el campo de la base que designa a qué estrato pertenece cada individuo. Si la muestra fuese
estratificada, pero no hubiese sido seleccionada con asignación proporcional, sino con otro
tipo de asignación muestral en los estratos, entonces el carácter no equiprobabilístico de la
muestra se debe informar explícitamente poniendo en Weight el nombre del campo donde se
han ubicado las ponderaciones que compensen dicha falta de equiprobabilidad.

La casilla Crosstab también es opcional; se usa sólo en caso de que se quiera hacer un tipo
especial de análisis, como se verá más adelante.

La siguiente información se emplea para comunicar la vía por la cual obtener las salidas; las
posibilidades son tres: Screen (pantalla), Printer (impresora) o File (archivo); si se opta por
esta última, entonces hay que declarar en File name un nombre que identifique el fichero de
texto donde se ubicarán los resultados del procedimiento.

Finalmente, hay dos órdenes de ejecución posibles: Tables y Means. La primera se reserva
sólo para el caso en que la variable original72 que se estudia sea nominal (u ordinal), tal
como sexo o religión, pero no de tipo continuo; Means puede usarse para variables
cuantitativas de cualquier tipo: discretas, como número de hijos, o continuas, tales como talla
o hemoglobina. Las singularidades inherentes a cada una de estas órdenes se verán de
inmediato a través de ejemplos.

72
En el archivo debe llevar un código numérico.
L.C.Silva

Debe advertirse que el fichero de trabajo exige que los records estén organizados de manera
que los códigos correspondientes a la variable usada para indicar los estratos aparezcan en
orden creciente; otro tanto debe ocurrir con el campo que identifica los PSU (la que indica a
qué unidad de primera etapa pertenece el record) dentro de cada uno de los estratos. No es
preciso que los códigos sean números naturales consecutivos, pero sí que respeten el
orden mencionado; si ello no ocurre en la base original, se puede accionar la orden Sort
para "preparar" la base antes de invocar una de las dos órdenes posibles. Esta indicación
no modifica el fichero de trabajo que se encuentra en el disco, sino solamente a su
representación en memoria.

Supongamos que la muestra tiene 1370 sujetos y que en Main se menciona una variable
dicotómica (códigos 0 y 1); cuando se da la orden Tables, CSAMPLE produce una tabla de
frecuencias para la variable en cuestión, que tiene en lo esencial el aspecto siguiente:

+-----------------------+
¦1 ¦ ¦
¦ Obs ¦ 283¦
¦ Percent V 20.657¦
¦ SE% ¦ 1.094¦
¦ LCL% ¦ 18.512¦
¦ UCL% ¦ 22.802¦
+-----------+-----------¦
¦0 ¦ ¦
¦ Obs ¦ 1087¦
¦ Percent V 79.343¦
¦ SE% ¦ 1.094¦
¦ LCL% ¦ 77.138¦
¦ UCL% ¦ 81.488¦
+-----------------------+
L.C.Silva

Percent da la estimación puntual de cada porcentaje; SE% es el error estándar de esta es-
timación (raíz cuadrada de la varianza); LCL es la sigla que identifica el límite inferior de
confianza (lower confidence limit) y UCL el superior (upper confidence limit). Si se dejaron
las tres condiciones en blanco, entonces en la salida aparecerán las siguientes tres líneas:

Sampling Weights--None
Primary Sampling Units--None
Stratification--None

por conducto de las cuales se indica que el diseño empleado es MSA en este caso.

Debe notarse que, el caso de la orden Tables, los resultados de CSAMPLE se expresan en
forma de porcentajes. Para computar los límites de confianza, el programa siempre trabaja
con confiabilidad del 95 % y por tanto procede, cualquiera sea el método de muestreo,
restando de, y sumando a la estimación puntual el valor e = (1,96) se (p) . En este caso, por
ejemplo, el error con que se estima el porcentaje de sujetos para los que la variable tiene
código 1 es: (1,96)(1,094) = 2,14 , que a su vez coincide con 22,802 - 20,657 y con
20,657 - 18,512 .

Por otra parte, mediante la orden Tables, CSAMPLE procede a la estimación de los
porcentajes (y sus intervalos) que correspondan a todas las categorías que existan (dos en
el caso de una variable dicotómica, como en el ejemplo).

Si en Main se pone una variable cuantitativa como la EDAD y se indica la orden Means,
entonces se obtiene un resultado como el siguiente:

Analysis of EDAD
Confidence Limits
Obs Mean Std Error Lower Upper
Total 1370 64,092 0,593 62,930 65,254
-----
L.C.Silva

donde, igualmente, los extremos del intervalo, se computan mediante:


64,092 - (1,96)(0,593) = 62,259
y
64,092 + (1,96)(0,593) = 65,254
Supongamos ahora que se quiere evaluar si la edad media de los sujetos es diferente entre
los que tienen cierto rasgo R = 1 y aquellos para los que R = 2 , donde R es el nombre que
se ha dado a cierta variable dicotómica para clasificar a los sujetos con y sin el rasgo en
cuestión. Se pone Edad en Main y R en Crosstab con los códigos 1 y 2 . El resultado es:

Analysis of EDAD by R
Confidence Limits
R Obs Mean Std Error Lower Upper
0 667 44,844 0,493 43,878 45,810
1 703 82,354 0,375 81,619 83,089

Total 1370 64,092 0,593 62,930 65,254

Difference -37,510 0,620 -38,724 -36,296


L.C.Silva

Nótese que –37,510 es la estimación de X 1 - X 2 , donde X 1 es la edad media para los 667
individuos con R = 1 y X 2 la media para los 703 para los cuales R = 2 . Esa diferencia tiene
como intervalo de confianza: [-38,724; -36,296]. El hecho de que éste no contenga al cero,
desde la lógica de las pruebas de hipótesis, indicaría que la edad media para R = 2 es
significativamente mayor que para R = 1 .

Lo trascendente es que esa prueba de significación se ha verificado respetando el diseño


muestral realmente empleado y no como lo haría cualquier software tradicional (tratando la
muestra como si fuera un MSA). Si el intervalo calculado por CSAMPLE no contiene al 0,
entonces la prueba convencional (t de Student en este caso) también arrojaría, por lo
general, significación; pero puede ocurrir que dicha t dé significación al suponer MSA, pero
que el intervalo "correcto" sí abarque al cero. Es decir, el empleo de CSAMPLE a estos
efectos nos precavería de rechazar H 0 a pesar de ser falsa con mayor facilidad de la que se
fijó de antemano.

Finalmente, el programa da la posibilidad de computar la distribución de una variable


politómica dentro de cada uno de dos subconjuntos (subclases) determinados por cierta
variable. Consideremos, por ejemplo, cierta variable dicotómica73 llamada VARDI (con
valores 0 y 1) y, que para hacer el cruzamiento. Se elige la variable R.

El resultado será de la forma siguiente:

73
Podría tener más de dos categorías, aunque se ha elegido el caso
dicotómico para la ilustración.
L.C.Silva

CTABLES COMPLEX SAMPLE DESIGN ANALYSIS


Analysis of VARDI by R
Comparison between R 0 and 1

¦R ¦VARDI
¦ ¦0 ¦1 ¦Total ¦
+-----------+-----------+-----------+-----------¦
¦1 ¦ ¦ ¦ ¦
¦ Obs ¦ 569¦ 98¦ 667¦
¦ Percent V 52,346¦ 34,629¦ 48,686¦
¦ Percent H 85,307¦ 14,693¦ 100,000¦
¦ SE% ¦ 1,371¦ 1,371¦ ¦
¦ LCL% ¦ 82,620¦ 12,005¦ ¦
¦ UCL% ¦ 87,995¦ 17,380¦ ¦
¦ Deff. ¦ 1,001¦ 1,001¦ ¦
+-----------+-----------+-----------+-----------¦
¦2 ¦ ¦ ¦ ¦
¦ Obs ¦ 518¦ 185¦ 703¦
¦ Percent V 47,654¦ 65,371¦ 51,314¦
¦ Percent H 73,684¦ 26,316¦ 100,000¦
¦ SE% ¦ 1,661¦ 1,661¦ ¦
¦ LCL% ¦ 70,428¦ 23,059¦ ¦
¦ UCL% ¦ 76,941¦ 29,572¦ ¦
¦ Deff. ¦ 1,001¦ 1,001¦ ¦
+-----------+-----------+-----------+-----------¦
¦Total ¦ ¦ ¦ ¦
¦ Obs ¦ 1087¦ 283¦ 1370¦
¦ Percent V 100,000¦ 100,000¦ ¦
¦ Percent H 79,343¦ 20,657¦ 100,000¦
¦ SE% ¦ 1,094¦ 1,094¦ ¦
¦ LCL% ¦ 77,198¦ 18,512¦ ¦
¦ UCL% ¦ 81,488¦ 22,802¦ ¦
¦ Deff. ¦ 1,001¦ 1,001¦ ¦
+-----------------------------------------------+

Como se ve, aparecen los porcentajes por filas (horizontalmente) y por columnas
(verticalmente) -H y V respectivamente-, aunque el intervalo de confianza solo aparece para
las filas. En este caso (tabla 2*2) también se obtienen tres estimaciones de interés para los
epidemiólogos (odds ratio, riesgo relativo y diferencia de riesgos) y sus respectivos intervalos
de confianza, como se muestra a continuación.
L.C.Silva

CTABLES COMPLEX SAMPLE DESIGN ANALYSIS OF 2 X 2 TABLE


Odds Ratio (OR) 2,074
95% Conf. Limits ( 1,58; 2,72 )

Risk Ratio (RR) 1,158


95% Conf. Limits ( 1,10; 1,22 )

RR = (Risk of VARDI=0 if R=0) / (Risk of VARDI=0 if R=1)

Risk Difference (RD) 11,623%


95% Conf. Limits ( 7,40; 15,85 )

RD = (Risk of VARDI=0 if R=0) - (Risk of VARDI=0 if R=1)

Nuevamente, lo singular que tienen estos intervalos es el hecho de que se han computado
teniendo en cuenta los diseños verdaderos. Por último, en las salidas que se producen
cuando se da la orden Tables, aparece el valor de Deff. Se trata de una estimación de la
magnitud del valor del efecto de diseño explicado detalladamente en la Sección 6.3.

11.4.2 Otros programas para cálculo de errores para diseños complejos

A continuación se presentan muy sucintamente los siete programas más reconocidos en la


materia que nos ocupa.

1 SUDAAN

Se trata de una aplicación comercial desarrollada en el Research Triangle Institute que


provee facilidades para estimar un buen número de parámetros tales como medias,
porcentajes, razones, cuantiles y odds ratios, así como para aplicar métodos de regresión
(lineal, logística y hazards) y de tablas de contingencia.

2 PC-CARP

PC-Carp es la versión para PC del programa SUPER CARP, uno de los pioneros en este
campo, desarrollado y comercializado por la Universidad de Iowa. Permite computar errores
para medias, porcentajes, cuartiles, razones, diferencias de razones, así como para realizar
pruebas de hipótesis sobre tablas de contingencia.

3 CENVAR

Según se describe en Megill (1997), el paquete CENVAR (Census Variance Calculation


System) es una parte de IMPS (Integrated Microcomputer Procesing System) desarrollado
por el Buró del Censo de Estados Unidos. De hecho es una derivación de PC-CARP, al cual
procura superar en materia de tablas de salida.
L.C.Silva

4 WESVAR PC

Según describen en el manual para la Versión 2.1 Brick, Broene, James y Severynse
(1997), WesVar PC es un paquete "para computar estimaciones puntuales y estimaciones
replicadas de las varianzas a partir de datos obtenidos de muestras complejas". Se trata de
una aplicación implementada sobre Windows que trabaja con técnicas de muestras
replicadas como las descritas en la Sección 9.1. Una valoración de la Versión 3 (Wesvar
Complex Samples) puede encontrarse en Nixon (1998); a esta se ha añadido la posibilidad
de estimar curvas de regresión lineal y logística.

5 STATA

STATA es una de las grandes aplicaciones informáticas que presuntamente cumple de


manera cabal con el propósito que nos ocupa, además de realizar todas las tareas de los
grandes sistemas para aplicaciones estadísticas. Se trata de un sistema programable
desarrollado por una corporación (Stata Co.) con una amplísima gama de prestaciones. La
validez de los algoritmos en que se basan las prestaciones que ofrece STATA para el caso
de diseños complejos se ha prestado, sin embargo, a cierta suspicacia informal en medios
especializados, y en mi opinión merece un examen valorativo profundo del que aún se
carece.

6 VPLX

Este sistema ha sido diseñado por el Buró del Censo de Estados Unidos y emplea
replicaciones y estimaciones tipo jackknife. El sistema WESVAR PC arriba mencionado
tiene, a mi juicio, una interfaz máquina-usuario más amigable.

7 CLUSTERS

Nacido del proyecto World Fertility Survey, CLUSTERS se limita, como CSAMPLE, a
computar errores para medias y proporciones en subclases, aunque opera en un ambiente
de hoja electrónica.

8 SAS

Este es el otro gran paquete de aplicaciones estadísticas de propósito general que incluye
procedimientos de análisis acordes a métodos complejos de muestreo (en la versión 8).
Anthony, Watts y Stokes (1999) dan cuenta de un módulo para la selección de muestras de
diversos tipos, otro para estimar medias y porcentajes y un tercero para análisis de regresión
lineal.

11.5 Programas para la selección de muestras


L.C.Silva

Los programas hasta aquí descritos se relacionan con la determinación de tamaños


muestrales y con el análisis de datos; pero no se involucran en el proceso de selección. Los
que hacen esto último son virtualmente inexistentes. Algunos paquetes contienen la posibili-
dad de realizar la selección de una muestra simple aleatoria (con y sin reemplazo) o
sistemática de un listado, pero típicamente no se pasa de ahí. De hecho, en su sección de
Preguntas y Respuestas, la revista especializada The Survey Statistician de diciembre de
1998 recoge el señalamiento de Kish (1995) acerca de la inexistencia de programas de este
tipo y la urgente conveniencia de contar con ellos. Recientemente, como se consignó en la
sección anterior, SAS ha incluido un módulo con este fin. El otro programa que conocemos
que aborda este asunto es SIGESMU, objeto de la siguiente sección.

11.6 Sistema general de simulación de diseños y aplicaciones muestrales


(SIGESMU)

El programa SIGESMU fue creado especialmente para acompañar este libro. En las
cuatro subsecciones que siguen se comunican sus rasgos y prestaciones
fundamentales.
L.C.Silva

11.6.1 Programas de selección

El libro que constituye la versión precedente del actual (Silva, 1993) venía acompañado de
un disco que contenía algunos programas muy simples para facilitar algunos procesos de
selección elementales. Ahora, intentando hacer una contribución más relevante en este
sentido, hemos diseñado (Suárez 1998) un sistema denominado Sistema General de
Simulación y Selección de Muestras(SIGESMU), parte de cuyas prestaciones conciernen
específicamente al proceso de selección. SIGESMU puede instalarse en ambiente
Windows haciendo uso del disco compacto que se adjunta74.

El propósito de este sistema informático general de simulación de diseños y aplicaciones


muestrales es proveer al usuario de las siguientes posibilidades:

* Visualizar y practicar distintos diseños muestrales.

* Valorar las virtudes y limitaciones de las técnicas de selección más importantes.

* Contar con herramientas de interés didáctico que permitan la consolidación de


nociones básicas relacionadas con el muestreo.

* Ayudar en el proceso de selección de muestras equiprobabilísticas sobre marcos de


muestreo explícitos e implícitos.

En lo que sigue se describe brevemente cada uno de los componentes de los dos módulos
básicos de SIGESMU (Figura 11.1).

SIGESMU incluye recursos de selección de muestras equiprobabilísticas aplicables a una


base de datos cuyo formato sea compatible con dBase, la cual ha de ser proveída por el
usuario en calidad de marco muestral. Con el subconjunto resultante del proceso de
selección (la muestra), el sistema crea una base de datos idéntica a la original (salvo el
hecho, naturalmente, de que ésta solo contiene los registros correspondientes a los sujetos
elegidos).

Los métodos de selección incluidos en este componente son:

a. muestreo simple aleatorio,

b. muestreo sistemático en fases,

c. muestreo aleatorio estratificado,

d. muestreo por conglomerados monoetápico,

e. muestreo por conglomerados bietápico con probabilidades proporcionales a


los tamaños de las unidades de primera etapa,

74
El sistema fue programado utilizando el lenguaje de 32 bits Delphi
3.0 para Windows 95 ó 98.
L.C.Silva

f. muestreo estratificado polietápico.

Por otra parte, SIGESMU también ofrece la posibilidad de aplicar métodos de selección
cuando no se cuenta con bases de datos explícitamente conformadas; es decir, para realizar
la selección sobre unidades de análisis genéricas, que el usuario identificaría a posteriori en
un marco muestral externo. Para este caso, se han incluido los siguientes diseños:

a. muestreo simple aleatorio

b. muestreo sistemático en fases

c. muestreo por conglomerados bietápico con probabilidades proporcionales a


los tamaños de las unidades de primera etapa

11.6.2 Simulación de muestras

Los programas que procuran resolver o encarar el proceso de selección pueden ser útiles,
además de por su función operativa, para la formación del usuario. Tal es el caso cuando
éste puede percibir cómo fluye el proceso de selección y comparar los resultados
provenientes de métodos diferentes sobre la misma población, ya que pueden constituir una
vía importante para identificar las ventajas y desventajas relativas que tienen los diseños, así
como para valorar el efecto del tamaño de muestra sobre la calidad de las estimaciones.

SIGESMU posee un rasgo singular en este sentido. Se trata de un recurso para simular
selecciones muestrales según diversos métodos posibles. Este submódulo permite com-
putar estimaciones en muestras simuladas y facilitar por esa vía la comparación de resul-
tados de los diferentes métodos utilizables. Con ese fin, se ha creado artificialmente una
"población tipo". Para conformarla se construyó mediante simulación una base de datos, con
características que se ajustan a la estructura de una población real, adecuada en principio
para la aplicación de cualquier procedimiento de muestreo. Se simularon varios miles de
sujetos cada uno de los cuales se ubicó en una de 4 zonas, después en alguno de los
distritos existentes dentro de éstas, y finalmente en viviendas dentro de los distritos.

A los sujetos simulados, una vez distribuidos en zonas, distritos y viviendas, se les
atribuyeron valores para cuatro variables personales, definidas del modo siguiente:

Nivel Socioeconómico:

Valor entero entre 1 y 4: 1 para los de más bajo nivel y 4 a los que poseyeran mejor
nivel socioeconómico. Así se representa a una variable sintética supuestamente
conformada a partir de cierta información y de un algoritmo validado de asignación en
una de las 4 categorías.

Se atribuyó el mismo nivel socioeconómico a todos los integrantes de una misma


vivienda.

Edad:

Valor entero entre 0 y 100, expresado en años.


L.C.Silva

Número de caries:

Número entero entre 0 y 8, que identifica para cada sujeto el número de piezas
dentales afectadas por caries.

Necesidad de atención estomatológica:

Variable dicotómica, cuyos valores posibles son: 0 si el sujeto no requiere atención


estomatológica, y 1 en caso contrario.

La base de datos constituida, denominada POBLADO.DBF, e incluida en el CD que se


adjunta es compatible con dBase; en ella cada sujeto ocupa un artículo. Gráficamente, la
estructura de la población creada se ha representado en la Figura 11.2.

Como resultado de la aplicación de un conjunto de reglas probabilísticas aplicadas para


simular la población, se obtuvo una base de 2393 viviendas (distribuidas por zonas y
distritos), y dentro de ellas se simularon 9234 sujetos. Este componente sirve como
entrenamiento para la selección de muestras por medio los seis diseños incluidos en el
módulo de selección, ya que todos ellos han sido incluidos como posibilidad para que el
usuario elija aquél con el que quiere trabajaron vistas a la simulación. Las seis tablas
siguientes dan una semblanza de los rasgos de esta población artificial.

Como puede observarse en la Tabla 11.1, la distribución de sujetos según grupos de edad
tuvo predominio de los grupos de edad de entre 20 y 60 años.

Tabla 11.1 Distribución de los sujetos por grupo de edad.

GRUPO SUJETOS
EDAD No %
0- 9 772 8.4
10-19 911 9.9
20-29 1486 16.1
30-39 1547 16.8
40-49 1534 16.6
50-59 1498 16.2
60-69 555 6.0
70-79 450 4.9
80-89 256 2.8
90-99 225 2.4
TOTAL 9234 100.0

El porcentaje de sujetos según ZONA y NSE, así como las medias y varianzas del NSE se
presentan en la Tabla 11.2; la media del NSE aumenta desde la zona 1 a la 4, con varianzas
similares entre las zonas, siempre menores que la variabilidad total (indicando que las zonas
son internamente homogéneas en materia de nivel económico-social).

Tabla 11.2 Distribución porcentual de los sujetos con cada nivel de NSE según ZONA, medias y v
L.C.Silva

de NSE por zonas.

ZONA NSE x 141 S2


1 2 3 4
1 49.5 29.4 13.5 7.6 1.792 0.890
2 37.7 28.7 19.8 13.8 2.098 1.120
3 14.9 14.8 30.7 39.5 2.949 1.138
4 9.7 13.0 30.8 46.5 3.141 0.964
TOTAL 2 419 1 332

El comportamiento de la media de caries por persona y el porcentaje de personas con caries


según zonas se aprecia en la Tabla 11.3.

Tabla 11.3 Tasas de sujetos con caries y número medio de caries por zonas.

ZONA CARIES
Tasa % x 142
1 30.1 0.744
2 29.0 0.675
3 19.3 0.375
4 16.3 0.343
TOTAL 100 0 0 561

Atendiendo a la presencia de caries según nivel socio económico encontramos diferencias


acusadas entre las medias, con varianzas notablemente alejadas entre sí (Tabla 11.4).

Tabla 11.4 Tasas de sujetos con caries, medias y varianzas del número de caries según NSE.

NSE PROMEDIO DE
% CARIES S2
1 38.6 1.014 2.292
2 27.5 0.613 1.306
3 19.3 0.371 0.727
4 9.7 0.135 0.193
TOTAL 100.0 0.561 1.311

Finalmente, los porcentajes de sujetos con necesidad de atención estomatológica según


zonas y según NSE se recogen respectivamente en las Tablas 11.5 y 11.6.

Tabla 11.5 Tasas de sujetos con necesidad de atención estomatológica según zonas.

ZONA Tasa (%) DE SUJETOS


NECESIDAD DE ATENCIÓN
%
1 39.8
L.C.Silva

2 37.6
3 25.5
4 23.2
TOTAL 32.7
Tabla 11.6 Tasas de sujetos con necesidad de atención estomatológica según NSE.

NSE Tasa (%)


1 49.1
2 37.1
3 27.0
4 13.7
TOTAL 32.7

La estructura impuesta a la matriz de datos procuraba generar un efecto de diseño bastante


grande mediante el recurso de hacer las UPE bastante homogéneas internamente, aunque
también las zonas se diseñaron para que fueran relativamente homogéneas.

11.6.3 Otras aplicaciones informáticas relacionadas con el muestreo

SIGESMU incluye, por otra parte, algunos programas destinados al desarrollo de algunas
tareas de simulación. Expuestos a grandes rasgos, se trata de los siguientes tres
procedimientos:

JUEGO DE LAS URNAS

Gracias a este componente, el usuario podrá percatarse fácilmente de un elemento crucial


del muestreo: para lograr buenas estimaciones, no importa mucho cuán grande sea el
tamaño relativo de la muestra en relación a la población de la cual proviene, lo ver-
daderamente crucial es el tamaño absoluto de la muestra.

Lo que se simula es el "juego de urnas" descrito en la Sección 3.9. Naturalmente, el usuario


podrá decidir los tamaños de las urnas, de las muestras, del parámetro de interés y del
número de replicaciones. El sistema mostrará los resultados en una tabla y a través de una
representación gráfica.

ASIGNACIÓN DE PALABRAS A LISTAS

Como sabemos, para muestras medianamente grandes, el azar es capaz de lograr que la
mayoría de las muestras seleccionadas por su conducto sean representativas de las
poblaciones de las cuales proceden. En particular, la asignación aleatoria de unidades a
varios grupos suele conseguir que dichos grupos sean muy parecidos entre sí a casi
cualquier efecto que se desee. Contribuir a que este hecho pueda palparse de manera
elocuente es el objetivo de este componente.
L.C.Silva

Esta simulación se basa en la idea de tomar palabras en calidad de unidades de análisis.


Para cada una de éstas pueden “medirse” varios rasgos, tales como número de letras en
ellas contenida, o el hecho de que empiece con vocal o consonante. Para llevar adelante el
proceso de asignación en que se basa esta aplicación de índole demostrativa, se parte de un
archivo de texto (con formato ASCII) elegido por el usuario, cuyas palabras son objeto de la
asignación aleatoria a varias (2, 3 ó 4, según defina el usuario) listas.

El archivo de textos original para llevar adelante el proceso descrito se indica por el usuario
por medio de una ventana de petición tipo Windows. Al escoger dicho archivo, la ventana
de la simulación se activa y el usuario puede definir los parámetros para los cuales desea
realizar estimaciones: número de veces que aparece una letra determinada y porcentaje de
palabras cuya longitud sea igual o mayor a cierto valor. Se estiman asimismo el porcentaje
de palabras que comienzan con vocal y la longitud media en letras de cada una de las listas.
Realizado el cómputo, se muestran los resultados para cada grupo así como los valores
poblacionales, de modo que se puedan comparar con los que corresponden a los listados
conformados. A su vez, al cotejar los resultados de cada una de las listas se podrá constatar
que, salvo casos excepcionales, especialmente si el número de palabras contenidas en el
fichero es grande, el azar "equipara" las submuestras de la población: es decir, se observará
la proximidad entre las estimaciones hechas y la proximidad de éstas con el valor
poblacional

ASIGNACIÓN DE SUJETOS A TRATAMIENTOS

Supongamos que se está diseñando un estudio que exige la comparación de dos drogas,
una conocida y la otra de nueva generación. Se precisa asignar a cada uno de 56 sujetos el
tratamiento que habrá de recibir una vez que sea declarado "elegible", de forma tal que los
grupos resultantes, además, sean de igual tamaño.

Para resolver un problema como ese, basta con disponer de un programa que extraiga
muestras aleatorias; cuando el número de tratamientos es superior a dos, ya resulta
conveniente contar con un programa ad hoc, como el que nos ocupa. En la ventana de
asignación no existen más complicaciones que indicar el número de tratamientos y el de los
sujetos a los que han de distribuirse; de tal forma, al indicar que se efectúe el procesamiento,
la ventana mostrará los listados de los sujetos que han de incluirse en cada uno de los
grupos. Se pueden crear hasta cinco listas para respectivos tratamientos.

Una alternativa a la conformación de grupos de igual tamaño, en que la probabilidad de


asignación es la misma para todos los sujetos, es optar por la construcción de "grupos
equilibrados". En la asignación equilibrada, los sujetos se van asignando a los tratamientos
con probabilidades que varían dependiendo del número de sujetos ya incluidos en cada lista:
se otorga a un nuevo sujeto mayor probabilidad de inclusión en las listas con menor tamaño
(véase Sección 10.6). Tal recurso se aplica con el fin de conseguir que en cualquier punto de
este proceso los listados hasta ese momento conformados sean básicamente de igual
tamaño. La utilidad de actuar de tal modo se deriva de que, ocasionalmente, en lugar de fijar
de antemano un número de unidades por grupo, se fija un lapso durante el cual se estarán
acopiando casos para el estudio; en tal situación no se sabe cuántos sujetos habrá
finalmente, y el proceso de asignación quedará truncado cuando se alcance la fecha límite.
También puede ser que se desee hacer cortes parciales a lo largo del estudio. Al seguir este
método de asignación quedará esencialmente garantizado que los tamaños de los grupos en
ocasión de dichos cortes sean aproximadamente iguales.
L.C.Silva

Cabe señalar que las listas formadas pueden guardarse en ficheros de texto y por tanto, en
su momento, podrían imprimirse para trabajar con ellas en terreno.

11.6.4 Requerimientos y rasgos generales del sistema

Para la instalación de SIGESMU se necesita una computadora IBM compatible 486 o


superior con sistema operativo Windows 95 o superior; debe tener al menos 16 Mb de
memoria RAM y aproximadamente 11.5 Mb de disco duro disponible. Para la instalación se
exige una Unidad de lector de CD y una tarjeta de vídeo SVGA (800*600 256 colores).

El programa cuenta con un detallado sistema de ayudas, similar al implementado por


conocidas aplicaciones desarrolladas sobre Windows 95, con todas las posibilidades de
búsqueda y manejo de información previstas por dicho sistema operativo. La ayuda cuenta
con descripciones de los campos de entrada de cada una de las ventanas incorporadas al
sistema, así como con definiciones de algunos conceptos del muestreo esenciales para el
usuario.
La instalación se realiza a través de un archivo ejecutable con el nombre SETUP.EXE, de
manera análoga a cualquier aplicación convencional sobre Windows 95.

CAPITULO 12. REFLEXIONES CRÍTICAS SOBRE LA PRACTICA MUESTRAL


CONTEMPORÁNEA

En este capítulo se abordan críticamente diversos aspectos de interés práctico, tales como
errores que se cometen con relativa frecuencia por parte de muestristas inexpertos, que son
víctimas de "tradiciones" discutibles, o que actúan según criterios directamente
improcedentes. Simultáneamente, se desarrollan algunas ideas y procedimientos pendientes
de examen cuya discusión suele esquivarse. Finalmente, se hacen diversas precisiones
conceptuales que tienen repercusión considerable a los efectos de aplicar o de comprender
las técnicas muestrales.

12.1 Marco de extrapolación

La legitimidad de las extrapolaciones es uno de los temas más espinosos en la práctica;


parece mucho menos escabroso de lo que realmente es, debido a que responde al tipo de
asuntos que suelen eludirse olímpicamente en la literatura. Es de los temas que, de ser
posible, no "bajan" a los textos de nivel medio o elementales; y solo raramente se abordan,
incluso, en círculos muy especializados.

12.1.1 Una regla rígida


L.C.Silva

Entre los estudiantes de muestreo es bien conocida la pauta que establece que las
inferencias que se produzcan a partir de una muestra han de circunscribirse a la población
que fue objeto del acto de selección. Desde una óptica rigurosa, esto es impecablemente
cierto. Pero un apego estricto a dicha regla tendría efectos tan paralizantes que en la práctica
suele pasarse por alto.

En efecto, debemos reconocer que con frecuencia el método de selección es tal que, por
una razón u otra, no todos los individuos de la población objeto de análisis tienen
oportunidad de integrar la muestra y, sin embargo, la inferencia objetivamente realizada
abarca a toda la población y no solo a la porción de la que procede la muestra. El grado en
que una transgresión como esa resulte "perdonable" no es por lo general un asunto de
naturaleza estadística, sino algo inherente al problema que se aborda: depende de la
valoración que hagan los investigadores, basada en su sentido común y en su "cultura"
sobre el problema, elementos a partir de los que se dirá la última palabra. Por ejemplo,
supongamos que se hace un estudio sobre la información que poseen los jóvenes de la
enseñanza media acerca del SIDA usando una muestra de 120 alumnos de una escuela de
Madrid, que sobre esas bases se estima que solo el 20% tiene “conocimientos adecuados”
sobre el tema, y que se obtiene un intervalo de confianza al 95% de [16% - 24%], ¿qué
quiere decir esto? La respuesta canónica sería que “podemos estar razonablemente
confiados en que el porcentaje de jóvenes de esa escuela que tenía conocimientos
adecuados en el momento de la encuesta se hallaba entre 16% y 24%”. Ni más ni menos. Lo
que importa subrayar es que, formalmente, la inferencia se reduce a lo que prevalecía en
esa escuela y en ese momento.

Sin embargo, nadie (con excepción quizás de la dirección de esa escuela) haría el estudio
para obtener tan magro dividendo, reducido a una anécdota histórica. Si tal resultado se
publica es porque tácitamente se cree que los resultados son indicativos de algo que ocurre
más allá de la escuela y más allá del momento de la encuesta. Lo que pasa es que la
decisión de cuál es el alcance geográfico y temporal de tal extrapolación suele dejarse en un
limbo que, si bien releva al investigador de comprometerse explícitamente, no resuelve el
hecho real de que la inferencia que objetivamente se está haciendo trasciende el ámbito de
la selección en que se basa.

Es evidente que la realidad develada por el estudio no será vigente 10 años después de
realizado el estudio ni tampoco extrapolable a la ciudad de Copenhague, pero es
verosímil que también refleje lo que ocurre en otras escuelas de Madrid, y que sea
esencialmente válida mientras no cambien los factores que determinan el grado de
conocimiento de los jóvenes madrileños sobre el SIDA.

Por otra parte, a veces es simplemente imposible hacer extrapolación alguna. Por ejemplo,
en un artículo titulado Consumo de drogas en una muestra de médicos rurales de la
provincia de Valladolid, Carvajal, García, Holgado y Velasco (1984) dan cuenta de un
estudio basado en una encuesta realizada por medio del correo a la que 73 médicos
aportaron testimonios sobre sus hábitos de consumo de drogas (tanto de las llamadas
"institucionales" -alcohol, cafeína y tabaco- como de las que no lo son, tales como
anfetaminas, ácidos, opiáceos y alucinógenos).
L.C.Silva

En principio, la población de interés estaba conformada por 211 médicos, a todos los cuales
les fue originalmente remitido el cuestionario; solo respondió, sin embargo, el 34.5 % de
ellos. Dada la naturaleza obviamente comprometedora de algunas de las respuestas
posibles (los propios autores adelantan en el trabajo un juicio moral negativo hacia un
médico que consuma estas sustancias), resulta altamente dudosa la representatividad de
una muestra autoconfigurada por sus integrantes.

Nótese que el propio título del trabajo anuncia algo anómalo: lo que ocurra en una muestra,
como allí se consigna (en este caso, la magnitud o forma del consumo), no es algo que
interese. Lo que puede interesar es esta información para la población de médicos. La
muestra es un intermediario metodológico, ajeno por completo al propósito de un estudio,
cualquiera que sea éste. Si hay motivos para pensar que la muestra representa
adecuadamente a cierta población, entonces es posible que los resultados obtenidos de
aquella puedan extenderse o extrapolarse a esta última. En tal caso, es posible que se haya
alcanzado aquel propósito; vale decir que nunca interesa un resultado muestral per se, sino
solo el que se deriva de ese proceso de extrapolación.

En el caso que nos ocupa, resulta muy difícil establecer a qué población podría representar
la muestra que nos ocupa: ¿A los que no tienen nada que ocultar? ¿A quienes no tienen
aprensión en admitir sus hábitos? ¿A los que aprovechan la ocasión para dar pistas falsas
sobre sus hábitos reales? Considero imposible responder estas preguntas. Sin embargo, de
lo que no quedan dudas es de que la muestra representa exclusivamente a los médicos que
acceden a contestar, subgrupo cuya diferencia con el de los que optan por no responder es
algo más que verosímil. Se trata a todas luces de una muestra llamada a arrojar es-
timaciones sesgadas.

Por otra parte, aun cuando la totalidad de los médicos hubiese respondido, habría motivos
para sospechar la presencia de un sesgo: es bien conocido que cuando se formula una
pregunta embarazosa, los resultados suelen arrojar subestimaciones (o sobrestimaciones,
según sea lo que se investigue). El trabajo, por poner un ejemplo, comunica que el
porcentaje de médicos que consumen cocaína (ya fuese habitual o esporádicamente) es
nulo; ni hombres ni mujeres de la muestra admiten tal consumo. ¿Podrá razonablemente
confiarse en que, si la realidad fuese otra, habría quedado fielmente reflejada en las
respuestas?

La endeblez fundamental que tiene este artículo no radica, sin embargo, en que una parte de
la muestra no responda; esto suele ocurrir siempre en una u otra medida y existe un vasto
campo teórico al respecto (véase Sección 12.4). Si bien la tasa de "no respuesta" es
ciertamente desmedida, el defecto fundamental del trabajo estriba en que no se dice (ni es
posible decirlo) a qué población cabe atribuir los resultados hallados75.

75
El artículo analizado es bastante antiguo. Actualmente es difícil
hallar trabajos publicados que padezcan de tan notables
insuficiencias, pues los editores (y los autores) han alcanzado
niveles de versación, experiencia y rigor mucho mayores que los
que tenian entonces.
L.C.Silva

Supongamos ahora que se quiere estimar la prevalencia de insuficiencia renal crónica (IRC)
en una ciudad pero que, por razones prácticas, la muestra se elegirá de un listado
incompleto, que contiene solamente al 90 % de la población actual (por ejemplo, solo incluye
a los que poseen teléfono, ya que, supongamos, el marco muestral será la guía telefónica;
en tal caso, la muestra resultante comprenderá solamente a poseedores de teléfono).

La pregunta clave, que evidentemente no es de índole estadística, sería: ¿hay motivos para
sospechar que la posesión o no de teléfono se relaciona de algún modo con el hecho de
padecer IRC? Si la respuesta fuera positiva, no habrá "perdón". Pero si, por mucho que
salubristas y nefrólogos especulen "teóricamente", no aparece ningún vínculo, ni directo ni
indirecto, entre ambos rasgos, yo me inclino por la "absolución metodológica". Me baso en
que, de todos modos, el conocimiento que se obtenga por vía muestral habrá de ser provi-
sional, perfectible y sujeto a refinamiento. Por otra parte, si somos flexibles con la
extrapolación en el tiempo, ¿por qué no serlo con la extrapolación en el espacio? En última
instancia, se trata de ser flexible en el marco de un talante riguroso, que es mucho mejor que
ser rígido sobre un substrato conceptualmente borroso, como ocurre con tanta frecuencia y
en tantos contextos sin que ello genere tanto escándalo.

Sin embargo, en mi opinión, tal flexibilidad tiene fundamentos adicionales. Supongamos que
se estudian las dimensiones antropométricas de los niños de una ciudad a través de una
muestra equiprobabilística de hogares de una ciudad. Supongamos asimismo que el
proceso discurrió sin ningún tipo de anomalías: el marco muestral estaba actualizado, todos
los hogares fueron elegidos según lo planeado y los niños de la muestra fueron medidos en
su totalidad. Hecho el estudio, se obtiene un amplio conjunto de estimaciones, entre ellas,
pongamos por caso, que la talla media de un varón de 5 años es igual a 104 cm y que el
percentil 5 de la distribución de esa variable es 96 cm. Tras un examen estadístico
adecuado de los datos, los auxólogos deciden recomendar que aquellos niños de esa edad
cuya talla esté por debajo de 96. deben ser examinados por personal especializado. Esta
pauta sale publicada y se difunde mucho después de realizadas las mediciones (con buena
suerte, un año más tarde).

Ahora bien, ¿para qué población son válidas las estimaciones que, tras la mencionada
elaboración, dan lugar a tal recomendación? Obviamente, no para los niños que tenían 5
años en el momento de la encuesta. Dichos niños ni siquiera existen ya como tales, pues en
el momento de la publicación ellos tendrán por lo menos seis años. Por otra parte, la pauta
en cuestión seguirá vigente durante mucho tiempo (quizás un decenio). De modo que la
extrapolación verdadera se extiende formalmente a una población enteramente diferente a la
que fue muestreada. A nadie se le ocurriría sugerir la repetición del estudio dos meses
después, del mismo modo que difícilmente se aceptaría que sus resultados guarden vigencia
durante los 40 años siguientes, ya que es bien conocido que existe una "tendencia secular"
que obliga a actualizar cada cierto tiempo las curvas de crecimiento y desarrollo. La decisión
al respecto está condenada a ser informal y, en cualquier caso, ajena a una aplicación rígida
de la regla enunciada al comienzo de esta sección.

Esta es la realidad de todos los días: las medidas que se adopten tras un estudio de
satisfacción de pacientes hospitalizados se aplicarán a una población diferente de la que se
estudió, el nivel de educación sexual que se atribuye a una población de adolescentes se
conoce a través de una muestra de una población de adolescentes que "ahora" son adultos,
y así sucesivamente.
L.C.Silva

Muy posiblemente, los niños que hoy tienen 5 años, los hospitalizados y los adolescentes
actuales no difieran en lo esencial de los que en su momento fueron estudiados; por eso la
inferencia que realmente se hace verosímilmente será legítima aunque no responda al
esquema formal de que solo se extrapola a la población muestreada. Sin embargo, el hecho
de que lo sea (y hasta cuándo seguirá siéndolo) escapa a la estadística y al muestreo para
caer en la órbita del sentido común y la reflexión crítica.

En síntesis, el nivel de extrapolación adecuado suele ser un problema en que participan por
igual las técnicas formales de muestreo y los recursos informales centrados en el sentido
común.

12.1.2 Pruebas de significación en "muestras poblacionales"

En un libro clásico, aunque en buena medida olvidado, Hagood (1941) encara el tema desde
una perspectiva general, que desborda el marco del muestreo en poblaciones finitas con
fines descriptivos y abarca también el de las pruebas de hipótesis. Lo que allí se discute es
la situación en que la "muestra" no es tal en sentido estricto, sino que constituye toda la
información disponible. Por ejemplo, supongamos que contamos con las tasas de
mortalidad infantil de las 50 provincias de un país y con las correspondientes 50 tasas de
analfabetismo en un año dado, y supongamos también que se calcula el coeficiente de
correlación de Spearman con esos 50 pares. ¿Tiene sentido evaluar si dicho coeficiente
difiere significativamente de cero? El asunto es cuándo y sobre qué bases se pueden hacer
inferencias a un universo hipotético, un superuniverso del cuál nuestro universo finito (es
decir, lo que se ha observado) puede ser considerado una muestra aleatoria. Hagood baraja
varias posibles interpretaciones según las cuales lo observado puede considerarse la
realización de una experiencia aleatoria (configuraciones especiales posibles, variabilidad en
el tiempo); se trata de alternativas que justificarán teóricamente la posibilidad de conducirse
con flexibilidad en esta materia.

Es bien conocido que la teoría formal ubica a las pruebas de significación en el ámbito
inferencial; de modo que para ellas también rige el principio que reza: a partir de los datos
muestrales se infieren conclusiones sobre aquella población supuestamente representada
por la muestra. Consecuentemente, desde un punto de vista teórico y formal, no tiene
sentido aplicar tales pruebas cuando los datos, en lugar de conformar una muestra,
coinciden con todo el universo. Esa regla, no obstante, se presta a gran confusión y por ello
resulta de máxima importancia establecer con claridad qué significa este enunciado.

Imaginemos que en un hospital se estudian todos los pacientes intervenidos quirúr-


gicamente durante 1995 y que se calculan las tasas de infección postoperatoria en cada uno
de dos grupos de edad bien diferenciados, digamos "jóvenes" y "viejos". ¿Procede en este
caso aplicar una prueba de significación?
L.C.Silva

Una de las fuentes de errores más importantes en el empleo incorrecto de la estadística


deriva de un hecho muy simple: no se ha planteado con claridad el problema que se quiere
resolver con su ayuda, no se ha formulado con transparencia una pregunta antes de
emplearla. En este caso, resulta crucial saber cuál es el problema que se encaró, para qué
se computaron las tasas mencionadas. Si los investigadores quieren simplemente describir
el comportamiento de la infección postquirúrgica de ese año y para ese hospital, entonces no
tiene sentido hacer prueba de hipótesis alguna para comparar las tasas específicas entre
grupos de edad, pues la información disponible se maneja en su totalidad. Si se realizara
una prueba de hipótesis para evaluar la diferencia entre estas tasas, entonces
necesariamente tiene que estarse suponiendo que los sujetos estudiados conforman una
muestra. En tal caso, cabe preguntarse, ¿una muestra de qué población? Para profundizar
en este tema, en la siguiente sección se amplían algunas ideas en buena medida ya
desarrolladas y consideradas en Silva (1997)

12.1.3 Necesidad de un superuniverso

Para obtener una respuesta razonable, procede considerar el ya mencionado concepto de


superuniverso, que fuera introducido por Stouffer (1934), quien lo definió como "un universo
infinito de posibilidades, formado por todos los universos finitos que pudieran haberse
producido en el momento de la observación y del cual nuestra población finita puede
considerarse una muestra aleatoria".

En efecto, si la prueba se lleva a cabo, es porque la verdadera pregunta formulada, aun en el


caso de que los investigadores no lo declaren así, no se remite a ese hospital ni a ningún
hospital específico, sino genéricamente a un superuniverso. La pregunta de investigación
concierne genéricamente a "la enfermedad nosocomial en sujetos operados"; es decir, atañe
a un aspecto de la fisiología humana (la propensión a infectarse en función de la edad). De
modo que la población sobre la que se infiere abarca a todos los sujetos operados, pasados
y futuros. Es en ese sentido que la población estudiada puede entenderse como una
muestra. La dificultad teórica de mayor entidad, sin embargo, radica no tanto en el hecho de
que haya que "inventar" un superuniverso que dé sentido a la aplicación de la prueba, sino
en valorar si hay derecho a "ver" esta "muestra" como el resultado de haber aplicado un
procedimiento aleatorio de selección en el superuniverso.

De hecho, la "solución" de imaginar un superuniverso es muy singular, pues parecería que


viene a decir, poco más o menos, lo siguiente: "como la aplicación de la prueba de sig-
nificación exige cierta condición que en principio no se cumple, y puesto que se va a aplicar
de todos modos, ha de inventarse una elaboración teórica que le dé sentido". Sin embargo,
el asunto no es tan burdo.
L.C.Silva

Supongamos que la tasa de infección en ancianos asciende a 19,2 %, mientras que entre
adultos jóvenes es solo de 8,6 %, y que al realizar una prueba de hipótesis, esta apreciable
diferencia resulta ser estadísticamente significativa76. Como se ha dicho, la conclusión de
que la tasa es mayor para ancianos que para quienes no lo son, obviamente no recae sobre
los pacientes de ese año en dicho hospital; para establecer que 19.2 es un número mayor
que 8.6 no hace falta una prueba estadística: bastan los conocimientos de un escolar.
¿Puede decirse entonces que hay mayor propensión a infectarse entre ancianos que entre
jóvenes, independientemente del país en que se realiza el estudio, del tipo de hospital y de
las características de los pacientes? Desde luego, no. Pudiera ocurrir que este hospital
estuviera enclavado en un área de bajo nivel económico, y que si el estudio se repitiera
usando pacientes con mejor situación (y por ello mejor alimentados, con más instrucción o
con hábitos de vida más saludables), las dos tasas fueran esencialmente iguales, quizás
porque en tal caso la desventaja fisiológica inherente a la vejez no se expresaría a través de
la infección.

De modo que en un caso como el que nos ocupa, en el que el enfoque de identificar un
superuniverso parece ineludible, la identificación de aquel que resulte adecuado no es una
tarea susceptible de ser resuelta mecánicamente, sino que, una vez más, reclama el
concurso del sentido común, del conocimiento profundo de la materia y, al fin, de una
inevitable dosis de subjetividad. Ahora imaginemos que se ha hecho el mismo estudio y que
se obtuvieron los mismos resultados pero a partir de una muestra de pacientes del hospital
en cuestión. Se hace la prueba estadística y se consigue rechazar la hipótesis de nulidad.
Lo usual es que el investigador afirme sin más que "se ha hallado suficiente evidencia
muestral de que la incidencia de infección es mayor entre ancianos que entre jóvenes".

Pero, ¿en qué población es esto así? ¿cuál es el alcance poblacional de la inferencia?
Normalmente la respuesta a esta pregunta queda en un limbo conceptual puesto que, bajo el
amparo de que se ha trabajado con una muestra, la pregunta no llega a formularse
explícitamente. Sin embargo, el hecho de que se haya operado con una parte de los
pacientes de ese hospital durante ese año, y no con todos ellos, no cambia la realidad de
que el verdadero interés del investigador no se concentra en lo que pudo haber ocurrido en
ese sitio y en ese momento. El papel que en este caso pudo haber tenido una selección
formal no radica en que cambie la naturaleza de la pregunta, sino en la contribución a la
imparcialidad de la selección que aporta tal procedimiento dada la inconveniencia o
imposibilidad de estudiar a toda la población. La necesidad de un superuniverso, por tanto,
sigue igualmente vigente.

Por otra parte, en estrecha relación con todo el problema está la necesidad de superar la
convicción, presente en algunos equipos investigadores, de que su trabajo es el que dará la
respuesta a la pregunta planteada, cuando en realidad seguramente se tratará de un trabajo
más, llamado a sumarse al debate que la comunidad científica desarrolla sobre el problema.
Ese trabajo debería arriesgar una propuesta de superuniverso, se haya sacado una muestra
formal o no; en su momento se irán produciendo las acotaciones o enmiendas que procedan.
Solo el cotejo con otros esfuerzos y el examen integrado de resultados -acaso ayudado por
enfoques como el del metaanálisis y en medio de un permanente proceso de ajustes- será
capaz de generar respuestas científicamente fructíferas.

76
Por cierto, si esto ocurre o no con esas dos magnitudes depende de
los tamaños de los grupos comparados.
L.C.Silva

Hace casi medio siglo que el célebre estadístico Frank Yates advirtió (Yates, 1951):

El énfasis en las pruebas de hipótesis y la consideración de los resultados de


cada experimento separadamente han tenido la desafortunada consecuencia
de que los trabajadores científicos han considerado con frecuencia la
ejecución de una prueba de significación o un experimento como el objetivo
último; actúan sobre la base de que los resultados o son o no son sig-
nificativos y de que éste es el fin de todo.

Los propios creadores de las pruebas de hipótesis, Egon Pearson y Jerzy Neyman,
advirtieron con toda transparencia que éstas no fuesen utilizadas a la manera en que, en
definitiva, se hace a diario: como instrumentos para evaluar la validez o la falsedad de una
ley científica. En sus propias palabras (Neyman y Pearson, 1933), advertían:

Ninguna prueba basada en la teoría de probabilidad puede por sí misma


generar índices válidos sobre la verdad o la falsedad de una hipótesis. Las
pruebas de hipótesis deben ser miradas desde otra perspectiva. Siguiendo la
regla de aceptar o rechazar una hipótesis no estamos diciendo nada definitivo
sobre si la hipótesis es o no verdadera... Lo que se puede demostrar es que
si somos consecuentes con esa regla, a la larga, la rechazaremos cuando
sea cierta no más, digamos, que una de cada 100 veces; adicionalmente, la
rechazaremos con alta frecuencia cuando sea falsa.

Nota: Cabe intercalar que la problemática que estamos considerando (¿procede o no hacer
inferencias cundo se trabaja con una población y no con una muestra formal?) queda
intrínsecamente despejada cuando el análisis se desarrolla en el marco bayesiano en el
lugar de en el entorno frecuentista habitual.

El enfoque bayesiano asume como algo natural el hecho de que los parámetros de interés
(en este caso, la diferencia entre las tasas teóricas de infección) son variables sujetas a
leyes probabilísticas?

La tarea que esta teoría se traza, justamente, es la de caracterizar nuestro conocimiento del
problema por conducto de dichas leyes. Más concretamente, ofrece herramientas para
combinar lo que en un momento dado consideramos que constituye una presentación
atinada de muestreo conocimiento del problema con datos empíricamente obtenidos como
los del mencionado estudio hospitalario para producir una nueva representación
“actualizada”.

La teoría bayesiana desborda claramente el nivel y el contexto natural del presente libro,
pero consideramos oportuno al menos consignar su existencia, así como señalar la pujanza
con que ha venido revitalizándose en los últimos años, tal y como queda fundamentado en
trabajos como Davidoff (1999), Goodman (1999) y Silva (1999).

12.1.4 Información autorrepresentada


L.C.Silva

Consideremos, para concluir, una situación cualitativamente diferente. El decano de la facul-


tad de medicina observa que en 1998 el 84 % de los alumnos terminó exitosamente el primer
año, en tanto que en 1999 este porcentaje "cayó" al 77 %. Ante tales datos, acudir a un es-
tadístico para que los analice y le informe si tal reducción es o no "significativa" carece de
todo sentido.

Es imprescindible comprender que el problema que en ese punto está considerando el


decano no es de naturaleza estadística; disciplina que terminó su función tan pronto como
los datos fueron resumidos. Ahora corresponde a un especialista pedagógico, a un político o
(si se quiere demorar el asunto) a una comisión, pronunciarse sobre la significación
cualitativa de los datos. Si esa diferencia de 7 % es o no alarmante, si merece o no una
indagación más profunda, si cabe adoptar o no medidas especiales, ya son cuestiones que
no pertenecen a la órbita estadística. Lo que ocurre es que en este caso no hay ninguna
población razonable, ni hipotética ni real, ni finita ni infinita, a la cual extrapolar los resultados:
tenemos toda la información posible y el papel de la estadística se redujo a resumirla con el
fin de facilitar la descripción, sin margen alguno para la extrapolación.

12.2 Problemas del marco muestral

El marco muestral disponible suele no ser perfecto. Raras veces el marco cumple todas las
condiciones relevantes: contener exactamente a todas las unidades, que éstas aparezcan
dentro del marco en una y sólo una ocasión y, además, que todo elemento ajeno a la
población de interés esté excluido.

La falta de cobertura fue considerada en la Sección 12.1.1. Pero a veces se presenta el


problema contrario: el marco disponible contiene individuos registrados en más de una
ocasión o sujetos que no conciernen al estudio. La primera situación solo se mitiga
procurando "limpiar" el marco de duplicidades, pero el segundo caso suele ser inevitable,
aunque tiene una solución relativamente simple.

Imaginemos que nuestro estudio concierne a médicos con al menos cinco años de
experiencia como tales, pero que contamos con una base de datos en que aparecen
registrados todos los médicos actuantes en cierta región, de los cuales desconocemos el
dato mencionado. Probablemente sea impracticable la idea de "limpiar el marco"; es decir,
eliminar del listado, antes de la selección, a los médicos con menos de 5 años de
experiencia. Mucho más económico (y, por tanto, más eficiente) sería obtener una muestra
empleando ese marco o listado disponible y retener en ella solo a quienes cumplan la
condición de poseer más de 5 años de experiencia laboral. Habría que seleccionar, eso sí,
un número mayor de sujetos para luego quedarnos con el número deseado del tipo de
individuos que interesan. Si se hubiera planificado contar con n sujetos en la muestra y se
piensa que una fracción  (0    1) del listado está formado por individuos ajenos a
nuestro interés, se tomarán n* , resultado de dividir n por 1 -  . Es importante notar que tal
estrategia no modifica las probabilidades originales otorgadas a los sujetos que
verdaderamente integran la población de interés. Así, si la muestra de n * fuera, por ejemplo,
equiprobabilística, la submuestra que resulte tras la eliminación, seguirá siéndolo.

Kish (1965), en diversos segmentos de su libro, incluye consideraciones prácticas de suma


utilidad para el enfrentamiento de estos problemas.
L.C.Silva

12.3 El problema del tamaño muestral

He tratado este tema con mucho detalle en un libro reciente (Silva, 1997). No agregaré
ahora mucho más a aquellas ideas. Sin embargo, considero oportuno incluirlas nuevamente
en este texto más específico (con algunas matizaciones adicionales) en virtud de la singular
relevancia que le confieren dos circunstancias: por una parte, que la tarea de determinar un
tamaño muestral es obviamente ineludible y, por otra, que el tema sigue produciendo
abundantes malentendidos.

No obstante haber sido profusamente tratado en libros y artículos, a pesar de que se explica
en clases y conferencias y de que existen programas informáticos y tablas ad hoc para hacer
determinaciones de tamaños muestrales, el asunto parecería renuente a dejarse dominar por
los interesados. Llegado el momento de calcular el tamaño muestral, muchos inves-
tigadores, yo diría que la mayoría, se sienten incapacitados para hacerlo por sí solos o, en el
mejor de los casos, inseguros con lo que han hecho.

En la Sección 11.1 ya se había subrayado que debían reconocerse dos situaciones bien
diferenciadas:

a) aquella en que se necesita determinar el tamaño muestral necesario para realizar


estimaciones

b) cuando se está planificando un estudio analítico, sea de tipo observacional o


experimental, y lo que se quiere es determinar los tamaños muestrales
correspondientes a los grupos involucrados en una futura prueba de hipótesis

La primera de ellas corresponde, en esencia, a los llamados estudios descriptivos. Por


ejemplo, diagnósticos de salud, caracterizaciones epidemiológicas, o estudios de prevalencia
que requieren de estimaciones paramétricas (fundamentalmente de porcentajes, razones,
medias, varianzas y totales poblacionales), así como estudios que, también con afán
descriptivo, requieren de la estimación de otros parámetros como coeficientes de correlación
o de regresión.

En la segunda situación, el análisis no se ciñe a conocer la magnitud de algo, sino que exige
en algún punto hacer uso de la comparación entre parámetros correspondientes a distintas
subpoblaciones. En efecto, en el entorno analítico, el examen estadístico de los datos suele
conducir a maniobras tales como la comparación estadística de porcentajes o medias, o a la
evaluación de la significación de coeficientes de concordancia o de correlación77.

Ambos procesos demandan el manejo de muestras, y es natural que, trátese de lo uno o de


lo otro, se desee operar con la menor cantidad posible de unidades de análisis con el fin de
economizar recursos. El problema consiste en hallar ese número mínimo de unidades con el
cual puedan resolverse eficientemente tales tareas.

12.3.1 Repasando la teoría oficial

77
Nótese que, de hecho, en este último caso se trata también de
comparar lo que se compara, es el coeficiente (por ejemplo, de
correlación) con el número cero.
L.C.Silva

En las Secciones 3.7 y 10.3 se expuso lo que pudiéramos llamar "la teoría oficial" sobre el
tema; es decir, lo que uno puede hallar al respecto en un texto convencional. Curiosamente,
a pesar de ser uno de los temas más borrosamente solucionados por la estadística, la
uniformidad del tratamiento que le dan los textos es casi total (y se reduce en lo esencial al
contenido que se expuso en aquellas Secciones); ello hace pensar a muchos que la interfase
entre la teoría y la práctica correspondiente está completamente consolidada y carece de
fisuras.

Desde hace relativamente poco tiempo contamos, incluso, con una especie de portavoz de
ese oficialismo: un libro exclusivamente destinado al tema, debido a Lemeshow, Hosmer,
Klar y Lwannga (1990), ahora publicado por la prestigiosa editorial Wiley, pero heredero del
manual de Lwanga y Lemeshow (1989), publicado entonces varias veces por la
Organización Mundial de la Salud. La existencia de este libro, titulado Corrección del
tamaño muestral en estudios de salud, constituye, por su alta especificidad temática, una
magnífica referencia para el examen que sigue.

Para el caso de estimar un porcentaje  bajo MSA, se recordará (Sección 3.7) que la
fórmula universalmente aceptada es la siguiente:

n=
n0 12.1
n -1
1+ 0
N

donde
Z 1-/2 (100 -  )
2

n0 = 2
12.2
E0
L.C.Silva

en la cual Z 1-/2 representa al percentil (1 - /2) 100 de la distribución normal estandarizada


(por ejemplo, si  = 0.05 , entonces Z 1-/2 = Z 0.975 = 1.96 ), N es el tamaño
poblacional y E o es el máximo error absoluto que el investigador está dispuesto a admitir al
estimar  .

Se plantea que usualmente "se puede tener una idea aproximada" del valor de  a partir de
un estudio piloto, o de una investigación similar realizada anteriormente78.

Imaginemos que se trata de una población de N = 2800 sujetos hospitalizados sobre la que
se realiza un estudio de satisfacción. Admitamos, como es usual, que se trabajará con una
confiabilidad del 95 % (  = 0,05 ) y que un E 0 = 3 % se considera aceptable. Finalmente,
consideraremos  = 86 % , "idea aproximada" que se ha obtenido, por ejemplo, a partir de
un estudio anterior. Así las cosas, la aplicación de [12.1] y [12.2] arroja que n = 434 .

Ahora bien, ésta es la solución que se da al caso en que se usa el muestreo simple aleatorio.
Si el diseño muestral es otro, en particular si se trata de un muestreo en etapas (que es el
que se utiliza por lo menos 90 de cada 100 veces en la práctica), el error que regularmente
se comete al estimar  es mayor que el corresponde al MSA (supuesto, desde luego, que
se está usando el mismo tamaño de muestra). Dicho de otro modo: con muestreo por
conglomerados, para alcanzar el grado de precisión prefijado, es necesario seleccionar una
muestra de tamaño mayor que el que demanda el MSA.

La sugerencia que se da entonces es, simplemente, multiplicar el tamaño surgido de [12.1]


por un número mayor que la unidad: el llamado efecto de diseño, usualmente denotado
como deff (véase Sección 8.6).

Es decir, el tamaño corregido nc sería:


nc = (deff)(n) 12.3

78
Otra variante consiste en poner
Install Equation Editor and double-
directamente click here to view equation. ; de ella ya nos
ocuparemos específicamente en la Sección 12.8.2.
L.C.Silva

Lemeshow y sus tres coautores, refiriéndose al MSA, dicen textualmente lo siguiente:

Este nunca sería el diseño empleado en una encuesta de terreno verdadera.


Como resultado de ello, el tamaño de muestra ha de elevarse en una
magnitud igual al efecto de diseño. Por ejemplo, si se fuera a utilizar
muestreo por conglomerados, pudiera estimarse que el efecto de diseño es
igual a 2.
12.3.2 Seis realidades escamoteadas

Hasta aquí, la síntesis de la "solución oficial" para la situación más simple dentro de los
estudios descriptivos. Como veremos de inmediato, este planteamiento contiene
demasiadas píldoras difíciles (algunas, imposibles) de tragar. Lamentablemente, el discurso
oficial tiende a ejercer un tipo de censura que silencia casi todos los problemas reales, o
suple su solución con formulaciones académicas de escasa o nula aplicabilidad. Varios
puntos son usualmente omitidos (algunos, a cal y canto) cuando se aborda el tema. A
continuación se analizan seis de ellos tomando como paradigma, nuevamente, el caso más
simple: la estimación de  en el contexto descriptivo y del MSA79.

A) LA DEMANDA INICIAL ES DIRECTAMENTE ABSURDA

Retomemos el ejemplo de la sección precedente para conocer el porcentaje de pacientes


satisfechos: se había fijado E 0 = 3 % y Z 1-/2 = 1.96 , y se sabía que N = 2800 ; pero para
hacer uso de [12.2] es necesario conocer nada menos que el propio valor de  , el
porcentaje de pacientes satisfechos.

¡Menudo círculo vicioso!: todo el proceso tiene como finalidad conocer el valor de  pero,
para empezar a desarrollarlo, es necesario conocer precisamente  . Nótese que no se trata
de un detalle lateral: un enfoque riguroso aconsejaría detener el proceso en este punto por
elementales razones de coherencia. El planteamiento es análogo, por poner un ejemplo, a
que un viajero que se halle en La Habana y quiera trasladarse a Madrid, solo pueda adquirir
el billete de avión que lo conduzca a Madrid acudiendo personalmente... a una oficina
radicada en Madrid.

B) SUBJETIVIDAD EN LA DETERMINACIÓN DE LOS DATOS QUE EXIGEN LAS


FORMULAS

79
Para casos más complejos, la situación no hace sino agravarse
L.C.Silva

La "pre-estimación" de  es, desde luego (lo anterior ya nos convence de ello), un acto
intrínsecamente cargado de subjetividad. Pero vale la pena recalcarlo con la siguiente
consideración: puesto que vamos a trabajar con "una idea aproximada" del valor de P ,
estamos condenados a conocer solo "una idea aproximada" del valor de n necesario. Si
aquella aproximación fuera mala (muy errónea), así será el tamaño muestral, algo altamente
inconveniente. Pero si, en cambio, estuviéramos verdaderamente persuadidos de que la
pre-estimación de  fuera muy cercana a su verdadero valor, entonces la situación sería
directamente absurda, porque en tal caso no haría falta hacer tal estimación, y;
consiguientemente, mucho menos necesario sería el cómputo de n .

Examinemos ahora los otros elementos de la fórmula. En el ejemplo, verosímilmente podría


contarse, como supusimos antes, con un estudio previo que hubiese arrojado un 86 % de
hospitalizados que estuvieran satisfechos; pero también es posible que una pequeña
encuesta piloto hubiese producido una pre-estimación de, por ejemplo, 80 %. ¿Cómo
escoger entre ambas alternativas? ¿Qué argumentos puede esgrimir alguien que defienda
una de las dos para rechazar la otra?

Por otra parte, se supone que hay un "error máximo" que se puede aceptar; sin embargo, no
siempre resulta fácil la identificación a priori de esa cota. Esta tarea exige del investigador
que piense en unos términos para los que con frecuencia no está preparado. Pero esto no
es atribuible al método, sino a sus usuarios. Lo verdaderamente crucial es comprender que,
ineludiblemente, se trata de una decisión esencialmente subjetiva. Volvamos al ejemplo:
¿qué error ha de considerarse suficientemente pequeño como para que resulte admisible?
No parece existir árbitro alguno que determine sin margen para el debate si un error de un 3
% (cómo habíamos supuesto en el ejemplo) es admisible; o si, para que lo sea, éste no debe
exceder, por ejemplo, el 2 % de pacientes satisfechos. Algo muy similar ocurre con la
confiabilidad 1 -  . ¿Tomar 0,95 %? ¿o 0,99 %, como sugieren otros con no menos
argumentos?

A todo este monto de subjetividad hay que añadir la que se deriva de que los diseños son,
por lo general, totalmente diferentes al muestreo simple aleatorio. Como bien sabemos, los
errores muestrales -en el caso de muestras complejas- no solo dependen del tamaño total
de la muestra, sino también de las asignaciones muestrales a los estratos y de los tamaños
de muestra en las etapas intermedias (es decir, del número de conglomerados en cada
etapa y de los tamaños muestrales dentro de los que se elijan) cuando, como ocurre casi
siempre, se usa muestreo polietápico. Este hecho, cuando no se pasa por alto, se resuelve
a través del coeficiente expansor del tamaño muestral: deff . Aquí comparece un acto de
prestidigitación numérica: el libro destinado a dar soluciones técnicamente fundamentadas
se limita (como consignamos en la Sección 12.3.1) a comunicar que el deff "pudiera
estimarse como igual a 2". Naturalmente, lo esperable es que el investigador que acuda al
libro para buscar su receta, proceda siempre de ese modo: multiplicar por dos el tamaño
muestral obtenido bajo el supuesto de MSA. En el recurso de ayuda que aparece en el
módulo STATCALC de EPIINFO, en concordancia con el talante más realista que
caracteriza a este sistema, se sugiere elegir un deff entre 1.5 y 2,0, variante más flexible,
pero no menos subjetiva (e, incluso, arbitraria).
L.C.Silva

Uno se pregunta, ¿para qué tantas fórmulas previas y tantas tablas, si a la postre hay que
multiplicar el número tan arduamente obtenido por dos, un factor balbuceado a partir de una
especulación cuya pertinencia es totalmente discutible? Se podría argüir que el efecto de
diseño "suele ser de esa magnitud". Pero es falso: basta echar una ojeada a algunos
estudios que calculan los deff para corroborar que este número cambia radicalmente de
una encuesta a otra, de un diseño muestral a otro y que, incluso dentro de la misma
encuesta y del mismo diseño, suele modificarse notablemente en dependencia del
parámetro elegido. Por ejemplo, en un estudio ad hoc relacionado con encuestas
demográficas y de salud Verma y Le (1996) comunican valores de deff que van desde 1
hasta 9, con una media de 2,25. Lo cierto es que con el deff se hace la contribución final a
la de por sí abultada colección de elementos subjetivos que inexorablemente intervienen en
este proceso.

A modo de ilustración del efecto que puede tener tal carga subjetiva, computemos los
tamaños de muestra que se obtendrían con dos juegos de posibles decisiones adoptables en
el marco de las alternativas que hemos venido considerando. La Tabla 12.1 recoge los
resultados correspondientes a dichos dos juegos (ambos igualmente razonables y,
ciertamente, escasamente discordantes), computados usando [12.1], [12.2] y [12.3].

Tabla 12.1 Tamaños muestrales necesarios para estimar cierta prevalencia según
dos juegos de decisiones iniciales.

Alternativa 1 Alternativa 2

Tamaño poblacional( N ) 2800 2800


Prevalencia (  ) 86 % 80 %
Máximo error( E o ) 3% 2%

Confiabilidad( 1 -  ) 0,95 0,99

Efecto de diseño ( deff ) 1.5 2.0

Tamaño muestral 651 2726

Quiere esto decir que dos investigadores independientes, siguiendo la misma estrategia
general (usando las mismas fórmulas para la estimación del mismo parámetro), obtendrían
tamaños abismalmente diferentes, solo por el hecho de que aprecian (legítimamente
ambos) de manera ligeramente distinta80 los valores que deben darse a los elementos que
las fórmulas demandan. ¿Podrá mantenerse que, al usar las fórmulas, se está empleando
un método medianamente objetivo?

80
Pudiera pensarse que la diferencia entre una confianza del 95 % y
una del 99 % no es "pequeña"; pero debe recordarse que, si se
decidiera trabajar con confiabilidad mayor del 95 %, según el
ritual consagrado, se escogerá 99 %, nunca 96.7 % ó 98.3 %. De
modo que si alguien siente que 95 % no es un número
suficientemente grande, habrá de admitir que 99 % es
"cualitativamente" el número más cercano a 95 % por el que se
optaría.
L.C.Silva

Por otra parte, cualquier investigador honesto reconocerá que, usualmente, ha llevado el
proceso de determinación de tamaños muestrales al revés: ha ido escogiendo los valores de
 ,  , E 0 y deff de manera tal que la fórmula [12.3] arroje aquel valor n que, más o menos,
ha decidido de antemano. Es precisamente el marco de subjetividad que inevitablemente
padece el proceso el que permite, promueve, e incluso da cierta legitimidad a tal
manipulación.

C) CASI NUNCA SE QUIERE ESTIMAR UN ÚNICO PARÁMETRO

Una encuesta, en la realidad, nunca se proyecta para estimar uno o dos parámetros, sino
que normalmente exige realizar decenas o incluso cientos de estimaciones. Debe notarse
que una tabla demanda una estimación por cada celda y, en ocasiones, suelen construirse
muchas tablas con varias celdas en cada cual. Es evidente, entonces, que no resulta
demasiado práctico aplicar fórmulas como la examinada para cada uno de estos parámetros.
Por lo pronto, a nadie, que yo sepa, se le ha ocurrido sugerir tal tontería.

Pero, aunque ello fuese factible, y aunque se contara con información disponible para
hacerlo, nos encontraríamos con un panorama contraproducente: los tamaños que
demandarían las diferentes estimaciones recorrerían, probablemente, un amplísimo espectro
de valores, todos candidatos a ser el tamaño muestral con el que a la postre se trabajaría
(este sí, necesariamente único).

Esta polivalencia suele ocultarse bajo la premisa de que se puede elegir el parámetro "más
importante" (en el mejor de los casos, "los dos o tres más importantes"). Obviamente,
incluso suponiendo que tuviera sentido hacer tal discriminación81, el margen de subjetividad
para decidir cuáles son tales "parámetros más importantes" es enorme. Y aun así, esos
"más importantes" pueden dar lugar a números muy dispares entre sí.

D) CARÁCTER REDUCTOR DE LOS TAMAÑOS MUESTRALES INDUCIDOS POR LA


NECESIDAD DE REALIZAR ESTIMACIONES DENTRO DE SUBCLASES

81
Es muy probable que no existan parámetros "más importantes": los
problemas suelen exigir enfoques integrados, que superen su
desconcatenación metafísica en parcelas.
L.C.Silva

Lo usual es que se seleccione una muestra general de unidades luego se hagan, además
de análisis globales, otros circunscritos a subconjuntos de la población, basados -natu-
ralmente- en los correspondientes subconjuntos muestrales, cuyos tamaños son
necesariamente menores (a veces mucho menores) que el de la muestra original.

Por ejemplo, en el estudio de los pacientes hospitalizados que se ha bosquejado, es muy


probable que se quieran hacer estimaciones del porcentaje de sujetos satisfechos, no solo
para toda la población de hospitalizados, sino también para cada uno de los sexos, o según
servicios del hospital, o con acuerdo a lapsos de estancia hospitalaria.

De hecho, muchas sesudas formulaciones para determinar tamaños de muestra pasan


totalmente por alto que más tarde se harán estimaciones dentro de subconjuntos para los
que las muestras necesariamente se reducen, en algunos casos muy notablemente.

En síntesis, lo que se quiere subrayar en este punto es que, al computar un tamaño muestral
empleando fórmulas, normalmente se actúa pensando en estimaciones para la población
completa; pero el error "máximo" que se está dispuesto a cometer y que se usa con el fin de
realizar aquella determinación, resulta mucho menor que el que verdaderamente se comete
en "el fragor" de la tabulación verdadera. Ejemplos reales de este fenómeno se exponen
detalladamente en las Secciones 12.6 y 12.8.3.

E) EL COSTO DE LOS PROCESOS ES CASI SIEMPRE MUCHO MÁS DETERMINANTE


QUE CUALQUIER CONSIDERACIÓN TEÓRICA
L.C.Silva

Realizar el análisis del tamaño muestral sin pensar en términos de eficiencia carece de sen-
tido: si no hubiese limitaciones de recursos, en muchos casos no se plantearía siquiera el
uso de muestras, sino que se investigaría íntegramente la población. Las disponibilidades
de tiempo, personal y presupuesto deben ocupar (y de hecho ocupan) un lugar determinante
en las decisiones, aunque muchas veces la influencia de esta limitante se ejerza de manera
implícita o solapada.

Debe decirse que existen numerosos esfuerzos teóricos para hacer intervenir los aspectos
económicos en la solución del problema del tamaño de muestra. Por ejemplo, a lo largo del
libro de Hansen, Hurwitz y Madow (1953) el lector hallará no pocos desarrollos formales
acerca de cómo determinar valores óptimos para el número de conglomerados, o para las
asignaciones de tamaños a estratos, en diseños que involucran ese tipo de decisiones. Se
trata, sin embargo, de fórmulas -en general extremadamente abigarradas- cuya aplicación
exige especificaciones cuantitativas previas sobre costos y variabilidades que solo pueden
conocerse de antemano mediante el procedimiento de ... inventarlas.

Consideremos el siguiente ejemplo, en que se quiere realizar un muestreo trietápico de


escolares para estimar una media poblacional. Según el diseño, primero se eligen m
escuelas, en cada una de ellas se tomarán como promedio n grupos o aulas y, finalmente,
dentro de cada uno de estos últimos, se elegirá un número medio de q alumnos. Los
números m , n y q que maximizan la precisión para un presupuesto total disponible igual a
C unidades monetarias, según Hansen, Hurwitz y Madow (1953) (concretamente, véase
Capítulo 19, Sección 19 de dicho libro) se determinan a través de [12.4].

q=
Ww C2
n=
1 Ww C1
m=
C
12.4
2 2
W b - W w /Q C3 q B C3 C1 + C 2 n + C3 n q

donde Q es el número medio de alumnos por escuela (computando el total de escuelas de


la población), C 1 es el costo que supone acceder a una escuela, C 2 el de contactar a un
grupo, y C 3 el de encuestar a un alumno. W w , W b y B son complejísimas expresiones
que representan medidas de variabilidad relativa entre y dentro de las unidades de muestreo.

Los valores de estos 8 parámetros ( C, C 1 , C 2 , C 3 ,W w ,W b , B y Q ) han de conocerse antes


de realizar el estudio82. Creo que no es menester extenderse demasiado enfatizando el
carácter quimérico que tiene la aspiración de aplicar toda esta parafernalia formal, habida
cuenta del laberinto en que ya nos colocaba el sencillísimo problema del tamaño muestral
para estimar un modesto porcentaje en el contexto del MSA. La influencia del presupuesto
disponible se concreta en la práctica de manera sencilla y directa; fórmulas como [12.4]
posiblemente no se hayan aplicado jamás a lo largo de los últimos 40 años.

F) SE DEBEN ESTIMAR PARÁMETROS DE DIVERSA NATURALEZA


82
Nótese que en esta formulación no aparecen la confiabilidad ni el
error máximo admisible porque el criterio usado no se basa en
poner una cota al intervalo de confianza, sino en optimizar la
precisión dentro de una restricción presupuestaria.
L.C.Silva

Usualmente se computa un tamaño muestral para estimar una media o un porcentaje dados,
y se opera con la fórmula correspondiente. Pero más tarde, en el estudio propiamente dicho,
suelen hacerse estimaciones de todo tipo de parámetros, tales como coeficientes de
correlación, pendientes de regresión o coeficientes de concordancia.

En el mejor de los casos, se construyen intervalos de confianza para estos parámetros


(saludable práctica que permite aquilatar el grado de conocimiento alcanzado sobre el
parámetro en cuestión); pero casi nunca se utilizan procedimientos formales para establecer
el tamaño muestral con que sería necesario trabajar en estos casos.
Desde luego, tales fórmulas existen83, aunque nadie las recuerde, quizás debido a que son
muy complicadas y sobre todo por las exigencias de conocimiento previo que las reducen a
ser ejemplos de interés meramente académico. Pero si los cultores de la "objetividad"
quieren ser coherentes, no deberían actuar como si dichos parámetros no fueran luego a ser
estimados. Tal conducta recuerda el conocido chiste de quien busca las llaves extraviadas
en la vecindad de un farol, no porque se hayan perdido allí, sino porque esa es la zona
iluminada.

12.3.3 El caso de las pruebas de hipótesis

Aunque el pormenorizado recorrido que hemos hecho se ha ceñido a la situación en que lo


que se quiere es hacer una estimación, virtualmente todo lo que se ha dicho es válido para el
caso en que se procura determinar el tamaño muestral para un estudio analítico, como se
deriva de las siguientes observaciones.

a. Las decisiones previas (véase Sección 10.3) sobre  ,  , 1 ,  2 , etc., son


necesariamente, en una u otra medida, dependientes de la subjetividad.

b. A menudo no solamente se aplica aquella prueba de significación que fue


tomada como base para fijar el tamaño muestral84; no es extraño que se
apliquen 5 ó 10, o más pruebas diferentes. ¿Qué sentido puede tener un
complejo análisis acerca de la potencia de "la" prueba, si en la práctica se
realizan luego, con todo desenfado, 17 pruebas de significación?

83
Por ejemplo, Hsieh (1989) ha hallado una solución para el tamaño
muestral exigido al aplicar una regresión logística en el caso del
MSA. No creo que exista para el caso de la regresión logística
bajo muestreo en etapas, aunque no sería demasiado difícil
construir una propuesta.
84
Debe consignarse que este fenómeno se produce con menos intensidad
que en los estudios descriptivos. En algunos estudios (sobre todo
en el ambiente clínico) puede ocurrir que se realice una única
prueba de significación.
L.C.Silva

c. Ocasionalmente se hacen comparaciones entre parámetros no inherentes a


la población original, sino a subconjuntos de ésta. Ese es el caso frecuente,
por ejemplo, de la postestratificación. Por ejemplo, se determina que el
estudio debe abarcar 200 casos y 200 controles. Pero en el curso del análisis
se discuten problemas para subconjuntos de esos casos y controles; se
toman, digamos, solo los ancianos (por ejemplo, 43 casos y 56 controles) y
se examina con esa información si cierto odds ratio difiere significativamente
de la unidad o no; otro tanto se hace con las mujeres, con los hipertensos,
con los que poseen nivel universitario, etc. Y no es que tales maniobras sean
condenables; todo lo contrario es por ser enteramente lógicas, e incluso
inevitables, que en este tipo de estudios la discusión inicial del tamaño
muestral global termina siendo casi un ejercicio numerológico intrascendente.

d. Los problemas de costo son tanto o más influyentes en este tipo de estudios
que en los descriptivos. Siempre recuerdo que, a poco de concluir mis
estudios universitarios especializados en estadística matemática, me tocó
asesorar a un bioquímico que planificaba un experimento con ratones de alta
pureza génica quien quería conocer a cuántos de ellos debía aplicar cierto
tratamiento estrogénico y a cuántos no. Empleadas las fórmulas de mis
libros, obtuve cifras del orden de las centenas; pero unos minutos más tarde
quedé paralizado por el dato de que, bajo concepto alguno, se podía aspirar a
trabajar con mas de 40 ratones en total, debido al elevadísimo costo de cada
uno. Tal restricción, por otra parte era consistente con lo que recogía la
literatura al uso sobre el tema.

e. Aunque se estime el tamaño de muestra necesario para probar la diferencia


de dos porcentajes o evaluar la diferencia entre un odds ratio y la unidad, no
es infrecuente que en el mismo estudio se hagan pruebas para contrastar,
además, otras hipótesis no consideradas en el proceso de elegir el tamaño,
relacionadas por ejemplo con coeficientes de correlación de un modelo de
regresión múltiple o logístico.

f. Una fórmula como [10.1] se deduce a partir del supuesto de que se ha


realizado un MSA, circunstancia casi desconocida en la epidemiología y la
investigación clínica actuales.

12.3.4 Reconocimiento de lo subjetivo

Algunas de las fuentes de subjetividad que plagan, como hemos visto, a este proceso son
ocasionalmente reconocidas en tal calidad por la literatura, pero lo típico es que no se haga
mención alguna a ellas, o se den "explicaciones" doctrinarias como la que aparece en un
reciente artículo (Mejía, Fajardo, Gómez y col., 1995):

... podría parecer que la suposición de estos valores es extremadamente


arbitraria; sin embargo, es mejor intentar esta aproximación a llevar a cabo el
estudio sin intentarlo...

Curiosa afirmación; lamentablemente, lo que no nos dicen Mejía y sus ocho colaboradores
es por qué es mejor hacer suposiciones extremadamente arbitrarias sobre los datos de que
depende el tamaño muestral antes que elegir ese tamaño directamente desde nuestra
subjetividad.
L.C.Silva

Como ya expuse antes, la mayoría de los textos y de los profesores pasan por alto estas
realidades. Afortunadamente, hay algunas excepciones; una de ellas es, en mi opinión,
notable, pues se encuentra en el famoso libro de Rothman (1986) quien, aunque sin
desarrollar las ideas in extenso, reconoce con crudeza la inviabilidad de una solución teórica
cuando escribe:

En resumidas cuentas, el problema de determinar el tamaño de muestra más


adecuado no es de naturaleza técnica; no es susceptible de ser resuelto por
vía de los cómputos, sino que ha de encararse mediante el juicio, la
experiencia y la intuición.

En la redimensionada versión de este libro, Rothman y Greenland (1998) aluden


vagamente a la existencia de fórmulas, pero reiteran el carácter relativo de su utilidad.

Sin embargo, lo que se ha consolidado entre estudiantes e investigadores es la convicción


de que para cada problema existe un número que puede ser "descubierto" por los
especialistas, independientemente del enfoque personal; un número que puede
determinarse técnicamente por aquellos "elegidos", capaces de desentrañar complejas for-
mulaciones. Muchos metodólogos profesionales pueden poner (y, de hecho, lo hacen) en un
serio aprieto a modestos investigadores exigiéndoles que justifiquen formalmente el tamaño
muestral que han elegido por analogía con lo que han visto en la literatura, o porque es el
que permiten sus recursos. Irónica circunstancia, pues me temo que la inmensa mayoría de
los propios inquisidores se verían en similar dificultad si, en lugar de dedicarse a pedir
respuestas, tuvieran que producirlas85 En tal caso, quizás acudirían a la aplicación de
fórmulas que, como se ha explicado e ilustrado, contienen una carga de subjetividad acaso
mayor que la de quien elige el tamaño muestral guiado por su propio y saludable sentido
común.

12.3.5 Finalmente, ¿qué hacer?

Lo más importante es comprender que cualquiera que sea el tamaño de muestra, tanto los
errores de muestreo como la probabilidad de rechazar erróneamente una hipótesis de
nulidad pueden ser calculados a posteriori. O sea, tanto las fórmulas para el cómputo de
errores como las de los estadígrafos en que se basan las pruebas de hipótesis contemplan
explícitamente los tamaños muestrales empleados; en ambos casos la estructura de esas
fórmulas es tal que el investigador se verá imposibilitado de sacar partido concluyente a la
información si el tamaño de la muestra fuera insuficiente.

Los investigadores se sienten a menudo desconcertados e inseguros por la simple razón de


que se les impone una teoría desconcertante e insegura, plagada de inalcanzables
exigencias. Los teóricos hacen sus elegantes propuestas y, si surgen cuestionamientos a
los absurdos en que se basan o a las endebleces que padecen, miran hacia otro lado. Uno
no puede menos que recordar la frase de Churchill: "En ocasiones, el hombre tropieza con la
verdad; pero, casi siempre, evita caerse y sigue adelante".

85
No en balde el notable sociólogo norteamericano Wright (1961)
lanzaba varias décadas atrás la exhortación: "¡Metodólogos: a
trabajar!"
L.C.Silva

Los investigadores reales, en cambio, no pueden usar el cómodo recurso de hacerse los
entretenidos, pues verdaderamente necesitan de un tamaño muestral concreto, no para
hacer manuales basados en recetas mágicas, sino para llevar adelante estudios tangibles.
¿Cuál es, finalmente, la recomendación que han de seguir estos últimos ante tan acuciante
exigencia práctica, que no puede esperar por soluciones que hoy se ignoran?

Como siempre, roto el hechizo, todo es simple. No me sonrojo al decir que, a partir de los
recursos disponibles, resulta preferible usar el sentido común y tener en cuenta los tamaños
usados en trabajos similares (es decir, incorporar el sentido común de los demás). Porque
cada problema tiene, no lo olvidemos, una historicidad a la que debe prestarse atención.
Así, por ejemplo, un estudio longitudinal de 200 sujetos sanos para estudiar los factores de
riesgo convencionales para las cardiopatías resulta, a estas alturas, "históricamente"
absurdo. Después de contar con resultados como, por poner un ejemplo, el estudio de
Framingham, en que se ha operado con cohortes de miles y miles de sujetos, ninguna
fórmula puede justificar que trabajemos con 200 individuos.

Cabe aclarar, por lo demás, que no tengo ninguna enemistad principista hacia las fórmulas;
no necesariamente me parece mal que se empleen en ciertos casos siempre que se haga de
modo flexible, se reconozcan sus enormes limitaciones y se complementen con una reflexión
crítica y abarcadora.

En cualquier caso, es ilustrativo reparar en que no casualmente la inmensa mayoría de los


trabajos serios y trascendentes (por ejemplo, los que aparecen en revistas de impacto real
como Lancet o British Medical Journal), no se detienen a explicar con taparrabos técnicos
sus tamaños muestrales: usualmente se circunscriben a comunicar los que fueron usados y
punto. Los juicios que nos puedan merecer sus conclusiones no se modificarían en absoluto
por el hecho de que consiguieran o no persuadirnos de la legitimidad técnica de aquella
decisión, sino, en todo caso, por la longitud concreta de los intervalos de confianza o por el
valor concreto que tenga la probabilidad de los resultados que arrojó el estudio bajo el
supuesto de que es válida la hipótesis nula.

Muchos de estos investigadores, sin embargo, tuvieron en su momento que explicar el


origen de los tamaños al presentar el proyecto en procura de financiación. En ese contexto
la aparición de las fórmulas es, con frecuencia, puntualmente demandada, aunque a mi juicio
no sea ésa la conducta más racional por parte de dichos funcionarios técnicos. Pero, siendo
así, los investigadores pueden verse obligados a colaborar con lo inevitable y proceden a
insertar en el proyecto fórmulas como la [12.1] (u otra similar) para serenar a los tesoreros.
Es natural que los financiadores reclamen argumentos para el tamaño muestral propuesto,
ya que de él dependen vitalmente los recursos que habrían de asignarse. Lo que no es
razonable es que se consideren relevados de responsabilidad tan pronto se les ofrezca un
artificio numerológico. Acaso sean éstos personajes quienes deben hacer una reflexión más
profunda sobre el tema y tratar de hallar, en todo caso, argumentos racionales en contra del
talante flexible que yo defiendo. Nunca las acusaciones de herejía confirieron verdadero
aval al dogmatismo, y es bien conocido que la pseudociencia reacciona con irritación y no
con argumentos ante las refutaciones racionales. Incidentalmente agrego que cualquier
intento de objetar razonadamente uno por uno los argumentos aquí desarrollados sería
bienvenido.

12.4 El problema de la no-respuesta


L.C.Silva

Un tópico que ha producido gran cantidad de literatura especializada concierne al hecho


inevitable de que parte de la información llamada a ser recogida no puede ser registrada por
una u otra razón; se trata de la llamada "no-respuesta", problema que puede llegar a tener
enorme importancia. En rigor, bajo esta denominación quedan abarcadas dos circunstancias
diferentes: la no respuesta de una unidad de análisis completa, y la que se asocia a una
pregunta específica.

La negativa a colaborar, como fenómeno social, ha ido creciendo con el tiempo (Steeh,
1981; Kessler, Little y Groves, 1995) hasta el punto de haberse triplicado las tasas de no-
respuesta en 20 años desde los años 50, especialmente en sociedades de mayor desarrollo
económico. Es hoy un problema de gran vigencia (véase, por ejemplo, Smidt y Tortora,
1998).

Intuitivamente, casi cualquier persona involucrada en la conducción de una encuesta siente


que, al incrementarse la no-respuesta, crecen los sesgos, salvo que se den circunstancias
especiales o se adopte alguna medida correctora. Al enfoque técnico de este asunto se
destinan las próximas secciones.

12.4.1 El modelo esencial

Para examinar este problema adecuadamente consideremos la siguiente situación,


relacionada con el caso de la no respuesta a una pregunta. Supongamos que se realizara
una encuesta en una población con N individuos, de los cuales N 1 son respondedores
potenciales a cierta pregunta asociada a una variable X (sujetos que no rehusan dar una
respuesta), en tanto que N 2 = N - N 1 individuos no responderían a tal pregunta en caso de
que les fuera formulada. Supongamos que la media de X para los N 1 respondedores es
X 1 , y que llamamos X 2 a la media entre los N 2 que no responderían. Obviamente, la
media poblacional sería igual a:
+
X = N1 X 1 N 2 X 2
N

Supongamos que se toma una MSA de n unidades, pero que de ellas sólo responden n1 .
Estas n1 , respuestas no serían más que las que corresponden a los integrantes de una
muestra (que puede considerarse simple aleatoria) de la subpoblación de respondedores.
Llamemos x a dicha media muestral, que es, como sabemos, un estimador insesgado de
X 1 . Si recordamos que el sesgo de x es igual a E ( x - X ) , puede corroborarse, tras un
poco de álgebra, que dicho sesgo es igual a:

E( x ) - X = X 1 - X = (
N2
)( X 1 - X 2 ) 12.5
N
L.C.Silva

La magnitud del sesgo depende entonces tanto de la que tenga


N 2 como de la
N
correspondiente a X 1 - X 2 , ya que es igual al producto de ambas. Si no hubiera diferencia
entre X 1 y X 2 , el sesgo sería nulo independientemente de cuán grande sea N 2 ; otro tanto
ocurriría si se cumpliera N 2 = 0 , sea cual sea la diferencia entre las medias. Esto quiere
decir que si los que no responderían tuvieran el mismo valor medio de X que los que sí lo
hiciesen (es decir, si no difieren unos de otros), no habría sesgo alguno (el problema se
reduciría a la pérdida de tamaño muestral) y, naturalmente, que si todos respondieran,
tampoco se produciría sesgo alguno por este concepto.

Ambos resultados son muy intuitivos. Pero [12.5] nos dice algo más: si hay diferencias entre
las medias para las dos subpoblaciones, entonces la magnitud del sesgo se incrementa en la
medida que crezca la fracción de sujetos que no responden. Lamentablemente, es frecuente
que X 1 sea diferente de X 2 ; cuando esto ocurre, se dice que la respuesta a X es
selectiva. Eaton y col (1992), por ejemplo, han comunicado que en sus estudios de salud
mental la no respuesta es significativamente mayor en personas con desórdenes
psiquiátricos que en el resto.

Consecuentemente con [12.5], para disminuir el sesgo se puede hacer una de dos cosas (o
ambas): tratar de disminuir la fracción
N 1 , y tratar de conocer la magnitud de
X 1 - X 2 para
N
suplir el estimador inicial x por un estimador corregido que emplee tal información. Antes de
examinar estas alternativas, veamos una ilustración.

Imaginemos que en una pequeña comunidad hay N = 1500 adultos y que se quiere estimar
el porcentaje de sujetos que se cepillan los dientes al menos tres veces al día. Supongamos
que el 30 % de ellos ( N 2 = 450) se negarían a responder tal pregunta. Supongamos
también que solo el 50 % de estos últimos (225) tienen el hábito en cuestión, mientras que lo
tiene el 80 % de los N 1 = 1050 que estarían dispuestos a contestar. Así las cosas, el sesgo
ascendería a (0.3) (80 - 50) = 9 ; es decir, en estas condiciones se produciría una
(1050)(80) + (450)(50)
sobreestimación del 9 %. En efecto, el verdadero porcentaje es = 71
1500
y no 80 , como arrojaría la muestra.

12.4.2 Técnicas para reducir la no respuesta

Distintos procedimientos se han sugerido para reducir la no respuesta. En primer lugar,


desde luego, se halla el recurso de volver una y otra vez a intentar el contacto con la persona
que no sea hallada en el primer intento, pero éste es simplemente un acto administrativo y
solo concierne al caso en que el individuo no responde porque no se tomó contacto con él.
L.C.Silva

Con un basamento sociológico de otro orden, se han sugerido estrategias tales como avisar
de antemano a los sujetos seleccionados que serán visitados, elegir racional y
cuidadosamente la apariencia del encuestador, así como pautarle escrupulosamente el
modo en que habrá de conducirse, y el empleo de incentivos materiales o monetarios para el
encuestado.

El aviso a través de una carta (recurso que no siempre procede) parece tener un efecto
significativo en el aumento de las tasas de respuesta (véanse los estudios experimentales de
Dillman, Gallegos y Frey, 1976).

Los incentivos (monetarios y materiales) con vistas a incrementar las tasas de respuesta en
las encuestas han sido empleados desde hace muchos años. Se han aplicado dos
modalidades fundamentales: la entrega a priori del incentivo, y el ofrecimiento de éste en un
primer contacto. Tal recurso ha sido objeto de estudio cuidadoso, tanto para el caso de
"encuestas cara a cara" como en el de las telefónicas. Erdos (1970) discute detalladamente
el tema para el caso de las encuestas postales, y un examen reciente puede hallarse en
Church (1993), quien realizó un meta-análisis que involucró cerca de 40 estudios y concluyó
que los estudios en que se aplicaba un prepago conseguían incrementar como promedio las
respuestas en casi 20 puntos de porcentaje. Cuando se daban regalos (gifts) en lugar de
dinero, el efecto era mucho menor. Resulta interesante que, según este trabajo, el monto del
pago monetario era ciertamente reducido (menos de 1.50 dólares como promedio). Singer
y col (1996), en un estudio similar de 30 artículos destinados a evaluar el efecto de tales
incentivos, corroboraron en lo esencial aquellos resultados.

Un problema que se ha señalado en relación con los incentivos materiales no monetarios


radica en que éstos pueden ser más atractivos para ciertos subgrupos poblacionales que
para otros, con la posible generación de sesgos (Levy y Lemeshow, 1980).

12.4.3 Técnicas para la imputación

Una de las vías más aplicadas y estudiadas para encarar la ausencia de un dato (los missing
data de la literatura sajona) es la llamada imputación. Esto significa que los datos faltantes
son suplidos por otros, usualmente surgidos de los cuestionarios que sí los contienen.
Además del interés que despierta como solución ante posibles sesgos, el proceso de
imputación genera matrices de datos rectangulares sin omisiones en sus celdas, lo cual es
altamente conveniente a los efectos de ciertos análisis avanzados.

Los métodos de imputación son diversos. El más simple consiste en sustituir cada valor
faltante por la media aritmética de los valores procedentes de la parte de la muestra para la
que dicho dato se conoce. Es también el más burdo. Un defecto importante es que, si hay
muchos valores perdidos y sustituidos por la media, se producirá una homogeneidad artificial
erróneamente reductora de la estimación de errores. Un refinamiento dentro de la mima
línea consiste en formar grupos de sujetos "similares" y computar las medias dentro de cada
grupo, de modo que el valor faltante se suple con la media de la variable para el subgrupo al
que pertenece.
L.C.Silva

Otra alternativa similar, pero aun más refinada consiste en atribuir valores resultantes de un
análisis de regresión. La curva de regresión se estima empleando los records (sujetos) para
los que se cuente con las respuestas a todas las variables involucradas en el proceso; es
decir, usando tanto la variable que será objeto de imputación como las variables que, por
considerarse que tienen algún valor predictivo, se hayan incorporado en dicho modelo.

Si el valor que ha de imputarse es un número (edad, salario, hemoglobina, etc), puede


emplearse la regresión múltiple; si fuese una condición categorial (grupo religioso, status
laboral, condición de hipertenso o no) podría emplearse regresión logística y hacer la
atribución o imputación de la categoría desconocida con acuerdo a la probabilidad que el
modelo de regresión estimado otorgue a cada categoría de respuesta para el sujeto en
cuestión.

Otro procedimiento empleado es el método conocido como cold deck. En esencia se trata
de tomar los valores de un "sujeto parecido" al que tiene valores perdidos y atribuírselos. Se
pueden hallar detalles de éste y otros procedimientos (como el hot deck method) en Allen
(1990), Verboon y Nordholt (1997) y en Nordholt (1998). Finalmente, cabe mencionar
técnicas más especializadas, como la imputación múltiple, descrita en Rubin (1996) y Fay
(1996).

12.4.4 Corrección de estimadores

Finalmente, está la posibilidad de corregir el estimador. La idea convencional, que se


remonta a la propuesta de Hansen y Hurwitz (1946), consiste en hacer un submuestreo de
no respondedores. Supongamos que se ha seleccionado una muestra simple aleatoria de
tamaño n y que, para cierta variable X , tenemos respuesta para n1 individuos ( n2 = n - n1
no respondieron). Asumamos que mediante algún esfuerzo especial se consigue ahora la
n1
información para m individuos de los n2 que no respondieron. Si llamamos w = , y
n
denotamos mediante x1 a la media de los que respondieron inicialmente y x2 a la media de
X para la submuestra de no respondedores, entonces la estimación corregida de X sería:
xc = w x1 + (1 - w) x2
con varianza igual a:
(1 - f)[ S 2 + (h - 1)W S 22 ]
Var( xc ) =
n
L.C.Silva

n n
donde f = , W es la fracción poblacional de no respondedores, h = 2 , S 2 es la
N m
varianza de X para toda la población y S 22 la de los no respondedores. Ocasionalmente se
asume que S 2 = S 22 , con lo cual se simplifica el proceso. Nótese que si se cumple esta
condición y, además, h = 1 (es decir, que todos los no respondedores son submuestrados),
entonces las fórmulas de xc y Var( xc ) se reducen a las conocidas para MSA.

12.5 Determinación de valores normales

Un problema de gran trascendencia tanto para la práctica clínica como para la


epidemiológica, y en cuya solución el muestreo desempeña un papel protagonista, es el que
consiste en establecer "valores de referencia"; es decir, algún tipo de marco referencial o
escala que permita conocer la posición relativa de un sujeto dado en relación con la
población a la que pertenece.

Por su naturaleza, todos los enfoques para resolver este problema pasan, de un modo u
otro, por el uso de la estadística. Los aspectos polémicos, como se verá de inmediato,
conciernen solo tangencialmente al proceso de selección. Se vinculan, más bien, con
la identificación adecuada de la población que debe investigarse y al tratamiento que se dé a
los datos, y por ende con la estimación. Esta sección reproduce en buena medida ideas
desarrolladas en Silva (1997) debido a que también son relevantes en materia de muestreo.

12.5.1 El recorrido normal

El modo más común de presentar valores de referencia para los parámetros fisiológicos es a
través del llamado recorrido de normalidad. Por ejemplo, para la creatinina, se plantea que
los valores normales correspondientes a un hombre adulto están dentro del intervalo que va
de 7 a 18 mmol/24h. Consecuentemente, un sujeto que tenga un valor por debajo de 7 o por
encima de 18 mmol/24h sería considerado, en lo que a la creatinina concierne, "anormal".

Uno de los procedimientos estadísticos más utilizados para fijar ese tipo de intervalos es en
extremo simple. Comienza con la selección de una muestra de una población de individuos
que supuestamente no tienen patológicamente alterado el parámetro en cuestión. El
procedimiento habitual exige establecer ciertos "criterios de exclusión" (que usualmente se
aplican a la muestra una vez elegida, y no a la población) concebidos para eliminar
individuos evidentemente "anómalos". Por ejemplo, para hallar valores de referencia para la
talla, se eliminarían de la muestra los acromegálicos y los que padecen de enanismo (si los
hubiera).
L.C.Silva

A continuación se realiza para cada sujeto elegido la determinación de laboratorio o, más


generalmente, la medición (llamémosle X ), y se procede a computar tanto el valor medio x
como la desviación estándar s de los datos86. Finalmente, se resta de, y se suma a x , la
magnitud 2 s . De este modo, el intervalo determinado por los extremos x - 2 s y x + 2 s es
considerado un recorrido de normalidad para la dimensión fisiológica de interés. Este
procedimiento corresponde al propósito (explícito o no) de fijar dos límites ( L1 y L2 ) para
los que se cumplan tres condiciones:

(A) que por debajo de L1 quede el 2.5 % de los valores

(B) que entre L1 y L2 se halle el 95 % de los datos

(C) que por encima de L2 se ubique el restante 2.5 % de las observaciones

Si la distribución de la variable X es gausiana o normal, entonces los límites L1 = x - 2s y


L2 = x + 2s satisfarán aproximadamente las tres condiciones.

Esta estrategia nace de una propuesta formulada por Ronald Fisher con el afán de
identificar los "valores más comunes" (los que se ubican en el intervalo [L1 , L2] ) y los "poco
comunes": el 5 % que se reparte entre los extremos. Buscar valores L1 y L2 que cumplan
(A), (B) y (C) es una decisión totalmente arbitraria, vinculada a una propiedad de la
distribución normal, pero sin verdadero asiento en consideraciones relacionadas con el
problema visto desde una perspectiva clínica o fisiológica.

Pueden mencionarse cuatro objeciones a este procedimiento:

a. Con todo derecho uno puede preguntarse: ¿por qué elegir el 5 % para identificar a
aquellos individuos que están "fuera de la normalidad"? ¿Por qué no 4 % ó 6.2 %?

b. ¿Por qué exigir una relación de simetría? Si se decidió que 95 iba a ser el porcentaje
de "normales", ¿cuál es la razón para repartir el 5 % restante en partes iguales?

c. En cualquier caso, los límites x - 2s y x + 2s cumplen las tres condiciones solo si la


distribución de X es normal. Este rasgo no tiene que regir necesariamente, como
quedó demostrado hace más de medio siglo por Rietz (1927), en ocasión de su
medular trabajo sobre estadística matemática. Es bien conocido que variables tales
como el calcio sérico o las proteínas totales siguen distribuciones muy alejadas de la
gausiana. De hecho, autores como Elveback, Guillier y Keating (1970) afirman que
la mayoría de las variables fisiológicas distan de ajustarse a una distribución normal.

d. Finalmente, puede ocurrir que 2s sea mayor que x ; en ese caso L1 sería inferior a
cero, situación que, salvo excepciones, carecería de todo sentido, ya que usualmente
los parámetros fisiológicos no pueden alcanzar valores negativos.

86
Naturalmente, si la muestra no fuera equiprobabilística, se
emplearían las ponderaciones correspondientes
L.C.Silva

Supuesto que se admite el procedimiento de hallar L1 y L2 con "la regla del 95 %", una
solución para las objeciones c. y d. consiste en trabajar con la misma muestra pero usar es-
timaciones no paramétricas de L1 y L2 ; concretamente, operar con percentiles empíricos:
una vez ordenados todos los valores de la muestra de menor a mayor, L1 se define como
aquel número por debajo del cual se ubica el 2.5 % de sus integrantes; análogamente, el
número por debajo del cual queda el 97.5 % de los individuos de la muestra se puede
aceptar como L2 .

Obviamente, por una parte se cumplirán las tres condiciones, sea la distribución gausiana o
no y, por otra, la última dificultad (límite inferior negativo) nunca habrá de presentarse.

12.5.2 ¿Qué población ha de muestrearse?

Ahora bien, fijar L1 y L2 como límites para establecer la normalidad, cualquiera sea la vía
utilizada, parece entrañar algunas contradicciones difíciles de pasar por alto.

Se exige partir de una muestra de cierta población que sea considerada, en principio, sana.
Pero el método es tal que el 5 % de la muestra que se elija para establecer los límites
necesariamente terminará siendo "anormal", hecho que nos coloca en una aparente
contradicción, pues si los integrantes de la población son sanos a los efectos de ese
parámetro, también lo serán los de la muestra, y por tanto ella no puede a la vez contener
sujetos con valores patológicos.

Como veremos, la contradicción no es tal, siempre que hagamos una conceptualización


adecuada de estos "valores de referencia". para introducir el asunto, consideremos un
problema inquietante que no concierne al modo de definir los límites, sino al proceso de
selección; más concretamente, a la población que será objeto de muestreo.

Imaginemos que se quieren conocer los "valores normales" para las funciones pulmonares
(capacidad vital, capacidad vital forzada en un segundo, etc). ¿Qué debemos entender por
una población sana de la cual tomar la muestra?

Algunos opinan que debe tomarse una muestra representativa de la población general,
excluyendo solo a aquellos de cuya condición patológica (en lo que se refiere a dolencias
que comprometan la función respiratoria, tales como la silicosis o el cáncer pulmonar) se
tenga constancia. Otros consideran que deben eliminarse a priori, por ejemplo a los
fumadores, ya que la función pulmonar de éstos se ha modificado artificial y negativamente
como consecuencia del tabaquismo. Pero, en esa misma línea, otros podrían exigir que
tampoco se admitieran sujetos sedentarios en la muestra, pues el buen funcionamiento pul-
monar demanda practicar ejercicios regularmente. Y aun podría exigirse que la muestra
estuviese exclusivamente integrada por montañeses, que no solo no fuesen fumadores ni
sedentarios, sino que nunca o casi nunca hubiesen respirado monóxido de carbono, con lo
cual su sistema respiratorio conservaría el estado más próximo posible a su constitución
fisiológica original.
L.C.Silva

En este punto cabe recordar que las acciones como las que estamos discutiendo nunca son
un fin en sí mismo, sino que se llevan adelante para algo concreto. Imaginemos que,
empleando estos límites obtenidos a través de una muestra de personas con su sistema
respiratorio en óptimas condiciones con acuerdo al más restrictivo de los criterios, se valora
al conjunto de trabajadores de una planta textil en el contexto de un tamizaje organizado por
autoridades de salud ocupacional. Con ese rasero, ¡quizás todos resulten ser anormales! La
muestra elegida para fijar el criterio diagnóstico sería tan "normal" que lo más común y
corriente resultaría ser anormal.

Es imposible escapar de este laberinto mientras no se delimite para qué se está procurando
encontrar los susodichos valores de referencia. Si lo que se quiere, por ejemplo, es
conocerlos con la finalidad de establecer una regulación de carácter jurídico, según la cual
un trabajador que presente valores anómalos resulte beneficiado con un período de
descanso o algún tipo de compensación, entonces la muestra apropiada sería la de la
población general, fumadores incluidos. Si lo que se estudia es el efecto de cierta exposición
ocupacional a través de la desviación atribuible a los contaminantes ambientales cuando se
comparen dichos valores con los de referencia, entonces la muestra más adecuada sería la
de los montañeses no fumadores. Si los valores en cuestión se desean como elementos
orientativos para la práctica clínica regular, entonces es menester que razonemos en
términos relativos a la circunstancias socio-históricas del espacio o enclave en que dicha
práctica ha de ejercerse, tal y como se fundamenta en la sección siguiente.

12.5.3 Carácter histórico de la normalidad

Para comenzar hay que reparar en cuán artificial resulta el afán dicotomizador que lleva las
cosas al plano polar: "normal-anormal". En un magnífico artículo sobre este tema, Murphy
(1973), refiriéndose al conflictivo ejemplo de las dolencias mentales, escribe:

Los defectos mentales se discuten a menudo, al menos por el hombre


común, como si hubieran dos grupos, el de aquellos con un desarrollo mental
normal y el de los que no lo tienen: dos clases distinguibles sin ambigüedad,
del modo en que pueden distinguirse las plantas de los insectos.

Y tras un análisis de las consecuencias y los riesgos implícitos en tal enfoque, señala que la
línea divisoria entre la normalidad y la anormalidad es muy frecuentemente arbitraria
(aunque no caprichosa, que es algo bien diferente) y que, cuando se establece, ello se debe
solamente a un imperativo operacional, ya que sin tal demarcación sería imposible adoptar
ciertas decisiones, por ejemplo, en el ámbito jurídico. En relación con esto, reflexiona:

¿En qué punto de su desarrollo la sociedad decidió que el tonto del pueblo ya
no debía ocuparse de barrer las calles o llevar las vacas a pastar y fue puesto
bajo el amparo de una institución? Es difícil evitar la conclusión de que la
respuesta simplemente es: «Cuando la sociedad estuvo en condiciones de
asumirlo».
L.C.Silva

Este carácter relativo de las acciones, que se verifican más en función de las posibilidades
reales que a partir de identificaciones intrínsecas de "anormalidad", se aprecia en hechos
como que el desarrollo de la sociedad contemporánea consiente, al menos en los países
económicamente más avanzados, que los oftalmólogos receten gafas graduadas al 95 % de
la población adulta general, cuya capacidad visual estaría, por definición, "dentro del
recorrido normal". Cabe recordar a Illich (1975) cuando señalaba que "toda dolencia es una
realidad que posee una configuración social; tanto su significado como la reacción a que da
lugar tienen una historia".

Paradójicamente, a la vez que solemos reiterar doctrinariamente que el hombre es un ser


bio-psico-social, aspiramos a manejar reglas dicotómicas y unidimensionales que nos digan
para cada parámetro fisiológico si un valor específico es o no normal. El carácter "normal"
de ciertas funciones no puede ser descontextualizado, ni de su relación con otras variables
fisiológicas conexas, ni del entorno económico, histórico, social y psicológico en que se
desempeña el individuo analizado.

De hecho, parece haberse enraizado un enorme malentendido al trasladar el término


"normal", proveniente del descubrimiento del físico-matemático Karl F. Gauss, relacionado
con las mediciones sucesivas de un mismo objeto, y el alcance semántico que tiene en la
clínica para separar a los sujetos que no están enfermos de los que sí lo están.

En principio, no hay ningún derecho a considerar que los límites que definen al intervalo en
que se ubican los valores menos habituales o menos distanciados de la mediana -por
ejemplo, los correspondientes al 95% de los individuos que no se hallan en los extremos de
la distribución- sirvan para marcar la "normalidad" en el sentido clínico del término. Así lo
han advertido varios autores; por ejemplo, Riegelman y Hirsch (1992) sintetizan
adecuadamente esta realidad al señalar que "el intervalo de lo normal es descriptivo y no
diagnóstico".

En general, cuando un clínico eficiente examina un conjunto de parámetros fisiológicos


integralmente, lo hará sin desdeñar la historia del individuo concreto, y su juicio dependerá
del enclave histórico, económico y cultural en que se halle. Es muy conveniente que
disponga de datos que le informen cuáles son los valores más comunes para cada
parámetro, cuál el recorrido usual de éstos en la población de la que procede el paciente,
pero sin etiquetar a priori el dato como "normal" o "anormal", algo que él decidirá después del
complejo análisis cuyos ejes básicos se han bosquejado arriba. Tal matización, por cierto,
cabe también para el examen epidemiológico a nivel poblacional.

Por otra parte, estas consideraciones nos llevan de la mano a la siguiente recomendación:
los recorridos de normalidad exigen correcciones periódicas en el tiempo; en la medida de lo
posible, además, deben establecerse para diversos subgrupos poblacionales bien definidos
(géneros, etnias, grupos de edad, zonas geográficas, etc), que a su vez han de interpretarse
mediante la conjunción de valoraciones técnicas y socioculturales. Solo en tal caso
adquieren un sentido cabal.

12.6 Las encuestas en la prensa

Últimamente se han ido consolidando determinados estereotipos para comunicar resultados


de las encuestas a la población, a la vez que se han aplicado ciertos procedimientos que
resultan tan pseudocientíficos como el horóscopo o la homeopatía.
L.C.Silva

A pesar de que implica que nos separemos por excepción del ámbito de la salud, es
insoslayable encarar este problema con rigor, aunque solo fuera porque estos hechos
comprometen gravemente la imagen y el prestigio de las técnicas estadísticas y del
muestreo ante la opinión pública y, peor aun, distorsionan la visión que puedan tener de esta
disciplina otros profesionales de la ciencia no especializados en el tema.

12.6.1 Estereotipos para no decir nada

En mayo de 1993 se produjo en Madrid un debate televisado entre dos candidatos


presidenciales: José María Aznar y Felipe González. Tres días más tarde, el periódico
español El País (1993) comunicó el resultado de una encuesta realizada por la empresa
DEMOSCOPIA en la que se sondeaba la opinión popular conformada al día siguiente de
producido el mencionado debate.

La llamada "ficha técnica", contenida en el artículo de prensa, incluye el texto que se


reproduce textualmente a continuación:

Tamaño y distribución de la muestra: 800 entrevistas fijadas mediante muestreo


estratificado por región y tamaño de hábitat proporcional a la distribución de la
población y con ampliación de cuotas de sexo y edad.

Error de muestreo: asumiendo los criterios de muestreo aleatorio simple, para un nivel
de confianza de 95.5 % (dos sigmas) y para la hipótesis más desfavorable (p=q=50), el
error para el total de la muestra sería de ±3,5 %
L.C.Silva

Comencemos examinando ahora el primero de los dos párrafos.


Confieso que el texto me resulta críptico: no consigo entender cabalmente casi nada a partir
de la palabra "entrevistas". Y sospecho fuertemente que a los lectores regulares de "El País"
les pasará lo mismo, aunque quizás muchos de ellos queden más bien anonadados con la
"cientificidad" que, a juzgar por su apariencia, destila tal enunciado.

Si se quiere comprender esa información, es menester tener respuestas para las siguientes
preguntas: ¿Qué debe entenderse por "fijar" entrevistas? ¿A qué le llaman "región"? ¿Qué
es "hábitat" en este contexto? ¿Qué significa "ampliación de cuotas de sexo y edad"?
Demasiadas dudas para un texto de 30 palabras. Uno se pregunta: ¿qué sentido tiene
brindar una información "técnica" que resulta ininteligible, incluso para especialistas?

Es curioso, además, constatar que un texto tan alejado de la transparencia deseable para
una comunicación que, aun siendo de prensa, supuestamente tiene carácter científico,
parece constituir una cómoda horma general. Por ejemplo, cinco años después, y a raíz de
las elecciones primarias del Partido Socialista Obrero Español, El País (1998b) publicaba la
siguiente "ficha técnica" en el contexto de una de sus encuestas habituales:

Tamaño y distribución de la muestra: 1200 encuestas afijadas mediante muestreo


estratificado por región y tamaño de hábitat proporcional a la distribución de la
población y con ampliación de cuotas de sexo y edad.

Error de muestreo: asumiendo los criterios de muestreo aleatorio simple, para un nivel
de confianza de 95.5 % (dos sigmas) y para la hipótesis más desfavorable (p=q=50), el
error para el total de la muestra sería de ±2,9 %
L.C.Silva

Un cotejo detallado entre el contenido de los recuadros precedentes permite apreciar lo que
no pasa de ser un acto de clonación; ¿será que estos dos diseños carecen de
especificidades propias dignas de ser comunicadas? Sería sorprendente que así fuera,
máxime cuando la encuesta de 1993 fue telefónica y la de 1998 cara a cara.

Otra formulación recurrente en muchas de las susodichas "fichas técnicas" consiste en


afirmar algo como lo siguiente: "la encuesta tiene un nivel de confianza del 95,5 % y un
margen de error de ±2,9 para datos globales" (véase, por ejemplo, El País, 1997).

Como bien sabemos, es completamente injustificable decir que la encuesta tiene tal o más
cuál nivel de confianza. Con ese recurso se da una falsa imagen de alta calidad. La
afirmación carece de sentido, pues la confianza que se pueda depositar en una estimación
será mayor o menor en dependencia de que se haya decidido trabajar con una u otra
confiabilidad (es decir, el error estimado se supedita al coeficiente de confiabilidad que se
haya elegido). Sin embargo, tal y como está escrito en la susodicha ficha, da la impresión de
que la confianza que uno puede tener en la encuesta es muy alta (del 95,5 %). De hecho, se
está jugando con la ambivalencia del término confianza, que en el lenguaje habitual tiene un
valor semántico diferente del sentido técnico con que se emplea en el muestreo.

A finales de 1997 me dirigí al "Defensor del lector" de ese periódico para comentarle este
desatino. Me permito reproducir una parte sustancial de su respuesta (Gor, 1998):

Este lector cuestiona, por incomprensible y errónea, la fórmula empleada


para expresar el nivel de confianza y el margen de error del sondeo. (...) Hay
que señalar, en todo caso, que la fórmula cuestionada («Tiene un nivel de
confianza X y un margen de error de ± X») es la habitual. Lo cual no resta
fundamento a la observación,(...) la cual es acertada aunque de difícil encaje
en una fórmula inteligible para legos, a juicio de José Ignacio Wert,
presidente de Demoscopia. «Debo empezar reconociendo», señala Wert en
su respuesta al lector, «que su argumento sobre el nivel de confianza de la
encuesta y la forma de expresarla es absolutamente inobjetable. En efecto,
técnicamente hablando, el nivel de confianza es un parámetro que responde
a una convención y no se tiene sino que se adopta. En puridad
terminológica, sería más correcto decir 'adoptando un nivel de confianza del
95,5%' o 'para un nivel de confianza del 95,5%». Wert admite: «Hemos
utilizado una convención lingüística inapropiada para dar cuenta de un dato
técnico no del todo fácil de traducir en lenguaje no técnico».

(...) Queda, en todo caso, a la capacidad de los expertos insistir en la cuadratura de


esta especie de círculo (una fórmula inteligible para el lego al tiempo que
técnicamente correcta), antes de optar por suprimir -una alternativa posible que
señala Wert- «cualquier referencia a la confiabilidad y referirse tan sólo al error del
muestreo, parámetro, al menos en apariencia, más inteligible».

Unos meses después, ante otra de las encuestas a cargo de esa empresa, me interesó,
naturalmente, ver qué solución se había hallado para no incurrir en el error tan rotunda y
honestamente admitido. Me asombró encontrar que los técnicos de Demoscopia,
impertérritos, incluían el siguiente texto: "la encuesta tiene un nivel de confianza del 95,5 % y
un margen de error de ±2,9 para el total de la muestra" (El País, 1998a). Es evidente que
hay algo, nebuloso e inquietante en todo esto.
L.C.Silva

En ocasión de aquel intercambio de opiniones, tuve a bien sugerir una solución que me
parecía (y me sigue pareciendo) óptima para resolver con toda transparencia el conflicto (la
«cuadratura del círculo» a que aludía el defensor del lector): publicar la encuesta con una
ficha informativa muy general, que solo abarque aquello realmente comprensible por
cualquiera -por tanto, exenta de todo tecnicismo-, y que comunique que todo aquel lector
interesado en los detalles técnicos se dirija al sitio WEB de la empresa responsable del
estudio. Naturalmente, si se colocara dicho informe técnico detallado en el sitio WEB de
Internet, no habría que preocuparse por las lógicas restricciones de espacio que rigen en la
prensa. Todos, al menos teóricamente, ganaríamos: la empresa podría explayarse, los
especialistas podrían satisfacer cualquier duda, y los lectores tendrían la tranquilidad de que
la encuesta puede ser evaluada, llegado el caso, por especialistas cualificados.
Lamentablemente, las empresas que se ocupan de estos temas parecen preferir que una
solución tan simple y eficiente como esta no se adopte. Ignoro con qué argumentos, pues
hasta ahora no se han dado, a la vez que se mantiene la práctica habitual sin mayor (ni
menor) rubor.

12.6.2 Lo que ocultan las afirmaciones globales

Ahora volvamos a la encuesta sobre el debate entre aspirantes a la presidencia española de


1993 y concentrémonos en que nos han informado de que el tamaño muestral es n = 800 .
La primera pregunta que se formuló a los encuestados fue: ¿VIO ENTERO O EN PARTE EL
DEBATE?

Nos comunican que solo 431 entrevistados lo vieron durante un lapso suficiente largo como
para opinar, y casi todo el resto del análisis se remite a ese número de espectadores. Por
ejemplo, a continuación se preguntó:

CON INDEPENDENCIA DE SUS SIMPATÍAS POLÍTICAS, ¿QUIÉN LE HA


RESULTADO MÁS CREÍBLE?

y registran los siguientes resultados según las tres grandes agrupaciones políticas
españolas:87
Partido Partido Izquierda
Socialista % Popular Unida
% %

Felipe González 55 0 25

José M. Aznar 28 94 34
Los dos por igual 7 3 29
Ninguno de los dos 13 1 12

87
Nótese que la suma de porcentajes dentro del Partido Socialista
asciende absurdamente a 106 %. No es una errata de este libro: así
aparece en el informe de Demoscopia.
L.C.Silva

No sabe/no contesta 3 1 0

Lamentablemente, los autores no comunican cuántos entrevistados correspondieron a cada


una de estas tres agrupaciones; pero, teniendo en cuenta datos conocidos, cabe esperar
que, por ejemplo, los simpatizantes de Izquierda Unida hayan sido alrededor de 40, ya que
esa fuerza agrupaba en aquel momento algo menos del 10 % del electorado. De modo que,
para estimar el porcentaje de individuos de Izquierda Unida a quienes resultó más creíble el
Sr. González, se trabajó con una muestra de 40, un número 20 veces menor que el tamaño
de muestra original. Esta situación es enteramente típica: aunque "la ficha técnica" informe
que la muestra fue de 800 entrevistados, el tamaño efectivo varía en dependencia de los
vericuetos computacionales que exige el estudio. Ahora detengámonos a examinar qué
efecto tiene este hecho.

Si se computa el error de muestreo en que se ha incurrido (suponiendo que se usó


muestreo simple aleatorio), como se recordará de la Sección 3.6 hay que aplicar la fórmula
siguiente:

e = Z 1-/2
p (100 - p)
12.6
n-1

Recordemos lo que textualmente decía en su ficha técnica el artículo que nos ocupa sobre el
error de muestreo: "asumiendo los criterios de muestreo aleatorio simple, para un nivel de
confianza de 95.5 % (dos sigmas) y para la hipótesis más desfavorable ( p = q = 50 ), el error
para el total de la muestra sería de ±3,5 %".

La frase "para la hipótesis más desfavorable (p = q = 50) ” aparece sistemática y casi


obsesivamente en todas las fichas técnicas de este tipo. ¿Qué se quiere decir exactamente
con ella? Se trata de que el valor p(100 - p) que está bajo el radical de [12.6] alcanza su
máximo en el caso en que p se suple por 50 (véase una explicación detallada en la Sección
12.8). Consecuentemente, el mayor valor que puede alcanzar e corresponde a dicha
magnitud de P . Por ejemplo, tomando n = 800 y Z 1- = 2 , el valor del error será, a lo
2
sumo, igual a 3.5, que es el que figura en la ficha técnica.

Pero, ¿es ésta realmente "la hipótesis más desfavorable"? Ciertamente no. Consideremos
otra pregunta del cuestionario; según el informe, el 6 % de los 800 encuestados comunicó
que probablemente no vería el segundo debate, programado para una semana más tarde.
El error asociado a tal estimación, aplicando la fórmula [12.6], sería entonces:
(6)(94)
e= 2  1.7
799
L.C.Silva

Este número es, en efecto, menor que 3.5 en términos absolutos; sin embargo, la calidad de
la estimación es inferior, pues 1.7 representa el 28 % de p = 6 mientras que 3.5 es
solamente el 7 % de p = 50 .

e
En general, el error relativo, definido como er = , se incrementa en la medida que p
p
disminuye, de manera que es absurdo afirmar que el caso en que la calidad de la estimación
es más desfavorable corresponde a preguntas para las cuales la estimación es p = 50 .

Sin embargo, lo verdaderamente grave es que para casi ninguna de las estimaciones de la
encuesta se trabaja con ese tamaño de muestra, sino con números muchísimo menores.

Tomando p = 25 % (dato registrado en la tabla como estimación de la credibilidad de


González dentro de Izquierda Unida), n = 40 y Z 1-/2 = 2 , la estimación del error máximo en
que se ha incurrido es e = 13.9 % .

Por otra parte, esta sería la estimación del error si se hubiera tratado de un muestreo simple
aleatorio. Siendo un diseño complejo (como se colige del texto incluido en la ficha técnica),
entonces el error verdadero ha de ser mayor. Concretamente, si llamamos ec al error
correspondiente al verdadero diseño, se tendrá (Kish, 1965): ec = e deff .

Supongamos que al diseño muestral que nos ocupa le corresponde un


deff igual a 2,25 (el valor medio que se produce una encuesta común y corriente, como
consignamos en la Sección 12.3.2). Es un supuesto conservador, ya que por la naturaleza
del problema (obvia tendencia a la homogeneidad de opiniones y valores dentro de una
misma localidad o región), cabría esperar un deff mayor. Pero considerémoslo así para
prosperar sin riesgo de que se considere que nuestro análisis es extremista. En tal caso, el
error estimado, una vez hecho el ajuste, resulta igual a:
ec = 13.9 2,25 = 20,3
L.C.Silva

Quiere esto decir que el error cometido al estimar ese porcentaje de 25 % podría
razonablemente ser como mínimo de 20 %. Se trata de un error enorme: casi igual a la
magnitud de lo que se estima (concretamente, las cuatro quintas partes). Es tan poco
informativo como si cuando me preguntaran mi edad, yo dijera que ésta se halla entre 9 y 80
años. Algo similar ocurre con la mayoría de las estimaciones de la encuesta.

12.6.3 Falsos vaticinios

Entre las grandes áreas de trabajo en las que se emplea el muestreo fuera de la
investigación biomédica se hallan las encuestas electorales, aquellas que se realizarán sobre
una población de votantes, ya sea para estudiar "la intención de voto" como para vaticinar
los resultados. Tal vaticinio, a su vez, puede hacerse en un momento previo pero ya muy
próximo al acto electoral, o en un momento posterior a la votación, antes de contar con
resultados oficiales.

A veces, tales encuestas consiguen identificar aceptablemente con antelación los resultados
(el ganador de la presidencia, la repartición de escaños, la respuesta que emerge victoriosa
tras un referéndum, o el desenlace que sea). Con sospechosa frecuencia, sin embargo, se
producen aparatosos fracasos de las empresas encargadas de hacer el vaticinio, como
ocurrió en ocasión de la derrota del Sandinismo en la elección presidencial de Nicaragua en
1991. En aquella ocasión se atribuyó el fiasco a la falta de cultura política de la población
nicaragüense, a la tendencia secular a ocultar sus verdaderos pensamientos y a una larga
serie de explicaciones de ese tenor. Pero he aquí que fenómenos muy similares se
produjeron años después en el Reino Unido en 1992, en España e Italia en 1993 y en
Francia en 1995. En este último caso, todas las encuestas sin excepción anunciaron que
Jacqes Chirac sería el ganador con el 25 % de los votos; Edouard Balladour alcanzaría
alrededor del 20 %, en tanto que Lionel Jospin, no llegaría siquiera a esta última cifra; el
resultado fue otro: Jospin ganó con más del 23 % y quien no llegó a 19 % fue Balladour.

A modo de ilustración, la Tabla 12.2 recoge lo acaecido en las Elecciones Generales de


España en la primavera de 1997, durante las cuales se disputaban 350 escaños
parlamentarios.

El día 3 de marzo de 1996 se celebraron las elecciones generales en el Estado español en


las cuales se disputaban 350 escaños parlamentarios. Conquistar al menos 176 de ellos por
parte de uno de los partidos significaba contar con la "mayoría absoluta" y poder,
consecuentemente, prescindir de alianzas políticas. De antemano, solo el Partido Popular
parecía tener posibilidades reales de alcanzar dicha cifra. En las semanas previas se
produjo la consabida avalancha de encuestas preelectorales que, al precio de más de 4
millones de dólares, intentaban vaticinar los resultados.
**
El panorama de lo acaecido resulta en extremo interesante, no solo por el estruendoso
fracaso de dichos vaticinios, sino por el patrón que exhibían. Hagamos un sucinto resumen
de lo más significativo; para simplificar la exposición nos circunscribiremos a los vaticinios
concernientes a las dos grandes formaciones políticas españolas: Partido Popular PP y
Partido Socialista Obrero Español (PSOE).
L.C.Silva

El día 14 de febrero, el periódico ABC publicó los resultados de una "macroencuesta"


conducida por el Centro de Investigaciones Sociológicas (CIS) según los cuales el PP
alcanzaría una apabullante victoria con más de 50 escaños de ventaja, a la vez diputados,
en tanto que al PSOE correspondería el número más bajo de su historia. Esta encuesta se
basó en 25.000 entrevistas, y sus responsables se adelantaban a declarar que "El fenómeno
de voto oculto al PSOE, encuestados que no reconocen su intención de volver a votar a ese
partido, se tiene muy en cuenta en todos los estudios después de las anteriores elecciones"
y adicionaban que "La gran cantidad de entrevistas con que se hace la macroencuesta del
CIS permite afinar más que las empresas privadas a la hora de distribuir escaños" (ABC,
1996).

Las Tablas 12.2 y 12.3 recogen vaticinios y realidades para los dos grandes partidos.

Tabla 12.2 Vaticinios realizados por las empresas contratadas por grandes medios de
prensa españoles del número de escaños que alcanzarían el PP y el PSOE en las
elecciones generales de 1996.

Periódico PP PSOE
ABC 176 – 184 117 - 125
El país 170 – 178 118 - 128
El Mundo 170 – 179 113 - 123
La Vanguardia 160 – 170 135 - 145
El periódico 165 – 175 119 - 129
Resultados reales 156 141

Tabla 12.3 Porcentajes de votos vaticinados para el PP y el PSOE por las empresas
contratadas por los grandes periódicos españoles en las elecciones generales de
1996.

Periódico PP PSOE Diferencia


ABC 44,1 32,5 11,6
El país 42,4 33,4 9,0
El Mundo 42,3 31,4 10,9
La Vanguardia 41,0 35,0 6,0
El periódico 41,2 33,5 7,7
Resultados reales 38,8 37,5 1,3
L.C.Silva

Como puede apreciarse, el fiasco no solo es enorme y palmario, sino sorprendentemente


uniforme: mientras la diferencia real en el porcentaje de votos fue un escaso 1,3 %, todas
las encuestas anticipan una diferencia enorme (de 6,0 puntos la que menos yerra, y nada
menos que de 11,6 la que se equivoca de manera más sensacional).

Por si fuera poca "coincidencia", debe notarse que si bien las encuestas mencionadas en la
Tabla 12.2 se realizaron días antes de la votación, tres estudios realizados "a pie de urna",
una vez consumada la votación, arrojaron resultados parecidos, como se aprecia en la Tabla
12.4.

Tabla 12.4 Resultados de las encuestas a pie de urna sobre el número de


diputados alcanzados por el PP y el PSOE en las elecciones generales de 1996.

Empresa PP PSOE
Tábula V 164 - 174 120 - 132
Demoscopía 160 - 171 125 - 135
Sigma 2 164 - 174 124 - 131
Resultados reales 156 141

De hecho, los 6 intervalos de confianza estuvieron muy lejos de "atrapar" al parámetro.

Ante el estupor de legos y especialistas producido por tal desaguisado, las reacciones de los
responsables de los sondeos y las estimaciones son diversas y harto elocuentes. No creo
que valga la pena examinarlas exhaustivamente, pero sí apreciarlas a grandes rasgos.

Una de las explicaciones más mencionadas consiste en que existía un "voto oculto"; es decir
un "voto vergonzante" de quienes no están dispuestos a admitir el que a la postre sería su
voto verdadero (en este caso, desde luego, atribuible a votantes del PSOE). La notable
consistencia del error hace pensar en una clara sistematicidad. Si el error fuera aleatorio, no
se hubiera escorado siempre hacia el mismo lado, de modo que la explicación en sí misma
es bastante verosímil. Lo que ella no explica es el fallo de las encuestas.

Por una parte, tal eventualidad no pudo haber sido imprevista, como refleja el texto de ABC
arriba citado. Por otra parte, algunos llegan por ese camino a culpar al electorado de su
fracaso. Por ejemplo, el responsable de la encuesta realizada por Tábula V, la más
desatinada de todas, comunicó que "creía hasta ahora que estaba en una democracia
estable". Es como decir: "la responsable del error es la realidad, no el instrumento que he
empleado para conocerla". Algo similar había declarado Fréderic de Saint Sernin,
responsable de la encuesta encargada por Jacqes Chirac en 1995, cuando las urnas
desmintieron espectacularmente su vaticinio: "la gente puede comportarse de manera
totalmente irracional cuando acude a votar".
Esto es como si al equivocarse en el pronóstico del tiempo, el Instituto de Meteorología
comunicara que la culpa del error la tuvieron las nubes.
L.C.Silva

Si un equipo técnico de muestristas y analistas se propone hacer un vaticinio electoral, no


puede escudarse en tales excusas: parte de su responsabilidad consiste precisamente en
conducirse con el rigor necesario para contemplar la realidad tal como es. Esto significa, en
primer lugar, que han de emplearse tamaños muestrales adecuados; en mi opinión, por
ejemplo, una muestra nacional en España que se proponga "repartir escaños" no puede
bajar de 20.000 sujetos y casi todos estos estudios trabajaban con menos de 5.000. Pero
mucho más importantes son: el método de selección (¿son realmente probabilísticos los
diseños?, ¿se adoptan medidas para que no haya
sobrerrepresentación de encuestados "fáciles", como pueden ser ancianos o amas de
casa?), el manejo de la no respuesta (¿se manejan técnicas adecuadas de imputación,
reducción de las tasas de no respuesta y corrección de estimadores?), la realización de
controles de calidad rigurosos del dato primario (¿se retribuye adecuadamente a
encuestadores y supervisores? ¿se controla con rigor su desempeño? ¿se hacen
reencuestas de control?). Es imposible responder estas seis preguntas, ya que la
transparencia metodológica es nula, como ya vimos en las secciones precedentes, aunque
no sea imposible imaginarse las respuestas. Personalmente, sospecho que las
contestaciones a todas o casi todas esas interrogantes son esencialmente negativas.

12.7 Cálculo y presentación de errores muestrales

Como ya sabemos, tras una encuesta verdadera se produce usualmente la estimación de


decenas o cientos de parámetros. Es bastante natural que nos preguntemos: ¿es necesario
calcular y presentar los errores de muestreo asociados a todas las estimaciones? La
respuesta es obviamente negativa. Hacerlo daría lugar a un informe tan farragoso que
podría desnaturalizarlo. La conducta más recomendable es la de escoger un grupo de
parámetros, típicamente aquellos que se consideren más representativos del estudio, y
exponer para ellos los errores de muestreo (y, ocasionalmente, los valores de deff ).

En algunas tablas suele ponerse entre paréntesis, al lado de las estimaciones, los errores
absolutos o relativos de dichas estimaciones88. En ocasiones se pone, por lo menos, una
nota en que se consigne que todos los errores relativos estimados son inferiores a cierto
valor (el que corresponda). No es una solución óptima, pero es mucho mejor que no aludir al
tema. Un trabajo en que se desarrollan y ejemplifican profusamente las diversas técnicas de
presentación (incluyendo recursos gráficos) es el de González, Ogus, Shapiro y Tepping
(1975). Otra variante posible (Levy y Lemeshow, 1980) para evitar que el informe crezca
insoportablemente, no excluyente de las anteriores, es ingeniárselas para dar la información
necesaria que permita al lector hacer sus propios cómputos si lo desea.

12.8 Conjurando errores comunes

Para concluir este capítulo, se enumeran y comentan varios errores que suelen cometerse
en la práctica, algunos de los cuales están tan extendidos que incluso han llegado
reiteradamente a la imprenta.

12.8.1 Fracción de muestreo versus tamaño muestral

88
Atención: no confundir con la desviación estándar de la variable
correspondiente.
L.C.Silva

En ocasiones se hacen recomendaciones como la siguiente89:

SI UD. NO TIENE ELEMENTOS PARA DECIDIR EL TAMAÑO MUESTRAL DE MANERA


RIGUROSA, TOME EL 10 % DE LA POBLACIÓN PARA FORMAR LA MUESTRA

En más de una oportunidad, tras explicarme un problema concreto, me han consultado


directamente en esos términos: ¿qué porcentaje de la población debe ser muestreada?

En el texto de una normativa para realizar una auditoría de la gestión hospitalaria, en la que
se fijan los pasos que debe dar el equipo auditor, puede aparecer una orientación del tipo
siguiente:

SELECCIONAR EN CADA HOSPITAL UNA MUESTRA ALEATORIA FORMADA POR EL 15


% DE LAS HISTORIAS CLÍNICAS INICIADAS DURANTE EL ÚLTIMO TRIMESTRE Y, SI EL
PORCENTAJE DE HISTORIAS QUE TIENEN DEFICIENTEMENTE RELLENADO LA CAUSA
DE INGRESO EXCEDE EL 25 %, ENTONCES...

Todos son ejemplos de un enfoque improcedente: el de establecer el tamaño muestral


fijando un porcentaje poblacional, como si éste fuera relevante. Por ejemplo, en el caso de
la auditoría, contrariamente a lo buscado y a lo que podría pensarse, para la evaluación de
los hospitales grandes la muestra será de tamaño probablemente excesivo, y por tanto se
verificará con extraordinario rigor, en tanto que para la de los pequeños el tamaño muestral
puede llegar a ser minúsculo, y como consecuencia resultar en extremo imprecisa, ya que el
azar tendría mucho más margen para influir en las conclusiones de lo que resulta
conveniente o aceptable. Es bien sabido que la calidad de una estimación depende
vitalmente del tamaño absoluto de la muestra, y solo mínimamente del porcentaje que éste
representa con respecto al poblacional. El juego de las urnas descrito en la Sección 3.8
procura subrayar esta realidad; uno de los componentes incluidos en el módulo de
simulaciones de SIGESMU permite al usuario apreciar vívidamente este hecho.

Si se quieren o se necesitan indicaciones de tipo general, hay que darlas a través de


números absolutos. Por ejemplo, en World Fertility Survey (1975) se recomienda que los
estudios nacionales de fecundidad se realicen con tamaños elegidos entre de 2000 y 8000
mujeres en edad fértil. Nótese, por una parte, el enorme margen que se da para la elección,
pero por otra parte y sobre todo, repárese en que, puesto que el tamaño muestral puede
oscilar entre esas dos magnitudes independientemente del país estudiado, entonces la
fracción de muestreo puede variar notablemente de un país a otro, ya que los tamaños
poblacionales entre países exhiben un recorrido cientos de veces mayor. Si se tomara una
muestra de 2000 uruguayas (de una población con alrededor de un millón de mujeres en
edad fértil), la fracción de muestreo será 0,2 %; si se toman 8000 para un estudio en la India,
entonces la fracción de muestreo se reduce a, 0.0008 %, un número 250 veces menor que la
fracción correspondiente a Uruguay. Sin embargo ambas muestras producirán estimaciones
similarmente eficientes.

89
No conozco, ciertamente, extos serios que hagan esta
recomendación. Este comentario se incluye no para hacer una
crítica a lo que he llamado "teoría oficial del muestreo", sino
para precaver a los lectores sobre la improcedencia de una regla
que aparece ocasionalmente en ambientes técnico-administrativos.
L.C.Silva

A la hora de establecer el tamaño muestral, en síntesis, hay que pensar en términos


absolutos sin dejarse impresionar por el hecho de que ese número pueda representar una
pequeña (o grande) parte del tamaño poblacional.

12.8.2 ¿Un 50 % mágico?

Al asumir que si el porcentaje de sujetos con cierto rasgo asciende al 50 % entonces se


obtiene el mayor tamaño de muestra simple aleatoria posible, se incurre en una falacia que
parece muy extendida. Es posible hallarla tanto en textos de muestreo (Azorín y
Sánchez-Crespo, 1986), como de metodología de la investigación (Argimón y Jiménez,
1991) y de epidemiología (Jenicek y Cleroux, 1987), así como en manuales de estadística
(Domenech, 1990). Por cierto, también figura en el recetario que debemos a Lemeshow y
sus tres colaboradores (Lemeshow, Hosmer, Klar y Lwanga, 1990). Allí, por ejemplo, se
hace textualmente la tajante afirmación siguiente:

Cuando el investigador no tenga la menor idea acerca de cuál puede ser el valor de P,
sustituya 50 en su lugar y siempre obtendrá suficientes observaciones, cualquiera que sea el
verdadero valor de P.
L.C.Silva

Para examinar la fundamentación de tan curiosa receta recordemos una vez más las
fórmulas [12.1] y [12.2] correspondientes a la estimación de un porcentaje en el marco del
MSA. Dicha fundamentación sería la siguiente:

Puesto que 50 es el valor de  para el cual el producto (100 -  ) es máximo, al


suplir  por 50 se asegura el mayor valor posible para n0 . Este tamaño nunca
podría ser menor que lo que resulta de tal manipulación ya que, como se deriva de
[12.2], n0 es directamente proporcional a (100 -  ) . Finalmente, puesto que,
según la fórmula [12.1], a mayor valor de n0 , mayor es n , ningún otro valor de P
puede producir una muestra mayor que la que se alcanza fijando P = 50 .

Como ya he expuesto con detalle en otro sitio (Silva, 1997), se trata de una regla totalmente
falaz, cuya fundamentación es inaceptable y carente de interés práctico. Sin embargo, el
problema ha concitado controversia, como pone de manifiesto la publicación de una serie de
defensas y réplicas en torno a la posible invalidez del principio que se ha resumido en el
recuadro; a saber: Campbell(1993), Seuc (1998), García y Almenara (1999), Marrugat,
Vila, Pavesi y Sanz (1999), Suárez y Alonso (1999), Marrugat, Vila y Pavesi (1999) y
Silva (2000).

Antes de entrar en detalles, sugiero al lector que, valiéndose solo de su intuición, intente
responder por sí mismo el siguiente problema.

Dos investigadores quieren hacer respectivas estimaciones concernientes a la población


adulta de una misma ciudad; uno de ellos quiere estimar la tasa de prevalencia de ciegos; el
otro se interesa por conocer el porcentaje de individuos que han acudido al médico al menos
una vez en los últimos 5 años. Guiándose simplemente por el sentido común, ¿cuál de los
dos investigadores necesitará a su juicio una muestra mayor?

Es bastante intuitivo que en el segundo caso una muestra de, por ejemplo, solamente 50
sujetos podría servir. No se afirma que la estimación resultante en tal caso sea "buena"; sólo
que no sería descabellado trabajar con dicho tamaño.
L.C.Silva

Por otra parte, un par de cálculos elementales nos permiten comprender que una muestra de
50 personas tomada de la población general será flagrantemente insuficiente para estimar el
primer parámetro. Veamos: es casi seguro que ella no contenga ciego alguno (en cuyo caso
sacaríamos la absurda conclusión de que no hay ciegos en la ciudad, ya que no sólo la
estimación puntual sería igual a cero, sino que también el error estimado sería nulo); pero si
apareciera al menos un invidente en la muestra, en principio se concluiría que la tasa de
ceguera es por lo menos 2%, dato casi tan absurdo como el anterior, pues se sabe
positivamente que la verdadera tasa de ceguera es marcadamente menor (nótese que el
intervalo de confianza en caso de que hubiera un ciego en la muestra sería
aproximadamente [-2%, 6%], lo cual equivale a no decir nada que no sepamos). Tales
despropósitos no ocurrirán con el porcentaje de individuos que acudieron al médico; si por
ejemplo, 20 de los 50 encuestados estuvieran en ese caso, la estimación de la tasa sería
muy imprecisa, pero no sería ni mucho menos disparatada. Sin embargo, este último
porcentaje está muchísimo más cerca de 50 % que la tasa de ceguera. ¿Cómo sostener
entonces que el cómodo recurso de suplir p por 50 produce el tamaño muestral mayor que
pudiera exigir el problema? Dicho de otro modo: tanto la intuición como un simple análisis
cuantitativo nos conducen inevitablemente a pensar que para estimar adecuadamente la
prevalencia de un fenómeno muy raro necesitamos una muestra muy grande, lo contrario de
lo que ocurre cuando se trata de estimar una prevalencia próxima a 50 %. De modo que la
afirmación del último recuadro entra en franca colisión contra nuestro sentido lógico.

Las reflexiones que siguen reafirman que, esta vez, no se trata de que la intuición nos
traicione, sino de que el contenido del recuadro intercalado al inicio de esta Sección es
erróneo.

(1.96 )2 (100 -  )
Formalmente, es cierto que la expresión no = , como función de  , alcanza
E 02
su máximo valor para  = 50 . Nótese que en tal caso:
(1.96 )2 2500 10000
n0 = 2
 2
E0 E0
L.C.Silva

y que cualquier otro valor de  producirá un no menor. Por ejemplo, para P = 30 (al igual
que para  = 70 ), tendríamos:
8400
n 2
.
Eo

La Tabla 12.5.1 muestra el comportamiento de P(100 - P) para varios valores escogidos de


 en su recorrido posible de 0 a 100.

Tabla 12.5.1 Magnitud del producto P (100 - P) para diferentes valores de  en el


recorrido que va de 0 a 100

 0 5 10 30 50 70 90 95 100
 (100-  ) 0 475 900 2100 2500 2100 900 475 0

Como se aprecia,  (100-  ) disminuye en la medida que  se aleja de 50, cualquiera sea la
dirección en que ello ocurra.

Ahora bien, no es una función de P , pero también lo es de E o , de modo que la relación


entre P y no solo es válida siempre que se suponga que E 0 está fijado de antemano. Sin
embargo, y aquí radica la esencia de todo: el máximo error absoluto E 0 que se puede
admitir a la hora de estimar  no puede establecerse razonablemente sin tener en cuenta la
de  , no se podrá fijar hasta que no se tenga una idea de dicha magnitud.

Imaginemos que se ha estimado la prevalencia de cierta dolencia específica, y que se sabe


que el error que se ha cometido al hacerlo no excede al 1 %. ¿Es grande o pequeño ese
error? ¿Se ha conseguido estimar razonablemente bien el valor de esa prevalencia  ? Si el
lector medita durante unos segundos y procura responder a estas dos preguntas, no
demorará en comprender que es imposible darles respuesta hasta tanto no conozca cuál es
el valor de  . Esto es así, del mismo modo que no sabemos si resulta caro un objeto que se
vende al precio de 100 dólares mientras no sepamos de qué objeto se trata.

En efecto, si se trata, por ejemplo, de la prevalencia de cáncer pulmonar (un número


próximo a 1 en 20 000), un error de 1 % sería descomunal; pero, si se trata de la prevalencia
de hipertensión arterial, (que podría ser un 15% quizás), tal error sería perfectamente
admisible, pues con seguridad es menor que la décima parte de  .

Dicho de otro modo: cuando se va a calcular n0 en el caso que analizamos, hay que pre-
estimar  , no solo porque lo demanda explícitamente la fórmula [12.2], sino porque sin ese
conocimiento es imposible decidir el valor del error absoluto que también aparece en ella.
L.C.Silva

Imaginemos que le pedimos al Sr. Lemeshow que calcule el tamaño muestral para un
estudio que realizaremos en una población de 2000 habitantes. Para simplificar las cosas le
diremos que se trata de un MSA y que queremos estimar un solo parámetro: el porcentaje
de sujetos que poseen cierto componente sanguíneo denominado farsemia. Se trata de un
componente que está presente (o no) en la sangre de cada individuo; pero "no tenemos ni la
menor idea" de cuál será el porcentaje de sujetos que posee ese rasgo. ÉL conoce N ,
puede decidir, por ejemplo, que  en 0.05, y suponer que  = 50 (no porque crea que ese
es el valor, sino "para tener la muestra mayor posible"); ahora bien, ¿qué valor colocará en
lugar de E o dentro de [12.2]? Es simplemente imposible fijar ese número de manera
racional mientras no se tenga una idea de la verdadera prevalencia de farsemia entre los
seres humanos. Cualquier valor de E o que él surgiera pudiera ser enorme (o
exageradamente pequeño) comparado con la prevalencia de farsemia, ya que sobre ese
número se ignora todo. Es para mí un excitante misterio conocer qué respuesta daría a
dicha pregunta.

Lo que sí podría fijarse de antemano es el valor del error relativo. Por ejemplo, podría
decidirse que éste no sobrepase al 10 % de  : E r =
E 0 = 0.1 . Para poner
no en función de

E r , se divide tanto el numerador como el denominador de [12.2] por  y se tendrá:
2

(1.96 )2 100- 
n0 = 12.7
E 2r
L.C.Silva

De modo que para E r = 0.1 , al aplicar [12.7] se tiene que n0 = 384 100-  . Ya no aparece el
fastidioso E 0 en la fórmula. Pero es fácil ver que, a diferencia de (100 -  ) , la expresión
(100 -  )
 que ahora tenemos no está superiormente acotada ni alcanza su máximo para
 = 50 , sino que tiende a infinito en la medida que  se aproxima a 0.

Dicho de otro modo: cuando se prestablece el error en términos relativos, n0 crece en la


medida que  disminuye, resultado que no nos puede sorprender, pues -como ya vimos en
el ejemplo de los ciegos- es coherente con la intuición: si el rasgo cuya prevalencia se quiere
estimar es muy poco frecuente, entonces el tamaño de muestra necesario ha de ser muy
alto.

En síntesis, la regla que se ha examinado es absurda porque olvida que el conocimiento


previo del valor de la prevalencia es necesario no solo para sustituirlo en la fórmula, sino
también para poder fijar E 0 , "detalle" que la mágica sustitución de P por 50 no resuelve. Si
no se tiene la menor idea de cuál es el valor de p , lo único sensato es procurar alguna
información al respecto usando un tamaño muestral elegido sin emplear fórmula alguna.
Consideraciones conexas a las que se acaban de abordar pueden hallarse en la Sección
3.8.7.

12.8.3 Diseños convertidos en un esfuerzo estéril

Con frecuencia se realiza un diseño probabilístico (a veces complejo), pero luego no se


calculan errores de muestreo, o se hacen vagas declaraciones en torno a ellos. Es decir, se
trabaja con rigor en la fase de diseño, se acude incluso a un especialista con el fin de
conseguir que la muestra sea probabilística, pero en la fase de análisis se prescinde del
cálculo de errores. Se reducen así los esfuerzos iniciales a un formalismo. Probablemente,
quienes así se conducen creen erróneamente (véase Sección 1.7) que al hacer un diseño
formal con participación del azar están insuflando representatividad a la muestra, cuando lo
único que asegura tal procedimiento es la objetividad del muestrista y la posibilidad de
estimar el grado de precisión de las estimaciones.

No es raro encontrar afirmaciones como ésta: "los porcentajes de esta encuesta se han
estimado dentro de márgenes de error inferiores al 5 %". Cabe preguntarse: ¿qué se quiere
decir con tal afirmación? ¿Significa que el error relativo es para todas las estimaciones
inferior a la vigésima parte de los respectivos valores puntuales? Si es así, hay que decirlo
con toda claridad90. Si se trata de que es el error absoluto el que no excede el 5 %,
probablemente no haya motivo alguno para el regocijo, ya que cualquier característica cuya
presencia se haya estimado por debajo del 30 % estaría afectada por un error relativo
posiblemente muy grande, y quizás enorme. En cualquier caso, así formulada, se trata de
una información borrosa y equívoca, y no es improbable que tal afirmación concierna
exclusivamente a la variable elegida para determinar el tamaño muestral.

90
Incidentalmente, de ser ese el caso se estaría ante una magnífica
encuesta.
L.C.Silva

En una encuesta para evaluar actitudes sociales ante el SIDA entre el colectivo de trabajado-
res de la salud en España, por poner un ejemplo real, Arredondo, Coronado, de la Fuente
y Luengo (1990) incurren en la omisión que nos ocupa. Se obtuvo una muestra estratificada
bietápica de 1325 trabajadores y se identificaron cuatro subclases, a saber: Médicos (491),
Personal de Enfermería (399), Personal Auxiliar de Enfermería (389) y Asistentes Sociales
(46). A lo largo del texto no se trabaja con errores de muestreo ni con intervalos de
confianza. Al respecto, solo se comunica textualmente lo siguiente:

Los márgenes de error pueden aproximarse por las fórmulas habituales para
muestreo aleatorio simple en el caso de distribuciones de variables con dos
categorías igualmente distribuidas (p=q=50%). A un nivel de confianza del
95% los errores de muestreo absolutos serían:

Total de la muestra.....................2.7%
Médicos ................................4.4%
Personal de enfermería .................4.9%
Personal Auxiliar de Enfermería.........4.4%
L.C.Silva

Dicha declaración suscita en principio los siguientes dos comentarios críticos:

a) Dado que se realizó un diseño complejo, no es correcto actuar como si se


tratara de un MSA y aplicar esa aproximación que se afirma que "puede"
hacerse y de hecho se hace. Nótese, por ejemplo, que 2.7% es el valor del
error (fórmula [12.6]) cuando se tiene p = 50% con una muestra de 1325 en
MSA (trabajando con f = 0 ).

b) ¿Por qué no se comunica el error que afecta a las estimaciones de


porcentajes correspondientes a los asistentes sociales? Siguiendo los
mismos cálculos que realizaron estos autores y teniendo en cuenta que el
tamaño muestral en este caso es 46, para el mismo caso p = 50 , dicho error
ascendería a 14.6%. O sea, un número enorme (casi un 30% de error
relativo), sin contar el hecho de que, en realidad, es aun más grande, ya que
el muestreo no fue simple aleatorio. Si p=7%, entonces -incluso para MSA-
e sería 7,4% (¡error relativo del 100%!). Por otra parte, el hecho de que no
se mencione el error asociado a las estimaciones en este grupo, no quiere
decir que luego éstas no se hagan: a lo largo del texto hay numerosas
estimaciones circunscritas a esta subclase, así como juicios que reposan en
las diferencias encontradas entre éstas y las que se hallaron en los otros
grupos.

12.8.4 Sustitución mecánica de unidades

A veces se sigue la táctica de suplir una unidad que no fue posible encuestar por la que
ocupa el siguiente lugar de la lista o la que subsigue dentro de la zona en que se trabaja.
Por ejemplo, una casa deshabitada que estaba en la muestra se sustituye por la siguiente
vivienda habitada según cierto orden prestablecido. Tal práctica debe evitarse, porque
rompe con la estructura probabilística establecida. Imaginemos una situación muy simple: se
quiere seleccionar una muestra sistemática con intervalo K = 4 de una población de N = 20
viviendas; supongamos que la regla prestablecida sea tomar la siguiente vivienda cada vez
que se tropiece con una deshabitada y que en nuestro listado la tercera vivienda tenga esa
condición. De tal suerte, la probabilidad de selección de la cuarta vivienda sería la suma de
su probabilidad inicial (0.25) y la de la tercera vivienda (0.25). A la cuarta vivienda se le está
otorgando la probabilidad de selección que inicialmente se le había asignado, más la de la
unidad precedente, debido a que no se pudo localizar o a que no procedía encuestarla.
Siendo así, las unidades próximas a las "conflictivas" aumentan indebidamente su presencia
en la muestra, con lo cual pueden sesgarse los resultados.

La conducta técnicamente correcta es la de no hacer sustitución alguna, sino retener en la


muestra solamente a los que, habiendo sido elegidos, son también localizados y
encuestados.
L.C.Silva

Asociada a la idea de sustituir unidades mecánicamente, se halla otra, a la vez más


perniciosa y aun más frecuente: determinar un tamaño muestral e ir seleccionando
elementos de un listado hasta que se alcance dicho tamaño. Es evidente que, actuando de
ese modo, se pierde el control probabilístico del proceso; por decirlo rápido, las unidades que
se hallan al final del listado tienen probabilidad mínima o nula de ser elegidas, en tanto que
las primeras saldrán con certeza total o casi total.

12.8.5 Rutas aleatorias

Con alguna frecuencia las empresas que se ocupan de encuestas (raras veces en el marco
de la investigación científica de salud) mencionan en sus fichas técnicas que se han
empleado las llamadas "rutas aleatorias" dentro del diseño. Supuestamente, se trata de la
aplicación del azar para determinar los movimientos sobre el terreno de los encuestadores,
de manera que se produce una especie de random walk; a partir de tales rutas, ellos siguen
ciertas reglas de conducta, muchas veces difusas, para decidir las viviendas que han de
encuestarse.

El procedimiento carece de un marco teórico claro y abre evidentes conflictos en materia de


control del carácter probabilístico de la muestra, generando la consiguiente suspicacia en
materia de sesgos. Autoridades de fama mundial, como Leslie Kish, no solo han
desestimulado y criticado el uso de este recurso, sino que han instado a las empresas a
"responder" a tales señalamientos (Kish, 1994).
L.C.Silva

Página -1-

También podría gustarte