Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Bibliografía
CAPITULO 2 LA ENCUESTA
2.2 El cuestionario
Bibliografía
3.1 Introducción
Bibliografía
Bibliografía
Bibliografía
Bibliografía
7.4 Notación
Bibliografía
Bibliografía
Bibliografía
Bibliografía
Bibliografía
INDICE DE MATERIAS
L.C.Silva
PRESENTACIÓN
La presente obra constituye una prolongación, tanto cualitativa como cuantitativa, de mi libro
"Muestreo para la investigación en ciencias de la salud" publicado por la Editorial "Díaz de Santos"
hace más de un lustro atrás. Habiéndose empleado como texto en decenas de cursos de
posgrado impartidos en varios países, fueron cuantiosas las insuficiencias detectadas que ahora
procuro enmendar o mitigar.
Por otra parte, a lo largo del texto se han introducido diversos ejemplos concretos con el fin de
compartir -aunque sea de manera parcial- mi modesta experiencia en el empleo de las técnicas
muestrales como medio auxiliar para dar respuesta a diversas interrogantes relacionadas con el
estado de salud de la población, los problemas económicos de la salud pública, la organización de
los servicios de salud y otras cuestiones afines.
Con fines ilustrativos y procurando optimizar la comunicación de los principios en que reposa toda
la teoría muestral, se apela en varios puntos del libro a ejemplos artificiales en que las poblaciones
son de muy pequeño tamaño. Naturalmente, tales ejemplos carecen de realismo, ya que en la
práctica no tiene sentido aplicar técnicas de muestreo a poblaciones minúsculas. Sin embargo, la
naturaleza de algunos de los problemas tratados es completamente independiente de los tamaños
poblacional y muestral; de modo que trabajar con poblaciones muy reducidas no supone ningún
escollo conceptual a la vez que favorece didácticamente la exposición.
En términos generales, la obra procura además romper con diversos dogmas y mitos que se han
ido consolidando en la metodología "oficial" del muestreo. Se trata de poner en su justo lugar
ciertos métodos frecuentemente invocados en algunos textos clásicos y que, aun teniendo
1
L.C.Silva
ocasionalmente cierto interés académico, están objetivamente alejados de las posibilidades
prácticas regulares, o son directa y llanamente desconocidos por ellas.
Para consolidar y comunicar las ideas contenidas en este libro he contado con innumerables
fuentes de estímulo. Desde el punto de vista formativo en materia de muestreo, siempre me
sentiré en deuda con mis queridos profesores y amigos Leslie Kish de la Universidad de Michigan
y Joseph Machek de la Universidad Carolina de Praga por sus generosas enseñanzas. Y desde
una perspectiva más general, expreso mi agradecimiento al profesor Francisco Rojas Ochoa, del
Instituto Superior de Ciencias Médicas de la Habana, maestro por antonomasia de un par de
generaciones de salubristas e investigadores cubanos. Agradezco igualmente a todos mis
alumnos y, especialmente, a la ya larga lista de aquellos amigos y colegas españoles, quienes de
un modo u otro han promovido mi actividad docente sobre técnicas muestrales en diversos puntos
del estado español; la lista de estos colegas (seguramente incompleta) incluye a Alfonso Abaigar,
Pepe Almenara, Esther Arbesú, Rodrigo Arquiaga, Txema Arteagoitía, Clotilde Boix, Carlos
Campillo, José Manuel Casas, Javier Damián, Manuel Díaz-Olalla, Iñaki Galán, Gonzalo Grandes,
Eliseo Guallar, Gonzalo Gutiérrez, Juan Ramón Lacalle, Jesús Martín, José María Martín Moreno,
María Mar Martínez, Antonio Pareja, Luis Prieto, Elías Rovira, José Manuel Salamanca, Emilio
Sánchez Cantalejo, Antonio Segura, Patricio Suárez, Enrique Vázquez, Tomás Vega y Angel
Vilches. Por su inestimable colaboración técnica, agradezco a mi alumno Ramón Suárez, a cuya
habilidad como programador debemos, los lectores y yo, la posibilidad de explotar un sistema
informático original y eficiente que apoya al texto.
2
L.C.Silva
CAPITULO 1 MARCO CONCEPTUAL DE LAS TÉCNICAS MUESTRALES
El muestreo, como proceder científico, funciona de manera similar, pero procura aportar métodos
formales que contribuyan razonablemente a conseguir que la muestra conforme un modelo del
universo. En efecto, en el problema del universo y la muestra estamos ante un singular ejemplo
del proceso de representación de la realidad objetiva mediante un modelo. Obtener una "buena
muestra" significa, precisamente, configurar una versión simplificada de la población, que
reproduzca sus rasgos básicos a la vez que desdeñe los inesenciales y, como debe ocurrir con
todo modelo eficiente, que sea suficientemente simple como para resultar manejable, pero no
tanto como para que se difuminen sus perfiles específicos fundamentales. Kish (1989) describe
una buena muestra como un "espejo" de la población, o una "población en miniatura".
En rigor, la tarea del muestrista va más allá: además de determinar el método de selección de la
muestra y, por tanto, su tamaño, ha de establecer los procedimientos que habrán de aplicarse a
los datos así obtenidos para realizar inferencias fecundas. Diversas razones prácticas pueden
mencionarse para justificar el uso de esta técnica. Sin embargo, en última instancia, la fun-
damental es la necesidad de ahorrar recursos. Por lo general, resulta literalmente imposible
estudiar a todos los individuos que integran una población (hacer un censo). Este imperativo
económico ha estado presente siempre, aunque no fue hasta la década de los treinta del presente
siglo, con un célebre trabajo presentado por el polaco Jerzy Neyman ante la Royal Statistical
Society1, cuando se comenzó a desarrollar una teoría orgánica sobre las técnicas que permiten
superar de manera científica esa dificultad (Neyman, 1934). El impulso determinante se produjo
fundamentalmente en Gran Bretaña, Estados Unidos y, más tarde, también en la India y los
países escandinavos.
1
Algunos de los resultados allí expuestos, sin embargo, habían sido
publicados diez años antes por el ruso A.A. Chuprov, según reseñan
3
L.C.Silva
El uso del muestreo fue generalizándose y sus bases teóricas experimentaron un proceso de
cimentación gradual hasta la consolidación de esta disciplina como una rama con "personalidad
propia" dentro de la estadística. Los siguientes datos reflejan elocuentemente tanto su juventud
como su rápida expansión: mientras el International Statistical Institute (ISI) fue fundado el siglo
pasado y constituye una de las asociaciones científicas internacionales más antiguas que
funcionan en la actualidad, no es hasta 1971 que se establece la Asociación Internacional de
Muestristas como una de sus secciones. Sin embargo, en 1997 ya contaba con 1244 miembros
de 131 países (IASS,1997). Por otra parte, en las últimas cuatro décadas se ha ido conformando
un cuerpo teórico sólido recogido en una ya larga serie de libros exclusivamente dedicados al
tema (véase el interesante trabajo ad hoc de Parada, 1987) integrada, entre otros, por los
siguientes “clásicos”: Hansen, Hurwitz and Madow (1953), Slonim (1960), Deming (1960),
Sampford (1962), Kish (1965), Murthy (1967), Des Raj (1968), Yamane (1970), Som (1973),
Cochran (1977), Williams (1978), Jessen (1978), Scheaffer, Mendenhall y Ott (1979), Yates
(1980), Levy y Lemeshow (1980) , Kalton (1983), Stuart (1984), Sukhatme, Sukhatme,
Sukhatme y Asok (1984), Dalenius (1985).
Como se ha dicho, las técnicas muestrales son herramientas de trabajo especialmente útiles en el
ámbito de la investigación científica, aunque también son intensamente utilizadas en áreas tales
como la indagación de mercado y los sondeos políticos y electorales. Constituyendo la investi-
gación el marco operativo que nos ocupará, y siendo ésta una actividad que con demasiada
frecuencia es objeto de confusión, no resulta ocioso detenerse brevemente a caracterizarla y
adelantar algunas reflexiones relevantes a los efectos que nos interesan.
3.- exponer tanto el marco teórico en que se inscribe como los antecedentes en que reposa
4
L.C.Silva
Ahora bien, los estudios que más se vinculan con la teoría muestral, tal y como la entenderemos
predominantemente en el presente libro, son los llamados estudios descriptivos: aquéllos que
tienen por objeto básico caracterizar cómo es una población.
Es harto frecuente que, al valorar cierta realidad, sea necesario conocer datos generales en
términos resumidos (promedios, porcentajes, medidas de variabilidad, etc.), que contribuyan a una
interpretación más clara de sus rasgos. Los estudios descriptivos también se suelen llevar
adelante con el afán de obtener información que permita la fundamentación empírica de hipótesis
sobre las leyes que rigen los fenómenos examinados (hipótesis de causalidad).
Es preciso reconocer que uno de los problemas más frecuentes presentes en los estudios de tipo
descriptivo consiste en que las preguntas que se plantea el investigador no son suficientemente
explícitas, de manera que quedan subsumidas dentro de un planteamiento muy general, con
frecuencia borroso. Supongamos que se plantea el problema en términos como los siguientes:
"Estudiar epidemiológicamente el comportamiento de la gripe en el país durante el período
1980-1990". Más que un verdadero problema, lo que se ha planteado en este caso es un dominio
de interés. No comprender la diferencia entre consignar una esfera de trabajo y formular preguntas
concretas casi siempre garantiza el desconcierto futuro. El curso natural de un proceso de
investigación con tal punto de partida suele ser como sigue:
(a) Confección de un cuestionario en que se acumula de manera más bien caótica una serie
de ítems relacionadas con ese dominio, pero cuya función específica se ignora o a lo sumo
solo se intuye
(b) Acopio de cierto monto de información (a menudo enorme) llamada a ser en gran parte
desechada
(c) Acudir a un bioestadístico que supuestamente tendría que "desfacer un entuerto" pero que
nunca podrá saber bien en qué consiste su tarea, ya que el hecho de que haya trabajo de
terreno, se cuente con datos y se puedan construir tablas, no modifica el problema car-
dinal: que la formulación de preguntas rectoras sigue siendo un capítulo pendiente
Es evidente que el método que vaya a adoptarse para contestar una pregunta de investigación
solo puede decidirse una vez que ella ha sido formulada con toda nitidez. El cuestionario que ha
de utilizarse, por tanto, solo podrá ser diseñado de manera racional una vez que todas las
preguntas a las que se quiere dar respuesta han sido explícitamente planteadas y cuando estén al
menos bosquejadas las tablas por medio de las cuales habrán de resumirse los datos. Unas y
otras configuran el único criterio lógico para decidir la pertinencia de los aspectos incorporados al
cuestionario que se planifica aplicar.
5
L.C.Silva
Por otra parte, un verdadero estudio descriptivo debe, en mi opinión, trascender la simple
contemplación neutra de la realidad. Los “trabajos contemplativos”, muchas veces indistinguibles
de un informe administrativo que no va más allá que lo que una computadora puede producir y
que justamente se detiene allí donde nuestro cerebro resulta imprescindible, no constituyen
verdadera investigación científica. Esta solo tiene lugar cuando nace de una vocación crítica,
capaz de transformar los resultados numéricos en juicios de valor. Es imprescindible, en fin, dejar
claro que las técnicas de muestreo pueden contribuir a que los resultados sean extrapolables y
precisos, pero su traducción al plano conceptual, su conversión en valoraciones, exige el concurso
de una cultura científica de los investigadores, que poco tiene que ver con el muestreo u otros
instrumentos estadísticos.
Como ya señalé recientemente en otro sitio (Silva, 1997), una gran cantidad de problemas de
índole social se abordaron durante muchos años sin emplear técnicas formales de encuesta, sino
mediante información no susceptible de ser manejada en un entorno cuantitativo.
Con el tiempo, fueron expandiéndose diversos desarrollos teóricos -en especial las técnicas de
muestreo- que, al propiciar la cuantificación de los resultados y permitir la síntesis, por tanto, de
manera más formal, fueron desplazando de la práctica a dichas técnicas cualitativas de análisis, a
la vez que las iban devaluando metodológicamente. En rigor, los procedimientos cualitativos
nunca desaparecieron y en cierta medida tuvieron incluso expresiones importantes de renovación
y vitalidad; lo que sí se consolidó como realidad fue la separación casi absoluta2 entre unas y
otras.
2
Tal parcelamiento, sin embargo, tuvo excepciones desde muy temprano.
El estudio, por citar un ejemplo, de Warner (1947), en que se combinan
las encuestas formales con la "observación etnográfica", da cuenta de
ello.
6
L.C.Silva
El epidemiólogo típico de la nueva hornada positivista, cuya gestión, quisiéralo o no, tenía
profunda connotación sociológica, miraba con desdén al antropólogo que se perdía en lo que, a su
juicio, no pasaba de ser diletantismo subjetivo y visión novelada de la realidad. El científico social
clásico, por su parte, recelaba de las tecnologías presuntamente encartonadas que le proponían
los estadísticos y que lo obligarían a reducir la riqueza de sus observaciones a tablas y porcen-
tajes. Gurvitch (1950), por ejemplo, escribía que "cuando las estadísticas no se aplican en un
marco cuidadosamente acotado y verificado, no constituyen más que manipulaciones puramente
matemáticas de grandes cifras" y, refiriéndose a las técnicas formales de encuestas, encarnadas
por entonces en la archifamosa empresa que las popularizara en Estados Unidos, destilaba una
inusitada agresividad con afirmaciones como que "los procedimientos de Gallup son irrisorias
búsquedas de promedios arbitrarios que no existen y operan en el vacío".
Decir que uno se pierde en lo específico, o que el otro siempre ofrece una
aproximación superficial de cuestiones complejas, perdidas en los grandes
números, es una actitud por lo menos ingenua que algunas veces aparece entre
investigadores de ambas disciplinas....La naturaleza desigual y multifacética del
objeto epidemiológico y su determinante justificará el empleo de un sensato
"pluralismo metodológico".
Entre las más connotadas técnicas cualitativas, todas bosquejadas y referenciadas por
Castellanos (1989), se hallan la asamblea o fórum comunitario, el famoso brainstorming y el
menos conocido brainwriting, las entrevistas en profundidad, las técnicas grupales (nominal, de
discusión y Delfos), la historia de vida, el uso de informantes claves, la observación estructurada y
la observación participante.
El debate que he bosquejado tiene plena vigencia. La investigadora australiana Frances Baum ha
desarrollado una circunstanciada defensa de la posibilidad y la conveniencia de asumir una
integración metodológica que supere las distancias que objetivamente se viven hoy (véase Baum,
1997). No todos comparten sin embargo lo que podría entenderse como una facilista conciliación
salomónica. Por ejemplo, Prieto (1997) sostiene que los llamados “métodos cualitativos” son “no
científicos” debido a que no cumplen ciertos requisitos generales que se consideran esenciales,
tales como que conduzcan a los mismos resultados aunque los observadores sean diferentes.
Es cierto que virtualmente todas las técnicas de este tipo suponen la existencia de lo subjetivo e
intentan aprehenderlo sin ruborizarse. A mi juicio, sin embargo, no hay motivos para el rubor si se
repara en que para cierto tipo de problemas esos métodos resultan tanto o más recomendables
que determinadas aplicaciones estadísticas cuya objetividad dista mucho de ser absoluta.
7
L.C.Silva
Las encuestas estructuradas, por ejemplo, por lo común restringen marcadamente el espacio de
expresión de los interrogados. Con ello se viabiliza y simplifica notablemente el procesamiento es-
tadístico, pero no se salva de la subjetividad al investigador; éste "contamina" el proceso tan
pronto se fijan, tanto sintáctica como conceptualmente, las respuestas posibles. La diferencia
básica entre los procedimientos cuantitativos y los cualitativos no estriba en que aquéllos sean
objetivos y éstos no, sino en el punto y el modo en que se introduce la subjetividad: los últimos
ponen el énfasis en permitir y hasta en promover que los actores sociales participen con su propia
subjetividad en el proceso; en los primeros la subjetividad -poca o mucha, pero inevitable- es
virtualmente monopolizada por los investigadores.
Las técnicas cualitativas tienen, sin embargo, un alcance limitado. Si bien pueden ser un magnífico
instrumento alternativo o complementario de las encuestas para resolver algunas tareas
específicas (tales como sopesar un estado de opinión u ordenar jerárquicamente un paquete de
necesidades según prioridades), resultan inoperantes por sí mismas en muchísimos problemas de
investigación epidemiológica, en la inmensa mayoría de los del área clínica y en la virtual totalidad
de los problemas planteados por las ciencias básicas. No obstante, resulta poco razonable
renunciar dogmáticamente al empleo de métodos que han demostrado su eficacia y que en
determinados contextos pueden operar en régimen de simbiosis con recursos como los que nos
ocupan predominantemente en este libro.
Las técnicas de muestreo en las que se pone el énfasis en este libro son aquellas que procede
aplicar específicamente ante preguntas de investigación que apuntan en dirección descriptiva,
aunque las investigaciones que van más allá de la descripción y procuran descubrir explicaciones
(los llamados "estudios analíticos") también operan, desde luego, con muestras. Sin embargo, el
manejo de series de observaciones que se derivan de un conjunto numeroso de condiciones
externas y que se obtienen sin intervención formal de las técnicas clásicas de muestreo, no sólo
es común sino inevitable en muchas -probablemente la mayoría- de las investigaciones analíticas.
Un ejemplo típico se produce cuando se quiere establecer el cuadro causal de una enfermedad; lo
que se estudia es la asociación de algún factor exógeno -tal como el hábito de fumar o el régimen
nutricional- con la presencia o ausencia de la enfermedad. En una situación tal, no suelen elegirse
muestras formales a partir de listados poblacionales; el énfasis debe ponerse en conseguir que los
grupos sean similares a todos los efectos salvo en lo que concierne al factor (la mal llamada
comparabilidad3 entre el grupo de casos con el de controles), antes que en la representatividad
que unos y otros exhiban en relación con las respectivas poblaciones (Keller, 1969). Dicho de
otro modo, en los estudios analíticos la demanda metodológica fundamental en relación con las
muestras no concierne a la representatividad, sino al grado de similitud que exhiban los grupos
que vayan a compararse.
3
Creo que el término no es afortunado, pues dos cosas son comparables no
cuando son parecidas, sino cuando son susceptibles de comparación. No
es posible comparar el diámetro de una naranja con el peso de un
plátano, pero sí se puede comparar la talla de un ser humano con la
distancia entre La Habana y Madrid.
8
L.C.Silva
Si bien, como se ha dicho, este libro se concentra en el ámbito descriptivo; el importante tema del
muestreo en estudios analíticos se aborda específicamente en el Capítulo 10.
Supongamos que estamos ante una población finita cualquiera -o sea, un conjunto de entes
susceptibles, al menos teóricamente, de ser listados- y que se quiere conocer una característica
general o parámetro, definido por el resultado numérico de "combinar" de alguna manera prefijada
los datos que se obtendrían en caso de que se midiesen todos los elementos de la población4.
Por ejemplo, podría tratarse del porcentaje de aquellos ancianos de una comunidad que son
capaces de valerse por sí mismos, del salario promedio de los médicos de un país, del número
total de historias clínicas deficientemente llenadas en un hospital, o de la edad mediana en que se
produce la menarquía en las zonas urbanas de una provincia. Si en lugar de proceder a obtener
los datos necesarios para todas y 5cada una de las unidades de la población de interés (todos los
ancianos de la comunidad, la totalidad de los médicos del país, el conjunto completo de historias
clínicas o todas las niñas y adolescentes de la parte urbana de la provincia), se decide examinar
solo una porción de tales unidades, y estimar el número desconocido a partir de dicha información,
entonces decimos que se ha planteado un problema de estimación por muestreo.
Para dar solución a tal problema es necesario -expresado esquemáticamente- encarar las
siguientes tareas:
4
Aunque aquí, con el fin de simplificar la exposición, nos estamos
refiriendo a un parámetro, en la práctica regular no hay un único
parámetro por estimar, sino varias decenas de ellos. Por ejemplo, en
un estudio sobre productividad médica en la asistencia de urgencia el
objetivo central puede que sea estimar el número promedio de pacientes
atendidos por hora, pero difícilmente el interés se circunscriba al
conocimiento de ese número; típicamente, se deseará obtener tablas que
contemplen aspectos tales como el diagnóstico, la edad del médico, los
horarios de trabajo, etc.
5
9
L.C.Silva
Lejos de lo que pudiera pensarse, estas cuatro tareas se condicionan mutuamente, incluso en el
sentido de que no es posible abordarlas secuencialmente: se necesita una aproximación si-
multánea e integral que, para cada nuevo problema de muestreo, puede demandar un enfoque
relativamente original.
Se denomina unidad de análisis a cada uno de los elementos o sujetos que componen la
población y que podrían ser, en su momento, objeto de interrogatorio o medición.
Para fijar mejor estas nociones, supongamos que se estudia una población de escolares para
conocer la prevalencia de cierta dolencia. Cada escolar es una unidad de análisis (el ente que se
examina). Si se tiene un listado de todos los escolares al que se aplica un método de selección
directamente, entonces dicho listado es el marco muestral, y las unidades de análisis son también
las de muestreo. Pero, si en lugar de contar con un listado de escolares, se tiene uno de
escuelas, algunas de las cuales se elegirán para el estudio, entonces las unidades primarias de
muestreo serán las escuelas. Si, hecha esta selección, se toman sólo algunas aulas de las
escuelas elegidas y, finalmente, dentro de estas últimas se eligen alumnos para integrar la
muestra definitiva, entonces habría tres procesos escalonados de selección; existen en este caso
las llamadas unidades de muestreo de primera, segunda y tercera etapa (escuelas, aulas y
alumnos respectivamente). El conjunto de listados imprescindibles para la selección total (de es-
cuelas primero, después el de las aulas que tiene cada escuela seleccionada, y finalmente el de
niños dentro de cada una de las aulas así elegidas) constituyen el marco muestral del estudio.
6
La situación en que las unidades de muestreo son directamente las
unidades de análisis es un caso particular.
10
L.C.Silva
Supongamos que se ha concebido un procedimiento de selección muestral cualquiera de una
población integrada por N elementos: = e1 , e2 , e N. El azar puede intervenir de muchos
modos en ese proceso, pero se considera que se ha conferido un carácter estadísticamente
riguroso al método de selección solo cuando se cumplen dos condiciones: que el procedimiento
otorgue a cada elemento de la población una probabilidad i conocida de integrar la muestra (es
decir, que i se conozca de antemano para todo elemento ei de ), y que tal probabilidad no
sea nula para elemento alguno (esto es, i > 0 para todo i ). En tal caso, se dice que se ha
seguido un método probabilístico de muestreo.
Consideremos el conjunto de todas las muestras posibles (es decir, aquellos subconjuntos de la
población que, teniendo en cuenta el método de selección que se ha prefijado, puedan resultar
elegidos en calidad de muestra). Si M j representa a la j-ésima de esas muestras posibles y ei
es un elemento cualquiera de la población, entonces la probabilidad i de que ei resulte
seleccionado es igual a la suma de las probabilidades que tienen de ser elegidas todas aquellas
muestras posibles que contienen al elemento ei . En términos formales, esto es:
= i P( M
M j ei
j )
Numeremos los meses del año del 1 al 12 y supongamos que se desea una muestra de ellos.
Supongamos además que se forman 3 subconjuntos de meses:
M = {1, 2, 3, 4, 5, 6}
1
M = {1, 6, 12}
3
11
L.C.Silva
Supongamos que la selección de los meses de los meses, se realiza del modo siguiente: se tiran
dos monedas; si salen dos caras, la muestra será igual a M 1 ; si salen 2 escudos, estará formada
por los elementos de M 2 y en otro caso, coincidirá con M 3 . Las probabilidades respectivas de
Una forma especial de diseño probabilístico es aquel en que todos los sujetos de la población
tienen la misma probabilidad de ser seleccionados ( i es constante para todo i); en tal caso se
dice que el método es equiprobabilístico.
Veamos a continuación algunos ejemplos relacionados con esta condición. Consideremos para
ello la población formada por los 365 días del año 1998 y valoremos algunos métodos para selec-
cionar una muestra de días7.
Ejemplo 1. Se ponen 365 bolas en una urna, cada una de las cuales lleva inscrito un día
diferente del año. Se extraen sucesivamente 10 de ellas de manera similar a como se procede
en la lotería; se incluyen en la muestra los días consignados en dichas bolas.
Es muy intuitivo (véase la demostración en la Sección 3.2); que la probabilidad común a todos los
10
días es = i
365
Ejemplo 2. Se procede como en el ejemplo anterior, pero la bola elegida entre las 365 de la
urna solo sirve para seleccionar un mes del año (se elige el mes al que pertenece el día señalado
en esa bola). Luego se toman al azar exactamente 10 días de dicho mes.
7
Lo que va a medirse en esas unidades de análisis puede ser la humedad
ambiental o el número de accidentes automovilísticos registrados en
una ciudad. A los efectos de esta ilustración, sin embargo, ese dato
es irrelevante.
12
L.C.Silva
La probabilidad de que resulte elegido un día dado, P(D) , es igual al producto de dos
probabilidades: la de que resulte seleccionado el mes que contiene a dicho día, P(M) , y la
probabilidad condicional P(D | M) de que sea ese uno de los 10 días seleccionados supuesto
que fue seleccionado el mes que lo contiene. Esto es: P(D) = P(M) P(D | M) Es fácil apreciar
que P(M) =
N , donde
N es el número de días contenidos en el mes de que se trate, y que
i
i
365
10
P(D | M) = ; de modo que:
N i
N 10 10
=
i
i . =
365 N i 365
13
L.C.Silva
Ejemplo 3. Se colocan los nombres de los 12 meses en respectivas tarjetas y, tras mezclarlas
concienzudamente, se eligen 3 de ellas; se incluyen en la muestra todos
los días contenidos en los tres meses seleccionados.
3
La probabilidad de cualquier mes es ; puesto que un día queda automáticamente elegido si lo
12
fue el mes en que está contenido, todos los días del año tendrán esa misma probabilidad de
3
inclusión: i = .
12
Como comentario lateral, advirtamos que este ejemplo evoca una situación práctica totalmente
verosímil. Supongamos que tenemos un listado de 50 viviendas en las que viven 225 personas.
Se quiere una muestra de individuos y se decide seleccionar 10 viviendas al azar e incluir en la
muestra a todos los individuos que las habitan. La muestra tendrá tantos elementos como sujetos
vivan en las 10 viviendas elegidas. Puesto que ese número no se conoce hasta que no se haya
concluido la selección de las viviendas, el tamaño de la muestra de sujetos depende de cuáles
sean las viviendas que el azar haya determinado. Sin embargo, el diseño es equiprobabilístico.
Efectivamente, la probabilidad de inclusión de cada individuo coincide con la que tenga su
vivienda de estar entre las 10 que se seleccionen; o sea, todos los elementos tienen la misma
10
probabilidad de inclusión: = 0,2 .
50
Ejemplo 4. Para cada día se tira una moneda al aire; si sale cruz, se elige ese día; en otro
caso, ese día se descarta.
1
En este caso es evidente que =i para todo i . La muestra puede tener un tamaño que va
2
desde 0 a 365.
En los ejemplos 3 y 4, a diferencia de los dos primeros, el tamaño muestral no está fijo de
antemano sino que es aleatorio: no lo conoceremos hasta que no termine la selección. De hecho,
por tanto, el tamaño muestral es en esos dos casos una variable aleatoria.
14
L.C.Silva
Hablar del valor esperado del tamaño muestral solo tiene un sentido no trivial para diseños en que,
como en los dos últimos ejemplos, el tamaño muestral resultante no es constante. Como se verá
más adelante, en la práctica es frecuente que se trabaje con métodos de muestreo para los que el
tamaño muestral no se conoce hasta que no concluya el proceso de selección. Sin embargo, si el
procedimiento es probabilístico, siempre se podrá tener una idea de cuál podría ser el tamaño que
se obtendrá.
Si dicho procedimiento se repitiera muchas veces, los respectivos tamaños de muestra serían
“realizaciones” de una variable aleatoria. El promedio de tales realizaciones es el valor esperado
de la variable. El valor esperado del tamaño muestral es el número "en torno al cual" se ubican los
distintos tamaños de muestra posibles (lo que "cabe esperar" que resulte); formalmente esto es:
E(n) = h
nh P(n = nh )
15
L.C.Silva
donde los n h son los tamaños de muestra posibles y donde P(n = n h ) denota la probabilidad de
que el tamaño muestral resultante sea n h . Una manera alternativa de computar este número
viene dada por la siguiente propiedad:
valor esperado del tamaño muestral (véase Des Raj, 1968). Formalmente: E ( n)
i 1
i
Consideremos el Ejemplo 3 de la Sección 1.7.1. Se trataba de una muestra de los 365 días del
año 2001, conformada con los días pertenecientes a 3 meses elegidos al azar. El cálculo de los
diferentes tamaños de muestra posibles y de sus respectivas probabilidades es bastante
laborioso. Sin embargo, usando la propiedad, el cómputo de E ( n) es inmediato; en efecto,
puesto que el procedimiento es equiprobabilístico (con i 0,25 para todos los días), se tiene:
365
365
I 1
i
4
91,25
Si el tamaño de muestra es fijo (como en los ejemplos 1 y 2), este resultado se reduce a afirmar
que la suma de las probabilidades de inclusión de todos los elementos de la población coincide
con el tamaño muestral. Si además de producir tamaño muestral fijo, el diseño es equiprobabi-
lístico, y llamamos a la probabilidad común a todos los elementos, entonces se cumple,
n
necesariamente, que = .
N
Los diseños equiprobabilísticos tienen varias ventajas, que se expondrán en diversos puntos del
texto. De momento, sin embargo, solo destacaremos que, ocasionalmente, el carácter
equiprobabilístico del método es prácticamente vital. Esto resulta evidente, por ejemplo, cuando
se trata de elegir números que determinan premios en una lotería, o en los procesos de
asignación aleatoria dentro de algunos diseños experimentales.
Una ilustración interesante que muestra cuán espinoso puede ser este asunto, se vincula con un
hecho acaecido en 1997 con motivo de un proceso de selección muestral llevado adelante por el
ejército español.
Cuando se hacía el llamado a filas para servir en las fuerzas armadas, estaba entonces
establecido que una parte de los candidatos fuese exonerada de tal obligación, así como que la
selección de los agraciados se verificase públicamente y por un procedimiento que otorgara la
misma probabilidad de ser eximidos a todos los jóvenes españoles cuyas edades estuviesen
comprendidas entre dos fechas prefijadas.
16
L.C.Silva
Supongamos que se quieren elegir n=5 sujetos de un listado que consta de N=17 individuos, los
cuales se numeran del 0 al 16. La selección se realiza por un método que consta de las
siguientes dos etapas:
Primera etapa: Se elige un número r entre 0 y 16. Para ello, primero se eligen dos
números b1 y b2 Para decidir el valor de b1 se tira una moneda al aire: si sale cara,
entonces se toma b1 = 0 ; si sale escudo, se toma b1 = 1 . La elección de b2 depende del
resultado obtenido para b1 según la regla siguiente:
b) Si b1 es 1, se elige también una bola pero de una urna que contiene 7 bolas,
numeradas del 0 al 6 (vale decir, se elige un número al azar entre 0 y 6); b2 es el
número de dicha bola
Segunda etapa: Una vez elegido r, se seleccionan los sujetos que están en los lugares r,
r+1, r+2, r+3, r+4 del listado. Si r es inferior a 13, estos 5 números no ofrecen dudas. Si
13 r 16 , entonces se considera que el listado es circular; por ejemplo, si r=15,
entonces r+1=16, r+2=0, r+3=1 y r+4=2
Corroboremos ahora que la probabilidad que tienen los sujetos del listado de ser elegidos no es la
misma para todos sino que difiere entre individuos según la posición que ocupen en el listado.
Esta probabilidad puede tomar sólo dos valores diferentes (llamémosle A y B), en dependencia
de que b1 sea 0 ó 1 respectivamente.
Puesto que P ( b1 = 0) = P ( b1 = 1) = 0.5 , es muy fácil convencerse de que dichos valores son:
1 1 1 1 1 1
A= . = y B= . =
2 10 20 2 7 14
17
L.C.Silva
y de que:
A para h : 0, ···, 9
P(r h) =
B para h : 10, ···, 16
Ahora recordemos que el sujeto que ocupa el lugar h resulta elegido siempre que se produzca
alguna de las 5 siguientes posibilidades: r=h, r=h-1, r=h-2, r=h-3, o r=h-4. Consecuentemente,
para calcular la probabilidad de selección que corresponde al sujeto h, (0 h 16) , a la que
llamaremos P * (h) , debe computarse la suma de las probabilidades de estos 5 eventos; o sea, ha
de aplicarse debe aplicarse la siguiente fórmula:
4
P (h) = P (r h - i)
*
i=0
18
L.C.Silva
Por ejemplo, la probabilidad de que el noveno sujeto resulte elegido es:
P * 9 P r 9 P r 8 P r 7 P r 6 P r 5
P 2 P r 2 P r 1 P r 0 P r 1 P r 2
*
P r 2 P r 1 P r 0 P r 16 P r 15
Finalmente, puesto que P ( r h) sólo puede ser igual a A o a B, es obvio que P* (h) es
necesariamente de la forma kA + (5 - k)B donde k es un número entre 0 y 5 que cambia en
dependencia del valor de h . A partir de esto se puede construir fácilmente la tabla donde se
recogen las probabilidades de cada uno de los 17 sujetos, marcadamente diferentes entre sí,
como se muestra a continuación:
0 A + 4B 47/140
1 2A + 3B 44/140
2 3A + 2B 41/140
3 4A + B 38/140
4 5A 35/140
5 5A 35/140
6 5A 35/140
7 5A 35/140
8 5A 35/140
9 5A 35/140
10 4A + B 38/140
11 3A + 2B 41/140
12 2A + 3B 44/140
13 A + 4B 47/140
14 5B 10/140
15 5B 10/140
16 5B 10/140
19
L.C.Silva
Total 50A + 35B 5
16
Un primer caso de interés que debe analizarse es el de las muestras que, habiendo sido
planificadas probabilísticamente, pierden ese carácter en la fase de terreno, circunstancia que
puede introducir un fuerte sesgo que descalifique los resultados.
Imaginemos que se planifica un estudio de morbilidad bucal en cierta área de salud y que el
procedimiento de selección establecido consiste en tomar una de cada 6 viviendas a lo largo de un
listado que incluye a todas las casas del área con vistas a examinar entonces a todos los
residentes de las que resulten seleccionadas. Es fácil demostrar que, en principio, si la primera de
1
las casas se elige con probabilidad igual a (por ejemplo mediante el lanzamiento de un dado),
6
entonces todo residente del área tiene la misma probabilidad de ser examinado. Supongamos, sin
embargo que, en la práctica, en lugar de establecer que se regrese una y otra vez a cada casa
seleccionada hasta completar el examen de todos sus habitantes, se sigue la regla de realizar el
reconocimiento estomatológico solo a los individuos que se hallen en la vivienda en el momento
de la visita.
De tal suerte, los ancianos tendrán en la práctica una probabilidad mucho más alta de ser
encuestados (por tenerla de estar presentes en el momento de la visita) que niños y adultos.
Como el cuadro morboso típico de un anciano es, en términos generales, cualitativa y cuan-
titativamente diferente al del resto de la población, el panorama general brindado por la muestra
no permitirá obtener una visión real de lo que verdaderamente ocurre en el área de salud. Pero, el
problema que interesa destacar ahora no es tanto que se pierda el carácter equiprobabilístico del
diseño como el hecho de que, bajo estas circunstancias, las probabilidades de selección pasarían
a ser, en rigor, desconocidas, pues el verdadero mecanismo de elección queda afectado por
determinantes que ya no están bajo control del muestrista.
Por otra parte, ocasionalmente, el muestreo no probabilístico (que algunos autores han
denominado indebidamente "opinático") se emplea de manera deliberada. Los procedimientos
pueden ser de varios tipos. Circunscribiéndonos al caso en que se tiene una población bien
definida de la cual se va a obtener una muestra, las formas básicas de selección no probabilística
son las cuatro siguientes:
b) muestreo semiprobabilístico
20
L.C.Silva
El primer método (selección "al tun tun"), en que los elementos se eligen sin reflexión ni previsión
algunas, está obviamente sujeto a importantes e incontrolables sesgos; consecuentemente, es
simplemente ajeno a la buena práctica científica.
Otro ejemplo de tal tipo de selección se puede presentar cuando se siguen reglas como la de
suplir a la persona elegida por un vecino en caso de que ella no se encuentre en la vivienda; en tal
situación, las viviendas pueden haberse lelegido probabilísticamente, pero esa condición se pierde
en la etapa siguiente, con la posible aparición de sesgos, derivados del hecho, por ejemplo, de
que las amas de casa pueden quedar muy sobrerrepresentadas en la muestra.
El muestreo por cuotas -muy usado en las encuestas de opinión y de mercado- concierne
fundamentalmente a la investigación con poblaciones humanas. Parte del principio de forzar a
que la muestra contenga el mismo porcentaje de individuos con ciertas características prefijadas
que la población entera. Según los intereses que se consideren relevantes, se divide la población
en subclases mutuamente excluyentes y -generalmente a partir de datos censales- se obtienen los
porcentajes abarcados por cada una de dichas subclases. Se establece entonces que la muestra
tenga sus elementos distribuidos dentro de las subclases de manera tal que los porcentajes
muestrales coincidan a la postre con los de la población. Para lograrlo se le asigna a cada
enumerador una zona específica (por ejemplo, una manzana) y se le permite que allí entreviste a
los individuos que él escoja, siempre que lo haga dentro de las restricciones determinadas por las
cuotas de muestreo estipuladas. Así, por ejemplo, se le indica hacer 10 encuestas: de las cuales
5 han de ser a hombres y 5 a mujeres; se establece que uno de los 10 debe ser profesional; que
dos de los encuestados deben ser mayores de 50 años, 6 han de estar entre 25 y 49, en tanto que
los otros dos deben tener entre 15 y 24. Al reunir las selecciones realizadas por todos los
enumeradores se tendrá con certeza que la mitad de la muestra estará integrada por mujeres, el
10 % por profesionales, etc. Es obvio que el procedimiento, como ocurre en definitiva con todo
método no probabilístico, puede conducir a importantes sesgos (los enumeradores podrían, por
poner un ejemplo, evitar las viviendas con escaleras o las que tienen perros.
21
L.C.Silva
Como consecuencia de una extendida confusión entre azar y representatividad que se aborda en
la próxima seccion puede ocurrir que esta alternativa se descarte automáticamente por
considerarse intrínsecamente mala; en efecto, al tener en cuenta que la muestra no fue
seleccionada por medio del azar, el investigador puede sentir que su estudio carece del rigor
científico necesario. Ese sentimiento -o el afán de desarrollar acciones destinadas a conjurarlo- no
siempre se apoya en la justa evaluación metodológica de los procedimientos aplicados; en
ocasiones reposa simplemente en la falta de comprensión cabal del contenido y alcance de los
conceptos en juego. Existen circunstancias en que lo único razonable es optar, precisamente, por
este tipo de elección, en lugar de por un método probabilístico. Se trata fundamentalmente de
situaciones en las que el tamaño de muestra planificado es muy pequeño, sobre todo si también el
tamaño poblacional lo es.
Por ejemplo, imaginemos que se quiere estudiar el funcionamiento del conjunto de los 25
hospitales de una provincia, y que se decide hacerlo a través de una evaluación exhaustiva de 4
de ellos: es mejor seleccionar los cuatro que racionalmente se consideren más representativos
antes que permitir que sea el azar quien los determine. La clave técnica de esa preferencia radica
en que, si bien los errores de las estimaciones no podrán ser objetivamente medidos, éstos van a
resultar menores y ello es, en última instancia, lo que por encima de todo se desea. Por otra
parte, es intuitivamente razonable, ya que carece de sentido que, en lugar de usar el azar como
una herramienta ventajosa, quedemos en sus manos hasta el punto de ser posibles víctimas del
modo en que se desempeñe. Adviértase que el azar bien podría producir (y en este caso no con
baja probabilidad) muestras totalmente inconvenientes, del tipo en que todos los hospitales sean
de la capital provincial, o que ninguno sea docente. Además, en situaciones como la descrita,
normalmente no se realizarán estimaciones en el sentido formal, como pudiera ocurrir en poblacio-
nes grandes, sino que las valoraciones globales tienden a ser más bien de naturaleza cualitativa.
En el terreno científico, sin embargo, es conveniente y posible manejar estas ideas de manera
menos vaga. En ese sentido puede consultarse el libro clásico de Stephan y McCarthy (1958);
allí, a la vez que se alerta acerca de que la expresión "muestra representativa" nunca podrá tener
un significado formalizable, se sugieren algunas ideas en la línea de aproximarse al que le
confiere nuestro sentido común.
22
L.C.Silva
Imaginemos, por ejemplo, que un estudio sobre las opiniones de la población general acerca del
sistema de atención primaria se ha llevado adelante interrogando solo a estudiantes de medicina.
Se trata sin duda de una muestra (un subconjunto) de la población, pero inmediatamente será
apreciada con suspicacia; porqué no nos parecería "representativa" tal muestra? Básicamente,
porque sospechamos o sabemos que es demasiado uniforme: la población general es más
heterogénea que la de estudiantes a los efectos del tema que nos ocupa8.
Las conclusiones derivadas del proceso inferencial, por su propia naturaleza, siempre estarán
sujetas a error. Otra manera de entender el concepto es la siguiente: una muestra puede
considerarse representativa0 a los efectos de ciertos aspectos específicos de la población cuando
el error en que se incurre al emplearla para hacer estimaciones sobre esos aspectos no excede
ciertos límites prefijados. Esto subraya el hecho de que una muestra puede ser representativa de
ciertos rasgos y no de otros (por ejemplo, serlo de la distribución poblacional en cuanto a grupos
sanguíneos pero no en cuanto al nivel de escolaridad).
Consideremos la siguiente situación. En una escuela primaria hay 100 niños de cada sexo y se
quiere estudiar el rendimiento académico del total de los 200 educandos a partir de una muestra
de 50 de ellos. Si se permite que sea exclusivamente el azar quien determine los 50 elementos de
la muestra, bien podría ocurrir que todos fuesen varones (aunque tal evento sea tan extraor-
dinariamente improbable que a todos los efectos prácticos pueda considerarse virtualmente
imposible). En tal caso, naturalmente, la muestra no sería representativa con relación al género y,
consecuentemente, tampoco respecto de aquellos factores directa o indirectamente asociados a
él. Aunque de manera menos exagerada, igual consideración podrían merecer, por ejemplo,
muestras con 40 varones y 10 niñas, o viceversa.
*****
Si se supiera -como suele ocurrir- que aquello que se investiga está asociado con el género,
parecería justificado y prudente rechazar tales muestras (si se produjeran) como fuente de
eventual generalización. Sin embargo, quizás tampoco sería deseable que la muestra contuviese
a 16 de los 20 alumnos zurdos que hay en la escuela, o que el porcentaje de alumnos de la
muestra cuyas madres sean universitarias resulte mucho menor que el mismo porcentaje entre los
200 alumnos del centro, pues también podrían existir nexos indirectos, quizás desconocidos, entre
el desempeño escolar y el hecho de ser zurdo, o entre dicho desempeño y la escolaridad de la
madre.
Sin embargo, es evidente que si se descartaran muestras "inconvenientes" una y otra vez hasta
obtener una que no lo parezca, el uso del azar se reduciría a un autoengaño, además de que el
proceso de escudriñar las muestras en esta línea sería por lo general impracticable y, en definitiva,
interminable.
8
Esa es, en esencia, la razón por la cual las “votaciones” que suelen
incluirse en los sitios WEB carecen de todo fundamento científico como
instrumento para conocer «la opinión pública»
23
L.C.Silva
Por otra parte, repárese en que el examen de la muestra propiamente dicha no puede servir para
evaluar su calidad como modelo representativo del universo que se estudia. En primer lugar,
porque habría que analizar un número virtualmente ilimitado de características poblacionales
todas las cuales deberían quedar fidedignamente reflejadas en la muestra y, en segundo lugar,
porque se opera con una muestra precisamente en virtud de que las características poblacionales
se desconocen.
Ahora bien, hay que subrayar que el solo hecho de que empleando el azar puedan obtenerse tales
muestras pone en evidencia que dicho método no asegura ni mucho menos la representatividad.
Este es el nudo conceptual de máximo interés: contrariamente a una convicción bastante
extendida, lo cierto es que el azar no inyecta representatividad a la muestra específica que pudiera
obtenerse por su conducto.
Abundando en el tema, supongamos ahora que el muestrista decide tomar en calidad de muestra
al conjunto de los 50 estudiantes que hayan alcanzado en matemáticas las notas más altas de la
escuela; al objetársele el procedimiento con la crítica de que no intervino el azar, y de que tal
muestra es obviamente no representativa, él puede argüir que mediante el azar cualquier
subconjunto de 50 alumnos podría haber resultado elegido -entre ellos, aquél integrado por los
más destacados en matemática- y que, en tal caso, exactamente las mismas conclusiones no
serían objetadas. ¿Acaso un poema merece diferente consideración en dependencia de que sea
leído por la mañana o por la tarde, de que sea anónimo o esté firmado por un poeta encumbrado?
¿Por qué entonces aceptar cierta muestra si fue seleccionada al azar pero rechazar esa misma
muestra si fue intencionalmente decidida? Formalmente, el argumento esgrimido contra el azar
como exigencia parece impecable.
¿Cuáles son entonces los méritos del azar? Se reducen a dos: en primer lugar, los
procedimientos probabilísticos satisfacen esa exigencia intuitiva de eliminar -o mitigar al menos- la
carga subjetiva que podría influir en la elección de los elementos que se van a examinar (y, por
ende, en las conclusiones). El azar juega el papel de seguro contra distorsiones sistemáticas,
sean o no deliberadas, y ese papel es por lo general insustituible, aunque no resuelve la
encrucijada lógica en que nos hallamos. En segundo lugar, y esto es realmente crucial, sólo
cuando el método es probabilístico se podrá solucionar la tarea de medir el grado de precisión con
que se realizan las estimaciones.
El investigador, naturalmente, desea dos cosas: en primer lugar y sobre todo, que ese margen de
imprecisión en sus conclusiones sea pequeño y, en segundo lugar, tener una estimación de cuál
es la magnitud real del error. El carácter probabilístico del método de selección asegura esto
último -y en ello radica precisamente su virtud fundamental-, aunque no necesariamente garantice
lo primero.
24
L.C.Silva
La clave del razonamiento en que se fundamenta el empleo del azar radica en lo siguiente: la
confianza que pueda depositarse en una muestra depende vital y exclusivamente de la que
merezca el procedimiento que la produjo. Vale la pena detenerse en este punto, que es el
aspecto metodológicamente más relevante.
Cabe recordar, por otra parte, que la ciencia no avanza de manera lineal sino en virtud de una
singularidad que la hace única: su propia capacidad autocorrectora. De modo que no es muy
grave que ocasionalmente lleguemos a resultados incorrectos, pues para considerar que algo es
cierto no bastan unos resultados aislados que lo confirmen, sino que es menester que éstos se
hayan replicado. La verdad científica se abre paso con carácter necesario, a pesar de los
elementos casuales que puedan coyunturalmente ocultarla o tergiversarla (Silva, 1977); desde el
punto de vista del progreso científico, las consecuencias de algunas pifias en el contexto de
muchos aciertos no son por, lo general, desastrosas.
9
De hecho, eso es lo que afirma en esencia la "ley de los grandes
números" descubierta por Bernoulli y bien conocida por los probabilis-
tas.
25
L.C.Silva
Supongamos que estamos en el primer caso y que un técnico de salud ha estimado ese número
mediante un diseño probabilístico y que comunica que la estimación de es igual a 11 %. Esto,
obviamente, no quiere decir que la prevalencia sea exactamente igual a 11 %. Cuando se nos dice
que la estimación es 11 %, sabemos que esto quiere decir que el verdadero valor de es "más o
menos" igual a 11. La demanda, natural, sin embargo es conocer cuánto "más o menos".
Es decir, resulta inmediata la aspiración de contar no solo con una estimación puntual de , sino
también con una idea del error máximo que pudiera estar afectando a dicha estimación. Esto
equivale a disponer de un intervalo en cuyo seno quepa esperar que se halle el parámetro.
Para interpretar adecuadamente este intervalo debe repararse en lo siguiente: para cada muestra
posible de la población, puede obtenerse un intervalo de confianza, aquél al que ella dé lugar.
Quiere decir que el intervalo es el resultado de haber realizado una experiencia aleatoria; Ese
intervalo puede contener o no al parámetro, aunque si ello efectivamente ocurre o no es algo que
no podremos nunca dirimir en la práctica: lo que puede afirmarse es que, para un alto porcentaje
de las muestras, el intervalo resultante contiene al parámetro desconocido.
La virtud del intervalo que se obtiene para la única muestra que se selecciona en la práctica
estriba en que se produjo por un método confiable; o sea, se podrá estar razonablemente confiado
en que ese único intervalo que tocó en suerte no estará entre los pocos que no contienen al
parámetro. Consecuentemente, si el intervalo se construye por un método tal que acierta a
"atrapar" a , por ejemplo, el 95 % de las veces, se dice que " se halla entre ̂1 y ̂2 con una
confiabilidad del 95 %".
Para ilustrar estas ideas, supongamos que cierto estudio tiene entre sus propósitos conocer el
gasto promedio en medicamentos en que incurren mensualmente los núcleos familiares de cierta
comunidad. Los investigadores conocen por estudios similares que dicho valor debe estar entre
$2.00 y $6.00, pero necesitan un dato más preciso. Naturalmente, si se opta por el uso del mues-
treo, el verdadero promedio nunca será conocido con certeza absoluta.
26
L.C.Silva
Supongamos que tras una encuesta por muestreo se obtuvo, en calidad de estimación, que dicho
gasto promedio asciende a $3.25. ¿Qué significa ese dato si no se tiene una idea del posible error
cometido? Virtualmente nada. Sin embargo, si además se informase de que el error máximo es
e = $0.15 , lo que se está afirmando es que el verdadero gasto promedio se encuentra casi con
seguridad entre $3.10 y $3.40. Ahora, si en lugar de $0.15, el error asociado a la estimación
ascendiera a $3,20, entonces lo único que se conocería, en definitiva, sería que el verdadero
gasto medio está entre $0.05 y $6.45. O sea, no se agregaría absolutamente nada a lo que ya se
conocía de antemano. Es preciso comprender que la estimación aislada, sin una medida del error
que pueda estar afectándola, carece virtualmente de interés.
"A partir de una rigurosa muestra aleatoria de 300 hombres de la capital, los
expertos han estimado que el porcentaje de hombres que usan preservativos
regularmente subió en el curso del último año de 31,4 % a 35,7 %"
pero escamotea (quizás porque no considera necesario comunicarlo) que el error máximo
asociado a esta última estimación es de 4,6 %, probablemente el lector común quede
automáticamente persuadido de que ese consumo ha aumentado. Pero lo que realmente se sabe
es que el porcentaje actual está, muy probablemente, entre 31,1 % y 40,3 %, de modo que
pudiera ser incluso inferior al 31,4 % obtenido antes.
Supongamos que, a su vez, aquel 31,4 % se había obtenido con una muestra que produjo tal
estimación con error estimado de un 6,0 %. Entonces el verdadero valor inicial podría
verosímilmente haber sido, por ejemplo, 36,0 % (número que está dentro del intervalo que va de
25,4 % a 37,4 %, correspondiente al porcentaje estimado para el año anterior). En síntesis, la
verdad que está detrás de la declaración según la cual "el uso de preservativos subió de 31,4 % a
35,7 %", pudiera tener como realidad subyacente que "el empleo de preservativos bajó del 36,0 %
al 31,2 %", ya que esta última afirmación es perfectamente compatible con los resultados que
arrojaron los estudios. Otra ilustración práctica concerniente a este tema se desarrolla en detalle
en la Sección 3.6.
Una pregunta natural que suelen hacerse algunos investigadores es la siguiente: ¿son todos los
puntos del intervalo igualmente probables? Replanteémosla en un marco más específico. Supon-
gamos que la prevalencia de asmáticos considerada en la sección anterior ha sido estimada como
11 % con un error máximo del 2 %; de modo que el intervalo de confianza sería [9 % - 13 %].
¿Hay más razones para pensar que sea igual a 11 % que, por ejemplo, a 12 %? O, dicho de
otro modo: puesto que 12 está dentro del intervalo, es tan verosímil que sea 12 como que
sea igual a 11, punto medio del intervalo? Es cierto que todos los valores del segmento 9 % - 13
% son “compatibles” con , pero realmente, es más verosímil que esté más cerca del punto
medio del intervalo que de cualquier otro punto del mismo10.
10
El término “verosímil” no se ha elegido solo porque sea semánticamente
expresivo como recurso del castellano (que lo es), sino porque el punto medio
del intervalo es la estimación que maximiza la función de verosimilitud (es la
27
L.C.Silva
No mucho después de su aparición, las pruebas de hipótesis clásicas empezaron a recibir fuertes
críticas. Un detallado examen histórico y conceptual sobre este polémico asunto se puede hallar
en Silva (1999).
Diversos juicios críticos pueden encontrarse en la obra de muchos objetores actuales y pasados
del uso de las pruebas de hipótesis; entre ellos cabe mencionar a Rozeboom (1960), Rothman
(1978), Salsburg (1985), Walker (1986), Gardner y Altman (1986), Thompson (1987),
Goodman y Royall (1988), Goodman (1992), Chia (1997), Barnett y Mathisen (1997) y
Goodman (1999). La crítica fundamental, sin embargo, estriba en el hecho siguiente: que se
encuentre o no significación depende de un elemento externo a la realidad que se estudia, el
tamaño de muestra.
Como uno de los "remedios", desde hace algún tiempo se ha venido sugiriendo la estrategia de
suplir las pruebas de hipótesis por el empleo de intervalos de confianza, alternativa defendida con
vehemencia por diversos autores entre los que se destacan los connotados estadísticos británicos
Martin Gardner y Douglas Altman (véanse Gardner y Altman, 1986; Gardner y Altman, 1987)
vinculados al British Medical Journal, y secundada actualmente por muchos editores de revistas
médicas (Véase: Bulpitt (1987) de Lancet, Evans, Mills y Dawson (1988) de British Heart
Journal, Davidoff (1999) de Annals of Internal Medicine). A estos dos estadísticos se debe
incluso un software (Confidence Interval Analysis, CIA) que permite el cómputo de intervalos de
confianza para una amplia gama de parámetros en el caso de que la muestra haya sido simple
aleatoria.
Estos autores sugieren que los intervalos sean empleados como recurso expresivo básico
"siempre que se haga una inferencia de los resultados a un ámbito más abarcador y que
concierna a medidas de resumen -no a características individuales- tales como tasas, diferencias
de medias, coeficientes de regresión, etc". Las revistas mencionadas no exigen que los famosos
valores p deban ser necesariamente suprimidos pero, en cualquier caso, sí que ocupen a lo
sumo un lugar secundario o complementario.
28
L.C.Silva
El argumento central en que se sustenta esta corriente de opinión proclama que los intervalos son
mucho más informativos que el mero valor de p , ya que éste no transmite información alguna
sobre la magnitud de la diferencia o de la asociación que se valora, en tanto que el intervalo nos
provee de un recorrido de valores posibles para el valor poblacional (o compatibles con él), en
lugar de una dicotomía arbitraria. Se añade, por otra parte que los intervalos incluyen toda la
información necesaria para aplicar la prueba de significación si se deseara realizarla, puesto que,
por ejemplo, si H o establece que 1 = 2 , rechazar H o equivale a que el intervalo de confianza
para 1 - 2 no contenga al cero.
Puesto que con frecuencia las pruebas de hipótesis se emplean para valorar la diferencia entre
dos parámetros, lo que debe construirse es un intervalo de confianza para la diferencia (Altman,
1980), y no formar dos intervalos (uno para cada parámetro) con el fin de examinar si se
intersecan o no; en caso de que los datos estuvieran pareados, tal práctica no sería solamente
inconveniente, sino directamente errónea.
Como se ha dicho, a través de una muestra probabilística se puede estimar un parámetro , así
como el error (llamémosle e ) inherente a dicha estimación; a partir de ese conocimiento, se puede
ˆ 1 , ˆ 2 ) dentro del cual podemos estar altamente confiados que se halle .
construir un intervalo (
Generalmente (no siempre), los extremos
ˆ 1 y ˆ 2 se obtienen respectivamente sustrayendo de y
sumando a la estimación puntual ̂ el valor e ; es decir:
ˆ 1 = ˆ - e y ˆ 2 = ˆ + e
11
Véase el concepto de error relativo en la Sección 1.10.4.
29
L.C.Silva
Naturalmente, lo que se desea es que el error e sea pequeño (es decir, que el intervalo sea lo
más estrecho posible).
Supongamos que nos informan de que la longitud de cierto objeto se ha medido con precisión de
2 cms (es decir, que la distancia entre la medición y la verdadera longitud asciende a lo sumo a 2
centímetros). Es éste un error grande o pequeño? Puede considerarse inaceptable o, por el
contrario, refleja una buena precisión?
El error de muestreo no es una excepción. Con frecuencia, después de calcular el error asociado
a la estimación de p , se procede a computar, el llamado error relativo de la estimación:
e
er =
p
30
L.C.Silva
Debe notarse que, mientras e viene dado en las mismas unidades en que se mide la variable, er
es un índice que carece de unidades.
Consecuentemente, suele expresarse en términos de porcentaje (es decir, multiplicado por 100).
Por ejemplo, tomando las ilustraciones de la sección precedente, diríamos que el error relativo con
que se estimó el gasto promedio en medicamentos fue del 4.6 % en el primer caso (ya que
0.25 3.20
= 0.046 ) y del 98.5 % (pues = 0.985 ) en el segundo.
3.25 3.25
En general se considera que un error relativo no superior al 10 % (es decir, un valor de er inferior
a 0.1) resulta aceptable a todos los efectos prácticos. Tal consideración empírica es compatible
con nuestros puntos de vista en la vida diaria: si una señora de 42 años nos dice que tiene 40,
diríamos que está "redondeando" (el error relativo es 5%), pero si nos comunica que tiene 30,
12
diríamos que nos ha mentido (en ese caso er = = 0.18 ).
42
El mismo enfoque cabe aplicar a la estimación por ejemplo de una diferencia de parámetros, la
cual tiene su propio error y para la cual se puede construir su propio intervalo de confianza.
El costo de los censos es enorme. Esa es, precisamente, una de las razones para emplear
muestras. Cada una de las preguntas supone un costo y este ha de multiplicarse por el tamaño
de la población (de hogares o personas) o por el de la muestra, si se opta por esta alternativa.
Consecuentemente, los cuestionarios empleados en los censos deben ser, en lo posible,
relativamente breves y sencillos.
No obstante, cada vez con más frecuencia se están combinando datos propiamente censales con
los obtenidos mediante encuestas por muestreo, que se incluyen como parte del propio censo.
Estas muestras pueden sustituir incluso a los censos, en cuyo caso tienden a ser de gran tamaño
(suelen constituir entre el 1 % y el 25 % de la población). Un enfoque más versátil consiste en
diseñar una muestra grande que tal vez abarque un tercio o un cuarto de la población) para
aquellas preguntas sobre las que se necesita gran detalle, además de una mucho más pequeña
(abarcadora del 1 %, del 0,5 % de la población) para las preguntas más complejas o difíciles.
El muestreo no solo reduce el costo total que supone obtener estos datos; puede también producir
mayor precisión, especialmente cuando se adoptan medidas que mejoren la calidad del dato
primario, tales como la de formar encuestadores debidamente preparados.
31
L.C.Silva
El uso conjunto de registros y de encuestas por muestreo está resultando exitoso; tal ha sido el
caso de los países escandinavos, que poseen unos excelentes registros de población. Por
ejemplo, Dinamarca prescindió del censo desde 1980 y utilizó en su lugar las llamadas
"estimaciones de áreas locales".
Aunque las técnicas muestrales pueden emplearse en principio en cualquier tipo de universo, lo
cierto es que sus aplicaciones en el ámbito sanitario se verifican predominantemente sobre
poblaciones humanas, especialmente para interrogar individuos y en ocasiones también para
medirlos (registrar datos cuantitativos captados con o sin instrumentos). Típicamente, entonces, el
interrogatorio está presente en las investigaciones de salud pública y epidemiología, en especial
en aquellas que tienen un componente social. De ahí su estrecho vínculo con el muestreo.
Para dar solución a un problema de muestreo en tal tipo de situación es necesario por tanto
programar una encuesta, actividad compleja que exige alto grado de organización y demanda
colaboración de profesionales y técnicos de diversas especialidades y perfiles.
De modo que las técnicas muestrales y las encuestas, aunque no están inexorablemente
vinculadas entre sí, suelen venir aparejadas. El presente capítulo procura profundizar en los más
importantes aspectos técnicos en esta materia.
Una vez definidos los objetivos de la encuesta, los pasos fundamentales que deben darse para
completar el proceso de su aplicación son, en esencia, los siete siguientes:
1. Redactar un cuestionario
4. Diseñar la muestra
6. Procesar la información
7. Realizar inferencias
32
L.C.Silva
Sin embargo, la buena práctica de las encuestas no permite que estas tareas se completen de
manera lineal. Es altamente recomendable, por poner un ejemplo, realizar una experiencia piloto
que retroalimente a los investigadores y les permita realizar enmiendas al proyecto original.
Las flechas del diagrama indican el orden de precedencia de las acciones. Por ejemplo, para el
desarrollo de la encuesta piloto, nodo crucial del proceso, se observa que hay dos actividades
previas, ambas igualmente medulares: confeccionar el proyecto de cuestionario y establecer la
forma en que se habría de tomar la información primaria en terreno. Por otra parte, una vez
llevado a cabo dicho pilotaje, sus resultados influirán en el desarrollo de tres tareas: concluir el
diseño muestral, ajustar el cuestionario y definir las formas definitivas de trabajo en la práctica
(tales como selección de horarios, estimación del tiempo que supone completar el cuestionario e
identificación de aspectos cuya calidad debe ser especialmente controlada). Por otra parte, como
muestra el diagrama, el proceso completo incluye un amplio conjunto de acciones a cuya
eficiencia se subordina en buena medida la calidad de los resultados finales.
Con el fin de aportar elementos que permitan disminuir el margen de información primaria inser-
vible o de dudosa calidad, vale la pena detenerse en las técnicas de confección de cuestionarios.
2.2 El cuestionario
33
L.C.Silva
Un cuestionario es un documento concebido para ayudar en el proceso de obtener y registrar
información a través de una secuencia de preguntas o mediciones. En lo que resta de este
capítulo, nos concentraremos en aquella información que se procura obtener a través de
preguntas; éstas, a diferencia de las mediciones físicas que se realizan por medio de
instrumentos, suelen constituir la única vía para obtener información medular que permita alcanzar
los objetivos de una investigación. Por una parte, como es obvio, no hay otro modo de medir
niveles de satisfacción, sentimientos o grados de concordancia con una opinión. Por otra parte, la
medición de la magnitud o la frecuencia con que el individuo realiza o ha realizado ciertas
actividades a menudo exige de una indagación directa. Por ejemplo, no todos los delitos son
denunciados a la policía ni todos los episodios morbosos registrados por el sistema de salud, de
modo que el testimonio de los propios individuos puede ser la única vía confiable para hacer
estimaciones adecuadas relacionadas con la seguridad ciudadana o el estado de salud de la
población. Ha de tenerse en cuenta, además, que incluso lo que queda registrado puede ser
diferente de lo que el sujeto es capaz de testimoniar (Jabine, 1987).
Los aspectos que se tratan a continuación procuran demostrar que tanto las modalidades de
aplicación como la forma en que se diseñan las preguntas tienen notable importancia. Durante
muchos años se subvaloró la relevancia de estos aspectos y en el mejor de los casos se
consideraban pertenecientes a la esfera del sentido común. Más recientemente, sin embargo, el
tema ha alcanzado mayor prominencia y ha sido objeto de no pocos y reveladores experimentos.
Se ha desarrollado un marco teórico altamente estructurado y se dispone de textos exclusivos que
tratan el asunto con todos los requerimientos de una disciplina científica consolidada. Entre los
más destacados de la última hornada cabe mencionar los libros de Tanur (1992), Fowler (1995) y
Sudman, Bradburn y Schwarz (1995).
Los modos en que un cuestionario puede aplicarse son, esencialmente cuatro: a través de un
encuestador o entrevistador, usando cuestionarios autoadministrados, (el propio sujeto
interrogado lo cumplimenta), mediante indagación telefónica, y procurando respuestas por correo.
En cuanto al registro de respuestas, se manejan dos alternativas fundamentales: la modalidad
clásica, consistente en que se transcriban al papel los resultados, y las variantes en las que el
proceso de registro se auxilia de la computadora.
Para decidir la modalidad que se empleará, el sentido lógico del investigador se complementará,
entre otros factores, con la naturaleza del tema abordado, las características culturales de la
población que se estudia y los recursos disponibles. Es evidente, por ejemplo, que la
autoenumeración es más apropiada cuando la encuesta se aplica a sujetos que se hallan reunidos
que a individuos aislados, o que hay información que no puede recabarse telefónicamente por
exigir una apreciación visual directa, como cuando la encuesta incluye, por ejemplo, un examen
dental.
34
L.C.Silva
La encuesta asistida por ordenador, bautizada como CADAC (Computer Assisted Data Collection)
está planteando oportunidades insospechadas hasta hace poco, especialmente si se tienen en
cuenta las posibilidades que abre Internet.
Cabe esperar que este proceso renovador siga extendiéndose en la medida que se generalicen
otras tecnologías de acceso a informantes potenciales como el correo electrónico, que despertó
interés a estos efectos desde su surgimiento (Kiesler y Sproull, 1986) en virtud de la nueva y
atractiva posibilidad de realizar encuestas sin necesidad de contactar ni física ni verbalmente a los
encuestados.
35
L.C.Silva
2.2.2 Ubicación de las preguntas
Otra pregunta relevante es: ¿cuál debe ser la estrategia para ubicar las preguntas que, tocando
temas desagradables o embarazosos son, sin embargo, de vital importancia para el estudio? Una
recomendación casi universalmente admitida es que no deben colocarse al principio del
cuestionario. Se ha sugerido, incluso, que se deben dejar todas las preguntas conflictivas para el
final, "sonsacar" cuanto se pueda sobre ellas y dar por terminada la entrevista si surgen
problemas. Este enfoque podría por una parte ser éticamente cuestionable, pero además revela
una forma de facilismo difícil de defender, ya que asume como legítimo que queden preguntas en
blanco a la vez que no invita a una reflexión crítica orientada a evitar tal contingencia.
Las preguntas pueden ser caracterizadas según distintos ejes de clasificación. Por ejemplo,
atendiendo al grado de aporte que se espera del interrogado, pueden ser abiertas o cerradas, o
desde el punto de vista métrico, según el cual pueden ser cualitativas o cuantitativas.
Cada tipo de preguntas puede ofrecer dificultades específicas en cuanto al modo de manejar los
resultados, lo cual a su vez depende en muy buena medida del objetivo con que se formula.
Haremos algunos comentarios al respecto en la medida que se considere oportuno para las
diferentes modalidades que se comentan en las secciones siguientes.
Lo más frecuente es formular preguntas cerradas, aquellas cuyas respuestas posibles han sido
previstas en su totalidad por el investigador y se ofrecen al encuestado para que él elija la que
mejor se ajuste a su situación. Tal suele ser el caso bien familiar en que se indaga el género
(masculino/femenino), el estado civil, o el grupo étnico al que pertenece el sujeto; también están
en ese caso las preguntas de opinión que exigen posicionamiento del interrogado según una
escala ordinal, como la siguiente:
36
L.C.Silva
¿Cómo cree usted que ha sido la gestión del gobierno en materia de salud ambiental en el
último año?
Mucho se ha investigado acerca de cuáles y cuántas categorías emplear. Hay consenso en que
no deben usarse más de 10 (Andrews, 1984), aunque un número entre 5 y 7 suele ser lo más
adecuado.
Bueno___ Malo___
Página -1-
L.C.Silva
El porcentaje de los que optan por la última categoría (estado de salud malo) disminuiría en la
medida que el número de alternativas se incrementa. Quiere esto decir que la interpretación del
resultado no puede hacerse al margen del contexto que configura el conjunto de respuestas
posibles. Consecuentemente, nuestro pensamiento debe operar en sentido inverso: elegir ese
conjunto en función de lo que realmente queremos que constituya una guía para la interpretación.
Las preguntas cuantitativas son aquellas cuya respuesta consiste en un número; por una parte,
están las dimensiones objetivamente medibles (años cumplidos, colesterolemia o circunferencia
cefálica) y, por otra, las cuantificaciones en que interviene la subjetividad del sujeto interrogado,
(cuántos hijos quisiera tener o qué salario le parecería justo percibir). Las cualitativas, por su
parte, son aquellas en que se desemboca en una clasificación, como ocurre con la actividad
ocupacional o el grupo sanguíneo.
En las preguntas de ordenación se pide al entrevistado que ubique jerárquicamente una serie de
alternativas de acuerdo con su preferencia personal o teniendo en cuenta algún otro marco
referencial. Dos ejemplos son los siguientes:
Ponga en orden de importancia para su vida los siguientes aspectos numerándolos del más
importante (1) al menos importante (5):
____ Trabajo
____ Dinero
____ Relaciones de amistad
____ Relaciones de pareja
____ Salud
Página -2-
L.C.Silva
¿ En qué orden cronológico deben a su juicio introducirse los alimentos siguientes a los niños
durante su primer año de vida? Poner números del 1 al 4 .
____ Granos
____ Pescado
____ Carne de res
____ Cereales
Cabe distinguir dos situaciones diferentes: cuando existe y cuando no existe un orden óptimo (o
correcto). El segundo ejemplo ilustra el caso en que tal orden existe (según OMS, primero debe
introducirse el cereal, y luego los granos, la carne y el pescado por ese orden). Aquí las
alternativas de análisis son diversas: desde computar el porcentaje de sujetos que colocan cierta
categoría en primer lugar hasta el lugar promedio que ocupa una categoría. En el primero,
obviamente, no existe una ordenación que pueda considerarse correcta o incorrecta.
Un tipo de pregunta singular dentro de esta línea se produce cuando se solicita al interrogado que
coloque en cierto orden un conjunto de "nominaciones". Tal es el caso de lo que Linniger y
Warwick (1978) califican como "una técnica sociométrica", que se emplea para obtener
información sobre el patrón de sentimientos positivos y negativos entre los miembros de un grupo.
Se insta a cada integrante del grupo a que haga un número limitado de "nominaciones", e indique
a aquellas personas de su entorno que más quieren o admiran, o a quienes consideran más
adecuadas a ciertos efectos. La ilustración que sigue está tomada de un estudio de normas
comunitarias en un colegio norteamericano (Bennington College) realizado por Newcomb y col.
(1967):
Página -3-
L.C.Silva
Las preguntas de escala pueden ser de varios tipos. Las más importantes se exponen e ilustran a
continuación:
¿Cuán fuertes han sido los ataques asmáticos que ha sufrido en la última semana? Indique
su situación con una marca en el punto que le parezca adecuado dentro del segmento
siguiente:
No tuve De extrema
Ataques intensidad
Página -4-
L.C.Silva
Huskisson (1974) obtuvo en un estudio que el 7 % de los pacientes interrogados por este medio
tuvo dificultades para comprender la demanda. Este mismo autor con un colega (Scott y
Huskisson, 1979) empleó con éxito, sin embargo, este tipo de escalas para medir cambios tras
un tratamiento. El interés de este enfoque radica en que, si bien la personalidad de cada sujeto
llevaría a que éste quede ubicado según su propia metrización subjetiva, tal problema afectaría a
ambas magnitudes (antes y después del tratamiento), de modo que la distancia entre ellas mediría
la diferencia, con lo cual se mitigaría o, incluso, se cancelaría el efecto de la subjetividad individual.
2. Escalas de Likert
Para la valoración del grado en que un individuo comparte cierta línea de pensamiento o teoría
general, un tipo de escala adecuada es la propuesta por Likert (1952).
Para aplicarla se considera una secuencia de afirmaciones (se ha sugerido que sean alrededor de
15) que se pronuncian (algunas a favor y otras en contra) acerca de determinado punto de vista
general; para cada afirmación la persona encuestada debe elegir en cada caso una de varias
(usualmente 5) alternativas, que expresan diversos grados de adhesión a dicha posición. Por
ejemplo, las afirmaciones y las alternativas de respuesta que se ofrecen al entrevistado para cada
una de las afirmaciones podrían ser como las dos que se enuncian a continuación:
Indice de adherencia para escalas tipo Likert Supongamos que en un estudio en que se
emplean escalas tipo Likert hay k afirmaciones y que el interrogado debe optar por una de r
alternativas que se ofrecen para cada una de ellas. Llamemos xi a la opción elegida ante la
afirmación i-ésima (por ejemplo x6 = 2 si el sujeto eligió la segunda respuesta para la sexta
afirmación), se puede computar entonces un Indice de Adherencia ( IA ) mediante la fórmula:
Z
IA
rk
Página -5-
L.C.Silva
xi 1 si la afirmación está formulada " positivamente"
k
donde: Z = y i y y =
i=1 r x si la afirmación esta formulada " negativamente"
i
El valor de IA se mueve dentro del intervalo (0, 1) e indica el grado en que el sujeto interrogado
simpatiza con la corriente de opinión o punto de vista cuyo apoyo se investiga: el valor IA = 1
indicaría absoluta adherencia, en tanto que IA = 0 significaría discrepancia total.
(0 + 2 + 3 + 0 + 4 + 3 + 1 + 3 + 4) 20
IA = = = 0.44
(9)(5) 45
Página -6-
L.C.Silva
Este método (Osgood, Suci y Tannembaum, 1957) utiliza una serie de alternativas de
evaluación (usualmente con un número de opciones entre 7 y 10) colocadas entre dos polos que
representan posiciones opuestas: bueno-malo, agradable-desagradable, positivo-negativo, fuerte-
débil o excitable-tranquilo.
Por ejemplo, al indagar sobre el trabajo del sistema sanitario en la comunidad, podría preguntarse:
Pésimo 1 2 3 4 5 6 7 8 9 10 Óptimo
Cabe advertir que al construir escalas de este tipo los investigadores suelen poner todo el énfasis
en las palabras elegidas para ubicar en los extremos y desdeñan el efecto que sobre el
interrogado ejercen los valores numéricos ofrecidos.
Para ilustrar la importancia que puede alcanzar tal efecto, consideremos la experiencia siguiente.
Se pregunta sobre el grado en el cual el sujeto cree que su vida ha sido exitosa y se ofrecen 11
alternativas de respuesta. Consideremos que hay dos formatos alternativos, ambos creciendo
desde "absolutamente inexitosa" a "absolutamente exitosa". La pregunta es la misma, pero la
semiótica de la escala empleada se modifica. Una posibilidad consiste en que la escala vaya de 0
a 10:
Absolutamente Absolutamente
inexitosa 0 1 2 3 4 5 6 7 8 9 10 exitosa
Absolutamente Absolutamente
inexitosa -5 -4 -3 -2 -1 0 1 2 3 4 5 exitosa
Página -7-
L.C.Silva
¿Qué significan los puntos extremos para el interrogado? La condición "absolutamente inexitosa",
¿qué quiere decir? ¿qué el sujeto ha padecido una ausencia total de éxitos, o que su vida ha
estado signada por grandes fracasos explícitos? Se ha comprobado que los interrogados acuden
a la propia escala numérica para responderse a sí mismos esta pregunta, y por ende, para
descifrar lo que en realidad se les está preguntando.
Un estudio realizado con 1025 adultos asignados aleatoriamente a cada una de las dos
alternativas (Schwarz y col., 1991) produjo resultados claramente diferenciados, como muestra la
Tabla 2.1. La escala que va de -5 a +5 subraya la polaridad entre los extremos y hace pensar en
que el extremo inferior (-5) concierne a grandes fracasos, mientras que la que va de 0 a 10 hace
pensar que ese extremo inferior (0) se trata de ausencia de éxitos apreciables.
Tabla 2.1 Distribución de respuestas según valores en cada una de las escalas
numéricas
0 - - -5 1 1
1 - - -4 - 1
2 2 2 -3 1 2
3 5 7 -2 1 3
4 7 14 -1 1 4
5 21 35 0 9 13
6 14 49 +1 9 22
7 21 70 +2 23 45
8 21 88 +3 36 81
9 6 97 +4 15 98
10 3 100 +5 4 100
Página -8-
L.C.Silva
Los resultados son elocuentes por sí mismos, pero llamo la atención sobre uno de ellos: el
porcentaje de sujetos que se ubica en la mitad inferior del espectro de posibilidades asciende a 35
para la escala de 0 a 10 y solo a 13 (¡casi un tercio!) para la que va de
-5 a +5.
4. Escalas gráficas
Andrews y Withey (1976) sugirieron el uso de un recurso gráfico como el que se muestra a
continuación, especialmente para la “medición” de sentimientos. Una pregunta típica podría ser
como sigue:
¿Cuál de las siguientes caras expresa mejor cómo Ud. se siente con respecto a la atención de
enfermería que recibe en la consulta?
A B C D E
Página -9-
L.C.Silva
2.3 Indicaciones para el diseño de cuestionarios y redacción de preguntas
10. TENER EN CUENTA QUE UNA PREGUNTA QUE PROCURE OBTENER UNA OPINIÓN,
SI SE PROYECTA SOBRE OTRA PERSONA, PUEDE CONSEGUIR MÁS VERACIDAD
QUE CUANDO SE RECLAMA DE MANERA DIRECTA
Página -10-
L.C.Silva
A continuación se discuten e ilustran una por una estas recomendaciones. Debe señalarse que
la totalidad de los ejemplos que se citan proceden de estudios reales. Algunos de ellos son
trabajos de tesis de terminación de maestría o de especialidad desarrollados por alumnos de la
Facultad de Salud Pública de La Habana. En estos casos no se trata, por tanto, de estudios
realizados por profesionales del muestreo o especialistas en confección de encuestas; creemos
que, justamente, eso le confiere más interés, pues muchos de estos ejemplos recogen el tipo
de errores en que pudieran incurrir los destinatarios naturales del presente libro.
Deben evitarse todos los aspectos para los que no se haya previsto un tratamiento derivado de las
preguntas de investigación previamente formuladas. Se trata de conjurar uno de los errores más
frecuentes: el de confeccionar cuestionarios que recogen una gran cantidad de información
relacionada con lo que se está investigando, pero cuya función real, en rigor, no se ha previsto.
Especialmente frecuentes (y perniciosas) son las “preguntas inerciales”, aquellas que se hacen
con el argumento de que son “importantes”. Argüir que se incluye cierta pregunta en un
cuestionario "porque es importante", es esencialmente lo mismo que decir que se incluye
porque se incluye. Si el investigador cree firmemente que cierta pregunta ha de integrar el
cuestionario pese a que no se derive de objetivo alguno, entonces será necesario revisar los
objetivos; pero es crucial que haya consistencia entre los propósitos del estudio y el contenido
del cuestionario.
Cualquiera que haya diseñado un cuestionario sabe o debería saber que los temas que en él
deben incluirse han de ser sólo aquellos determinados por los problemas que se quieren resolver,
como se señala en la recomendación anterior. Sin embargo, aun bajo esta premisa hay un grado
ineludible de relatividad y, por ende, un margen objetivo para adoptar decisiones personales:
siempre es posible incluir menos o más preguntas; por eso mismo no huelga insistir en que a
veces los cuestionarios abarcan un crecido número de preguntas de las cuales solo una
pequeña porción será efectivamente utilizada, en tanto que el resto será desechado una vez
que se llegue a la fase de análisis de las respuestas. Es crucial hacer un esfuerzo para evitar
tal despilfarro de recursos materiales, tiempo y energía. Por otra parte, los cuestionarios muy
largos producen fatiga y desestímulo en el sujeto interrogado, y siempre será preferible
sacrificar, llegado el caso, parte de los objetivos en aras de preservar la calidad del dato
primario.
Página -11-
L.C.Silva
De ser posible, deben evitarse aquellas preguntas cuyas respuestas demanden de
"instructivos" para los encuestadores (con más razón, para los propios entrevistados, en caso
de que se planifique usar un cuestionario autoadministrado). La experiencia generalizada dice
que el personal designado para la tarea de recoger los datos no consulta instructivo alguno sino
que, en el mejor de los casos, se conduce según la comprensión que haya alcanzado durante
la etapa preparatoria sobre la naturaleza de las preguntas. Por ejemplo, es mejor solicitar a
una mujer que: "Señale el número de veces que ha quedado embarazada, se haya o no
producido el parto” antes que preguntar por el número de embarazos aclarando al enumerador
en un documento independiente que ese número incluye tanto los partos como los abortos.
El interés del investigador casi nunca es equivalente al de los sujetos interrogados; es por ello
que facilitar la cooperación de estos últimos se torna medular. Debe intentarse que las
respuestas emerjan rápidamente de la memoria, sin la menor dificultad; para ello es altamente
recomendable evitar las preguntas que exijan rememoración a largo plazo.
Sin embargo, es preciso tener en cuenta que, independientemente del lapso transcurrido, los
errores son más frecuentes cuando se indaga sobre sucesos comunes o de poca importancia; por
ejemplo, es más fácil recordar detalles sobre una enfermedad aguda padecida años atrás, que el
número de veces que se ha sufrido dolor de cabeza en el último bimestre. También se ha
demostrado que, cuanto más próximo haya sido un acontecimiento con la manera de pensar o los
deseos del interrogado, con más facilidad dicho acontecimiento será recordado por él
(Eisenhower, Mathiowetz y Morganstein, 1991)
Página -12-
L.C.Silva
Sobre todo cuando el método empleado se inscribe en el ambiente de las técnicas cualitativas
(véase Sección 1.2.2), las preguntas abiertas pueden ser enteramente apropiadas. Si se indaga
acerca de cuál es la comida favorita, es imposible anticipar todas las respuestas posibles. A
veces, lo que se quiere es justamente una descripción personal que obliga a “dar la palabra” al
encuestado. Tal sería el caso, por ejemplo, de un estudio sobre el grado de esfuerzo que ha de
hacer el sujeto en su trabajo; en tal caso, lo más oportuno sería pedir: “Describa a grandes rasgos
el trabajo que realiza”, o de uno que intente desbrozar los trillos por los cuales se desarrolla la
epidemia de SIDA, en el cual podría ser útil preguntar a los sujetos seropositivos: “¿Cómo cree
Ud. que se infestó con el VIH?”. En tales circunstancias, la respuesta del sujeto no puede
encasillarse de ninguna manera a priori pues, justamente, lo que se desea es obtener testimonios
complejos que más tarde serán procesados de manera especial.
En el contexto de las encuestas clásicas, sin embargo, este tipo de preguntas pueden generar
problemas diversos. Schuman y Presser (1981) han demostrado que las preguntas son más
fiables y tienen más validez cuando al interrogado se le ofrece un conjunto de respuestas
concretas por las cuales optar que cuando se le pide que se exprese libremente.
Una misma pregunta abierta puede ser respondida con expresiones muy diferentes,
circunstancia que suele entorpecer muy considerablemente el procesamiento ya que, en tal
caso, si se quieren construir tablas formales, las diferentes respuestas deben ser examinadas
una a una para conformar las categorías primero, e ir clasificando a posteriori a los sujetos.
Además de ser un proceso arduo y tedioso, el margen para la subjetividad por parte de quien
haga la clasificación es muy acusado. La pregunta abierta, por otra parte, exige más tiempo y
consume mayor energía, tanto por parte del entrevistado como del entrevistador.
Ahora bien, las preguntas cerradas tienen que estar “bien cerradas”. No siempre el
investigador consigue ser eficiente en ese sentido y puede por esa vía generar conflictos de
considerable magnitud y difícil solución.
Una idea de cuán conflictivo o difícil resulta redactar atinadamente una pregunta de este tipo
puede alcanzarse reparando en la siguiente y curiosa circunstancia. De un libro, ciertamente
interesante en muchos puntos, en que se aborda de manera exhaustiva y cuidadosa el
tema(Linniger y Warwick, 1978), reproduzco textualmente el siguiente ejemplo de una
pregunta cerrada, presuntamente bien formulada:
Página -13-
L.C.Silva
De los siguientes tipos de enfermedades, ¿cuáles se han presentado en su familia?
Al menos dos aspectos pueden objetarse frente a tal "paradigma". En primer lugar, las
respuestas posibles no son excluyentes. Si bien esto puede considerarse formalmente legítimo,
pues se pregunta cuáles tipos de enfermedades se han presentado (y no cuál), lo cierto es que
alguien pudiera marcar las opciones primera y tercera (hay algún lisiado, pero a juicio del
entrevistado ese enfermo no requiere mucha atención, de modo que a su juicio no hay ningún
problema serio). Sin embargo, daría la impresión de que los autores de la encuesta aspiran a
que se opte por la primera alternativa sólo cuando no proceda marcar ninguna de las otras. En
segundo lugar, algo más importante: como revela una lectura cuidadosa, no todas las
alternativas que se brindan son "tipos de enfermedades", como se anuncia en el
encabezamiento.
Uno de los métodos que se ha sugerido para “cerrar” la pregunta con alternativas apropiadas
ha sido aplicar una prueba previa con preguntas abiertas similares y utilizar las respuestas que
se presenten con más frecuencia como opciones de respuesta para conformar definitivamente
la pregunta cerrada (Scheaffer, Mendenhall y Lyman, 1996).
Se fuerza al sujeto a dar un dato preciso, esté o no en condiciones de hacerlo, con lo cual
puede contribuirse, paradójicamente, a la invalidez de los resultados. Una opción capaz de
extraer datos más próximos a la verdad sería plantear la pregunta con alternativas de
respuesta menos precisas pero más confiables:
Página -14-
L.C.Silva
___ ninguno
___ de 1 a 20
___ de 21 a 40
___ más de 40
Debe enfatizarse no obstante que, aunque la retrotraducción es un recurso bastante útil para
contribuir a la fidelidad de la traducción de las palabras, no garantiza la equivalencia del
significado. En Anderson (1967) y Deutscher (1973) pueden hallarse detalles acerca de diversas
técnicas para lograr equivalencia en la traducción. Cabe subrayar que, una vez hecha la
traducción y habiéndose confirmado su eficiencia, estamos en el mismo punto que cuando se
adopta un cuestionario elaborado por otros pero redactado originalmente en nuestro propio
idioma y que no es, por tanto, menester traducir: no hay forma alguna de constatar
empíricamente que el cuestionario "funciona" en un sitio del mismo modo que lo hace en
otro(véanse más detalles en Silva, 1997).
Ciertamente, esta es una indicación tan sutil como esencial. Para explicarla acudiré a una
experiencia llevada adelante con 189 estudiantes de primer año de la carrera de medicina de
La Habana (véanse detalles en Silva y Macías, 2000). A los efectos de los que nos ocupa, se
formuló a todos los alumnos de esa muestra la siguiente pregunta mediante encuesta anónima:
En su opinión ¿es la informática una tecnología completamente inteligente respecto del futuro?
Si ___ No___
Página -15-
L.C.Silva
A pesar de las insalvables dudas que se deberían presentar ante tal pregunta, solo 9 de los
estudiantes (el 5%) se negó a responder o reaccionó mediante algún tipo de señalamiento crítico;
el resto respondió como si la formulación tuviera sentido: 171 (90%) respondió que SI y el 5%
restante dijo NO estar de acuerdo con la afirmación. Estos porcentajes confirman claramente que
los encuestados suelen encarar las encuestas de manera acrítica: cuando leen una pregunta, se
hacen su propia composición de lugar (que puede diferir marcadamente entre unos y otros), sin
esforzarse por desentrañar la intención del investigador. Consecuentemente, es a éste a quien
corresponde poner todo el empeño para conseguir que su pregunta sea uniforme y
adecuadamente interpretada.
Se ha demostrado que el temor a dar una imagen negativa, desagradable o que a juicio del
sujeto pudiera ser socialmente inconveniente, genera una tendencia a que éste dé respuestas
más acordes al afán por producir buena impresión que al de informar la verdad.
La técnica de respuesta aleatorizada que se discute en la Sección 9.2 fue creada justamente
para superar los sesgos que tal tendencia genera. Una expresión particular de este fenómeno
se produce en relación con la posible imagen de desinformación o ignorancia, que suele
conducir a que el entrevistado actúe como si dominara algo que realmente ignora. Por ejemplo,
en ocasiones, cuando a los encuestados se les ha pedido opinión sobre materias oscuras o
ficticias, se ha puesto al descubierto que un número apreciable ha sido capaz de emitir
opiniones aun cuando no tenían ningún conocimiento a priori sobre el tema.
¿Comparte usted los argumentos existentes para fundamentar que se otorgue el premio Nobel
al creador de la vacuna antimeningocóccica?
Página -16-
L.C.Silva
Es notable que uno de cada tres haya dicho compartir criterios inexistentes y que uno de cada
ocho haya renegado de dichos criterios, con lo cual se acumula nada menos que un 44% de
respuestas “deshonestas”. Esto convalida la idea de que el temor a dar una imagen de
desinformación suele conducir a que el entrevistado actúe como si conociera algo que realmente
ignora, o a que comunique en calidad de ponderada convicción un punto de vista que acaba de
improvisar.
Para solucionar este problema, en algunas situaciones, sería mejor incluir varias opciones de
respuesta sobre lo que se desea conocer y ofrecer al interrogado la posibilidad de elegir la que
considere correcta según su conocimiento. En lugar de preguntar:
podría ser mejor que, aunque sólo interese el conocimiento acerca del efecto de la penicilina
sobre el catarro, se emplee esta otra formulación:
Página -17-
L.C.Silva
Cuando se trata de respuestas que pudieran resultar vergonzosas por el contenido, se ha
sugerido (Sudman y Bradburn, 1982) contextualizar las preguntas para “suavizar” la situación.
Por ejemplo, en lugar de preguntar directamente:
b) Piense en aquel de sus amigos que más alcohol consume. ¿Cuántos tragos Ud. cree que él
consume a diario como promedio?:
__ __
Habiéndose hecho primero las preguntas contextuales a) y b), se ha probado (Fowler, 1993)
que el monto testimoniado en c) es significativamente superior. Otra variante es insertar la
“pregunta conflictiva” en el contexto de otras que no lo son. Por ejemplo, preguntar:
Algunos estudios han señalado que ciertas conductas son protectoras del infarto. Ha hecho en
los últimos siete días alguna de las siguientes actividades:
Página -18-
L.C.Silva
Finalmente, puesto que se ha demostrado (véase Aquilino y Losciuto, 1990 y Fowler, 1993)
que el fenómeno que nos ocupa es menos acusado cuando los cuestionarios son
autoadministrados que cuando la encuesta la realiza un entrevistador, en este último caso debe
ponerse especial cautela.
El uso de la pregunta “de filtro” es en ocasiones muy aconsejable, pues con ella se puede
conseguir mejor organización de la encuesta, ahorrar tiempo y que el interrogado entienda
mejor y más fácilmente lo que se quiere de él. En un estudio en que se interrogaba a
funcionarios del sistema educativo(Fonseca, 1987), se preguntaba:
____ preventiva
____ curativa
____ ambas
____ no la reciben
Tal y como está redactada, muchos podrían marcar en cualquiera de las primeras tres opciones
y dar por sentado que la atención estomatológica ofrecida a los niños es “sistemática” aunque
no fuera ese el caso; si optara por la cuarta posibilidad, no se podrá saber si opina que no se
ofrece atención alguna o que la que se brinda no es sistemática. Los resultados podrían ser
más precisos si se preguntara de la siguiente manera:
Página -19-
L.C.Silva
En los últimos 10 años, ¿cuántas veces ha sido usted víctima de alguna conducta criminal? __
__
Ser víctima de una conducta criminal no es una situación frecuente y, hecha la pregunta de
este modo, algunos podrían considerar como “conducta criminal” cualquier situación
desagradable relacionada con el delito. Según este autor, el asunto sería encarado con mayor
rigor si se replanteara de la siguiente forma:
En los últimos 10 años, ¿ha sido usted víctima de alguna conducta criminal?
Sin embargo, esto no es más que un paliativo; lo ideal sería dejar claro en la propia formulación
qué ha de entenderse por “conducta criminal” (véase la recomendación número 3).
Página -20-
L.C.Silva
Si ____ No____(pasar a la siguiente)
Grupo B: Para el estudio independiente, ¿cuántas veces hace uso de la biblioteca a lo largo de
un mes?
__ nunca
__ una
__ dos o tres
__ cuatro o cinco
__ más de cinco
Si la pregunta de filtro tuviera un efecto, entonces cabría esperar resultados diferentes en cuanto
a lo que dicha pregunta trata de delimitar. Los resultados fueron elocuentes:
Página -21-
L.C.Silva
La diferencia entre 54,3% y 15,8% es impresionante: revela que la pregunta de filtro contribuyó
en grado notable a que los encuestados reconocieran que no usaban la biblioteca para el
estudio individual.
10. TENER EN CUENTA QUE UNA PREGUNTA QUE PROCURE OBTENER UNA
OPINIÓN, SI SE PROYECTA SOBRE OTRA PERSONA, PUEDE CONSEGUIR MÁS
VERACIDAD QUE CUANDO SE RECLAMA DE MANERA DIRECTA
Para valorar el efecto de esta estrategia, el estudio de Silva y Macías (2000) operó
nuevamente con los dos grupos de estudiantes aleatoriamente conformados. Las preguntas
empleadas fueron:
Página -22-
L.C.Silva
Grupo A Grupo B
No. % No. %
Opciones
Sancionarlo pero permitirle que continúe la 65 69,1 58 62,4
carrera
Expulsarlo de la carrera 14 14,9 9 9,7
Hacerle sólo una advertencia 15 16,0 26 27,9
Total 94 100,0 93 100,0
Los porcentajes correspondientes a la opción más “benévola” fueron, según se tratara del
propio interrogado o de otra persona respectivamente, 27,9 frente a 16,0. Es decir, la opción de
“perdonar” al alumno se elige casi dos veces más para sí mismo que para otro.
La recomendación que nos ocupa no debe confundirse con la posibilidad que en ocasiones se
aplica de permitir que quien responda no sea el sujeto elegido sino un familiar u otro allegado
(los llamados proxy respondents en la literatura anglófona) ya sea porque el sujeto no se
encuentra o por estar incapacitado. La experiencia demuestra, sin embargo que, típicamente,
estos sustitutos no consiguen suplir adecuadamente a los verdaderos destinatarios de las
preguntas (véanse, por ejemplo, Clarridge y Massagli, 1989 o Rodger y Herzog, 1989)
Uno de los libros más consultados recientemente en materia de redacción de preguntas, debido
a Fowler (1995), establece que una “buena pregunta” es aquella capaz de obtener el tipo
específico de respuesta que se necesita conocer, conseguir que los interrogados comprendan
el significado de la pregunta (especialmente, que todos entiendan lo mismo), que sea
susceptible de ser contestada por todos ellos, así como que promueva que la respuesta
recogida sea fidedigna y acorde con lo que se quiere.
Sin embargo, éstas no son más que indicaciones generales, que no constituyen una guía
detallada que solucione realmente los problemas que suelen aparecer durante la confección de
las preguntas y ayude a su elaboración.
Aunque algunos autores, como el propio Fowler, se han enfrascado en darle solución a este
problema, se trata de una materia en permanente crecimiento, de modo que considero de
interés ofrecer una guía actualizada que procura indicar e ilustrar exhaustivamente los errores
que con más reiteración se presentan como resultado de no transitar por un camino
teóricamente riguroso en el llamado "arte de preguntar". Las 12 pautas que se enumeran a
continuación intentan poner de relieve los errores más frecuentes y servir de alerta para
encarar adecuadamente la confección del cuestionario dentro del proceso investigativo.
Página -23-
L.C.Silva
A continuación se explican e ilustran, en casi todos los casos con ejemplos reales, cada una de
las 12 pautas enunciadas.
Para asegurarse de que un término dado será consistentemente entendido, puede ser útil
incluir la definición que se requiere dentro de la propia formulación de la pregunta.
Ocasionalmente, usando varias preguntas que cubran todos los aspectos susceptibles de ser
registrados, se suple el uso de definiciones y se ayuda a que el encuestado emita una ajustada
respuesta final.
Hay que asegurarse de que todos los términos relevantes que se hayan empleado estén bien
definidos. Quizás la principal fuente de deficiencias de los cuestionarios provenga de esta
insuficiencia, la cual podría ser obvia, aunque casi siempre es más bien sutil. Imaginemos la
pregunta siguiente:
¿Qué es hacer “ejercicios físicos”? Por ejemplo, ¿incluyen el acto de caminar? ¿Durante
cuánto tiempo ha de extenderse para considerar que los ha hecho? ¿Y qué es “la semana
pasada”? ¿Los últimos siete días, o los siete días previos al último lunes? Quizás debería
reformularse así:
Página -24-
L.C.Silva
¿Ha realizado gimnasia, caminatas u otra forma de ejercitación física por más de 20 minutos en
algún momento de los últimos siete días?
Si ___ No ___
Algunos médicos defensores de la lactancia materna opinan que debe prohibirse la publicidad
de la leche maternizada. ¿Está Ud. de acuerdo con ellos?
Si ___ No ___ No tengo opinión ___
3.- Garantizar que la indagación tenga sentido para todos los interrogados
12
Por cierto, en algunos ámbitos se ha generalizado la curiosa costumbre de
adicionar la categoría NS/NC (es decir, "no sabe, no contesta"). Esto es absurdo,
porque no es lo mismo "no saber" que abstenerse de contestar. En principio, esta
última posibilidad no debe ofrecerse como opción.
Página -25-
L.C.Silva
Aquí podrían presentarse dos problemas: primero que el entrevistado no tenga cónyuge, y
segundo que éste no sea fumador. Mejor sería esta variante:
__ Acompañada
Marque con una cruz en la casilla que corresponda a la religión que Ud. practica:
Católica ___
Protestante ___
Islámica ___
Otra ___
Ninguna ___
Página -26-
L.C.Silva
Católica ___
Protestante ___
Islámica ___
Otra ___
Ninguna ___
Página -27-
L.C.Silva
Si___ No___
Sin embargo, como han señalado Clark y Schober (1992), la comprensión del lenguaje muchas
veces no concierne a las palabras elegidas, sino al significado que tienen para quien las
formula. Por ejemplo, las palabras empleadas en la siguiente pregunta no ofrecen dudas por sí
mismas:
Pero ¿qué debe responder el entrevistado?, ¿se indaga acerca de su estado de ánimo?,
¿sobre su bienestar físico?, ¿sobre el grado en que ha considerado exitoso su desempeño
laboral o social a lo largo de la semana? Desde luego, las respuestas a estas preguntas
podrían hallarse en las propias alternativas que se ofrezcan al interrogado, pero a veces tales
alternativas son en ese sentido neutras, como ocurre precisamente en el ejemplo.
Resulta medular pulir la redacción empleada y ser cuidadoso con la sintaxis. Usar una sintaxis
sin errores facilita al interrogado la comprensión de la pregunta y que le dé la importancia que
merece. Una formulación como la que sigue es absolutamente típica:
Página -28-
L.C.Silva
__ importante
__ necesaria
__ pobre
__ poco útil
__ lleva el mayor peso del trabajo
__ no participa
Si se conecta la frase inicial con cualquiera de las dos últimas opciones de respuesta, la
oración pierde sentido. Decir, por ejemplo, "La participación de la enfermera en el control de
enfermos crónicos es no participa" es sintácticamente incoherente. Por otra parte, en la
redacción precedente se piden a la vez opiniones genéricas (1 y 2) y testimonios completos
(opciones 3, 4, 5 y 6). Para resolver la situación se podría desdoblar la interrogante según esos
dos tipos. Sin embargo, por excepción, no daré una solución para el ejemplo que nos ocupa:
“arreglar” esta formulación es demasiado complicado, pues además de los señalamientos ya
hechos, aparece la opción de que la participación sea “importante”, la cual es completamente
inespecífica (véase Pauta Nº11). Además hay riesgo de redundancia, pues si la participación
de la enfermera en el control es considerada necesaria, entonces ineludiblemente tendrá que
ser conceptuada como “importante”.
En ocasiones nos encontramos frente a una pregunta que puede no ser correctamente
respondida por falta de lógica o debido a su inconsistencia sintáctica. El sentido común debe
resolver esta situación. No obstante, vale la pena detenernos en el tema y poner algunos
ejemplos más, pues muchos de los cuestionarios contienen preguntas con errores de esta
índole.
La deficiencia aparece al dar la opción "en ocasiones"; el hecho de preguntar si asiste “con
frecuencia” es inconsistente con esta posibilidad. Para solucionar la situación, se podría
eliminar el término "con frecuencia", que de por sí es equívoco, y que en este caso nada
agrega. Una solución podría ser entonces la siguiente:
Página -29-
L.C.Silva
Página -30-
L.C.Silva
En otro estudio (Gutiérrez, 1987) se lee:
Si__ No___
__diariamente
__una vez a la semana
__2-3 veces por semana
__4-6 veces por semana
__esporádicamente
__no ingiere bebidas alcohólicas
Cuando la pregunta contiene una frase condicional o la definición de algún término empleado
para formularla, ubicar dicha frase o definición al inicio de la formulación contribuye a la
objetividad de la respuesta. La experiencia de Silva y Macías (2000) con los estudiantes de
medicina también abordó este tema. Las preguntas formuladas a los grupos A y B fueron:
Grupo A: Cuando un alumno ha tenido problema con el transporte y llega tarde a clases,
¿considera que debe ser justificado?
Si___ No___
Si ___ No____
El contenido de las dos preguntas es en esencia el mismo; solo varía la localización de la frase
condicional, que se pone al inicio (caso A), o al final de la formulación (caso B). Si tal variación
tuviera algún efecto, los resultados serían diferentes. Lo que puede ocurrir (era lo que se quería
poner en evidencia), es que cuando la condición se encuentra al final, ya leída la pregunta, el
resto pierde interés para algunos encuestados y por tanto tal condición no es tenida en cuenta al
responder. De hecho, en este caso los resultados convalidaron esta presunción:
Página -31-
L.C.Silva
¿Cree Ud. que los maestros de la escuela se encuentran suficientemente preparados para el
tratamiento de los contenidos de educación sexual?
Si __ No __
Sería mejor especificar primero a qué área de la preparación magisterial se alude preguntando:
Si __ No __ No tengo opinión __
Un tipo especial de pregunta cerrada es aquel en que se permite escoger más de una
alternativa (también llamada pregunta de respuesta múltiple). Imaginemos que en un estudio
sobre consumo de fármacos se formula la siguiente pregunta:
Página -32-
L.C.Silva
De los siguientes medicamentos, marque aquellos que ha consumido al menos una vez en
los últimos 30 días:
Aspirina ____
Atenolol ____
Librium ____
Ninguno ____
Nótese que, en verdad, se están haciendo tres preguntas diferentes. En rigor, la última
alternativa es innecesaria, ya que si se ofrecen sólo las tres primeras, quien estuviera en el
caso de no haber consumido ninguno de los tres fármacos podría comunicarlo mediante el
recurso de dejar en blanco las tres posibilidades. El inconveniente fundamental, como ya se
dijo, radica en que ese mismo resultado se obtendría en caso de que la pregunta, por olvido u
otra razón, no llegase a ser formulada.
Aunque la formulación que nos ocupa tiene cierto atractivo por su simplicidad, sería preferible
forzar a un pronunciamiento explícito planteándola del modo siguiente:
Señale si ha consumido los siguientes medicamentos al menos una vez en los últimos 30
días:
Página -33-
L.C.Silva
En su familia pueden haber ocurrido una serie de problemas de salud; por favor, refiéralos.
¿Cuáles ha presentado durante el último año?
Durante el último año en su familia pueden haber ocurrido algunos problemas de salud. Acerca
de cada una de las siguientes posibilidades señale si alguno de sus miembros los ha padecido
durante el último año:
En resumen, puede afirmase que las preguntas de respuesta múltiple suelen ofrecer dudas al
sujeto encuestado y conducir a la comisión de errores a investigadores poco experimentados.
Por otra parte, si tales preguntas se conforman a través de varias preguntas simples, como se
ha sugerido, los análisis estadísticos posibles se simplifican y esclarecen de manera natural, a
la vez que las alternativas para llevarlo adelante se incrementan, ya que se pueden considerar
distribuciones tanto para cada categoría simple como para subconjuntos de categorías (por
ejemplo, en el caso de la primera ilustración, se podría computar el porcentaje de los
encuestados que no han consumido ni atenolol ni librium)
Página -34-
L.C.Silva
8.- Contemplar todas las situaciones posibles e impedir que el interrogado pueda
ubicarse en más de una categoría de respuesta
Para el cumplimiento de esta pauta es necesario haber identificado todas las alternativas
posibles. Las posibles respuestas han de ser excluyentes y exhaustivas.
__ trabajo
__ estudio
__ trabajo y estudio
__ no trabaja
__ no estudia
Quien se vea enfrentado a responder esta pregunta puede tener muchas dudas; por ejemplo, el
que marque en la opción "trabajo", podrá además marcar en "no estudia" si, en efecto, no
estudiara. La formulación correcta (y mucho más simple) sería:
Durante el último año, ¿ha tenido usted necesidad de ausentarse por descompensación o
complicación de su enfermedad de base al:
Página -35-
L.C.Silva
__ familiar
__ vecino
__ amigo
__ vive solo
__ nadie
Puede darse el caso de que a algunos interrogados corresponda colocarse en más de una
opción, ya que son atendidos por más de una de las personas enumeradas (por ejemplo,
familiar y vecino), así como que otros se vean imposibilitados de marcar en cualquiera de ellas,
como le ocurriría a un sujeto atendido por una institución de seguro social. Se presenta otro
error con la penúltima categoría de respuesta, la cual introduce una formulación inconsistente
(véase Pauta Nº6) ya que si la persona vive sola o no, es un dato en principio irrelevante a los
efectos de quién sea la persona que atiende al sujeto encuestado. La formulación correcta
podría ser la siguiente:
Naturalmente, en este caso quizás sería conveniente insertar una pregunta de filtro
(Recomendación Nº9 de la Sección 2.3.1) que indague si el sujeto es o no atendido por alguien.
9.- Procurar no inducir las respuestas salvo que sea una decisión deliberada
A veces la inducción se produce de manera bastante sutil como consecuencia del empleo de
palabras cargadas de emotividad, planteamientos que apelan a estereotipos o formulaciones
que entrañan juicios de valor implícitos. Por ejemplo, algunas personas desocupadas podrían
encontrar embarazoso contestar "no" si se les pregunta "¿Usted trabaja"?, pero estarían más
proclives a hacerlo si la pregunta fuese: "¿Tiene usted trabajo actualmente"? Análogamente,
puede haber personas renuentes a admitir que algo debe ser “prohibido” pero que estarían de
acuerdo en “no permitir” esa misma cosa.
Página -36-
L.C.Silva
___ Penitencia
___ Golpes
___ Gritos
___ Amarrarlo
___ Quitarle la ropa
___ Otros ¿cuáles? ___________________________
Virtualmente, tal pregunta está "obligando" a los encuestados a admitir que castigan a sus hijos,
ya que no se contempló siquiera la opción de que el padre no castigue a su hijo; a la vez, el uso
de la preposición “contra” puede condicionar al interrogado. Una pregunta de filtro puede ayudar
(véase Recomendación Nº9).
En determinados contextos, hacer una pregunta inductora puede, sin embargo, ser beneficioso
para la calidad de las estimaciones. Posteriormente al famoso trabajo de Kinsey, Pomeroy y
Martin (1953) sobre conducta sexual femenina, el autor principal del informe argumentaba que
si se le pregunta a la gente si acostumbra a realizar algunas prácticas sexuales "bochornosas",
lo negarían aunque fuera cierto, en tanto que si se les pregunta cuándo, dónde o con qué
frecuencia la hacen, es más probable que lo admitan. Silva y Macías (2000) encararon este
asunto formulando las preguntas siguientes a los dos grupos de estudiantes aleatoriamente
conformados:
Grupo A: Muchos psicólogos y estudiosos del tema consideran que para resolver problemas
de la vida cotidiana es casi inevitable, en ocasiones, decir mentiras ¿lo ha hecho usted durante
el último mes?
Si___ No____
Grupo B: Para resolver algún asunto de la vida cotidiana, ¿ha dicho usted alguna mentira
durante el último mes?
Si ___ No____
Como se ve, una de ellas (Grupo A) inducía la respuesta, ya que incluía un comentario previo
que tomaba partido hacia la respuesta afirmativa; en el otro cuestionario, la pregunta se hacía
neutra y directamente. Puesto que responder afirmativamente a una pregunta como esta no es
nada enaltecedor, el hecho de recibir anticipadamente un comentario que "justifica" la conducta
reprobable, ayudaría a conseguir cierta información difícil de obtener. Los resultados fueron:
Página -37-
L.C.Silva
Nº % Nº %
Mintió 65 69,1 45 47,4
No mintió 29 30,9 50 52,6
En esta materia, uno de los investigadores más interesantes es el profesor alemán Norbert
Schwarz, de la Universidad de Michigan, a quien debemos una serie de sorprendentes
resultados. En sus trabajos ha puesto de relieve que normalmente se considera al cuestionario
como un método para obtener información del entrevistado sin reparar en que también es un
medio de dar información a éste.
Un hallazgo interesante en esta dirección fue puesto de relieve en Schwarz (1995); consiste
específicamente en mostrar cómo algunos encuestados se apoyan en el cuestionario para
elegir la respuesta (véanse también Schwarz y Hippler, 1991; Sudman, Bradburn y Schwarz,
1995; Schwarz, 1997). Se trata de que los encuestados asumen que las escalas que se le
proponen reflejan el conocimiento del investigador sobre la distribución del fenómeno y se
apoyan en ello para elegir la respuesta.
En relación con ello, Silva y Macías (2000) hicieron respectivas preguntas en el experimento
con sus dos grupos de estudiantes:
Página -38-
L.C.Silva
Como se aprecia, en realidad se elaboró una única pregunta, pero se usaron escalas diferentes,
de baja y alta frecuencia respectivamente, y de modo que los lapsos se interceptaran a la vez
que el “centro” fuera muy diferente en un caso y en el otro. Los resultados obtenidos fueron:
Como se ve, el porcentaje de estudiantes que marcó alguna de las primeras 4 opciones en el
Grupo A es muy diferente del porcentaje de los que eligieron la primera opción en el Grupo B.
En efecto, el porcentaje de encuestados que marcaron el periodo menor de 3 horas para el
Grupo A (76%) fue muy superior al de los que hicieron lo propio para el Grupo B (21%). Muchos
sujetos se apoyan aparentemente en la propia escala que se les ofrece; asumen que si los
investigadores han elegido esta escala es por que saben que la mayoría de las personas están
en el centro y se distribuye “normalmente” hacia los extremos. Dicho de otro modo, muchos que
se autoconsideran “promediales” se ubican en el centro independientemente de cuál sea dicha
categoría central.
Una pregunta tiene sentido práctico si produce respuestas diferentes siempre que los sujetos
sean realmente diferentes. No deben formularse preguntas que, por su naturaleza, produzcan
una concentración desmedida de sujetos en una misma categoría de respuesta. Tales
preguntas son poco informativas. Consideremos un ejemplo tomado de Triana (1998).
__ lo aceptaría
__ lo pensaría
__ lo aceptaría sin vacilación
__ lo aceptaría con reserva
Una gran mayoría debe marcar en la opción "lo pensaría", ya que muy pocos tendrán una
opinión incondicional (probablemente, nadie en sus cabales optaría por la primera alternativa
sin contar con más datos). Aunque los individuos tengan visiones muy diferentes acerca de su
actual trabajo, probablemente contesten del mismo modo. La pregunta así formulada no es
sensible a las variaciones que existen en el universo investigado. Algo mejor sería usar, por
ejemplo, variantes como la siguiente:
Página -39-
L.C.Silva
Si le ofrecen un cambio de trabajo donde mejore en un 30% su salario, ¿qué haría usted?
___lo aceptaría
___lo rechazaría
___depende de otros elementos
La pregunta es específica si sólo produce respuestas diferentes para sujetos que a ese
respecto sean diferentes. Imaginemos que se quiere saber la edad a la cual un profesional
universitario inició su vida laboral, pero que se pregunta:
Un interrogado pudiera responder: «A los 27 años», otro: «En 1996» y otro: “Cuando terminé la
carrera”. Sin embargo ellos pudieran haber comenzado su vida laboral a la misma edad
(deberían responder lo mismo si la pregunta hubiera sido específica). Esta pregunta no tendría
porqué tener dificultad si se redactara adecuadamente, especificando lo que el investigador
busca. Se podría lograr una respuesta uniforme, como ocurre en la reformulación que sigue:
No deben redactarse las preguntas de manera tal que se carezca de un marco referencial claro
y consientan que se “escapen” casos con una condición dada; esto dispersaría la respuesta
más allá de lo debido y aportaría pocos beneficios, ya que no tendría la capacidad de colocar a
cada quién «donde le toca».
El planteamiento de dos o más preguntas dentro de una misma formulación introduce una
ambigüedad que compromete la fiabilidad de los resultados.
¿La enfermera encuestadora le habló sobre la enfermedad que usted tiene, le explicó porqué la
tiene y cómo evitarla?
Página -40-
L.C.Silva
Tal y como se formula, puede resultar imposible responder adecuadamente; la formulación está
incluyendo tres preguntas en una sola, y sólo se obtendría una respuesta adecuada si para
todas las situaciones consideradas la respuesta coincidiera; en otro caso se produciría
desconcierto y, en última instancia, se obtendrán respuestas carentes de fiabilidad. La pregunta
podría redactarse de la siguiente manera:
____ Suficiente
____ Regular
____ Insuficiente
Cuando algún interrogado considere que el trabajo de ambos equipos merece la misma
calificación, no se presentaría ninguna dificultad; el problema aparecerá cuando no sea así. Por
ejemplo, si una persona considera que el trabajo del colectivo pedagógico es "Regular" pero
que el del personal de salud es "Suficiente", no sabría qué responder. La pregunta debería
formularse así:
Marque con una cruz en la casilla adecuada, de acuerdo con su punto de vista:
Página -41-
L.C.Silva
La leche materna es altamente beneficiosa y debe ser el único alimento que se suministre
durante los 4 primeros meses de vida.
SI ___ NO ____
Al menos dos dificultades se abren para el sujeto interrogado. Si él comparte que la leche
materna es beneficiosa, pero piensa que no necesariamente debe consumirse de manera
exclusiva, marcaría NO (pues formalmente no comparte la afirmación tal y como ella se ha
hecho); pero lo mismo tendría que hacer si opina de manera diametralmente opuesta
(considera que no es beneficiosa y que debe emplearse la leche de vaca maternizada), de
modo que también en este caso podría legítimamente marcar NO. Por otra parte, no se
contempla la posibilidad de que el sujeto no tenga una opinión formada sobre el asunto.
Página -42-
L.C.Silva
Sobre el empleo de la leche materna durante los primeros cuatro meses de vida, Ud. cree que:
En el experimento de Silva y Macías (2000) varias veces citado, se formularon estas preguntas
a los respectivos grupos de estudiantes:
Grupo A: ¿Considera usted que las actividades prácticas previstas para su formación
profesional comienzan en el momento oportuno y se extienden suficientemente?
__ de acuerdo __ en desacuerdo __ no sé
Grupo B: ¿Considera usted que las actividades prácticas previstas para su formación
profesional:
__ de acuerdo __ en desacuerdo __ no sé
se extienden suficientemente?
__ de acuerdo __ en desacuerdo __ no sé
Página -43-
L.C.Silva
La expectativa era encontrar diferencia entre los resultados de una y otra encuesta, puesto que
cuando las dos afirmaciones están dentro de la misma formulación, el interrogado puede tener
dudas en caso de que no esté de acuerdo con (o no sepa sobre) una sola de las dos
interrogantes; en tal caso no podría discernir entre estar en desacuerdo con la afirmación tal y
como se hizo o con sólo una parte de ella; cuando ambas situaciones se separan, tal
ambivalencia queda resuelta. Los resultados son expresivos:
Grupo A Nº %
De acuerdo 60 63,8
En desacuerdo 17 18,1
No sé 17 18,1
Total 94 100,0
Primera Pregunta
De En No sé Total
Grupo B
acuerdo desacuerdo
De acuerdo 34 29 4 67
Segunda En desacuerdo 14 4 2 20
pregunta No sé 2 1 5 8
Total 50 34 11 95
Como se aprecia, en el caso en que se reunieron las dos afirmaciones dentro de una misma
formulación, se obtuvo un porcentaje mucho mayor de encuestados que opinaban estar “de
acuerdo” (64%) que el obtenido para el cuestionario que las separaba: solo 34 de los 95
estudiantes del grupo B (36%) dijeron estar “de acuerdo” con ambas afirmaciones. Los
resultados varían entre los dos grupos debido, verosímilmente, a la dualidad contenida en la
pregunta; aparentemente, muchos encuestados que solamente estaban de acuerdo con una
parte de lo que se le preguntó, expresaron su acuerdo global dentro del grupo A.
Ante una encuesta que ya se ha llevado adelante, no es infrecuente escuchar preguntas críticas
tales como: ¿fue validada esta encuesta? o ¿fue validado el cuestionario? El término validación,
que es de por sí conflictivo (véase Silva, 1997), se maneja en estos casos de manera bastante
confusa.
Página -44-
L.C.Silva
Es importante puntualizar que, en principio, lo que puede validarse es un instrumento o un
procedimiento concebido para medir una dimensión concreta, sea esta de naturaleza física (como
la temperatura corporal o el pliegue suprahilíaco de un sujeto) o abstracta (como la inteligencia o
el nivel socio-económico). Validar tal instrumento equivale a corroborar que él efectivamente mide
lo que se supone que mide.
Cuando se trata de una noción abstracta, es muy común que el instrumento empleado sea una
variable sintética construida a partir de las respuestas que se obtienen del entrevistado a través de
una encuesta. Tal variable sí puede y debe validarse (Silva, 1997).
Sin embargo, "validar" un cuestionario carece de sentido claro, ya que éste suele ser simplemente
un conjunto de preguntas y no un instrumento cuantificador en el sentido que puede serlo un
termómetro, el índice Apgar o un test de inteligencia.
Naturalmente, hay preguntas que por sí mismas intentan “medir” algo y, en tal caso, ocurre con
ellas lo mismo que con cualquier otro instrumento: pueden y deben -de ser posible- ser validadas.
Hay otras, por ejemplo todas aquellas con las que se intenta establecer algo de la esfera subjetiva
y que por tanto no son susceptibles de ser respondidas correcta o incorrectamente, para las
cuales la susodicha «validación» no tienen mayor sentido.
Sin embargo, los cuestionarios deben ser "probados" en la práctica, generalmente a través de una
encuesta piloto. Es decir, lo que en cualquier caso resulta crucial es adoptar medidas para
conseguir que la información recabada que se recoja tenga calidad, y esa es una de las funciones
básicas del estudio piloto. La necesidad de hacer pruebas preliminares con el cuestionario, como
con otras partes esenciales de la encuesta, está fuera de toda duda. Si por «validar un
cuestionario» se entiende corroborar que supera con éxito estas pruebas, entonces todo se
reduciría a que para ello se ha empleado un nombre ya acuñado para otro fin; pero
desafortunadamente con cierta frecuencia se invoca la necesidad de hacer esa validación sin que
esté bien definido qué se ha de entender bajo ese término.
En cuanto al estudio piloto, es grande la tentación de creer que «esta vez no hace falta realizarlo,
puesto que todo está claro»; sin embargo, nada es más peligroso que caer en esa trampa. Por
supuesto, el equipo investigador debe estar totalmente de acuerdo en que el cuestionario es
eficiente antes de aplicarlo en el terreno, pero las valoraciones teóricas no pueden suplir el
contacto directo con la población que se va a estudiar. La falta de pruebas preliminares
adecuadas es una de las mayores fuentes de fracaso en encuestas que podrían haber sido
enteramente exitosas.
Para llevar adelante esta prueba previa casi nunca se realizan diseños probabilísticos formales;
suele bastar con aplicarla a unas pocas decenas de sujetos, elegidos sobre bases de
conveniencia y disponibilidad (Fowler, 1995).
Página -45-
L.C.Silva
Las pruebas piloto deben utilizarse para evaluar no sólo la claridad de los ítems del cuestionario,
sino también la eficacia de las instrucciones, la factibilidad del diseño muestral, la calidad de las
entrevistas, la eficiencia de la organización del trabajo de campo, la magnitud del rechazo y las
razones de su existencia, la duración de la entrevista, la idoneidad del método de encuesta para el
problema que se aborda y los costos. Permiten además delimitar si las preguntas contienen
expresiones locales que puedan ser incorporadas a las formulaciones (o eliminadas de ellas) para
evitar malentendidos e incrementar la fluidez comunicativa, así como cuáles son las preguntas o
secciones que ofrecen mayores dificultades y cuáles son capaces de producir irritación, embarazo
o confusión.
Es crucial que las condiciones en que se realice el pilotaje sean las mismas en que se llevará
adelante la encuesta real. A veces, por ejemplo, los interrogatorios del pilotaje los desarrollan los
propios directores del estudio. Craso error: estos tienen por lo general niveles de compromiso y
sensibilidad con el estudio marcadamente superiores que los de un encuestador asalariado.
[ ] Otra (especifique)
Página -46-
L.C.Silva
Este tipo de pruebas, sin embargo, no son una panacea. Presser (1989) discute sus posibles
limitaciones, tales como la subjetividad del propio encuestador participante, potenciada por el
pequeño tamaño muestral, típico de los pilotajes, que puede dar lugar a que una anécdota puntual
se erija en calidad de problema general. Precisamente, debido a esas limitaciones es que se ha
sugerido emplear recursos alternativos o complementarios como la del “grupo focal”, una técnica
de vieja data que sigue produciendo interés, como pone de manifiesto la reciente aparición de
libros destinados exclusivamente a ella (véanse Morgan, 1988 o Stewart y Shamdasani, 1990). Se
trata, en esencia, de reunir a un grupo de entre 6 y 10 personas más bien heterogéneas, y
conseguir mediante un intercambio centrado en los objetivos del estudio, que se expongan las
advertencias pertinentes acerca de las fuentes potenciales de dificultad debidas a aspectos tales
como la redacción de las preguntas, el lenguaje empleado y la capacidad o conocimiento de la
población encuestada.
3.1 Introducción
En este capítulo se presenta el muestreo simple aleatorio (MSA), el más sencillo y conocido
procedimiento probabilístico de selección. Como se verá en su momento, se trata –
paradójicamente, tal vez- del método menos utilizado en forma "pura" en la práctica del diseño de
muestras. Varias razones justifican, sin embargo, que se haga un estudio detallado de sus rasgos
y propiedades.
En primer lugar, es un procedimiento básico como componente de casi todos los diseños que se
explican más adelante. En segundo lugar, el muestreo simple aleatorio se utiliza ampliamente en
el diseño experimental (en particular, en la fase de asignación de casos a los tratamientos en el
marco de los ensayos clínicos controlados) y constituye el más importante punto de contacto de la
teoría de muestreo en poblaciones finitas con la estadística inferencial clásica (Fienberg y Tanur,
1996).
Finalmente, una prominente función adicional del MSA en este libro es la de viabilizar la
introducción formal de un amplio espectro de conceptos, ideas y notaciones que, si bien tienen
valor general para cualquier tipo de diseño muestral, se comprenden más fácilmente en el
contexto de un diseño sencillo como este.
Página -47-
L.C.Silva
Supongamos que se quiere seleccionar una muestra de tamaño X de una población que consta
de X=15=20 unidades (donde, naturalmente, E = E = 0.1 ). Se dice que el procedimiento de selección es un
3000 0
r
muestreo simple aleatorio si el proceso aplicado otorga la misma probabilidad de selección a todo
subconjunto de tamaño de la población.
Más abajo se demuestra que el MSA otorga a los sujetos de la población la misma probabili-
n
dad de quedar incluidos en la muestra, y que dicha probabilidad común es igual a f = . El MSA
N
es, por tanto, un procedimiento equiprobabilístico; cabe subrayar, sin embargo, que no todo
método muestral que produzca equiprobabilidad coincide con el MSA, como ocasionalmente se
tiende a pensar y como se ha dicho incluso en algunos buenos libros aunque no
especializados en muestreo.
B) Dividir el listado en dos grupos: uno formado por los 6 primeros elementos y el otro por los
restantes 6; lanzar una moneda al aire y tomar en calidad de muestra a los elementos del
primer grupo en caso de obtener cara, y a los del segundo si se obtiene escudo
C) Asignar números del 1 al 12 a los elementos de la lista. Colocar en una urna 12 bolas
numeradas sucesivamente, mezclar totalmente las bolas y seleccionar "a ciegas" 6 de
ellas; finalmente, admitir en la muestra a los elementos cuyos números aparezcan
señalados en las bolas elegidas
El método B, en cambio, es probabilístico, ya que toda unidad tiene una probabilidad no nula y
conocida de quedar incluida en la muestra. En efecto, la probabilidad de inclusión de cada niño
es la misma que tiene el grupo al que pertenece. Esta es, obviamente, igual a 0,5; de modo que la
probabilidad es igual para todos ellos, con lo cual el procedimiento es, además, equiprobabilístico.
Sin embargo, el método no equivale al MSA, ya que existen subconjuntos de 6 elementos que no
pueden resultar seleccionados al aplicarlo (por ejemplo, el de los que ocupan los lugares impares
en el listado).
El método C, por último, es MSA, ya que cualquiera de los subconjuntos diferentes que pueden
formarse con 6 niños puede ser elegido y, dado el modo de selección, es claro que ninguno de
dichos conjuntos tiene más probabilidad que otro de ser el que a la postre resulte seleccionado.
Detengámonos en este punto.
Página -48-
L.C.Silva
N N! 12!
K = = = = 924
n (N - n)! n! 6! 6!
Por tanto, ese es también el número K de muestras posibles en este caso. Puesto que todas
ellas tienen igual probabilidad de ser la que finalmente quede conformada, dicha probabilidad es
1
igual a .
K
Dado un elemento de la población, ¿cuántas de las posibles muestras lo contienen?: tantas como
subconjuntos de tamaño nI - 1t lpueden conformarse a partir del conjunto de los N - 1 individuos
que quedan en la población cuando se suprime aquel cuya probabilidad de selección estamos
considerando. Unos segundos de reflexión permiten apreciar que dicho número es:
N - 1 (N - 1)! 11!
K = =
*
= = 462
n - 1 (N - n) ! (n - 1) ! 6! 5!
Página -49-
L.C.Silva
de modo que la probabilidad de inclusión, igual a i = ( M j ) como vimos en la Sección 1.6,
ei M j
*
1 K = n para todo elemento
equivale en este caso a sumar K * veces el valor ; es decir; i =
K K N
462 6
de la población. En nuestro ejemplo: i = = 0,5 .
924 12
Para determinar cuál de las posibles muestras será la elegida pueden adoptarse diversos
métodos concretos. El que se sugirió en tercer lugar para seleccionar 6 de 12 niños, es
evidentemente generalizable; se trata de numerar los individuos secuencialmente desde 1 hasta
N , escribir dichos números en otras tantas bolas o tarjetas, luego mezclar adecuadamente estas
últimas, y finalmente seleccionar n de ellas para identificar a los individuos de la muestra.
Sin embargo, este recurso adolece de algunos defectos. Por ejemplo, exige la posesión o
creación de un despositivo físico en cuya "imparcialidad" haya razones para creer; además,
cuando N y n son números bastante grandes, que es lo común en la práctica, su aplicación
resultaría extraordinariamente engorrosa.
Con el fin de facilitar el proceso de selección simple aleatoria florecieron en la década del 50 las
llamadas tablas de números aleatorios. Para su construcción se simuló un mecanismo análogo al
de la urna en cuanto al principio, aunque mucho más preciso en el sentido de eliminar posibles
tendencias que favorecieran la aparición de un dígito más que la de otro y, más generalmente,
para evitar que alguna secuencia de dígitos tuviera mayor frecuencia de aparición que otra
secuencia cualquiera con el mismo número de cifras.
La Tabla 3.1 reproduce 150 dígitos que integran uno de los bloques de números aleatorios
contenidos en la tabla de Fisher y Yates (1963).
16 22 77 94 39 49 54 43 54 82 17 37 93 23 78
84 42 17 53 31 57 24 55 06 88 77 04 74 47 67
63 01 63 78 59 16 95 55 67 19 98 10 50 71 75
33 21 12 34 29 78 64 56 07 82 52 42 07 44 38
57 60 86 32 44 09 47 27 96 54 49 17 46 09 62
Página -50-
L.C.Silva
Hasta la aparición y difusión de los microprocesadores, aún tenía sentido explicar cómo se utiliza
una tabla como la que parcialmente hemos reproducido (así se hacía, por ejemplo, en Silva,
1982). Desde mediados de la década de los 80, ya no lo tiene. En efecto, las PC13 nos relevan de
aplicar tediosas manipulaciones, pues cualquier lenguaje de programación contiene eficientes
generadores de números aleatorios. Los números aleatorios se emplean en varios dominios;
además de su importantísimo papel en el marco del muestreo, constituyen un ingrediente clave en
el campo de la simulación, en algunas áreas del análisis numérico, como recurso en la
programación y en la experimentación en física. Pero lo que ahora puntualmente interesa es que
gracias a dichos generadores, hoy contamos con programas muy rápidos y precisos para la
selección de una muestra simple aleatoria (véase Capítulo 11).
Como se ha dicho, los objetivos que llevan a seleccionar una muestra suelen exigir la estimación
de parámetros poblacionales. Consideremos este problema en el contexto del MSA.
Supongamos que se quiere conocer el promedio de cierta variable X en una población finita de
N elementos. Si la medición de X se practicase sobre todos los elementos, se obtendrían los N
números correspondientes a las respectivas observaciones. Denotémoslos
mediante X 1 , X 2 ,..., X N . Supongamos que se quiere conocer el promedio X de esos N
números:
1 N
X=
N
X
i=1
i
13
Usaremos la expresión PC (iniciales de Personal Computer) para
designar a los modernos microprocesadores, también denominados
"ordenadores personales" en algunas latitudes.
Página -51-
L.C.Silva
Admitamos que se selecciona una muestra de n elementos mediante MSA y que los numeramos
desde 1 hasta n , según el orden en que van siendo seleccionados. La Figura 3.1 representa una
muestra simple aleatoria como la que nos ocupa. Usaremos minúsculas para designar los valores
de X correspondientes a la muestra; o sea, designaremos como x1 , x 2 ,..., x n a los valores de la
muestra, donde xi representa el valor de X para el i-ésimo elemento seleccionado, el cual puede
ser cualquier elemento del conjunto de datos poblacionales.
Llamaremos x a la media muestral que, en el caso del MSA, usaremos en calidad de estimador
de X . Es decir:
1 n
x= xi
n i=1
n
Y llamaremos fracción de muestreo al valor f = . Además de coincidir con la probabilidad de
N
selección común a todos los elementos de la población, f expresa la fracción que representa el
tamaño muestral respecto del tamaño poblacional. El valor que asume x queda determinado una
vez seleccionada la muestra; pero antes de contar con una muestra concreta, puede considerarse
que x es una variable, puesto que a cada muestra posible corresponde su propia media muestral
específica. Además, dado que la selección de la muestra depende del azar, se trata de una
variable aleatoria, que puede asumir hasta K valores diferentes (tantos como muestras posibles
N!
hay), donde –como vimos en la sección 3.2- K
N n ! n !
La pregunta natural en este punto es la siguiente: ¿por qué aceptar x como estimador de X ¿por
qué no tomar, por ejemplo, la mediana del conjunto x1 ,..., x n en calidad de estimador?; e incluso
¿por qué no admitir alguna otra función de los datos muestrales como pudiera ser el estadígrafo
n
G= 3 x +5?
i=1
2
i
Es fácil corroborar que el promedio de todas las medias muestrales coincide exactamente con la
media poblacional. Es decir, si llamamos x h a la h-ésima de esas posibles medias, en términos
formales se tendría:
K
1
x h =X 3.1
K h=1
Página -52-
L.C.Silva
Este hecho se sintetiza diciendo que x es un estimador insesgado del parámetro X .
La conveniencia de trabajar con estimadores insesgados es clara desde el punto de vista intuitivo:
ello significa que las estimaciones posibles se reparten "equilibradamente" alrededor del
parámetro desconocido. Esa es una condición, por ejemplo, que no cumplen ni la mediana de
los datos muestrales ni el estrafalario estadígrafo G , como puede comprobar fácilmente el lector
construyendo una pequeña población. Por ejemplo, consideremos el conjunto poblacional de
tamaño N = 4 siguiente: {3, 9, 18, 30} , cuya media es X = 15,0 , con una muestra de tamaño
n = 3 . El número K de posibles muestras es igual a 4. La Tabla 3.2 recoge dichas muestras,
así como los tres estadígrafos considerados y sus promedios para las muestras posibles.
Obsérvese que el promedio de las 4 medias muestrales coincide con la media poblacional
1 4
( x= xi = 15 ), pero que no ocurre lo mismo con la mediana ni, mucho menos, con el
4 i= 1
estadígrafo G .
Página -53-
L.C.Silva
Siendo el muestreo simple aleatorio un método de selección equiprobabilístico que produce
muestras de tamaño fijo, se deduce que en este caso, la media muestral estima sin sesgo a la
poblacional. El mensaje central de este resultado (cuya demostración puede hallarse en Kish,
1965), puede traducirse del modo siguiente: los procedimientos equiprobabilísticos son tales que,
para estimar una media poblacional (o un porcentaje) simplemente se utiliza la media muestral (o
el porcentaje muestral). Usar el promedio muestral, que parece lo natural, no siempre es
adecuado, como se ilustra en próximos capítulos.
Sin embargo, no se gana mucho con que el estimador sea insesgado si tales estimaciones (o
muchas de ellas) están alejadas del parámetro ( X ,en este caso). Lo que resulta verdaderamente
conveniente es que todas las estimaciones posibles (o, al menos, la inmensa mayoría de ellas) se
hallen en una pequeña vecindad del parámetro; solo de ese modo se podrá estar razonablemente
confiado de que la única estimación que a la postre va a hacerse habrá de estar próxima al
parámetro que se quiere conocer.
Recuérdese una vez más que la utilidad de un procedimiento cualquiera depende de la frecuencia
con que éste produce buenos resultados.
Una manera en principio lógica de medir globalmente el grado en que las distintas estimaciones
posibles se dispersan en torno a X consiste en promediar las K distancias entre las estimaciones y
X . En el caso de usar la media muestral como estimador, tendríamos:
K
1
D=
K
( x
h=1
h -X)
Página -54-
L.C.Silva
Sin embargo, el valor de D será nulo, debido a que se están sumando números negativos y
positivos equidistantes de cero en promedio. Para eludir ese problema, una solución consiste en
promediar los cuadrados de las diferencias. Tal promedio es lo que se denomina error cuadrático
medio de x :
K
VAR( x ) =
1
( x h - X )2 3.2
K h=1
El ECM de un estimador es una medida resumen de cuán eficiente es usarlo como vía para
estimar el parámetro de interés. En el ejemplo que se resumió en la Tabla 3.2 es fácil calcular
que ECM
En este ejemplo, por tanto, x sería el mejor estimador, le seguiría la mediana y el esotérico G
sería el menos eficiente. Cuando, como ocurre con la media muestral, el estimador es
insesgado, entonces el ECM coincide con la varianza del estimador.
O sea, en este caso, la expresión según la cual se mide la calidad del estimador no es otra cosa
que la varianza del conjunto de posibles estimaciones puntuales de la media poblacional. Es
importante comprender que, con acuerdo a la consideración arriba desarrollada, lo ideal sería que
VAR ( x ) fuese lo más pequeña posible.
Para elegir x como estimador, además de las razones mencionadas y de otras que veremos más
adelante, se tiene en cuenta que VAR ( x ) , definida por [3.2], puede expresarse en función de una
medida de la variabilidad poblacional. En efecto, puede demostrarse que:
2
S
VAR( x ) = (1 - f) 3.3
n
Página -55-
L.C.Silva
N
1
donde S 2 = ( X i - X )2 es un número que cuantifica cuán dispersos entre sí están de los
N - 1 i=1
N valores poblacionales14
Cabe advertir que la varianza poblacional podría definirse del mismo modo que S 2 pero
i=1
dividiendo la suma ( X
n
i
2
- x ) por N en lugar de por N - 1 ; de hecho, aunque no hay dudas
acerca de que S 2 mide la variabilidad de los datos (ya que en el fondo, a esos efectos, da igual si
la suma de las distancias cuadráticas si se divide cerca e por un número o por el otro), la definición
de S 2 parece algo antinatural.
La fórmula [3.3] permite ver que la varianza del estimador es mayor cuanto mayor sea la
variabilidad de los datos poblacionales. Dicho de otro modo: cuanto más variable sea la realidad
que se estudia, mayor será la dispersión de las posibles estimaciones de X (suponiendo, desde
luego, que n no se modifica) y, por ende, menor la eficiencia de la media muestral como
estimador de la media poblacional. Se trata de un resultado sumamente intuitivo; símiles de la
vida cotidiana vienen a la mente: por ejemplo, es más fácil "acertar" cuando se vaticina la reacción
de un sujeto estable y ordenado ante cierto estímulo que ante la de alguien impulsivo y de carácter
variable ante ese mismo estímulo.
Por otra parte, puede observarse que VAR ( x ) disminuye en la medida que aumenta el tamaño
muestral n (una característica del proceso, por cierto, que, al menos teóricamente, sí está en
manos del investigador conseguir modificar). Este rasgo de la fórmula [3.3] refleja otro hecho
intuitivo: con el incremento del tamaño de la muestra, aumenta la calidad del proceso inferencial.
Una consecuencia más se saca de la fórmula [3.3] (en este caso, bastante sorprendente): a partir
de cierta magnitud, el tamaño de la población tiene una influencia virtualmente nula en la eficiencia
de la estimación. Si se tuvieran n y S 2 constantes, Var ( X ) crece en la medida que aumenta
N , pero de modo imperceptible a partir de cierto tamaño poblacional, tal y como refleja la Figura
3.2.
En términos prácticos, esta afirmación tiene expresiones como las que ilustra el ejemplo siguiente:
14
Las demostraciones de las fórmulas [3.1] y [3.3] pueden verse -desarrolladas con recursos elementales-
en Yamane (1970).
Página -56-
L.C.Silva
El salario medio de las mujeres en edad fértil se puede estimar tan aceptablemente con una
muestra de –digamos- 500 mujeres en una gran ciudad (por ejemplo, de 1 millón de habitantes)
como en un pueblo 10 veces menor15. En ambos casos el valor de f (magnitud relativa de la
muestra) será tan cercano a cero (0.0005 y 0.005 respectivamente) que el factor 1 - f puede
suplirse por 1 en ambos casos; o, lo que es equivalente, puede suprimirse.
Estas relaciones entre la eficiencia del estimador con cada uno de los tres parámetros
considerados (tamaño muestral, heterogeneidad poblacional y tamaño del universo) son
esencialmente válidas en toda situación de muestreo, cualquiera sea el diseño, incluidos aquellos
más complejos y realistas que el MSA, aunque allí no se deriven tan claramente de la formulación
correspondiente.
En esta sección se analizará detenidamente un ejemplo artificial por conducto del cual se procura
ilustrar el comportamiento de un estimador en el contexto del MSA y, simultáneamente,
sedimentar los principios conceptuales introducidos en la sección precedente.
15
Naturalmente, se está asumiendo que la variable "salario" tiene análogo grado de heterogeneidad en ambas
poblaciones.
Página -57-
L.C.Silva
7 180
8 270
9 150
10 90
11 480
12 190
13 60
14 40
15 100
Total 3000
200
Promedio X
Al realizar una selección aleatoria16 de tamaño n = 2 sobre esta población, se obtiene alguna de
15 15!
las 105 muestras posibles. (Nótese que k = = = 105 )
2 13!2!
En la práctica, dicha muestra nos proveería de una estimación del parámetro X . En este
3000
ejemplo, de finalidad didáctica, sabemos que X = = 200 y podemos conocer los 105
15
posibles valores de x . La Tabla 3.4 refleja las 105 muestras posibles de tamaño 2 y las
respectivas estimaciones de X .
Si se suman los números correspondiente a las 105 celdas ocupadas de la Tabla 3.4, el
resultado es igual a 21.000; al dividirlo por 105, se obtiene el número 200, que no es otra cosa
que la media poblacional, tal y como anunciaba la fórmula [3.1].
Tabla 3.4. Estimaciones de X para cada una de las muestras de tamaño 2 que pueden ob-
tenerse por MSA de la población descrita en la Tabla 3.3.
HOSPITALES
1 2 3 4 5 6 7 8 9 10 11 12 13 14
2 180
16
En lo sucesivo, cuando se diga que la selección es aleatoria o al
azar, se entenderá que nos referimos a un MSA.
Página -58-
L.C.Silva
H 3 220 270
E 11 305 355 395 340 415 350 330 375 315 285
S 12 160 210 250 195 270 205 185 230 170 140 335
13 95 145 185 130 205 140 120 165 105 75 270 125
14 85 135 175 120 195 130 110 155 95 65 260 115 50
15 115 165 205 150 225 160 140 185 125 95 290 145 80 70
En la Tabla 3.4 se observa que las 105 estimaciones posibles se encuentran entre 50 y 415;
quiere esto decir que, si bien se hallan "alrededor" del valor X = 200 , algunas están muy
distantes del número que se pretende estimar. En efecto, si el azar determinara que los hospitales
de la muestra fueran el 13 y el 14, tendríamos x = 50 , una acusada subestimación del parámetro.
Análogamente, si los elegidos fueran el 5 y el 11, estaríamos en el otro caso extremo, pues
x = 415 arroja una marcada sobrestimación de X .
Se recordará que la expresión [3.2] da una medida promedio de la distancia a que se hallan las
distintas estimaciones del valor central:
VAR ( x ) = 6017,1
Página -59-
L.C.Silva
1 15
2
S = ( X i - 200 )2 = 13885,7
14 i=1
2
S 13885,7 2
(1 - f) = (1 - ) = 6017,1
n 2 15
Se había afirmado que la magnitud de VAR ( x ) disminuía con el aumento de n . Esto se puede
comprobar de inmediato; por ejemplo, para n = 3 podríamos calcular los 455 valores de x a que
darían lugar las respectivas muestras de tamaño 3 y computar la varianza de ese conjunto; pero
no necesitamos hacer tal esfuerzo: la relación [3.3] nos habilita para hacerlo rápidamente en este
caso en que, por excepción, conocemos S 2 . Aplicándola entonces para n = 3 , se tiene:
13885,7 3
VAR ( x ) = 1 - = 3702,9
3 15
Página -60-
L.C.Silva
Como se ve, la disminución en la variabilidad del conjunto de medias es notable. Otro modo de
apreciarlo sería a través del examen del recorrido del conjunto de medias muestrales. ¿Cuáles
serían las muestras más "desfavorables" que pudieran producirse? Por una parte, la formada por
los hospitales 10, 13, y 14 (que produciría la estimación ( x = 60,3 )N, y por otra la formada por los
elementos 3, 5 y 11 ( x = 380,0 ).
La Tabla 3.5 resume los valores de VAR ( x ) y el recorrido (menor y mayor valor de x para todos
los posibles tamaños de muestra (desde 1 hasta 15). Como ya sabíamos, VAR ( x ) va
disminuyendo en la medida que aumenta el tamaño de la muestra. El recorrido, por su parte,
también va estrechándose hasta llegar a la situación extrema en que ambos puntos coinciden con
la media poblacional. Este caso refleja la situación en que -de hecho- no se ha tomado una
muestra como tal, sino que se trabaja con toda la población.
Tabla 3.5 Valores aproximados de VAR ( x ) y recorrido de las medias posibles para MSA de
la población de la Tabla 3.2 con distintos tamaños de muestra
n VAR ( x ) Recorrido
Min Max
Página -61-
L.C.Silva
40- 79 80-119 120-159 160-199 200-239 240-279 280-319 320-359 360-399 400-439
4 10 19 20 18 13 8 5 2 1
Un examen similar puede repetirse para otros tamaños de muestra (n=3, n=4, etc.) teniendo en
cuenta, para cada caso, todas las posibles muestras y sus correspondientes medias.
La Tabla 3.5 resume el resultado de esa operación para valores de n desde 2 hasta 14, en
intervalos de amplitud 40. Varias apreciaciones pueden realizarse a partir de dicha tabla.
En primer lugar, es notable que, para todos los tamaños muestrales, un alto porcentaje de las
estimaciones se ubique en los intervalos 160-199 o 200-239. Por otra parte, se advierte que tal
porcentaje crece rápidamente en la medida que aumenta n : el 34 % de las medias caen en
esos intervalos para n = 2 (o sea, 35 de los 105 valores de x ), mientras que, por ejemplo, para
n = 5 ya se tiene que el 62 % de las estimaciones (1866 de las 3003 posibles) se ubican allí, y
para n = 8 ocurre con el 83 % de las 6435 posibles muestras de ese tamaño.
Tabla 3.5 Distribución porcentual según intervalos de todas las posibles medias
correspondientes al MSA de tamaños n de 2 a 14 para la población descrita en la Tabla 3.2.
INTERVALOS
n 40- 80- 120- 160- 200- 240- 280- 320- 360- 400- Número
79 119 159 199 239 279 319 359 399 439 de
muestra
s
2 4 10 20 21 13 14 8 6 2 1 105
3 1 7 19 25 21 15 8 3 - - 455
Página -62-
L.C.Silva
4 - 4 18 29 26 16 6 1 - - 1365
5 - 2 16 32 30 16 4 - - - 3003
6 - 1 14 36 34 14 2 - - - 5005
7 - - 11 38 39 12 - - - - 6435
8 - - 8 41 42 9 - - - - 6435
9 - - 6 43 46 5 - - - - 5005
10 - - 4 44 50 2 - - - - 3003
11 - - 2 45 53 - - - - - 1365
12 - - - 45 55 - - - - - 455
13 - - - 45 55 - - - - - 105
14 - - - 40 60 - - - - - 12
Por otra parte, puede observarse que la forma de los histogramas que resultan de dichas tablas va
aproximándose, en la medida que aumenta el tamaño muestral, a la de la famosa campana de
Gauss (es decir, a la de una distribución normal). Esto es una expresión empírica del archifamoso
teorema central del límite. Las Figuras 3.4, 3.5 y 3.6, que reflejan las distribuciones porcentuales
construidas con las 10 clases (de longitud 40 cada una) de la Tabla 3.6, para los casos
correspondientes a n = 2 , n = 4 y n = 6 respectivamente, permiten apreciarlo de manera más
palpable.
Página -63-
L.C.Silva
Como se recordará, esta distribución tiene la propiedad, por ejemplo, de que aproximadamente el
95% de las observaciones distan de la media menos que dos veces17 su desviación estándar
(independientemente de los valores que tengan estos dos parámetros).
Por ejemplo, si se recuerda que en nuestro ejemplo VAR( x ) = 77.6 para n = 2 , y se calcula
| x - 200 | para los 105 valores de la Tabla 3.4, se puede corroborar que 101 de ellos (el 88%, no
muy lejano del porcentaje 95% esperado) son menores que el producto (1.96)(77,6)=152,0. Algo
similar (aunque mucho más ajustado a lo esperado) ocurre para valores mayores de n . Por
ejemplo, de las 6435 medias muestrales calculables para n = 8 , 6157 (esto es, el 95,7%) distan
de X menos que (1.96)( 810 )=55.8. La utilidad fundamental que tiene esta característica de la
distribución de x estriba en que nos habilita para la construcción de intervalos de confianza.
Luego de sacar una muestra concreta -y suponiendo que se conociera S 2 - se podría calcular lo
que llamaremos error de muestreo:
E = (1.96 ) VAR( x ) 3.4
Sumando E a la estimación x obtenida, se tiene el extremo superior del intervalo y restando E
de x , el extremo inferior18.
Al observar la fórmula [3.4], se advierte de inmediato que en la práctica sería imposible calcular
este intervalo de confianza, ya que en un problema real, S 2 es desconocido; su cómputo exige
conocer los valores de X para todos los miembros de la población, y eso es precisamente lo que
se quiere suplir mediante el recurso del muestreo.
Sin embargo, este número puede ser estimado a través de la propia muestra mediante la llamada
varianza muestral:
1 n
2
s = ( xi - x )2 3.5
n - 1 i=1
17
El valor exacto es 1.96, percentil 97.5 de la distribución normal estándar.
18
En rigor, habría que considerar la llamada "confiabilidad". Aquí se ha partido de que se trabajó con una
confiabilidad del 95% y se ha puesto sistemáticamente el número 1.96, correspondiente al percentil 97.5
de la distribución normal estándar. Tal simplificación resulta acorde con el espíritu del libro y con la
práctica más extendida. El caso general, sin embargo, resulta muy fácil de construir para cualquier
lector entrenado en teoría elemental de probabilidades.
Página -64-
L.C.Silva
Puede demostrarse que en el caso que nos ocupa (MSA), S 2 es un estimador insesgado de S 2 ;
N
o sea, que el promedio de todos los valores de s 2 , calculados para las muestras posibles,
n
coincide con S 2 .
En este punto ya se puede construir un intervalo de confianza que depende solo de elementos
conocidos. Sustituyendo S 2 en lugar de S 2 en [3.3], se puede estimar VAR( x ) mediante la
fórmula siguiente:
S2
var( x ) = (1 - f) 3.6
n
x - e ,x+e 3.8
Página -65-
L.C.Silva
Debe notarse que e es la mitad de la longitud del intervalo de confianza; por lo tanto, si
efectivamente ocurriese que X está dentro del intervalo, entonces la distancia entre la estimación
x y el parámetro X es, a lo sumo, igual a e ; de ahí que se considere ese número como el error
asociado a la estimación.
De las secciones precedentes se deriva una primera conclusión, tan importante como intuitiva: el
tamaño de muestra tiene un papel determinante sobre la magnitud del error muestral de las es-
timaciones; consecuentemente, el tamaño mínimo necesario dependerá del error máximo que se
considere admisible.
Desde luego, en la práctica hay una limitación adicional evidente: los recursos. Los requerimientos
de precisión se supeditan, en última instancia, a las posibilidades materiales con que se cuente. Si
obviamos por el momento este aspecto del problema19, el asunto puede plantearse en los
términos siguientes: cuál es el tamaño de muestra mínimo con que puede estimarse X de
manera que | x - X | sea menor que cierta magnitud prestablecida? Ya sabemos que tomando n
suficientemente grande se podrá estar virtualmente seguro de que se cumpla que | x - X | E ,
por pequeño que sea el valor de E .
Por consiguiente, la solución exige que se comience por establecer el valor máximo que puede
admitirse para E. Supongamos que, luego de un análisis con el especialista, se arriba a la
convicción de que basta conocer X con error no superior a E 0 .
Por ejemplo, si lo que se quiere es conocer el salario medio en cierta población, y se declara que
se admite un error máximo de hasta E 0 = 7 pesos, entonces es que se está pensado en términos
como los siguientes: "Si el verdadero promedio fuera $320, pero lo que se me informa es que
asciende a $327, entonces considero que conozco adecuadamente el dato; sin embargo, si se me
dijera es que ese número es, por ejemplo, $312, y luego me entero de la cifra verdadera, entonces
considero que estaba trabajando con un dato demasiado alejado de la verdad". Tal valor de E 0
determina el tamaño mínimo necesario. Puesto que la relación entre el error y el tamaño muestral
viene dada por la fórmula [3.4], para conocer n , todo lo que hay que hacer es despejarla de la
2
S n
expresión E 0 = (1.96) (1 - ) .
n N
Al hacer tal despeje (maniobra algebraica que, por cierto, no es inmediata), se obtiene:
19
En la Sección 12.3. se discuten detalladamente diversos aspectos
relacionados con el tamaño muestral.
Página -66-
L.C.Silva
n0
n=
n
1+ 0
N
donde
(1.96 )2 S 2
no = 2
3.9
Eo
Página -67-
L.C.Silva
Como se aprecia en esta fórmula, el tamaño muestral depende de tres elementos: del tamaño
poblacional N, de la varianza poblacional S 2 y del máximo error admisible E 0 , elementos que, por
tanto, deben ser conocidos de antemano para aplicar la fórmula. Para cada uno de ellos cabe
hacer algunas consideraciones20.
i) Tamaño poblacional
El MSA exige la posesión de un listado de elementos; por lo tanto, con más razón, el tamaño de
ese listado también tiene que conocerse. Sin embargo, en la práctica suele ocurrir que el
verdadero tamaño de la población se ignora; esa es una de las razones por las que raramente se
utiliza el MSA "puro". Es fácil comprender que, por ejemplo, el número exacto de mujeres en edad
fértil en una provincia o la cantidad de niños del país que tienen entre 3 y 5 años son, en
condiciones normales, números desconocidos, aunque, naturalmente, casi siempre se puedan
tener valores aproximados (sobre todo poco después de un Censo Nacional). En otro tipo de
poblaciones, tales como el conjunto de sujetos de una ciudad cuyo padre haya muerto de un
infarto de miocardio, conocer exactamente ese número es simplemente quimérico. Prescindiendo
por el momento de esta limitación, consideremos brevemente la influencia de la magnitud de N
sobre el tamaño de muestra necesario.
Aquí se presenta un hecho muy poco intuitivo: la influencia de N es -en la mayor parte de las
situaciones prácticas- despreciable. En efecto, si se tienen dos poblaciones con
aproximadamente el mismo valor de S y los requerimientos de precisión no varían, el tamaño de
2
muestra necesario será aproximadamente el mismo aunque las poblaciones sean de tamaños
muy diferentes. Dicho de otro modo: lo que influye de manera sustancial en la precisión de las
estimaciones no es la magnitud relativa de la muestra con respecto a la que tenga la población
(expresada formalmente a través de la fracción de muestreo f ), sino el tamaño absoluto de la
muestra. Esto es válido cuando, como ocurre casi siempre, se trate de poblaciones muy grandes
respecto de los posibles tamaños muestrales, pero no rige cuando el valor de f sea apreciable
(por ejemplo, no cuando sea mayor que 0.1)
20
En rigor, dependen de un cuarto componente, la confiabilidad; pero ya
se aclaró que se asumiría la más convencional (95%).
Página -68-
L.C.Silva
Para ilustrar estas ideas, supongamos que se planifican dos estudios de fecundidad: uno en una
gran ciudad donde hay alrededor de medio millón de mujeres en edad fértil, y otro en uno de sus
municipios que tiene unas 55 000 mujeres en esa franja de edad. Supongamos que en ambos
casos se quiere conocer mediante MSA el salario medio de dichas mujeres con error no mayor de
$7 y que -de estudios anteriores- se conoce que S es aproximadamente igual a $75 para ambos
grupos. ¿Cuál sería el tamaño de muestra necesario en cada estudio? Hay que aplicar la fórmula
(1.96 )2 (75 )2
[3.9] para cada situación: n0 = 2
441 es el mismo en los dos casos (no depende de
7
N); el efecto del tamaño poblacional puede evaluarse calculando
n0 . Para toda la ciudad se
1 + nN0
441 441
tiene n = 441
441 y, para el municipio, n = 441
437 .
1 + 500.000 1 + 55.000
O sea, el tamaño de muestra para ambas poblaciones sería básicamente el mismo. Sin embargo,
si el estudio se fuese a verificar en un área de salud que tuviese solo 1000 mujeres en las edades
441
de interés, la reducción del tamaño de muestra sería apreciable: n = 441
306 .
1 + 1.000
El máximo error admisible E 0 refleja el grado de precisión que se desea como mínimo. Puesto
que E o figura en el denominador de la fórmula de no , y como a su vez n crece cuando lo hace
no , la fórmula [3.9] conduce a que el aumento en la precisión exigida incrementa el tamaño
muestral necesario, hecho compatible con nuestro sentido común.
En su determinación interviene vitalmente el usuario del muestreo, ya que es él quien mejor puede
identificar las consecuencias prácticas que se podrían producir, en caso de superar un error dado.
Cabe aquí hacer una observación en consonancia con las consideraciones preliminares
contenidas en la Sección 1.10.4.
Puesto que la fórmula [3.9] exige que anticipemos un error máximo admisible, es evidente que
éste habrá de nacer de una reflexión racional (si tuviera sentido fijar E 0 libremente, entonces sería
mejor decidir el tamaño muestral directamente sin más trámite). Las claves de esa racionalidad
son dos:
a) La situación práctica, que conduce a que nos preguntemos ¿cuál sería un nivel de precisión
mínimo aceptable teniendo en cuenta lo que ya se sabe sobre este parámetro? En efecto, no
tendría sentido plantearse estimar, por ejemplo, la tasa de ciegos en una ciudad con un error
absoluto máximo de 2%, ya que cualquiera que sea el intervalo que obtengamos, éste será
“no informativo” (véase Sección 12.8.2).
Página -69-
L.C.Silva
b) La magnitud que a grandes rasgos tiene el parámetro. Por poner un ejemplo elocuente, es
fácil advertir que no se puede valorar si una precisión de un kilogramo, al estimar un peso
promedio, es o no aceptable mientras se ignore qué es lo que estamos pesando
(probablemente sería exageradamente exigente si se trata de camiones, adecuada si fueran
personas adultas, y totalmente insuficiente si fueran lombrices). Se trata del mismo callejón sin
salida en que se estaría si, para medir la longitud de un objeto, hubiera que decidir si ha de
emplearse una cinta métrica, una regla escolar, un pie de rey o un micrómetro sin conocer
cuál es el objeto en cuestión.
Ambos asuntos, emparentados entre sí, conducen a pensar en términos relativos a la hora de fijar
Eo .
Aquí se presenta una situación contradictoria: para calcular n se necesita S 2 , pero éste no solo
es un parámetro desconocido sino que ni siquiera puede estimarse, ya que, obviamente, la deter-
minación del tamaño muestral es previa al acto de la selección (y, por ende, anterior a toda
aspiración de emplearla para hacer una estimación). Básicamente son dos las opciones que se
sugieren en los textos clásicos para resolver esta contradicción:
En general, es claramente intuitivo que cuanto más variable sea cierta realidad, más información
sobre la misma será necesario poseer para poder describirla aceptablemente. Por ejemplo, un
cm2 de cierta tela puede servir para apreciar cómo es toda la tela si ésta es uniforme; pero sería
insuficiente si se tratara de un estampado; y cuanto más complejo sea el estampado, mayor será
la muestra de tela necesaria para describirlo. La fórmula [3.9] sintetiza este hecho ya que, a
mayor valor de S 2 , mayor es el tamaño muestral necesario.
Página -70-
L.C.Silva
Las secciones anteriores se dedicaron al caso en que el problema de muestreo se asocia a la
estimación de una media poblacional. Con frecuencia, sin embargo, el interés se centra en la
estimación del total acumulado por una variable en una población o -con muchísima más
frecuencia- en la estimación de un porcentaje o de una fracción o proporción21. Como se verá, la
teoría correspondiente a estos casos se asocia íntimamente a la desarrollada para la media pobla-
cional.
N
Supongamos que lo que se desea es estimar el parámetro X T = X
i=1
i , el llamado total
poblacional de la variable X. Consideremos, por ejemplo, que se tiene una población de N sujetos
que fueron objetos de cierta intervención quirúrgica, donde se define X i como el costo de la
operación correspondiente al i-ésimo sujeto y se quiere conocer el gasto total X T en que incurrió
el sistema de salud como consecuencia de esas N intervenciones. Obtenido dicho dato para los n
integrantes de una MSA, se tiene la información muestral x1 , x 2 ,.., x n ¿Cómo obtener una es-
timación insesgada de X T a partir de los datos muestrales?
21
En la literatura estadística (especialmente en la que se dedica al
muestreo), se suele hablar de "proporción" para referirse a una
fracción en que el denominador es un número de unidades y el numerador
es el número de tales unidades que cumplen alguna condición. Ignoro
de dónde surge esta práctica (que abarca al inglés, con el término
proportion) pero la considero incorrecta. En efecto, el término
proporción está reservado para una relación en que intervienen cuatro
elementos. Se dice, por ejemplo, que a y b guardan la misma
proporción que c y d cuando se cumple que
Install Equation Editor and double-
click here to view equation. ¡Error!
Sólo el documento
principal.. Sin embargo, la expresión está tan
extendida que ocasionalmente la emplearemos como
sinónimo de fracción.
Página -71-
L.C.Silva
La fórmula ya conocida para obtener un intervalo de confianza vale ahora con la modificación
correspondiente para la varianza.
Cabe consignar que el resultado que se acaba de exponer es un caso particular del siguiente
teorema, cuya demostración puede hallarse en Kish (1965):
xt
Si llamamos xT al total muestral correspondiente a una muestra equiprobabilística entonces
es un estimador insesgado del total poblacional, donde es la probabilidad de inclusión (común a
n
xi
todos los elementos). Más generalmente, cualquiera sea el diseño,
i=1
es una estimación
i
insesgada del total poblacional.
Supongamos ahora que lo que interesa es estimar una proporción. O sea, se tiene una población
de N elementos, cada uno de los cuales posee o no cierta característica, y lo que se quiere es
estimar la fracción P = NA , donde A es el número total de elementos que poseen dicha condición.
Obviamente, es un número mayor o igual que 0 y no mayor que 1. Con frecuencia este
parámetro se expresa multiplicado por una potencia conveniente de 10; tal es el caso -por
ejemplo- de los porcentajes, que no son sino fracciones multiplicadas por 100.
Para estudiar este problema resulta ventajoso "cuantificar" la variable cualitativa de la siguiente
manera: se define la variable X que sólo puede tomar el valor 1 o el valor 0 en dependencia de
que el sujeto tenga o no, respectivamente, la característica en estudio. O sea, se considera que la
población de valores X 1 , X 2 , , X N está integrada por ceros y unos, donde X i = 1 si el i-ésimo
sujeto tiene la condición y X i = 0 en caso de que no la tenga. A partir de ello es evidente que
N N
1
X = A y, por lo tanto que, P = N X
i=1
i
i=1
i .
Esto quiere decir que la proporción es un caso particular de la media aritmética; o sea, cuando X i
asume la forma particular que se acaba de describir, la media X pasa a ser la fracción P que
ahora nos ocupa.
Este es un hecho de singular importancia, ya que ahora solo resta adecuar la teoría desarrollada
para la estimación de X a esta forma particular de la variable.
X =X = A
i=1
i
i=1
2
i
Página -72-
L.C.Silva
2
N
X i
i=1 = A - A = N (P - 2 ) , no es difícil constatar que [3.3] se
N N 2
y que ( X i - X ) = X i2 -
2
P
i=1 i=1 N N
reduce, en este caso, a:
VAR (p) =
N PQ
(1 - f) 3.11
N -1 n
donde Q = 1 - .
1 n 2
Observando ahora que [3.5] es equivalente a s 2 = xi - n x 2 y que en este caso parti-
n - 1 i=1
n n
cular se cumple x = x = a , se infiere que s
i=1
2
1
i=1
i
2
puede expresarse como una función de p :
donde q = 1 - p .
var(p) =
pq
(1 - f) 3.12
n-1
e = (1.96)
pq
(1 - f) 3.13
n-1
Página -73-
L.C.Silva
De modo que se puede calcular el intervalo de confianza para P con la fórmula [3.8].
Razonando de la misma manera, a partir de [3.9], es fácil arribar a que el tamaño de muestra
mínimo para estimar P con error absoluto no mayor que E 0 y confiabilidad del 95% viene dado
por:
no n0
n=
N - 1 no 1 + nN0 -1
+
N N
donde
(1.96 )2 PQ
no = 2
3.14
Eo
Página -74-
L.C.Silva
Mirándolo al revés, si se fijara un error relativo para determinar el tamaño muestral a la hora de
estimar P , y el mismo error relativo para estimar Q , se obtendrían tamaños de muestra
diferentes, lo cual carece de sentido. Dicho de otro modo: no es posible estimar tanto P como Q
con el mismo error relativo22. ¿Cómo conciliar esta realidad con la recomendación opuesta, según
la cual lo único racional es operar con errores relativos? Reproduzco a continuación las ideas
contenidas en Silva (2000) sobre este controvertido asunto.
Supongamos que K=3 y que para determinar ese tamaño elegimos uno de los porcentajes de
interés (digamos, P1 ). En principio los tres porcentajes interesan por igual, como por ejemplo
ocurriría si se tratara de estimar tasas de enfermos con SIDA, de seronegativos y de seropositivos
a VIH. Si se fija un valor para P1 a priori y un error absoluto e1 , se podrá aplicar la fórmula [3.14]
usando n0
1,962
P1 100 P1
. Pero, siendo así, entonces no se tendrá control alguno sobre la
2
e1
precisión con que se estimarán P2 y P3 , estimaciones que serán “rehenes” del e1 elegido.
A mi juicio lo único razonable sería centrar el interés en el más pequeño de todos, fijar un error
que se considere razonable (directamente un error relativo, o un error absoluto, pero teniendo en
cuenta cuál pudiera ser el valor de esa fracción, que es lo mismo que fijar un error relativo) y, con
esos datos, aplicar la fórmula, que producirá un tamaño con el cual se estimarían adecuadamente
(probablemente, con creces) los demás.
22
Esta circunstancia ha conducido a algunos autores (Seuc, 1998;
Marrugat, Vila y Pavesi 1999, por citar dos ejemplos) a recomendar
que se fije, simplemente, un error absoluto (el cual sí será común a
ambos parámetros).
Página -75-
L.C.Silva
Para ilustrar lo anterior, supongamos que hay 4 categorías de interés y que la distribución
verdadera es 3%, 10%, 18% y 69%. Supongamos que se elige la cuarta fracción para determinar
el tamaño muestral con que se quieren estimar las 4, y que como anticipación se establece el
valor P4 70 , así como un error absoluto de e4 7 . La fórmula [3.14] usando
n0
1,96 P 100 P , produciría un tamaño de muestra igual a n=165 (suponiendo, ahora y
2
4 4
2
e4
en el resto de esta Sección, que la fracción de muestreo es despreciable). Si tras seleccionar tal
muestra se obtuvieran, pongamos por caso, las estimaciones 2%, 10% y 18% para los tres
primeros porcentajes, los respectivos errores estimados serían aproximadamente 2%, 5% y 6%
(errores relativos de 100%, 50% y 33% respectivamente). Es virtualmente seguro que en el primer
caso, y quizás en el segundo y hasta en el tercero, los intervalos obtenidos no contribuyan a saber
nada que no se conociera de antemano. Lo que hay que hacer es concentrarse en el primero de
ellos (por ser el más pequeño) y fijar como error absoluto un valor que pudiera ser quizás e1 0,6
(20% de 3), lo cual arrojaría que el tamaño necesario es 2102. Ello producirá para los otros tres
porcentajes, respectivamente, los siguientes errores absolutos: 1.3%, 1.6% y 2.0%. Ellos pudieran
ser, en algunos de los casos, más pequeños de lo necesario, pero ese es el precio que hay que
pagar por el hecho de que una de las tasas que interese (la primera) sea tan pequeña.
La situación en que K=2 no es más que un caso particular de lo anterior. Habría que elegir el
menor de los dos (entre P y 1 P ) y calcular el tamaño necesario fijando sobre bases racionales
el error para éste. Es la única manera de estar seguros de que dicho error absoluto estimado
(común a ambos en este caso) será razonablemente pequeño tanto para el menor como para el
mayor de los dos porcentajes complementarios23.
A continuación se plantea un problema que resulta útil en más de un sentido. En primer lugar
porque es bonito (en definitiva, porque no reivindicar la belleza como algo útil?). En segundo
lugar porque subraya el papel del tamaño muestral absoluto en relación con la precisión. Y,
finalmente, porque enfatiza que la varianza de los estimadores es el recurso natural para valorar la
eficiencia de un procedimiento muestral (especialmente, para comparar procedimientos
muestrales alternativos).
23
En relación con este tema, véase también la Sección 12.8.2.
Página -76-
L.C.Silva
B: Seleccionar n B = 300 bolas al azar de la urna B
Supongamos que cada uno de los dos contendientes selecciona una estrategia diferente; hecha la
experiencia, cada uno obtiene su estimación, basada, naturalmente, en la fracción muestral de
A B
bolas rojas PA y PB según el caso, donde A y B representan el número de bolas de
nA nB
ese color que hay en la muestra de tamaño 50 y 300 respectivamente. El ganador del juego es
aquél cuya estimación de P sea más precisa. O sea, A ganará si | p A - P | es menor que
| p B - P | , y B gana en caso contrario. Si p A dista de P tanto como p B , se declarará un empate.
¿Cuál estrategia será la más favorable? Dicho de otro modo, ¿cuál de las dos alternativas
produce la victoria con mayor probabilidad?
El sentido común o la intuición indican (equivocadamente) a la mayor parte de las personas que
debe elegirse la estrategia A, pues la inferencia se estaría basando en la observación del 25 % de
la población (50 de 200), en tanto que bajo la estrategia B ésta se basaría en un mísero 3 % de la
población (300 de 10.000). Sin embargo, 300 es mucho mayor que 50 y, por ende, la primera
muestra contiene más información que la segunda, hecho que parece no contar para la mayoría
de las personas.
En palabras de Kahneman y Tversky (1972): "la noción de que la varianza muestral decrece
proporcionalmente con el aumento del tamaño absoluto de la muestra no parece integrar del
repertorio de intuiciones del ser humano". Bar-Hillel (1979) realizó una experiencia consistente en
plantear a 110 estudiantes que solicitaban su ingreso a la universidad un problema similar al que
hemos formulado arriba. El 65 % de ellos escogió la estrategia A y el resto la B. En mi
experiencia, el porcentaje de individuos que se pronuncia por la estrategia más ineficiente es aun
mayor.
PQ N B - n B 10000 - 300
VAR ( p B ) = = PQ = (0,003) PQ
nB - 1 N B (299)(10000)
Página -77-
L.C.Silva
Supongamos que se tienen 6760 historias clínicas (HC) acopiadas durante varios años por el
servicio de psiquiatría de un hospital, correspondientes a pacientes que ya lo abandonaron
(alrededor del 15 % por fallecimiento y el 85 % restante por recibir el alta). Las HC se hallan
archivadas de modo que pueden numerarse del 1 al 6760 y se quiere seleccionar una muestra
con vistas a una auditoría médica. Aunque la encuesta habrá de registrar diversos aspectos (y
será más acuciosa para los sujetos que recibieron el alta con la etiqueta de "muerte hospitalaria"),
admitamos que interesa especialmente estimar dos parámetros: porcentaje de historias que
contenían alguna deficiencia24 y tiempo medio de estancia. Supongamos que este último, sin
embargo, solo interesa para los sujetos que estaban vivos en el momento del alta.
Habiéndose decidido aplicar un MSA, el primer paso consiste en determinar el tamaño de muestra
necesario. Supongamos que se plantea que la precisión no tiene que ser mayor que la que brinda
un error relativo del 10 %. Esto quiere decir que si el verdadero valor del tiempo medio de
estancia fuese, por ejemplo, de 20 días, el error máximo que se admitiría para dicha estimación
sería de 2 días.
Consideremos que -como es usual- se ha decidido trabajar con confiabilidad igual al 95 %. Para
poder aplicar la fórmula [3.9] hace falta aún tener una idea de la varianza de esta variable (tiempo
de estancia).
Al examinar una muestra piloto de 15 historias de sujetos vivos al alta (elegidas sin ningún criterio
especial)25 se obtuvieron los siguientes resultados (en días):
24
No definiremos ahora qué se entiende por "deficiencia" de una HC, pues
ello resulta irrelevante; en una encuesta real, sin embargo, tal
definición operacional sería de máxima importancia.
25
No procede que para este pilotaje se haga un diseño riguroso; todos los
objetivos del estudio piloto suelen alcanzarse sin dificultad haciendo
una selección informal, esencialmente basada en el sentido
común.(Véase Sección 2.4)
Página -78-
L.C.Silva
18 67 12 49 32 146 36 27 121 83 8 16 10 30 30
1 15
= ( X
2 2
S P Pi - X P ) = 1727.95
14 i=1
26
Se ha usado el subíndice P para subrayar que se trata de datos salidos del
pilotaje.
Página -79-
L.C.Silva
Puesto que el 10 % de X P es igual a 4.6, tomaremos E 0 =4.6. Aplicando la fórmula [3.9] se tiene
entonces que: n = 299,7
Finalmente, hay que contemplar el hecho de que solo el 85 % del total de las historias clínicas
corresponden a los individuos que interesan a los efectos de este parámetro (vivos al alta). De
modo que la cifra final sería el resultado de dividir 299.7 entre 0.85, operación que arroja un
tamaño muestral de 353 historias.
Por otra parte, supongamos que de un estudio anterior se conoce que alrededor del 30 % de las
historias clínicas de psiquiatría presentan alguna anomalía en el sentido definido para este
estudio. Si queremos estimar con el mismo error relativo mencionado antes (10 %)27, en
términos absolutos se trata entonces de la décima parte de 30; es decir E 0 = 3 . De modo que, a
los efectos del porcentaje, el tamaño muestral sería, según la fórmula [3.14]: n = 791 .
Los números 353 y 791, candidatos a constituir el tamaño muestral, son marcadamente
discrepantes: ¿cuál elegir? Una solución es alcanzar una especie de compromiso como, por
ejemplo, un número intermedio; también puede ser el mayor de los dos (lo cual cubriría ambas
demandas, una de ellas con creces), u otra variante que no esté muy alejada de las alternativas
en juego. Supongamos que, finalmente, se decidió estudiar 600 historias clínicas. O sea, se
supone, en resumen, que con una muestra de alrededor de 600 historias se podrá estimar
adecuadamente el tiempo medio de estancia X y el porcentaje de historias con deficiencias,
ambos con error relativo no muy alejado del 10 %. Así las cosas, se tiene que la fracción de
muestreo es f = 0,088 .
Supongamos que, a lo largo del estudio de la muestra, cinco de las HC seleccionadas tuvieron
que ser desechadas por resultar ilegibles, de modo que los datos corresponden a solo 595
encuestas. Hecho el estudio, se obtuvo que el número de historias con anomalías ascendió a 203
y que el número el historias correspondientes a altas de sujetos que salieron vivos resultó ser 487.
Por otra parte, si llamamos X i al número de días que estuvo ingresado el paciente
correspondiente a la i-ésima historia clínica entre aquéllos 487 que salieron vivos del servicio,
supongamos que se obtuvieron los siguientes resultados:
487
x = 22411
i =1
i s 2 = 2012.21
27
Cabe preguntarse, como es natural, qué porcentaje tomar como bueno para la
definición del error relativo o, alternativamente, porqué tomar el
10%. No existe ninguna razón especial; quizás 2 argumentos pueden
invocarse. Primero, que un error del 10% de lo que se mide, suele
admitirse en la vida común como algo "aceptable". Segundo, que los
humanos tenemos 10 dedos (o sea, el número 10 es el más cercano a
nuestros ojos, lo cual le dé quizás preferencia sobre el 9 o el 10,2).
Página -80-
L.C.Silva
Resumiendo hasta ahora: los resultados muestrales permiten decir que el tiempo de estancia
estimado para sujetos vivos en el momento del alta es de 46 días, y que el 34 % de las historias
reflejan alguna anomalía. Ahora corresponde estimar los errores asociados a estas estimaciones.
Con los datos arriba consignados y usando las fórmulas [3.6] y [3.12] respectivamente se
obtienen las estimaciones de las varianzas, necesarias para estimar los errores:
Página -81-
L.C.Silva
Finalmente, los intervalos de confianza, calculados a través de la fórmula usual, son: [42,2 - 49,8]
para la media (en días), y [30,1 - 38,1] para el porcentaje. Quiere esto decir que se puede estar
virtualmente seguro de que, aproximando a días completos, la estancia media en el hospital de
aquellos pacientes (del total de 6760) que estaban vivos al alta, no está por debajo de 42 ni por
encima de 50 días. Análogamente, el porcentaje de HC que exhiben alguna anomalía no supera
al 38 % ni es menor del 30 %28.
Obsérvese ahora que los errores relativos estimados son, respectivamente, del 8 % y del 12 %; o
sea, en el primer caso un número menor que el deseado, y en el segundo, uno mayor29. Esto es
totalmente lógico y ocurre típicamente en cualquier encuesta: algunas estimaciones serán más
precisas de lo previsto y otras menos, pues dependen de las variabilidades verdaderamente
estimadas con la muestra y no de las especulaciones realizadas para poder establecer el tamaño
muestral (aparte de que los tamaños calculados eran diferentes mientras que el empleado, desde
luego, es único).
Del ejemplo se deriva un planteamiento general ya formulado: debe procurarse una estimación
con el nivel de precisión previsto, y para ello ha de tomarse un tamaño muestral "adecuado" (en el
bien entendido de que éste es un concepto relativo y por ende susceptible de un manejo flexible).
Pero si, por alguna razón, esto no se lograse, queda un dividendo de gran importancia: luego de la
encuesta siempre puede calcularse de manera objetiva la magnitud del error en que, a lo sumo, se
incurrió. Asimismo, puede calcularse el error asociado a la estimación de cualquier otro parámetro
que con esa muestra quiera investigarse, aunque no haya intervenido en la determinación del
tamaño muestral, como ocurre con la inmensa mayoría de ellos.
3.11 Complementos del muestreo simple aleatorio
Cuando una población de tamaño N se somete a la elección de n elementos de manera tal que,
1
en cada selección, todos los elementos tienen probabilidad de ser elegidos, se dice que se ha
N
realizado un muestreo simple aleatorio con reemplazo. (MSACR)
28
Nótese que, en rigor, 38.1 supera a 38, pero solo en un marco de
puntillosidad formal: para el "pensamiento estadístico", estos dos
números son una misma cosa.
29
Estos errores relativos se estiman, naturalmente, dividiendo la mitad de la
longitud de los intervalos de confianza entre la estimación puntual
del parámetro.
Página -82-
L.C.Silva
Si un elemento quedase incluido más de una vez en la muestra, al hacer cualquier estimación
debe repetirse el valor correspondiente de la variable tantas veces como esto haya ocurrido. Al
igual que con MSA, puede demostrarse que la media muestral x es un estimador insesgado de
X , así como que la fórmula para la varianza de x es, en este caso, la siguiente:
N - 1 S2
VAR R ( x ) = 3.15
N n
Al comparar [3.15] con [3.3] se aprecia que la varianza de la media, si se ha usado MSA, nunca
puede ser mayor que la que corresponde al MSACR. En efecto, puede observarse que la
igualdad sólo se produce si n = 1 (en cuyo caso, naturalmente, ambos métodos se reducen a lo
mismo), pero que si n > 1 , entonces necesariamente se cumple que:
VAR R ( x ) > VAR( x )
Página -83-
L.C.Silva
Este resultado es completamente lógico, ya que el MSA siempre produce muestras integradas por
n elementos diferentes de la población, en tanto que a través de MSACR, el número de
elementos distintos entre sí puede ser menor, con la consecuente pérdida de información. Es
decir, el MSA siempre. Será más eficiente que el MSACR para un mismo tamaño muestral.
Corresponde enfatizar, que aquí se han usado las fórmulas de la varianza con un objetivo
diferente del más usual: hasta ahora se habían empleado, básicamente, para hallar estimadores
del error de muestreo, pero en este caso, al igual que en el problema de las urnas de la Sección
3.9, han servido para comparar dos métodos de selección. Esto tiene importancia metodológica:
ilustra cómo pueden y deben hacerse evaluaciones relativas de los procedimientos desde un
punto de vista general e independiente de los resultados fortuitos a que pueden dar lugar las
aplicaciones específicas.
En Hansen, Hurwitz y Madow (1953) se puede ver la demostración del siguiente resultado:
Este resultado tiene relevancia práctica, ya que es muy común la situación en la cual, además
de ciertas estimaciones poblacionales, se desea hacer algunas estimaciones restringidas a una
parte de la población, a la que suele llamársele una clase o un dominio de la población.
Por ejemplo, imaginemos que se proyecta una encuesta para estudiar la morbilidad por accidentes
entre estudiantes de enseñanza media. Además del interés por estimar ciertos parámetros
poblacionales (por ejemplo, el promedio de días de clase perdidos por concepto de accidentes, o
el porcentaje de individuos accidentados durante cierto lapso), lo natural es que también se
deseen estimaciones según grupos de edad y sexo, o dentro de otros dominios (clases) como el
de los alumnos escolarmente más y menos calificados, los que practican o no deportes, etc.
Lo que afirma el teorema es que si la selección inicial se efectuó mediante MSA, entonces para
estudiar una subpoblación se puede considerar que los elementos de la muestra que estén en
dicha parte constituyen una MSA de la misma. De modo que el procesamiento de esa submuestra
puede hacerse con la misma teoría general que se aplicaría a la muestra inicial30. Debe
consignarse, sin embargo, que el nuevo tamaño muestral de esta submuestra pasará a ser -en
rigor- una variable aleatoria.
30
De hecho, así fue como se procedió para estimar la media muestral del
tiempo de estancia en el ejemplo de la Sección 3.11.
Página -84-
L.C.Silva
Este resultado tiene utilidad práctica incluso por otra razón: con frecuencia el listado al que se
tiene acceso contiene elementos que no pertenecen a la población objeto y se hallan dispersos
dentro de dicho listado. En tal caso, si se conoce que la fracción de estos elementos ajenos a la
población de interés es , se toma una muestra de tamaño y se trabaja luego con los que efec-
tivamente pertenezcan a dicha población.
Por ejemplo, supongamos que se tiene un listado con los nombres y centros de trabajo de un
conjunto de enfermeras en el cual no aparece consignada la edad, pero que lo que interesa para
un estudio de morbilidad laboral es seleccionar una muestra de 100 enfermeras mayores de 35
años. Si se sabe que solo el 40 % de las que tienen esta profesión sobrepasan tal edad (o sea
= 0,6 ), entonces deben seleccionarse 100
0.4 = 250
por MSA y conservar solo aquéllas mayores
de 35 años para el estudio; ese conjunto puede ser tratado como una MSA tomada de la
población de elementos mayores de 35 años.
El programa ASAL incluido dentro del módulo de Simulaciones dentro de SIGESMU tiene
exactamente ese propósito (véase Capítulo 11).
Página -85-
L.C.Silva
Supongamos que estamos ante una población finita de N elementos y que se están
considerando dos variables diferentes X e Y , susceptibles de ser medidas sobre cada unidad de
análisis.
Puede entonces considerarse la razón entre los totales respectivos de estas variables en la
población. O sea, podemos definir un nuevo parámetro poblacional, al que llamaremos razón,
mediante la fórmula:
N
Y
3.16
i
i=1
R= N
X
i=1
i
Vale la pena detenerse brevemente a considerar algunas situaciones que ilustran el posible
interés por estimar razones. Los siguientes recuadros contienen tres de ellas:
Supongamos que se estudia una comunidad integrada por núcleos familiares y definamos:
El parámetro R expresa qué fracción o parte del salario es utilizado en la comunidad para
Página -86-
L.C.Silva
La población en estudio está integrada por las viviendas de un área de salud. Se definen:
R puede entenderse en este caso como un índice de hacinamiento en el área de salud, que
expresa el número medio de individuos por habitación. R puede, teóricamente, ser mayor,
Se tiene una población de estudiantes (por ejemplo, alumnos de tercer año de medicina).
Consideremos:
otro año, y expresa la magnitud de la mejoría (si R>1) o del deterioro (si R fuera menor que la
unidad).
Página -87-
L.C.Silva
y
3.17
i
i=1
Rˆ = n
x
i=1
i
Debe advertirse, como rasgo distintivo peculiar, que tanto el numerador como el denominador son,
en este caso, resultados aleatorios.
Se puede demostrar, sin embargo, que el sesgo de R̂ es una magnitud que disminuye
rápidamente cuando n aumenta, y que se aproxima a 0 para valores medianamente grandes del
tamaño muestral.
Debe señalarse que la fórmula [3.18] se puede usar sólo si la variabilidad del denominador de R̂
no es muy acusada. Concretamente, como medida de variabilidad de xT se ha sugerido el
siguiente valor:
sx
cv = n(1 - f)
xT
Página -88-
L.C.Silva
xi - x 2 . En términos prácticos, se exige que cv sea menor que 0.2 (Kish,
n
1
donde s x =
n - 1 i=1
1965).
Vivienda 1 2 3 4 5 6 7 8 9 10 11 12 Total
Habitaciones 2 1 3 4 2 2 2 2 3 2 1 4 28
Residentes 7 5 2 3 2 2 1 9 5 7 9 11 63
Entonces:
12 63
1- R̂ = = 2,25
var(r) = 184 12 [453 + (2,25
28 )2 (76) - 2(2,25)(14 7) ] = 0,229
2
28 11
Página -89-
L.C.Silva
Es fácil corroborar que cv = 1,41 y que en este caso puede emplearse [3.18], lo cual arroja el
resultado: e = (1.96) 0,229 = 0,94 . Es decir, se estima que hay 2,25 individuos por habitacion
con un error de casi un habitante.
Una posible definición de lo que significa el azar sería "aquello no susceptible de ser programado".
Obviamente, esto se contradice directamente con la existencia de programas computacionales
capaces de producir números aleatorios. En rigor, lo que se puede obtener con las PC son los
llamados números pseudoaleatorios. Vale decir: se trata de algoritmos que permiten obtener
secuencias de dígitos que soportan adecuadamente las pruebas de aleatoriedad y son
considerados como aleatorios a todos los efectos prácticos.
El trabajo original en esta materia fue debido a Neuman (1951), quien introdujo el método
conocido como middle square. La idea central era tomar un número inicial (semilla) de n dígitos,
elevarlo al cuadrado para formar así un número de 2n dígitos, tomar entonces los n dígitos
intermedios para continuar el ciclo elevándolo al cuadrado, y continuar sucesivamente el proceso.
Por ejemplo, consideremos n = 4 y tomemos la semilla S 0 = 8374 . Los siguientes tres números
de la secuencia serían:
S 0 = 70123876 --------> S 1 = 1238
2
Una importante contribución en el refinamiento de estos procesos fue debida a Lehmer (1951)
quien propuso el método de la congruencia lineal, en que una sucesión de números "aleatorios" se
obtiene a partir de una semilla r o (no negativa y menor que cierto m prefijado) del modo siguiente:
r i + 1 = (a r i + b) mod m
Página -90-
L.C.Silva
donde los números a y b son también no negativos e inferiores a m (NOTA: recordar que la
expresión X = Y mod m equivale a decir que el resto resultante de dividir Y entre m es igual a
X , en ese caso se dice que Y es congruente con X módulo m ). Tras obtener la sucesión, los
números aleatorios serán ai =
r i . Por ejemplo, si tomamos m = 235 , a = 4 , b = 13 y = 21 , se
ro
m
tiene que a r o + b = (4) (21) + 13 = 97 ; por otra parte, 97/235 = 0 * 35 + 97 , de modo que,
r 1 = 97 . Los primeros 10 valores de r i y de Ai serían:
r0 = 21 a0 = 0.089
r1 = 97 a1 = 0.413
r2 = 166 a2 = 0.706
r3 = 207 a3 = 0.880
r4 = 136 a4 = 0.579
r5 = 87 a5 = 0.370
r6 = 126 a6 = 0.536
r7 = 47 a7 = 0.200
r8 = 201 a8 = 0.855
r9 = 112 a9 = 0.477
El trabajo realizado a lo largo de los últimos 40 años en esta área ha sido intenso y productivo.
Revisiones exhaustivas de esos esfuerzos pueden hallarse en Sowey (1978), James (1990) y
Dodge (1996).
Supongamos que se quiere elegir una muestra de tamaño 80 de un listado de médicos que
contiene exactamente 16.000 nombres ordenados alfabéticamente.
Una primera idea sería seleccionar una muestra simple aleatoria, en cuyo caso la fracción de
muestreo sería igual a f = 16000
80 1
= 200 ; esto quiere decir que la muestra contendría el 0,5 % de los
individuos de la lista. Para aplicar tal procedimiento sería necesario numerar primero
consecutivamente a los 16.000 elementos de la población, después seleccionar al azar 80
números menores que 16000 diferentes entre sí y, finalmente, identificar a los 80 sujetos
asociados con los números resultantes. Como resulta evidente, tal procedimiento resulta
considerablemente laborioso.
Puede entonces contemplarse un recurso alternativo, conocido como muestreo sistemático (MS),
el cual se bosqueja a continuación.
Página -91-
L.C.Silva
que consta de exactamente 80 números e identifica a otros tantos individuos diferentes. Los
elementos que integran esta muestra se han determinado por un procedimiento en el que inter-
viene el azar, aunque de manera muy especial. En efecto, tan pronto se elige aleatoriamente el
primer elemento de la muestra (el que ocupa el r-ésimo lugar del listado), queda automáticamente
determinado todo el subconjunto que resultará seleccionado en calidad de muestra. El número r
que se elige para iniciar el proceso de selección se denomina arranque aleatorio.
Es fácil convencerse de que en este ejemplo, puesto que hay sólo 200 arranques posibles y de
que las muestras posibles son disjuntas31 entre sí, el número de tales muestras posibles es
también igual a 200. Esto contrasta notablemente con el astronómico número de posibilidades a
que daría lugar un MSA. Es natural preguntarse si, a partir de esta peculiaridad, ambos métodos
son igualmente eficientes o no. A ello nos referiremos más adelante pero, por el momento,
corresponde subrayar la sencillez del trámite.
Tal sencillez se torna extrema en determinadas situaciones, para las que no es preciso siquiera
asignar números previamente a los elementos de la población, sino que basta con disponer de un
marco muestral con cierta ordenación físicamente explícita (visitas sucesivas de pacientes a un
centro, renglones en un libro de registro o historias clínicas en un estante). A modo de ilustración,
supongamos que se tiene un archivo con 3000 tarjetas o fichas de identificación de pacientes y
que se quiere seleccionar una muestra de tamaño 300 para estimar el porcentaje de tarjetas que
adolecen de algún tipo de omisión. Supongamos que el número elegido entre 1 y 10 resultó ser el
7: se toma la séptima tarjeta, se cuentan 9 tarjetas y se extrae la siguiente (decimoséptima según
el orden). El procedimiento se repite hasta que se haya "recorrido" el archivo completo.
(a) N es un múltiplo de n
(b) N no es un múltiplo de n
31
Es decir, ningún sujeto del listado puede pertenecer a más de una de
las muestras que pueden producirse.
Página -92-
L.C.Silva
El caso (a) equivale a que exista un número entero K tal que N = n K . La fracción de muestreo
será, por tanto, igual a f = K1 . Para aplicar el método descrito en la Sección 4.1 se selecciona el
arranque aleatorio r entre 1 y K y, a partir del sujeto que ocupa el lugar r , se van tomando
sucesivamente los que están K lugares más adelante hasta completar n elementos. En el caso
(b) no existe un entero K que cumpla N = n K . No obstante, una posibilidad para la aplicación
N
del método consiste en definir K como la parte entera de la fracción n (o simplemente como
el entero más próximo a dicha fracción) y con ese número obrar como en el caso (a). Al número
K se le llama intervalo de selección, y al procedimiento, método regular de selección sistemática.
No es difícil advertir de que, tanto en el caso (a) como en el (b), el método es equiprobabilístico;
así se deriva de las siguientes tres circunstancias: i) todo elemento de la población tiene
1
probabilidad K de ser seleccionado, ya que cada arranque tiene esta probabilidad de ser el
que resulte elegido, ii) cada muestra tiene la misma probabilidad de ser seleccionada que la que
corresponde al arranque que la determina, iii) cada elemento está en una y solo una de dichas
muestras.
Por otra parte, en el caso (a) el tamaño de muestra es necesariamente igual a n , pero en el caso
(b) dicho tamaño es un número que puede ser igual n o a n+1, en dependencia de que el
N
arranque r seleccionado sobrepase o no respectivamente, al resto de la razón . Por ejemplo, si
n
27
N = 27 y n = 6 podemos decidir que K sea la parte entera de 6 (o sea, K = 4 ), con lo cual
se tiene que 27=(6)(4)+3. Como se aprecia, el resto es 3; es fácil comprobar que si el arranque
(que se elige entre 1 y 4) es 1, 2 ó 3, entonces el tamaño de muestra es 7; pero si r es igual a 4
(sobrepasa al resto), entonces el tamaño de muestra es igual a 6.
Un esquema que ilustra gráficamente cómo se procede con este método es el que aparece en la
Figura 4.1. Allí se ha representado una pequeña población de 71 sujetos de la que se ha
seleccionado sistemáticamente una muestra de n = 12 unidades mediante la aplicación de un
intervalo de magnitud k = 6 a partir del arranque r = 3 . Nótese que para llevar adelante este
proceso hay que definir previamente cuál es el orden en que se considera organizada la
población. En el ejemplo de la Figura 4.1 se ha asumido que los sujetos están ordenados de
izquierda a derecha y que en cada nueva línea se recomienza por la izquierda (el mismo orden
que rige para leer las palabras en un texto escrito en idioma castellano).
Página -93-
L.C.Silva
Según un resultado de la Sección 3.12.2, la media muestral x es un estimador insesgado de X
en el caso (a), pero no necesariamente en el caso (b). Sin embargo, este sesgo es virtualmente
despreciable, especialmente si n es mayor que 40 (o sea, casi siempre); de modo que -a todos
los efectos prácticos- la distinción entre ambas situaciones, salvo contadas excepciones, es
irrelevante.
N
La situación en que n no es un número entero puede abordarse por otros procedimientos.
Por ejemplo, para el caso en que se desea seleccionar una muestra equiprobabilística de tamaño
exactamente igual a 51la de la situación (b), Kish (1965) sugiere el método del intervalo frac-
cional.
Supongamos que el primer arranque aleatorio (para la selección en la primera fase con intervalo
K1 = 3 ) fue igual a 2. Esto hace que seleccionemos los 23 sujetos que ocupan los lugares: 2, 5,
8, ...., 62, 65 y 68. Al listado remanente de 47 sujetos se le aplica ahora el método regular pero
con intervalo K2 = 18 . Supongamos que en este segundo caso el arranque fue el 3: se adicionan
a la muestra los individuos que están en los lugares 3, 21 y 39 del listado de los no seleccionados
(que resultan ser los elementos 4, 31 y 58 del listado original). En este ejemplo, en definitiva, la
muestra quedaría integrada por los 26 (37% de 70) individuos que ocupan los lugares marcados
en el listado que se reproduce a continuación:
1 2 3 4 5
6 7 8 9 10
11 12 13 14 15
16 17 18 19 20
32
Como se verá más adelante, en diseños complejos de la práctica suele
presentarse tal necesidad.
Página -94-
L.C.Silva
21 22 23 24 25
26 27 28 29 30
31 32 33 34 35
36 37 38 39 40
41 42 43 44 45
46 47 48 49 50
51 52 53 54 55
56 57 58 59 60
61 62 63 64 65
66 67 68 69 70
Nota: Aparecen en negrita los que se eligen en la primera fase y subrayados los que se adicionan
en la segunda
En general, si se obtiene una parte de la población mediante el método regular con intervalo K1 y
se adiciona otra parte mediante la aplicación del intervalo K2 a los no seleccionados en la primera
fase, es fácil demostrar que la probabilidad de inclusión de cada individuo es igual a:
f=
K1 + K2 - 1
4.1
K1 K2
En Fariñas y Silva (1984) se considera una segunda posibilidad: tomar una muestra por el
método regular con intervalo K1 y suprimir de ella una parte de los elementos por el propio
método regular, pero con intervalo K2 . Puede demostrarse que en ese caso la probabilidad de
quedar seleccionado es, para cada elemento, igual a:
f=
K2 - 1
4.2
K1 K2
Página -95-
L.C.Silva
por ejemplo, si f = 0.42 , se puede tomar 1 de cada 2 y eliminar 1 de cada 6 de los que resulten
6 -1
elegidos. Es fácil ver que 0.42 = . En la misma población anterior de tamaño N = 70 , si se
(2)(6)
toma r1 = 1 (sujetos impares) y r2 = 5 , el resultado de la selección sería el siguiente:
1 2 3 4 5
6 7 8 9 10
11 12 13 14 15
16 17 18 19 20
21 22 23 24 25
26 27 28 29 30
31 32 33 34 35
36 37 38 39 40
41 42 43 44 45
46 47 48 49 50
51 52 53 54 55
56 57 58 59 60
61 62 63 64 65
66 67 68 69 70
Nota: Aparecen en negrita los sujetos finalmente elegidos, y subrayados los que fueron
eliminados en la segunda fase
Si se parte de la probabilidad, digamos f , entonces hay que hallar un par de números enteros
K1 y K2 que satisfagan con aceptable aproximación, o bien la ecuación [4.1], o bien la [4.2]. La
Tabla 4.1 presenta los intervalos de selección adecuados para la aplicación combinada del
método regular en las dos fases para cada f entre 0,01 y 0,50 (restringiendo K1 y K2 a valores
no superiores a 50).
En lugar de detallar los métodos considerados y la notación correspondiente, optamos por ilustrar
el uso de la tabla con tres ejemplos.
Ejemplo 1 f = 0,05
Se aplica el método regular con K1 = 20 . En este caso, K2 = 0 ; es decir, no procede aplicar una
segunda fase, pues hay un número entero cuyo inverso coincide con f .
Ejemplo 2 f = 0,15
Página -96-
L.C.Silva
Ejemplo 3 f = 0,61
Como f > 0,5 se buscan los intervalos para 1 - f = 0,39 : K1 = 3 y K2 = 12 . Se aplica el método
regular con intervalo K1 3 y luego se adiciona uno de cada 12 de los sujetos no
seleccionados. De ese modo se ha elegido un subconjunto que constituye el 39% de la población.
Finalmente, se toma en calidad de muestra el complemento de ese subconjunto33
Tabla 4.1 Intervalos de selección (K1,K2) para aplicar el método en dos fases que produce
probabilidad de selección igual a f
f K1 K2 f K1 K2
.01 50 -2 .26 6 9
.02 50 0 .27 4 38
.03 33 0 .28 4 25
.04 25 0 .29 4 19
.05 20 0 .30 3 -10
.06 16 -25 .31 3 -14
.07 14 -50 .32 3 -25
.08 12 -25 .33 3 0
.09 10 -10 .34 3 60
.10 10 0 .35 3 40
.11 11 48 .36 3 25
.12 8 -25 .37 3 18
.13 7 -11 .38 3 14
.14 7 -50 .39 3 12
.15 6 -10 .40 2 -5
.16 6 -25 .41 3 9
.17 7 32 .42 2 -6
33
Notar que esa táctica permite que la Tabla 4.1 solo contemple las
soluciones para valores de f inferiores a 0,51.
Página -97-
L.C.Silva
.18 5 -10 .43 2 -7
.19 5 -20 .44 2 -8
.20 5 0 .45 2 -10
.21 9 9 .46 2 -12
.22 5 40 .47 2 -17
.23 5 27 .48 2 -25
.24 4 -25 .49 2 -50
.25 4 0 .50 2 0
Página -98-
L.C.Silva
4.5 Varianza de la media muestral
N
Para la discusión subsiguiente, asumiremos que se está en la situación en que el intervalo n es
un número entero K . En tal caso, las k muestras posibles contienen exactamente n elementos y
son disjuntas dos a dos, (ya que no existe ningún elemento de la población que pertenezca a más
de una de las muestras posibles).
En efecto:
K K n K n
1 1 1 1
K
i= 1
xi =
K
i= 1 n j= 1
X ij =
Kn
x
i= 1 j = 1
IJ
Ahora, puesto que Kn = N , y dado que ninguna pareja de muestras posibles se interesecan, la
expresión de la derecha coincide con X .
Según la definición, se tiene que la varianza de x puede escribirse del modo siguiente:
K
VAR( x ) =
1
( x - X ) i
2
4.3
K i=1
Página -1-
L.C.Silva
Consideremos como ilustración el ejemplo de la Sección 3.4. Es fácil ver que, considerando el
listado de hospitales en el orden en que aparece en la Tabla 3.3, se pueden seleccionar K = 5
muestras de tamaño n = 3 . La Tabla 4.2 resume los posibles resultados.
Tabla 4.2 Estimaciones de X 57 para cada una de las muestras de tamaño 3 que pueden
obtenerse por MS de la población descrita en la Tabla 3.3.
Arranque r Hospitales Muestra Media Muestral
seleccionados
El promedio de estos 5 valores posibles de x es, efectivamente, igual a 200, la media poblacional.
Al aplicar la fórmula [4.3] se tiene que VAR( x ) = 2272,0 . Lo natural ahora es comparar este
resultado con el que se obtiene para un MSA de n = 3 elementos. En la Tabla 3.5 se vio que, en
tal caso, VAR( x ) = 3702,9 . De modo que, en este ejemplo, el muestreo sistemático resulta más
eficiente que el MSA de tamaño n = 3 . ¿Estamos ante una situación típica? ¿Se trata de una
casualidad? ¿de una excepción?.
Para responder a estas preguntas, notemos que cuando se aplica un MS el valor de VAR( x )
depende de la ordenación original con que aparezcan los elementos en el marco muestral. Las
muestras posibles en un muestreo sistemático dependen del orden en que se hallen las unidades
de análisis dentro del listado; consecuentemente, la varianza entre las medias posibles también se
modifica al cambiar dicho orden.
Por ejemplo, cuando decimos que si se usa una muestra sistemática de tamaño n = 3 en la pobla-
ción de la Tabla 3.3 la varianza asociada a la estimación de la media es igual a
VAR( x ) = 2272,0 ,se sobrentiende que nos referimos a la población de hospitales listada en el
orden en que aparecen en dicha tabla. Pero si los mismos 15 hospitales se organizaran de otro
modo, entonces las 5 muestras posibles de tamaño 3 no son las de la Tabla 4.2 sino otras 5
(dependientes de la organización específica del listado original) y, consecuentemente, otro sería el
valor de VAR( x ) . Por ejemplo, si ordenamos la misma población de hospitales de menor a
mayor según número de médicos, las muestras posibles y las estimaciones correspondientes
serían las que se muestran en la Tabla 4.3.
Página -2-
L.C.Silva
Tabla 4.3 Estimaciones de X para cada una de las muestras de tamaño 3 que pueden ob-
tenerse por MS de la población descrita en la Tabla 3.3, pero ordenada de menor a
mayor.
Obsérvese que, en este caso, los posibles valores de x se parecen entre sí, y son a su vez más
próximos a X = 200 . La varianza de 58 es ahora igual a 2134,5, desde luego inferior a 2272.0
(ya que el ordenamiento impuesto fuerza a que cada una de las muestras posibles "recorra" la
población), y menor por tanto que la varianza correspondiente al MSA (3702,9). Otras
ordenaciones producirán, sin embargo, que Var( x ) sea mayor que este último valor.
De hecho, existe un interesante resultado teórico al respecto, que se puede enunciar del modo
siguiente (Madow y Madow, 1944):
Página -3-
L.C.Silva
donde Var MSA ( x ) es la varianza de x en el caso del MSA. Se trata de un teorema sin interés
_
práctico directo que resalta que no hay una varianza única de x asociada a la población
(independiente del orden que tengan sus elementos) y, sobre todo, que el MS es equivalente “en
promedio” al MSA si consideramos todos los posibles ordenamientos.
Supongamos que tenemos un campo con 45 árboles de naranja que se halla ubicado entre un
riachuelo y una carretera, tal y como se bosqueja en la Figura 4.2. Se quiere una muestra de
árboles para estimar qué porcentaje de ellos está infestado por cierta plaga de insectos.
Supongamos que la humedad sea favorable a la plaga, así como que el monóxido de carbono que
despiden los vehículos automotores sea, por el contrario, hostil al habitat de los insectos. En la
figura, los árboles sombreados son los que padecen la plaga; en concordancia con las
condiciones antes señaladas, los árboles próximos al río están infestados en su inmensa mayoría,
y los que se hallan cercanos a la carretera están casi totalmente libres de infección.
Supongamos ahora que los árboles se numeran verticalmente como se señala en la Figura 4.3,
así como que se ha decidido tomar exactamente 1 de cada 5 árboles entre los 45 que existen. En
tales circunstancias, si el arranque elegido fuese r = 1 , entonces la muestra estaría formada por
los nueve naranjos que se hallan a la vera de la carretera, de modo que se llegaría a la estimación
de que la plaga alcanza al 100% de los árboles (Figura 4.3). Si r = 5 , entonces tendríamos la
otra estimación extrema: 0 %. Otros valores de
m
X T
i
x = i =1
m
[6.2] 60 darían lugar a valores menos aberrantes.
i =1
N i
El ejemplo aporta una elegante y sugestiva ilustración del efecto nefasto que podría derivarse de
una organización cíclica de la población. Sin embargo, la situación es de ciencia ficción. La vida
es, desde luego, mucho más rica y florida que la situación elaborada (arduamente) en la
construcción precedente. Nótese que para que se produzca la situación descrita no solo se
necesita una realidad encartonada y uniforme hasta extremos exagerados, sino que además el
muestrista tendría que sumarse a la confabulación tomando exactamente las decisiones
necesarias para que se produzca el problema: basta con que, en lugar de k = 5 se hubiese
tomado k = 6 (Figura 4.4), o manteniendo K = 5 , que los árboles se hubiesen numerado de otro
modo (digamos, de izquierda a derecha, Figura 4.5) para que las muestras posibles tuviesen otro
aspecto totalmente diferente. Es decir, incluso en una situación de por sí insólitamente
desfavorable, el MS habrá de producir regularmente muestras perfectamente aceptables.
Página -4-
L.C.Silva
El ejemplo que he ideado es del tipo de los que clásicamente se invocan para alertar acerca del
"peligro" que puede esconderse detrás del MS. Típicamente, la organización de los listados con
que objetivamente se trabaja en la práctica habrá de ser ajena a cualquier ciclicidad u otro rasgo
que haga superior al primer método respecto del segundo, a los efectos de la precisión de los
estimadores. Es decir, si bien teóricamente se pueden producir tanto ordenamientos más favora-
bles (para los que cada una de las muestras posibles exhiben gran variabilidad interna) como or-
denamientos muy desfavorables (para los que las muestras posibles son todas, o en su mayoría,
internamente homogéneas y, por ende, poco representativas), en la práctica tales regularidades
no se presentan casi nunca. Consecuentemente, en general, los valores de VAR( x ) para MS y
para MSA no serán muy diferentes.
El problema, no obstante, es real, y podría presentarse aunque sea por excepción. De hecho, tras
muchos años de experiencia en esta materia, solo conozco un ejemplo de este tipo, y es tan obvio
que no parece necesitar de un marco teórico que nos ayude a precavernos. Se trata del caso en
que las unidades de muestreo son días de cierto año. Supongamos que aquellos días elegidos de
un calendario serán los señalados para estudiar la asistencia de pacientes a un cuerpo de guardia
(por ejemplo, para estimar el porcentaje de "urgencias verdaderas"). Si la elección fuera
sistemática con intervalo k = 7 , entonces todos los días de la muestra serían iguales en cuanto a
su ubicación dentro de la semana (todos serían lunes, o todos martes, etc.). Puesto que el
número de urgencias verdaderas guarda cierta ciclicidad a lo largo de la semana (es mayor, por
ejemplo, los sábados que los lunes), la muestra estaría claramente sesgada.
Es fácil reparar, sin embargo, en que la mencionada dificultad quedaría anulada tan pronto se
tome otro intervalo de selección. Por ejemplo, bastaría tomar K = 6 o K = 8 para producir el
efecto completamente opuesto: cualquier muestra contendría representación de todos los días de
la semana en similar o, incluso, igual proporción.
Página -5-
L.C.Silva
Tal deficiencia invalidaría, en principio, el uso del muestreo sistemático, si es que se desea estimar
la magnitud de los errores de muestreo a que da lugar. Para superar este escollo teórico, lo que
se hace es utilizar los resultados correspondientes al MSA aunque se haya practicado un MS.
Vale decir: cuando se utiliza el MS en el acto de selección, tanto el tamaño de la muestra como las
estimaciones de los parámetros de los errores se calculan como si se fuese a utilizar o se hubiese
utilizado un MSA.
Un rasgo singular del MS, como ya se consignó, consiste en que, a diferencia del caso en que se
emplea MSA, no siempre hace falta tener explícitamente y de antemano un listado como tal de las
unidades de análisis. Por ejemplo, si se desea una muestra de altas hospitalarias correspon-
dientes a cierto año en determinado hospital y el estudio se está planificando en algún momento
del año anterior al de su desarrollo, entonces obviamente se desconocen los individuos
específicos que integrarán la población de interés (o sea, la población de sujetos que habrán de
recibir el alta en el hospital); no se sabe siquiera el número de elementos que tendrá dicha pobla-
ción. Es imposible, por tanto, delimitar los integrantes de la muestra a través de un MSA. Sin
embargo, como es obvio, puede establecerse algún sistema que permita dar una ordenación
consecutiva a los pacientes que van a ir recibiendo el alta, y prestablecer con toda precisión los
elementos que integrarán una muestra sistemática de esa futura población de altas.
Digamos que se desea una muestra de 480 individuos y que, con acuerdo a la experiencia previa,
se presume que el número de altas que se habrán de producir a lo largo del año entrante
480
ascenderá a unos 3200 pacientes; se calcula entonces f = 3200 = 0.15 , 611o que significa
que debe seleccionarse aproximadamente el 15 % de la futura población. Es fácil ver que en este
caso no hay ningún entero cuyo inverso sea igual o muy cercano a 0.15; pero se puede aplicar el
método de selección en dos fases.
En la Tabla 4.1 vemos que basta tomar un sujeto de cada 6 y eliminar uno de cada 10 altas así
seleccionadas. Tomando un arranque entre 1 y 6 ( r = 3 , por ejemplo) y otro entre 1 y 10
(digamos r = 8 ), es fácil conformar el listado de individuos -identificados por los lugares
correspondientes- que habrán de seleccionarse. De antemano se sabría, por ejemplo, que los
individuos que ocupen los lugares 3,9,15,21,27,33,39,51,57 y 63 en el orden de altas serían los
primeros 10 sujetos que habrán de incorporarse a la muestra. Este listado de sujetos previstos
para ser encuestados y que conforman la futura muestra puede extenderse tanto como se desee.
Como se ignora el número exacto de elementos de la población que se habrá de conformar a lo
largo del año próximo, puede confeccionarse el listado de sujetos llamados a ser seleccionados
usando un supuesto número de altas mucho mayor que lo que razonablemente caba esperar, por
ejemplo, 4000 (en lugar de 3200). De tal suerte, si en realidad se produjesen, digamos, 3425 altas
a lo largo del año, la muestra, naturalmente, no contendrá 480 individuos, sino 514, pero todas las
altas tendrían probabilidad igual a 0.15 de integrarla (en tal caso, los números que identifican la
muestra y que estén entre 3426 y 4000, simplemente se ignorarían).
Página -6-
L.C.Silva
Debe señalarse que el procedimiento de selección sistemática es utilizado como sustituto del MSA
en el contexto de otros procedimientos más complejos que tienen este último método incorporado
en algunas de sus etapas. Tal es el caso del muestreo aleatorio estratificado y el del muestreo por
conglomerados, que serán objeto de atención en los próximos capítulos.
Consideremos una fábrica que cuenta con 1000 trabajadores: 900 mujeres y 100 hombres.
Supongamos que el 80% de los hombres y el 10% de las mujeres fuman, de modo que el
porcentaje general de fumadores asciende a 17.0% (es decir, = 0.17 ), como se aprecia tras un
simple cálculo aritmético. Pero supongamos momentáneamente que esos datos se ignoran, y que
se quiere estimar dicho porcentaje general de fumadores mediante muestreo.
Supongamos que para ello se selecciona una muestra de tamaño 100 de conformada por 50
mujeres y 50 hombres, en ambos casos elegidos al azar, y que los resultados son los siguientes:
38 hombres y 6 mujeres de la muestra son fumadores (datos compatibles con los porcentajes
reales, aunque para el muestrista estos últimos sean desconocidos). La muestra contiene por
tanto 44 fumadores en total.
Página -7-
L.C.Silva
De modo que el porcentaje muestral es igual a 44%, resultado de dividir 44 entre el tamaño
muestral. Supongamos, finalmente, que ese es el número que se da en calidad de estimación; es
decir, que se infiere que el 44% de los trabajadores son fumadores. Obviamente, tal conclusión es
bastante disparatada, ya que el porcentaje real de fumadores era 17. ¿Qué ha ocurrido? ¿En
qué consistió el error cometido?
Una primera reacción podría llevarnos a atribuir el error al hecho de "no haber tomado una
muestra representativa en términos de género, ya que hay una sobrerrepresentación masculina" y
los hombres de esta fábrica fuman más que las mujeres. Sin embargo, ello no constituye error
alguno. El error se comete en el momento en que se hace la extrapolación de la muestra al
universo; es decir, cuando se dice que el hallazgo de un porcentaje muestral de 44% permite
inferir que éste será el porcentaje poblacional.
Un enfoque elemental (aplicando un par de veces la "regla de tres") conduce a estimar que el 76%
de los hombres de la fábrica y el 12% de sus mujeres -es decir, 76 y 108 trabajadores de los
respectivos géneros - son fumadores. Vale decir, se infiere que 184 de los 1000 obreros son
fumadores, para una estimación del 18.4%. Evidentemente, la estimación 0.184 está mucho más
próxima de = 0.17 que la proporción muestral p = 0.44 .
Lo ocurrido fue que la muestra se trató como si fuera un MSA, o un MS cuando en realidad ésta ni
siquiera era equiprobabilística. En efecto, la probabilidad que tuvo cada mujer de ser elegida fue
n1 50 1
igual a f 1= N1
= 900 = 18 , mientras que la de cada hombre fue 9 veces ma-
n2 50 1
yor: f 2= N2
= 100 = 2 .
Procede intercalar aquí una fórmula general (válida para cualquier diseño muestral) que produce
una estimación adecuada de la media poblacional. Esta es:
n
i xi
xˆ =
i=1
n 5.1
i=1
i
Página -8-
L.C.Silva
1
donde i = y i es la probabilidad de inclusión que correspondió a la i-ésima unidad
i
muestral. Es inmediato que si el procedimiento fuera equiprobabilístico, entonces i sería
constante, y x se reduciría a la media muestral.
La fórmula [5.1], como ya se dijo, es completamente general, de modo que "funcionará" también
en el ejemplo que nos ocupa. Si se repara en que i = 18 para las 50 mujeres de la muestra y
i = 2 para los 50 varones, resultará fácil advertir que:
18 xi + 2 xi
iH iH
x =
1000
Finalmente, si se define
1 si el sujeto fuma
xi =
0 si el sujeto no fuma
Página -9-
L.C.Silva
entonces se llega al mismo número obtenido antes: X = 0,184 :
Con el fin de obtener una muestra que tenga en sí una variabilidad similar a la de la población, lo
ideal sería conseguir que los subconjuntos en que ella se divide fuesen internamente homogéneos
y -consecuentemente- diferentes o heterogéneos entre sí.
Para ilustrar estas ideas supongamos que se quiere investigar la morbilidad bucal de los escolares
de una ciudad y que los investigadores saben que los patrones morbosos dependen en buena
medida del nivel cultural de los padres. De modo que, para tener un cuadro real de la magnitud y
la estructura del problema, sería conveniente examinar escolares procedentes de los diversos
"estratos socio-económicos" de la población. En lugar de obtener un listado global de todos los
escolares, el muestrista podría procurarse listas separadas de niños según distintas zonas de la
ciudad, escogidas éstas de manera que cada una se identifique a grandes rasgos con uno de los
estratos socio-económicos considerados. Con el marco muestral así dividido, se procede a la
selección de niños dentro de cada listado separadamente. De tal suerte, la muestra contendrá
niños de todos los grupos diferentes34.
Como antes, supondremos que la población se compone de N elementos y que se quiere selec-
cionar una muestra de tamaño n . Ahora se supone que este universo está dividido en L estratos
de tamaños N 1 , N 2 ,..., N L cuya suma es, desde luego, igual a N . Se denota por nh al tamaño
de la muestra seleccionada en el estrato h, de modo que la suma n1 + n2 + + n L será el
tamaño total n de la muestra. La Figura 5.1 muestra la estructura general del MAE usando un
ejemplo en que se habrían construido L = 5 estratos.
34
Esta es una estratificación indirecta. Es evidente que resultaría
utópico plantearse la obtención de listas directamente conformadas por
niños de cada estrato, ya que no es realista la aspiración de
clasificar a cada niño según una "escala socio-económica" previamente
confeccionada.
Página -10-
L.C.Silva
2
x
Para cierta variable X llamaremos respectivamente h y s h a las estimaciones de la media y la
varianza dentro del i-ésimo estrato. Estos valores se computan con las mismas fórmulas usadas
en muestreo simple aleatorio ( x y s 2 ), pero ahora dentro de cada estrato con los n h elementos
allí seleccionados.
nh ah ,
Análogamente, se pueden definir fh= Nh , la fracción de muestreo en ese estrato; y p h =
nh
la fracción de individuos que tienen cierta característica en el estrato h, donde ah es el número
de individuos de la muestra con ese rasgo en dicho estrato.
xI = W h xh 5 .2
h= 1
Nh
donde W h = es un número no negativo y no mayor que uno, el cual que refleja qué parte (o
N
porcentaje, si se multiplica por 100) de la población corresponde al estrato h. Ob-
L
viamente, W
h=1
h 1.
Del mismo modo, la estimación de una proporción se realiza mediante el estimador insesgado
correspondiente:
L
pI = W h ph 5 .3
h= 1
Página -11-
L.C.Silva
De hecho, [5.2] y [5.3] son formas particulares que asume la fórmula general [5.1] para el caso del
MAE. Nótese, sin embargo, que [5.1] es una media ponderada de individuos mientras que [5.2] es
un promedio ponderado de medias, aunque en este caso particular resultan ser expresiones
algebraicas equivalentes.
Estrato 1 Estrato 2
(Hombres) (Mujeres)
N 1 = 100 N 2 = 900
W 1 = 0.1 W 2 = 0.9
n1 = 50 n2 = 50
a1 = 38 a2 = 6
El ejemplo ilustra no solo que p I no coincide con p , sino también cómo, en ciertas circunstancias,
el uso de la simple fracción muestral sería totalmente erróneo a la vez que el estimador insesgado
p I está en principio libre de objeción.
Para que un diseño basado en MAE sea equiprobabilístico debe cum-plirse la siguiente
condición:
f 1 = f 2 = ···= f L f =
n
5.4
N
Página -12-
L.C.Silva
nh n
Dicho de otro modo, debe ocurrir que = para todo h. En ese caso (y solo en ese caso),
Nh N
se tendrá xI = x y pI = p .
La condición [5.4] aparece implícitamente en la formulación siguiente: en el contexto del MAE,
la media muestral es un estimador insesgado de X si y sólo si se cumple que el tamaño
muestral n se ha repartido entre los diferentes estratos de manera proporcional a sus tamaños.
Para calcular los errores de muestreo asociados a los estimadores en este diseño, basta adver-
tir que la selección muestral es independiente dentro de los estratos (la elección que resulte en
uno no influye en cuáles sean los elementos elegidos en otro) y recordar de la teoría de
probabilidades que:
L L
VAR ( h Z h ) = h 2 VAR ( Z h )
h=1 h=1
L s 2h
var( x I ) = W 2
h (1 - f h ) 5 . 5
h= 1
nh
L phqh
var( p I ) = W 2h (1 - f ) h 5.6
h=1
n h -1
Página -13-
L.C.Silva
ya que en cada estrato la selección se ha verificado mediante MSA, y solo se trata de usar las
fórmulas [3.6] y [3.12] dentro de cada sumando.
Página -14-
L.C.Silva
n
donde f = es la fracción general de muestreo (coincidente, en este caso, con las fracciones
N
de muestreo de los estratos).
Por otra parte, nótese que, la fórmula de la varianza tiene L sumandos dentro de los cuales se
hallan los respectivos valores que estiman la variabilidad interna de los estratos (los s 2h ). En la
medida que se haya logrado construir estratos internamente homogéneos, éstas varianzas serán
pequeñas, y el aporte de los diferentes sumandos a la varianza general también lo será. Esto
quiere decir que la fórmula refleja la situación que, en definitiva, condujo a la estratificación: cuanto
más homogéneos sean los estratos, más precisas resultarán las estimaciones producidas por este
sistema de selección.
Debe consignarse, sin embargo, que la ganancia de precisión producida por el MAE respecto
del MSA suele ser modesta, particularmente en el caso de la estimación de porcentajes. Ex-
cepcionalmente, incluso (véase ejercicio 5.3 del Capítulo 5 de Hansen, Hurwitz y Madow,
1953) puede ocurrir que el MAE llegue a ser menos preciso que el MSA. b, en general resulta
muy poco frecuente que la situación práctica consienta la conformación de estratos eficientes.
Para calcular intervalos de confianza para X o para es necesario estimar el error asociado a
la estimación puntual realizada. Como es usual, según el caso, se calculan:
e = (1.96) var( x I ) o e = (1.96) var( pi )
Finalmente, con el fin de obtener los extremos del intervalo de confianza, se aplica la fórmula ya
conocida, consistente en restar el error de la estimación puntual para el extremo inferior y luego
sumarlo a ella para el superior.
En esta sección se exponen dos ejemplos de naturaleza diferente. El primero se basa en la misma
ilustración de los hospitales y los médicos introducida en la Sección 3.4, y tiene idéntico propósito:
aprovechar un caso artificial en que se conoce toda la población con el fin de examinar las
propiedades y los fundamentos del método. El segundo concierne a un problema de índole
práctica.
Página -15-
L.C.Silva
Supongamos que para la población de la Tabla 3.3 se quiere estimar X mediante una MAE de
tamaño n = 2 , donde n1 = n2 = 1 , y que dicha población se ha dividido en L = 2 estratos de la
manera que se recoge en la Tabla 5.1:
Estrato 1 1 7 9 10 13 14 15 -
Estrato 2 2 3 4 5 6 8 11 12
Tenemos, por lo tanto, L = 2, N = 15, N 1 = 7 y N 2 = 8 . Puesto que las muestras tienen que
constituirse mediante un hospital de cada estrato, sólo 56 de los 105 subconjuntos posibles de
tamaño dos, pueden resultar elegidos como muestra (resultado de multiplicar 7 por 8). Las
posibles muestras y las estimaciones para el caso en que se emplea la media muestral se
resumen en la Tabla 5.2.
Tabla 5.2 Medias muestrales para cada una de las muestras de tamaño n = 2 que pueden
obtenerse por MAE de la población descrita en la Tabla 3.3 con los estratos de la
Tabla 5.1
E S T R A T O 1
Página -16-
L.C.Silva
Si se promedian los 56 números de la Tabla 5.2, se obtiene el valor 194,6. Como se ve, el
promedio de las medias muestrales no coincide con la media poblacional X = 200 , como ya
sabemos, la media muestral no es un estimador insesgado en ausencia de equiprobabilidad. En
56
1
este caso, la distancia entre
56
x
h=1
h y X , a diferencia del ejemplo de la fábrica, es pequeña,
debido a que la disparidad de las probabilidades de inclusión entre diferentes estratos no es tan
acusada: si bien no se cumple la condición de proporcionalidad, ya que las dos fracciones
1 1
muestrales no coinciden ( f 1 = y f 2 = ) , la diferencia entre ellas dista de ser apreciable.
7 8
En la Tabla 5.3 se vuelven a calcular las 56 estimaciones posibles, pero empleando la fórmula
[5.2], que en este caso se reduce a:
7 8
x Ij = x1j + x 2j
15 15
Página -17-
L.C.Silva
donde { x1j , x 2j } sería la i-ésima muestra posible.
Tabla 5.3 Estimaciones de X según la fórmula [5.2] para cada muestra de tamaño 2 que
pueden obtenerse por MAE de la población descrita en la Tabla 3.3 con los estratos definidos en
la Tabla 5.1
E S T R A T O 1
Nota:Entre paréntesis aparece el número que identifica a cada hospital, y al lado el número de
egresos.
Página -18-
L.C.Silva
donde x Ij denota la i-ésima media ponderada entre las 56 estimaciones posibles. Por otra parte,
en la Sección 3.4 habíamos obtenido que la varianza de x por MSA de ese mismo tamaño
( n = 2 ) era igual a 6017,1, un número más de dos veces mayor; o sea, con la estratificación
planteada35, la varianza se reduce a la mitad.
Supongamos que se tiene un listado de 1825 pacientes hospitalizados durante cierto período en
un hospital y que se quiere conocer, entre otras medidas de eficiencia, el tiempo promedio de
estancia en dicho centro. Se conoce que en cierta fecha empezó a regir un conjunto de medidas
administrativas presuntamente influyentes en la variable de interés. Puesto que el listado está
organizado cronológicamente por fechas de alta, resulta fácil dividirlo en dos estratos: 1200
pacientes que recibieron el alta antes de la fecha en cuestión, y 625 que la recibieron después.
Se planifica tomar una muestra con la misma asignación en los estratos (de 60 individuos en cada
uno), y estimar el parámetro a través de los 120 datos tomados de las hojas de alta que se hallan
en las historias clínicas.
En resumen, se tiene:
L = 2 N = 1825 N 1 = 1200 N 2 = 625 W 1 = 0.66 W 2 = 0.34
n1 = 60 n2 = 60 n = 120
Supongamos que los resultados (días de estancia del i-ésimo paciente de la muestra
correspondiente al i-ésimo estrato) se resumen del modo siguiente:
60 60 60 60
xi(1) = 624, xi(2) = 346, x 2i(1) = 8249, x 2i(2) = 3869
i=1 i=1 i=1 i=1
donde xi(1) denota el i-ésimo elemento del primer estrato y xi(2) el del segundo. De aquí,
aplicando [5.2], se obtiene que:
x I = W 1 x1 + W 2 x 2 = 8.82
35
Obsérvese que esta es la estratificación óptima, ya que no hay otra
manera de formar dos estratos con esos tamaños de modo que resulten
internamente más homogéneos.
Página -19-
L.C.Silva
O sea, se estima que el tiempo medio de estancia fue de 8.82 días, cifra diferente, desde luego, a
la media muestral simple, que sería igual a:
Para aplicar ahora la fórmula [5.5] hace falta computar las estimaciones de la varianza dentro de
los estratos:
Podríamos decir entonces que estamos altamente confiados en que el tiempo medio de
estancia es un número que se halla entre 7,9 y 9,8 días.
Página -20-
L.C.Silva
Al aplicar un MAE, una vez que se ha determinado el tamaño n , es necesario determinar cómo va
a distribuirse ese tamaño entre los L estratos; o sea, debe decidirse el modo en que se dividirá el
tamaño general n en los tamaños n1 , n 2 , , n L correspondientes a los estratos respectivos. A
tal proceso se le llama asignación de tamaños muestrales a los estratos.
Ya se había considerado la asignación proporcional, resumida a través de la fórmula [5.4] (la más
comúnmente usada), la única que produce una muestra equiprobabilística. Sin embargo, esta
asignación no es necesariamente la más eficiente; es decir, no es el modo de repartir el tamaño
muestral que da lugar a menor varianza de los estimadores.
Intuitivamente, no es difícil sospechar que si la fracción de muestreo es mayor en los estratos con
varianzas mayores que en los menos variables, para un mismo tamaño general de la muestra la
precisión aumentará. Puede demostrarse (Yamane, 1970) que la varianza de x i se hace
mínima si n se desagrega en sumandos proporcionales al producto del tamaño del estrato por la
raíz cuadrada de su varianza. Dicho de manera resumida: la manera óptima de asignar tamaños
muestrales a los estratos a partir de un tamaño muestral general igual a n , es definir nh del
modo siguiente:
nh =n L
N hS h 5.9
N hS h
h =1
L.C.Silva
A tal manera de asignar los tamaños muestrales se le denomina asignación de Neyman, debido a
que fue conocida inicialmente cuando la expuso Neyman (1934), aunque luego se supo que su
descubrimiento se había producido 11 años antes (Tschuprow, 1923).
Naturalmente, para aplicar la asignación [5.9] es necesario conocer todos los valores de S 2h ,
además de los tamaños de los estratos; esto es, hablando estrictamente, imposible. Sin embargo,
tal como ocurría al calcular el tamaño de muestra en MSA (Sección 3.7), podría recurrirse
supuestamente a procedimientos que permitan una aplicación aproximada de la asignación.
Todo esto es, sin embargo, algo de interés esencialmente académico: en la práctica, de las pocas
veces que se emplea el MAE directamente a las unidades de análisis, casi siempre se aplica la
asignación proporcional; es decir, salvo raras excepciones, nunca se emplea otro tipo de
asignaciones. Además de las limitaciones impuestas por la carencia de la información necesaria,
nótese que cada parámetro de interés exigiría su propia asignación (un estrato puede ser muy
variable para cierta dimensión X y homogéneo para otra X * ); pero en la práctica solo puede
haber una asignación, puesto que se selecciona una única muestra. En rigor, esta advertencia es
más pertinente cuanto más alambicados sean los procedimientos sugeridos. Muchos de ellos son
quizás más interesantes teóricamente, pero proporcionalmente más estériles en la práctica
(véase, por ejemplo, Bearwood, Holton y Hammersley, 1959).
El enfoque que procede utilizar para determinar el tamaño de muestra necesario sería
esencialmente el mismo que se introdujo en la Sección 3.7: identificar n tal que el error
L
E = (1.96) W VAR( x )
h=1
h
2
h
L.C.Silva
no exceda cierta magnitud prefijada, y despejar n de esta relación.
Sin embargo, una estrategia razonable sería la de actuar, sin más trámite, como si se tratara de un
MSA. Por una parte, difícilmente se encuentran datos para aplicar las fórmulas resultantes (en
particular, el conocimiento previo de las varianzas dentro de los estratos difícilmente serían otra
cosa que el resultado de un acto de especulación) y, por otra, las fórmulas del MSA en la práctica
siempre producirán tamaños mayores, de modo que empleándolas no habría riesgos de trabajar
con tamaños insuficientes.
Aunque se han conseguido algunos desarrollos teóricos destinados a guiar al muestrista acerca
del número óptimo de estratos que debe construir (véase Cochran, 1977), las sugerencias más
útiles -a nuestro juicio- provienen de la experiencia práctica acumulada. Parece indiscutible la
conveniencia de evitar la consideración de estratos muy pequeños y en general, se ha sugerido
tomar L entre 3 y 10 con el fin de lograr una ganancia apreciable de precisión.
5.5.4 Postestratificación
Admitamos que se desea una muestra de 2.000 ciudadanos y que se ha concluido el engorroso
proceso de identificar 2.000 números aleatorios diferentes entre 1 y, digamos, 402.80637. Ahora
nos encontraríamos un panorama desolador: al identificar los lugares de residencia de estos
2.000 sujetos, se comprobaría que están dispersos a lo largo y ancho de la ciudad. La mera
perspectiva de recorrerla palmo a palmo para tomar muestras de sangre y practicar interrogatorios
desalentaría a cualquier investigador con sentido común. En efecto, no tardaría en ser
considerada una alternativa tal como la de seleccionar, pongamos por caso, unas 50 de las miles
de manzanas que existen y completar la muestra tomando alrededor de 40 sujetos por manzana,
consiguiendo así que el esfuerzo se concentre en unos pocos núcleos urbanos pequeños.
Evidentemente, una variante de este tipo resultaría mucho más económica.
36
Toda la discusión y el razonamiento que siguen valen también para el
caso en que se valore el uso de MS o de MAE.
37
Para no perder realismo se supone que el listado consta exactamente de
402.806 individuos. En la práctica, incluso, el verdadero tamaño N de
la población virtualmente imposible de conocer.
L.C.Silva
Ilustremos un proceso de esa naturaleza aprovechando el mismo ejemplo arriba planteado: la
ciudad se divide en sectores censales (UPE), los sectores se consideran divididos en manzanas
(USE) y éstas en viviendas, las cuales están finalmente integradas por individuos, que son en este
caso las unidades de análisis. Supongamos que se seleccionan 40 sectores entre todos los que
existen en la ciudad3839, y que dentro de cada uno de ellos se toman 5 manzanas; supongamos
que se continúa con la selección de 10 viviendas en cada una de las 200 manzanas ya obtenidas
y que, finalmente, se escoge un individuo dentro de cada vivienda elegida para determinar así los
2000 elementos de la muestra. El proceso ha transitado en este caso por cuatro etapas de
selección: sectores, manzanas, viviendas e individuos.
Como es obvio, la conformación de estos listados no puede producirse al unísono, sino que tiene
ser escalonada, ya que en una etapa aún no se conoce qué listados han de ser necesarios en la
siguiente. Esto economiza recursos y favorece la agilidad del proceso; por ejemplo, la lista de
residentes en una vivienda puede conformarse in situ, cuando ésta sea por primera vez visitada
para realizar la encuesta correspondiente.
Hasta ahora, solo se ha expuesto la estructura del diseño. Naturalmente, en cada etapa de
selección pueden aplicarse diversos métodos específicos. En las restantes secciones de este
capítulo se desarrollan y discuten algunas variantes y se analizan algunos de sus méritos y
desventajas relativas.
Supongamos que estamos ante una población finita de N elementos (unidades de análisis)
38
39
De momento, no interesa detenerse en el método de selección empleado
ni para este ni para las siguientes etapas.
L.C.Silva
Consideremos que se planifica seleccionar una muestra simple aleatoria de m UPE y que la
muestra final esté integrada por todas las unidades de análisis contenidas en dichos
conglomerados. En tal caso, se dice que se trata de una muestra por conglomerados
monoetápica puesto que, en efecto, la selección de elementos de la población se ha verificado en
una sola etapa. La estructura de este diseño se ilustra gráficamente (Figura 6.1) con un caso en
que y m= 3 .
En efecto, tratándose de una selección simple aleatoria de conglomerados, cada uno de ellos
m
tiene probabilidad de inclusión igual a f = M . Puesto que cada unidad de análisis queda
automáticamente incluida en la muestra una vez que se selecciona la UPE que la contiene, es
evidente que todos los elementos de la población tienen esa misma probabilidad de inclusión.
El tamaño total de la muestra n es, en este caso, igual a la suma de los que tengan las UPE
m
seleccionadas: n = N
i=1
i . Si los tamaños N 1 , N 2 , , N M son diferentes entre sí (como ocurre en la
práctica, casi sin excepción), entonces el valor de n dependerá de los tamaños de las UPE que
resulten seleccionadas. Esta característica constituye una desventaja del procedimiento, ya que
imposibilita que se conozca de antemano el número de encuestas que habrán de realizarse lo
cual, a su vez, conspira contra una demanda elemental para la planificación de esfuerzos y
recursos.
Resumiendo: la variabilidad del tamaño muestral depende de las diferencias que exhiban los
tamaños de las UPE N 1 , N 2 , , N M entre sí.
Detengámonos en un ejemplo sencillo para ilustrarlo. Supongamos que M = 8 y que los valores
de los tamaños de los conglomerados son los siguientes:
L.C.Silva
UPE (i) 1 2 3 4 5 6 7 8
O sea, el tamaño muestral puede moverse entre 50 y 320. La distancia entre estas dos cotas
constituye una medida rudimentaria de la variabilidad de n , pero -como es natural- pueden usarse
medidas más refinadas, como la desviación estándar o el coeficiente de variación; de momento,
sin embargo, basta con ésta.
Si, en cambio, los valores de los N i fuesen más parecidos entre sí, entonces la variabilidad del
tamaño muestral no sería tan marcada. Por ejemplo, supongamos que los valores fuesen:
UPE (i) 1 2 3 4 5 6 7 8
Tamaño ( N i ) 60 65 70 40 55 80 50 60
En este caso, n queda necesariamente constreñido entre 145 y 215, un recorrido -en efecto-
mucho más reducido. En este segundo caso, por tanto, aunque se mantiene el carácter aleatorio
del tamaño muestral, su "control" previo es considerablemente mayor.
En efecto, otra propiedad (en este caso ventajosa) del procedimiento radica en que no sólo no es
necesario tener un listado de las unidades de análisis para realizar la selección, sino que ni
siquiera hace falta conocer el tamaño N de la población. La ventaja dimana del hecho de que
-como se apuntara en la sección precedente - en la práctica el valor exacto de N se puede
conocer solo en raras ocasiones.
Una variante para la estimación del parámetro X que no demanda conocer r es la de emplear,
sencillamente, la media muestral que, en este caso, sería igual a:
m
XTi
x= i = 1
m 6 .2
Ni
i= 1
A x se le llama estimador de razón, pues es una razón de dos variables aleatorias. A diferencia
del caso anterior, la media muestral [6.2] no es insesgada. El sesgo suele ser, sin embargo,
despreciable; por tanto, siendo [6.2] mucho más simple y natural que [6.1], lo regular es utilizar x
como estimación de X cuando se emplea este tipo de diseño.
Huelga extenderse en que la situación descrita abarca el caso de la estimación de una proporción
T
P . Si llamamos X i al número de aquellos individuos del i-ésimo conglomerado elegido que
poseen cierta característica, entonces [6.1] y [6.2] son estimadores (insesgado el primero, con un
pequeño sesgo el segundo) de la fracción de individuos con dicha característica en toda la
población. Respectivamente, los denotaremos mediante p I y p .
N 1 = 40 N 2 = 60 N 3 = 100
L.C.Silva
y que se han contado los sujetos de cada conglomerado que tienen cierto rasgo (por ejemplo, ser
mujer) con los siguientes resultados:
T T T
X 1 = 10 X 2 = 20 X 3 = 40
M
XTi
La fracción poblacional de mujeres es P = i = 1 = 70 = 0.35 . Consideremos ahora todas las
M 200
Ni
i=1
muestras posibles de tamaño m = 2 (que se reducen a 3) y sus resultados, los cuales se resumen
a continuación:
+-----------------------+
¦ Estimaciones de P ¦ +---------------------------------------+-----------------------¦
¦Muestra¦ UPE ¦ Tamaño ¦Número de ¦ Estimador ¦Estimador ¦ ¦ ¦elegidos ¦ muestral ¦
mujeres ¦ insesgado ¦de razón ¦
+-------+---------+----------+----------+------------+----------¦
¦ 1 ¦ 1,2 ¦ 100 ¦ 30 ¦ 0.225 ¦ 0.300 ¦
¦ ¦ ¦ ¦ ¦ ¦ ¦
¦ 2 ¦ 1,3 ¦ 140 ¦ 50 ¦ 0.375 ¦ 0.357 ¦
¦ ¦ ¦ ¦ ¦ ¦ ¦
¦ 3 ¦ 2,3 ¦ 160 ¦ 60 ¦ 0.450 ¦ 0.375 ¦
+---------------------------------------------------------------+
Es fácil constatar que el promedio de las 3 estimaciones posibles, cuando se emplea el estimador
p I ; coincide con P ; en tanto que el de las estimaciones de razón es igual a 0.344, diferente del
parámetro.
m 1 m 1 m
( X Ti - X T ) = X
2 2 T T
f= S =
I X i
M m - 1 i=1
m i=1
+ x N - 2x X 6.4
1- f
var( x ) = 2
( X Ti )2 2 2
i
T
i N i
n m - 1 i=1 i=1 i=1
La fórmula [6.4], sin embargo, es una aproximación cuya validez se subordina al cumplimiento de
la siguiente condición40:
m(1 - f) s 2I < (0.2)n 6.5
40
El coeficiente 0.2 es un número esencialmente arbitrario que se
sugiere en Kish (1965).
L.C.Silva
Para ilustrar estas fórmulas, consideremos ahora otro ejemplo. Se investigan los certificados de
defunción acumulados durante varios años en una oficina central, los cuales se hallan
almacenados en 480 paquetes de diferentes tamaños. El número de certificados por paquete
oscila entre 50 y 300, pero se desconoce para cada uno de ellos.
Supongamos que se cuenta, sin embargo, con el número exacto del total de certificados
acopiados durante el lapso que se investiga, el cual asciende a 84.228. Se quiere estimar la
proporción P de certificados que contienen algún apartado en blanco, u otro defecto apreciable
en su llenado.
Supongamos que del total de 480, se seleccionan 20 paquetes mediante muestreo simple
aleatorio. Los resultados obtenidos al contar el número de unidades N i y el de certificados defec-
T
tuosos Xi en los paquetes elegidos son los que se reflejan en la Tabla 6.1.
1 221 14
2 84 11
3 76 21
4 58 4
5 49 13
6 302 75
7 101 13
8 211 61
9 204 50
10 64 8
11 92 14
12 58 32
13 63 6
14 118 21
15 195 58
L.C.Silva
16 222 41
17 97 10
18 123 11
19 284 101
20 82 23
Total 2704 587
m m m
N i2 = 488.024 ( XT 2 XT
i ) = 30.715 i N i = 113.334
i=1 i=1 i=1
En resumen, la fracción P se ha estimado, con los mismos datos, por dos vías, y los resultados
son los siguientes:
Se aprecia, por otra parte, que el estimador de razón produjo aparentemente41 un resultado más
preciso, pero también que, incluso en este caso, el error es considerable: asciende a un 5 %. En
términos relativos, esto representa un 23 % de la magnitud estimada del parámetro.
Si se trabajara con los métodos de selección estudiados anteriormente (MSA ,MS o MAE), la
estimación dichas fracciones con cada uno de estos Pi se podría llevar adelante según las
fórmulas correspondientes sin incongruencia alguna; es fácil convencerse, sin embargo, de que en
el caso del muestreo por conglomerados monoetápico, al estimar los Pi mediante la fórmula [6.1]
K
se obtienen estimaciones Pˆ 1 , Pˆ 2 , , Pˆ K cuya suma no es la unidad: Pˆ 1 .
i=1
i Esto es obviamente
K
contraproducente, ya que por definición se cumple que P = 1.
i=1
i
41
No podemos estar totalmente seguros de ello, porque sólo contamos con
estimaciones de las varianzas y no con las varianzas verdaderas, que
son de hecho imposibles de conocer a través de datos muestrales.
L.C.Silva
Por ejemplo, supongamos que se tiene la siguiente situación: en una escuela que tiene N = 850
alumnos en total, ubicados en M = 26 grupos; se han seleccionado m = 4 de estos grupos, la
totalidad de cuyos integrantes fue interrogada sobre diversos aspectos relacionados con
accidentes. Una de las preguntas clasificaba a cada alumno en una de K = 3 categorías según
número de accidentes sufridos durante el último año:
+---------------------------+
¦ Categorías ¦
+---------------------+---------------------------¦
¦ Grupo ¦ Tamaño ¦ (1) (2) (3) ¦
¦---------+-----------+---------------------------¦
¦ 1 ¦ 24 ¦ 20 3 1 ¦
¦ 2 ¦ 31 ¦ 30 1 0 ¦
¦ 3 ¦ 18 ¦ 14 2 2 ¦
¦ 4 ¦ 25 ¦ 19 4 2 ¦
¦---------+-----------+---------------------------¦
¦ Total ¦ 98 ¦ 83 10 5 ¦
+-------------------------------------------------+
M 1 4 26 10
Pˆ 2 = XT = = 0.08
N m i = 1 i2 850 4
M 1 4 26 5
Pˆ 3 = XT
i3 = = 0.04
N mi=1 850 4
L.C.Silva
La suma de estos tres números es 0.75. De modo que, en caso de que se usara [6.1] para
estimar cada una de las fracciones, la distribución porcentual de alumnos según estas tres clases -
en que necesariamente se ubica todo elemento de la población- no abarcaría al 100 % de la
K
población, sino solo al 75 % de ella! En general, es fácil probar que la suma Pˆ
i=1
i de las
m n
estimaciones insesgadas es igual a la unidad si y solo si se cumple la relación = , donde
M N
m
n = N i . Tal condición, como es obvio, ocurre solo excepcionalmente. En Silva y Rubí (1983)
i=1
se discute esta situación aberrante, nunca consignada en textos de muestreo que, sin embargo,
se regodean en complicados desarrollos formales sobre los estimadores insesgados.
Si se estima la fracción de no accidentados, esta es como vimos 63 %; si alguien nos pregunta por
el porcentaje de accidentados, usualmente restaríamos 63 de 100 y responderíamos: 37 %. Sin
embargo, si se aplica [6.1] para estimar este último porcentaje, se obtendría un número
26 15
aparatosamente diferente: 12 % (resultado de calcular: . ).
850 4
La solución obvia para eludir esta inconsistencia consiste en usar el simple estimador de razón
[6.2] (es decir, el porcentaje muestral). En ese caso, las estimaciones serían:
L.C.Silva
m
X
i=1
T
ij
pj= m
N
i=1
i
cuya suma, naturalmente, es la unidad. En el caso inicial (con tres categorías), por ejemplo, se
tendría:
83
p1 = 98 p 2 = 10
98 p 3 = 985
L.C.Silva
Supongamos que se planifica seleccionar una muestra de unos 2.000 ancianos de una ciudad de
alrededor de 1.700.000 habitantes. La población objeto (o diana) consta de unos 148.000 sujetos
elegibles (ancianos) para el estudio, los cuales, como es natural, se dispersan por todo el
perímetro urbano. Descartados, como es obvio, el MSA, el MAE y el MS por las razones ya
consabidas (detalladas en la Sección 6.1), valoremos la posibilidad de emplear un muestreo
monoetápico. Cuáles podrían ser las UPE?
42
Obsérvese que con un solo conglomerado no podrían estimarse errores,
ya que tanto la fórmula [6.3] como la [6.4] contienen el el término
Install Equation Editor and double-
click here to view equation. en el denominador.
L.C.Silva
Por otra parte, si se optase por seleccionar circunscripciones en calidad de UPE (entre las 32.044
existentes) para luego estudiar todos los ancianos allí radicados, y así completar el muestreo por
conglomerados monoetápico, cuántas de tales circunscripciones habría que seleccionar? Un
simple cómputo aritmético deja ver que, como promedio, habrá unos 4 ó 5 ancianos en cada una
de estas UPE. De modo que, para tener unos 2 000 sujetos, en la muestra, harían falta más de
400 circunscripciones, lo cual implica que la muestra exhibirá una dispersión geográfica muy
probablemente indeseable o directamente incosteable (además del engorro que supone
procurarse un listado de decenas de miles de circunscripciones y después operar con él). La
introducción de al menos una etapa adicional de muestreo resuelve estas dificultades43.
Población Muestra
Número de elementos de la i- Ni ni
ésima unidad
Media de la variable X en la Xi xi
i-ésima unidad
Número de UPE M m
Número total de elementos M m
N = Ni n = ni
i=1 i=1
43
44
Es fácil advertir que, cuando se toman todos los conglomerados (m=M),
entonces estamos exactamente ante la estructura de un MAE y que, en el
caso en que se tenga ni=Ni para todas las UPE, lo que se realiza no es
más que un muestreo por conglomerados monoetápico. O sea: el muestreo
por conglomerados bietápico abarca tanto al MAE como al muestreo
monoetápico, como casos particulares.
L.C.Silva
Si la selección de las m UPE de entre las M existentes se hace mediante MSA, y este mismo
método se utiliza para elegir los elementos dentro de las UPE seleccionadas, puede probarse que
un estimador insesgado de X viene dado por:
m
N 6.6
M
xc = i xi
Nm i=1
N 6.7
M
pc = i pi
Nm i=1
donde pi es la fracción muestral de sujetos del i-ésimo conglomerado seleccionado que poseen
el atributo que se estudia.
1 m 1 ni m
donde s 2x = Xi X
m - 1 i=1
( ˆ - ˆ * 2
) y 2
Si = xij xi
ni - 1 j=1
( - )
2
con X i N i xi X m Xˆ i , y donde
ˆ = , ˆ *
= 1
i=1
N Nn n 6.9
1 M i-
var( p c ) = [ N i pi - i pi ] 2 + i
N 2 M m(m - 1) i=1
m i=1
m i=1 i ni - 1
L.C.Silva
donde qi = 1 - pi .
Cabe ahora intercalar la cuestión de cómo se calculan, en general, las probabilidades de inclusión
bajo el régimen de selección en dos etapas. La regla de cómputo general de la probabilidad de
inclusión f de un sujeto de la población es la siguiente:
f = f1 f2 6.10
donde f 1 es la probabilidad de que se elija la UPE en que se halla el sujeto y f 2 es la
probabilidad condicional de que éste resulte seleccionado dado que lo fue la UPE que lo contiene.
Adviértase que la fórmula [6.10] no es más que la aplicación de un resultado elemental de teoría
de probabilidades, el que establece que P(A B) = P(B | A)P(A) En este caso, A representa el
suceso de que sea elegido el conglomerado que contiene a la unidad considerada y B el de que
ésta última sea elegida en la segunda etapa.
Si los m conglomerados se eligen por un método equiprobabilístico (por ejemplo, MSA o MS),
m
entonces f 1 = para todas las UPE.
M
Análogamente, si los ni individuos dentro del i-ésimo conglomerado seleccionado se toman por
medio de MSA o por MS, entonces, para los N i individuos de esa UPE se tiene que f 2 = ni
Ni
.
Aplicando [6.10] se arriba a que la probabilidad final de una unidad perteneciente al conglomerado
i-ésimo es igual al producto de esas dos fracciones:
f=
m ni
6.11
M Ni
L.C.Silva
Para la elección de los tamaños ni no hay ninguna regla; cualquier valor para ni es en principio
legítimo. Sin embargo, suelen valorarse dos casos particulares:
(a) Seleccionar una fracción fija de unidades de análisis dentro de los conglomerados
elegidos (es decir, el mismo porcentaje en cada uno de ellos).
(b) Seleccionar un número fijo, digamos n , de elementos dentro de cada UPE seleccionada
(el mismo número de unidades de segunda etapa en todas y cada una de las UPE,
independientemente de sus tamaños).
En el primer caso se tiene una muestra final equiprobabilística, pero el tamaño final sería aleatorio.
1
En efecto: si f 2 es constante (por ejemplo, f 2 =
, suponiendo que se decide tomar el 10 % de
10
los elementos contenidos en cada uno de los m conglomerados), entonces según la fórmula
m
[6.10] se tiene que f = f , un número que no depende de qué conglomerado se trate y por lo
M 2
tanto igual para todos los elementos de la población. Por otra parte, el tamaño muestral
ascendería en ese ejemplo al 10 % del número de sujetos abarcados por las m UPE que hayan
resultado elegidas; consecuentemente, dicho tamaño se ignorará hasta tanto no concluya la
elección aleatoria en la primera etapa.
En el segundo caso -cuando se toma un número fijo de unidades en cada UPE- ocurre lo
contrario: el tamaño final de la muestra es fijo (igual al producto m n ), pero, según [6.10], la
probabilidad de inclusión de cada sujeto es inversamente proporcional al número de unidades de
m n
análisis que integran la UPE que lo contiene: , dependiente de i (igual dentro de cada UPE,
M Ni
pero diferente entre conglomerados que tengan tamaños diferentes).
Al igual que en el caso monoetápico, si los tamaños de las UPE son muy diferentes unos de
otros, la variante (a) debe evidentemente descartarse porque el tamaño final de muestra sería
virtualmente impredecible. De no ser éste el caso, tanto la variante (a) como la (b) pueden
utilizarse, pero las fórmulas [6.6], [6.7], [6.8] y [6.9] sólo pueden emplearse en el infrecuente caso
en que se conozca exactamente el tamaño poblacional.
Además de que muchas veces se desconoce N , debe enfatizarse que, en rigor, lo ideal y más
conveniente es prescindir de formulaciones tan abigarradas como las que se asocian a los
estimadores insesgados. Una alternativa de mucho mayor aplicación en la práctica consiste en el
empleo de un estimador de razón. Si el procedimiento es equiprobabilístico, éste no es otra cosa
que la media muestral; si no lo fue, hay que incorporar ponderaciones. Veamos este último caso
(el más general).
L.C.Silva
m m
Con estos valores pueden computarse x y y : x =
i=1
xi y y = y ,
i=1
i y con ellos, por último, se
produce la estimación:
r=
y
6.12
x
Nótese que la fórmula [6.13] tiene la misma estructura que [6.4]. Si el diseño es
equiprobabilístico, las ponderaciones pueden eliminarse. Los valores de y i y xi se reducen a:
ni ni
yi = yij xi = xij
j=1 j=1
y [6.13] coincide enteramente con [6.4] aunque con otra notación, salvo que en [6.13] se ha
considerado que f 0 , lo cual es enteramente razonable, ya que el empleo de muestreo
bietápico se asocia típicamente a poblaciones considerablemente grandes.
6.3.4 Ilustración
Paquete i Ni ni wij 30
Yi xi
(UPE) y
j =1
ij
Hasta aquí se ha discutido en detalle el caso bietápico. Pero el muestreo en etapas puede
aplicarse, desde luego, a poblaciones tan grandes que pudieran exigir la incorporación de tres,
cuatro o incluso más etapas de selección. Todos los conceptos desarrollados pueden extenderse
fácilmente a tal situación. Por ejemplo, si el número de etapas fuese 4, la fórmula [6.10] pasaría a
ser:
f = f1 f2 f3 f4
L.C.Silva
La fórmula [6.12] y [6.13] tienen valor general; es decir, son igualmente válidas en la situación
polietápica. Esto quiere decir que lo único que influye de manera sustancial en el cómputo de
errores es la variabilidad que exhiben entre sí los datos para las unidades de primera etapa,
independientemente de cuántas etapas adicionales se hayan empleado (Kalton, 1979).
En este punto debe insertarse un concepto de cierta importancia, sobre todo teórica: el llamado
efecto de diseño. Antes de introducirlo, reparemos en la siguiente circunstancia: el muestreo en
etapas es en general menos eficiente que el MSA (supuesto, naturalmente, que no se modifica el
tamaño muestral) en lo que concierne a la precisión de los estimadores. Ello se debe a que, en la
práctica, las mismas circunstancias que agrupan o conglomeran a los sujetos suelen hacerlos
parecidos entre sí y, por lo tanto, al tomar información de sujetos procedentes de unos pocos
conglomerados, ésta tiende a ser redundante y menos informativa que la que se obtendría a partir
de una muestra con el mismo número de individuos, pero dispersa por toda la población.
Esta reducción de la representatividad es claramente intuitiva; una rápida mirada a la Figura 6.3
ayuda a persuadirnos de ello: la muestra consta de 28 sujetos, pero en un caso se hallan
concentrados en dos conglomerados, y en el otro dispersos por toda la población.
Concretamente, supongamos que se quiere estimar X con una muestra de cierto tamaño n y
que se manejan dos alternativas: MSA y muestreo en etapas (ME), en cualquiera de sus
Es decir, se define
DEFF =
V ME ( x )
6.14
V MSA ( x )
L.C.Silva
DEFF es normalmente mayor que 1, y el grado en que excede a este número expresa cuánta
eficiencia se ha perdido como consecuencia de haber aplicado un diseño menos preciso (aunque
también mucho más económico y práctico) que un MSA.
( x - x )
2
de una media, se calcula s 2 = n1-1 i donde n es el tamaño de la muestra
i=1
resultante del diseño en cuestión, xi el valor de su i-ésimo integrante.
s2
3. Se calcula var MSA ( x ) = que es una estimación de la varianza de x bajo MSA (donde
n
se suele prescindir del factor de corrección).
var ME ( x )
4. Se computa: deff =
var MSA ( x )
r (1 - r) (0,187)(0,813) 0.000491
Ahora var msa (p) = = = 0,000253 y deff = 0.000253 = 1.94 .
n 600
En este ejemplo, el muestreo en etapas es aproximadamente 2 veces más ineficiente que el MSA
en lo que hace a la estimación de la fracción de certificados defectuosos.
L.C.Silva
Este capítulo se destina a explicar un procedimiento que posee especial importancia práctica y
cuya esencia estriba en seleccionar las UPE con diferentes probabilidades en lugar de hacerlo a
través de un método que -como el MSA- otorgue iguales posibilidades de elección a todas ellas.
Consideremos que se quiere diseñar una muestra para estudiar la morbilidad hospitalaria de una
región y que se decide hacerlo mediante una muestra de aproximadamente 2000 historias clínicas
correspondientes a altas hospitalarias producidas durante el último año. Supongamos que las
altas proceden de 106 hospitales y que en total ascienden a unas 400.000 a lo largo del año. La
selección de altas se hará en dos etapas, escogiendo inicialmente m = 10 hospitales, y luego 200
sujetos de cada uno.
Supongamos que, al analizar la distribución de altas por hospitales, se advierte que ésta dista de
ser uniforme: hay un pequeño grupo de 12 grandes hospitales que genera en total el 45 % de las
altas hospitalarias de la región. Consecuentemente, si la selección de las 10 UPE se realizara con
MSA, entonces cada uno de estos 12 hospitales grandes tendría la misma probabilidad de ser
incluido en la muestra que la de todos los restantes, la mayoría de los cuales son pequeñas
unidades municipales y que -por su naturaleza- reflejan un tipo muy particular de morbilidad
hospitalaria.
A partir de estas consideraciones, puesto que las UPE tienen tamaños muy diferentes, es
intuitivamente ilógico usar un procedimiento equiprobabilístico en la primera etapa. Se corre el
riesgo, por ejemplo, de que muchos hospitales grandes (quizás todos) queden fuera del estudio, lo
cual sería obviamente "chocante". Dicho en términos más técnicos: la posibilidad de tener
muestras demasiado homogéneas (es decir, poco representativas) sería muy grande.
Consideremos un método específico destinado a eliminar esta dificultad, el cual -como se verá-
exhibe varias virtudes adicionales. Se trata de un muestreo equiprobabilístico que se realiza en
varias etapas, pero otorgando a cada UPE una probabilidad de selección proporcional a su
tamaño. La versión que se explica a continuación corresponde a un diseño en dos etapas. En la
medida que se desarrolle se expondrá, paralelamente, un ejemplo sencillo.
Por ejemplo, supongamos que se cuenta con los datos provenientes de un censo no actualizado
de los residentes de un sector de salud que tiene aproximadamente A = 2200 individuos
distribuidos en M = 8 manzanas del siguiente modo:
L.C.Silva
Manzana 1 2 3 4 5 6 7 8
A continuación se exponen, comentan e ilustran los seis pasos que deben darse para llevar
adelante la selección.
(1) Crear una lista de las UPE y obtener los tamaños acumulados Ci = A1 + A2 + ... + Ai a
lo largo de la misma.
1 115 115
2 220 335
3 525 860
4 310 1170
5 205 1375
6 190 1565
7 425 1990
8 210 2200
2200
En el ejemplo, esto es I = = 550 .
4
Supongamos que el número elegido al azar entre 1 y 550 resultó ser R = 369 .
De ese modo, 369 identifica a la manzana 3 (pues C 3 = 860 es el primer valor de C i no superado
por 369); 919 identifica a la UPE número 4 por ser 1.170 el primer acumulado que lo supera; 1.469
identifica a la manzana 6 y 2.019 a la última. Así, en el ejemplo, han quedado elegidos los
conglomerados que ocupan los lugares 3,4,6 y 8 del listado.
(6) Dentro del conglomerado i-ésimo, obtener una muestra equiprobabilística con
probabilidad f2 = n/Ai
50 50 50 50
En nuestro caso se aplican fracciones de muestreo de magnitud , , , y
525 310 190 210
respectivamente a los listados de individuos en las manzanas elegidas.
Dentro del i-ésimo conglomerado, se ha fijado que la probabilidad de que un sujeto resulte
n
seleccionado sea f 2 = . De ese modo se consigue la equiprobabilidad general programada:
Ai
Install Equation Editor and double-
click here to view equation.
L.C.Silva
Ai n mn n
f1 f 2 m f
A Ai A A
Es necesario tener en cuenta que en el momento de seleccionar los elementos dentro de las UPE
elegidas en la primera etapa es preciso contar con listas de los verdaderos elementos que las
integran. El número de elementos de esta lista, N i es -en general- diferente de Ai (próximo si la
aproximación es buena, distante en otro caso).
Si en cada UPE elegida se tomasen exactamente n elementos (con MSA, por ejemplo) en cada
UPE elegida –lo cual pudiera ser un primer impulso-, la probabilidad de cada elemento en la
n n
segunda etapa sería , de modo que la probabilidad general sería: m Ai , un número
Ni A Ni
n
diferente de f = , salvo que no se hubieran hecho aproximaciones, sino que se conocieran los
A
tamaños exactos (o, equivalentemente, que se cumpliera que Ai = N i para todas las UPE).
n
En principio, hay dos maneras de conseguir que la subselección se produzca con probabilidad
Ai
entre los N i elementos de la i-ésima UPE:
n
(a) Usar muestreo sistemático en fases con la propia probabilidad
Ai
n Ni
(b) Seleccionar sujetos mediante MSA u otro procedimiento equiprobabilístico
Ai
La primera variante resulta en general más expedita, pero cualquiera de estas maneras de
practicar el submuestreo produce el mismo efecto: en lugar de obtener exactamente n USE por
cada UPE seleccionada, se obtendrá un número aleatorio xi cuya proximidad con n dependerá
de cuán buena haya sido la aproximación Ai que se empleó como sucedáneo de N i . Si
Ai > N i , entonces xi será menor que n , y viceversa.
Tomemos, por ejemplo, la manzana 8 (cuarta elegida): supongamos que cuando se procede a
censar las viviendas, se obtiene un listado de 205 individuos (en lugar de los 210 supuestos).
n 50
Primero se calcula = = 0.238 0.24 , y de inmediato se aplica un muestreo sistemático en
Ai 210
fases (nótese que en este caso no puede usarse el método regular). En la Tabla 4.2; buscamos
los intervalos K1 y K2 que corresponden a f = 0.24 y obtenemos: K1 = 4 y K2 = - 25 .
Admitamos que se obtiene como primer arranque aleatorio (entre 1 y 4) el número r 1 = 4 , y como
segundo arranque r 2 = 10 ; es fácil corroborar que, en ese caso, se eligen exactamente 49 sujetos
de los 205 existentes.
De manera similar se conduce el proceso para las otras dos manzanas seleccionadas. Como se
ve, el número de unidades de análisis tomadas para la encuesta dentro de una UPE no es en
general igual a n = 50 , sino un número aleatorio cuya magnitud depende básicamente de la
diferencia que haya entre Ai y N i . El ejemplo de la primera manzana de la muestra es un caso
extremo ( Ai considerablemente menor que N i ) y por ello la diferencia entre x1 y n es notable.
Sin embargo, aun cuando se produzca alguna pifia relativamente grande como esta, si las
aproximaciones fluctúan por encima y por debajo de los respectivos tamaños para unas y otras
m
UPE, y supuesto que m no es muy pequeño, entonces x = x
i=1
i debe ser muy próximo a
n = mn .
46
Este incidente revela que la fuente de información para obtener
Install Equation Editor and double-
los click here to view equation. Sólo ¡Error! el documento
principal.fue bastante defectuosa.
47
Serían 62 sujetos si el arranque fuese 1 ó 2
L.C.Silva
Nota:
Ocasionalmente podría ocurrir que 2 o más números de los Z i obtenidos identificaran al mismo
conglomerado; esto solo pasaría para una UPE cuyo valor de Ai fuera muy grande
(necesariamente mayor que I ). En tal caso, en dicha UPE se aplica sucesivamente la fracción
n
tantas veces como números la hayan identificado.
Ai
7.4 Notación
Por ejemplo, consideremos que en el diseño que venimos considerando se quieren estimar los
siguientes dos parámetros:
b) el número medio de consultas médicas por habitante que recibió la población durante el
último año
Para estimar una media o una fracción poblacionales se usan, respectivamente, la media o
fracción muestrales. Sin embargo, debe recordarse el carácter aleatorio del tamaño de muestra.
m
Este es x = x , de modo que dichos estimadores son razones de variables aleatorias.
i=1
i
y (1)
i
56
la población es r (1) = i=1
m = = 0,269 y la estimación del promedio de consultas por
X
208
i
i=1
habitante a lo largo del año resulta ser
m
y(2)
i
i=1 277
r(2) = = = 1,33
m 208
Xi
i=1
Se puede demostrar que, si se tuviera Ai = N i para todas las UPE (una situación inusual y, por
tanto, de escaso interés práctico), en cuyo caso xi = n , entonces:
1 m 2
var( r ) = y - mr 2 7.2
2
m(m - 1) n i = 1
i
es una estimación insesgada de la varianza de r .
Adviértase que la fórmula de var( r ) es en este caso de una sencillez extrema, sobre todo si se
tiene en cuenta la complejidad del método.
Pero, lamentablemente, la vida es más rica que las mejores previsiones, de modo que en general
se trabaja con aproximaciones, y en tal caso la estimación de la varianza del estimador [7.1] viene
dada por la misma fórmula utilizada para el caso monoetápico; con la notación que tenemos
ahora, ésta es:
1 - f m m 2 2 m 2 m
var(r) =
y i + r x i - 2r x i y i
7.3
x2 m - 1 i = 1 i=1 i=1
Al aplicar [7.3] para calcular la varianza estimada de ambas estimaciones, se tiene lo siguiente:
var( r (1) ) = 0,00054
Sumando y restando el error absoluto (1,96) var(r) en cada caso, los intervalos de confianza al
95% de confiabilidad para P y X son, respectivamente, [0,224-0,315] y [0,654-2,009].
Como se ve, los errores son considerables (0,046 para la fracción y 0,678 para el número medio
de consultas); en términos relativos ascienden a 17.1 % y 60 % respectivamente. Ello se debe a
que en este pequeño ejemplo didáctico, el número de UPE seleccionadas ( m = 4 ) es muy
reducido, algo inusual en la práctica.
a) es equiprobabilístico
Los cuatro rasgos mencionados son atractivos por diferentes razones. El carácter
equiprobabilístico es favorable porque en ese caso todas las fórmulas son más simples, porque es
psicológicamente más admisible por parte del personal lego en la materia y porque la
incorporación de ponderaciones siempre resta algo de eficiencia a las estimaciones (Kish, 1965).
La ventaja de poder hacer una predicción razonable del tamaño muestral es evidente. Por otra
parte, el hecho de que las UPE mayores tengan más oportunidad de ser elegidas que las más
pequeñas contribuye, como se explicó antes, a la representatividad. Finalmente, desde el punto
de vista logístico, en lo que concierne a trabajo de terreno, tener tamaños similares dentro de cada
una de las UPE, independientemente de la magnitud de muestra que tengan, suele ser altamente
L.C.Silva
conveniente, porque ayuda sensiblemente a la organización del trabajo de terreno.
Todo el procedimiento explicado en este capítulo reposa en que se cumpla la siguiente condición:
A
n Ai
m
n Ai
Esto se debe a que las razones y son probabilidades de selección y, como tales tienen
Ai I
que ser números no mayores que 1.
La condición Ai < I solo habrá de incumplirse cuando exista alguna UPE cuyo tamaño sea
extraordinariamente grande respecto del resto. Nótese que el incumplimiento de dicha condición
A
no es muy probable, ya que m es usualmente mucho menor que M , de modo que M (que no
A
es otra cosa que el valor promedio de los Ai ) habrá de ser sustancialmente menor que I = m .
Consecuentemente, solo un conglomerado que sea muchísimo mayor que los restantes (y por
ende mucho mayor que la media de todos ellos T) podría producir tal incumplimiento. No
obstante, qué hacer cuando los tamaños de los Ai sean tales que esa condición no se cumpla?
a) Una primera variante es actuar según se explica en la NOTA con que concluye la
Sección 7.3.
L.C.Silva
c) Una tercera posibilidad consiste en unir las UPE conflictivas a otras contiguas, de
modo que el problema desaparezca. En tal caso, la UPE resultante de la unión
antedicha tendrá tamaño aproximado igual a la suma de los Ai correspondientes a
las UPE que la componen, y será considerada como un solo conglomerado (de ahí
la importancia de que sus componentes sean contiguos o, más generalmente, de
que luego no constituya un problema práctico a los efectos del submuestreo en
caso de ser seleccionada).
A
2) Si alguna UPE tiene tamaño aproximado mayor que m
a) La primera variante consiste en dividir este conglomerado en dos o más UPE. Tal
manipulación se haría de manera que la suma de los tamaños aproximados de
estas últimas coincida con el de la UPE que es objeto de la división. Es importante
que -en tal caso- las nuevas UPE estén bien delimitadas, de manera que si alguna
de ellas resultase seleccionada, no haya ambigüedad en la fase de submuestreo.
A
b) Si m es solo "un poco mayor" que el tamaño aproximado de la UPE49 , entonces
este último valor puede disminuirse. Nótese que no basta con atribuirle el valor
A
m , ya que tal disminución producirá un nuevo tamaño aproximado de toda la
población y, por tanto, al dividir ese nuevo valor de A por m , el problema se
reproduce. Por ejemplo, si los tamaños aproximados en un estrato son iguales a
40, 60, 20 y 180 ( A = 300 ), y m = 2 , se tiene A = 150. . Si se decidiera atribuir
m
sustituyera sin más el tamaño 150 a la cuarta UPE en lugar de 180, se tendría que
A 270
40+60+20+150=270 y 13,5 , de modo que no se eliminaría el
m 2
problema, ya que 135<150. Quiere esto decir que, cuando el procedimiento sea
utilizado, el Ai i "conflictivo" tendría que reducirse bastante por debajo del valor de
I ; y debe replantearse siempre todo el cómputo con el fin de corroborar que la
condición que se procura asegurar sea válida para la nueva configuración.
49
Si hubiera alguna UPE cuyo tamaño aproximado fuera mucho mayor que I,
entonces el tratamiento del asunto es radicalmente diferente y se
aborda en el Capítulo 8.
L.C.Silva
Finalmente, cabe señalar que puede ser conveniente conseguir, en el contexto de estas
manipulaciones, que todos los Ai sean múltiplos de n . En tal caso, en la fase de subselección se
tendrá que cada fracción de muestreo sea igual al inverso de un entero y se podrá entonces
aplicar el método regular de selección sistemática en lugar del más engorroso de selección en
fases. Consecuentemente, de ser posible, se "redondean" los tamaños de las UPE llevándolos a
ser múltiples de n y obtener así intervalos enter
Hasta ahora se han desarrollado diversos procedimientos de selección de muestras con diferentes
niveles de complejidad. Puede decirse, sin embargo, que se han manejado tres situaciones
alternativas básicas: muestreo "directo" de unidades de análisis (muestreo simple aleatorio o
sistemático, tratados en los Capítulos 3 y 4), muestreo estratificado (Capítulo 5) y muestreo por
conglomerados (Capítulos 6 y 7)
El presente Capítulo presenta un diseño en el que se integran todas las técnicas precedentes: se
combina el muestreo estratificado para la elección de unidades en la primera etapa con el
muestreo en etapas dentro de las UPE seleccionadas; aunque no se trata de una definición
formal, a los diseños de ese tipo se les suele denominar genéricamente diseños complejos
La introducción de estratos al nivel de las UPE es conveniente, ya que puede mitigar el notable
efecto negativo para la representatividad que, muy a pesar del muestrista, suele producir el
muestreo por conglomerados. La idea es enteramente natural y consiste en introducir la técnica
de muestreo estratificado en la primera etapa; o sea: organizar las UPE en estratos y luego
seleccionar algunos conglomerados de todos y cada uno de los estratos considerados. Las
unidades de análisis se seleccionan posteriormente (en una o más etapas) dentro de cada UPE
elegida en los estratos. A esta estrategia se la denomina muestreo estratificado polietápico (MEP)
Para la creación de los estratos se debe seguir -como en el MAE- el criterio de conformar, en lo
posible, grupos homogéneos de población. En ocasiones se utilizan criterios geográficos
(provincias o municipios), zonas ecológicas o socioculturalmente diferentes entre sí, o con distintas
densidades de población. Estos criterios han merecido atención; en O'Muircheartaigh (1977) se
puede hallar, por ejemplo, una discusión sobre las ventajas de este último criterio. Un eje de
clasificación muy usado en encuestas de población (ocasionalmente cruzado con otro) es el
definido por la localización, en urbano-rural, de las vivienda de los individuos.
La presente sección expone el uso del muestreo estratificado polietápico y algunos de los
problemas asociados a su aplicación.
Supongamos que estamos ante una población finita de tamaño N , dividida en M UPE; así como
que este conjunto de conglomerados se ha organizado en L estratos y que en el estrato h
L
(h : 1,..., L) hay M h UPE, de modo que M h= M .
h=1
El plan consiste en seleccionar una muestra de unidades de análisis según la siguiente estrategia:
elegir primero, en cada estrato, cierto número mh de UPE (de modo que en total se eligen
L
m = mh UPE), y realizar luego una subselección de unidades de análisis dentro de cada UPE
h=1
obtenida en la primera etapa.
Para llevar adelante este plan general se puede adoptar alguna de un sinnúmero de tácticas
diferentes. Lo ideal es que el muestrista domine la teoría general de manera que, atendiendo a
cada problema específico, pueda optar por aquella variante que mejor armonice con la situación
en que se produce el problema (definida en lo esencial por los objetivos de la encuesta, el marco
muestral disponible, la información que se posea sobre la población, los recursos disponibles y el
tiempo con que se cuenta).
Sin embargo, para ser coherentes con la tónica del presente texto, entre cuyos propósitos se halla
el de facilitar el proceso de aplicación de las técnicas muestrales a estudiantes e investigadores no
especialistas en la materia, he optado por poner en primer plano un procedimiento particular de
muestreo estratificado polietápico que -por sus características- puede ser aplicado en una amplia
gama de situaciones de la investigación de salud y del ámbito epidemiológico. Sirve a la vez
como ilustración de este tipo de diseño, aunque se trata de un procedimiento equiprobabilístico.
En la sección 8.6.4 se bosquejan casos más generales.
L.C.Silva
Denotemos por Ah al tamaño aproximado del estrato h y por A al de toda la población (por
"tamaño aproximado", entiéndase número aproximado de unidades de análisis). Supongamos
que se ha considerado que el tamaño muestral requerido es igual a n y que se exigirá que todos
n
los sujetos tengan probabilidad de selección igual a f = . Se supone, además, que en cada
A
UPE se tomarán alrededor de n unidades de análisis y que se planifica seleccionar m de las M
UPE que integran la población. Esto quiere decir que, tal y como se hizo en el capítulo
precedente, se deben definir n, n y m de manera que n = n m 50. Cabe enfatizar, sin embargo
que, a todos los efectos prácticos, basta con que el tamaño general de muestra, el número de
UPE seleccionadas, y el número de unidades que a la postre resulten elegidas en cada UPE
seleccionada sean solo aproximadamente iguales a n , m y n respectivamente.
Antes de proceder a la selección debe corroborarse que, para toda UPE, se cumple la siguiente
A
relación: el tamaño aproximado que se le atribuya ha de hallarse entre n y
m . Es importante
advertir que el análisis del cumplimiento de esta restricción para el tamaño aproximado de las UPE
y las eventuales medidas que deben adoptarse en caso de que no se cumpla, pueden y deben
realizarse antes de dar por concluida la formación de los estratos. En la práctica, la condición
exigida suele cumplirse, sobre todo si, como es usual, las UPE son relativamente grandes y
además M es bastante mayor que m . Las acciones que deben desplegarse cuando esto no se
cumple son las mismas detalladas en la Sección 7.6. Un caso no tratado allí, que merece especial
atención y que sí se presenta con alguna frecuencia, es el que se produce cuando existe al menos
una UPE cuyo tamaño es mucho mayor que el de cualquier otra. El manejo de tal situación se
explica en la Sección 8.6.1. Una discusión más detallada sobre tamaños inadecuados puede
hallarse en Kish (1965) y Kish (1978).
Una vez configurados los estratos, debe procederse a la selección de las UPE. Este proceso es
esencialmente el mismo que el explicado en la Sección 7.3; consiste en otorgar a las UPE
probabilidades de selección proporcionales a sus tamaños aproximados.
50
Estos tres números deben responder, en rigor, a un análisis de costo-
eficiencia acerca del cual se hacen algunas consideraciones más
adelante (Sección 8.7).
L.C.Silva
1. Calcular I = A/m
2. Formar una tabla dentro de cada estrato en la que se ordenen las UPE y calcular los
tamaños aproximados acumulados.
Por ejemplo, supongamos que se quiere hacer un control de calidad en las historias clínicas de
individuos que ingresan debido a una intoxicación en los hospitales de cierta región. En la región
hay L = 5 provincias (estratos) que abarcan M = 65 hospitales (UPE). En calidad de
aproximación se decidió considerar el número de ese tipo de altas en el año anterior y seleccionar
m = 20 UPE en total. Como tamaño aproximado total se asumió el valor A = 2400 (es decir, que
se estima que se produjeron alrededor de 2400 ingresos por concepto de intoxicación); por lo
tanto, el intervalo de selección que ha de aplicarse es I = 2400 20 = 120 . Para seleccionar los
hospitales que quedarán en la muestra dentro de cada estrato se procede a ordenarlos y a
calcular de inmediato sus tamaños acumulados51. Para el h-ésimo estrato se escoge ahora,
aleatoriamente, un número R h entre 1 e I = 120 , y se construyen los números
R h , R h + I, R h + 2 I,..., hasta llegar al mayor número que no sobrepase el tamaño atribuido al
estrato Ah . De la manera usual (a través de los tamaños acumulados, como se explicó en la
sección 7.3) se identifican las UPE elegidas; al número de UPE que resultan seleccionadas le
llamaremos, como se había dicho, mh .
Ahora supongamos que en un estrato, por ejemplo el tercero, se tiene M 3 = 5 y A3 = 270 ; para
elegir las m3 UPE que le corresponden hay que seleccionar aleatoriamente un número R 3 entre 1
y 120. En la Tabla 8.1 se resume la información relevante sobre dicho estrato y sobre las
alternativas de selección de UPE en el mismo.
Tabla 8.1 Listado de hospitales en un estrato hipotético con sus tamaños aproximados
y los arranques aleatorios que determinarían su elección.
51
Puede ser conveniente buscar un índice que refleje de algún modo la
eficiencia de la gestión hospitalaria (sobre el supuesto de que podría
estar asociada a la calidad de las historias) como pauta para
establecer ese orden. Por ejemplo, se podría elegir el tiempo medio
de estancia hospitalaria durante el año anterior y ordenar los
hospitales de menor a mayor según el valor de dicho tiempo medio.
Actuando de ese modo, se asegurará que la muestra de UPE "recorra"
todo el espectro de valores inherentes al índice escogido.
L.C.Silva
Hospital(UPE) A (4.2) B(6.3) C (6.4) D (8.2) E (9.8)
Tamaño 20 40 60 70 80
aproximado
Tamaño 20 60 120 190 270
aproximado
acumulado
Arranques 1-20 21-60 61-120 1-70 1 - 30 71 -
aleatorio que 120
determinan la
elección de
cada UPE
NOTA: El número entre paréntesis es el número medio de días de estancia en cada hospital
Nótese que en el diseño que se está sugiriendo, el número m3 de UPE seleccionadas es aleato-
rio; por ejemplo, si el R3 que resulte elegido es un número que se halla entre 1 y 20, entonces se
seleccionan 3 UPE: A, D y E; pero si fuese, digamos, R 3 = 65 entonces resultarán elegidos solo
dos hospitales: C y E. Resumiendo, en este ejemplo se tiene que m3 = 2 si R 3 está entre 31 y
120, pero m3 = 3 si R 3 resulta estar entre 1 y 30.
Para completar la muestra de manera que toda unidad de análisis tenga probabilidad de inclusión
n
igual a f= A , basta subseleccionar las unidades -dentro de cada UPE elegida- con fracción de
muestreo igual a la razón entre n y el tamaño aproximado que se haya atribuido desde el
comienzo a dicha UPE.
Ahora bien, el proceso de subseleccionar con dicha probabilidad entre los sujetos que integran la
UPE en cuestión puede llevarse adelante de diversas maneras. Si las UPE no son muy grandes,
puede actuarse como en el caso explicado en la Sección 7.3 (cuando no se estratificaba); o sea:
subseleccionar directamente sobre el listado de los elementos existentes en el listado a través de
muestreo sistemático en fases, o mediante un MSA un tamaño de muestra establecido, de suerte
que se cumpla forzosamente la demanda probabilística inicial.
Sin embargo, la obtención de listados dentro de las UPE seleccionadas puede ser en extremo
dificultosa o simplemente prohibitiva. Por ejemplo, si se tratase de una encuesta nacional de
fecundidad en la que se hubiesen seleccionado, digamos, m = 52 municipios de las provincias
(estratos) del país, entonces habría que encarar la onerosa (acaso irrealizable) tarea de obtener
los listados de mujeres de 15 a 49 años en cada uno de los 52 municipios.
Cualquiera que sea el método de subselección dentro de la i-ésima UPE del estrato h, se obtendrá
un cierto número de unidades de análisis que provienen de dicha UPE; a ese número se le
denotará por x hi . También usaremos las notaciones:
mh L
xh = xhi x= x h
i=1 h=1
r=
y
x
8.1
52
Notar que este método lleva el procedimiento a tres etapas de
selección.
L.C.Silva
mh
Vh = 1
m h -1
m h - x
x 2hi 2
h
i=1
mh
Wh = 1
m h -1
m
h
x hi y hi - x h y h
i=1
La fórmula [8.2] es una aproximación cuya validez se subordina a que se cumpla la siguiente
condición:
L
(1 - f) V
h=1
h < (0.2)x 8.3
Yˆ =
y
8.4
f
cuya varianza puede estimarse mediante:
1 L
var(Yˆ) = Uh 8.5
f 2 h=1
L.C.Silva
A continuación, se ilustran los procedimientos explicados en las Secciones 8.2 y 8.3 mediante la
exposición detallada de un minúsculo estudio transversal de la población adulta de una pequeña
comunidad con el fin de examinar su situación estomatológica. Imaginemos que, entre otros, se
quiere estimar tres parámetros:
Supondremos que el área cuenta con 5 sectores y abarca en total 38 manzanas. Se quiere que la
muestra involucre a los 5 sectores con el fin de asegurar alguna representatividad adicional, y se
dispone de los datos sobre el número aproximado de adultos en cada una de las manzanas, tal y
como se registra en el Tabla 8.1.
A
2 500 390 430 200 340
NOTA:El símbolo --- denota que las manzanas así marcadas no existen en los sectores
respectivos.
Se decide entonces seleccionar una muestra equiprobabilística estratificada bietápica tomando los
sectores como estratos ( L = 5 ) y las manzanas como UPE. La Tabla 8.1 permite ver que
M 1 = 7, M 2 = 9 , etc. Se ha decidido tomar alrededor de m = 15 manzanas para elegir finalmente
unos n = 630 adultos. De modo que se fija æ = 42 , resultado de dividir n entre m .
Es fácil constatar que A = 13.740 , de modo que f = n = 630 = 0,046 ; puesto que m = 15 , el
A 13.740
intervalo resulta ser I = A = 13.740 = 916 . También puede constatarse que los tamaños
m 15
aproximados de las 38 UPE cumplen con la restricción de estar entre æ = 42 e I = 916 .
Hay que elegir un número aleatorio entre 1 y 916 para cada uno de los 5 estratos. Supongamos
que éstos fueron respectivamente los siguientes:
R1 = 23 R 2 = 345 R 3 = 105 R 4 = 701 R 5 = 456
L.C.Silva
Al aplicar la regla de selección basada en los tamaños aproximados dentro de cada sector,
resultan elegidas las manzanas cuyas celdas aparecen ocupadas con números en la tabla 8.2 y,
por lo tanto, quedan fuera de la muestra las restantes (marcadas con tres asteriscos en el
cuadro)53. En esa tabla aparecen los verdaderos tamaños para dichas manzanas (es decir, el
número real de unidades de análisis que integraban los listados conformados a posteriori para los
conglomerados elegidos):
m1 = 3 m2 = 4 m3 = 3 m4 = 2 m5 = 4
53
El lector puede corroborarlo formando los acumulados; es decir,
sumando sucesivamente 916 al arranque correspondiente a cada estrato y
aplicando la regla de selección explicada en la Sección 7.3.
L.C.Silva
Para hacer la selección dentro de cada UPE, primero se computó la fracción de muestreo que en
cada caso correspondía aplicar: se dividió n entre el tamaño aproximado del conglomerado en
cuestión. Por ejemplo, para la tercera UPE elegida en el segundo estrato, se calculó: 45042
= 0.09 .
A partir de la Tabla 4.2 se determinó el procedimiento sistemático que procedía aplicar (MSF). En
la UPE mencionada, por ejemplo, se tomó (del verdadero listado de 440 adultos) por muestreo sis-
temático uno de cada 10 sujetos y, finalmente, se eliminó uno de cada 10 de los 44 así elegidos.
La muestra en este conglomerado resultó ser de 40 sujetos.
En la Tabla 8.3 aparecen los tamaños de muestra resultantes después de esta operación en cada
una de las 16 UPE seleccionadas.
1 42 45 37 *** 42
3 43 *** 38 44 43
6 42 40 43 *** 42
Se ve ahora que x11 = 42, x12 = 43, x13 = 42, x21 = 45 , etc. y se puede corroborar que los tamaños
muestrales por estratos fueron:
x1 = 127 x2 = 172 x 3 = 118 x 4 = 87 x 5 = 169
L.C.Silva
así como que el tamaño de muestra final fue x = 673 . Con esta información ya se puede
corroborar fácilmente que se cumple ampliamente la condición [8.3].
Los resultados de la encuesta en cuanto a las dos variables relevantes (tener problemas de salud
bucal que exigen atención y número de caries) se resumen en la Tabla 8.4. Allí se recogen los
valores de cada UPE de la muestra, necesarios para hacer las estimaciones: número de sujetos
con necesidad de atención ( y hi ) y número de caries acumulados por los sujetos encuestados
( y hi ). Este último aparece entre paréntesis.
Los resultados de este último cuadro reflejan que, por ejemplo, y 52 = 39 ; es decir, 39 de los 43
elementos examinados en la segunda UPE del quinto estrato necesitaban atención, y entre dichos
43 sujetos habían acumulado y 52 = 33 caries54.
Se puede apreciar, finalmente, que los totales de adultos enfermos por estratos fueron:
1 - f L e =p(1.96)
y 216L
var(p) = 0,045 L
= 0,00052
var(p) =
U h=+ xp 2= 673
=V 0,321
h - 2p W h
x2 h = 1 h=1 h=1
con lo cual se calcula el intervalo de confianza, que en términos de porcentajes es: [27,6-36,6].
1 L Ŷ = y = 216 = 4.696
var(y) = U h = 24.891 e = (1,96) var(Yˆ) = 309
f 2h=1 f 0,046
y 258
eL =r(1,96) L
var(r) L
= 0,085
var(r) = 1x- 2f U =h + r=2 =
Vh -
0,383
2r Wh = 0,00190
h=1 x h673
=1 h=1
L.C.Silva
Con esos datos se puede construir, finalmente, el intervalo de confianza: [0,298-0,468]
Siendo el diseño más complejo, es por consecuencia el más versátil. A continuación se explican
algunos aspectos particulares de interés básicamente práctico.
Procede ahora considerar una situación especial: la que se produce cuando una UPE es
extraordinariamente grande respecto de las restantes. En tal caso, el tratamiento es diferente: esa
unidad se convierte por sí misma en un nuevo estrato independiente, también llamado unidad
autorrepresentada. Con cada UPE autorrepresentada se procede en lo sucesivo como con los
restantes estratos. Para ello esta UPE devenida en estrato debe dividirse en subconjuntos que
harán las veces de conglomerados, parte de los cuales se seleccionan en una primera etapa para
ser luego submuestreados. Esto quiere decir que deben crearse especialmente conglomerados
que posteriormente desempeñarán exactamente el mismo papel que las UPE en los estratos
comunes.
El primer y mas notable caso particular, valorado por Kish (1965) como "la clave más importante
en el diseño contemporáneo de encuestas por muestreo"55 consiste en seleccionar exactamente
mh = 2 UPE en cada estrato. Este método se identifica con el nombre de selección pareada de
unidades primarias.
55
Esta afirmación, que data de hace 35 años, resulta en la actualidad
exagerada, pues el advenimiento de las PC ha abierto posibilidades
computacionales entonces inalcanzables.
L.C.Silva
Para su desarrollo es necesario hacer algunos ajustes previos. Si se ha planificado seleccionar
m UPE, hay que crear L = m estratos. Esto debe hacerse de manera tal que los Ah sean iguales
2
para todos los estratos; o sea, hay que forzar las cosas de manera tal que Ah = A = 2A , lo cual se
L m
logra mediante la “manipulación” oportuna de los tamaños aproximados de las unidades de
primera etapa y con una definición adecuada de los estratos.
Ocasionalmente, además de disminuir o aumentar los tamaños aproximados, hay que dividir o
unir diferentes UPE. Un ejemplo detallado de ese proceso puede encontrarse en Silva y
Barreras(1983), donde se exponen algunos resultados de una encuesta nacional basada en
este tipo de diseño.
Una vez establecida la configuración en estratos con las restricciones arriba mencionadas, se
sigue exactamente el procedimiento explicado en la sección anterior. Las fórmulas de estimación
adoptan en este caso expresiones muy simplificadas: U h ,V h y W h pasan a ser:
1 2 2
U h = ( yh - yh )
2
V h = ( x h1 - x h 2 )
1 2
W h = ( x h1 - x h 2 )( y h - y h )
L.C.Silva
Un aspecto hasta ahora escasamente tratado en el presente texto y que merece especial atención
concierne a las estimaciones que se restringen a una parte de la población. Con extrema
frecuencia se presenta la situación siguiente: se proyecta una encuesta para estimar un conjunto
de datos poblacionales, pero se tiene tanto o más interés en conocer estos mismos datos para
ciertos subconjuntos o clases de dicha población. Por ejemplo, una encuesta nacional puede
tener entre sus objetivos básicos la estimación de los niveles de fecundidad en todo el país, pero
típicamente también interesará realizar dicha estimación según grupos de edad, según sectores
económicos, según tipos de ocupación o número de hijos de la mujer (la mal llamada "paridad"),
para cada estado civil, etc.
Casi sin excepción estas clases (por ejemplo: mujeres entre 25 y 30 años, mujeres casadas o
amas de casa), aparecen representadas en todas las UPE y todos los estratos; de ahí que se les
llame cross-clases (clases que "atraviesan" los conglomerados y los estratos, en lugar de
concentrarse en solo algunos de ellos).
Cabe preguntarse cómo proceder en caso de que se quiera estimar -por ejemplo- una media o
una proporción dentro de una cross- clase. La respuesta es sencilla: como consecuencia del
carácter equiprobabilístico de la muestra, aquellos elementos de la muestra que pertenecen a
cierta cross-clase constituyen una muestra equiprobabilística de la subpoblación definida por las
mismas restricciones que definen dicha cross-clase. Por ejemplo, las mujeres casadas de la
muestra constituyen una muestra equiprobabilística de la subpoblación integrada solo por mujeres
casadas. Y tanto la estructura como las propiedades del diseño son "heredadas" por estos
subconjuntos. Esto quiere decir que todas las fórmulas desde [8.1] hasta [8.5]56 pueden ser
utilizadas en este caso, con una única precaución: x hi representa ahora al número de elementos
encuestados en la i-ésima UPE del i-ésimo estrato que pertenezcan a la cross-clase y y hi es el
total acumulado de la variable por esos xhi sujetos. Al igual que en los diseños anteriores, puede
medirse el efecto de diseño ( deff ) para la estimación dentro de la cross-clase.
El diseño explicado en las Secciones 8.2 y 8.3 tenía una forma muy particular. Sin embargo, bien
puede ocurrir que, por decisión expresa del muestrista o por razones ajenas al investigador, se
haya adoptado un MEP en que los tamaños muestrales y los procedimientos de selección no
hayan seguido ningún patrón específico (en particular, que no sea equiprobabilístico).
Imaginemos que estamos ante la situación ya discutida en la Sección 8.4. Como se recordará, el
área constaba de 5 sectores (estratos) y abarcaba en total 38 manzanas.
56
Este resultado es válido, naturalmente, también para el caso
particular en que no se emplea estratificación, desarrollado en el
Capítulo 7
L.C.Silva
Ahora supongamos que se eligieron las manzanas dentro de cada sector mediante muestreo
simple aleatorio y que se decidió hacerlo del modo siguiente:
m1 = 2 m2 = 3 m3 = 2 m4 = 4 m5 = 2
L.C.Silva
Supongamos que los conglomerados así elegidos fueron los que refleja la Tabla 8.5, el cual
también refleja las probabilidades que les correspondieron a estas UPE en la primera etapa.
Probabilidad 2 3 2 4 2
7 9 8 6 8
Manzanas 2,5 2,3,5 7,8 1,3,5,6 2,6
Elegidas
Una vez en terreno se tomaron muestras sistemáticas de sujetos con el intervalo I = 5 (es decir
f 2 = 0,2 ) en todas y cada una de las 13 UPE seleccionadas. Siendo así, los tamaños de las UPE
y los tamaños muestrales correspondientes fueron los que refleja la Tabla 8.6.
Tabla 8.6 Tamaños de las manzanas elegidas y de los tamaños muestrales resultantes
tras la selección sistemática
Manzana Sector1 Sector2 Sector3 Sector4 Sector5
La Tabla 8.7 recoge los resultados de la encuesta realizada sobre este muestra (número de
sujetos con necesidad de atención estomatológica)
2 21 64 *** *** 65
5 12 83 *** 7 ***
Las probabilidades de selección que tuvieron en este ejemplo todos los elementos de la muestra
son las que se reflejan en la Tabla 8.8.
1 21 2 31 3 21 2 41 4 21 2
= = = = =
7 5 35 9 5 45 9 5 45 6 5 30 8 5 40
2 21 2 31 3 21 2 41 4 21 2
= = = = =
7 5 35 9 5 45 9 5 45 6 5 30 8 5 40
3 - 31 3 - 41 4 -
= =
9 5 45 6 5 30
4 - - - 41 4 -
=
6 5 30
Consecuentemente, las ponderaciones que deben emplearse son las que se recogen en la Tabla
8.9:
3 - 15,0 - 7,5 -
4 - - - 7,5 -
Si llamamos y hij al valor de la variable Y para el sujeto j de la unidad de primera etapa i-ésima en
el estrato h, y whij a la ponderación que corresponde a ese valor (usualmente el inverso de la
probabilidad de selección que correspondió a ese sujeto), se definen:
y =w y
hij
y x = w donde j recorre los sujetos de esa unidad de primera etapa y ese
hi hij hi hij
j j
estrato.
El lector puede corroborar que, aplicadas tales fórmulas, se obtiene: r = 0.436 var(r) = 0,0425 ,
así como que el intervalo de confianza al 95% es 0,352 - 0,519 .
Puede comprobarse, adicionalmente, que si se tratan los datos como si procedieran de un MSA,
tendríamos: r = 0.400 y Var(r) = 0,1642 de modo que la estimación de DEFF sería
2
0,0425
deff = = 6,7 .
0,0164
Suponiendo que se ha identificado un parámetro como el más importante del estudio en los
diseños multietápicos (involucren o no estratificación), el "discurso oficial" del muestreo plantea
que ha de comenzarse por calcular el tamaño de muestra correspondiente a la estimación de ese
parámetro bajo la suposición de que se usa MSA; llamemos n s a ese número. Para compensar el
hecho de que se trata de un "diseño complejo", usualmente afectado por un efecto debido a la
conglomeración, n s debe ser aumentado. Lo que se hace es multiplicarlo por el DEFF
correspondiente al diseño en juego. Naturalmente, no es fácil hallar una estimación adecuada de
DEFF para ese parámetro "más importante". En la práctica se asume que DEFF se halla entre
1.5 y 3.0: si se piensa que los individuos de una misma UPE son muy parecidos entre sí respecto
de lo que se investiga, se toma DEFF más próximo a 3; de lo contrario, se elige uno un valor
más bien próximo a 1.5 (se aumenta el tamaño correspondiente a un MSA en alrededor de 3
veces y en un 50 %, respectivamente).
Puesto que a veces es difícil identificar un parámetro como el más importante, se ha sugerido que
este procedimiento se aplique para los 3 ó 4 parámetros que se consideren más relevantes y,
finalmente, tomar como tamaño definitivo un valor que se halle dentro del recorrido de las
magnitudes así obtenidas.
Resulta conveniente que el número que finalmente se establezca para n sea un múltiplo del n
que se haya planificado. Con el fin de determinar el número m de UPE que se debe seleccionar
se trabaja con este tamaño total n "redondeado".
En Hansen, Hurwitz y Madow (1953) se sugiere que m esté aproximadamente entre 15 y 50. No
n
obstante, tal regla debe ser observada con espíritu flexible, de manera que si æ resultase igual,
digamos, a m = 10 o a m = 56 , no necesariamente tendría que desecharse dicho resultado. En
rigor, el elemento determinante es el análisis de recursos a que deben someterse los números
m, n y n. .
En la determinación de n hay que tener en cuenta el significado práctico que tiene tal número de
unidades en una UPE. Por ejemplo, quizás se quiere que los interrogatorios en cada UPE sean
concluidos a lo largo de un solo día, con el fin de movilizar una sola vez al equipo de
encuestadores hacia el sitio en que se ubica dicha UPE. Si se sabe que, en un mismo día, pueden
realizarse 20 pero no 30 encuestas, podría decidirse que n fuera igual a 20, 40 u otro múltiplo de
20.
Como se puede apreciar tras la lectura de la presente Sección, el espíritu con que se sugiere
enfrentar el problema de decidir los tamaños de muestra dentro de las diferentes etapas del
diseño es abiertamente flexible. Se dan algunas ideas y pautas generales, pero al final tal proceso
quedará redondeado por el sentido común. Las numerosas formulaciones matemáticas que se
han sugerido para resolver este problema (véase el libro clásico de Hansen, Hurwitz y Madow,
1953) son muy interesantes para los estadístico-matemáticos pero han demostrado ser estériles
para los investigadores aplicados.
Esta técnica de muestreo, que data de la década del 40 y que fue defendida con especial
entusiasmo por Deming (1960), procura simplificar el conflictivo proceso de estimación de los
errores de muestreo. La idea básica consiste en seleccionar varias muestras independientes
(también llamadas muestras interpenetrantes), todas con el mismo diseño y cada una de las
cuales pudiera por sí misma ser fuente de estimaciones. Mediante el uso combinado de la
información procedente de todas ellas se pueden obtener, efectivamente, estimadores sumamente
simples de los errores, lo cual es especialmente atractivo cuando se trata de estadígrafos
complejos tales como coeficientes de regresión o de concordancia, no considerados en este libro.
El procedimiento demanda que se seleccionen k muestras independientes, cada una resultante
de un diseño que puede tener toda la complejidad que se quiera.
( ˆ j
- ˆ M )2
var( ˆ M ) = j=1
.
k(k - 1)
Fuertemente emparentados con este método de las replicaciones reiteradas, se hallan los
procedimientos conocidos como jackknife más recientemente, los métodos de remuestreo
conocidos como bootstrap (Efron, 1982); exposiciones adecuadas pueden hallarse en Rust
(1985) y Rao y col. (1986). Todos estos métodos tienen en común que remuestrean de las
mismas unidades previamente seleccionadas y producen errores de muestreo que son
aproximadamente iguales entre sí (Kish y Frankel, 1974).
Como se discutió en la Sección 2.3, las investigaciones son a veces de naturaleza tal que los
encuestados tienden a negarse a responder o, peor aun, deciden distorsionar la verdad. Esto
resulta especialmente verosímil cuando se trata de indagaciones de índole muy personal, o que
involucran rasgos embarazosos tales como ciertas prácticas sexuales, conductas socialmente
censuradas o prácticas ilegales.
L.C.Silva
En una situación en que las preguntas formuladas sean de naturaleza altamente comprometedora
sería iluso esperar que las respuestas fuesen veraces y, por tanto, poco riguroso sacar conclu-
siones globales de tal información, salvo que se hayan adoptado precauciones metodológicas
especiales. El recurso convencional consiste en comprometerse a conservar el anonimato, pero
así no siempre se consigue disipar las posibles suspicacias de los encuestados.
Con el fin de mitigar estos efectos, Warner (1965) ideó un muy ingenioso procedimiento de
interrogatorio basado en la estrategia de que el interrogado "inyecte" cierto error a su respuesta
mediante un recurso regido por el azar. La idea central consiste en que el interrogado realice un
experimento aleatorio (tal como lanzar un dado) y, sin revelar el resultado obtenido, dé una
información que dependa, según cierta regla predeterminada, tanto de tal resultado como de su
verdadera situación ante la cuestión indagada. Así, el encuestador nunca conocerá la situación
que realmente corresponde al individuo; pero el estadístico, usando los datos recogidos y las leyes
probabilísticas que rigen el experimento, podrá obtener datos globales correctos sobre la
población.
En 1973 se realizó una encuesta de fecundidad (véase Krotki y Mc Daniel, 1975) en Alberta,
Canadá, sitio donde el aborto provocado era en aquel momento ilegal, salvo que mediaran
razones terapéuticas. Entre otras, se formulaban las siguientes dos preguntas:
Es fácil advertir el carácter altamente sensitivo de la primera pregunta en aquel medio, así como
que la segunda carece, en principio, de carácter embarazoso y, por ende, de todo efecto
inhibitorio.
Se seleccionaron tres muestras independientes, de 327, 269 y 342 mujeres en edad fértil
respectivamente. Con cada una de ellas se siguieron sendos procedimientos, diferentes entre sí;
para comenzar, expondremos cómo se procedió con las dos primeras.
La primera se abordó, sin más, a través del interrogatorio directo; a las integrantes de la segunda
se les indicó enviar su respuesta por correo sin consignar el remitente (encuesta anónima). Se
procuraba eliminar así, en este segundo grupo, las razones para la distorsión que verosímilmente
aquejarían al primero.
Hasta aquí todo parece lógico pero, por su carácter oficial, se conocía el número de abortos de
índole terapéutica (y por tanto, legales): ¡fueron 4040 en el período! Ello revela que incluso la
encuesta anónima padeció de un apreciable subregistro, ya que el número de abortos
terapéuticos no puede ser mayor que la totalidad de interrupciones57 (terapéuticas e ilegales).
Con esto se ilustra convincentemente la inoperancia que puede aquejar a una encuesta anónima
como recurso para evitar el posible temor que genera el interrogatorio en virtud de que pudieran
divulgarse sus respuestas.
Este problema venía planteando un desafío a los estadísticos: ¿cómo obtener conclusiones
confiables sin dejar de conseguir que cada interrogado sepa (no que crea ni que confíe, sino que
sepa) que no es posible establecer su situación respecto de la condición embarazosa? La
solución encontrada fue la que se aplicó a la tercera muestra en el estudio canadiense. Se trata de
una expresión sencilla del llamado método de respuesta aleatorizada, elegida entre numerosos
procedimientos concebidos bajo el mismo principio.
En un cartón se dibuja un círculo que se divide en dos secciones dentro de las cuales aparecen
afirmaciones complementarias de la manera indicada en la Figura 9.1.
La parte más pequeña abarca la cuarta parte del área total del círculo. Fija al centro del círculo
hay una saeta metálica que, tras un impulso inicial de la persona interrogada, gira libremente.
Cada mujer debe encarar aquella de las dos afirmaciones que resulte señalada por la flecha al
detenerse. En dependencia de su situación real, declara si es "verdadera" o "falsa" la afirmación
seleccionada por el mecanismo; el encuestador simplemente anota esta respuesta (verdadero o
falso), sin conocer, naturalmente, a qué afirmación corresponde.
Una vez interrogadas n mujeres, se conocerá el número a de las que contestaron "verdadero".
Puede suponerse que solo a una cuarta parte de las mujeres les haya correspondido evaluar la
afirmación contenida en la sección pequeña, y también, obviamente, que el resultado de cada
experimento (la región en que cae la flecha) es independiente de que la mujer se haya o no
practicado un aborto. Usando la teoría elemental de probabilidades, estas suposiciones permiten
a n-a
afirmar que + (1 - ) donde es la fracción del círculo correspondiente a la
n n
declaración afirmativa.
57
Aquí se está equiparando el número de mujeres que abortaron en un año
con el de abortos producidos en ese período, ya que el caso de una
sola mujer con dos o más interrupciones en tan breve lapso, aunque
posible, es muy poco probable.
L.C.Silva
Es fácil deducir que el porcentaje desconocido de mujeres que tuvieron un aborto se estima, en
1
este caso (donde = ), puede estimarse mediante la fórmula [9.1]:
4
ˆ =
3n - 4a
9.1
2n
L.C.Silva
Como se recordará, en la encuesta se habían tomado 3 muestras. Cada una de las 342 mujeres
de la tercera fue interrogada mediante el procedimiento descrito; a = 251 de ellas respondieron
que era verdadera la afirmación sobre la cual les tocó pronunciarse, de modo que, según [9.1], el
porcentaje de mujeres que se habían realizado abortos se estima como 3.2%. Cabe preguntarse
ahora ¿es efectivamente eficaz el procedimiento? Los porcentajes estimados con los tres métodos
de encuesta se resumen en la Tabla 9.1.
Por otra parte, las estimaciones de los totales para los diferentes tipos de abortos se resumen en
la Tabla 9.2.
Tabla 9.2 Número estimado del total de abortos según método de encuesta
Método de interrogatorio
Las cifras son sumamente elocuentes: según se aprecia en la Tabla 9.1, cuando se emplea
respuesta aleatorizada, el porcentaje de abortadoras (pregunta comprometedora) se multiplica
por 10, en tanto que el de casadas (pregunta inocua) no exhibe prácticamente variación alguna.
Por otra parte, la Tabla 9.2 muestra que, mientras los dos procedimientos convencionales
arrojaron conclusiones disparatadas (el total de abortos ilegales era negativo), la técnica de
respuesta aleatorizada consiguió arrancar una estimación enteramente razonable de dicho
número.
L.C.Silva
Numerosos procedimientos similares al que se ha explicado (en los que se involucran artilugios
tales como cartas, dados o monedas) fueron creados para encarar problemas como éste. Uno
más simple que el de Warner consiste en solicitar que se lance una moneda y pedir al sujeto
que, si sale cara, responda a la pregunta: "¿Ha tenido Ud. un aborto?>> en tanto que, si el
resultado es escudo, responda SI. En este caso es fácil ver que la estimación de mujeres que
abortaron se estimaría mediante: Pˆ = 2 p s - 1 , donde p s representa la fracción de mujeres
encuestadas que respondieron SI.
Más tarde, se crearon incluso procedimientos para estimar promedios, como muestra el
siguiente ejemplo de Dalenius y Vitale (1974), quienes adecuaron el procedimiento de Warner
para estimar la media de una variable cuantitativa "conflictiva", tal como la edad de la primeras
relaciones sexuales ( X ).
Se parte de que X puede tomar cualquiera de los 35 valores que van desde 15 a 49 años y que
se trabaja con una muestra de n mujeres que admiten haber tenido tales relaciones en el
momento de la encuesta. En un cartón se dibuja un círculo que se divide en 35 secciones iguales
que se numeran sucesivamente del 15 al 49. Fija al centro del círculo hay, como antes, una varilla
metálica que la interrogada hace girar; cuando el dispositivo se detiene, el extremo de la varilla
reposará sobre un número que, naturalmente, el encuestador no conocerá. Cada mujer se
circunscribe a decir NO en caso de que sus primeras relaciones sexuales se hayan verificado a
una edad estrictamente superior al número señalado por la saeta, y SI en caso opuesto. Puede
a
probarse que ̂ = 15 + 35 es un estimador insesgado de la media, donde a es el número de
n
mujeres que contestaron NO.
NOTA: Naturalmente, todas estas estimaciones están afectadas por cierto error. Además del
error del muestreo, en este caso está presente un componente de error debido
al efecto que produce el mecanismo aleatorio. No se examinará, sin embargo,
este problema aquí, ya que desborda el nivel del libro. Su solución puede
hallarse, por ejemplo, en Boruch y Cecil (1979).
A través de una encuesta basada en esta técnica, Zdep y Rhodes (1971) encontraron, por
ejemplo, que la estimación del porcentaje de individuos que golpean a sus hijos era cinco veces
mayor que lo que arrojó el método de respuesta anónima por correo.
L.C.Silva
En algunos países de alto desarrollo el procedimiento ha servido para mostrar que la
prevalencia de drogadicción es mucho mayor de lo que los métodos tradicionales hacían
suponer; por ejemplo, el estudio de Brown y Harding (1973) -en que se encuestaron miles de
individuos- produjo estimaciones dos veces mayores para submuestras tratadas con respuesta
aleatorizada que para otras manejadas anónimamente.
Otros estudios proporcionan resultados igualmente elocuentes; es obvio, sin embargo, que el
mero hecho de que las diferencias entre las estimaciones obtenidas con respuesta aleatorizada
y por un método convencional sean muy marcadas no constituyen prueba irrefutable de la
eficiencia del procedimiento. Los trabajos de validación realizados agregaron en su momento
algún aliento adicional a las expectativas creadas por el método. Para llevar adelante tal
validación es menester comparar los verdaderos parámetros (suponiendo, claro, que éstos
sean conocidos) tanto con las estimaciones obtenidas por conducto de la técnica novedosa
como con las que proceden de métodos tradicionales. Lamb y Stem (1978) y Tracy y Fox
(1981) obtuvieron resultados bastante estimulantes en esta línea.
La experiencia acumulada hace pensar que, en general, el nivel de confianza del sujeto
interrogado aumenta considerablemente entre los que acceden a participar; sin embargo, el
grado de participación no se ha visto sensiblemente incrementado. En efecto, los métodos es-
tadísticos pueden generar suspicacia y desconcierto entre los interrogados y -según se informa
en la literatura- su aplicación no ha producido la disminución esperada en las tasas de no
respuesta.
c) Las preguntas tratadas por respuesta aleatorizada deben aparecer al final del
cuestionario, después de las que se formulan por vías convencionales y previa explica-
ción de que se trata de un procedimiento para cuya aplicación se solicita especial
cooperación.
L.C.Silva
Las posibilidades de comunicación horizontal que actualmente ofrece Internet y el
correo electrónico abren oportunidades novedosas a la técnica que nos ocupa, ya que si
el sujeto encuestado recibe la demanda por esta vía, puede operar según se le indique
sin testigos, y el dispositivo físico (dados, ruleta, baraja o lo que sea) puede suplirse por
un recurso simulado a través de un programa que se adjunte a la propia encuesta para
que el usuario ejecute y responda en función del resultado.
Es muy fácil comprender que, basándose en los supuestos de que la población no se modifica
durante el lapso que dura el estudio y de que en ambos procesos de selección todos los anima-
les tienen igual probabilidad de selección, un estimador adecuado del tamaño poblacional es el
siguiente:
Nˆ =
nm
9.2
k
(1.300)(2.500)
N̂ = = 26.000
125
58
La "función de verosimilitud" es un recurso usualmente aplicado en Teoría de
Estimación cuya definición desborda el nivel del presente texto. La
estimación máximo verosímil es el valor que conduce al estimador más
razonable dados los datos que se poseen.
L.C.Silva
Existen diversas aplicaciones del procedimiento, cuya versión más simple se acaba de
exponer(Hook y Regal, 1995). El modelo podría emplearse, por ejemplo, para estimar el
número total de ambulancias o de coches con matrícula diplomática en una ciudad59, pero
existe una amplia experiencia de apliceciones en epidemiología, como se aprecia en el trabajo
de Hook y Regal (1995) donde se reseñan más de 60 trabajos prácticos sobre el tema. El
espectro de posibles situaciones y recursos para encararlas es florido; sin embargo, nos
concentraremos en una de las aplicaciones más señaladas en el ámbito salubrista concierne al
afán de evaluar la integridad de los sistemas de registro en salud pública, en lo que también se
conoce como sistemas duales de registro (Wells, 1971).
El más clásico fue propuesto por Chrandasekar y Deming (1949) para estimar ciertos datos
globales aprovechando las discordancias entre dos sistemas de registro independientes que
traten de obtener información sobre un mismo tipo de acontecimientos. Para estimar el número
total de tales acontecimientos, el procedimiento asume que la población de donde procede la
información es cerrada (en el mismo sentido en que lo es la población de peces) y que es
posible identificar correctamente tanto los casos que aparecen en ambos registros como los
que solo están en uno de ellos pero no en el otro.
Nˆ = n1 n2
a
59
Se trataría de anotar las matrículas de un conjunto de estos coches
mientras circulan "aleatoriamente" durante cierto lapso, y hacerlo
nuevamente unos días más tarde.
L.C.Silva
La varianza de N̂ sería:
(165)(196)(20)(55)
var(Nˆ ) = = 12.6
(141 )2 (142)
L.C.Silva
De modo que un intervalo de confianza para N sería 229.4 _ + (1.96) 12.6 ; es decir, puede
estarse razonablemente seguro de que el número de asmáticos se halla entre 222 y 236. Para
más detalles, véase Wolter (1983).
La estimación del error de este estimador es complicada por tratarse del producto de una
proporción y una razón, especialmente si los diseños empleados en ambas etapas fueron
complejos. El problema aquí esbozado está abierto, especialmente para el caso en que se
conocen la sensibilidad y la especificidad de las pruebas involucradas, datos que pudieran ser
incorporados con provecho en todo el proceso de estimación.
Los cortes transversales, por regla general, tienden a sacrificar la cobertura temporal, mientras
que los estudios longitudinales están limitados espacialmente. Los diseños matriciales para
muestrear tanto el espacio como el tiempo mediante muestras periódicas equilibradas pueden
constituir una solución integral.
Las encuestas periódicas, diseñadas para determinados períodos pueden ser promediadas
para el total del intervalo que abarcan. Con las muestras repetidas podemos estar en
condiciones de mejorar la calidad y reducir los costos; por otra parte, las muestras repetidas
pueden producir datos para construir series temporales que permitan estimar cambios y
tendencias; y, finalmente, las medias y sumas obtenidas con muestras repetidas pueden
producir resultados inferenciales mejores que los basados en muestras únicas (Kish, 1989).
Tales submuestras, con frecuencia, son objeto de rotación: se conservan las UPE iniciales (con
sus probabilidades) y en momentos sucesivos se completan las selecciones correspondientes a
etapas posteriores, contemplando para estas subselecciones las probabilidades originalmente
previstas.
Para ilustrarlo con un ejemplo muy sencillo imaginemos que en una comunidad hay 12
escuelas primarias e las que se han seleccionado 3 con probabilidades proporcionales al número
de niños, y que luego se eligieron 20 niños por escuela para completar una muestra
equiprobabilística de 60 sujetos. Supongamos que las probabilidades de selección resultaron ser
las siguientes:
Dos años más tarde, se realiza otra encuesta con la misma población: los niños de las 12
escuelas existentes. Naturalmente, los niños ya no serán los mismos, ni será igual el número
de niños por escuela, ni el número total de niños. Supongamos que en este segundo momento
se quiere una muestra equiprobabilística con f = 0.03 como probabilidad general (calculada
mediante la determinación del tamaño n deseado y del actual valor de N , o eligiendo la misma
f del estudio anterior). En tal caso, pueden usarse las mismas 3 escuelas y aplicarse entonces,
respectivamente, las siguientes fracciones de muestreo (quizás mediante muestreo sistemático en
fases): a las listas de alumnos que ahora se hallen en dichas escuelas
f 11 = 0,25 f 21 = 0,07 f 31 = 0,11
L.C.Silva
que son las necesarias para que se cumpla la condición f i f i = f .
En los últimos años se ha venido hablando con insistencia de las llamadas técnicas rápidas de
evaluación sanitaria. En un número de World Health Statistics Quarterly especialmente
destinado al tema se puede apreciar que abarcan a las técnicas de muestreo. Bennet y col
(1991) exponen lo que ellos denominan "método general simplificado de muestreo por
conglomerados" como alternativa a un procedimiento propuesto años antes por Henderson y
Sundaresan (1982), consistente en tomar 30 conglomerados y 7 sujetos en cada uno, un
diseño simplemente arbitrario.
Supongamos que se desea estimar el número total de casos de cierta enfermedad (por
ejemplo, un tipo de cáncer o de hepatitis) acaecidos en la población durante un lapso dado. El
procedimiento convencional sería interrogar una muestra de sujetos e indagar si han tenido o
no la enfermedad; pero, si la dolencia es muy poco frecuente, el tamaño muestral debería ser
muy grande.
Cuando se admite una regla de conteo múltiple como la que se describe a continuación con un
ejemplo, el método de muestreo suele denominarse muestreo en red.
Supongamos que en una escuela hay A = 600 alumnos distribuidos en varios grupos. Cada
alumno tiene cierto número de profesores. Dicho número depende del año escolar que curse y de
otros aspectos académicos inherentes al estudiante en cuestión; consecuentemente, puede diferir
de alumno a alumno. Imaginemos que el número total de docentes es 12 y que se quiere estimar
el número de alumnos X que cometieron fraude académico a lo largo del último año.
Supongamos que en total se han producido 4 casos de fraude; es evidente que la inmensa
mayoría de las muestras posibles de tamaño 50 producirían na = 0 y, por tanto, la estimación
Xˆ 1 = 0 (puede demostrarse que ello ocurrirá concretamente con el 70.5 % de las muestras).
Como ya sabemos (véase Sección 3.3), la varianza de Xˆ 1 es igual a:
na PQ a
Var( Xˆ 1 ) = A2 Var( ) = A2 (1 - )
a a A
4
Puesto que P = , tenemos:
600
600 2 4 596 50
Var( Xˆ 1 ) = (1 - ) = 43.71
50 600 600 600
Una posible solución para evitar este posible sobreregistro consiste en establecer que un
profesor solo pueda informar los casos de fraude cometidos en su asignatura. Llamemos xi al
número de alumnos identificados bajo dicha regla por el i-ésimo profesor de la muestra. Entonces,
un estimador insesgado de X sería:
n
N
Xˆ 2 =
n
x
i=1
i
12 36
Xˆ 2 = (2 + 1+ 0 + 0 + 0) = = 7.2
5 5
L.C.Silva
Imaginemos que, estructuralmente, la situación es como la que refleja la Figura 9.3. Allí
aparecen los N = 12 profesores de la escuela y los cuatro alumnos que han cometido fraude.
Las flechas una a cada uno de éstos alumnos con cada uno de sus profesores.
Esto quiere decir que el primer alumno tiene 4 profesores, el segundo tiene 3, el tercero tiene 5
y el cuarto tiene 2. Por otra parte las flechas de trazo grueso indican, para cada alumno, con
qué profesor específico se produjo el fraude.
Por otra parte, la Figura 9.3 también permite apreciar la situación de los profesores. Por
ejemplo, de ella se deduce que solo a 3 profesores se les ha cometido fraude y que para uno
de los 12 se dio la situación de que ninguno de sus alumnos cometió fraude. La situación se
resume en la Tabla 9.3
asignatura X i en alguna
asignatura
1 0 1 1
4
2 0 1 1
4
3 0 1 1
4
4 2 2 1 1
+
4 3
5 0 1 1 1
+
4 3
6 0 2 1 1
+
3 5
7 1 1 1
5
8 0 1 1
5
9 0 1 1
5
L.C.Silva
10 1 2 1 1
+
5 2
11 0 1 1
2
12 0 0 0
Nota: X *i se define más adelante.
La varianza de Xˆ 2 es:
2
n
Var( Xˆ 2 ) = N 2 S (1 - )
n N
1 N
donde S 2 = ( X i - X ) con X . Es fácil ver que, con los datos de la Tabla 9.3, se tiene
N - 1 i=1
4 1
X= = y S 2 = 0.424 , de modo que Var( Xˆ 2 ) = 2.67 .
12 3
Adviértase que en este caso Xˆ 2 será igual a cero para todas las muestras que no contengan a
los 3 profesores a los que le cometieron fraude (es decir, a los que hemos numerado 4, 7 y 10).
12
El total de muestras posibles es = 792 , y el número de las que no contienen a ninguno de
6
9
los profesores mencionados es = 126 , de modo que ahora solo el 16% de las muestras (126
5
de 792) da lugar a la estimación Xˆ 2 = 0 .
Una tercera posibilidad es admitir para la muestra de profesores el llamado "conteo múltiple":
cada profesor comunica el número de todos sus alumnos que hayan cometido fraude.
Obviamente, la probabilidad de que un alumno sea señalado es inversamente proporcional al
m
ij
número de profesores que tenga. Se define x*i =
j=i sj
para el i-ésimo profesor, donde m es el
número total de alumnos diferentes que han sido reportados, donde ij vale 1 si el profesor i
tiene entre sus alumnos al alumno j y ij = 0 en otro caso, y donde s j es el número de
profesores que tiene el alumno j . Entonces se define:
n
N
Xˆ 3 =
n
x
i=1
*
i
L.C.Silva
Así, por ejemplo, si en la muestra quedaran seleccionados los primeros 5 profesores, entonces
12 5 2
Xˆ sería igual a + = 4,2 . Adviértase que en este caso ninguna de las muestras
3
5 4 3
produciría la oberración de dar lugar a una estimación de X igual a 0.
La varianza de Xˆ 3 tiene la misma estructura que la de Xˆ 3 tiene la misma estructura que la de
2 S* n
2
1 N
ˆ
X2 : Var ˆ
X3 = N 1 - donde S
2
* =
2
X i - X . En este caso, S* = 0.4241 y
2
n N N - 1 i=1
Var( Xˆ 3 ) = 0.829 . Como se aprecia, Var( Xˆ 3 ) es mucho menor que Var( Xˆ 2 ) ; lo que revela las
ventajas de este procedimiento, especialmente útil para la estimación de totales en caso de que
las prevalencias sean muy bajas (digamos, del orden 3 % o menos). Un ejemplo de aplicación de
esta técnica puede hallarse en Sirken (1970). La teoría correspondiente a muestreo en red para
diseños más complejos que el MSA (por ejemplo, para muestreo por conglomerados) puede
hallarse en Levy (1977).
Según consigna Kish (1965), alrededor de 1957 (después de los primeros éxitos rusos en
cosmonáutica) aparecieron en Estados Unidos informaciones sobrecogedoras sobre la
enseñanza de las ciencias en este país: en la mitad de los colegios de enseñanza media no se
impartía física, la cuarta parte no enseñaba química y otra cuarta parte no enseñaba geometría.
No tardó en repararse en que, aunque los colegios con tales expresiones de retraso eran
realmente muchos, sólo abarcaban al 2 % de los estudiantes de enseñanza media.
Había muchos más colegios pequeños que grandes, pero una pequeña fracción de colegios
grandes contenía un gran porcentaje de estudiantes, a la vez que los programas de estudio que
ofrecían los colegios grandes se diferenciaban radicalmente de los pequeños. Por ello, la
presentación de las condiciones promedio de los colegios proporcionaba una imagen
tergiversada de las condiciones en que se encontraba la inmensa mayoría de los estudiantes.
Este problema se puede presentar cada vez que se emplean grupos de elementos de tamaños
muy diferentes entre sí que no sólo constituyen unidades de muestreo, sino que también
operan como unidades de observación, y ocurre cuando se observa una característica grupal
de cada unidad y se asigna tal condición a todos los elementos comprendidos dentro de las
unidades. Las posibles diferencias entre las medias simples no ponderadas de las unidades y
las medias ponderadas de los elementos son grandes, lo cual supone notables sesgos en caso
de que se emplee como recurso descriptivo la media inadecuada.
L.C.Silva
Supongamos que se tienen n unidades de tamaños N 1 , N 2 ,..., N n y una variable Y dicotómica
( Y i = 1 si la i-ésima de estas unidades tiene cierto rasgo, y Y i = 0 en caso contrario) La media
1 n
simple no ponderada para las unidades es Y = Y i , en tanto que la media ponderada es:
n i=1
n
n N Y i i
Y w = W i Y i =
i=1
donde W i =
Ni
n n
i=1
N
i=1
i N
i=1
i
Si los N i fuesen iguales entre sí, ambos estadígrafos coincidirían, pero las variaciones de tamaño
que existen en muchos de los grupos sociales que con frecuencia son sujetos de observación y de
promediación, puede ser notable. Unidades como ciudades y provincias, universidades u
hospitales, suelen tener tamaños que difieren marcadamente entre sí. Si la correlación entre el
tamaño y la variable de estudio no es desdeñable, la diferencia entre la media ponderada y la no
ponderada puede ser grande.
Para conciliar esta realidad con el afán de que las encuestas sean cortos se ha ideado un
ingenioso recurso al que denominaremos diseño con cuestionario parcial (Wacholder,
Carroll, Pee y Gail, 1994). La idea consiste en que cada encuestado responda solo a
una parte del cuestionario, a la vez que se procede de modo que cada una de sus
preguntas sea contestada, como mínimo, por un subconjunto de sujetos de la muestra. El
método en cuestión, también discutido por Williams y Ryan (1996), Raghunathan y
Grizzle (1995) y Zeger y Thomas (1997), puede bosquejarse a través del ejemplo
siguiente.
Tabla 9.4 Diseño con cuestionario parcial para tres submuestras y cuatro
bloques de preguntas con un bloque común.
B1 B2 B3 B4
S1 x x
S2 x X
S3 x x
En una situación como la descrita, la limitación básica que se presenta es que resultaría
imposible "cruzar" preguntas pertenecientes a bloques diferentes, salvo que uno de
dichos bloques sea el primero. Por ejemplo, si la condición enfermo crónico se pregunta
en el bloque B2 y la ocupación en el B4, será imposible computar tasas de prevalencia de
enfermos crónicos según ocupación. Por otra parte, las estimaciones correspondientes a
las preguntas de los bloques B2, B3, y B4 se realizan a solo una tercera parte de la
muestra, con la consecuente disminución de precisión en las estimaciones correspon-
dientes.
Una partición menos "radical" pudiera ser acorde al diseño de la Tabla 9.5:
L.C.Silva
Tabla 9.5 Diseño con cuestionario parcial para tres submuestras y cuatro
bloques de preguntas con un bloque común y una replicación
de los otros.
B1 B2 B3 B4
S1 x x x
S2 x x X
S3 x x X
En este caso, cada pregunta de los bloques 2,3, y 4 quedaría incluida en las dos terceras
partes de la muestra total y caso ya sería posible hacer cruzamientos de dos preguntas
cualesquiera de la encuesta, aunque en ellos participarían a lo sumo los dos tercios de la
muestra (si una de ellas procede de B1 y la otra no) y en muchos casos, un tercio (si una
es, por ejemplo, de B2 y la otra de B4).
Nˆ ij =
N
mij 9.5
m
donde mij es el número de personas de la muestra que son en la celda ij de la tabla de
contingencia. La varianza de este estimador se estima mediante:
N 2 m mij mij
var( Nˆ ij ) = 1 - 1- 9.6
m N m m
Una alternativa para realizar la estimación consiste en hacer uso de los resultados de la
muestra completa para la pregunta P1, además de los que arroja la submuestra:
a
Nˆ ij =
N mij
ni. 9.10
n mi.
L.C.Silva
donde ni. y mi. representan el número de personas que están en la categoría i -ésima de
la pregunta P1 para la muestra y para la submuestra respectivamente.
Var Nˆ ija =
N 2 n mij mij N 2 m ni. mij mij
1 -
n N m
1- + 1 - 1-
m m n n mi. mi.
9.11
Imaginemos que N = 400 y n = 120 . A todos los sujetos se les aplica el bloque B1.
Supongamos que B2, B3, y B4 se aplican respectivamente a submuestras disjuntas de
tamaño m = 40 . Consideremos dos preguntas dicotómicas: P1 (que pertenece a B1) y P2
(que pertenece a B2). Se desea estimar N 12 , el número de sujetos que tienen el rasgo
de interés en relación con ambas interrogantes. Supongamos que para P1 la condición
es poseída por 60 de los 120 sujetos encuestados, que para P2 la respuesta positiva fue
dada por 30 sujetos de la submuestra de 40, y que hay 20 individuos que respondieron
afirmativamente a ambas interrogantes.
(400) 40 20 20
2
var( Nˆ 12 ) = 1 - 1 - = 450.0
40 400 40 40
var Nˆ =
(400 )2 120 20 20 a 400 60
1 - 1 - Nˆ 12=+120 30 50 = 133.3
a
12
120 400 40 40
(400 )2 40 6 20 20
1 - 1 - = 413.0
40 120 120 30 30
L.C.Silva
a
La situación del ejemplo, donde Nˆ 12 tiene menor varianza (y es por ende un estimador
más preciso) que Nˆ 12 , es típica.
Como es bien conocido, virtualmente todos los desarrollos teóricos conseguidos en materia
de inferencia estadística parten del supuesto de que la muestra es simple aleatoria y
procedente de una población infinita (es decir, que los datos son independientes y provienen
de una distribución teórica dada). Sin embargo, en la práctica diaria -tanto en la clínica como
en la epidemiológica se utilizan procedimientos concebidos bajo tal supuesto de indepen-
dencia, aun cuando la muestra provenga de diseños muestrales complejos como los
explicados en capítulos precedentes.
La serie de aportes teóricos concretos destinados a ir cubriendo esa laguna entre la teoría y
una parte no despreciable de la práctica, concierne a esfuerzos para resolver problemas
tales como, por poner un ejemplo, realizar "adecuadamente" un análisis de regresión
múltiple con datos precedentes de una muestra por conglomerados bietápica.
Este asunto exhibe gran complejidad teórica (véanse Kish y Frankel, 1974; Lee, Forthofer
y Lorimor, 1989 Skinner, Holt y Smith, 1989) Lethonen y Pahkinen, 1995). Las fórmulas
aproximadas para realizar las estimaciones de parámetros simples (medias y totales) y sus
varianzas bajo diseños complejos pueden deducirse de diversos modos; los que se han
recogido en capítulos precedentes se han conseguido, básicamente, a partir de desarrollos
en series de Taylor. Las fórmulas para resolver problemas inferenciales más complejos (por
ejemplo, estimación de coeficientes de regresión o pruebas de independencia entre
variables) parten de demandas matemáticas tanto o más avanzadas, de modo que su
solución desborda ampliamente el nivel del presente material.
Ahora bien, es preciso recordar que, como se explicó en el Capítulo 1, los problemas que se
centran en la estimación son teórica y prácticamente diferentes de aquellos cuyas preguntas
demandan de la comparación. Justamente, es para los primeros que se han conseguido
soluciones más claras. Para aquellos centrados en la comparación, en cambio, el empleo de
técnicas complejas de muestreo como las discutidas en el presente libro ha recibido poca
atención.
Lo que suele hacerse en la práctica es llevar adelante el análisis asumiendo que la muestra
es simple aleatoria y prescindiendo totalmente de que se hayan usado o no diseños
complejos. Debe señalarse, sin embargo, que tal realidad dista de ser grave; y no lo es por
la sencilla razón de que la inmensa mayoría de los estudios se llevan adelante con datos que
no solo no proceden de muestras complejamente diseñadas, sino que ni siquiera
corresponden a muestras formales en sentido alguno.
Usualmente se trata de datos empíricos que procuran representar poblaciones definidas por
situaciones abstractas generales, tales como el conjunto de los pacientes hipertensos
tratados de cierto modo especificado y el de los tratados de otra forma. La exigencia de
trabajar con muestras obtenidas formalmente sería simplemente paralizante, tanto por las
dificultades prácticas que supone conseguirlo como por el hecho de que algunas de estas
poblaciones abstractas no admiten, por definición, la conformación de un listado. Y aquí,
como suele ocurrir tantas veces, es mejor colaborar con lo inevitable. (véanse comentarios
adicionales en la Sección 10.4 y, una amplia discusión de este tema en la Sección 12.3).
En 1965, Sir Austin Bradford Hill pronuncia su famoso y trascendente discurso ante la
Sección de Medicina Ocupacional de la Royal Society of Medicine. Los criterios allí
expuestos aportan bases teóricas universalmente reconocidas y por su utilidad para el
examen de las relaciones de causalidad en medicina y, especialmente, en epidemiología.
Hill (1992) enumera nueve pautas que han de considerarse en estudios epidemiológicos y
cuya corroboración incrementaría la convicción de que cierta relación observada es de
naturaleza causal.
Se parte de que se ha observado una asociación claramente definida entre dos fenómenos
dinámicos, representados por medio de sendas variables X e Y, y que se ha descartado la
posibilidad de que dicha asociación sea exclusivamente atribuible al azar60. La asociación
registrada entre una variable X y otra Y puede deberse, además de al azar, a la presencia de
errores sistemáticos en la medición (sesgos) o a la distorsión introducida por los llamados
factores de confusión61.
Los nueve rasgos de tal asociación que este autor identifica como elementos que aumentan
su valor en tanto indicio de causalidad, son: intensidad, consistencia, especificidad, gradiente
dosis-respuesta, coherencia, fundamento experimental, analogía y adecuada secuencia
temporal. El papel de las primeras ocho pautas es, precisamente, consolidar la idea de que
no resulta aceptable ninguna de aquellas tres posibles explicaciones (azar, sesgos,
confusión). En tal caso solo quedan, formalmente, dos alternativas: X es causa de Y, o Y es
causa de X. Para poder inclinarnos por una de ellas, hay que atender a la precedencia
temporal que guarden los datos, la última de las premisas de Hill. Nos concentraremos
entonces en ella, la única que nada tiene que ver con aspectos teóricos. Es la más obvia, la
menos discutible (ya que es condición sine qua non) y, quizás por eso mismo,
lamentablemente, una de las menos contempladas.
Más formalmente, se trata de la pauta basada en que la acción de un agente causal siempre
precede al efecto: "Para que una modificación en cierta condición X pueda considerarse
responsable de los cambios que se producen en otra condición Y, es imprescindible que X
haya actuado antes de que Y se haya modificado". Toda hipótesis de causalidad involucra a
un efecto y a una presunta causa; lo que plantea dicho postulado (y esto es lo relevante) es
que, para considerar empíricamente avalado el hecho de que la supuesta causa produce tal
efecto, los acontecimientos han de haberse observado de suerte que haya certeza acerca de
que la precedencia temporal con que se generaron los datos sea compatible con la
afirmación causal que se valora.
60
Ese es -exacta y únicamente- el papel que desempeñan las
pruebas de hipótesis: si la asociación es significativamente
diferente de 0, entonces puede afirmarse con escaso margen de
error que la relación entre X y Y no se ha observado por mera
casualidad.
61
Variables que se relacionan tanto con X con Y y cumplen la condición
de no ser un estadio intermedio en la secuencia causal entre
la exposición y el efecto.
L.C.Silva
Subrayo nuevamente que en este caso no nos referimos a una condición cuyo cumplimiento
aumente la convicción de que la hipótesis sea cierta; es mucho más que eso: se trata de una
premisa metodológicamente imprescindible. Tal condición, a la que denominaremos premisa
de precedencia temporal (PPT), está directamente vinculada al diseño del estudio, ya que es
éste el que puede (y debe) garantizar la validez de aquella.
Los estudios prospectivos, en los cuales, como su nombre indica, los hechos supuestamente
se miden o registran en el mismo orden temporal en que se producen, se prestan a menos
suspicacias en cuanto a que se haya cumplido o no la PPT. De hecho, en el caso particular
de los estudios experimentales no existe siquiera este peligro; en los observacionales de
cohorte, dado que la observación comienza cuando aún no se han producido los desenlaces
que se están considerando, tal riesgo está casi siempre conjurado62 por el propio diseño.
La problemática tratada en la sección precedente desde la perspectiva que nos interesa, nos
lleva a la constatación de que, ante la tentación natural de calcular asociaciones entre
variables, en el caso de los estudios considerados "transversales", coexisten tres puntos de
vista:
(c) admitir que, si bien tales estudios no permiten sacar conclusiones causales,
consienten al menos la medición de asociaciones como un recurso que se emplea
sin más pretensiones que complementar o enriquecer la descripción
62
El asunto es suficientemente insidioso como para que, incluso en
tal caso, pueda producirse, el problema (véase Silva, 1997)
L.C.Silva
En el primero de esos dos casos, la "prohibición" que suele esgrimirse es la siguiente: siendo
el estudio transversal, ¿cómo puede soslayarse un principio como el de la PPT (véase
Sección 10.2.1), que tal tipo de estudios es intrínsecamente incapaz de garantizar?
Lo crucial ahora es distinguir nítidamente entre dos conceptos que suelen manejarse como
si fueran idénticos aunque distan de serlo: investigación descriptiva e investigación
transversal. Mientras la primera clasificación alude al propósito del estudio, la segunda
concierne al marco metodológico en que se verifica. La confusión se ha originado en la
ambivalencia del adjetivo "transversal", el cual tiene dos acepciones radicalmente diferentes:
por una parte, sirve para indicar que los datos se toman temporalmente en un único "corte"
indagatorio (por oposición a aquellos en que los datos se van recopilando en la medida que
acaecen los hechos de los que proceden); y por otra, para aludir al hecho de que la
información concierne a lo que está ocurriendo ahora (lo que rige en el momento en que se
verifica el interrogatorio o la medición).
Veremos más abajo que si lo que se ha hecho es estrictamente esto último, la estimación de
medidas de asociación nunca tiene sentido claro; cuando el estudio es "transversal" en el
sentido de la primera acepción, sin embargo, sí puede tenerlo.
Para fijar ideas imaginemos que se valora el posible efecto del consumo de golosinas sobre
la obesidad infantil; o sea, que se quiere cuantificar en qué grado ese consumo constituye un
factor de riesgo (concepto que, dicho sea de paso, en su sentido epidemiológico ha dado
lugar a una vasta producción teórica y práctica, pero también a no pocas confusiones y
falacias63; véanse Silva, 1997b y García, 1999).
63
Piédrola et al (1990) definen un factor de riesgo como aquel
"factor endógeno o exógeno, que puede ser controlado, precede al
comienzo de la enfermedad, está asociado a un incremento de la
probabilidad de incidencia de una enfermedad y tiene respon-
sabilidad en su producción".
L.C.Silva
Supongamos que se realiza un estudio con ese fin en 1999 y que se interroga a todos los
niños de una muestra (tanto a quienes en el momento de la encuesta padecen de obesidad
como a los que en dicho momento están libres de la dolencia); y supongamos que se
recogen ciertos datos, tales como si en la actualidad consumen regularmente golosinas, o si
practican ejercicios. Estos datos pueden ser útiles para estimar la prevalencia de obesidad o
el monto en que se consumen golosinas, pero no permiten evaluar el posible efecto causal,
por ejemplo, del consumo de golosinas sobre el desarrollo de la enfermedad, pues lo que
realmente interesaría conocer no ha sido registrado. Si el sujeto las consume en estos
momentos carece de todo interés; lo que verdaderamente importa es si lo hacía o no antes
de cierto momento para el cual se sabe (o se puede legítimamente suponer) que ninguno de
los interrogados tenía la enfermedad. Si durante la entrevista se pregunta a obesos y a no
obesos si comían regularmente chocolates en 1994 (cinco años antes) y se eliminan del
análisis a aquellos individuos que eran obesos en aquella época, entonces sí podría hacerse
dicha valoración, independientemente de que el estudio sea "transversal". De hecho, a los
efectos que interesan, no lo es.
Un ejemplo como el que sigue ilustra situaciones frecuentes de este tipo. Consideremos las
variables insatisfacción laboral y estrés, y contemplemos el planteamiento de una pregunta
tal como si hay asociación entre ambas condiciones. Si lo que se hace es determinar la
situación vigente para ambas cuestiones, entonces la asociación que se mida tendrá un
sentido inexorablemente borroso. Obviamente, "malas" condiciones de trabajo pueden
contribuir al deterioro de la estabilidad emocional y traducirse en altos niveles de estrés.
Pero también ocurrirá que algunos sujetos estresados experimentarán insatisfacción laboral -
incluso en un entorno de trabajo favorable- como consecuencia exclusiva de su estado
emocional. Cada factor puede ser causa contribuyente o retroalimentadora del otro, de
modo que una pregunta neutra sobre la existencia de asociación suele no conducir a
ninguna parte.
El acto de investigación podría servir para examinar, o bien el efecto del primer factor sobre
el segundo, o bien el del segundo sobre el primero (e incluso, ocasionalmente, ambos
efectos), pero ello exige un diseño que contemple la observación de los hechos de manera
que el orden temporal en que ellos ocurren quede debidamente registrado, de suerte que la
PPT pueda ser debidamente considerada. Cuando el "diseño" no es otra cosa que la
selección de una "muestra representativa", entonces o bien no se dispone de información
temporal alguna (y por tanto el análisis no procede), o bien la información necesaria acerca
del orden en que ocurrieron los hechos puede establecerse gracias al modo en que se
formulan las preguntas, en cuyo caso sí pudiera ser adecuado.
Esta alternativa para dar "solución" al problema está ciertamente preñada de ingenuidad:
consiste en curarse en salud mediante el subterfugio de comunicar que "solo se quiere cuan-
tificar la asociación entre X y Y", como si las palabras pudieran dar un salvoconducto, y como
si medir la asociación pudiera tener un interés intrínseco (lo cual es absurdo, puesto que no
solo éste, sino ningún procedimiento puede ser un fin en sí mismo); como si tal
cuantificación, en fin, tuviera algún sentido cuando no se inserta en el contexto de una con-
jetura causal.
A nadie se le ocurriría investigar, por ejemplo, si hay asociación entre tiempo de estadía
hospitalaria de un sujeto ingresado y el color de la vivienda de dicho paciente. ¿A qué se
debe? Simplemente, a que siempre que se mide una asociación es porque se tiene una
sospecha fundamentada, aunque sea subconsciente, de que tal medición pudiera brindar
una prueba de causalidad o, por lo menos, ser indicio de ella. El mero acto de cuantificación
de una asociación (sea a través de coeficientes de correlación, diferencias de porcentajes,
odds ratios o de cualquier otro medio) entraña, implícita o explícitamente, un afán explicativo
puesto que dimana, necesariamente, de una sospecha razonable en esa dirección.
Está muy extendido el temor a admitir explícita y claramente que se quiere "probar que X
influye en Y" o "evaluar el grado en que X puede considerarse una causa de Y".
Parcialmente, ello se debe a la dificultad que supone la tarea de evaluar causalidad, a la mul-
titud de sesgos que se pueden cometer, así como al temor que genera el compromiso que
siempre se contrae cuando se anuncia que lo que se busca es una explicación. De ahí que,
aun cuando se proceda a calcular medidas de asociación, algunos investigadores se
apresuren a dejar claro que no tienen intenciones explicativas. Lo que pasa es que tal
declaración es en el fondo falsa pues, si no las tuvieran, carecería de todo sentido llevar
adelante tal maniobra computacional. El asunto no se resuelve, por tanto, declarando una u
otra intención, sino asegurándose de que el cómputo es interpretable siempre que se haga.
En síntesis:
Con el fin de consolidar las ideas precedentes, consideremos más detalladamente el mismo
ejemplo ya esbozado. Supongamos que en el año 2000 se ha seleccionado una muestra de
n = 500 138 niños de 10 años, representativa de una comunidad donde la prevalencia de
obesidad en esa edad es, aproximadamente, del 10 %; admitamos que la muestra contiene
450 niños "normales" y 50 obesos, y supongamos que se formulan dos preguntas de
naturaleza dicotómica (la respuesta es SI o NO) a las madres de estos 500 niños. A saber:
Al procesar los resultados que se derivan de la primera pregunta, se obtiene la Tabla 10.1.
Cualquier examen que se haga de la tabla conduciría en principio a la conclusión de que la
asociación entre obesidad y consumo es negativa; es decir, tiende a ocurrir que quienes no
consumen son obesos y viceversa. En efecto, el porcentaje de obesos entre consumidores
(2,4 %) es casi 20 veces menor que entre no consumidores (44,4 %). El odds ratio es
muchísimo menor que la unidad:
10 . 50
= = 0.03
40 . 400
L.C.Silva
Pero el asunto es que ninguna de estas valoraciones permite arribar a conclusión alguna.
NIÑO OBESO
SI NO Total
La clave del problema radica en que la pregunta no tiene en cuenta el orden en que
aparecieron los acontecimientos que se registran; de hecho, es imposible establecerlo.
Todas las alternativas son posibles (obesos que consumían golosinas antes de serlo, no
obesos que dejaron de serlo cuando abandonaron el consumo, obesos que dejaron de
consumir golosinas precisamente por estar enfermos, etc). Lo que no es posible es
determinar cuál de esas alternativas correspondió a cada sujeto de la muestra. Imaginemos
que tenemos una máquina del tiempo y que retrocedemos 6 años. Descubrimos que estos
500 niños (todos de cuatro años) eran entonces normopesos, pero que 100 de ellos eran
consumidores regulares de golosinas en tanto que los restantes 400 no lo eran. Con el paso
del tiempo, digamos, a los dos años, 40 de los primeros desarrollan obesidad, al igual que 10
de los no consumidores, sin que se modificara esencialmente el patrón de consumo.
En ese punto un corte transversal hubiera producido la Tabla 10.2. Las tasas de incidencia
son, entonces, de 40,0% y 2,5% respectivamente, indicio de una intensa asociación positiva.
NIÑO OBESO
SI NO Total
CONSUME SI 40 60 100
GOLOSINAS
NO 10 390 400
Supongamos que en esa etapa hay una gran ofensiva publicitaria a favor del consumo de
golosinas entre escolares, con la que se consigue que 340 de los 390 que no consumían ni
eran obesos pasen a consumir; paralelamente, 30 de los 40 obesos consumidores
abandonan el hábito por prescripción médica de modo que se llega a la situación actual
(Tabla 10.1). La falacia implícita en el hecho de no reparar en la temporalidad cuando se
analiza dicha Tabla 10.1 es obvia.
El problema es típico de las situaciones en las que aparecen involucradas las enfermedades
crónicas: el conocimiento de lo que ocurrió antes de su comienzo puede ser muy difícil (o
imposible), debido a la dificultad (o imposibilidad) para identificar el momento en que
comenzó el trastorno.
Supongamos ahora que en relación con la obesidad del padre se obtienen los resultados
recogidos en la Tabla 10.3.
NIÑO OBESO
SI NO Total
PADRE SI 30 50 80
OBESO
NO 20 400 420
La Tabla 10.3 permite apreciar una intensa asociación positiva entre ambas condiciones
morbosas (padece obesidad el 38 % de los niños de padres que eran obesos, y solo el 5 %
de aquellos cuyos padres no lo eran). En este caso, sin embargo, a partir de los resultados,
sí puede prosperarse cualitativa y conceptualmente. Que fuera o no obeso es una condición
del padre anterior a la situación que pueda tener su hijo ahora, de modo que la asociación
tiene, al menos en principio64, una interpretación razonable en términos causales.
64
Naturalmente, no me detengo en el examen del efecto de posibles
factores confusores ni en otras consideraciones metodologicamente
imprescindibles para el examen de relaciones cuasales, además de
las que nos ocupan.
L.C.Silva
Entre muchas variantes, consideremos un ejemplo típico: se quiere discutir la hipótesis que
afirma que dos porcentajes 1 y 2 son iguales, con la hipótesis alternativa de que son
diferentes. Imaginemos que se trata de un ensayo clínico en que 1 es la tasa de
recuperación de pacientes que reciben un tratamiento convencional, y 2 la de los que
reciben uno experimental.
2
2 * (1 - * ) + Z 1 -
Z1- 2 P1(1 - 1 ) + P 2 (1 - 2 )
n= 2
10.1
( 1 - 2 )
65
Debo advertir que ésta es una de las múltiples situaciones
posibles (aunque, talvez, también una de las más
frecuentes). Incluso para esta misma situación, sin
embargo, existen otros enfoques.
L.C.Silva
Lo que se ha expuesto aquí es sólo un ejemplo que ilustra el modo en que teóricamente
habría que conducirse; no nos interesa reproducir aquí un recetario, no sólo por el
resquemor que nos producen las recetas (véase Sección 12.3), sino porque para ello ya
tenemos el libro de Lemeshow, Hosmer, Klar y Lwanga (1990), el cual incluye además un
conjunto de tablas que relevarían al usuario de aplicar por sí mismos las fórmulas.
Adicionalmente, existen diversos programas computacionales que ofrecen solución a éste y
a problemas similares (véase Sección 11.1), de modo que tales tablas son, incluso,
prácticamente innecesarias.
Lasky y Stolley (1994) ponen como ejemplo la definición conceptual del VIH (una persona
para la cual, en caso de que se le aplicara la prueba del VIH, se obtendría un resultado
positivo), frente a una definición operacional (personas a las cuales, habiéndoseles
practicado la prueba, se les declaró VIH positivas). Aquellos factores que influyan en la
decisión de realizar la prueba, así como sus características intrínsecas (sensibilidad y
especificidad), son los elementos que a la postre determinan quién se convierte
operacionalmente en un caso positivo. Según estos autores, mediante la comparación del
grupo definido conceptualmente con el definido operacionalmente, los investigadores serán
capaces de enumerar posibles sesgos de selección que pueden afectar el grupo final de
casos. Vale decir, el ejercicio de pensar en la posible brecha existente entre las definiciones
conceptual y operacional ayuda al investigador a reconocer sesgos potenciales y a idear
procedimientos para minimizarlos, o por lo menos estimarlos.
L.C.Silva
Resulta crucial que se actúe en función de que todos los casos verdaderos tengan la misma
probabilidad de quedar incluidos en el estudio, pero también de que entre los casos no se
introduzcan sujetos que no lo son. Típicamente, sin embargo, el requerimiento de
equiprobabilidad no se lleva adelante de manera formal (en el sentido de aplicar el azar a un
listado de candidatos). Los casos pudieran ser, por ejemplo, todos los niños ingresados con
leucemia durante cierto número de años en los hospitales de una región; lo que se requiere
es que tal muestra sea "representativa" del conjunto genérico de "niños leucémicos" y el
esfuerzo debe orientarse en dirección a evitar que determinados niños tengan, sea por
razones administrativas, criterios de ingreso u otras, menor oportunidad que otros de ser
incluidos. De modo que en una situación como la mencionada, lo que está en juego es si
ese conjunto de hospitales y los niños que ingresan en ellos aportan una muestra que pueda
considerarse "representativa".
Entre las fuentes más comunes para conseguir controles están los pacientes de hospitales o
clínicas, las listas de certificados de defunción, los registros de morbilidad, amigos, familiares
o vecinos de los casos, y la "población general". En lo que parece haber claro consenso es
en cuanto a que la teoría formal de diseños muestrales tiene escasa incidencia en este tipo
de estudios.
Otro aspecto de interés se relaciona con los tamaños muestrales; en esa materia, el
contenido de la Sección 10.3 es esencialmente válido aquí. Una particularidad radica en
tomar más de un control por caso. Gail, Williams, Byar y col (1976) demuestran que,
cuando el número de casos es limitado, un aumento en el grupo de controles (varios
controles por cada caso) aumentará la potencia del estudio.
El aumento en la razón de controles por caso produce ganancias en este sentido hasta que
se llega a una razón de 4 por 1; a partir de este punto, el incremento de la potencia es casi
siempre demasiado pequeño para compensar los gastos que supone. En cualquier caso,
aumentar la razón de controles por caso parece ser útil y factible solo cuando hay pocos
casos disponibles.
Los estudios ecológicos son aquellos en que las mediciones, tanto de factores con-
dicionantes como de daños, se verifican a nivel de grupos poblacionales y no al de los
sujetos que portan dichos factores o sufren los daños (Susser, 1998). Esta modalidad ha
sido crecientemente desdeñada y excluida de la investigación epidemiológica contem-
poránea. Como dato elocuente, repárese en que, por poner un ejemplo, a lo largo del bienio
1996-1997 el American Journal of Epidemiology publicó 999 artículos originales; solo 9 de
ellos eran de este tipo. Ello se debe en parte al temor que despierta la "falacia ecológica",
descrita por primera vez hace medio siglo por Robinson (1950): el hecho de que una
asociación que se produce entre grupos de sujetos pudiera no existir, o incluso tener signo
opuesto cuando las mismas variables se miden al nivel de los individuos (véase una
ilustración en Silva, 1997a). El riesgo de incurrir en tal falacia es real pero, ¿por qué dar por
sentado que, en el fondo, siempre se quiere elucidar el problema a nivel individual? Esta
premisa ha tomado una dimensión tal en nuestra mente, que ha conseguido obstaculizar que
centremos la discusión, precisamente, en un marco social.
Si en un estudio, por ejemplo, se demostrara que la presencia de niños con bajo peso al
nacer es más frecuente en las comunidades con altos índices de desempleo que en las que
lo tienen bajo, entonces la afirmación no puede trasladarse automáticamente al nivel de los
sujetos (es decir, tal vez no pueda concluirse que los hijos de los desempleados nazcan con
la condición de "bajo peso" con mayor frecuencia que los hijos de los que tienen un puesto
de trabajo regular), so pena de incurrir en la susodicha falacia ecológica. Pero lo importante
es que tal vez no haya ningún afán en hacer ese traslado; quizás el interés esté directamente
orientado a evaluar el efecto de ese indicador sobre todos los miembros de la comunidad,
tengan o no vinculación laboral remunerada. Consideraciones similares pueden hacerse
sobre los efectos de "variables ecológicas" tales como regulaciones jurídicas, formas de
organización laboral, valores religiosos predominantes o grado de desigualdad.
Pero el desdén hacia los estudios ecológicos también se debe, en buena medida, a prejui-
cios injustificados (Schwartz, 1984); tanto es así que estos estudios han llegado a
conceptualizarse sólo como sucedáneos -como un mal menor- de aquellos en que las
unidades de análisis son los individuos, a pesar de que, como recuerda Susser (1994),
constituyen una herramienta de la salud pública y la epidemiología, con su propio peso
específico, y con cuyo concurso se ha producido conocimiento enteramente vigente aún
después de muchos años.
Los rasgos contextuales pueden y suelen tener impactos globales sobre todos los sujetos
abarcados por ellos. Esto es así no sólo en el sentido en que operan condiciones
intrínsecamente ecológicas que, como la contaminación ambiental, no distinguen entre unos
y otros individuos y los afecta a todos en una u otra medida. También ocurre con rasgos
globales conformados a partir de características de los sujetos, tales como el porcentaje de
analfabetos en una comunidad, los cuales frecuentemente influyen sobre todos los
individuos, analfabetos o no.
Uno de los más arraigados y perniciosos prejuicios se concentra en el postulado de que las
condiciones grupales, asociadas a variables medidas a nivel de grupos, no representan
agentes causales de enfermedad. Esta corriente de pensamiento científico, coherente con la
insistente convocatoria actual al individualismo en muchas esferas de la vida (que en el
campo de la salud se concreta en la práctica de culpabilizar a la víctima, trasladar los costos
operativos de la asistencia a quien la recibe, y promover la privatización de los servicios),
tiene un importante componente ideológico.
L.C.Silva
Se ha perdido de vista incluso que cuando se mide un rasgo individual muchas veces se
está midiendo algo distinto que cuando se trata de ese mismo rasgo pero mirado a nivel
colectivo. Por ejemplo, el concepto de pobreza referido a un sujeto no es el mismo que el
que corresponde a la pobreza de la comunidad en la que él vive; tanto es así que quien
resida en una comunidad empobrecida, por ejemplo, se verá afectado por todos los condicio-
namientos globales derivados de esa pobreza (tales como violencia falta de higiene
comunal), independientemente de que su personal nivel económico sea más o sea menos
elevado.
Hasta la expresión "variable medida a nivel de grupo" es tendenciosa, pues parece descartar
a priori el posible interés hacia aquellas variables que solo pueden medirse a ese nivel por
ser intrínsecamente concernientes a una agrupación (Diez, 1998). Sin embargo, existen
importantes constructos que no tienen sentido a nivel individual, sino solo cuando se trata de
un colectivo. Por poner un ejemplo, cualquier médico de familia sabe que un individuo que
vive en una "familia desestructurada", en cuyo seno se verifican tensiones graves, suele no
ser un individuo sano en el sentido amplio del concepto, incluso aunque entendiéramos la
enfermedad solo como mera desviación de la fisiología normal del sujeto. El ejemplo ilustra
el posible papel etiológico de un rasgo grupal, así como que tal rasgo (desestructuración
familiar, en este caso) solo tiene sentido para el colectivo y nunca para sus integrantes como
entes aislados.
Quizás la más emblemática declaración que refleja hasta dónde ha llegado la esterilizante
contracción de la epidemiología al nivel individual de análisis sea la que hizo Rothman
(1986) cuando escribió que "la clase social no se relaciona causalmente con ninguna o casi
ninguna enfermedad". Para dar solo un elemento persuasivo en dirección contraria,
bastaría detenerse en algunos de los numerosos trabajos que ponen en evidencia la notable
persistencia a lo largo de decenas de años de una marcada declive de la esperanza de vida
y de otros indicadores de salud entre estratos socioeconómicos (véase Syme, 1989).
En síntesis, puesto que la búsqueda de factores etiológicos ubicados al nivel del individuo ha
resultado ser tan poco fructuosa (Silva, 1997b), y dado que no quedan dudas de que existen
factores colectivos cuyo valor etiológico puede ser crucial, eludir el examen de los problemas
en su dimensión socio-epidemiológica resulta absurdo. Ha de reconocerse que estas
nuevas líneas de pensamiento aún esperan por aportes operativos más concretos, pero ya
se aprecian resultados interesantes en esta dirección (véanse por ejemplo Evans, Morris y
Marmor, 1994 y Wilkinson, 1996).
Tras estas consideraciones teóricas, lo que importa destacar es que las técnicas muestrales
clásicas se concentran en la selección de sujetos y no de grupos (salvo, como paso
intermedio, para seleccionar los sujetos de su seno); pero, de hecho, tales procedimientos se
pueden aplicar análogamente para diversos niveles de agregados. Los métodos estadísticos
integradores de variables medidas a diversos niveles de agregación (multilevel analysis y
modelos jerárquicos) parten del supuesto de MSA y aún reclaman un marco teórico sólido
para el caso de los diseños muestrales formales.
Como es bien conocido, la metodología de los ensayos clínicos controlados reposa sobre
dos pilares fundamentales: el enmascaramiento de los tratamientos y la asignación aleatoria
de los sujetos a las distintas alternativas terapéuticas consideradas.
L.C.Silva
Sin embargo, lo que se relaciona directamente con el muestreo es la tarea de asignar los
sujetos a los grupos experimentales. Supongamos que se planifica un ensayo clínico para
evaluar la eficacia de la homeopatía en la curación de cierto tipo de conjuntivitis, y que se
compararan tres tratamientos: remedio homeopático (A), agua destilada (B) y un colirio
convencional (C). Supongamos que se ha decidido aplicar cada uno de ellos a 50
pacientes. Asumamos que es entonces necesario distribuir aleatoriamente a cada uno de
los próximos 150 portadores de esa forma de conjuntivitis que acudan a la consulta a uno de
los tres tratamientos, y hacerlo de modo que queden 50 en cada cual.
Aplicar una asignación aleatoria a los tres grupos en las condiciones mencionadas no es otra
cosa que lo siguiente: primero, sacar una muestra simple aleatoria de tamaño 50 de dicho
listado y asignarle el tratamiento A a sus integrantes; luego obtener otra muestra simple
aleatoria de 50 entre los 100 que restan y asignar el tratamiento B a éstos, y finalmente
ubicar en el C a los 50 pacientes no elegidos hasta entonces.
El procedimiento es algo engorroso, aun contando con un programa informático que realice
una selección simple aleatoria dentro de un listado. En efecto, después de seleccionar el
primer grupo de 50 habría que renumerar del 1 al 100 a los sujetos no elegidos, y aplicar
entonces por segunda vez el programa. Por eso es conveniente contar con programas ad
hoc para realizar la asignación, aunque lo que tales programas hacen en esencia es aplicar
sucesivamente el MSA. Para obtener información sobre programas informáticos que
solucionan esta tarea, véase la Sección 11.1.
Debe aclararse, sin embargo, que hemos descrito una situación ideal, no necesariamente
acorde con las circunstancias o restricciones reales. Ocasionalmente no se puede delimitar
de antemano con exactitud cuántos pacientes quedarán en el estudio. Eso ocurre, por
ejemplo, si en lugar de precisar el número de individuos que quedarán incluidos, lo que se
fija es un lapso durante el cual se irán incorporando pacientes al ensayo. Puesto que es
conveniente que cuando se haga el análisis, los grupos tengan tamaños similares entre sí,
una manera de ayudar a conseguirlo consiste en asignar los pacientes del modo siguiente:
imaginemos que se trata de k tratamientos y que en determinado momento se han asignado
m1 , m 2 , ..., m k sujetos respectivamente.
k 1 - mi
Llamemos m = mi . El sujeto m + 1 se asigna al grupo i con probabilidad Pi = m ; es
i=1 k - 1
decir, con probabilidad variable, más concretamente, menor cuanto mayor sea el número de
sujetos ya asignados a dicho grupo hasta ese momento. De ese modo, la asignación va
prosperando "equilibradamente". El programa de asignación aleatoria a tratamientos que se
incluye dentro de SIGESMU (véase la Sección 11.5.4), contempla esta posibilidad.
L.C.Silva
En este capítulo se pasa revista a las más importantes aplicaciones informáticas disponibles
que se relacionan con los procesos de selección de muestras en poblaciones finitas y con la
estimación de parámetros y el manejo de problemas inferenciales en ese contexto. La
información aquí contenida corre el riesgo evidente de envejecer rápidamente, habida cuenta
de la vertiginosa renovación de recursos computacionales de que disfrutamos (y que
padecemos) desde hace ya varios años.
Siempre he defendido el punto de vista según el cual el dominio de los recursos informáticos
debe adquirirse de manera esencialmente autodidacta y, en particular, mediante el proceso
de "hurgar" individualmente dentro de los programas para comprenderlos. Por lo general es
recomendable prescindir de cursos y con bastante frecuencia resulta posible desentenderse,
incluso, de manuales detallados (Silva, 1997). Por esa razón, el contenido subsiguiente se
circunscribe casi enteramente66 a reseñar los recursos disponibles sin explicar en detalle
cómo explotarlos.
Existen varios programas para establecer el tamaño muestral adecuado para un estudio.
Casi todos se reducen, sin embargo, al caso del MSA (para problemas de estimación) y a la
determinación de tamaños de dos grupos cuyos resultados habrán de compararse (en
problemas analíticos simples). Estas dos situaciones, claramente distintas entre sí, se
manejan mediante enfoques también diferentes. Algunos paquetes, como por ejemplo, dos
módulos de EPIINFO: (STATCALC y EPITABLE) y, especialmente, el sistema EPIDAT
(Vázquez y col., 1997), contienen soluciones de ese tipo. En EPIDAT se recogen muchas
de los procedimientos descritos y tabulados en el libro ya mencionado anteriormente y
destinado exclusivamente al tema (Lwanga y Lemeshow, 1991). Otro programa (Study
Design Pack) que contiene diversos recursos para el diseño, el que nos ocupa entre ellos, ha
sido divulgado por el laboratorio Glaxo Wellcome. Puesto que las mencionadas aplicaciones
informáticas son sumamente "amigables" y, por otra parte, dado que considero que la
solución algorítmica de este importante asunto es intrínsecamente cuestionable (véanse
Secciones 10.3 y 12.3), no me extenderé más en este punto.
66
Se hace una cierta excepción en la Sección 11.4.1
L.C.Silva
Cada uno de los diseños muestrales formales que hemos venido considerando es
susceptible de clasificación en alguno de los cuatro grupos que pueden formarse al cruzar
dos ejes: el que separa a los procedimientos según se manejen o no estratos en algún punto
del diseño, y el que concierne al empleo o no de conglomerados (independientemente del
número de etapas involucradas en caso afirmativo). La Tabla 11.1 recoge la ubicación de
cada uno de los siete diseños diferentes que se han abordado en este libro en las cuatro
celdas generadas por la combinación de posibilidades a que dan lugar estos dos ejes.
EMPLEO DE ESTRATIFICACIÓN
NO SI
* Multietápico
Para los diseños no equiprobabilísticos, las más recientes versiones de algunos paquetes
estadísticos, como SPSS, han procurado mitigar el problema que nos ocupa (suponer MSA
sin que lo sea) mediante la incorporación de ponderaciones que permitan corregir los
resultados con acuerdo a la probabilidad de inclusión que hayan tenido los sujetos.
Concretamente, esto significa que se brinda la posibilidad siguiente: en lugar de operar con
los datos resultantes de las mediciones, los valores de xi , se ofrece la posibilidad de trabajar
con datos transformados, xi = xi i , donde i es un número positivo por cuyo conducto se
*
La lógica de este procedimiento estriba en que si cierto individuo I 1 tuvo mayor probabilidad
de inclusión (digamos, el doble) que otro I 2 , el grado de representación implícita que supone
la presencia de I 2 en la muestra es diferente al de I 1 ; en este ejemplo, I 1 "sobrerrep-
resenta" a los sujetos de su tipo. Consecuentemente, el "peso o influencia" de dicho sujeto
en el análisis debe ser menor (en este caso, la mitad) que el de aquél; es decir, debe
cumplirse que 1 =
2 . Este recurso, si bien compensa los desequilibrios que afectan a la
2
muestra en materia de representatividad, no soluciona el hecho de que el método estadístico
maneja los datos como si fueran independientes, cuando es bien sabido que la estructura de
los diseños complejos introduce dependencias, a veces fuertes, entre los individuos de la
muestra68. Por esa razón se han desarrollado sistemas informáticos de estadística que
contemplan cabalmente esa eventual complejidad de los diseños, como se reseña en la
siguiente sección.
A partir de la Versión 6.0, EPIINFO incorporó el módulo CSAMPLE, cuyo propósito exclusivo
es el cómputo de estimaciones puntuales y por intervalos de algunos parámetros en diseños
muestrales complejos.
El programa parte de que toda la información necesaria se halla en una base de datos que
contiene tantos registros como individuos tenga la muestra. En dicha base, además de las
variables sustantivas de interés para cada sujeto, tales como pudieran ser edad, talla,
número de hijos, etc, se incluyen, cuando procede, los tres campos necesarios a los efectos
de que CSAMPLE identifique la posición de dicha unidad dentro del diseño muestral
empleado (estrato al que pertenece, conglomerado en que se halla y ponderación que le
corresponde).
A través del llenado de los cuatro primeros campos presentes en esta pantalla (Main, Strata,
PSU y Weight) se informa a CSAMPLE cuál es la variable con que se va a operar (en el
primero) y cuál el diseño muestral que se usó (en los otros tres).
El sistema exige que en el campo Main se consigne la variable del fichero cuya media o
distribución será objeto de estimación. Los campos Strata (estratos), PSU71 (unidades de
primera etapa) y Weight (ponderaciones) son opcionales; su función se reduce a informar a
CSAMPLE del diseño muestral que se aplicó y del cual se obtuvo la muestra cuyos
resultados se hallan en el fichero de trabajo.
70
Naturalmente, EPIINFO cuenta con posibilidades de importación que
permiten "traducir" al formato REC los ficheros originalmente con-
feccionados en otros sistemas, tales como hojas electrónicas o
bases de datos.
71
Primary Sampling Units
L.C.Silva
La regla fundamental para completar esta tarea es la siguiente: si uno de esos campos se
deja en blanco, significa que el elemento correspondiente no ha intervenido en el diseño. Así,
dejando el campo Strata en blanco se estaría indicando que en el diseño no se ha empleado
estratificación; si no se llena PSU, ello significa que no se han empleado etapas en el
proceso de selección y, finalmente, dejar el campo Weight sin rellenar, es el modo de
comunicar que el método muestral aplicado es equiprobabilístico.
Así, una vez que se mencione una variable en Main, si se dejaran las otras tres en blanco, el
programa entiende que se trata de una muestra simple aleatoria. Pero cuando cualquiera de
estas tres circunstancias se haya producido (estratificación, conglomeración o ausencia de
equiprobabilidad), hay que ocupar los espacios correspondientes con los nombres de
aquellos campos de la base de datos que contengan la información que corresponda.
La casilla Crosstab también es opcional; se usa sólo en caso de que se quiera hacer un tipo
especial de análisis, como se verá más adelante.
La siguiente información se emplea para comunicar la vía por la cual obtener las salidas; las
posibilidades son tres: Screen (pantalla), Printer (impresora) o File (archivo); si se opta por
esta última, entonces hay que declarar en File name un nombre que identifique el fichero de
texto donde se ubicarán los resultados del procedimiento.
Finalmente, hay dos órdenes de ejecución posibles: Tables y Means. La primera se reserva
sólo para el caso en que la variable original72 que se estudia sea nominal (u ordinal), tal
como sexo o religión, pero no de tipo continuo; Means puede usarse para variables
cuantitativas de cualquier tipo: discretas, como número de hijos, o continuas, tales como talla
o hemoglobina. Las singularidades inherentes a cada una de estas órdenes se verán de
inmediato a través de ejemplos.
72
En el archivo debe llevar un código numérico.
L.C.Silva
Debe advertirse que el fichero de trabajo exige que los records estén organizados de manera
que los códigos correspondientes a la variable usada para indicar los estratos aparezcan en
orden creciente; otro tanto debe ocurrir con el campo que identifica los PSU (la que indica a
qué unidad de primera etapa pertenece el record) dentro de cada uno de los estratos. No es
preciso que los códigos sean números naturales consecutivos, pero sí que respeten el
orden mencionado; si ello no ocurre en la base original, se puede accionar la orden Sort
para "preparar" la base antes de invocar una de las dos órdenes posibles. Esta indicación
no modifica el fichero de trabajo que se encuentra en el disco, sino solamente a su
representación en memoria.
Supongamos que la muestra tiene 1370 sujetos y que en Main se menciona una variable
dicotómica (códigos 0 y 1); cuando se da la orden Tables, CSAMPLE produce una tabla de
frecuencias para la variable en cuestión, que tiene en lo esencial el aspecto siguiente:
+-----------------------+
¦1 ¦ ¦
¦ Obs ¦ 283¦
¦ Percent V 20.657¦
¦ SE% ¦ 1.094¦
¦ LCL% ¦ 18.512¦
¦ UCL% ¦ 22.802¦
+-----------+-----------¦
¦0 ¦ ¦
¦ Obs ¦ 1087¦
¦ Percent V 79.343¦
¦ SE% ¦ 1.094¦
¦ LCL% ¦ 77.138¦
¦ UCL% ¦ 81.488¦
+-----------------------+
L.C.Silva
Percent da la estimación puntual de cada porcentaje; SE% es el error estándar de esta es-
timación (raíz cuadrada de la varianza); LCL es la sigla que identifica el límite inferior de
confianza (lower confidence limit) y UCL el superior (upper confidence limit). Si se dejaron
las tres condiciones en blanco, entonces en la salida aparecerán las siguientes tres líneas:
Sampling Weights--None
Primary Sampling Units--None
Stratification--None
por conducto de las cuales se indica que el diseño empleado es MSA en este caso.
Debe notarse que, el caso de la orden Tables, los resultados de CSAMPLE se expresan en
forma de porcentajes. Para computar los límites de confianza, el programa siempre trabaja
con confiabilidad del 95 % y por tanto procede, cualquiera sea el método de muestreo,
restando de, y sumando a la estimación puntual el valor e = (1,96) se (p) . En este caso, por
ejemplo, el error con que se estima el porcentaje de sujetos para los que la variable tiene
código 1 es: (1,96)(1,094) = 2,14 , que a su vez coincide con 22,802 - 20,657 y con
20,657 - 18,512 .
Por otra parte, mediante la orden Tables, CSAMPLE procede a la estimación de los
porcentajes (y sus intervalos) que correspondan a todas las categorías que existan (dos en
el caso de una variable dicotómica, como en el ejemplo).
Si en Main se pone una variable cuantitativa como la EDAD y se indica la orden Means,
entonces se obtiene un resultado como el siguiente:
Analysis of EDAD
Confidence Limits
Obs Mean Std Error Lower Upper
Total 1370 64,092 0,593 62,930 65,254
-----
L.C.Silva
Analysis of EDAD by R
Confidence Limits
R Obs Mean Std Error Lower Upper
0 667 44,844 0,493 43,878 45,810
1 703 82,354 0,375 81,619 83,089
Nótese que –37,510 es la estimación de X 1 - X 2 , donde X 1 es la edad media para los 667
individuos con R = 1 y X 2 la media para los 703 para los cuales R = 2 . Esa diferencia tiene
como intervalo de confianza: [-38,724; -36,296]. El hecho de que éste no contenga al cero,
desde la lógica de las pruebas de hipótesis, indicaría que la edad media para R = 2 es
significativamente mayor que para R = 1 .
73
Podría tener más de dos categorías, aunque se ha elegido el caso
dicotómico para la ilustración.
L.C.Silva
¦R ¦VARDI
¦ ¦0 ¦1 ¦Total ¦
+-----------+-----------+-----------+-----------¦
¦1 ¦ ¦ ¦ ¦
¦ Obs ¦ 569¦ 98¦ 667¦
¦ Percent V 52,346¦ 34,629¦ 48,686¦
¦ Percent H 85,307¦ 14,693¦ 100,000¦
¦ SE% ¦ 1,371¦ 1,371¦ ¦
¦ LCL% ¦ 82,620¦ 12,005¦ ¦
¦ UCL% ¦ 87,995¦ 17,380¦ ¦
¦ Deff. ¦ 1,001¦ 1,001¦ ¦
+-----------+-----------+-----------+-----------¦
¦2 ¦ ¦ ¦ ¦
¦ Obs ¦ 518¦ 185¦ 703¦
¦ Percent V 47,654¦ 65,371¦ 51,314¦
¦ Percent H 73,684¦ 26,316¦ 100,000¦
¦ SE% ¦ 1,661¦ 1,661¦ ¦
¦ LCL% ¦ 70,428¦ 23,059¦ ¦
¦ UCL% ¦ 76,941¦ 29,572¦ ¦
¦ Deff. ¦ 1,001¦ 1,001¦ ¦
+-----------+-----------+-----------+-----------¦
¦Total ¦ ¦ ¦ ¦
¦ Obs ¦ 1087¦ 283¦ 1370¦
¦ Percent V 100,000¦ 100,000¦ ¦
¦ Percent H 79,343¦ 20,657¦ 100,000¦
¦ SE% ¦ 1,094¦ 1,094¦ ¦
¦ LCL% ¦ 77,198¦ 18,512¦ ¦
¦ UCL% ¦ 81,488¦ 22,802¦ ¦
¦ Deff. ¦ 1,001¦ 1,001¦ ¦
+-----------------------------------------------+
Como se ve, aparecen los porcentajes por filas (horizontalmente) y por columnas
(verticalmente) -H y V respectivamente-, aunque el intervalo de confianza solo aparece para
las filas. En este caso (tabla 2*2) también se obtienen tres estimaciones de interés para los
epidemiólogos (odds ratio, riesgo relativo y diferencia de riesgos) y sus respectivos intervalos
de confianza, como se muestra a continuación.
L.C.Silva
Nuevamente, lo singular que tienen estos intervalos es el hecho de que se han computado
teniendo en cuenta los diseños verdaderos. Por último, en las salidas que se producen
cuando se da la orden Tables, aparece el valor de Deff. Se trata de una estimación de la
magnitud del valor del efecto de diseño explicado detalladamente en la Sección 6.3.
1 SUDAAN
2 PC-CARP
PC-Carp es la versión para PC del programa SUPER CARP, uno de los pioneros en este
campo, desarrollado y comercializado por la Universidad de Iowa. Permite computar errores
para medias, porcentajes, cuartiles, razones, diferencias de razones, así como para realizar
pruebas de hipótesis sobre tablas de contingencia.
3 CENVAR
4 WESVAR PC
Según describen en el manual para la Versión 2.1 Brick, Broene, James y Severynse
(1997), WesVar PC es un paquete "para computar estimaciones puntuales y estimaciones
replicadas de las varianzas a partir de datos obtenidos de muestras complejas". Se trata de
una aplicación implementada sobre Windows que trabaja con técnicas de muestras
replicadas como las descritas en la Sección 9.1. Una valoración de la Versión 3 (Wesvar
Complex Samples) puede encontrarse en Nixon (1998); a esta se ha añadido la posibilidad
de estimar curvas de regresión lineal y logística.
5 STATA
6 VPLX
Este sistema ha sido diseñado por el Buró del Censo de Estados Unidos y emplea
replicaciones y estimaciones tipo jackknife. El sistema WESVAR PC arriba mencionado
tiene, a mi juicio, una interfaz máquina-usuario más amigable.
7 CLUSTERS
Nacido del proyecto World Fertility Survey, CLUSTERS se limita, como CSAMPLE, a
computar errores para medias y proporciones en subclases, aunque opera en un ambiente
de hoja electrónica.
8 SAS
Este es el otro gran paquete de aplicaciones estadísticas de propósito general que incluye
procedimientos de análisis acordes a métodos complejos de muestreo (en la versión 8).
Anthony, Watts y Stokes (1999) dan cuenta de un módulo para la selección de muestras de
diversos tipos, otro para estimar medias y porcentajes y un tercero para análisis de regresión
lineal.
El programa SIGESMU fue creado especialmente para acompañar este libro. En las
cuatro subsecciones que siguen se comunican sus rasgos y prestaciones
fundamentales.
L.C.Silva
El libro que constituye la versión precedente del actual (Silva, 1993) venía acompañado de
un disco que contenía algunos programas muy simples para facilitar algunos procesos de
selección elementales. Ahora, intentando hacer una contribución más relevante en este
sentido, hemos diseñado (Suárez 1998) un sistema denominado Sistema General de
Simulación y Selección de Muestras(SIGESMU), parte de cuyas prestaciones conciernen
específicamente al proceso de selección. SIGESMU puede instalarse en ambiente
Windows haciendo uso del disco compacto que se adjunta74.
En lo que sigue se describe brevemente cada uno de los componentes de los dos módulos
básicos de SIGESMU (Figura 11.1).
74
El sistema fue programado utilizando el lenguaje de 32 bits Delphi
3.0 para Windows 95 ó 98.
L.C.Silva
Por otra parte, SIGESMU también ofrece la posibilidad de aplicar métodos de selección
cuando no se cuenta con bases de datos explícitamente conformadas; es decir, para realizar
la selección sobre unidades de análisis genéricas, que el usuario identificaría a posteriori en
un marco muestral externo. Para este caso, se han incluido los siguientes diseños:
Los programas que procuran resolver o encarar el proceso de selección pueden ser útiles,
además de por su función operativa, para la formación del usuario. Tal es el caso cuando
éste puede percibir cómo fluye el proceso de selección y comparar los resultados
provenientes de métodos diferentes sobre la misma población, ya que pueden constituir una
vía importante para identificar las ventajas y desventajas relativas que tienen los diseños, así
como para valorar el efecto del tamaño de muestra sobre la calidad de las estimaciones.
SIGESMU posee un rasgo singular en este sentido. Se trata de un recurso para simular
selecciones muestrales según diversos métodos posibles. Este submódulo permite com-
putar estimaciones en muestras simuladas y facilitar por esa vía la comparación de resul-
tados de los diferentes métodos utilizables. Con ese fin, se ha creado artificialmente una
"población tipo". Para conformarla se construyó mediante simulación una base de datos, con
características que se ajustan a la estructura de una población real, adecuada en principio
para la aplicación de cualquier procedimiento de muestreo. Se simularon varios miles de
sujetos cada uno de los cuales se ubicó en una de 4 zonas, después en alguno de los
distritos existentes dentro de éstas, y finalmente en viviendas dentro de los distritos.
A los sujetos simulados, una vez distribuidos en zonas, distritos y viviendas, se les
atribuyeron valores para cuatro variables personales, definidas del modo siguiente:
Nivel Socioeconómico:
Valor entero entre 1 y 4: 1 para los de más bajo nivel y 4 a los que poseyeran mejor
nivel socioeconómico. Así se representa a una variable sintética supuestamente
conformada a partir de cierta información y de un algoritmo validado de asignación en
una de las 4 categorías.
Edad:
Número de caries:
Número entero entre 0 y 8, que identifica para cada sujeto el número de piezas
dentales afectadas por caries.
Como puede observarse en la Tabla 11.1, la distribución de sujetos según grupos de edad
tuvo predominio de los grupos de edad de entre 20 y 60 años.
GRUPO SUJETOS
EDAD No %
0- 9 772 8.4
10-19 911 9.9
20-29 1486 16.1
30-39 1547 16.8
40-49 1534 16.6
50-59 1498 16.2
60-69 555 6.0
70-79 450 4.9
80-89 256 2.8
90-99 225 2.4
TOTAL 9234 100.0
El porcentaje de sujetos según ZONA y NSE, así como las medias y varianzas del NSE se
presentan en la Tabla 11.2; la media del NSE aumenta desde la zona 1 a la 4, con varianzas
similares entre las zonas, siempre menores que la variabilidad total (indicando que las zonas
son internamente homogéneas en materia de nivel económico-social).
Tabla 11.2 Distribución porcentual de los sujetos con cada nivel de NSE según ZONA, medias y v
L.C.Silva
Tabla 11.3 Tasas de sujetos con caries y número medio de caries por zonas.
ZONA CARIES
Tasa % x 142
1 30.1 0.744
2 29.0 0.675
3 19.3 0.375
4 16.3 0.343
TOTAL 100 0 0 561
Tabla 11.4 Tasas de sujetos con caries, medias y varianzas del número de caries según NSE.
NSE PROMEDIO DE
% CARIES S2
1 38.6 1.014 2.292
2 27.5 0.613 1.306
3 19.3 0.371 0.727
4 9.7 0.135 0.193
TOTAL 100.0 0.561 1.311
Tabla 11.5 Tasas de sujetos con necesidad de atención estomatológica según zonas.
2 37.6
3 25.5
4 23.2
TOTAL 32.7
Tabla 11.6 Tasas de sujetos con necesidad de atención estomatológica según NSE.
SIGESMU incluye, por otra parte, algunos programas destinados al desarrollo de algunas
tareas de simulación. Expuestos a grandes rasgos, se trata de los siguientes tres
procedimientos:
Como sabemos, para muestras medianamente grandes, el azar es capaz de lograr que la
mayoría de las muestras seleccionadas por su conducto sean representativas de las
poblaciones de las cuales proceden. En particular, la asignación aleatoria de unidades a
varios grupos suele conseguir que dichos grupos sean muy parecidos entre sí a casi
cualquier efecto que se desee. Contribuir a que este hecho pueda palparse de manera
elocuente es el objetivo de este componente.
L.C.Silva
El archivo de textos original para llevar adelante el proceso descrito se indica por el usuario
por medio de una ventana de petición tipo Windows. Al escoger dicho archivo, la ventana
de la simulación se activa y el usuario puede definir los parámetros para los cuales desea
realizar estimaciones: número de veces que aparece una letra determinada y porcentaje de
palabras cuya longitud sea igual o mayor a cierto valor. Se estiman asimismo el porcentaje
de palabras que comienzan con vocal y la longitud media en letras de cada una de las listas.
Realizado el cómputo, se muestran los resultados para cada grupo así como los valores
poblacionales, de modo que se puedan comparar con los que corresponden a los listados
conformados. A su vez, al cotejar los resultados de cada una de las listas se podrá constatar
que, salvo casos excepcionales, especialmente si el número de palabras contenidas en el
fichero es grande, el azar "equipara" las submuestras de la población: es decir, se observará
la proximidad entre las estimaciones hechas y la proximidad de éstas con el valor
poblacional
Supongamos que se está diseñando un estudio que exige la comparación de dos drogas,
una conocida y la otra de nueva generación. Se precisa asignar a cada uno de 56 sujetos el
tratamiento que habrá de recibir una vez que sea declarado "elegible", de forma tal que los
grupos resultantes, además, sean de igual tamaño.
Para resolver un problema como ese, basta con disponer de un programa que extraiga
muestras aleatorias; cuando el número de tratamientos es superior a dos, ya resulta
conveniente contar con un programa ad hoc, como el que nos ocupa. En la ventana de
asignación no existen más complicaciones que indicar el número de tratamientos y el de los
sujetos a los que han de distribuirse; de tal forma, al indicar que se efectúe el procesamiento,
la ventana mostrará los listados de los sujetos que han de incluirse en cada uno de los
grupos. Se pueden crear hasta cinco listas para respectivos tratamientos.
Cabe señalar que las listas formadas pueden guardarse en ficheros de texto y por tanto, en
su momento, podrían imprimirse para trabajar con ellas en terreno.
En este capítulo se abordan críticamente diversos aspectos de interés práctico, tales como
errores que se cometen con relativa frecuencia por parte de muestristas inexpertos, que son
víctimas de "tradiciones" discutibles, o que actúan según criterios directamente
improcedentes. Simultáneamente, se desarrollan algunas ideas y procedimientos pendientes
de examen cuya discusión suele esquivarse. Finalmente, se hacen diversas precisiones
conceptuales que tienen repercusión considerable a los efectos de aplicar o de comprender
las técnicas muestrales.
Entre los estudiantes de muestreo es bien conocida la pauta que establece que las
inferencias que se produzcan a partir de una muestra han de circunscribirse a la población
que fue objeto del acto de selección. Desde una óptica rigurosa, esto es impecablemente
cierto. Pero un apego estricto a dicha regla tendría efectos tan paralizantes que en la práctica
suele pasarse por alto.
En efecto, debemos reconocer que con frecuencia el método de selección es tal que, por
una razón u otra, no todos los individuos de la población objeto de análisis tienen
oportunidad de integrar la muestra y, sin embargo, la inferencia objetivamente realizada
abarca a toda la población y no solo a la porción de la que procede la muestra. El grado en
que una transgresión como esa resulte "perdonable" no es por lo general un asunto de
naturaleza estadística, sino algo inherente al problema que se aborda: depende de la
valoración que hagan los investigadores, basada en su sentido común y en su "cultura"
sobre el problema, elementos a partir de los que se dirá la última palabra. Por ejemplo,
supongamos que se hace un estudio sobre la información que poseen los jóvenes de la
enseñanza media acerca del SIDA usando una muestra de 120 alumnos de una escuela de
Madrid, que sobre esas bases se estima que solo el 20% tiene “conocimientos adecuados”
sobre el tema, y que se obtiene un intervalo de confianza al 95% de [16% - 24%], ¿qué
quiere decir esto? La respuesta canónica sería que “podemos estar razonablemente
confiados en que el porcentaje de jóvenes de esa escuela que tenía conocimientos
adecuados en el momento de la encuesta se hallaba entre 16% y 24%”. Ni más ni menos. Lo
que importa subrayar es que, formalmente, la inferencia se reduce a lo que prevalecía en
esa escuela y en ese momento.
Sin embargo, nadie (con excepción quizás de la dirección de esa escuela) haría el estudio
para obtener tan magro dividendo, reducido a una anécdota histórica. Si tal resultado se
publica es porque tácitamente se cree que los resultados son indicativos de algo que ocurre
más allá de la escuela y más allá del momento de la encuesta. Lo que pasa es que la
decisión de cuál es el alcance geográfico y temporal de tal extrapolación suele dejarse en un
limbo que, si bien releva al investigador de comprometerse explícitamente, no resuelve el
hecho real de que la inferencia que objetivamente se está haciendo trasciende el ámbito de
la selección en que se basa.
Es evidente que la realidad develada por el estudio no será vigente 10 años después de
realizado el estudio ni tampoco extrapolable a la ciudad de Copenhague, pero es
verosímil que también refleje lo que ocurre en otras escuelas de Madrid, y que sea
esencialmente válida mientras no cambien los factores que determinan el grado de
conocimiento de los jóvenes madrileños sobre el SIDA.
Por otra parte, a veces es simplemente imposible hacer extrapolación alguna. Por ejemplo,
en un artículo titulado Consumo de drogas en una muestra de médicos rurales de la
provincia de Valladolid, Carvajal, García, Holgado y Velasco (1984) dan cuenta de un
estudio basado en una encuesta realizada por medio del correo a la que 73 médicos
aportaron testimonios sobre sus hábitos de consumo de drogas (tanto de las llamadas
"institucionales" -alcohol, cafeína y tabaco- como de las que no lo son, tales como
anfetaminas, ácidos, opiáceos y alucinógenos).
L.C.Silva
En principio, la población de interés estaba conformada por 211 médicos, a todos los cuales
les fue originalmente remitido el cuestionario; solo respondió, sin embargo, el 34.5 % de
ellos. Dada la naturaleza obviamente comprometedora de algunas de las respuestas
posibles (los propios autores adelantan en el trabajo un juicio moral negativo hacia un
médico que consuma estas sustancias), resulta altamente dudosa la representatividad de
una muestra autoconfigurada por sus integrantes.
Nótese que el propio título del trabajo anuncia algo anómalo: lo que ocurra en una muestra,
como allí se consigna (en este caso, la magnitud o forma del consumo), no es algo que
interese. Lo que puede interesar es esta información para la población de médicos. La
muestra es un intermediario metodológico, ajeno por completo al propósito de un estudio,
cualquiera que sea éste. Si hay motivos para pensar que la muestra representa
adecuadamente a cierta población, entonces es posible que los resultados obtenidos de
aquella puedan extenderse o extrapolarse a esta última. En tal caso, es posible que se haya
alcanzado aquel propósito; vale decir que nunca interesa un resultado muestral per se, sino
solo el que se deriva de ese proceso de extrapolación.
En el caso que nos ocupa, resulta muy difícil establecer a qué población podría representar
la muestra que nos ocupa: ¿A los que no tienen nada que ocultar? ¿A quienes no tienen
aprensión en admitir sus hábitos? ¿A los que aprovechan la ocasión para dar pistas falsas
sobre sus hábitos reales? Considero imposible responder estas preguntas. Sin embargo, de
lo que no quedan dudas es de que la muestra representa exclusivamente a los médicos que
acceden a contestar, subgrupo cuya diferencia con el de los que optan por no responder es
algo más que verosímil. Se trata a todas luces de una muestra llamada a arrojar es-
timaciones sesgadas.
Por otra parte, aun cuando la totalidad de los médicos hubiese respondido, habría motivos
para sospechar la presencia de un sesgo: es bien conocido que cuando se formula una
pregunta embarazosa, los resultados suelen arrojar subestimaciones (o sobrestimaciones,
según sea lo que se investigue). El trabajo, por poner un ejemplo, comunica que el
porcentaje de médicos que consumen cocaína (ya fuese habitual o esporádicamente) es
nulo; ni hombres ni mujeres de la muestra admiten tal consumo. ¿Podrá razonablemente
confiarse en que, si la realidad fuese otra, habría quedado fielmente reflejada en las
respuestas?
La endeblez fundamental que tiene este artículo no radica, sin embargo, en que una parte de
la muestra no responda; esto suele ocurrir siempre en una u otra medida y existe un vasto
campo teórico al respecto (véase Sección 12.4). Si bien la tasa de "no respuesta" es
ciertamente desmedida, el defecto fundamental del trabajo estriba en que no se dice (ni es
posible decirlo) a qué población cabe atribuir los resultados hallados75.
75
El artículo analizado es bastante antiguo. Actualmente es difícil
hallar trabajos publicados que padezcan de tan notables
insuficiencias, pues los editores (y los autores) han alcanzado
niveles de versación, experiencia y rigor mucho mayores que los
que tenian entonces.
L.C.Silva
Supongamos ahora que se quiere estimar la prevalencia de insuficiencia renal crónica (IRC)
en una ciudad pero que, por razones prácticas, la muestra se elegirá de un listado
incompleto, que contiene solamente al 90 % de la población actual (por ejemplo, solo incluye
a los que poseen teléfono, ya que, supongamos, el marco muestral será la guía telefónica;
en tal caso, la muestra resultante comprenderá solamente a poseedores de teléfono).
La pregunta clave, que evidentemente no es de índole estadística, sería: ¿hay motivos para
sospechar que la posesión o no de teléfono se relaciona de algún modo con el hecho de
padecer IRC? Si la respuesta fuera positiva, no habrá "perdón". Pero si, por mucho que
salubristas y nefrólogos especulen "teóricamente", no aparece ningún vínculo, ni directo ni
indirecto, entre ambos rasgos, yo me inclino por la "absolución metodológica". Me baso en
que, de todos modos, el conocimiento que se obtenga por vía muestral habrá de ser provi-
sional, perfectible y sujeto a refinamiento. Por otra parte, si somos flexibles con la
extrapolación en el tiempo, ¿por qué no serlo con la extrapolación en el espacio? En última
instancia, se trata de ser flexible en el marco de un talante riguroso, que es mucho mejor que
ser rígido sobre un substrato conceptualmente borroso, como ocurre con tanta frecuencia y
en tantos contextos sin que ello genere tanto escándalo.
Sin embargo, en mi opinión, tal flexibilidad tiene fundamentos adicionales. Supongamos que
se estudian las dimensiones antropométricas de los niños de una ciudad a través de una
muestra equiprobabilística de hogares de una ciudad. Supongamos asimismo que el
proceso discurrió sin ningún tipo de anomalías: el marco muestral estaba actualizado, todos
los hogares fueron elegidos según lo planeado y los niños de la muestra fueron medidos en
su totalidad. Hecho el estudio, se obtiene un amplio conjunto de estimaciones, entre ellas,
pongamos por caso, que la talla media de un varón de 5 años es igual a 104 cm y que el
percentil 5 de la distribución de esa variable es 96 cm. Tras un examen estadístico
adecuado de los datos, los auxólogos deciden recomendar que aquellos niños de esa edad
cuya talla esté por debajo de 96. deben ser examinados por personal especializado. Esta
pauta sale publicada y se difunde mucho después de realizadas las mediciones (con buena
suerte, un año más tarde).
Ahora bien, ¿para qué población son válidas las estimaciones que, tras la mencionada
elaboración, dan lugar a tal recomendación? Obviamente, no para los niños que tenían 5
años en el momento de la encuesta. Dichos niños ni siquiera existen ya como tales, pues en
el momento de la publicación ellos tendrán por lo menos seis años. Por otra parte, la pauta
en cuestión seguirá vigente durante mucho tiempo (quizás un decenio). De modo que la
extrapolación verdadera se extiende formalmente a una población enteramente diferente a la
que fue muestreada. A nadie se le ocurriría sugerir la repetición del estudio dos meses
después, del mismo modo que difícilmente se aceptaría que sus resultados guarden vigencia
durante los 40 años siguientes, ya que es bien conocido que existe una "tendencia secular"
que obliga a actualizar cada cierto tiempo las curvas de crecimiento y desarrollo. La decisión
al respecto está condenada a ser informal y, en cualquier caso, ajena a una aplicación rígida
de la regla enunciada al comienzo de esta sección.
Esta es la realidad de todos los días: las medidas que se adopten tras un estudio de
satisfacción de pacientes hospitalizados se aplicarán a una población diferente de la que se
estudió, el nivel de educación sexual que se atribuye a una población de adolescentes se
conoce a través de una muestra de una población de adolescentes que "ahora" son adultos,
y así sucesivamente.
L.C.Silva
Muy posiblemente, los niños que hoy tienen 5 años, los hospitalizados y los adolescentes
actuales no difieran en lo esencial de los que en su momento fueron estudiados; por eso la
inferencia que realmente se hace verosímilmente será legítima aunque no responda al
esquema formal de que solo se extrapola a la población muestreada. Sin embargo, el hecho
de que lo sea (y hasta cuándo seguirá siéndolo) escapa a la estadística y al muestreo para
caer en la órbita del sentido común y la reflexión crítica.
En síntesis, el nivel de extrapolación adecuado suele ser un problema en que participan por
igual las técnicas formales de muestreo y los recursos informales centrados en el sentido
común.
En un libro clásico, aunque en buena medida olvidado, Hagood (1941) encara el tema desde
una perspectiva general, que desborda el marco del muestreo en poblaciones finitas con
fines descriptivos y abarca también el de las pruebas de hipótesis. Lo que allí se discute es
la situación en que la "muestra" no es tal en sentido estricto, sino que constituye toda la
información disponible. Por ejemplo, supongamos que contamos con las tasas de
mortalidad infantil de las 50 provincias de un país y con las correspondientes 50 tasas de
analfabetismo en un año dado, y supongamos también que se calcula el coeficiente de
correlación de Spearman con esos 50 pares. ¿Tiene sentido evaluar si dicho coeficiente
difiere significativamente de cero? El asunto es cuándo y sobre qué bases se pueden hacer
inferencias a un universo hipotético, un superuniverso del cuál nuestro universo finito (es
decir, lo que se ha observado) puede ser considerado una muestra aleatoria. Hagood baraja
varias posibles interpretaciones según las cuales lo observado puede considerarse la
realización de una experiencia aleatoria (configuraciones especiales posibles, variabilidad en
el tiempo); se trata de alternativas que justificarán teóricamente la posibilidad de conducirse
con flexibilidad en esta materia.
Es bien conocido que la teoría formal ubica a las pruebas de significación en el ámbito
inferencial; de modo que para ellas también rige el principio que reza: a partir de los datos
muestrales se infieren conclusiones sobre aquella población supuestamente representada
por la muestra. Consecuentemente, desde un punto de vista teórico y formal, no tiene
sentido aplicar tales pruebas cuando los datos, en lugar de conformar una muestra,
coinciden con todo el universo. Esa regla, no obstante, se presta a gran confusión y por ello
resulta de máxima importancia establecer con claridad qué significa este enunciado.
Supongamos que la tasa de infección en ancianos asciende a 19,2 %, mientras que entre
adultos jóvenes es solo de 8,6 %, y que al realizar una prueba de hipótesis, esta apreciable
diferencia resulta ser estadísticamente significativa76. Como se ha dicho, la conclusión de
que la tasa es mayor para ancianos que para quienes no lo son, obviamente no recae sobre
los pacientes de ese año en dicho hospital; para establecer que 19.2 es un número mayor
que 8.6 no hace falta una prueba estadística: bastan los conocimientos de un escolar.
¿Puede decirse entonces que hay mayor propensión a infectarse entre ancianos que entre
jóvenes, independientemente del país en que se realiza el estudio, del tipo de hospital y de
las características de los pacientes? Desde luego, no. Pudiera ocurrir que este hospital
estuviera enclavado en un área de bajo nivel económico, y que si el estudio se repitiera
usando pacientes con mejor situación (y por ello mejor alimentados, con más instrucción o
con hábitos de vida más saludables), las dos tasas fueran esencialmente iguales, quizás
porque en tal caso la desventaja fisiológica inherente a la vejez no se expresaría a través de
la infección.
De modo que en un caso como el que nos ocupa, en el que el enfoque de identificar un
superuniverso parece ineludible, la identificación de aquel que resulte adecuado no es una
tarea susceptible de ser resuelta mecánicamente, sino que, una vez más, reclama el
concurso del sentido común, del conocimiento profundo de la materia y, al fin, de una
inevitable dosis de subjetividad. Ahora imaginemos que se ha hecho el mismo estudio y que
se obtuvieron los mismos resultados pero a partir de una muestra de pacientes del hospital
en cuestión. Se hace la prueba estadística y se consigue rechazar la hipótesis de nulidad.
Lo usual es que el investigador afirme sin más que "se ha hallado suficiente evidencia
muestral de que la incidencia de infección es mayor entre ancianos que entre jóvenes".
Pero, ¿en qué población es esto así? ¿cuál es el alcance poblacional de la inferencia?
Normalmente la respuesta a esta pregunta queda en un limbo conceptual puesto que, bajo el
amparo de que se ha trabajado con una muestra, la pregunta no llega a formularse
explícitamente. Sin embargo, el hecho de que se haya operado con una parte de los
pacientes de ese hospital durante ese año, y no con todos ellos, no cambia la realidad de
que el verdadero interés del investigador no se concentra en lo que pudo haber ocurrido en
ese sitio y en ese momento. El papel que en este caso pudo haber tenido una selección
formal no radica en que cambie la naturaleza de la pregunta, sino en la contribución a la
imparcialidad de la selección que aporta tal procedimiento dada la inconveniencia o
imposibilidad de estudiar a toda la población. La necesidad de un superuniverso, por tanto,
sigue igualmente vigente.
Por otra parte, en estrecha relación con todo el problema está la necesidad de superar la
convicción, presente en algunos equipos investigadores, de que su trabajo es el que dará la
respuesta a la pregunta planteada, cuando en realidad seguramente se tratará de un trabajo
más, llamado a sumarse al debate que la comunidad científica desarrolla sobre el problema.
Ese trabajo debería arriesgar una propuesta de superuniverso, se haya sacado una muestra
formal o no; en su momento se irán produciendo las acotaciones o enmiendas que procedan.
Solo el cotejo con otros esfuerzos y el examen integrado de resultados -acaso ayudado por
enfoques como el del metaanálisis y en medio de un permanente proceso de ajustes- será
capaz de generar respuestas científicamente fructíferas.
76
Por cierto, si esto ocurre o no con esas dos magnitudes depende de
los tamaños de los grupos comparados.
L.C.Silva
Hace casi medio siglo que el célebre estadístico Frank Yates advirtió (Yates, 1951):
Los propios creadores de las pruebas de hipótesis, Egon Pearson y Jerzy Neyman,
advirtieron con toda transparencia que éstas no fuesen utilizadas a la manera en que, en
definitiva, se hace a diario: como instrumentos para evaluar la validez o la falsedad de una
ley científica. En sus propias palabras (Neyman y Pearson, 1933), advertían:
Nota: Cabe intercalar que la problemática que estamos considerando (¿procede o no hacer
inferencias cundo se trabaja con una población y no con una muestra formal?) queda
intrínsecamente despejada cuando el análisis se desarrolla en el marco bayesiano en el
lugar de en el entorno frecuentista habitual.
El enfoque bayesiano asume como algo natural el hecho de que los parámetros de interés
(en este caso, la diferencia entre las tasas teóricas de infección) son variables sujetas a
leyes probabilísticas?
La tarea que esta teoría se traza, justamente, es la de caracterizar nuestro conocimiento del
problema por conducto de dichas leyes. Más concretamente, ofrece herramientas para
combinar lo que en un momento dado consideramos que constituye una presentación
atinada de muestreo conocimiento del problema con datos empíricamente obtenidos como
los del mencionado estudio hospitalario para producir una nueva representación
“actualizada”.
La teoría bayesiana desborda claramente el nivel y el contexto natural del presente libro,
pero consideramos oportuno al menos consignar su existencia, así como señalar la pujanza
con que ha venido revitalizándose en los últimos años, tal y como queda fundamentado en
trabajos como Davidoff (1999), Goodman (1999) y Silva (1999).
El marco muestral disponible suele no ser perfecto. Raras veces el marco cumple todas las
condiciones relevantes: contener exactamente a todas las unidades, que éstas aparezcan
dentro del marco en una y sólo una ocasión y, además, que todo elemento ajeno a la
población de interés esté excluido.
Imaginemos que nuestro estudio concierne a médicos con al menos cinco años de
experiencia como tales, pero que contamos con una base de datos en que aparecen
registrados todos los médicos actuantes en cierta región, de los cuales desconocemos el
dato mencionado. Probablemente sea impracticable la idea de "limpiar el marco"; es decir,
eliminar del listado, antes de la selección, a los médicos con menos de 5 años de
experiencia. Mucho más económico (y, por tanto, más eficiente) sería obtener una muestra
empleando ese marco o listado disponible y retener en ella solo a quienes cumplan la
condición de poseer más de 5 años de experiencia laboral. Habría que seleccionar, eso sí,
un número mayor de sujetos para luego quedarnos con el número deseado del tipo de
individuos que interesan. Si se hubiera planificado contar con n sujetos en la muestra y se
piensa que una fracción (0 1) del listado está formado por individuos ajenos a
nuestro interés, se tomarán n* , resultado de dividir n por 1 - . Es importante notar que tal
estrategia no modifica las probabilidades originales otorgadas a los sujetos que
verdaderamente integran la población de interés. Así, si la muestra de n * fuera, por ejemplo,
equiprobabilística, la submuestra que resulte tras la eliminación, seguirá siéndolo.
He tratado este tema con mucho detalle en un libro reciente (Silva, 1997). No agregaré
ahora mucho más a aquellas ideas. Sin embargo, considero oportuno incluirlas nuevamente
en este texto más específico (con algunas matizaciones adicionales) en virtud de la singular
relevancia que le confieren dos circunstancias: por una parte, que la tarea de determinar un
tamaño muestral es obviamente ineludible y, por otra, que el tema sigue produciendo
abundantes malentendidos.
No obstante haber sido profusamente tratado en libros y artículos, a pesar de que se explica
en clases y conferencias y de que existen programas informáticos y tablas ad hoc para hacer
determinaciones de tamaños muestrales, el asunto parecería renuente a dejarse dominar por
los interesados. Llegado el momento de calcular el tamaño muestral, muchos inves-
tigadores, yo diría que la mayoría, se sienten incapacitados para hacerlo por sí solos o, en el
mejor de los casos, inseguros con lo que han hecho.
En la Sección 11.1 ya se había subrayado que debían reconocerse dos situaciones bien
diferenciadas:
En la segunda situación, el análisis no se ciñe a conocer la magnitud de algo, sino que exige
en algún punto hacer uso de la comparación entre parámetros correspondientes a distintas
subpoblaciones. En efecto, en el entorno analítico, el examen estadístico de los datos suele
conducir a maniobras tales como la comparación estadística de porcentajes o medias, o a la
evaluación de la significación de coeficientes de concordancia o de correlación77.
77
Nótese que, de hecho, en este último caso se trata también de
comparar lo que se compara, es el coeficiente (por ejemplo, de
correlación) con el número cero.
L.C.Silva
En las Secciones 3.7 y 10.3 se expuso lo que pudiéramos llamar "la teoría oficial" sobre el
tema; es decir, lo que uno puede hallar al respecto en un texto convencional. Curiosamente,
a pesar de ser uno de los temas más borrosamente solucionados por la estadística, la
uniformidad del tratamiento que le dan los textos es casi total (y se reduce en lo esencial al
contenido que se expuso en aquellas Secciones); ello hace pensar a muchos que la interfase
entre la teoría y la práctica correspondiente está completamente consolidada y carece de
fisuras.
Desde hace relativamente poco tiempo contamos, incluso, con una especie de portavoz de
ese oficialismo: un libro exclusivamente destinado al tema, debido a Lemeshow, Hosmer,
Klar y Lwannga (1990), ahora publicado por la prestigiosa editorial Wiley, pero heredero del
manual de Lwanga y Lemeshow (1989), publicado entonces varias veces por la
Organización Mundial de la Salud. La existencia de este libro, titulado Corrección del
tamaño muestral en estudios de salud, constituye, por su alta especificidad temática, una
magnífica referencia para el examen que sigue.
Para el caso de estimar un porcentaje bajo MSA, se recordará (Sección 3.7) que la
fórmula universalmente aceptada es la siguiente:
n=
n0 12.1
n -1
1+ 0
N
donde
Z 1-/2 (100 - )
2
n0 = 2
12.2
E0
L.C.Silva
Se plantea que usualmente "se puede tener una idea aproximada" del valor de a partir de
un estudio piloto, o de una investigación similar realizada anteriormente78.
Imaginemos que se trata de una población de N = 2800 sujetos hospitalizados sobre la que
se realiza un estudio de satisfacción. Admitamos, como es usual, que se trabajará con una
confiabilidad del 95 % ( = 0,05 ) y que un E 0 = 3 % se considera aceptable. Finalmente,
consideraremos = 86 % , "idea aproximada" que se ha obtenido, por ejemplo, a partir de
un estudio anterior. Así las cosas, la aplicación de [12.1] y [12.2] arroja que n = 434 .
Ahora bien, ésta es la solución que se da al caso en que se usa el muestreo simple aleatorio.
Si el diseño muestral es otro, en particular si se trata de un muestreo en etapas (que es el
que se utiliza por lo menos 90 de cada 100 veces en la práctica), el error que regularmente
se comete al estimar es mayor que el corresponde al MSA (supuesto, desde luego, que
se está usando el mismo tamaño de muestra). Dicho de otro modo: con muestreo por
conglomerados, para alcanzar el grado de precisión prefijado, es necesario seleccionar una
muestra de tamaño mayor que el que demanda el MSA.
78
Otra variante consiste en poner
Install Equation Editor and double-
directamente click here to view equation. ; de ella ya nos
ocuparemos específicamente en la Sección 12.8.2.
L.C.Silva
Hasta aquí, la síntesis de la "solución oficial" para la situación más simple dentro de los
estudios descriptivos. Como veremos de inmediato, este planteamiento contiene
demasiadas píldoras difíciles (algunas, imposibles) de tragar. Lamentablemente, el discurso
oficial tiende a ejercer un tipo de censura que silencia casi todos los problemas reales, o
suple su solución con formulaciones académicas de escasa o nula aplicabilidad. Varios
puntos son usualmente omitidos (algunos, a cal y canto) cuando se aborda el tema. A
continuación se analizan seis de ellos tomando como paradigma, nuevamente, el caso más
simple: la estimación de en el contexto descriptivo y del MSA79.
¡Menudo círculo vicioso!: todo el proceso tiene como finalidad conocer el valor de pero,
para empezar a desarrollarlo, es necesario conocer precisamente . Nótese que no se trata
de un detalle lateral: un enfoque riguroso aconsejaría detener el proceso en este punto por
elementales razones de coherencia. El planteamiento es análogo, por poner un ejemplo, a
que un viajero que se halle en La Habana y quiera trasladarse a Madrid, solo pueda adquirir
el billete de avión que lo conduzca a Madrid acudiendo personalmente... a una oficina
radicada en Madrid.
79
Para casos más complejos, la situación no hace sino agravarse
L.C.Silva
La "pre-estimación" de es, desde luego (lo anterior ya nos convence de ello), un acto
intrínsecamente cargado de subjetividad. Pero vale la pena recalcarlo con la siguiente
consideración: puesto que vamos a trabajar con "una idea aproximada" del valor de P ,
estamos condenados a conocer solo "una idea aproximada" del valor de n necesario. Si
aquella aproximación fuera mala (muy errónea), así será el tamaño muestral, algo altamente
inconveniente. Pero si, en cambio, estuviéramos verdaderamente persuadidos de que la
pre-estimación de fuera muy cercana a su verdadero valor, entonces la situación sería
directamente absurda, porque en tal caso no haría falta hacer tal estimación, y;
consiguientemente, mucho menos necesario sería el cómputo de n .
Por otra parte, se supone que hay un "error máximo" que se puede aceptar; sin embargo, no
siempre resulta fácil la identificación a priori de esa cota. Esta tarea exige del investigador
que piense en unos términos para los que con frecuencia no está preparado. Pero esto no
es atribuible al método, sino a sus usuarios. Lo verdaderamente crucial es comprender que,
ineludiblemente, se trata de una decisión esencialmente subjetiva. Volvamos al ejemplo:
¿qué error ha de considerarse suficientemente pequeño como para que resulte admisible?
No parece existir árbitro alguno que determine sin margen para el debate si un error de un 3
% (cómo habíamos supuesto en el ejemplo) es admisible; o si, para que lo sea, éste no debe
exceder, por ejemplo, el 2 % de pacientes satisfechos. Algo muy similar ocurre con la
confiabilidad 1 - . ¿Tomar 0,95 %? ¿o 0,99 %, como sugieren otros con no menos
argumentos?
A todo este monto de subjetividad hay que añadir la que se deriva de que los diseños son,
por lo general, totalmente diferentes al muestreo simple aleatorio. Como bien sabemos, los
errores muestrales -en el caso de muestras complejas- no solo dependen del tamaño total
de la muestra, sino también de las asignaciones muestrales a los estratos y de los tamaños
de muestra en las etapas intermedias (es decir, del número de conglomerados en cada
etapa y de los tamaños muestrales dentro de los que se elijan) cuando, como ocurre casi
siempre, se usa muestreo polietápico. Este hecho, cuando no se pasa por alto, se resuelve
a través del coeficiente expansor del tamaño muestral: deff . Aquí comparece un acto de
prestidigitación numérica: el libro destinado a dar soluciones técnicamente fundamentadas
se limita (como consignamos en la Sección 12.3.1) a comunicar que el deff "pudiera
estimarse como igual a 2". Naturalmente, lo esperable es que el investigador que acuda al
libro para buscar su receta, proceda siempre de ese modo: multiplicar por dos el tamaño
muestral obtenido bajo el supuesto de MSA. En el recurso de ayuda que aparece en el
módulo STATCALC de EPIINFO, en concordancia con el talante más realista que
caracteriza a este sistema, se sugiere elegir un deff entre 1.5 y 2,0, variante más flexible,
pero no menos subjetiva (e, incluso, arbitraria).
L.C.Silva
Uno se pregunta, ¿para qué tantas fórmulas previas y tantas tablas, si a la postre hay que
multiplicar el número tan arduamente obtenido por dos, un factor balbuceado a partir de una
especulación cuya pertinencia es totalmente discutible? Se podría argüir que el efecto de
diseño "suele ser de esa magnitud". Pero es falso: basta echar una ojeada a algunos
estudios que calculan los deff para corroborar que este número cambia radicalmente de
una encuesta a otra, de un diseño muestral a otro y que, incluso dentro de la misma
encuesta y del mismo diseño, suele modificarse notablemente en dependencia del
parámetro elegido. Por ejemplo, en un estudio ad hoc relacionado con encuestas
demográficas y de salud Verma y Le (1996) comunican valores de deff que van desde 1
hasta 9, con una media de 2,25. Lo cierto es que con el deff se hace la contribución final a
la de por sí abultada colección de elementos subjetivos que inexorablemente intervienen en
este proceso.
A modo de ilustración del efecto que puede tener tal carga subjetiva, computemos los
tamaños de muestra que se obtendrían con dos juegos de posibles decisiones adoptables en
el marco de las alternativas que hemos venido considerando. La Tabla 12.1 recoge los
resultados correspondientes a dichos dos juegos (ambos igualmente razonables y,
ciertamente, escasamente discordantes), computados usando [12.1], [12.2] y [12.3].
Tabla 12.1 Tamaños muestrales necesarios para estimar cierta prevalencia según
dos juegos de decisiones iniciales.
Alternativa 1 Alternativa 2
Quiere esto decir que dos investigadores independientes, siguiendo la misma estrategia
general (usando las mismas fórmulas para la estimación del mismo parámetro), obtendrían
tamaños abismalmente diferentes, solo por el hecho de que aprecian (legítimamente
ambos) de manera ligeramente distinta80 los valores que deben darse a los elementos que
las fórmulas demandan. ¿Podrá mantenerse que, al usar las fórmulas, se está empleando
un método medianamente objetivo?
80
Pudiera pensarse que la diferencia entre una confianza del 95 % y
una del 99 % no es "pequeña"; pero debe recordarse que, si se
decidiera trabajar con confiabilidad mayor del 95 %, según el
ritual consagrado, se escogerá 99 %, nunca 96.7 % ó 98.3 %. De
modo que si alguien siente que 95 % no es un número
suficientemente grande, habrá de admitir que 99 % es
"cualitativamente" el número más cercano a 95 % por el que se
optaría.
L.C.Silva
Por otra parte, cualquier investigador honesto reconocerá que, usualmente, ha llevado el
proceso de determinación de tamaños muestrales al revés: ha ido escogiendo los valores de
, , E 0 y deff de manera tal que la fórmula [12.3] arroje aquel valor n que, más o menos,
ha decidido de antemano. Es precisamente el marco de subjetividad que inevitablemente
padece el proceso el que permite, promueve, e incluso da cierta legitimidad a tal
manipulación.
Una encuesta, en la realidad, nunca se proyecta para estimar uno o dos parámetros, sino
que normalmente exige realizar decenas o incluso cientos de estimaciones. Debe notarse
que una tabla demanda una estimación por cada celda y, en ocasiones, suelen construirse
muchas tablas con varias celdas en cada cual. Es evidente, entonces, que no resulta
demasiado práctico aplicar fórmulas como la examinada para cada uno de estos parámetros.
Por lo pronto, a nadie, que yo sepa, se le ha ocurrido sugerir tal tontería.
Pero, aunque ello fuese factible, y aunque se contara con información disponible para
hacerlo, nos encontraríamos con un panorama contraproducente: los tamaños que
demandarían las diferentes estimaciones recorrerían, probablemente, un amplísimo espectro
de valores, todos candidatos a ser el tamaño muestral con el que a la postre se trabajaría
(este sí, necesariamente único).
Esta polivalencia suele ocultarse bajo la premisa de que se puede elegir el parámetro "más
importante" (en el mejor de los casos, "los dos o tres más importantes"). Obviamente,
incluso suponiendo que tuviera sentido hacer tal discriminación81, el margen de subjetividad
para decidir cuáles son tales "parámetros más importantes" es enorme. Y aun así, esos
"más importantes" pueden dar lugar a números muy dispares entre sí.
81
Es muy probable que no existan parámetros "más importantes": los
problemas suelen exigir enfoques integrados, que superen su
desconcatenación metafísica en parcelas.
L.C.Silva
Lo usual es que se seleccione una muestra general de unidades luego se hagan, además
de análisis globales, otros circunscritos a subconjuntos de la población, basados -natu-
ralmente- en los correspondientes subconjuntos muestrales, cuyos tamaños son
necesariamente menores (a veces mucho menores) que el de la muestra original.
En síntesis, lo que se quiere subrayar en este punto es que, al computar un tamaño muestral
empleando fórmulas, normalmente se actúa pensando en estimaciones para la población
completa; pero el error "máximo" que se está dispuesto a cometer y que se usa con el fin de
realizar aquella determinación, resulta mucho menor que el que verdaderamente se comete
en "el fragor" de la tabulación verdadera. Ejemplos reales de este fenómeno se exponen
detalladamente en las Secciones 12.6 y 12.8.3.
Realizar el análisis del tamaño muestral sin pensar en términos de eficiencia carece de sen-
tido: si no hubiese limitaciones de recursos, en muchos casos no se plantearía siquiera el
uso de muestras, sino que se investigaría íntegramente la población. Las disponibilidades
de tiempo, personal y presupuesto deben ocupar (y de hecho ocupan) un lugar determinante
en las decisiones, aunque muchas veces la influencia de esta limitante se ejerza de manera
implícita o solapada.
Debe decirse que existen numerosos esfuerzos teóricos para hacer intervenir los aspectos
económicos en la solución del problema del tamaño de muestra. Por ejemplo, a lo largo del
libro de Hansen, Hurwitz y Madow (1953) el lector hallará no pocos desarrollos formales
acerca de cómo determinar valores óptimos para el número de conglomerados, o para las
asignaciones de tamaños a estratos, en diseños que involucran ese tipo de decisiones. Se
trata, sin embargo, de fórmulas -en general extremadamente abigarradas- cuya aplicación
exige especificaciones cuantitativas previas sobre costos y variabilidades que solo pueden
conocerse de antemano mediante el procedimiento de ... inventarlas.
q=
Ww C2
n=
1 Ww C1
m=
C
12.4
2 2
W b - W w /Q C3 q B C3 C1 + C 2 n + C3 n q
Usualmente se computa un tamaño muestral para estimar una media o un porcentaje dados,
y se opera con la fórmula correspondiente. Pero más tarde, en el estudio propiamente dicho,
suelen hacerse estimaciones de todo tipo de parámetros, tales como coeficientes de
correlación, pendientes de regresión o coeficientes de concordancia.
83
Por ejemplo, Hsieh (1989) ha hallado una solución para el tamaño
muestral exigido al aplicar una regresión logística en el caso del
MSA. No creo que exista para el caso de la regresión logística
bajo muestreo en etapas, aunque no sería demasiado difícil
construir una propuesta.
84
Debe consignarse que este fenómeno se produce con menos intensidad
que en los estudios descriptivos. En algunos estudios (sobre todo
en el ambiente clínico) puede ocurrir que se realice una única
prueba de significación.
L.C.Silva
d. Los problemas de costo son tanto o más influyentes en este tipo de estudios
que en los descriptivos. Siempre recuerdo que, a poco de concluir mis
estudios universitarios especializados en estadística matemática, me tocó
asesorar a un bioquímico que planificaba un experimento con ratones de alta
pureza génica quien quería conocer a cuántos de ellos debía aplicar cierto
tratamiento estrogénico y a cuántos no. Empleadas las fórmulas de mis
libros, obtuve cifras del orden de las centenas; pero unos minutos más tarde
quedé paralizado por el dato de que, bajo concepto alguno, se podía aspirar a
trabajar con mas de 40 ratones en total, debido al elevadísimo costo de cada
uno. Tal restricción, por otra parte era consistente con lo que recogía la
literatura al uso sobre el tema.
Algunas de las fuentes de subjetividad que plagan, como hemos visto, a este proceso son
ocasionalmente reconocidas en tal calidad por la literatura, pero lo típico es que no se haga
mención alguna a ellas, o se den "explicaciones" doctrinarias como la que aparece en un
reciente artículo (Mejía, Fajardo, Gómez y col., 1995):
Curiosa afirmación; lamentablemente, lo que no nos dicen Mejía y sus ocho colaboradores
es por qué es mejor hacer suposiciones extremadamente arbitrarias sobre los datos de que
depende el tamaño muestral antes que elegir ese tamaño directamente desde nuestra
subjetividad.
L.C.Silva
Como ya expuse antes, la mayoría de los textos y de los profesores pasan por alto estas
realidades. Afortunadamente, hay algunas excepciones; una de ellas es, en mi opinión,
notable, pues se encuentra en el famoso libro de Rothman (1986) quien, aunque sin
desarrollar las ideas in extenso, reconoce con crudeza la inviabilidad de una solución teórica
cuando escribe:
Lo más importante es comprender que cualquiera que sea el tamaño de muestra, tanto los
errores de muestreo como la probabilidad de rechazar erróneamente una hipótesis de
nulidad pueden ser calculados a posteriori. O sea, tanto las fórmulas para el cómputo de
errores como las de los estadígrafos en que se basan las pruebas de hipótesis contemplan
explícitamente los tamaños muestrales empleados; en ambos casos la estructura de esas
fórmulas es tal que el investigador se verá imposibilitado de sacar partido concluyente a la
información si el tamaño de la muestra fuera insuficiente.
85
No en balde el notable sociólogo norteamericano Wright (1961)
lanzaba varias décadas atrás la exhortación: "¡Metodólogos: a
trabajar!"
L.C.Silva
Los investigadores reales, en cambio, no pueden usar el cómodo recurso de hacerse los
entretenidos, pues verdaderamente necesitan de un tamaño muestral concreto, no para
hacer manuales basados en recetas mágicas, sino para llevar adelante estudios tangibles.
¿Cuál es, finalmente, la recomendación que han de seguir estos últimos ante tan acuciante
exigencia práctica, que no puede esperar por soluciones que hoy se ignoran?
Como siempre, roto el hechizo, todo es simple. No me sonrojo al decir que, a partir de los
recursos disponibles, resulta preferible usar el sentido común y tener en cuenta los tamaños
usados en trabajos similares (es decir, incorporar el sentido común de los demás). Porque
cada problema tiene, no lo olvidemos, una historicidad a la que debe prestarse atención.
Así, por ejemplo, un estudio longitudinal de 200 sujetos sanos para estudiar los factores de
riesgo convencionales para las cardiopatías resulta, a estas alturas, "históricamente"
absurdo. Después de contar con resultados como, por poner un ejemplo, el estudio de
Framingham, en que se ha operado con cohortes de miles y miles de sujetos, ninguna
fórmula puede justificar que trabajemos con 200 individuos.
Cabe aclarar, por lo demás, que no tengo ninguna enemistad principista hacia las fórmulas;
no necesariamente me parece mal que se empleen en ciertos casos siempre que se haga de
modo flexible, se reconozcan sus enormes limitaciones y se complementen con una reflexión
crítica y abarcadora.
La negativa a colaborar, como fenómeno social, ha ido creciendo con el tiempo (Steeh,
1981; Kessler, Little y Groves, 1995) hasta el punto de haberse triplicado las tasas de no-
respuesta en 20 años desde los años 50, especialmente en sociedades de mayor desarrollo
económico. Es hoy un problema de gran vigencia (véase, por ejemplo, Smidt y Tortora,
1998).
Supongamos que se toma una MSA de n unidades, pero que de ellas sólo responden n1 .
Estas n1 , respuestas no serían más que las que corresponden a los integrantes de una
muestra (que puede considerarse simple aleatoria) de la subpoblación de respondedores.
Llamemos x a dicha media muestral, que es, como sabemos, un estimador insesgado de
X 1 . Si recordamos que el sesgo de x es igual a E ( x - X ) , puede corroborarse, tras un
poco de álgebra, que dicho sesgo es igual a:
E( x ) - X = X 1 - X = (
N2
)( X 1 - X 2 ) 12.5
N
L.C.Silva
Ambos resultados son muy intuitivos. Pero [12.5] nos dice algo más: si hay diferencias entre
las medias para las dos subpoblaciones, entonces la magnitud del sesgo se incrementa en la
medida que crezca la fracción de sujetos que no responden. Lamentablemente, es frecuente
que X 1 sea diferente de X 2 ; cuando esto ocurre, se dice que la respuesta a X es
selectiva. Eaton y col (1992), por ejemplo, han comunicado que en sus estudios de salud
mental la no respuesta es significativamente mayor en personas con desórdenes
psiquiátricos que en el resto.
Consecuentemente con [12.5], para disminuir el sesgo se puede hacer una de dos cosas (o
ambas): tratar de disminuir la fracción
N 1 , y tratar de conocer la magnitud de
X 1 - X 2 para
N
suplir el estimador inicial x por un estimador corregido que emplee tal información. Antes de
examinar estas alternativas, veamos una ilustración.
Imaginemos que en una pequeña comunidad hay N = 1500 adultos y que se quiere estimar
el porcentaje de sujetos que se cepillan los dientes al menos tres veces al día. Supongamos
que el 30 % de ellos ( N 2 = 450) se negarían a responder tal pregunta. Supongamos
también que solo el 50 % de estos últimos (225) tienen el hábito en cuestión, mientras que lo
tiene el 80 % de los N 1 = 1050 que estarían dispuestos a contestar. Así las cosas, el sesgo
ascendería a (0.3) (80 - 50) = 9 ; es decir, en estas condiciones se produciría una
(1050)(80) + (450)(50)
sobreestimación del 9 %. En efecto, el verdadero porcentaje es = 71
1500
y no 80 , como arrojaría la muestra.
Con un basamento sociológico de otro orden, se han sugerido estrategias tales como avisar
de antemano a los sujetos seleccionados que serán visitados, elegir racional y
cuidadosamente la apariencia del encuestador, así como pautarle escrupulosamente el
modo en que habrá de conducirse, y el empleo de incentivos materiales o monetarios para el
encuestado.
El aviso a través de una carta (recurso que no siempre procede) parece tener un efecto
significativo en el aumento de las tasas de respuesta (véanse los estudios experimentales de
Dillman, Gallegos y Frey, 1976).
Los incentivos (monetarios y materiales) con vistas a incrementar las tasas de respuesta en
las encuestas han sido empleados desde hace muchos años. Se han aplicado dos
modalidades fundamentales: la entrega a priori del incentivo, y el ofrecimiento de éste en un
primer contacto. Tal recurso ha sido objeto de estudio cuidadoso, tanto para el caso de
"encuestas cara a cara" como en el de las telefónicas. Erdos (1970) discute detalladamente
el tema para el caso de las encuestas postales, y un examen reciente puede hallarse en
Church (1993), quien realizó un meta-análisis que involucró cerca de 40 estudios y concluyó
que los estudios en que se aplicaba un prepago conseguían incrementar como promedio las
respuestas en casi 20 puntos de porcentaje. Cuando se daban regalos (gifts) en lugar de
dinero, el efecto era mucho menor. Resulta interesante que, según este trabajo, el monto del
pago monetario era ciertamente reducido (menos de 1.50 dólares como promedio). Singer
y col (1996), en un estudio similar de 30 artículos destinados a evaluar el efecto de tales
incentivos, corroboraron en lo esencial aquellos resultados.
Una de las vías más aplicadas y estudiadas para encarar la ausencia de un dato (los missing
data de la literatura sajona) es la llamada imputación. Esto significa que los datos faltantes
son suplidos por otros, usualmente surgidos de los cuestionarios que sí los contienen.
Además del interés que despierta como solución ante posibles sesgos, el proceso de
imputación genera matrices de datos rectangulares sin omisiones en sus celdas, lo cual es
altamente conveniente a los efectos de ciertos análisis avanzados.
Los métodos de imputación son diversos. El más simple consiste en sustituir cada valor
faltante por la media aritmética de los valores procedentes de la parte de la muestra para la
que dicho dato se conoce. Es también el más burdo. Un defecto importante es que, si hay
muchos valores perdidos y sustituidos por la media, se producirá una homogeneidad artificial
erróneamente reductora de la estimación de errores. Un refinamiento dentro de la mima
línea consiste en formar grupos de sujetos "similares" y computar las medias dentro de cada
grupo, de modo que el valor faltante se suple con la media de la variable para el subgrupo al
que pertenece.
L.C.Silva
Otra alternativa similar, pero aun más refinada consiste en atribuir valores resultantes de un
análisis de regresión. La curva de regresión se estima empleando los records (sujetos) para
los que se cuente con las respuestas a todas las variables involucradas en el proceso; es
decir, usando tanto la variable que será objeto de imputación como las variables que, por
considerarse que tienen algún valor predictivo, se hayan incorporado en dicho modelo.
Otro procedimiento empleado es el método conocido como cold deck. En esencia se trata
de tomar los valores de un "sujeto parecido" al que tiene valores perdidos y atribuírselos. Se
pueden hallar detalles de éste y otros procedimientos (como el hot deck method) en Allen
(1990), Verboon y Nordholt (1997) y en Nordholt (1998). Finalmente, cabe mencionar
técnicas más especializadas, como la imputación múltiple, descrita en Rubin (1996) y Fay
(1996).
n n
donde f = , W es la fracción poblacional de no respondedores, h = 2 , S 2 es la
N m
varianza de X para toda la población y S 22 la de los no respondedores. Ocasionalmente se
asume que S 2 = S 22 , con lo cual se simplifica el proceso. Nótese que si se cumple esta
condición y, además, h = 1 (es decir, que todos los no respondedores son submuestrados),
entonces las fórmulas de xc y Var( xc ) se reducen a las conocidas para MSA.
Por su naturaleza, todos los enfoques para resolver este problema pasan, de un modo u
otro, por el uso de la estadística. Los aspectos polémicos, como se verá de inmediato,
conciernen solo tangencialmente al proceso de selección. Se vinculan, más bien, con
la identificación adecuada de la población que debe investigarse y al tratamiento que se dé a
los datos, y por ende con la estimación. Esta sección reproduce en buena medida ideas
desarrolladas en Silva (1997) debido a que también son relevantes en materia de muestreo.
El modo más común de presentar valores de referencia para los parámetros fisiológicos es a
través del llamado recorrido de normalidad. Por ejemplo, para la creatinina, se plantea que
los valores normales correspondientes a un hombre adulto están dentro del intervalo que va
de 7 a 18 mmol/24h. Consecuentemente, un sujeto que tenga un valor por debajo de 7 o por
encima de 18 mmol/24h sería considerado, en lo que a la creatinina concierne, "anormal".
Uno de los procedimientos estadísticos más utilizados para fijar ese tipo de intervalos es en
extremo simple. Comienza con la selección de una muestra de una población de individuos
que supuestamente no tienen patológicamente alterado el parámetro en cuestión. El
procedimiento habitual exige establecer ciertos "criterios de exclusión" (que usualmente se
aplican a la muestra una vez elegida, y no a la población) concebidos para eliminar
individuos evidentemente "anómalos". Por ejemplo, para hallar valores de referencia para la
talla, se eliminarían de la muestra los acromegálicos y los que padecen de enanismo (si los
hubiera).
L.C.Silva
Esta estrategia nace de una propuesta formulada por Ronald Fisher con el afán de
identificar los "valores más comunes" (los que se ubican en el intervalo [L1 , L2] ) y los "poco
comunes": el 5 % que se reparte entre los extremos. Buscar valores L1 y L2 que cumplan
(A), (B) y (C) es una decisión totalmente arbitraria, vinculada a una propiedad de la
distribución normal, pero sin verdadero asiento en consideraciones relacionadas con el
problema visto desde una perspectiva clínica o fisiológica.
a. Con todo derecho uno puede preguntarse: ¿por qué elegir el 5 % para identificar a
aquellos individuos que están "fuera de la normalidad"? ¿Por qué no 4 % ó 6.2 %?
b. ¿Por qué exigir una relación de simetría? Si se decidió que 95 iba a ser el porcentaje
de "normales", ¿cuál es la razón para repartir el 5 % restante en partes iguales?
d. Finalmente, puede ocurrir que 2s sea mayor que x ; en ese caso L1 sería inferior a
cero, situación que, salvo excepciones, carecería de todo sentido, ya que usualmente
los parámetros fisiológicos no pueden alcanzar valores negativos.
86
Naturalmente, si la muestra no fuera equiprobabilística, se
emplearían las ponderaciones correspondientes
L.C.Silva
Supuesto que se admite el procedimiento de hallar L1 y L2 con "la regla del 95 %", una
solución para las objeciones c. y d. consiste en trabajar con la misma muestra pero usar es-
timaciones no paramétricas de L1 y L2 ; concretamente, operar con percentiles empíricos:
una vez ordenados todos los valores de la muestra de menor a mayor, L1 se define como
aquel número por debajo del cual se ubica el 2.5 % de sus integrantes; análogamente, el
número por debajo del cual queda el 97.5 % de los individuos de la muestra se puede
aceptar como L2 .
Obviamente, por una parte se cumplirán las tres condiciones, sea la distribución gausiana o
no y, por otra, la última dificultad (límite inferior negativo) nunca habrá de presentarse.
Ahora bien, fijar L1 y L2 como límites para establecer la normalidad, cualquiera sea la vía
utilizada, parece entrañar algunas contradicciones difíciles de pasar por alto.
Se exige partir de una muestra de cierta población que sea considerada, en principio, sana.
Pero el método es tal que el 5 % de la muestra que se elija para establecer los límites
necesariamente terminará siendo "anormal", hecho que nos coloca en una aparente
contradicción, pues si los integrantes de la población son sanos a los efectos de ese
parámetro, también lo serán los de la muestra, y por tanto ella no puede a la vez contener
sujetos con valores patológicos.
Imaginemos que se quieren conocer los "valores normales" para las funciones pulmonares
(capacidad vital, capacidad vital forzada en un segundo, etc). ¿Qué debemos entender por
una población sana de la cual tomar la muestra?
Algunos opinan que debe tomarse una muestra representativa de la población general,
excluyendo solo a aquellos de cuya condición patológica (en lo que se refiere a dolencias
que comprometan la función respiratoria, tales como la silicosis o el cáncer pulmonar) se
tenga constancia. Otros consideran que deben eliminarse a priori, por ejemplo a los
fumadores, ya que la función pulmonar de éstos se ha modificado artificial y negativamente
como consecuencia del tabaquismo. Pero, en esa misma línea, otros podrían exigir que
tampoco se admitieran sujetos sedentarios en la muestra, pues el buen funcionamiento pul-
monar demanda practicar ejercicios regularmente. Y aun podría exigirse que la muestra
estuviese exclusivamente integrada por montañeses, que no solo no fuesen fumadores ni
sedentarios, sino que nunca o casi nunca hubiesen respirado monóxido de carbono, con lo
cual su sistema respiratorio conservaría el estado más próximo posible a su constitución
fisiológica original.
L.C.Silva
En este punto cabe recordar que las acciones como las que estamos discutiendo nunca son
un fin en sí mismo, sino que se llevan adelante para algo concreto. Imaginemos que,
empleando estos límites obtenidos a través de una muestra de personas con su sistema
respiratorio en óptimas condiciones con acuerdo al más restrictivo de los criterios, se valora
al conjunto de trabajadores de una planta textil en el contexto de un tamizaje organizado por
autoridades de salud ocupacional. Con ese rasero, ¡quizás todos resulten ser anormales! La
muestra elegida para fijar el criterio diagnóstico sería tan "normal" que lo más común y
corriente resultaría ser anormal.
Es imposible escapar de este laberinto mientras no se delimite para qué se está procurando
encontrar los susodichos valores de referencia. Si lo que se quiere, por ejemplo, es
conocerlos con la finalidad de establecer una regulación de carácter jurídico, según la cual
un trabajador que presente valores anómalos resulte beneficiado con un período de
descanso o algún tipo de compensación, entonces la muestra apropiada sería la de la
población general, fumadores incluidos. Si lo que se estudia es el efecto de cierta exposición
ocupacional a través de la desviación atribuible a los contaminantes ambientales cuando se
comparen dichos valores con los de referencia, entonces la muestra más adecuada sería la
de los montañeses no fumadores. Si los valores en cuestión se desean como elementos
orientativos para la práctica clínica regular, entonces es menester que razonemos en
términos relativos a la circunstancias socio-históricas del espacio o enclave en que dicha
práctica ha de ejercerse, tal y como se fundamenta en la sección siguiente.
Para comenzar hay que reparar en cuán artificial resulta el afán dicotomizador que lleva las
cosas al plano polar: "normal-anormal". En un magnífico artículo sobre este tema, Murphy
(1973), refiriéndose al conflictivo ejemplo de las dolencias mentales, escribe:
Y tras un análisis de las consecuencias y los riesgos implícitos en tal enfoque, señala que la
línea divisoria entre la normalidad y la anormalidad es muy frecuentemente arbitraria
(aunque no caprichosa, que es algo bien diferente) y que, cuando se establece, ello se debe
solamente a un imperativo operacional, ya que sin tal demarcación sería imposible adoptar
ciertas decisiones, por ejemplo, en el ámbito jurídico. En relación con esto, reflexiona:
¿En qué punto de su desarrollo la sociedad decidió que el tonto del pueblo ya
no debía ocuparse de barrer las calles o llevar las vacas a pastar y fue puesto
bajo el amparo de una institución? Es difícil evitar la conclusión de que la
respuesta simplemente es: «Cuando la sociedad estuvo en condiciones de
asumirlo».
L.C.Silva
Este carácter relativo de las acciones, que se verifican más en función de las posibilidades
reales que a partir de identificaciones intrínsecas de "anormalidad", se aprecia en hechos
como que el desarrollo de la sociedad contemporánea consiente, al menos en los países
económicamente más avanzados, que los oftalmólogos receten gafas graduadas al 95 % de
la población adulta general, cuya capacidad visual estaría, por definición, "dentro del
recorrido normal". Cabe recordar a Illich (1975) cuando señalaba que "toda dolencia es una
realidad que posee una configuración social; tanto su significado como la reacción a que da
lugar tienen una historia".
En principio, no hay ningún derecho a considerar que los límites que definen al intervalo en
que se ubican los valores menos habituales o menos distanciados de la mediana -por
ejemplo, los correspondientes al 95% de los individuos que no se hallan en los extremos de
la distribución- sirvan para marcar la "normalidad" en el sentido clínico del término. Así lo
han advertido varios autores; por ejemplo, Riegelman y Hirsch (1992) sintetizan
adecuadamente esta realidad al señalar que "el intervalo de lo normal es descriptivo y no
diagnóstico".
Por otra parte, estas consideraciones nos llevan de la mano a la siguiente recomendación:
los recorridos de normalidad exigen correcciones periódicas en el tiempo; en la medida de lo
posible, además, deben establecerse para diversos subgrupos poblacionales bien definidos
(géneros, etnias, grupos de edad, zonas geográficas, etc), que a su vez han de interpretarse
mediante la conjunción de valoraciones técnicas y socioculturales. Solo en tal caso
adquieren un sentido cabal.
A pesar de que implica que nos separemos por excepción del ámbito de la salud, es
insoslayable encarar este problema con rigor, aunque solo fuera porque estos hechos
comprometen gravemente la imagen y el prestigio de las técnicas estadísticas y del
muestreo ante la opinión pública y, peor aun, distorsionan la visión que puedan tener de esta
disciplina otros profesionales de la ciencia no especializados en el tema.
Error de muestreo: asumiendo los criterios de muestreo aleatorio simple, para un nivel
de confianza de 95.5 % (dos sigmas) y para la hipótesis más desfavorable (p=q=50), el
error para el total de la muestra sería de ±3,5 %
L.C.Silva
Si se quiere comprender esa información, es menester tener respuestas para las siguientes
preguntas: ¿Qué debe entenderse por "fijar" entrevistas? ¿A qué le llaman "región"? ¿Qué
es "hábitat" en este contexto? ¿Qué significa "ampliación de cuotas de sexo y edad"?
Demasiadas dudas para un texto de 30 palabras. Uno se pregunta: ¿qué sentido tiene
brindar una información "técnica" que resulta ininteligible, incluso para especialistas?
Es curioso, además, constatar que un texto tan alejado de la transparencia deseable para
una comunicación que, aun siendo de prensa, supuestamente tiene carácter científico,
parece constituir una cómoda horma general. Por ejemplo, cinco años después, y a raíz de
las elecciones primarias del Partido Socialista Obrero Español, El País (1998b) publicaba la
siguiente "ficha técnica" en el contexto de una de sus encuestas habituales:
Error de muestreo: asumiendo los criterios de muestreo aleatorio simple, para un nivel
de confianza de 95.5 % (dos sigmas) y para la hipótesis más desfavorable (p=q=50), el
error para el total de la muestra sería de ±2,9 %
L.C.Silva
Un cotejo detallado entre el contenido de los recuadros precedentes permite apreciar lo que
no pasa de ser un acto de clonación; ¿será que estos dos diseños carecen de
especificidades propias dignas de ser comunicadas? Sería sorprendente que así fuera,
máxime cuando la encuesta de 1993 fue telefónica y la de 1998 cara a cara.
Como bien sabemos, es completamente injustificable decir que la encuesta tiene tal o más
cuál nivel de confianza. Con ese recurso se da una falsa imagen de alta calidad. La
afirmación carece de sentido, pues la confianza que se pueda depositar en una estimación
será mayor o menor en dependencia de que se haya decidido trabajar con una u otra
confiabilidad (es decir, el error estimado se supedita al coeficiente de confiabilidad que se
haya elegido). Sin embargo, tal y como está escrito en la susodicha ficha, da la impresión de
que la confianza que uno puede tener en la encuesta es muy alta (del 95,5 %). De hecho, se
está jugando con la ambivalencia del término confianza, que en el lenguaje habitual tiene un
valor semántico diferente del sentido técnico con que se emplea en el muestreo.
A finales de 1997 me dirigí al "Defensor del lector" de ese periódico para comentarle este
desatino. Me permito reproducir una parte sustancial de su respuesta (Gor, 1998):
Unos meses después, ante otra de las encuestas a cargo de esa empresa, me interesó,
naturalmente, ver qué solución se había hallado para no incurrir en el error tan rotunda y
honestamente admitido. Me asombró encontrar que los técnicos de Demoscopia,
impertérritos, incluían el siguiente texto: "la encuesta tiene un nivel de confianza del 95,5 % y
un margen de error de ±2,9 para el total de la muestra" (El País, 1998a). Es evidente que
hay algo, nebuloso e inquietante en todo esto.
L.C.Silva
En ocasión de aquel intercambio de opiniones, tuve a bien sugerir una solución que me
parecía (y me sigue pareciendo) óptima para resolver con toda transparencia el conflicto (la
«cuadratura del círculo» a que aludía el defensor del lector): publicar la encuesta con una
ficha informativa muy general, que solo abarque aquello realmente comprensible por
cualquiera -por tanto, exenta de todo tecnicismo-, y que comunique que todo aquel lector
interesado en los detalles técnicos se dirija al sitio WEB de la empresa responsable del
estudio. Naturalmente, si se colocara dicho informe técnico detallado en el sitio WEB de
Internet, no habría que preocuparse por las lógicas restricciones de espacio que rigen en la
prensa. Todos, al menos teóricamente, ganaríamos: la empresa podría explayarse, los
especialistas podrían satisfacer cualquier duda, y los lectores tendrían la tranquilidad de que
la encuesta puede ser evaluada, llegado el caso, por especialistas cualificados.
Lamentablemente, las empresas que se ocupan de estos temas parecen preferir que una
solución tan simple y eficiente como esta no se adopte. Ignoro con qué argumentos, pues
hasta ahora no se han dado, a la vez que se mantiene la práctica habitual sin mayor (ni
menor) rubor.
Nos comunican que solo 431 entrevistados lo vieron durante un lapso suficiente largo como
para opinar, y casi todo el resto del análisis se remite a ese número de espectadores. Por
ejemplo, a continuación se preguntó:
y registran los siguientes resultados según las tres grandes agrupaciones políticas
españolas:87
Partido Partido Izquierda
Socialista % Popular Unida
% %
Felipe González 55 0 25
José M. Aznar 28 94 34
Los dos por igual 7 3 29
Ninguno de los dos 13 1 12
87
Nótese que la suma de porcentajes dentro del Partido Socialista
asciende absurdamente a 106 %. No es una errata de este libro: así
aparece en el informe de Demoscopia.
L.C.Silva
No sabe/no contesta 3 1 0
e = Z 1-/2
p (100 - p)
12.6
n-1
Recordemos lo que textualmente decía en su ficha técnica el artículo que nos ocupa sobre el
error de muestreo: "asumiendo los criterios de muestreo aleatorio simple, para un nivel de
confianza de 95.5 % (dos sigmas) y para la hipótesis más desfavorable ( p = q = 50 ), el error
para el total de la muestra sería de ±3,5 %".
Pero, ¿es ésta realmente "la hipótesis más desfavorable"? Ciertamente no. Consideremos
otra pregunta del cuestionario; según el informe, el 6 % de los 800 encuestados comunicó
que probablemente no vería el segundo debate, programado para una semana más tarde.
El error asociado a tal estimación, aplicando la fórmula [12.6], sería entonces:
(6)(94)
e= 2 1.7
799
L.C.Silva
Este número es, en efecto, menor que 3.5 en términos absolutos; sin embargo, la calidad de
la estimación es inferior, pues 1.7 representa el 28 % de p = 6 mientras que 3.5 es
solamente el 7 % de p = 50 .
e
En general, el error relativo, definido como er = , se incrementa en la medida que p
p
disminuye, de manera que es absurdo afirmar que el caso en que la calidad de la estimación
es más desfavorable corresponde a preguntas para las cuales la estimación es p = 50 .
Sin embargo, lo verdaderamente grave es que para casi ninguna de las estimaciones de la
encuesta se trabaja con ese tamaño de muestra, sino con números muchísimo menores.
Por otra parte, esta sería la estimación del error si se hubiera tratado de un muestreo simple
aleatorio. Siendo un diseño complejo (como se colige del texto incluido en la ficha técnica),
entonces el error verdadero ha de ser mayor. Concretamente, si llamamos ec al error
correspondiente al verdadero diseño, se tendrá (Kish, 1965): ec = e deff .
Quiere esto decir que el error cometido al estimar ese porcentaje de 25 % podría
razonablemente ser como mínimo de 20 %. Se trata de un error enorme: casi igual a la
magnitud de lo que se estima (concretamente, las cuatro quintas partes). Es tan poco
informativo como si cuando me preguntaran mi edad, yo dijera que ésta se halla entre 9 y 80
años. Algo similar ocurre con la mayoría de las estimaciones de la encuesta.
Entre las grandes áreas de trabajo en las que se emplea el muestreo fuera de la
investigación biomédica se hallan las encuestas electorales, aquellas que se realizarán sobre
una población de votantes, ya sea para estudiar "la intención de voto" como para vaticinar
los resultados. Tal vaticinio, a su vez, puede hacerse en un momento previo pero ya muy
próximo al acto electoral, o en un momento posterior a la votación, antes de contar con
resultados oficiales.
A veces, tales encuestas consiguen identificar aceptablemente con antelación los resultados
(el ganador de la presidencia, la repartición de escaños, la respuesta que emerge victoriosa
tras un referéndum, o el desenlace que sea). Con sospechosa frecuencia, sin embargo, se
producen aparatosos fracasos de las empresas encargadas de hacer el vaticinio, como
ocurrió en ocasión de la derrota del Sandinismo en la elección presidencial de Nicaragua en
1991. En aquella ocasión se atribuyó el fiasco a la falta de cultura política de la población
nicaragüense, a la tendencia secular a ocultar sus verdaderos pensamientos y a una larga
serie de explicaciones de ese tenor. Pero he aquí que fenómenos muy similares se
produjeron años después en el Reino Unido en 1992, en España e Italia en 1993 y en
Francia en 1995. En este último caso, todas las encuestas sin excepción anunciaron que
Jacqes Chirac sería el ganador con el 25 % de los votos; Edouard Balladour alcanzaría
alrededor del 20 %, en tanto que Lionel Jospin, no llegaría siquiera a esta última cifra; el
resultado fue otro: Jospin ganó con más del 23 % y quien no llegó a 19 % fue Balladour.
Las Tablas 12.2 y 12.3 recogen vaticinios y realidades para los dos grandes partidos.
Tabla 12.2 Vaticinios realizados por las empresas contratadas por grandes medios de
prensa españoles del número de escaños que alcanzarían el PP y el PSOE en las
elecciones generales de 1996.
Periódico PP PSOE
ABC 176 – 184 117 - 125
El país 170 – 178 118 - 128
El Mundo 170 – 179 113 - 123
La Vanguardia 160 – 170 135 - 145
El periódico 165 – 175 119 - 129
Resultados reales 156 141
Tabla 12.3 Porcentajes de votos vaticinados para el PP y el PSOE por las empresas
contratadas por los grandes periódicos españoles en las elecciones generales de
1996.
Por si fuera poca "coincidencia", debe notarse que si bien las encuestas mencionadas en la
Tabla 12.2 se realizaron días antes de la votación, tres estudios realizados "a pie de urna",
una vez consumada la votación, arrojaron resultados parecidos, como se aprecia en la Tabla
12.4.
Empresa PP PSOE
Tábula V 164 - 174 120 - 132
Demoscopía 160 - 171 125 - 135
Sigma 2 164 - 174 124 - 131
Resultados reales 156 141
Ante el estupor de legos y especialistas producido por tal desaguisado, las reacciones de los
responsables de los sondeos y las estimaciones son diversas y harto elocuentes. No creo
que valga la pena examinarlas exhaustivamente, pero sí apreciarlas a grandes rasgos.
Una de las explicaciones más mencionadas consiste en que existía un "voto oculto"; es decir
un "voto vergonzante" de quienes no están dispuestos a admitir el que a la postre sería su
voto verdadero (en este caso, desde luego, atribuible a votantes del PSOE). La notable
consistencia del error hace pensar en una clara sistematicidad. Si el error fuera aleatorio, no
se hubiera escorado siempre hacia el mismo lado, de modo que la explicación en sí misma
es bastante verosímil. Lo que ella no explica es el fallo de las encuestas.
Por una parte, tal eventualidad no pudo haber sido imprevista, como refleja el texto de ABC
arriba citado. Por otra parte, algunos llegan por ese camino a culpar al electorado de su
fracaso. Por ejemplo, el responsable de la encuesta realizada por Tábula V, la más
desatinada de todas, comunicó que "creía hasta ahora que estaba en una democracia
estable". Es como decir: "la responsable del error es la realidad, no el instrumento que he
empleado para conocerla". Algo similar había declarado Fréderic de Saint Sernin,
responsable de la encuesta encargada por Jacqes Chirac en 1995, cuando las urnas
desmintieron espectacularmente su vaticinio: "la gente puede comportarse de manera
totalmente irracional cuando acude a votar".
Esto es como si al equivocarse en el pronóstico del tiempo, el Instituto de Meteorología
comunicara que la culpa del error la tuvieron las nubes.
L.C.Silva
En algunas tablas suele ponerse entre paréntesis, al lado de las estimaciones, los errores
absolutos o relativos de dichas estimaciones88. En ocasiones se pone, por lo menos, una
nota en que se consigne que todos los errores relativos estimados son inferiores a cierto
valor (el que corresponda). No es una solución óptima, pero es mucho mejor que no aludir al
tema. Un trabajo en que se desarrollan y ejemplifican profusamente las diversas técnicas de
presentación (incluyendo recursos gráficos) es el de González, Ogus, Shapiro y Tepping
(1975). Otra variante posible (Levy y Lemeshow, 1980) para evitar que el informe crezca
insoportablemente, no excluyente de las anteriores, es ingeniárselas para dar la información
necesaria que permita al lector hacer sus propios cómputos si lo desea.
Para concluir este capítulo, se enumeran y comentan varios errores que suelen cometerse
en la práctica, algunos de los cuales están tan extendidos que incluso han llegado
reiteradamente a la imprenta.
88
Atención: no confundir con la desviación estándar de la variable
correspondiente.
L.C.Silva
En el texto de una normativa para realizar una auditoría de la gestión hospitalaria, en la que
se fijan los pasos que debe dar el equipo auditor, puede aparecer una orientación del tipo
siguiente:
89
No conozco, ciertamente, extos serios que hagan esta
recomendación. Este comentario se incluye no para hacer una
crítica a lo que he llamado "teoría oficial del muestreo", sino
para precaver a los lectores sobre la improcedencia de una regla
que aparece ocasionalmente en ambientes técnico-administrativos.
L.C.Silva
Cuando el investigador no tenga la menor idea acerca de cuál puede ser el valor de P,
sustituya 50 en su lugar y siempre obtendrá suficientes observaciones, cualquiera que sea el
verdadero valor de P.
L.C.Silva
Para examinar la fundamentación de tan curiosa receta recordemos una vez más las
fórmulas [12.1] y [12.2] correspondientes a la estimación de un porcentaje en el marco del
MSA. Dicha fundamentación sería la siguiente:
Como ya he expuesto con detalle en otro sitio (Silva, 1997), se trata de una regla totalmente
falaz, cuya fundamentación es inaceptable y carente de interés práctico. Sin embargo, el
problema ha concitado controversia, como pone de manifiesto la publicación de una serie de
defensas y réplicas en torno a la posible invalidez del principio que se ha resumido en el
recuadro; a saber: Campbell(1993), Seuc (1998), García y Almenara (1999), Marrugat,
Vila, Pavesi y Sanz (1999), Suárez y Alonso (1999), Marrugat, Vila y Pavesi (1999) y
Silva (2000).
Antes de entrar en detalles, sugiero al lector que, valiéndose solo de su intuición, intente
responder por sí mismo el siguiente problema.
Es bastante intuitivo que en el segundo caso una muestra de, por ejemplo, solamente 50
sujetos podría servir. No se afirma que la estimación resultante en tal caso sea "buena"; sólo
que no sería descabellado trabajar con dicho tamaño.
L.C.Silva
Por otra parte, un par de cálculos elementales nos permiten comprender que una muestra de
50 personas tomada de la población general será flagrantemente insuficiente para estimar el
primer parámetro. Veamos: es casi seguro que ella no contenga ciego alguno (en cuyo caso
sacaríamos la absurda conclusión de que no hay ciegos en la ciudad, ya que no sólo la
estimación puntual sería igual a cero, sino que también el error estimado sería nulo); pero si
apareciera al menos un invidente en la muestra, en principio se concluiría que la tasa de
ceguera es por lo menos 2%, dato casi tan absurdo como el anterior, pues se sabe
positivamente que la verdadera tasa de ceguera es marcadamente menor (nótese que el
intervalo de confianza en caso de que hubiera un ciego en la muestra sería
aproximadamente [-2%, 6%], lo cual equivale a no decir nada que no sepamos). Tales
despropósitos no ocurrirán con el porcentaje de individuos que acudieron al médico; si por
ejemplo, 20 de los 50 encuestados estuvieran en ese caso, la estimación de la tasa sería
muy imprecisa, pero no sería ni mucho menos disparatada. Sin embargo, este último
porcentaje está muchísimo más cerca de 50 % que la tasa de ceguera. ¿Cómo sostener
entonces que el cómodo recurso de suplir p por 50 produce el tamaño muestral mayor que
pudiera exigir el problema? Dicho de otro modo: tanto la intuición como un simple análisis
cuantitativo nos conducen inevitablemente a pensar que para estimar adecuadamente la
prevalencia de un fenómeno muy raro necesitamos una muestra muy grande, lo contrario de
lo que ocurre cuando se trata de estimar una prevalencia próxima a 50 %. De modo que la
afirmación del último recuadro entra en franca colisión contra nuestro sentido lógico.
Las reflexiones que siguen reafirman que, esta vez, no se trata de que la intuición nos
traicione, sino de que el contenido del recuadro intercalado al inicio de esta Sección es
erróneo.
(1.96 )2 (100 - )
Formalmente, es cierto que la expresión no = , como función de , alcanza
E 02
su máximo valor para = 50 . Nótese que en tal caso:
(1.96 )2 2500 10000
n0 = 2
2
E0 E0
L.C.Silva
y que cualquier otro valor de producirá un no menor. Por ejemplo, para P = 30 (al igual
que para = 70 ), tendríamos:
8400
n 2
.
Eo
0 5 10 30 50 70 90 95 100
(100- ) 0 475 900 2100 2500 2100 900 475 0
Como se aprecia, (100- ) disminuye en la medida que se aleja de 50, cualquiera sea la
dirección en que ello ocurra.
Dicho de otro modo: cuando se va a calcular n0 en el caso que analizamos, hay que pre-
estimar , no solo porque lo demanda explícitamente la fórmula [12.2], sino porque sin ese
conocimiento es imposible decidir el valor del error absoluto que también aparece en ella.
L.C.Silva
Imaginemos que le pedimos al Sr. Lemeshow que calcule el tamaño muestral para un
estudio que realizaremos en una población de 2000 habitantes. Para simplificar las cosas le
diremos que se trata de un MSA y que queremos estimar un solo parámetro: el porcentaje
de sujetos que poseen cierto componente sanguíneo denominado farsemia. Se trata de un
componente que está presente (o no) en la sangre de cada individuo; pero "no tenemos ni la
menor idea" de cuál será el porcentaje de sujetos que posee ese rasgo. ÉL conoce N ,
puede decidir, por ejemplo, que en 0.05, y suponer que = 50 (no porque crea que ese
es el valor, sino "para tener la muestra mayor posible"); ahora bien, ¿qué valor colocará en
lugar de E o dentro de [12.2]? Es simplemente imposible fijar ese número de manera
racional mientras no se tenga una idea de la verdadera prevalencia de farsemia entre los
seres humanos. Cualquier valor de E o que él surgiera pudiera ser enorme (o
exageradamente pequeño) comparado con la prevalencia de farsemia, ya que sobre ese
número se ignora todo. Es para mí un excitante misterio conocer qué respuesta daría a
dicha pregunta.
Lo que sí podría fijarse de antemano es el valor del error relativo. Por ejemplo, podría
decidirse que éste no sobrepase al 10 % de : E r =
E 0 = 0.1 . Para poner
no en función de
E r , se divide tanto el numerador como el denominador de [12.2] por y se tendrá:
2
(1.96 )2 100-
n0 = 12.7
E 2r
L.C.Silva
De modo que para E r = 0.1 , al aplicar [12.7] se tiene que n0 = 384 100- . Ya no aparece el
fastidioso E 0 en la fórmula. Pero es fácil ver que, a diferencia de (100 - ) , la expresión
(100 - )
que ahora tenemos no está superiormente acotada ni alcanza su máximo para
= 50 , sino que tiende a infinito en la medida que se aproxima a 0.
No es raro encontrar afirmaciones como ésta: "los porcentajes de esta encuesta se han
estimado dentro de márgenes de error inferiores al 5 %". Cabe preguntarse: ¿qué se quiere
decir con tal afirmación? ¿Significa que el error relativo es para todas las estimaciones
inferior a la vigésima parte de los respectivos valores puntuales? Si es así, hay que decirlo
con toda claridad90. Si se trata de que es el error absoluto el que no excede el 5 %,
probablemente no haya motivo alguno para el regocijo, ya que cualquier característica cuya
presencia se haya estimado por debajo del 30 % estaría afectada por un error relativo
posiblemente muy grande, y quizás enorme. En cualquier caso, así formulada, se trata de
una información borrosa y equívoca, y no es improbable que tal afirmación concierna
exclusivamente a la variable elegida para determinar el tamaño muestral.
90
Incidentalmente, de ser ese el caso se estaría ante una magnífica
encuesta.
L.C.Silva
En una encuesta para evaluar actitudes sociales ante el SIDA entre el colectivo de trabajado-
res de la salud en España, por poner un ejemplo real, Arredondo, Coronado, de la Fuente
y Luengo (1990) incurren en la omisión que nos ocupa. Se obtuvo una muestra estratificada
bietápica de 1325 trabajadores y se identificaron cuatro subclases, a saber: Médicos (491),
Personal de Enfermería (399), Personal Auxiliar de Enfermería (389) y Asistentes Sociales
(46). A lo largo del texto no se trabaja con errores de muestreo ni con intervalos de
confianza. Al respecto, solo se comunica textualmente lo siguiente:
Los márgenes de error pueden aproximarse por las fórmulas habituales para
muestreo aleatorio simple en el caso de distribuciones de variables con dos
categorías igualmente distribuidas (p=q=50%). A un nivel de confianza del
95% los errores de muestreo absolutos serían:
Total de la muestra.....................2.7%
Médicos ................................4.4%
Personal de enfermería .................4.9%
Personal Auxiliar de Enfermería.........4.4%
L.C.Silva
A veces se sigue la táctica de suplir una unidad que no fue posible encuestar por la que
ocupa el siguiente lugar de la lista o la que subsigue dentro de la zona en que se trabaja.
Por ejemplo, una casa deshabitada que estaba en la muestra se sustituye por la siguiente
vivienda habitada según cierto orden prestablecido. Tal práctica debe evitarse, porque
rompe con la estructura probabilística establecida. Imaginemos una situación muy simple: se
quiere seleccionar una muestra sistemática con intervalo K = 4 de una población de N = 20
viviendas; supongamos que la regla prestablecida sea tomar la siguiente vivienda cada vez
que se tropiece con una deshabitada y que en nuestro listado la tercera vivienda tenga esa
condición. De tal suerte, la probabilidad de selección de la cuarta vivienda sería la suma de
su probabilidad inicial (0.25) y la de la tercera vivienda (0.25). A la cuarta vivienda se le está
otorgando la probabilidad de selección que inicialmente se le había asignado, más la de la
unidad precedente, debido a que no se pudo localizar o a que no procedía encuestarla.
Siendo así, las unidades próximas a las "conflictivas" aumentan indebidamente su presencia
en la muestra, con lo cual pueden sesgarse los resultados.
Con alguna frecuencia las empresas que se ocupan de encuestas (raras veces en el marco
de la investigación científica de salud) mencionan en sus fichas técnicas que se han
empleado las llamadas "rutas aleatorias" dentro del diseño. Supuestamente, se trata de la
aplicación del azar para determinar los movimientos sobre el terreno de los encuestadores,
de manera que se produce una especie de random walk; a partir de tales rutas, ellos siguen
ciertas reglas de conducta, muchas veces difusas, para decidir las viviendas que han de
encuestarse.
Página -1-