Documentos de Académico
Documentos de Profesional
Documentos de Cultura
MUESTREO
http://dxsp.sergas.es
soporte.epidat@sergas.es
NDICE
3.0. Conceptos generales...................................................................................................................... 4
3.1. Clculo de tamaos de muestra .................................................................................................. 4
3.1.0. Introduccin ............................................................................................................................ 4
3.1.1. Intervalos de confianza ......................................................................................................... 6
3.1.1.1. Media ................................................................................................................................ 7
3.1.1.2. Proporcin ....................................................................................................................... 9
3.1.1.3. Odds ratio ...................................................................................................................... 10
3.1.1.4. Riesgo relativo ............................................................................................................... 12
3.1.1.5. Concordancia................................................................................................................. 13
3.1.1.6. Pruebas diagnsticas .................................................................................................... 14
3.1.2. Contrastes de hiptesis........................................................................................................ 17
3.1.2.1. Comparacin de medias .............................................................................................. 18
3.1.2.2. Comparacin de proporciones.................................................................................... 21
3.1.2.3. Estudios de casos y controles ...................................................................................... 23
3.1.2.4. Estudios de cohorte ...................................................................................................... 25
3.1.2.5. Estudios de equivalencia ............................................................................................. 26
3.1.2.6. Pruebas diagnsticas .................................................................................................... 29
3.1.2.7. Calidad de lotes............................................................................................................. 31
3.1.2.8. Supervivencia ................................................................................................................ 33
3.1.2.9. Coeficiente de correlacin ........................................................................................... 34
3.2. Seleccin muestral ....................................................................................................................... 35
3.2.0. Conceptos generales ............................................................................................................ 35
3.2.1. Muestreo simple aleatorio (MSA) ...................................................................................... 37
3.2.2. Muestreo sistemtico (MS).................................................................................................. 39
3.2.3. Muestreo aleatorio estratificado (MAE)............................................................................ 42
3.2.4. Muestreo por conglomerados monoetpico..................................................................... 44
3.2.5. Muestreo por conglomerados bietpico ........................................................................... 46
3.2.6. Muestreo por conglomerados monoetpico estratificado .............................................. 49
3.2.7. Muestreo por conglomerados bietpico estratificado ..................................................... 53
3.3. Asignacin de sujetos a tratamientos ....................................................................................... 57
3.3.0. Conceptos generales ............................................................................................................ 57
3.3.1. El proceso de asignacin aleatoria ..................................................................................... 57
3.4. Estimacin con muestras complejas ......................................................................................... 59
3.4.0. Introduccin .......................................................................................................................... 59
http://dxsp.sergas.es
soporte.epidat@sergas.es
http://dxsp.sergas.es
soporte.epidat@sergas.es
La determinacin a priori de los valores que intervienen en las frmulas del tamao
muestral es una decisin esencialmente subjetiva. En concreto, por ejemplo, no es fcil
establecer cul es el error mximo aceptable para la estimacin de un parmetro. Esto
puede conducir a que dos investigadores independientes, aplicando la misma frmula,
obtengan tamaos de muestra muy diferentes por el hecho de que tienen visiones
distintas (defendibles ambas) del problema.
El error muestral en que se incurre al estimar un parmetro depende del tipo de diseo
establecido para seleccionar los elementos que integran la muestra. Por lo general, a
tamaos de muestra iguales, el error es mayor si se utiliza un diseo complejo (por
ejemplo, muestro estratificado bietpico) que bajo muestreo simple aleatorio (MSA). Sin
embargo, las frmulas que permiten obtener el tamao de muestra en funcin de la
precisin siempre asumen que se va a realizar un MSA, lo que conduce a tamaos de
muestra ms pequeos que los que realmente seran necesarios para garantizar el grado
de precisin exigido si el diseo es otro. Una forma de corregir el tamao de muestra
en funcin del diseo muestral es multiplicar el tamao obtenido con MSA por el
denominado efecto de diseo. Naturalmente, no es fcil hallar una estimacin adecuada de
este valor, pero en la prctica suele asumirse algn valor entre 1,5 y 3. Un valor igual a 2,
por ejemplo, significa que para obtener la misma precisin habr que estudiar el doble de
individuos que con el MSA.
http://dxsp.sergas.es
soporte.epidat@sergas.es
La precisin de la estimacin, que se mide a travs del error muestral. La magnitud del
mximo margen de error admisible debe ser fijada por el investigador, pues es l quien
mejor identifica las consecuencias prcticas de un error dado. Si, por ejemplo, lo que se
quiere es conocer el salario medio de una poblacin de mujeres en edad frtil y se declara
que se admite un error de hasta e=50, ello significa que se est pensando en trminos
como los siguientes: Si el verdadero promedio fuera 500 pero lo que se me informa es que
asciende a 525, entonces considero que conozco adecuadamente el dato; sin embargo, si lo que se
me informa es que ese nmero es, por ejemplo, 418 y luego me entero de la cifra verdadera (500),
considero que estaba trabajando con un dato equivocado. En general se cumple que, al
aumentar la precisin, es decir, al disminuir el grado de error admisible, aumenta el
tamao de muestra necesario, algo coherente con lo que indica el sentido comn. Cuando
el error se expresa como un porcentaje del valor que puede tener el parmetro, por
ejemplo un 5% o un 10%, en ese caso se habla de precisin relativa.
http://dxsp.sergas.es
soporte.epidat@sergas.es
El nivel de confianza, que generalmente se fija en 95%. El efecto de este valor sobre el
tamao de muestra es directo; es decir, para una precisin dada, el tamao de muestra
aumenta al aumentar el nivel de confianza.
Epidat 4 permite calcular tamaos de muestra de una forma flexible: genera una tabla de
valores para la precisin y proporciona el tamao de muestra correspondiente a cada uno de
esos valores. La tabla se define partiendo de un valor mnimo fijado por el usuario, que va
aumentando a intervalos regulares de incremento hasta llegar al valor mximo tambin
declarados por el usuario. Por ejemplo, si se definen mnimo=3, mximo=15 e incremento=4, se
obtiene una tabla con los valores 3, 7, 11 y 15 para la precisin y los correspondientes
tamaos de muestra.
Un recurso incluido en Epidat 4 y que puede ser de utilidad en muchas situaciones es el de
realizar el clculo inverso; es decir, determinar la precisin asociada a la estimacin de un
parmetro que correspondera a diversos tamaos de muestra posibles. Igual que en la
situacin inversa, el clculo es flexible; se puede definir una tabla de valores para los
tamaos de muestra a partir de un mnimo, un mximo y un incremento, y se obtendrn las
precisiones que corresponden a todos los casos.
3.1.1.1. Media
Los factores especficos que intervienen en el clculo del tamao de muestra (o precisin)
para estimar una media son los que se mencionan y comentan a continuacin:
Tamao de la poblacin:
En la mayora de las situaciones prcticas es difcil conocer el verdadero tamao de la
poblacin objeto del muestreo. A menudo se dispone solo de una aproximacin para tal
valor, pero puede darse el caso de que se desconozca por completo. Ninguna de estas
situaciones pone al investigador ante una restriccin importante a la hora de calcular el
tamao de muestra, ya que el tamao poblacional tiene escasa influencia sobre el tamao
de la muestra la mayor parte de las veces [2].
Supngase, por ejemplo, que se planifican dos estudios de fecundidad: uno en una gran
ciudad donde hay medio milln de mujeres en edad frtil, y otro en uno de sus
municipios que tiene 55.000 mujeres entre 15 y 49 aos. En ambos casos se quiere estimar,
mediante MSA, el salario medio de dichas mujeres con un error no mayor de 50 y
admtase que, por estudios previos, se conoce que la desviacin estndar de todos los
salarios en la poblacin es aproximadamente igual a 300. Los tamaos de muestra que
proporciona Epidat 4, para un nivel de confianza del 95%, son respectivamente, 139
mujeres en la ciudad y 138 en el municipio, nmeros virtualmente iguales. Este hecho,
vlido siempre que la poblacin sea mucho mayor que los posibles tamaos muestrales,
pone de manifiesto que es errnea la recomendacin, nada inusual, de fijar un porcentaje
de la poblacin como tamao de muestra. En el ejemplo expuesto, seleccionar un 1% de
la poblacin conducira a una muestra de 5.000 mujeres en la ciudad y de 550 en el
municipio; puede comprobarse, haciendo el clculo en Epidat, que el margen de error en
el primer caso sera de unos 8,3, valor que se triplica en el municipio, para el cual
ascendera a 23,8.
Por otra parte, si el tamao poblacional se desconoce, pero puede asumirse que es mucho
mayor que el de la muestra que se va a seleccionar, entonces se est en una situacin
http://dxsp.sergas.es
soporte.epidat@sergas.es
Ejemplo
En un rea sanitaria, la distribucin del peso al nacer de nios cuyas madres cumplen su
perodo de gestacin de 40 semanas es aproximadamente normal con una media de =3.500
gramos y una desviacin estndar de =430 gramos. Un investigador planea llevar a cabo un
estudio con una muestra simple aleatoria de los prximos partos, a lo largo del ao entrante,
en un hospital de maternidad. Supongamos que el nmero esperado de partos fuera
N=3.450. Se quieren, como es usual, estimar diversos parmetros (algunos de ellos en
subconjuntos tales como el de las madres que fumaron durante el embarazo, o el de las
mayores de 38 aos), pero a los efectos de fijar el tamao muestral, consideremos que se
quiere estimar el peso medio al nacer de los nios que llegan al trmino del embarazo
asumiendo que la desviacin estndar es la mencionada (430 gramos). Si el investigador
desea que el error no supere los 50 gramos con una confianza del 95%, el tamao de muestra
requerido ascendera a 263 sujetos.
Resultados con Epidat 4:
Nota: Advirtase que este resultado se obtiene dejando el valor por defecto para
el Efecto de diseo (igual a 1,0) por tratarse de una muestra que se supone que
ser simple aleatoria.
http://dxsp.sergas.es
soporte.epidat@sergas.es
Tamao de la poblacin:
Sobre este dato, cabe hacer las mismas consideraciones que en el caso de la media,
anteriormente comentadas.
Proporcin esperada:
Puesto que la demanda de proveer al programa de un valor anticipado para P es
irremediablemente contradictoria (pues el tamao que se busca es el de la futura
muestra, que se estudiar precisamente con la finalidad de estimar P) es muy habitual
encontrar en manuales y artculos [4][5] la recomendacin de utilizar el valor 50 cuando
no se conoce en absoluto el valor del porcentaje P. Para ello se esgrime el argumento de
que dicho valor es el que produce el mximo tamao de muestra, de modo que en tal
caso no tendramos el tamao ptimo necesario sino una cota superior (nunca
necesitaramos uno mayor que el que se obtiene bajo ese supuesto). Cabe hacer algunas
consideraciones con respecto a esta receta, que ha sido objeto de discusin en la
literatura [6][7][8][9]. En primer lugar, es cierto que la frmula que permite calcular el
tamao de muestra para estimar una proporcin P alcanza su mximo cuando P=50; pero
esto solo es cierto si los dems elementos que intervienen en la frmula, nivel de
confianza y precisin del IC, estn fijos. Sin embargo, el mximo error absoluto que se
puede admitir para estimar una proporcin P no puede establecerse de manera racional
sin tener una idea acerca de la magnitud de P. Por ejemplo, un error absoluto del 3%
puede ser adecuado si la proporcin que se va a estimar est alrededor del 20%, pero
resultara del todo inapropiado si el rasgo cuya prevalencia se quiere estimar es muy
poco frecuente, dgase un 2%, menor incluso que el error establecido.
Consecuentemente, tal receta resulta carente de sentido y no debe ser empleada. Para
una fundamentacin ms detallada, acdase a Silva [7]. Cabe sealar, sin embargo, que el
investigador raramente se halla en esa situacin de absoluto desconocimiento acerca del
parmetro; basndose en su experiencia o el conocimiento cientfico sobre el tema,
generalmente tiene de antemano una idea aproximada del recorrido de valores en el que
razonablemente se podra ubicar. Represe en el siguiente ejemplo tomado de la ayuda
del mdulo de Anlisis bayesiano de Epidat 3.1:
Es razonable suponer que de antemano se tengan ciertas ideas acerca de cul puede ser ese valor
desconocido; por ejemplo, podra considerarse altamente verosmil que la tasa de prevalencia de
asma en la comunidad no est muy distante de 9%. Desde luego, tal criterio inicial, nacido quizs
de la experiencia propia y ajena, as como del encuadre terico del problema, se produce en un
marco de incertidumbre. As, tal vez se piensa que 7% 13% son tambin valores posibles,
aunque acaso menos verosmiles que 9%. Y tambin se pudiera estar convencidos de que 55% sera
sumamente improbable, a la vez que se pudiera estar persuadidos de que cifras como 1% u 80%
seran virtualmente imposibles. Tener de antemano puntos de vista como estos no solo es posible
sino casi inevitable para alguien versado en la materia.
En una situacin de este tipo, la determinacin de la precisin adecuada no es una
maniobra ciega. Sin perder de vista la carga subjetiva que supone siempre tal decisin,
por lo general es posible fijar un error que no sea disparatado teniendo en cuenta el
recorrido de valores que se puede considerar razonable para P. En el ejemplo de la tasa
de prevalencia, se puede suponer que la proporcin que ha de estimarse se mover
probablemente entre un 5% y un 15%, y es razonable aspirar a que no se incurra en un
http://dxsp.sergas.es
soporte.epidat@sergas.es
OR
P1(1 P2 )
P2 (1 P1 )
http://dxsp.sergas.es
soporte.epidat@sergas.es
10
http://dxsp.sergas.es
soporte.epidat@sergas.es
11
RR
P1
,
P2
http://dxsp.sergas.es
soporte.epidat@sergas.es
12
Puede observarse cmo disminuye el tamao de muestra necesario a medida que aumenta el
error permitido en la estimacin. Por otra parte, el programa calcul el riesgo en expuestos,
un 40%, a partir de los datos que se le proporcionaron: riesgo en no expuestos y riesgo
relativo.
3.1.1.5. Concordancia
El coeficiente de concordancia kappa de Cohen permite cuantificar el grado de acuerdo entre
dos o ms observadores una vez que se ha eliminado el efecto del azar [13].
Los factores que intervienen en el clculo del tamao de muestra (o precisin) necesario para
estimar adecuadamente el coeficiente kappa, cuando son dos los observadores y dos las
categoras de clasificacin (Positivo/Negativo), son:
Coeficiente kappa esperado (k): debe ser un valor entre 1 y 1, recorrido de variacin de
kappa.
http://dxsp.sergas.es
soporte.epidat@sergas.es
13
Precisin absoluta (e): expresa la diferencia entre el valor del coeficiente kappa y el lmite
inferior (o el superior) de un intervalo de confianza. Tngase en cuenta que no puede
introducirse un valor para el cual ke sea inferior a 1 o k+e supere al 1.
14
Positivos
Prueba
Negativos
diagnstica
Total
Enfermos
No enfermos
Total
a+b
c+d
a+c
b+d
a+b+c+d
Por tanto, el clculo del tamao de muestra para construir un IC, con una determinada
precisin, para la sensibilidad, la especificidad, o para ambos ndices de una prueba
diagnstica, se basa en el mtodo para una proporcin, al igual que para obtener la precisin en
funcin de un determinado tamao de muestra. Los factores que intervienen en el clculo son:
Condicin de enfermo:
La seleccin de los pacientes que conformarn la muestra puede hacerse de varias
maneras. La va cannica consiste en seleccionar una muestra de N1 sujetos enfermos y
otra de N2 no enfermos, caracterizados como tales por la prueba de referencia, y aplicar
la nueva prueba a los N = N1 + N2 individuos, de suerte que pueda conformarse una
clasificacin cruzada tal como se expone en la anterior tabla de 2x2. Para poder aplicar
este diseo es necesario conocer de antemano la condicin de enfermo, antes de realizar
la seleccin.
Una segunda opcin para el diseo del estudio consiste en obtener una muestra simple
aleatoria de N individuos y aplicar a cada uno de ellos tanto el criterio de verdad o
prueba de referencia con que se cuenta, como la prueba diagnstica que se evala. Este
diseo se plantea cuando la verdadera condicin de enfermedad de los sujetos no se
conoce en el momento de la seleccin.
Consecuentemente, Epidat 4 solicita al usuario que indique si la condicin de enfermo es
conocida o desconocida, para tener en cuenta en el clculo del tamao de muestra o de la
precisin el diseo que se va a aplicar. Segn la opcin escogida, conocida o desconocida,
ser necesario indicarle al programa o bien la Razn entre los tamaos de muestra de no
enfermos y enfermos, o bien la Prevalencia de la enfermedad, respectivamente. Cuando se
quiere calcular tamao de muestra para sensibilidad y especificidad, y se conoce la
condicin de enfermo, no es necesario disponer de la Razn entre los tamaos de muestra de
no enfermos y enfermos para realizar el clculo; por ese motivo, el programa no solicita
dicha informacin en este caso.
http://dxsp.sergas.es
soporte.epidat@sergas.es
15
Prevalencia de la enfermedad:
La proporcin de enfermos en la muestra ser aproximadamente igual a la prevalencia de la
enfermedad en la poblacin de la que proceden los sujetos. A partir de esta prevalencia (P),
Epidat 4 estima la razn entre el nmero de no enfermos y enfermos que conformarn la
muestra: (1-P)/P, valor que se utiliza en el clculo del tamao de muestra.
Precisin absoluta:
Es el error absoluto asociado a la estimacin mediante un intervalo de confianza. No es
posible especificar valores diferentes para la sensibilidad y la especificidad, en el caso de
que el tamao de muestra est basado en los dos parmetros. Se asume que los dos
intervalos tendrn la misma precisin.
http://dxsp.sergas.es
soporte.epidat@sergas.es
16
Error de tipo II: consistente en aceptar la hiptesis nula cuando sta es, en realidad, falsa.
La probabilidad de cometer este error se denota por ; y el valor 1- que expresa la
http://dxsp.sergas.es
soporte.epidat@sergas.es
17
La determinacin a priori de los valores que intervienen en las frmulas del tamao
muestral es una decisin esencialmente subjetiva.
Una abarcadora reflexin sobre las implicaciones que tienen estas circunstancias en el clculo
del tamao de muestra puede verse en el captulo 12 del libro Diseo razonado de muestras
y captacin de datos para la investigacin sanitaria de Silva [3].
18
Varianzas iguales: en este caso, Epidat 4 ofrece dos alternativas para los datos de entrada
necesarios. En la primera opcin se piden la Diferencia de medias a detectar y la Desviacin
estndar comn a los dos grupos. En la segunda opcin, el valor que pide el programa es la
Diferencia estandarizada de medias.
Teniendo en cuenta estas alternativas, los factores que intervienen en el clculo del tamao de
muestra o de la potencia para comparar las medias de dos grupos independientes son:
Desviacin estndar:
Si se asume que las varianzas de los dos grupos son iguales y se opta por la primera
opcin para introducir los datos, hay que comunicar al programa un valor para la
desviacin estndar comn a los dos grupos. En el caso de varianzas distintas, habr que
introducir el valor de la desviacin estndar que se supone tiene cada grupo. Pero an en
esta circunstancia, es muy habitual en la prctica asumir que los valores de las
desviaciones estndar de los grupos son iguales y adelantar una estimacin para ese
valor comn. Machin y cols [21] sugieren, cuando no se conoce la magnitud de la
desviacin estndar, una aproximacin que consiste en dividir entre 4 el recorrido
(diferencia entre el mximo y el mnimo) de las observaciones, magnitud que suele ser
ms fcil de estimar o conocer de antemano.
http://dxsp.sergas.es
soporte.epidat@sergas.es
19
http://dxsp.sergas.es
soporte.epidat@sergas.es
20
Coeficiente de correlacin de Pearson entre los valores de la variable resultado en los dos
grupos, que debe ser un valor entre 1 y 1.
Estos tres datos son necesarios para obtener una estimacin de la Desviacin estndar de las
diferencias individuales entre los pares de observaciones.
Nivel de confianza de la prueba: complemento del error de primer tipo que se estara
dispuesto a admitir (en porcentaje).
Opcin 2:
Nivel de confianza de la prueba: complemento del error de primer tipo que se estara
dispuesto a admitir (en porcentaje).
Ejemplo
Un investigador quiere valorar la diferencia entre el valor de la presin sistlica en sangre en
personas de mediana edad, antes y despus de la prctica de ejercicio fsico. Si el
investigador aspira a poder declarar una diferencia de 2,6 mmHg o mayor como
significativa, con un nivel de confianza del 95% y una potencia del 80% cuntos pacientes
deber incluir en el estudio? Supngase que se estima una desviacin estndar de 11,0
mmHg y un coeficiente de correlacin de 0,70 entre los valores de la presin sistlica antes y
despus del ejercicio.
El resultado segn Epidat 4 es que haran falta 87 pares.
http://dxsp.sergas.es
soporte.epidat@sergas.es
21
Nivel de confianza de la prueba: complemento del error de primer tipo que se estara
dispuesto a admitir (en porcentaje).
Nivel de confianza de la prueba: complemento del error de primer tipo que se estara
dispuesto a admitir (en porcentaje).
http://dxsp.sergas.es
soporte.epidat@sergas.es
22
Los tres valores precedentes estn relacionados entre s del modo siguiente:
OR
P1(1 P2 )
,
P2 (1 P1 )
por lo que, especificando dos de estos parmetros, el otro queda determinado. Epidat 4
permite que el usuario decida cul pareja de valores desea introducir y calcula
automticamente el tercero.
23
Nivel de confianza de la prueba: complemento del error de primer tipo que se estara
dispuesto a admitir (en porcentaje).
http://dxsp.sergas.es
soporte.epidat@sergas.es
24
OR
P1 (1 P2 )
,
P2 (1 P1 )
por lo que, especificando dos de estos parmetros, el otro queda perfectamente determinado.
Epidat 4 permite que el usuario decida cul pareja de valores desea introducir y calcula
automticamente el tercero.
Nivel de confianza de la prueba: complemento del error de primer tipo que se estara
dispuesto a admitir (en porcentaje).
Ejemplo
Se disea un estudio de casos y controles emparejados para valorar la influencia de
tabaquismo en el cncer de laringe utilizando controles poblacionales. Suponiendo que la
prevalencia del hbito tabquico en la poblacin es del 45%, cuntos pares de casos y
controles se necesitarn para poder declarar que una OR de 2 o mayor es significativa con un
nivel de confianza del 95% y una potencia del 85%? La respuesta que ofrece Epidat 4 es que
haran falta 155 parejas.
Nivel de confianza de la prueba: complemento del error de primer tipo que se estara
dispuesto a admitir (en porcentaje).
25
Ejemplo
Un grupo de investigadores desea llevar a cabo un estudio de cohortes que exige determinar
si existe asociacin entre la infeccin crnica por Chlamydia pneumoniae y los eventos
coronarios en varones adultos con un primer diagnstico de angina inestable. Se sabe, por
estudios previos, que la prevalencia de la exposicin (infeccin) en este grupo (anginosos)
est alrededor del 40%, que la proporcin esperada de eventos coronarios es del 38% en el
grupo de expuestos y del 32% en el grupo de no expuestos Cul sera el tamao de muestra
necesario para contrastar la hiptesis nula sin usar correccin de Yates- de que no existe
asociacin entre la infeccin y los eventos coronarios, con un nivel de confianza del 95% y
una potencia del 80%?
Nota: Si la prevalencia de la exposicin es del 40% (P=0,4), la razn de no
expuestos con respecto a los expuestos ser de (1-0,4)/0,4=1,5.
La muestra necesaria, segn Epidat 4 sera de 823 sujetos expuestos y 1.235 no expuestos:
H 0 : 1 2
H1 : 1 2
http://dxsp.sergas.es
soporte.epidat@sergas.es
26
Nivel de confianza de la prueba: complemento del error de primer tipo que se estara
dispuesto a admitir (en porcentaje).
http://dxsp.sergas.es
soporte.epidat@sergas.es
27
Nivel de confianza de la prueba: complemento del error de primer tipo que se estara
dispuesto a admitir (en porcentaje).
28
29
Condicin de enfermo.
La seleccin de los pacientes que conformarn cada una de las muestras puede hacerse
de varias maneras. La va cannica consiste en seleccionar una muestra de N1 sujetos
enfermos y otra de N2 no enfermos diagnosticados por una prueba de referencia, y aplicar la
nueva prueba a los n=n1+n2 individuos, de suerte que pueda conformarse una clasificacin
cruzada en una tabla de 2x2. Para poder aplicar este diseo es necesario conocer de
antemano la condicin de enfermo, antes de realizar la seleccin.
Una segunda opcin para el diseo del estudio consiste en obtener una muestra simple
aleatoria de N individuos y aplicar a cada uno de ellos tanto el criterio de verdad o
prueba de referencia con que se cuenta, como la prueba diagnstica que se evala. Este
diseo se plantea cuando la verdadera condicin de enfermedad de los sujetos no se
conoce en el momento de la seleccin.
En funcin de esto, Epidat 4 solicita al usuario que se indique si la condicin de enfermo
es conocida o desconocida, para tener en cuenta en el clculo del tamao de muestra (o de la
precisin) el diseo que se va a aplicar. Segn la opcin escogida, conocida o
desconocida, ser necesario indicarle al programa o bien la Razn entre los tamaos de
muestra de no enfermos y enfermos, o bien la Prevalencia de la enfermedad, respectivamente.
Cuando se quiere calcular el tamao de muestra para sensibilidad y especificidad, y se
conoce la condicin de enfermo, no es necesario disponer de la Razn entre los tamaos de
muestra de no enfermos y enfermos para realizar el clculo, por ese motivo el programa no
solicita dicha informacin en este caso.
Prevalencia de la enfermedad:
La proporcin de enfermos en la muestra ser aproximadamente igual a la prevalencia
de la enfermedad en la poblacin de la que proceden los sujetos. A partir de esta
prevalencia (P), Epidat 4 estima la razn entre el nmero de no enfermos y enfermos que
conformarn la muestra: (1-P)/P, valor que se utiliza en el clculo del tamao de
muestra.
Nivel de confianza de la prueba: complemento del error de primer tipo que se estara
dispuesto a admitir (en porcentaje).
http://dxsp.sergas.es
soporte.epidat@sergas.es
30
http://dxsp.sergas.es
soporte.epidat@sergas.es
31
Proporcin de defectuosos a detectar: es un valor que define mala calidad y por encima
del cual se considera que un lote es inaceptable. La proporcin complementaria
(porcentaje de no defectuosos) se denomina nivel de calidad rechazable (NCR), y
define un umbral inferior de cumplimiento de la calidad.
Riesgo alfa (): probabilidad de que un lote con proporcin esperada de defectuosos
inferior a la proporcin de defectuosos a detectar sea valorado como defectuoso. 1-
es el nivel de confianza.
Riesgo beta (): probabilidad de que un lote con nivel de cumplimiento inferior al
NCR sea valorado como bueno. 1- es la potencia.
n: Tamao de la muestra.
d: Umbral de decisin.
El par (n, d) permite tomar la decisin de aceptar o rechazar el lote con los niveles de calidad
y riesgos prefijados. El procedimiento consiste en lo siguiente:
Epidat 4 permite obtener los valores del par (n, d) para valores especificados de la
proporcin de defectuosos a detectar y la proporcin esperada de defectuosos en un lote. La
primera debe tomar un valor mayor que la esperada.
Ejemplo
En su departamento, la cobertura prevista para un programa de tamizaje de cncer de mama
es del 70%. Detectadas ciertas deficiencias en el programa, se desea encuestar a mujeres del
grupo de edad seleccionado por el programa de suerte que se puedan detectar barrios y
zonas donde la cobertura es menor o igual que 45%. Supongamos que se desea tener una
confianza del 95% de que se reconocern zonas donde se ha alcanzado la cobertura de
tamizaje preestablecida.
Cuntas mujeres habr que encuestar en cada barrio o zona y qu valor umbral habr de
utilizarse para contrastar la hiptesis de que la proporcin de mujeres perdidas por el
programa no supera el 55%?
Epidat 4 establece que el tamao en el lote sera 24 y el umbral sera 9 unidades.
http://dxsp.sergas.es
soporte.epidat@sergas.es
32
3.1.2.8. Supervivencia
En muchos ensayos clnicos se realiza un seguimiento de los pacientes asignados a cada
tratamiento hasta que ocurre algn suceso crtico, y se utiliza el tiempo de seguimiento para
comparar la eficacia de los tratamientos mediante tcnicas de supervivencia.
En Epidat 4, el clculo del tamao de muestra para comparar curvas de supervivencia se
basa en el test logrank [26], asumiendo un modelo de riesgos proporcionales para los
tiempos de supervivencia.
Los factores que intervienen en el clculo son:
Razn entre los tamaos de los grupos, en el caso de dos curvas. Si se comparan tres o ms
curvas, se asume que los tamaos de los grupos son iguales.
Nivel de confianza de la prueba: complemento del error de primer tipo que se estara
dispuesto a admitir (en porcentaje).
Ejemplo
Se desea evaluar un nuevo tratamiento respecto de una terapia estndar y se sabe, por
estudios previos, que las tasas de supervivencia a 5 aos pudieran no estar lejos,
respectivamente, del 35% y del 20% Cuntos pacientes deben seleccionarse para comparar
los dos tratamientos con un nivel de confianza del 95% si se espera perder en el seguimiento a
un 7% de los pacientes? Considrense diferentes potencias: 80, 85 y 90%.
El programa indica que tanto en uno como en el otro grupo, habra que tomar:
128 pacientes en cada tratamiento si se desea tener una potencia de 80%
146 pacientes en cada tratamiento si se desea tener una potencia de 85%
171 pacientes en cada tratamiento si se desea tener una potencia de 90%
http://dxsp.sergas.es
soporte.epidat@sergas.es
33
H0 : 0
H1 : 0
H0 : 0
H1 : 0
Por ejemplo, cuando se estudia la presin arterial sistlica y diastlica se sabe que stas estn
asociadas positivamente, en este caso se podra estar ms interesado en realizar un contraste
de una cola (contraste unilateral con hiptesis nula H0: 0 e hiptesis alternativa H1: >0)
que uno de dos colas (contraste bilateral).
Ejemplo
Supngase que la correlacin entre el volumen espiratorio forzado en un segundo y la
capacidad vital forzada en individuos sanos es aproximadamente de 0,60. Supngase,
adicionalmente, que un grupo de pacientes con una enfermedad de pulmn est accesible en
una clnica, e interesa contrastar si hay correlacin entre ambas medidas en esos pacientes.
Con un nivel de confianza del 95% y una potencia del 90%, el programa comunica que se
necesitan 21 sujetos en la muestra cuando el contraste es unilateral y 25 cuando es bilateral.
Resultados con Epidat 4:
http://dxsp.sergas.es
soporte.epidat@sergas.es
34
35
http://dxsp.sergas.es
soporte.epidat@sergas.es
36
CAMPO
CODIGO
NOMBRE
EDAD
CURSO
AULA
TIPO
Numrica
De texto
Numrica
Nominal
Nominal
VALORES POSIBLES
Enteros de 1 a 966
Texto
Enteros de 15 a 19
Primero - Segundo - Tercero - Cuarto - Quinto
1.1, 1.2, ,7.3, 7.4
1
30
62
37
45
48
222
2
29
43
58
51
47
228
3
28
64
56
33
86
267
AULA
4
37
48
21
106
5
33
6
54
7
56
33
54
56
Total
267
217
151
129
202
966
37
38
EDAD
CURSO
AULA
743
MARIANO ARNAU
15
PRIMERO
1,4
863
RAFAEL JIMNEZ
16
SEGUNDO
2,3
933
SONIA MIRANDA
19
QUINTO
5,1
172
CELINA MACHIN
17
TERCERO
3,1
497
JESUS MENENDEZ
17
TERCERO
3,2
423
ISABEL AMBOS
15
PRIMERO
1,4
406
INDIRA RODRGUEZ
15
PRIMERO
1,2
927
SILVIA PLASENCIA
19
QUINTO
5,2
25
AGUSTIN JIMNEZ
17
TERCERO
3,3
759
MARLENE BAONZA
19
QUINTO
5,3
615
JOSMI MARTINEZ
19
QUINTO
5,2
422
ISABEL ALFONSO
17
TERCERO
3,2
914
ROSA RIERA
15
PRIMERO
1,2
346
HEBE RAMOS
19
QUINTO
5,1
851
PILAR PREZ
15
PRIMERO
1,3
71
ANAMARA POSADA
19
QUINTO
5,1
413
IRA AGUIRRE
15
PRIMERO
1,4
764
MARY CARBONELL
16
SEGUNDO
2,4
334
GRISEL NOGUERAS
19
QUINTO
5,1
136
BICHITO CASTAO
17
SEGUNDO
2,4
39
http://dxsp.sergas.es
soporte.epidat@sergas.es
40
http://dxsp.sergas.es
soporte.epidat@sergas.es
41
Para ambas alternativas se ofrecen tres posibilidades para definir los tamaos de muestra de
los estratos:
1. Ser idnticos para todos ellos,
2. Ser libremente determinados por el usuario,
3. Quedar establecidos mediante una asignacin proporcional de un tamao muestral
general. En tal caso el propio programa se ocupa de dividir el tamao muestral en
tantos sumandos como estratos haya y de manera tal que la razn entre el tamao
muestral dentro de un estrato y el tamao de todo el estrato sea la misma para todos
los estratos. La muestra as elegida resulta ser equiprobabilstica.
Adems de presentar los resultados en pantalla, Epidat 4 permite guardar la muestra
resultante del procesamiento en un archivo con formato de Excel (*.xls, *.xlsx) o de
http://dxsp.sergas.es
soporte.epidat@sergas.es
42
TAMAO
267
217
151
129
202
Si se cuenta con la informacin detallada (por ejemplo, la que figura en la hoja Alumnado
dentro del libro INSTITUTO.xls), se marca Abrir datos individuales y se carga dicha hoja. Se
seala entonces el campo que corresponde a los estratos (en este ejemplo, el campo CURSO)
y se comunican los tamaos deseados para las muestras en los estratos segn las alternativas
(I, II y III) anteriormente enumeradas.
Si se desea que la muestra contemple distintos cursos como estratos pero no se cuenta con el
marco detallado, se optar por la variante Abrir datos agregados y se emplea la hoja llamada
MAE, la cual consta de solo cinco registros, uno por cada estrato, con un campo numrico
llamado CURSO que contiene los 5 nombres (PRIMERO, SEGUNDO, etc), otro campo que
recoge su tamao y un tercer campo donde figuran los tamaos muestrales deseados para
cada estrato. Al aplicar Epidat 4, el programa informa los sujetos seleccionados, as como las
probabilidades de seleccin que tuvieron y las ponderaciones que le corresponden
(diferentes para cada estrato si la asignacin de tamaos no fue proporcional).
Nota: Epidat 4 realiza redondeos que pueden ocasionalmente producir que el
tamao muestral global no coincida con el previsto. Naturalmente, en la prctica
se usaran los tamaos redondeados aunque la suma no sea igual al tamao de
muestra recabado (hecho que virtualmente nunca tiene importancia prctica
alguna, ya que la diferencia diferir a lo sumo en una unidad).
http://dxsp.sergas.es
soporte.epidat@sergas.es
43
44
Ejemplo
Supngase que se quiere obtener una muestra de aproximadamente 120 estudiantes de un
instituto de Enseanza Media que tiene 966 alumnos registrados y que los alumnos estn
distribuidos en 21 aulas de tamaos variables y conocidos, tal y como se describi al final del
apartado 3.2.0.
La hoja MC del archivo INSTITUTO.xls contiene la lista de las 21 aulas y los tamaos de
ellas. Ntese que el campo que contiene los conglomerados no tiene que ser numrico (en
este archivo, el campo se llama AULA, estos estn identificados por los cdigos que sealan
de qu aula se trata dentro de cada curso). Se teclea el tamao muestral deseado (120 en este
caso) y Epidat 4 aplica un muestreo simple aleatorio para seleccionar 3 de los 21 grupos. Este
nmero es el resultado de dividir el tamao de la muestra (120) por el nmero medio de
unidades de anlisis de las UPE (966/21=46) y luego redondear: 120/46=2,63. Epidat 4
http://dxsp.sergas.es
soporte.epidat@sergas.es
45
La muestra estar conformada por los sujetos que pertenezcan a estos 3 conglomerados, 104
en total (ya que los tamaos respectivos son 28, 43 y 33). Ntese que el tamao muestral
verdadero raramente coincidir con el deseado (120 en este ejemplo). Este es un rasgo
inherente al muestreo monoetpico. Ntese que tampoco en la variante de que se cuente con
una hoja que contenga la informacin completa (listado de los 966 sujetos y, para cada cual,
el cdigo del grupo al que pertenece), el tamao muestral esperado (deseado) coincide con el
realmente obtenido. En un diseo como ste, el tamao muestral es aleatorio, ya que
depende de cules sean los conglomerados que a la postre resulten seleccionados.
46
Por su parte, los sujetos se seleccionan en cada UPE mediante un MSA, pero hay tres
posibilidades para definir el tamao de la muestra en cada UPE:
Seleccionar una fraccin fija del tamao de los conglomerados, por ejemplo, el 10%.
Si se toma un nmero igual de unidades de anlisis para todos los conglomerados, se deben
introducir dos de los siguientes valores, ya que el tercero se calcula a partir de ellos:
http://dxsp.sergas.es
soporte.epidat@sergas.es
47
http://dxsp.sergas.es
soporte.epidat@sergas.es
48
Supngase ahora que se cuenta con un archivo que contiene la informacin completa: listado
de los 966 sujetos y, para cada cual, el dato del grupo al que pertenece. Cada registro puede
contener o no, adems, otra informacin sobre los individuos, que no ser empleada en el
acto de seleccin.
La hoja Alumnado del libro INSTITUTO.xls contiene los datos (nombre y edad) de cada uno
de los 966 estudiantes y el campo AULA, donde se consigna el aula al que pertenece cada
uno de ellos. Los registros estn all ordenados alfabticamente (tal y como verosmilmente
se obtendran de un registro administrativo). Al correr el programa, se obtiene un resultado
similar al del caso anterior.
http://dxsp.sergas.es
soporte.epidat@sergas.es
49
50
Ejemplo
Supngase que se quiere obtener una muestra de aulas en cada curso de un instituto de
Enseanza Media que tiene 966 alumnos registrados, y que los alumnos estn distribuidos en
21 aulas de tamaos variables y conocidos, tal y como se describi en el apartado 3.2.1.
La hoja MCB del archivo INSTITUTO.xls contiene la lista de las 21 aulas distribuidas en 5
cursos y los tamaos de cada una de las aulas. Ntese que el campo que contiene los
conglomerados no tiene que ser numrico (en este archivo, el campo se llama AULA, estos
estn identificados por los cdigos que sealan de qu aula se trata dentro de cada curso).
Si se quieren seleccionar dos aulas en cada curso y se piensa incluir en la muestra todos los
alumnos de las aulas seleccionadas, hay que realizar un muestreo por conglomerados (aulas)
monoetpico estratificado por cursos. En Epidat 4 hay que definir el tamao de muestra en
base a los conglomerados indicando que se desea una muestra igual en todos los estratos (de
tamao 2).
http://dxsp.sergas.es
soporte.epidat@sergas.es
51
http://dxsp.sergas.es
soporte.epidat@sergas.es
52
53
54
1
30
62
37
45
48
222
2
29
43
58
51
47
228
3
28
64
56
33
86
267
AULA
4
37
48
21
106
5
33
6
54
7
56
33
54
56
Total
267
217
151
129
202
966
http://dxsp.sergas.es
soporte.epidat@sergas.es
55
http://dxsp.sergas.es
soporte.epidat@sergas.es
56
http://dxsp.sergas.es
soporte.epidat@sergas.es
57
http://dxsp.sergas.es
soporte.epidat@sergas.es
58
59
4
Mh
donde Mh es el nmero de manzanas existentes en la zona o estrato h. En la segunda etapa,
la probabilidad de seleccin de un individuo que reside en la manzana j del estrato h ser:
20
N hj
donde Nhj es el nmero de individuos de dicha manzana. El producto de estos dos factores
da como resultado la probabilidad de seleccin de cada individuo. Por ejemplo, la
probabilidad del octavo individuo elegido en la segunda manzana del tercer estrato es:
4 20
M 3 N 32
La ponderacin que corresponde a ese individuo es el inverso de la probabilidad de
seleccin.
http://dxsp.sergas.es
soporte.epidat@sergas.es
60
deff
var( R )
varMSA (R )
cuyo caso, R es una estimacin de la media poblacional. Pero tambin admite variables
categricas o politmicas. Por ejemplo, dicha variable pudiera registrar la RELIGIN de un
sujeto y estar conformada por 4 categoras: CATLICO, PROTESTANTE, ATEO, OTRO; o
pudiera identificar el GRADO en que se halla un escolar de Primaria, y estar conformada por
las 6 categoras: 1, 2, 3, 4, 5 y 6. En el caso de tratarse de una variable categrica, Epidat 4
computar tantas estimaciones puntuales y respectivos intervalos para los porcentajes como
categoras diferentes contenga la variable en cuestin.
Un caso particular de variable categrica que tiene especial relevancia es aquella con solo dos
categoras, ya que es la situacin en que se quiere estimar un porcentaje.
http://dxsp.sergas.es
soporte.epidat@sergas.es
61
MEDIDA: variable nominal que clasifica al sujeto segn grado de acuerdo con cierta
medida; las tres respuestas posibles a dicha variable son: "A favor", "En contra",
"Indeciso";
62
http://dxsp.sergas.es
soporte.epidat@sergas.es
63
PROBABILIDAD
SUJETO
ESTRATO
UPE
UPE
2/5
SUJETO
TOTAL
PONDERACIN
2/20
0,040
25,000
2/5
2/20
0,040
25,000
2/5
4/30
0,053
18,750
2/5
4/30
0,053
18,750
2/5
4/30
0,053
18,750
2/5
4/30
0,053
18,750
3/16
2/40
0,009
106,667
3/16
2/40
0,009
106,667
3/16
2/67
0,006
178,667
10
3/16
2/67
0,006
178,667
11
3/16
2/130
0,003
346,667
12
3/16
2/130
0,003
346,667
13
3/20
2/12
0,025
40,000
14
3/20
2/12
0,025
40,000
15
3/20
2/8
0,038
26,667
16
3/20
2/8
0,038
26,667
17
3/20
2/12
0,025
40,000
18
3/20
2/12
0,025
40,000
http://dxsp.sergas.es
soporte.epidat@sergas.es
64
NOMBRE
NUMERO
ESTR
CONG
W_MEP MEDIDA
DIENTES
ESTU
JULIETTA AZANZA
25,00
A favor
15
EDITH BENAVIDEZ
25,00
Indeciso
14
IAKI MANRESA
18,75
En contra
TOMAS MOLINER
18,75
Indeciso
JORGE RODRGUEZ
18,75
A favor
MILAGROS DEYBIS
18,75
En contra
ARSENIO CAAS
106,67
En contra
32
REGLA TABOADA
106,67
En contra
30
IVAN RODRGUEZ
178,67
En contra
27
DANIEL JIMNEZ
10
178,67
En contra
WILFREDO CABRERA
11
346,67
A favor
20
ANTONIO RODRGUEZ
12
346,67
A favor
19
JAIME ARRIZABALAGA
13
40,00
Indeciso
PATRICIA GRANDES
14
40,00
Indeciso
AURORA HORTA
15
26,67
Indeciso
GRACIELA PREZ
16
26,67
A favor
ROBERTO TORRALBA
17
40,00
En contra
12
JESS NAZUNTALO
18
40,00
A favor
13
Notas:
Los dos primeros campos (NOMBRE y NMERO) no son necesarios para llevar adelante
el procesamiento, pero Epidat 4 no exige que en la hoja de trabajo solo estn presentes los
campos necesarios para el procesamiento; consecuentemente, pueden figurar en ella
algunas variables que no vayan a ser empleadas.
Las estimaciones para las 3 variables del estudio en este caso son las siguientes (ha de
indicarse al programa para cuales se quieren estimar medias (DIENTES) y para cules
proporciones (MEDIDA, ESTU):
http://dxsp.sergas.es
soporte.epidat@sergas.es
65
http://dxsp.sergas.es
soporte.epidat@sergas.es
66
UPE
UPE
8/41
TOTAL
PONDERACIN
2/20
0,020
51,250
8/41
2/20
0,020
51,250
8/41
4/30
0,026
38,438
8/41
4/30
0,026
38,438
8/41
4/30
0,026
38,438
8/41
4/30
0,026
38,438
8/41
2/40
0,010
102,500
8/41
2/40
0,010
102,500
8/41
2/67
0,006
171,688
10
8/41
2/67
0,006
171,688
11
8/41
2/130
0,003
333,125
12
8/41
2/130
0,003
333,125
13
8/41
2/12
0,033
30,750
14
8/41
2/12
0,033
30,750
15
8/41
2/8
0,049
20,500
16
8/41
2/8
0,049
20,500
17
8/41
2/12
0,033
30,750
18
8/41
2/12
0,033
30,750
http://dxsp.sergas.es
soporte.epidat@sergas.es
SUJETO
67
NUMERO
CONG
W_BIET MEDIDA
DIENTES
ESTU
JULIETTA AZANZA
25,625
A favor
15
EDITH BENAVIDEZ
25,625
Indeciso
14
IAKI MANRESA
38,438
En contra
TOMAS MOLINER
38,438
Indeciso
JORGE RODRGUEZ
38,438
A favor
MILAGROS DEYBIS
38,438
En contra
ARSENIO CAAS
102,500 En contra
32
REGLA TABOADA
102,500 En contra
30
IVAN RODRGUEZ
171,688 En contra
27
DANIEL JIMNEZ
10
171,688 En contra
WILFREDO CABRERA
11
666,250 A favor
20
ANTONIO RODRGUEZ
12
666,250 A favor
19
JAIME ARRIZABALAGA
13
30,750
Indeciso
PATRICIA GRANDES
14
30,750
Indeciso
AURORA HORTA
15
20,500
Indeciso
GRACIELA PREZ
16
20,500
A favor
ROBERTO TORRALBA
17
30,750
En contra
12
JESS NAZUNTALO
18
30,750
A favor
13
A la hora de identificar las variables necesarias para el clculo en Epidat 4, se deja en blanco
el campo correspondiente a los estratos, ya que no hubo estratificacin; las ponderaciones
seran las que se hallan en el campo W_BIET y el campo que identifica los conglomerados es
CONG. Ahora el resultado hubiera sido:
http://dxsp.sergas.es
soporte.epidat@sergas.es
68
http://dxsp.sergas.es
soporte.epidat@sergas.es
69
Los resultados seran los mismos que antes, pero los datos necesarios de diseo que han de
figurar en la hoja de trabajo si el estudio fue un MSA, aparecen en la siguiente tabla:
NOMBRE
NUMERO MEDIDA
DIENTES
ESTU
JULIETTA AZANZA
A favor
15
EDITH BENAVIDEZ
Indeciso
14
IAKI MANRESA
En contra
TOMAS MOLINER
Indeciso
JORGE RODRGUEZ
A favor
MILAGROS DEYBIS
En contra
ARSENIO CAAS
En contra
32
REGLA TABOADA
En contra
30
IVAN RODRGUEZ
En contra
27
DANIEL JIMNEZ
10
En contra
WILFREDO CABRERA
11
A favor
20
ANTONIO RODRGUEZ
12
A favor
19
JAIME ARRIZABALAGA
13
Indeciso
PATRICIA GRANDES
14
Indeciso
AURORA HORTA
15
Indeciso
GRACIELA PREZ
16
A favor
ROBERTO TORRALBA
17
En contra
12
JESS NAZUNTALO
18
A favor
13
http://dxsp.sergas.es
soporte.epidat@sergas.es
70
http://dxsp.sergas.es
soporte.epidat@sergas.es
71
Bibliografa
1
Rothman JK. Modern epidemiology. Boston: Little, Brown and Col; 1982.
2
Silva LC. Cultura estadstica e investigacin cientfica en el campo de la salud: una
mirada crtica. Madrid: Daz de Santos; 1997.
3
Silva LC. Diseo razonado de muestras y captacin de datos para la investigacin
sanitaria. Madrid: Daz de Santos; 2000.
4
Marrugat J, Vila J, Pavesi J, Sanz F. Estimacin del tamao de muestra en la
investigacin clnica y epidemiolgica. Med Clin (Barc). 1998;111:267-76.
5
Lwanga SK, Lemeshow S. Determinacin del tamao de las muestras en los estudios
sanitarios: manual prctico. Ginebra: OMS; 1991.
6
Surez P, Alonso JC. Sobre el supuesto de mxima indeterminacin, el tamao
muestral y otras consideraciones sobre muestreo. Gacet Sanit. 1999;13(3):243-6.
7
Silva LC. Nueva visita al supuesto de mxima indeterminacin y al empleo de errores
absolutos y relativos. Gacet Sanit. 2000;14(3):254-7.
8
Marrugat J, Vila J, Pavesi J. Supuesto de mxima indeterminacin: error absoluto o
error relativo en el clculo del tamao de la muestra?. Gacet Sanit. 1999;13(6):491-3.
9
Garca C, Almenara J. Determinacin del tamao de muestra en variables cualitativas
en las que se desconoce el valor del parmetro. Med Clin (Barc). 1999;112:797-8.
10 Thompson WD. Anlisis estadstico de los estudios de casos y controles. Bol Oficina
Sanit Panam. 1996;121(1):41-61.
11 International Committee of Medical Journal Editors [pgina en Internet]. Uniform
requirements for manuscripts submitted to biomedical journals [actualizado Oct 2008; citado
11 Jul 2009]. Disponible en: http://www.icmje.org
12 Wacholder S, Silverman DT, McLaughlin JK, Mandel JS. Selection on controls in casecontrols studies. III. Design options. Am J Epidemiol. 1992;135 (9):1042-9.
13 Fleiss JL. Statistical methods for rates and proportions. New York: John Wiley & Sons;
1981.
14 Cantor AB. Sample-size calculations for Cohens kappa. Psychological Methods.
1996;1(2):150-3.
15 Yerushalmy J. Statistical problems in assessing methods of medical diagnosis, with
special reference to X-ray techniques. Pub Health Rep. 1947;62:1432-49.
16 Obuchowsky NA. Sample size calculations in studies of test accuracy. Statistical
Methods in Medical Research. 1998;7:371-92.
http://dxsp.sergas.es
soporte.epidat@sergas.es
72
http://dxsp.sergas.es
soporte.epidat@sergas.es
73
Anexo 1: novedades
74
Anexo 2: frmulas
Media
1.1.2.
Proporcin
1.1.3.
Odds ratio
1.1.4.
Riesgo relativo
1.1.5.
Concordancia
1.1.6.
Pruebas diagnsticas
Comparacin de medias
Comparacin de proporciones
Estudios de cohorte
1.2.5.
Estudios de equivalencia
Pruebas diagnsticas
Calidad de lotes
1.2.8.
Supervivencia
1.2.9.
Coeficiente de correlacin
http://dxsp.sergas.es
soporte.epidat@sergas.es
75
Anexo 2: frmulas
http://dxsp.sergas.es
soporte.epidat@sergas.es
76
Anexo 2: frmulas
1- es el nivel de confianza.
nF
Nn
, si la poblacin es finita,
Nn
N es el tamao de la poblacin,
Precisin absoluta:
e z 1-
, si la poblacin es infinita,
n
e F e 1 f , si la poblacin es finita,
http://dxsp.sergas.es
soporte.epidat@sergas.es
77
Anexo 2: frmulas
n es el tamao de la muestra,
n
.
N
z1
2
n
P(1 P ) , si la poblacin es infinita,
e
nF
Nn
, si la poblacin es finita,
Nn
N es el tamao de la poblacin.
Precisin absoluta:
e z 1-
P( 1 P )
, si la poblacin es infinita,
n
e F e 1 f , si la poblacin es finita,
Los valores resultantes se multiplican por el efecto de diseo (deff) y por 100.
Donde:
n es el tamao de la muestra,
n
.
N
http://dxsp.sergas.es
soporte.epidat@sergas.es
78
Anexo 2: frmulas
1
1
z 12
2 P1 ( 1 P1 )
P0 (1 P0 )
n1
(casos)
ln(1 )2
n 0 n 1 (controles)
Donde:
OR es la odds ratio,
P1
OR P0
P (1 P0 )
P1
, P0
, OR 1
,
(1 P0 ) OR P0
OR (1 P1 ) P1
P0 ( 1 P1 )
Precisin relativa:
Donde:
1
1
1
,
n 1 P1 (1 P1 ) P0 (1 P0 )
Var(ln OR)
http://dxsp.sergas.es
soporte.epidat@sergas.es
79
Anexo 2: frmulas
1 P1 1 P0
z 12
2 P1
P0
n1
(expuestos)
ln(1 )2
n 0 n 1 (no expuestos)
Donde:
P1 es el riesgo en expuestos,
P0 es el riesgo en no expuestos,
RR es el riesgo relativo,
P1 P0RR , P0
P
P1
, RR 1 ,
P0
RR
Precisin relativa:
Donde:
Var(ln RR )
1 1 P1 1 P0
,
n 1 P1
P0
n
es el tamao de la muestra de expuestos,
1
n1
http://dxsp.sergas.es
soporte.epidat@sergas.es
80
Anexo 2: frmulas
z1
2
n
Q
e
Donde:
C k Pe 1 k 2 ,
P2.=1-P1 y P.2=1-P.1,
Pe P1.P.1 P2.P.2 ,
P0 k 1 Pe Pe ,
P22
ABC
,
(1 Pe )2
P0 P1. P.2
,
2
Precisin absoluta:
e z 1-
Q
n
Donde:
n es el tamao de muestra.
http://dxsp.sergas.es
soporte.epidat@sergas.es
81
Anexo 2: frmulas
nE
, si no se conoce a priori la condicin de enfermo
P
2
z1
2
nE
(1 S ) (Frmula para una proporcin, poblacin infinita)
e S
Donde:
S es la sensibilidad esperada,
nE es el nmero de enfermos,
Precisin absoluta:
e z 1-
S (1 S )
(Frmula para una proporcin, poblacin infinita)
nE
Donde:
n
, si se conoce a priori la condicin de enfermo,
1
nE
http://dxsp.sergas.es
soporte.epidat@sergas.es
82
Anexo 2: frmulas
Especificidad:
Tamaos de muestra:
n NE y n E
n NE
, si se conoce a priori la condicin de enfermo
n NE
, si no se conoce a priori la condicin de enfermo
1P
n NE
z1
2
Donde:
E es la especificidad esperada,
Precisin:
e z1-
E ( 1 E )
(Frmula para una proporcin, poblacin infinita)
n NE
Donde:
n
, si se conoce a priori la condicin de enfermo,
1
n NE
Sensibilidad y especificidad
Tamaos de muestra:
83
Anexo 2: frmulas
1- es el nivel de confianza,
1- es la potencia,
z 1 - z 1 -
2
n1
12
3 z 12-
2 2
2
z 1 - z 1 - 1 z 1 -
2
2
n1
21
n 2 n 1
Donde:
22
12
d
es la diferencia estandarizada de medias,
http://dxsp.sergas.es
soporte.epidat@sergas.es
84
Anexo 2: frmulas
Potencia:
1 Z 1
z 1
2 3 z12-
2
d n1
z 1- ,
2
2
2 12
si
las
varianzas
son
distintas
z 1
z12-
2
n1
z1- , si las varianzas son iguales
2
21 1
Donde:
n1
n
, donde n es el tamao total de la muestra.
1
2
z 1 - z 1 - z 1 -
2
2
n
Donde:
d
es la diferencia estandarizada de medias,
d
http://dxsp.sergas.es
soporte.epidat@sergas.es
85
Anexo 2: frmulas
Potencia:
1 Z 1
z 1 -
z 12
2
n
z
1- 2
Donde:
1 (1 )P(1 P ) z 1 P1 (1 P1 ) P2 (1 P2 )
2
; n n
n1
2
1
(P1 P2 )2
Tamaos de muestra para aplicar el test 2 con la correccin por continuidad de Yates (c2) o
el test exacto de Fisher:
2
2(1 )
n
m 1 1 1 1
; m 2 m 1
4
n 1 P1 P2
Donde:
P1 P2
.
1
1 Z 1
z 1
P1 P2 n 1 z1
(1 )P(1 P )
P1 (1 P1 ) P2 (1 P2 )
http://dxsp.sergas.es
soporte.epidat@sergas.es
86
Anexo 2: frmulas
Potencia del test 2 con la correccin por continuidad de Yates (c2) o del test exacto de
Fisher:
1 Z 1
z 1
2
z (1 )P(1 P )
P1 P2 m 1
4m 1 1 2
P1 (1 P1 ) P2 (1 P2 )
Donde:
1
,
P1 P2
n1
n
m
y m1
, donde n m es el tamao total de la muestra.
1
1
n
2
(P1 P2 )
Donde:
Potencia:
1 Z 1
z 1
P1 P2 n z 1
2
2
Pd
Pd (P1 P2 )
http://dxsp.sergas.es
soporte.epidat@sergas.es
87
Anexo 2: frmulas
Donde:
P1
OR P2
P1
, P2
.
(1 P2 ) OR P2
OR (1 P1 ) P1
P1
OR P2
P1
, P2
.
(1 P2 ) OR P2
OR (1 P1 ) P1
P1 es el riesgo en expuestos,
P2 es el riesgo en no expuestos,
P1
,
RR
88
Anexo 2: frmulas
n1
2 1 z 1 z 1 2
d
n 2 n 1
Donde:
Potencia:
1 z 1
d
z1
n 1
z1
1
Donde:
n
,
1
n1
n1
P1 (1 P1 ) P2 (1 P2 ) z1 P1 (1 P1 ) P2 (1 P2 )
P1 P2
n 2 n 1
http://dxsp.sergas.es
soporte.epidat@sergas.es
89
Anexo 2: frmulas
Donde:
P1 2 u cosw
bc d
b
,
v 2
2a
3a 6a
c
b
u signov
,
3a 3a
d P11 .
b
y P2 P1 ,
3a
1
v
arccos 3 ,
3
u
3
1
,
1
1 P1 P2 1 2 ,
1 2
2 P1 1 P1 P2 ,
Potencia:
1 z 1
z 1
P1 P2 n 1 z 1 P1 (1 P1 ) P2 (1 P2 )
P1 (1 P1 ) P2 (1 P2 )
Donde:
n
,
1
n1
http://dxsp.sergas.es
soporte.epidat@sergas.es
90
Anexo 2: frmulas
1 2 ( 1 ) z 1 1 ( 1 1 ) 2 ( 1 2 )
2
nE
2
( 1 2 )
Nmero de enfermos para aplicar el test 2 con la correccin por continuidad de Yates o el
test exacto de Fisher:
n
mE E
4
4
1 1
n E 1 2
n E y n NE n E
m E y m NE m E
Si no se conoce a priori la condicin de enfermo, se calcula el tamao total de muestra:
nE
m
m E
P
P
Donde:
1 2
,
2
http://dxsp.sergas.es
soporte.epidat@sergas.es
91
Anexo 2: frmulas
Potencia:
1 Z 1
- para el test 2:
z 1
1 2 n E z 1
2 (1 )
1 ( 1 1 ) 2 ( 1 2 )
- para el test 2 con la correccin por continuidad de Yates o el test exacto de Fisher:
1 2
z 1
2
m E
z 2 (1 )
4m E 1 2
1 ( 1 1 ) 2 ( 1 2 )
Donde:
n
m
mE
si se conoce a priori la condicin de enfermo,
1
1
nE
2
.
1 2
Especificidad
Las frmulas para calcular el tamao de muestra son las mismas que para la sensibilidad,
con la diferencia de que se obtienen los no enfermos nNE y mNE, respectivamente, para el test
2 con o sin correccin por continuidad. Tambin coinciden las frmulas para la potencia,
sustituyendo nE y mE por nNE y mNE, respectivamente.
Si se conoce a priori la condicin de enfermo se calculan los tamaos de no enfermos y
enfermos:
n NE y n E
n NE
http://dxsp.sergas.es
soporte.epidat@sergas.es
92
m NE y m E
Anexo 2: frmulas
m NE
n NE
m
m NE
1P
1P
n NE
n
m
m NE
si se conoce a priori la condicin de enfermo
1
1
Sensibilidad y especificidad
Si se conoce a priori la condicin de enfermo se calcula el tamao de enfermos para
sensibilidad y el de no enfermos para especificidad.
Si no se conoce a priori la condicin de enfermo, se calcula el tamao total de muestra:
n n
n mx E , NE
P 1P
La potencia se calcula por separado para sensibilidad y especificidad.
http://dxsp.sergas.es
soporte.epidat@sergas.es
93
Anexo 2: frmulas
n E y n NE n E
Si no se conoce a priori la condicin de enfermo, se calcula el tamao total de muestra:
nE
P
Para la potencia se calcula primero el tamao de muestra de enfermos a partir del tamao
total de muestra:
nE
n
, si se conoce a priori la condicin de enfermo
1
Especificidad
Se aplican las frmulas del epgrafe 2.2.2 para obtener el nmero de no enfermos, nNE, donde:
http://dxsp.sergas.es
soporte.epidat@sergas.es
94
n NE y n E
Anexo 2: frmulas
n NE
n NE
1P
n NE
n
, si se conoce a priori la condicin de enfermo
1
Sensibilidad y especificidad
Si se conoce a priori la condicin de enfermo se calcula el tamao de enfermos para
sensibilidad y el de no enfermos para especificidad.
Si no se conoce a priori la condicin de enfermo, se calcula el tamao total de muestra:
n n
n mx E , NE
P 1P
La potencia se calcula por separado para sensibilidad y especificidad.
http://dxsp.sergas.es
soporte.epidat@sergas.es
95
Anexo 2: frmulas
z
n
P0 (1 P0 ) z 1 Pa (1 Pa )
(P0 Pa )2
d nP0 z1 nP0 (1 P0 )
Donde:
1.2.8.- SUPERVIVENCIA
Comparacin de dos curvas de supervivencia [Schoenfeld (1983)]:
Esta opcin calcula el tamao de muestra necesario para comparar dos curvas de
supervivencia mediante el test log-rank, asumiendo un modelo de riesgos proporcionales
para los tiempos de supervivencia.
Nmero de eventos necesarios:
2
1 1
E z1- z1-
ln
nc
E
n
, con n
1 Pc
Pe
n1
nc
nc
y n2
1
1
Donde:
ln P2
es el hazard ratio,
ln P1
http://dxsp.sergas.es
soporte.epidat@sergas.es
96
Pe
Anexo 2: frmulas
(1 P1 ) (1 P2 )
es la probabilidad de ocurrencia de un evento durante el
1
perodo de estudio.
k 2
k
(k 1) ln j 2 2 ln j ln q
j2
j2q j
nc
E
n
, con n
1 Pc
Pe
nj
nc
, j=1,...,k
k
Donde:
ln Pj
ln P1
, j=2,...,k,
http://dxsp.sergas.es
soporte.epidat@sergas.es
97
Pe
Anexo 2: frmulas
1 k
(1 Pj ) es la probabilidad de ocurrencia de un evento durante el
k j1
perodo de estudio.
U1
n1
1 1
ln
2 1
z 1 z 1 2
3
U 12
Paso i (i1):
Ui U1
ni
2( n i 1 1)
z1 z1 2 3
U i2
Potencia:
1 z 1
z1 U n 3 z1
Donde:
1 1
.
ln
2 1 2( n 1)
http://dxsp.sergas.es
soporte.epidat@sergas.es
98
Anexo 2: frmulas
n
100
N
Donde:
N es el tamao de la poblacin,
n es el tamao de la muestra.
Los nmeros seleccionados son los de la secuencia {r+jk, j=0, 1, , s-1}, donde s es
N
,
n
n
100 , siendo n el tamao de muestra resultante.
N
http://dxsp.sergas.es
soporte.epidat@sergas.es
99
Anexo 2: frmulas
Se calcula h:
f
100 si f 51
h
1 f
si f 50
100
Donde:
N es el tamao de la poblacin,
n es el tamao de la muestra,
http://dxsp.sergas.es
soporte.epidat@sergas.es
100
Anexo 2: frmulas
Tabla 1.- Intervalos de seleccin (k1, k2) para aplicar el muestreo sistemtico en fases con
probabilidad de seleccin h.
h
k1
k2
k1
k2
.01
50
-2
.26
.02
50
.27
38
.03
33
.28
25
.04
25
.29
19
.05
20
.30
-10
.06
16
-25
.31
-14
.07
14
-50
.32
-25
.08
12
-25
.33
.09
10
-10
.34
60
.10
10
.35
40
.11
11
48
.36
25
.12
-25
.37
18
.13
-11
.38
14
.14
-50
.39
12
.15
-10
.40
-5
.16
-25
.41
.17
32
.42
-6
.18
-10
.43
-7
.19
-20
.44
-8
.20
.45
-10
.21
.46
-12
.22
40
.47
-17
.23
27
.48
-25
.24
-25
.49
-50
.25
.50
http://dxsp.sergas.es
soporte.epidat@sergas.es
101
Anexo 2: frmulas
N Nh
h 1
Algoritmo de seleccin:
fh
nh
100 , h=1, , L
Nh
Donde:
L es el nmero de estratos,
nh n
Nh
, h=1, , L, siendo n el tamao total de la muestra.
N
N Nk
k 1
Algoritmo de seleccin:
m
100
M
http://dxsp.sergas.es
soporte.epidat@sergas.es
102
Anexo 2: frmulas
Donde:
M
N
N Nk
k 1
Ck M i , k=1, , M
i 1
N
,
m
http://dxsp.sergas.es
soporte.epidat@sergas.es
103
Anexo 2: frmulas
m
uk 100 , k=1, , M, si los conglomerados se seleccionan con
N
m uk
100 , k=1, , M, si se selecciona una muestra simple aleatoria de
M Nk
conglomerados.
Donde:
2.6.MUESTREO
ESTRATIFICADO
POR
CONGLOMERADOS
MONOETPICO
N h N hk
k 1
N Nh
h 1
Algoritmo de seleccin:
fh
mh
100 , h=1, , L
Mh
http://dxsp.sergas.es
soporte.epidat@sergas.es
104
Anexo 2: frmulas
Donde:
L es el nmero de estratos,
Nhk es el tamao poblacional del conglomerado k del estrato h, k=1, , Mh, h=1,
, L,
mh m
Nh
, h=1, , L
N
mh nh
Mh
, h=1, , L
Nh
N h N hk
k 1
N Nh
h 1
mh m
Nh
, h=1, , L
N
http://dxsp.sergas.es
soporte.epidat@sergas.es
105
Anexo 2: frmulas
mh
u hk 100 , k=1, , Mh, h=1,, L, si los conglomerados se seleccionan
Nh
m h u hk
100 , k=1, , Mh, h=1,, L, si se selecciona una muestra simple
M h N hk
aleatoria de conglomerados,
Donde:
L es el nmero de estratos,
Nhk es el tamao poblacional del conglomerado k del estrato h, k=1, , Mh, h=1,
, L,
106
Anexo 2: frmulas
n
k
Se calcula m
Paso 1: se selecciona una muestra simple aleatoria de tamao m entre los nmeros
de 1 a n. Los sujetos de esta muestra se asignan al grupo 1.
Paso j (j=2, , k-1): se selecciona una muestra simple aleatoria de tamao m entre
los nmeros de 1 a n que no han sido asignados a los grupos 1, 2, ..j-1. Los sujetos
de esta muestra se asignan al grupo j.
s si :
i 1
k
1
w
, w w i , w i* i ,
si
w
i 1
Se calculan: w i
j1
i 1
i 1
*
*
Si w i r w i , el sujeto s+1 se asigna al grupo j (j=2, , k).
Donde:
k es el nmero de tratamientos,
n es el nmero de sujetos.
http://dxsp.sergas.es
soporte.epidat@sergas.es
107
Anexo 2: frmulas
1 L m h n hi
xhij
n h 1 i 1 j1
x
y
Error estndar:
EE Varr
Var r
L
L
1 L
2
U
r
V
2
r
Wh
h
h
2
y h 1
h 1
h 1
r z
EE , r z 1 EE
1
2
2
Efecto de diseo:
deff
nVar r
s2
Donde:
L es el nmero de estratos,
nhi es el nmero de sujetos del conglomerado i, i=1, , mh, del estrato h, h=1, ,
L,
L mh
mh
n hi
h 1
i 1
j 1
mh
n hi
h 1
i 1
j1
x x h , x h x hi , xhi whijxhij ,
y y h , y h y hi , y hi w hij ,
http://dxsp.sergas.es
soporte.epidat@sergas.es
108
Uh
mh
1
m h x2hi x2h ,
mh 1
i 1
Vh
mh
1
m h y2hi y2h ,
mh 1
i 1
Wh
s2
z1
mh
1
m h xhi yhi xh y h ,
mh 1
i 1
1 L m h n hi
xhij x 2 ,
n 1 h 1 i 1 j 1
2
Anexo 2: frmulas
,
2
1- es el nivel de confianza.
http://dxsp.sergas.es
soporte.epidat@sergas.es
109
Anexo 2: frmulas
Bibliografa
- Ahnn S, Anderson SJ. Sample size determination for comparing more than two survival
distributions. Stat Med. 1995;14:2273-82.
- Cantor AB. Sample size calculations for Cohens kappa. Psychological Methods.
1996;1(2):150-3.
- Connor RJ. Sample size for testing differences in proportions for the paired-sample design.
Biometrics. 1987;43:207-11.
- Freedman LS. Tables of the number of patients required in clinical trials using the logrank
test. Stat Med. 1982;1:121-9.
- Haynam GE, Govindarajulu Z, Leone FC. Tables of the cumulative non-central chi-square
distribution. En: Selected tables in mathematical statistics, vol.1. American Mathematical
Society; 1970. pp. 1-78.
- Lwanga SK, Lemeshow S. Determinacin del tamao de las muestras en los estudios
sanitarios. Manual prctico. Ginebra: OMS. 1991.
- Machin D, Campbell MJ, Fayers PM, Pinol APY. Sample size tables for clinical studies. 2
ed. Blackwell Science Ltd. 1997.
- Narula SC, Desu MM. Algorithm AS 170: Computation of probability and non-centrality
parameter of a non-central chi-squared distribution. Journal of the Royal Statistical Society.
1981:30(3):349-52.
- Obuchowski NA. Sample size calculations in studies of test accuracy. Statistical Methods in
Medical Research. 1998;7:371-92.
- Rosner B. Fundamentals of biostatistics. 5 ed. Belmont, CA: Duxbury Press. 2000.
- Schoenfeld DA. Sample-size formula for the proportional-hazards regression model.
Biometrics. 1983;39:499-503.
- Schouten HJA. Sample size formula with a continuous outcome for unequal group sizes
and unequal variances. Stat Med. 1999;18:87-91.
- Silva LC. Diseo razonado de muestras y captacin de datos para la investigacin sanitaria.
Madrid: Daz de Santos. 2000.
http://dxsp.sergas.es
soporte.epidat@sergas.es
110