Está en la página 1de 13

InnOvaciOnes de NegOciOs 5(1): 53 - 65, 2008 2008 UANL, Impreso en Mxico (ISSN 1665-9627)

Tamao ptimo de la muestra (Optimum sample size)


UANL, San Nicols, N.L, Mxico, mhbadii@yahoo.com.mx Key words: Bias, estimation, population, sample Abstract. The basics of sample size estimation process are described. Assuming the normal distribution, the procedures for estimation of sample size for the mean; with and without knowledge of the population variance, and population proportion are noted. Sample size for more than one population feature is also given. Palabras clave: Estimacin, muestra, poblacin, sesgo Resumen. Se describen los fundamentos del proceso de la estimacin del tamao ptimo de la muestra. Suponiendo una distribucin normal para una poblacin, se notan los procedimientos de la estimacin del tamao ptimo de la muestra para la media muestral con y sin el conocimiento de la varianza poblacional. Se presenta el tamao ptimo de la muestra con ms de una caracterstica poblacional.

Badii, M.H., J. Castillo & A. Guillen

Introduccin La pregunta de qu tan grande debe ser una muestra surge inmediatamente al inicio del planteamiento de cualquier encuesta o experimento (Badii et al., 2006, Badii & Castillo, 2007, Badii et al., 2007a, b). Esta es una pregunta importante y no se debe tratar a la ligera. Tomar una muestra ms grande de lo necesario para obtener los resultados deseados es un desperdicio de recursos, mientras que, por otro lado, las muestras demasiado pequeas con frecuencia dan resultados que carecen de uso prctico, y podemos fallar en la obtencin de los objetivos de nuestro anlisis. Tenemos algo de error de muestreo debido a que no hemos estudiado a la poblacin completa. Siempre que tomamos una muestra, perdemos algo de informacin til con respecto a la poblacin. Si queremos tener un alto grado de precisin, tenemos que tomar una muestra suficiente de la poblacin para asegurarnos la obtencin de la informacin requerida. El error de muestreo se
Tamao ptimo de la muestra

54

puede controlar si seleccionamos una muestra cuyo tamao sea el adecuado. En general, cuenta ms precisin se quiera, ms grande ser el tamao de la muestra necesaria. En este trabajo se estudia cmo determinar el tamao de la muestra de acuerdo con la situacin de cada experimento. A continuacin se proporciona un mtodo para determinar el tamao de la muestra cuando se desea estimar la proporcin de una poblacin. Mediante extensiones directas de estos mtodos, es posible determinar el tamao necesario de las muestras para situaciones ms complicadas. Por lo tanto, el objetivo de la estimacin por intervalos es el de obtener intervalos estrechos con alta confiabilidad. Si se observan los componentes de un intervalo, se ve que su dimensin est determinada por la magnitud de la cantidad: (Coeficiente de confiabilidad) X (error estndar) ya que la magnitud total del intervalo es el doble de esta cantidad. Para un determinado error estndar, el aumento de confiabilidad implica un coeficiente de contabilidad mayor, para un error estndar fijo, produce un intervalo de mayor dimensin. Por otra parte, si se fija el coeficiente de confiabilidad, la nica forma de reducir la dimensin del intervalo es la y es n una constante, la nica forma de obtener un error estndar menor es tomar una muestra grande. Qu tan grande debe ser la muestra? Esto depende del tamao de que es la desviacin estndar de la poblacin, as como del grado de confiabilidad y dimensin del intervalo deseados. Supngase que se desea obtener un intervalo que se extiende d unidades hacia uno y otro lado de estimador. Ello se enuncia: reduccin del error estndar. Dado que el error estndar es igual d = (Coeficiente de confiabilidad) X (error estndar) (1)

Si el muestreo va ser con reemplazos, a partir de una poblacin infinita o de una que sea lo suficiente grande como para ignorar la correccin para poblacin finita, la ecuacin 1 se transforma en: d=z

(2)

la cual, cuando se resuelve para n, da.


M.H. Badii et al.

55

z 2 2 n= d2

(3)

Cuando el muestreo se hace sin reemplazos a partir de una poblacin finita y pequea, se requiere de la correccin para poblacin finita y la ecuacin 3 queda de la siguiente forma:

d =z

N n n N 1

(4)

que al resolverse para n, resulta :

Nz2 2 n= 2 d ( N 1) + z 2 2

(5)

En caso de que se pueda ignorar la correccin para poblacin finita, la ecuacin 5 se reduce a la ecuacin 3. Las frmulas para el tamao de la muestra requieren del conocimiento de 2 pero, como ya se ha sealado, la varianza de la poblacin casi siempre se desconoce. Como resultado, es necesario estimar 2. Las fuentes de estimacin de 2 que se utilizan con ms frecuencia son las siguientes. 1. Se extrae una muestra piloto o preliminar de la poblacin y se utiliza la varianza calculada a partir de esta muestra como una estimacin de 2. Las observaciones utilizadas en la muestra piloto se toman como parte de la muestra final, de modo que n (el tamao calculado de la muestra) n1 (el tamao de la muestra piloto) = n2 (el nmero de observaciones necesarias para satisfacer el requerimiento total del tamao de la muestra). 2. A partir de estudios anteriores o similares es posible obtener estimaciones de 2. 3. Si se cree que la poblacin de la cual se extrae la muestra posee una distribucin aproximadamente normal, se puede aprovechar el hecho de que la amplitud es aproximadamente igual a seis desviaciones estndar y calcular = R/6. Este mtodo requiere algn conocimiento acerca de los valores mnimos y mximo de la variable en la poblacin.
Tamao ptimo de la muestra

56

Ejemplo 1. Un nutrilogo del departamento de salud, al efectuar una encuesta entre una poblacin de muchachas adolescentes con el fin de determinar su ingestin diaria promedio de protenas, busc el consejo de un experto en bioestadstica con respecto al tamao de la muestra que debe tomar. Qu procedimiento debe seguir el experto de bioestadstica para asesorar al nutrilogo? Antes de que el estadstico pueda ayudar al nutrilogo, este debe proporcionar tres elementos de informacin: la dimensin deseada del intervalo de confianza, el nivel de confianza deseado y la magnitud de la varianza de la poblacin. Solucin. Supngase que el nutrilogo requiere un intervalo con una dimensin de aproximadamente 10 unidades, es decir, la estimacin se debera encontrar alrededor de las 5 unidades del valor real en ambas direcciones. Supngase que se decide por un coeficiente de confianza de 0.95 y que con base en su experiencia previa percibe que la desviacin estndar de la poblacin es probablemente alrededor de 20 gramos. El estadstico tiene ya la informacin necesaria para calcular el tamao de la muestra: z = 1.96, = 20, y d = 5. Supngase que el tamao de la poblacin es grande, as que el estadstico puede ignorar la correccin para poblacin finita y utilizar la ecuacin 3. Con las sustituciones adecuadas, el valor de n se calcula como: (1.96) 2 (20) 2 n= = 61.47 (5) 2 Se recomend que el nutrilogo tome una muestra de tamao 62. Al calcular el tamao de una muestra a partir de las ecuaciones 3 5, el resultado se redondea al siguiente nmero entero mayor si los clculos dan un nmero con decimales. Tamao de muestra para estimar una media Suponga que una Universidad est efectuando una investigacin acerca de los ingresos anuales de los estudiantes del ltimo ao de una Facultad dada. Se sabe, por la experiencia obtenida, que la desviacin estndar de los ingresos anuales de la poblacin completa (1,000 estudiantes) de los egresados es de aproximadamente $1,500. Qu tan grande debe ser la muestra que la universidad debe tomar con el fin de estimar los ingresos medios
M.H. Badii et al.

57

anuales de los estudiantes del ltimo ao dentro de ms y menos $500 y con un nivel de confianza de 95%? Exactamente qu es lo que se pide en este problema? La universidad va a tomar una muestra de un cierto tamao, determinar la media de la muestra, y utilizarla como estimacin puntual de la media de la poblacin. Quiere tener la certeza de 95% de que el ingreso medio anual real no est ms de $500 por encima y por debajo de la estimacin puntual. En resumen tenemos: z x = $500, y z = 1.96, podemos deducir el error estndar de la media como 1.96 x = $500

x = $500/1.96 = $255 = error estndar de la media


Utilizando la ecuacin del error estndar, podemos sustituir el valor conocido de la desviacin estndar de la poblacin que es de $1,500 y el valor calculado del error estndar de $255 y despejar n:

x =

$1500 $255 = n
n= $1500 = $255 5.882

n = 34.6 tamao de muestra para la precisin especificada Por tanto, como n debe ser mayor o igual a 34.6, la universidad deber tomar una muestra de 35 estudiantes para obtener la precisin que desea en la estimacin del ingreso medio anual de los estudiantes. Tamao de muestra para estimacin de la media desconocida La determinacin del tamao de la muestra es muy importante puesto que si tomamos una muestra muy pequea no ser significativa y si la tomamos
Tamao ptimo de la muestra

58

muy grande estamos desperdiciando recursos. Usaremos los intervalos de confianza para calcular tamao de muestra; si vemos con cuidado el intervalo de confianza para la media.
P( X Z

< < X +Z

= 1

(6)

y deseamos estrechar el intervalo, tenemos varias opciones siguientes. 1. disminuir el nivel de confianza: 1-. 2. aumentar el tamao de la muestra, lo que disminuye el error estndar, puesto que es fija. De estas dos opciones, la primera no es muy recomendable porque aumentamos, el riesgo de que no est en el intervalo. Hay una consecuencia interesante que se desprende de la relacin entre el error mximo de estimacin (diferencia entre el estimador y el parmetro) y el riesgo (a definido anteriormente) que es la determinacin del tamao de la muestra. Observamos que la longitud o amplitud del intervalo: L = 2 Z 1 / 2
Z

n
Z1

(7)

2 n

2 X
Donde, el error mximo de estimacin es
E= L =Z 1 2 n 2

(8)

Donde, podemos despejar n si conocemos el error mximo de estimacin E; el riesgo a y la varianza poblacional

Z 1 2 n= E

(9)

M.H. Badii et al.

59

Si el muestreo es sin reemplazo, introducimos el factor de correccin por N n poblacin finita de donde: N 1
E=Z

N n N 1

(10)

que al resolver para n, se tiene:

NZ 2 2 n=
1 2 2

E ( N 1) + Z 21 2
2

(11)

Si N es muy grande en comparacin con n se puede ignorar el factor de correccin por poblacin finita. Tamao de muestra para estimar una porcin Los procedimientos utilizados para determinar los tamaos de muestra para estimar una porcin de poblacin son parecidos a los que se utilizan para estimar una media de poblacin. Suponga que deseamos encontrar a estudiantes de una universidad grande. Deseamos determinar qu porcin de stos est a favor de un nuevo sistema de evaluacin. Nos gustara contar con un tamao de muestra que nos permita tener una certeza de 90% de que estamos estimando la verdadera porcin de la poblacin de 40,000 estudiantes que est a favor de nuevo sistema de evaluacin, ms menos 0.02. De acuerdo con la tabla z del apndice, el valor de z correspondiente a un nivel de confianza de 90%, es de 1.64 errores estndar a partir de media. Queremos que nuestra estacin est dentro de 0.02, de modo que podemos simbolizar el proceso de la siguiente manera z p = 0.02 Y z = 1.64 Entonces 1.64 p = 1.64

Tamao ptimo de la muestra

60

Si ahora sustituimos los valores que se tienen para p en la parte derecha de ecuacin, obtenemos: pq 1.64 = 0.02 n
pq = 0.0122 n

Donde

pq = 0.00014884 n
n=

pq 0.00014884

Para hallar n, todava necesitamos una estimacin de los parmetros p y q de la poblacin. Si tenemos una buena idea de la porcin real de estudiantes que estn a favor del nuevo sistema, podemos utilizar esto como nuestra mejor estimacin para calcular n. Pero si no tenemos idea del valor de p, entonces nuestra mejor estrategia es determinarlo de manera tal que escogemos n conservadoramente. En este punto del problema, n es igual al producto de p y q dividido entre 0.00014884. La manera de obtener n ms grande es generando el numerador ms grande posible de esa expresin, lo cual sucede cuando elegimos p = 0.5 y q = 0.5. Entonces n queda como pq n= 0.00014884

(0.5)(0.5) = 1,680 tamao de muestra 0.00014884 Como repuesta, para estar 90% seguros de que estimamos la porcin real dentro de 0.02, debemos escoger una muestra aleatoria simple de 1,680 estudiantes para ser entrevistados. En el problema que acabamos de resolver, hemos tomado un valor para p que represent en la estrategia ms conservadora. El valor de 0.5 gener la muestra ms grande posible. Pudimos hablar de otro valor de p si
n=
M.H. Badii et al.

61

hubiramos sido capaces de estimar uno o si hubisemos tenido una buena idea de su valor real. Siempre que estas dos ltimas soluciones estn ausentes, puede tomar el valor ms conservador posible de p, a saber p=0.5. Para ilustrar que 0.5 produce el valor ms grande posible para el tamao de la muestra, en la Tabla 1 resolvemos el problema de sistema de evaluacin utilizando varios valores diferentes de p. Del tamao de las muestras asociado con tales valores, se puede ver que para el intervalo de valores de p que va desde 0.3 a 0.7, el cambio en el tamao de muestra correspondiente es relativamente pequeo. Por tanto, incluso si usted ya sabia que la verdadera porcin de poblacin es 0.3 y de todos utiliz 0.5, usted hubiera muestreado solamente 269 personas ms (1,680 - 1,411) de lo que era realmente necesario para el grado de precisin deseado. Obviamente, adivinar valores de p en casos como ste no parece ser tan crtico como pareca a primera vista.
Tabla 1. Tamao de muestra n asociado con diferentes valores de p y q.

Valor de p 0.2 0.3 0.4 0.5 0.6 0.7 0.8

Valor de q = (1-p) 0.8 0.7 0.6 0.5 0.4 0.3 0.2

pq/0.00014884 (.2)(.8)/.00014884 (.3)(.7)/.00014884 (.4)(.6)/.00014884 (.5)(.5)/.00014884 (.6)(.4)/.00014884 (.7)(.3)/.00014884 (.8)(.2)/.00014884

Tamao de muestra n 1,075 1,411 1,613 1,680 1,613 1,411 1,075

Tamao de muestra con ms de una caracterstica En la mayora de las encuestas se obtiene informacin sobre ms de una caracterstica. Un mtodo para determinar el tamao de muestra es especificar los mrgenes de error para la caracterstica que se considera ms importante para la encuesta. Se hace primero una estimacin separada del tamao de muestra necesaria para cada una de estas caractersticas de importancia. Cuando han sido completadas las estimaciones de caractersticas simples de n, es tiempo de hacer una apreciacin de la situacin. Puede suceder que los tamaos de muestra requeridos sean aproximadamente
Tamao ptimo de la muestra

62

iguales. Si la n ms grande cae dentro de los lmites del presupuesto existente, esta n es seleccionada. Ms comnmente, existe una variacin suficiente entre los tamaos de muestra de tal manera que nos hace dudar al escoger la ms grande, ya sea por consideraciones presupuestales o porque esto dara un estndar global de precisin sustancialmente ms alto que el considerado en un principio. En este caso, el estndar de precisin deseado puede ser disminuido para ciertas caractersticas, con el fin de permitir el uso de un valor de n ms pequeo. En algunos casos los tamaos de muestra n, requeridos para las diferentes caractersticas son tan distintos que algunos de estos pueden ser eliminados de la encuesta, puesto que con los recursos disponibles la precisin esperada para estas caractersticas es totalmente inadecuada. La dificultad puede no ser simplemente la del tamao de la muestra. Algunas caractersticas requieren de un tipo diferente de muestreo en comparacin con otras. En poblaciones que son muestreadas en forma repetida, es til juntar la informacin relativa a aquellas caractersticas que pueden ser combinadas econmicamente en una encuesta general y aquellas que necesitan mtodos especiales. Como un ejemplo, en la Tabla 2. se presenta una clasificacin.
Tabla 2. Un ejemplo de los diferentes tipos de caractersticas en encuestas regionales.

Tipo
1 2 3

Descripcin de las caractersticas


Muy extendido en toda la regin ocurriendo con una frecuencia razonable en todas partes. Muy extendido en toda la regin pero con baja frecuencia. Ocurriendo con frecuencia razonable en la mayora de las partes de la regin, pero con distribucin ms espordica, estando ausente en algunas partes y muy concentrada en otras. Distribucin muy espordica en una pequea parte de la regin.

Tipo de muestreo necesario


Una encuesta general con baja proporcin de muestreo. Una encuesta general pero con una proporcin ms alta de muestreo. Un muestreo estratificado de alta intensidad en las distintas partes de la regin. Algunas veces puede ser incluido en una encuesta general con muestreo adicional. No apropiada para una encuesta general. Requiere un muestreo acorde con su distribucin.

De caractersticas en 4 tipos, sugerida por la experiencia obtenida en encuestas agrcolas regionales. Con esta clasificacin, una encuesta general quiere decir que las unidades estn distribuidas con bastante regularidad sobre alguna regin, como por ejemplo en una encuesta simple aleatoria.
M.H. Badii et al.

63

Tamao de muestra para estimar una porcin: intervalo de confianza conocido El mtodo para estimar el tamao de la muestra cuando se requiere estimar la proporcin de una poblacin es esencialmente el mismo que se describi para estimar la media de una poblacin. Se aprovecha el hecho de que la mitad del intervalo deseado d, se puede igualar al producto del coeficiente de confiabilidad y el error estndar. Si se supone que el muestreo ha sido hecho de manera aleatoria y que existen condiciones que garanticen que la distribucin de p sea aproximadamente normal, se obtiene la siguiente frmula para n cuando el muestreo es con reemplazo, cuando se realiza a partir de una poblacin infinita o cuando la poblacin muestreada es lo suficientemente grande como para hacer innecesario el uso de la correccin para poblacin finita.

n=

z 2 pq d2

(12)

Si la correccin para la poblacin infinita no puede pasarse por alto, la frmula para n es.

n=

Nz 2 pq d 2 ( N 1) + z 2 pq

(13)

Cuando N es grande en comparacin con n (es decir, n/N0.5) se puede pasar por alto la correccin para poblacin finita y la ecuacin 4 se reduce a la ecuacin 2. Como puede observarse, ambas frmulas requieren que se conozca p, que es la proporcin de poblacin que posee la caracterstica de inters. Obviamente, dado que ste es el parmetro que se desea estimar, ser desconocido. Una solucin para este problema consiste en tomar una muestra piloto y calcular una estimacin para utilizarla en lugar de p dentro de la formula para n. Algunas veces el investigador tendr nocin de algn lmite superior para p que podr utilizar la frmula. Por ejemplo, si se desea estimar la proporcin de alguna poblacin que presente una cierta condicin, es posible
Tamao ptimo de la muestra

64

que se crea que la proporcin real no puede ser mayor que, digamos, 0.30. Se sustituye entonces p por 0.30 en la frmula para n. Si es imposible obtener una mejor estimacin, se puede igualar p a 0.5 y resolver para n. Dado que p = 0.5 en la frmula proporciona el mximo valor de n, este procedimiento dar una muestra lo suficientemente grande para alcanzar la confiabilidad y la dimensin del intervalo deseado. Sin embargo, puede ser ms grande de lo necesario y resultar ms costosa que si se dispusiera de una mejor estimacin de p. Este procedimiento se debe utilizar nicamente si no se dispone de una mejor estimacin de p. Ejemplo 2. Se plantea realizar una encuesta para determinar que proporcin de familias en cierta rea carece de servicios mdicos. Se cree que la proporcin no puede ser mayor que 0.35. Se desea un intervalo de confianza del 95 por ciento de d = 0.05. De qu tamao se debe seleccionar la muestra de familia? Solucin: Si es posible ignorar la correccin para poblacin finita, se tiene que:

(1.96) 2 (0.35)(0.65) n= = 349.6 (0.05) 2


Por lo tanto, el tamao de la muestra es de 350. Conclusin Partiendo de la realidad de la escasez del los recursos (financiero, energtico, temporal, material, etc.) para la investigacin, se recalca la relevancia de la estimacin del tamao ptimo de la muestra. La base de la ciencia experimental es muestreo con base y rigor cientfico. En la obtencin de cualquier tipo de la informacin, la coleccin de los datos constituye el primer paso. La subestimacin o los tamaos pequeos de la muestra por debajo del tamao ptimo, ocasiona un alto nivel del sesgo, es decir, el incremento de la distancia entre el valor esperado de la muestra y el parmetro poblacional. Por otro lado, la sobreestimacin (tamaos de la muestra por encima del tamao ptimo) no produce sesgo, ms sin embargo, provoca la prdida de los recursos que tampoco es permisible. Por tanto, el clculo y la utilizacin del tamao ptimo de la muestra es fundamentalmente crucial para tener una idea correcta
M.H. Badii et al.

65

y representativa de la poblacin bajo del estudio y que a su vez optimiza la distribucin y utilizacin de los recursos escasos.
Referencia Badii, M. H., A. E. Flores, R. Foroughbakhch & H. Quirz. 2000. Fundamentos de muestreo. Pp. 129-144. En: M. H. Badii, A. E. Flores y L. J. Galn (eds.). Fundamentos y Perspectivas de Control Biolgico. UANL, Monterrey. Badii, M.H., J. Castillo & A. Wong. 2006. Diseos de distribucin libre. InnOvaciOnes de NegOciOs, 3(1): 141-174. Badii, M.H. & J. Castillo (eds.). 2007. Tcnicas Cuantitativas en la Investigacin. UANL, Monterrey. Badii, M.H., R. Ramrez & J. Castillo. 2007a. Papel de estadstica en la investigacin cientfica. InnOvaciOnes de NegOciOs, 4(1): 81-114. Badii, M.H., J. Castillo, R. Rositas & G. Ponce. 2007b. Experimental designs. Pp. 335-348. In: M.H. Badii & J. Castillo (eds.). Tcnicas Cuantitativas en la Investigacin. UANL, Monterrey. Casagrande J.T., M.C. Pike & P.G. Smith. 1978. An improved approximate formula for calculating sample sizes for comparing binomial distributions. Biometrics 34:483486. Connett, J.E., J.A. Smith, & R.B.McHuch, 1987. Sample size and power for pair-matched case-control studies. Statist.Med. 6:53-59. Desu, M.M. & D. Raghavasrao. 1990. Simple size Methodology. Academic press, Bostom Massachusetts, 135 pp. Fless, J.L., A. Tytun & H.K. Ury. 1980. A simple approximation for calculating sample sizes for comparing independent proportions. Biometrics 36:343-346. Roscoe, J.T., & J.A. Byars. 1971. Sample size restraints commonly imposed on the use of the chi-square statistic. J. Amer. Statist.Assoc. 66: 755-759

Tamao ptimo de la muestra