Está en la página 1de 26
UNIDAD 6 MUESTREO En las investigaciones basadas en observaciones, uno de los problemas que se debe solucionar se refiere al conjunto de ele- mentos que se estudiaran. Generaimente el interés esta centrado en un conjunto de personas © individuos denominado poblacicn. Sin embargo, por limitaciones de costo, tiempo, etc., es dificil estudiar a todos los elementos de dicha poblacion y debemos recurrir a un subconjunto de ella. Este subconjunto, denominado muestra, permitira obtener algunas conclusiones que ‘son generalizadas (inferencia) a la poblacién de la cual se extrajo. Existen diversas formas de obtener muestras, las que se pueden englobar en muestras probabilisticas y no probabilisticas. Una muestra no probabilistica consiste en una eleccién arbitraria de los elementos de la poblacién que compondran la muestra. Suponga que en un colegio hay 20 cursos de 30 alumnos cada uno. Para evaluar el rendimiento del colegio, se decide seleccionar un curso y a los alumnos de éste evaluarlos mediante una prueba. El director del colegio, conocedor del rendimiento de cada curso, "selecciona" @ aquel curso con mejor promedio de calificaciones. Esta seleccion significa que aqueilos alumnos que estén en cursos con bajo promedio de calificaciones no tienen ninguna oportunidad de estar en la muestra. De esta forma, al generalizar los resultados ob- tenidos del curso seleccionado, se obtiene una imagen distorsionada del rendimiento general del colegio. En cambio, una muestra probabilistica es aquélla en que cada elemento de la poblacién tiene una probabilidad conocida y distinta de cero de pertenecer a la muestra. Sea W el nimero de elementos de una poblacién finita para la cual se desea conocer una o mas caracteristicas. A estas caracteristicas se les denomina pardmetros. El objetivo del muestreo es seleccionar un conjunto de n elementos (n <'N) de dicha poblacién y a partir de aquél obtener buenas estimaciones del o de los pardmetros. Estas buenas estimaciones dependeran, entre otros factores, del tipo o disefio muestral que se use en una situacion determinada. En las siguientes secciones se estudiar4n, someramente, algunos disefios muestrales clasicos y de mayor utilizacién. Previamente, 119 sin embargo, se describiré la notacién que nos servira de base para la descripcién de los disefios. Si el interés es alguna caracteristica cuantitativa de la pobla- cién, se designa por ¥ la media de dicha caracteristica, donde Yt Yt eee +X W donde ¥,, Yj...+.Yy representan los valores de la caracteristica en estudio de la poblacién y N es el tamafio o numero de elementos de esa poblacién. Obviamente estos N valores tendran asociada una varianza simbolizada por 8’ y se define como: N ai E(x, - ¥)? a1 r Por otra parte, si la caracteristica en estudio es cualitativa (por ejemplo, proporcién de hombres, proporcién de defunciones por cancer, etc.), P sera la proporcion de interés y Q el complemento de P, © sea, Q= 1 - P. La varianza asociada a la proporcién es PQ N-1 MUESTREO ALEATORIO SIMPLE Una muestra aleatoria simple de n elementos de una poblaciéon compuesta por N elementos, es una muestra en la cual cada elemento de la poblacién tiene una probabilidad conocida e igual de ser seleccionada. Esta probabilidad es n/N y se denomina fraccién de muestrec. Por lo tanto, si se dispone de un listado con todos los elementos de la poblacién numerados del 1 al N, podemos utilizar algun procedimiento (tabla de nimeros aleatorios, programa computacional que genere numeros aleatorios) para seleccionar los n elementos que compondran la muestra. Una vez obtenida la muestra, se estudia en ella la caracteristica de interés. Asi, si se desea estudiar la media ¥ de la poblacion en la muestra, se calcula la media muestral ¥. En cambio si el 120 interés esta centrado en una proporcién P de la poblacién, en la muestra se calcula la proporcién p de elementos que cumplen con la caracteristica. Ejemplo: Suponga que para cierta 4rea geogréfica de un pais se desea estudiar: a) el porcentaje de familias en cuyas viviendas hay alcantarillado, y b) ingreso promedio mensual de las familias de dicha drea. En esa 4rea hay 1 000 familias y por problemas de tiempo y costo no es posible estudiarlas a todas; de alli entonces que se decide tomar una muestra aleatoria de 20 familias a partir de una lista previamente confeccionada. Los resultados para esas 20 familias de la muestra fueron: Familia nz fs fs |s Jo |r Tiene Atcantarritaéo_|st_|si_|no |si_|st_[no [no Ingreso(Uss) _ |300]250|150}s00| 400] 200 si P representa la proporcién de las 1 000 familias que tienen alcantarillado en sus viviendas, entonces el valor que estimara dicha proporcién sera la proporcién de familias en la muestra en que en sus viviendas tienen alcantarillado. Es decir, el estimador de P sera: p= 14 / 20 = 0,7 (70 &) ya que 14 son las familias en cuyas viviendas hay alcantarillado de un total de 20 familias estudiadas. Por otra parte, sea ¥ el promedio de ingreso familiar mensual de las 1 000 familias del area. El estimador de ¥ sera el ingreso promedio mensual obtenido en la muestra de 20 familias, simbolizado por 300 + 250 + ..... + 200 + 150 20 = 242,5 délares “I " La pregunta que surge al obtener los resultados de la muestra es £70% es el porcentaje de familias de la poblacién de 1 000 familias 121 que en sus viviendas hay alcantarillado? Obviamente que no; este Porcentaje es el obtenido en una muestra y si se hubiese selec- cionado otra muestra, lo més probable es que el resultado obtenido difiera de 70%. Son muchas las muestras diferentes de n elementos que se pueden obtener de una poblacién de N elementos que daraén muchos y muy variados valores. Por lo tanto, resulta muy arriesgado suponer que el resultado de una muestra particular sea el valor del pardmetro que estamos estudiando. Sin embargo, es posible construir intervalos de confianza para considerar el hecho de tomar una muestra y la variabilidad de ella. En el caso de la proporcién muestral, la varianza estimada de dicha proporcién es vip) = P@ (1-7) donde q=1-p T En el ejempl luego 0,7 x 3 (20 20-2 1 000 v(p) = ) = 0,0108 La desviacion estandar sera /v(p) = /0,0108 = 0,104 Entonces para un 95% de confianza, el intervalo para estimar P esta dado por: Prob [ p - 1,96 WW (p) < P< p + 1,96 Jv (p) } = 0,95 En el ejemplo, los limites inferior y superior serai Limite inferior = p - 1,96 /v(p) (49, 6%) y 0,7 - 1,96 x 0,104 " 0,496 Limite superior = p + 1,96 /v(p) = 0,7 + 1,96 x 0,104 = 0,904 (90,4%) 122 Por lo tanto, se puede afirmar con un 95% de confianza, que el porcentaje de familias que tienen alcantarillado en sus viviendas varia entre 49,6% y 90,48. Note que la varianza de p es levemente diferente a la presentada en la seccion 3 de la Unidad 4, que era pq/n . La diferencia se debe a que ahora se esta trabajando con una poblacién finita de N elementos; en cambio, anteriormente se supuso que N es un mimero muy grande y que n/N x 0. En el caso de un promedio, la varianza estimada de la media muestral esta dada por: 2 52 vi = Sa - 2) donde gs? =F (M7 n N n-1 En el ejemplo, se tiene que = (300 - 242,5)? + (250 - 242,5)? + .... + (150 — 242,5)? 20-2 = 268 175 = 14 114,47 13 Luego vy) = 24447 20) s goa en 20 T 000 y la desviacion estandar sera /691,61 = 26,3 délares Por lo tanto,_el intervalo de confianza para estimar la media de la poblacién ¥ esta dada por: Prob [ ¥- t qq. 4) SV(Y) <¥<¥ +t @. 1 W(¥) ] = 0,95 donde t,1, se obtiene de la tabla de la distribucién t con n - 1 grados de” libertad. En el ejemplo, los limites seran: Limite inferior = 242,5 - 2,093 x 26,3 = US$ 187,45 Limite superior = 242,5 + 2,093 x 26,3 = US$ 297,25 123 Antes de continuar desarrollando los otros disefios muestrales, conviene insistir en el cambio de simbologia usada respecto de lo visto en la Unidad 4 Inferencia. Al desarrollar el tema de muestreo se asumiéd que la poblacién es finita, es decir, tiene un numero determinado de elementos (N); en cambio en inferencia la poblacién es de un tamafo infinito. De alli que en inferencia usemos o* para simbolizar la varianza de la poblacién y en muestreo se use S*. Ademas en las varianzas de los estimadores se usa el factor 1 - n/N, denominado factor de correccién por poblacién finita; en inferencia esta correccién no se introduce. MUESTREO ALEATORIO ESTRATIFICADO En muchos estudios, es posible y conveniente formar subdivisiones a partir de la poblacioén original, de tal forma que un elemento pertenece a sélo una de estas subdivisiones. Asi, es posible estudiar cada subdivisién en forma independiente. Estas sub- divisiones se denominan estratos y la unién de todos ellos corresponde a la poblacién original. Los objetivos basicos por los cuales resulta conveniente estratifi- car la poblacion son: - Estudiar separadamente los estratos obteniéndose resultados in- dependientes para cada uno de ellos. - Obtener estimaciones independientes para cada estrato. - En general, las estimaciones obtenidas son mds precisas que las del muestreo aleatorio simple. - Si hay trabajo de terreno, permite una mayor coordinacién. A partir de los N elementos de una poblacién, podemos formar L estratos de tamafio Ny, No,..++,N, donde Ny + Ny +.....+ N= Ne cada estrato es tratado como una subpoblacién independiente de las demas, obteniendo de ellas muestras de tamafio n,, n,..-..,n, donde el tamafio de la muestra total es n= n, + n, t..+--4n. Suponga en primer lugar, que el interés es estimar el promedio ¥ de una poblacion. Cada estrato tendra también asociado un promedio Yip Vor eeerY te Bares See A partir de la muestra de cada _estrato, se pueden obtener las medias muestrales ¥,, ¥2,---.-,¥, que son estimaciones de Y,, 124 ¥,,.+++,¥, respectivamente, ya que cada estrato es tratado en forma ihdepenaiente. Si se designa por Y,,, el estimador de la media de la poblacién¥, entonces ¥,,, serd un promedio ponderado de las medias muestrales obtenidas para los estratos, es decir Ny, + Nip t+ a wet MY 7M Yest =. Los estratos, al ser tratados en forma independiente, permiten obtener (para cada uno de ellos) resultados también independientes que corresponden a los provenientes de la realizacion de un muestreo aleatorio simple en cada estrato. Luego y, (media muestral del primer estrato) sera un estimador de Y, (media del primer estrato) y tendra una varianza estimada para la media de v (¥) donde s,? es la varianza de los valores muestrales del primer estrato y, n, y N, Son los tamafios de la muestra y del estrato respectivamente. De la misma forma se obtienen las varianzas estimadas para el resto de los estratos. Al obtener las varianzas para cada estrato, es posible construir intervalos de confianza para las medias de los estratos usando la metodologia vista para muestreo aleatorio simple. Sin embargo, resulta también de interés construir intervalos de confianza para la media general de la poblacion. De alli entonces que se debe buscar una expresion para la varianza de la media muestral ¥,,,- Esta es: i? v(F) + NS V() + eee +N VIF) ne Vest) donde v(¥,), V(¥2),+-++ v(¥) son las varianzas descritas previa- mente para cada estrat« Ejempl Suponga que para una cierta regién se desea estimar el promedio de edad de las personas fallecidas por cancer para un afo determinado. En dicho afio 1 000 personas fallecieron por cancer; de éstas, 600 xresidian en centros urbanos y 400 en centros rurales. Se decide realizar un muestreo estratificado por lugar de residencia seleccionando 30 certificados médicos de defuncion: 18 del estrato 125 urbano y 12 del rural. Las edades para las muestras por estrato fueron: Urbano Rural 40, 38, 65, 71, 68, 72 65, 71, 69, 60, 58, 61 49, 58, 61, 60, 75, 42 70, 54, 58, 61, 64, 65 55, 61, 62, 49, 64, 55 Para el estrato 1 (urbano) el promedio y la varianza son respec- tivamente: z. 40 + 38 + + 64 + 55 2 64+ 5 = 58 afios y 18 = (40 ~ 58)? + (38 - 58)? + ..... + (55 - 58)?_ 2 010 16-4 7 = 118,24 Para el estrato 2 (rural) tenemos que: Fy = SDH TA ee + Et gy anos oy 22 s,2 = (65 ~ 63)? + (71 ~ 63)? + ..... + (65 - 63)? _ 3068 _ 4, 7 iz =i 1 Los tamafios de cada estrato son N, = 600 y N, = 400 y el de la poblacién sera entonces N = 1 000. Los tamatios muestrales para los estratos son n, = 18 y n, = 12. Para el estrato 1, la varianza estimada para la media muestral es: a 2 vy = S80 = My ow 22824 18 gy, ny Ny 18 “600 Para el estrato 2, la varianza estimada es: 2 = 7,8 2 vi) = 82 a - Pe 278 2) 2 as ny RN, 12 400 El estimador de la media de la poblacion sera: Ny ¥, +N, ¥, _ 600 x 58 + 400 x 63 W 1 600 Yea = = 60 afios 126 La varianza de la media sera, por lo tanto: ° v(Fi) + NE VOR) 600? x 6,37 + 400% x 2,25_5 goo V (Fest) ne 2 000? SW) = J2,6532 = 1,63 Asi los limites del intervalo de confianza de 95% para la media de la poblacién seran: con lo cual 1a desviacién estandar ser: Limite inferior = Yur - tori) Wm) = 60 - 2,045 x 1,63 afios 56,67 Limite superior Vest + tent) WV (Yee) = 60 + 2,045 x 1,63 = 63,33 afios donde n es el tamafio de muestra total, o sea, n =n, + n, = 30. 2Qué hubiese ocurrido con la estimacién de la media de 1a edad de la poblacién al considerar una muestra aleatoria simple de n = 30 en lugar de usar la estratificacién por lugar de residencia? Al considerar una muestra aleatoria de tamafio n = 30, se debe calcular la media de esta muestra y la desviacién’ estandar respectiva. La media sera: +55 + 65+ 5a 40+ 38+ ¥ + 64 + 65 _ 1 800 _ 65 ano 30 30 y la varianza sera: - 2 ae 2 (40 ~ 60)? + .... + (65 ~ 60)? _2 496 _ 56 7 30-1 29 luego la varianza de la media sera: f 2 viv) = S (a = By = 8607. - 30) = 2,78 n N 30 1 000 la cual es mayor que la varianza al considerar un muestreo aleatorio estratificado. En el ejemplo, los estratos eran de tamafo 600 y 400 lo que representa una proporcién de 0,6 y 0,4 con relacién al tamafio de la poblacién (600/1 000 y 400/1 000). 127 Ademas, los tamafios de las muestras fueron de 18 y 12 para los estratos 1 y 2 respectivamente. Como el tamafio de muestra total es 30, la proporcién de cada estrato en la muestra total es también 0,6 y 0,4 (18/30 y 12/30), con lo cual mantenemos las proporciones de los estratos respecto a la poblacién. Esta estrategia de determinar los tamafios de las muestras en cada estrato se denomina afijacién proporcional al tamafio de los stratos respecto de la poblacion total, es decir, sacar mas elementos de aquellos estratos més grandes y menos de los mas pequefios. Bajo este tipo de afijacion (y en otros casos también) 1a varianza de la media obtenida de un muestreo estratificado sera menor o igual a la obtenida al realizar un muestreo aleatorio simple. Por lo tanto, las estimaciones seran m4s precisas. En cambio, las medias bajo ambos procedimientos seran iguales. Suponga ahora que el interés es estimar la proporcién P de elementos de una poblacién que poseen una caracteristica. Se divide la poblacién en L estratos y de cada uno se seleccionan muestras de tamafio n,, n,.....,m con lo cual el tamafio de la muestra total esn=n, +n #0... 4m. En todos los estratos se calcula la proporcién de elementos que posee la caracteristica en estudio: p,, Pz,--++, Pj: Entonces, bajo muestreo estratificado, el estimador de ia proporcién P, denotado POY Pye, SOKA? Ny, + eeee) + ND, Pest = WN donde N,, N,,-...., MN, serén los tamafios de los estratos y N el tamafio de 14’ poblacion. Dentro de cada estrato, adem4s de calcular las proporciones correspondientes, se pueden estimar las varianzas de dichas proporciones, igual que en muestreo aleatorio simple; asi se ‘obtienen vip) = Put (a - ),......, vip) = MH Ga - BM) n, =1 Wy, moa ® A partir de estas varianzas, podemos encontrar el estimador de la varianza de la proporcidn bajo muestreo estratificado; ésta es: Iuego se obtiene un intervalo de confianza del 95% para la proporcién P de la poblacién, cuyos limites seran: Limite inferior 4 Pose — 1/96 JV (Post) Limite superior Pose + 2,96 SV (Bese) Ejemplo: En una ciudad de 1 000 000 de habitantes se desea conocer la tasa de alcoholismo de los individuos mayores de 15 afios. Por infor- macién previa se sabe que en dicha ciudad el 10% es de un nivel socio-econdmico alto, 50% medio y 40% bajo. Por otra parte se sabe que el 60% de la poblacioén es mayor de 15 afios, es decir 600 000 habitantes. Se toma una muestra proporcional al tamafio de los 3 estratos de 3 000 personas obteniéndose los siguientes resultados: Total de Tamanho de Tasa de Estratos habitantes las muestras alcoholismo Alto 60 000 300 15% Medio 300 000 1 500 108 Bajo 240 000 1 200 20% Total 600 000 3 000 En este ejemplo se desea estimar la proporcién de alcoholismo en la poblacién mayor de 15 afios de esta ciudad; luego 1a poblacién objetivo esta constituida por 600 000 personas (N = 600 000). Se han fijado 3 estratos, luego L = 3. Los tamafios de los estratos son: N, = 60 000, N, = 300 000 y 240 000, que representan el 10%, 50% y 40% de la poblacion. Mante- niendo estas proporciones, los tamafios de las muestras son: n, = 300, n, = 1 500 y n, = 1 200, con lo cual el tamafio total es n 3 000. A partir de las tasas de alcoholismo encontradas para cada estrato, se estima la tasa de alcoholismo de la poblacion; ésta es: = 60 000 x 0,15 + 300 000 x 0,10 + 240 000 x 0,20_ Pest = 0,145 600 000 129 Es decir, la tasa de alccholismo encontrada en la muestra es de 14,58. Para encontrar la varianza de esta proporcién, debemos en primer lugar calcular la varianza dentro de cada estrato. eC te as A ete te ear (ae eee led ooades m >a ™ 299 60 000 = 2120 ¥ 0/90 ¢, ~ 1500 ) ~ 9, 9000597 1499 300 000 = 9420 % 0,80 ¢y © 1200 ) © 9 ooo1327 1199 240 000 Iuego 1a varianza de la proporcién bajo muestreo estratificado sera: Ny? v(py)_ + NZ v(P,) + Ny? v(P5) N V (Pose) = (60 000)? x 0,0004242 + (300 000)? x 0,0000597 + (240 000)? x 0,0001327 (600 000) = 0,0000403 La desviacion estandar seré /v(p,,,) = /0,0000403 = 0,00635 Luego los limites del intervalo de confianza seran: Limite inferior = Pyy,-1/96 /V(Py,) = 0,145-1,96 x 0,00635 = 0,1326 Limite superior = p.+1,96 /V(P,,) = 0,14541,96 x 0,00635 = 0,1574 Es decir, con un 95% de confianza, la tasa de alcoholismo de la Poblacion se encuentra entre 13,26% y 15, 74%. 130 MUESTREO POR CONGLOMERADO En los casos anteriores de muestreo aleatorio y estratificado, para proceder a la seleccién de las unidades a estudiar se requiere previamente de un listado con dichas unidades. Al estudiar las caracteristicas de las personas de una poblacién, las unidades seran los habitantes de la misma y debemos disponer de un listado de ellos. En otros casos el interés puede estar centrado en las caracteristicas de las viviendas de una ciudad o del ingreso familiar de sus componentes; aqui las unidades de interés seran las viviendas y los grupos familiares respectivamente Y se debe disponer de listados de ellos para proceder al muestreo. Sin embargo, cuando no es posible disponer de un listado con los elementos o unidades de interés, es posible, por ejemplo, selec- cionar viviendas y entrevistar a todos los habitantes de ella. El conjunto de habitantes de una vivienda se denomina conglomerado. Es ‘decir, se estén seleccionando familias sin interesar una caracteristica de ellas como tal, sino que la seleccion de familias es un paso previo para llegar a las personas que son realmente el objetivo y los que poseen la caracteristica en estudio. Suponga que la poblacién esta dispuesta en N conglomerados (por ejemplo N puede ser el numero de familias de una comunidad en que cada familia es un conglomerado). El numero de elementos de cada conglomerado puede o no ser igual. Denotamos por M,, M,----, My el tamafo de los conglomerados 1, 2,....., N respectivamente. Luego dicha poblacién esta constituida por la suma de elementos de los conglomerados, es decir, si M es ahora el total de unidades o elementos de poblacién entonces: M=M + Mt oe tM Pe los N conglomerados que componen la poblacién se selecciona una muestra aleatoria de n de ellos y se procede a estudiar a todos los elementos que componen esos conglomerados elegidos. Ejemplo: En una comunidad en que habitan 1 000 familias con un total de 5 000 habitantes se desea conocer la demanda de atencién médica. Para ello se seleccionan 20 familias en las que se pregunta: Numero de miembros del grupo familiar y numero de consultas médicas en el Ultimo afio. Los resultados fueron: 131 Familia 12.3 4 5 6 7 8 9 1011 12 13 14 15 16 17 18 19 20 Nidemiembross 4 8 25 378 5 4358109542326 Nedeconsultas 3 2 5 1064211245263 2017 Aqui el numero de conglomerados o familias en la poblacién es N = 1000 familias y la muestra es n = 20 familias. Si sumamos el total de habitantes en estas 20 familias tenemos 4+8+2+..... + 2 + 6 = 103 personas. Sumando el nimero de consultas, tenemos que estas 103 personas realizaron 3 +2+5 + ..... + 1+ 7 = 57 consultas. El ntimero medio de consultas por familias es 57/20 = 2,85. Como hay 1 000 familias en la comunidad el total de consultas estimado para las 1 000 familias es 1 000 x 2,85 = 2 850 consultas. Adem4s como hay 5 000 habitantes, el ntimero medio de consultas por habitantes sera: 2 850/5 000 = 0,57 consulta/habitante al afio. Note que se podria calcular el numero de consultas en la muestra dividido por el total de habitantes en las 20 familias de la muestra para obtener el promedio de consultas por habitante. Al hacer este calculo se obtiene 57/103 = 0,55 consultas/habitante en lugar de 0,57 obtenido por el otro método. La diferencia se debe a que en la poblacién hay 5 000 habitantes en 1 000 familias, o sea, 5 habitantes por familia en promedio; en cambio en la muestra, el numero de habitantes por familia es 103/20 = 5,15. eCuél camino se debe adoptar? Si conocemos el ntmero total de elementos de la poblacion (M) distribuido en los N conglomerados, conviene usar el primer camino, es decir, usar informacién de la poblacion; en caso contrario, se puede estimar el mimero de habitantes a partir de los resultados de la muestra. gCual seré la situacién cuando se desea estimar una proporcién bajo muestreo por conglomerados? Con el objeto de instalar jardines infantiles en la misma comunidad del ejemplo anterior, en cada una de las 20 familias de la muestra se averigué el ntimero de nifios menores de 5 afios. Los resultados fueron: Familia 12.3 4 5 6 7 8 9 10 Il 12 13 14 15 16 17 18 19 20 N® nifios meno- resdeSaios 1 3 0 2 12310022321 101041 132 Luego, el total de nifios menores de 5 afios en estas 20 familias es 1 +3 +..... + 0 + 1 = 26 nifios; como el total de individuos en las 20 familias era 103, entonces el porcentaje de nifios menores de 5 afios es: 26/103 x 100 = 25,2%. Como en dicha comunidad hay 5 000 personas, el niimero estimado de nifios menores de 5 afios sera 5 000 x 0,252 = 1 260 individuos. En el caso de muestreo por conglomerado no seran dadas las varianzas para la media y la proporcién por su complejidad de calculo. DETERMINACION DEL TAMANO DE LA MUESTRA Una de las cuestiones basicas y primeras a resolver en cualquier investigacion se refiere al ntimero de elementos a estudiar, o sea, el tamafio de la muestra. La respuesta obviamente no es facil ya que se deben conjugar elementos teérico-conceptuales de estadistica con otros de orden practico; entre estos ultimos, conviene senalar limitantes siempre presentes como son el costo y el tiempo del estudio. Sin considerar estos aspectos, las consideraciones basicas en la determinacién del tamafo de la muestra son: a) La heterogeneidad de 1a poblacién en estudio con relacién a la caracteristica bajo estudio. Es obvio que si una poblacién es muy homogénea bastara con pocos elementos para hacer la estimacién de la caracteristica de interés y para informar de lo que ocurre en la poblacién. A medida que 1a poblacion se hace mas heterogénea mayor debera ser el tamafho de la muestra. b) La precision deseada en 1a estimacién. La precision esta relacionada con la amplitud del intervalo de confianza. Por ejemplo, si se quiere estimar el promedio de edad de una poblacion, se puede afirmar que dicho promedio se encuentra entre 20 y 60 afios o entre 30 y 50. El primer intervalo es menos preciso que el segundo, ya que su amplitud es 40 en cambio la amplitud del segundo es sélo 20. Mientras mayor precisién se requiera en la estimacién (intervalos de confianza mas angos- tos), mayor debera ser el tamafio de la muestra. c) La confianza de la estimacién. La confianza asociada a un intervalo es la probabilidad de que el valor de la carac- teristica en estudio en la poblacién esté contenido en el intervalo construido a partir de los datos de la muestra. Lo deseable es tener una alta probabilidad o seguridad de que el intervalo contenga al valor de la poblacion; esto, sin embargo, tiene un costo el cual es el de disponer de un tamafio de muestra 133 grande. Por lo tanto, a mayor confianza deseada, mayor debera ser el tamafio de la muestra. Basadas en estas tres consideraciones, existen ciertas expresiones que permitiran determinar el tamafio de una muestra dependiendo si el interés esta centrado en estimaciones de medias poblacionales © de proporciones poblacionales. A continuacion se presentan estas dos situaciones: Jamafio de muestra para proporciones Suponga que en una ciudad se desea estimar el porcentaje de trabajadores de industrias textiles que han perdido, en algun grado, su capacidad auditiva como consecuencia del ruido y vibraciones en el ambito de su trabajo. En el total de industrias textiles trabajan 10 000 personas y como no es posible estudiarlas en su totalidad se decide tomar una muestra. Las caracteristicas deseadas para el tamafio de la muestra son: a, En el caso de una proporcion, la varianza (que es la medida de heterogeneidad a usar) esté dada por el producto entre P y Q donde P es la proporcién de personas con pérdida auditiva en la poblacién estudiada y Q su complemento, o sea, la proporcion de personas sin pérdida auditiva. Por lo tanto, se debe disponer de alguna cifra para P basada en estudios previos o en otras experiencias relacionadas con el problema. Se usaré una cifra obtenida para un estudio similar realizado en otra ciudad y que arrojé como resultado P = 0,30 (30%). En caso de no disponer de ningun valor de referencia para P se pueden adoptar dos caminos; el primero es considerar el caso més extremo, es decir, cuando la poblacién es lo mas heterogé- nea posible; esto ocurre cuando P = 0,5 y por lo tanto Q = 0,5. La otra via de solucién es mediante una muestra piloto, esto es tomar una muestra de un tamafio arbitrario y calcular alli la proporcidn correspondiente y asumir ésa como P. b) Con relacion a la precision, denotada por 4, se desea que ésta sea no mayor de 3%; es decir, que la diferencia entre la estimacién basada en la muestra y el verdadero valor para P no sea mayor de 3%. c) Finalmente, se desea una confianza del 95% con relacion al intervalo de confianza construido a partir de la muestra. Basado en la distribucion normal, el valur de % para una probabilidad de 95% (2,5% en cada extremo de la curva) es 1,96. A partir de estos valores se puede determinar un tamafio de muestra inicial, denotado por n, y que esta dado por la siguiente ex- presion: 134 En el ejemplo, Z = 1,96, P = 30%, Q = 70% y d = 3% Reemplazando luego estos valores en la expresion anterior se tiene qu = (1,96)? x 30 x 70 ee 3 El tamafio de muestra definitivo n se calcula como: = 896 i estan donde N es el tamaiio de la poblacién; en el ejemplo 1+ nyN N = 10 000 trabajadores por lo tanto n eae 822,3 1 + 896/10 000 Entonces para satisfacer los requisitos deseados se debiera seleccionar una muestra de 823 trabajadores (se debe tomar el entero superior del numero encontrado) . Suponga ahora que el requisito de precision sea de 2% en lugar de 38. En este caso el tamafio de muestra inicial sera (2,96)? x 30 x 70 a =2017. y a 2 2 017 el definitivo serian =? O17 1 + 2 017/10 000 1 679 es decir n = 1 679 trabajadores Tamafio de muestra para promedios En el caso que el interés sea una caracteristica cuantitativa, se debe entonces gstimar un promedio de la poblacién. La varianza en este caso es S* (en lugar de PQ de una variable cualitativa). Aplicando la expresién dada para proporciones y reemplazando PQ por S* tenemos que: 135 para el tamafo de muestra inicial n= e para el tamafio definitivo T+ nye El problema aqui, consiste en tener alguna idea del posible valor de la varianza s*. Si no disponemos de ninguna aproximacién para S* eptonces se puede considerar una muestra piloto y estimar en ella S*° y usar dicho valor en la determinacién del tamafo de 1a muestra. Ejemplo: Un Centro de Investigacion y Tratamiento de Cancer dispone de un fichero con los 1 000 pacientes que han recurrido a é1 en el ultimo afio. Se desea disponer de algunas caracteristicas descriptivas de los pacientes, entre ellos la edad promedio. Para esto se decide seleccionar una muestra aleatoria que permita estimar el pronedio de edad de esa poblacidn con una precision de 5% (es decir, que la estimacion no difiera del promedio verdadero en mas de 5%) y una confianza del 95%. Como no se dispone de ninguna informacion respecto al posible valor de 1a varianza, se selecciona una muestra piloto de 20 pacientes. En éstos, el promedio de edad fue de 50 afios y la varianza de 160 afios*. Como se desea una precisién del 5% del valor verdadero, supongamos por un momento que el promedio arrojado por 1a muestra piloto es el verdadero promedio de 1a poblacién de 1 000 pacientes. Luego, e1 5% de 50 afos es (0,05) x 50 = 2,5 afios el cual es el valor de a. Por lo tanto, zs? _ (1,96)? x 160 n= = 98,34 1) = ' & (2,5) y el tamafio de muestra definitivo es: n=_ - 98,34 = 89,5 T+ nN 1 ¥ 98,3471 000 Es decir, se deben elegir 90 pacientes para satisfacer las condiciones dadas. 136 ONIDAD'G EJERCICIOS Bjercicios que deben efectuarse durante la actividad del curso: 1. En un determinado Centro Oncolégico se atiende diariamente a 30 pacientes con cancer. Entre otras caracteristicas, en la ficha clinica se consignan edad, sexo y localizacion del tumor. Los valores de estas variables en los 30 pacientes son: Paciente Edad Sexo Localizacién Paciente Edad Sexo Localizacién we eraneune 10 cee 12 13 14 15 65 52 7 84 39 55 42 49 67 2 31 60 63 97 61 SREY RR EEE Estémago Pulmén Pulmén Estémago Piel Pulmén Mama Préstata Estémago Mama Pulmén Estémago Tréquea Bronquio colon 16 aw 18 19 20 21 22 23 24 25 26 27 28 29 30 59 49 61 72 40 61 15 64 39 34 61 50 70 52 7 Bo Soo ee we ey Utero Pulnén Tréquea colon Pulmén Mama colon ‘Traquea Bronquio Utero Pulnén Bronquio Mama Pulnén Traéquea Considere este grupo de pacientes como una poblacion; el promedio de edad es 57,5 (es decir Y = 57,5). El porcentaje de hombres es 60% (P, = 60%) y el porcentaje de pacientes con cancer de pulmén es 26,67% (P, = 26,678). Seleccione una muestra de 10 pacientes (usando una tabla de numeros aleatorios, papeles numerados de 1 a 30 u otro procedi- 137 miento que sea aleatorio). Encuentre los estimadores del promedio de edad y del porcentaje de pacientes con cancer de pulmén. Ademas, encuentre las desviaciones estandares en cada caso. 2. En el ejercicio anterior para muestreo aleatorio simple, se puede formar 2 estratos por sexo. El estrato de sexo masculino esta formado por 18 personas y de sexo femenino por 12 personas; es decir N, = 18 yN, = 12 con lo cual N= 30. La muestra que usted seledcioné subdividala en dos estratos y en cada uno calcule el promedio de edad y la varianza correspondiente. A partir de estos resultados, estime el promedio de edad de la poblacién y la desviacién estandar de dicho estimador. 3. Suponga que en un pais X existen 50 industrias dedicadas a la fundicién de metales. Se sabe que en estas industrias trabajan 5 000 personas. Se desea estimar el porcentaje de esta poblacion con afecciones pulmonares. Para tal efecto, se selecciona una muestra aleatoria de 10 industrias y se registra el numero de personas que alli trabaja y el mimero de personas con afec- ciones pulmonares. Ademés se obtiene la informacion de 1a edad con el objeto de estimar el promedio de edad de esa poblacién: Industria 1 2 3 4 5 6 7 8 9 10 Total personas 85 120, 100.200 52. 67 82 140 85 140 Personas con 20 4s 10 62 4 2 2 41 25 14 afecciones Total de afios 3400 5760 4900 8000 2028 2814 3362 6720 2975 4480 A partir de esta informacion estime: a) el porcentaje de personas con afeccién pulmonar en la Poblacion b) el promedio de edad de la poblacion 138 4. A una Universidad ingresan 1 500 alumnos el afio 1987. Para esta poblacién se desea conocer el porcentaje de alumnos fumadores y el promedio de cigarrillos diarios. Como no es posible estudiar a todos los alumnos se decidié seleccionar una muestra que permita realizar las estimaciones de las dos caracteristi- cas de interés. Las condiciones impuestas al tamafio de la muestra son: - Para el porcentaje de fumadores: a) confianza de 95% b) precision no superior de 4% - Para el promedio de cigarrillos: a) confianza de 95% b) precisién no superior de 10% del promedio verdadero En un estudio realizado el afio 1986 en una Facultad de dicha Universidad se obtuvo que el porcentaje de fumadores fue 65%. El promedio de cigarrilles diarios por alymno fue de 12 cigarrillos con una varianza de 30 cigarrillos*. Determine el tamafio de la muestra necesaria para estimar: 4) el porcentaje de fumadores de la poblacion ii) el promedio de cigarrillos diarios por alumno 139 ANEXO 4 ASPECTOS BASICOS SOBRE ANALISIS MULTIVARIANTE Uno de los propésitos basicos en el estudio epidemioldgico del cancer u otra patologia, es poder relacionar la enfermedad con aquellos factores que la favorecen; esto permitiré finalmente evaluar el mayor o menor riesgo para aquellas personas que poseen © no un determinado nivel de alguno de estos factores (variables) . En un estudio de casos y controles, por ejemplo, se puede evaluar muchas variables, que por medio de andlisis estadistico podremos decidir respecto'a su relacién con la patologia. El andlisis simple consiste en estudiar la posible relacién entre cada variable y la enfermedad (analisis univariante), independien- temente de la influencia de las restantes variables. Asi por ejemplo, si se observa 10 variables tanto en los casos como en los controles, deberiamos realizar 10 analisis univariantes, uno por cada variable y en cada situacion decidir respecto a la asociacién de ella con la patologia. Esto equivaldria a que un clinico decidiera respecto al estado de un paciente basandose en cada uno de los sintomas y signos en forma independiente y no mediante un analisis o evaluacion conjunta de ellos. Consideremos a modo de ejemplo, la situacién al estudiar las variables asociadas al cancer pulmonar. Suponga que se estudian las variables: ntimero de cigarrillos diarios, numero de afos con e1 habito de fumar, tipo de actividad, etc. Al realizar un analisis univariante entre c4ncer pulmonar y numero de cigarrillos diarios es sabido que los grandes fumadores tienen un riesgo mayor de desarrollar la patologia. De la misma se puede llegar a establecer una relacién con el numero de afios del habito o con la actividad de las personas. sin embargo, por medio del anélisis univariado no podremos evaluar el riesgo de aquellos grandes fumadores con muchos afios de habito con relacién a los grandes fumadores con pocos afios de habito, por cuanto no se utilizo una metodologia que permita, ademas, relacio- nar entre ellas 1a variables causales 0 favorecedoras del cancer. Mediante este simple razonamiento es que podemos deducir que un andlisis completo no se encamina sélo por la aplicacién de técnicas estadisticas simples univariantes, sino que nos obligaré a recurrir a métodos estadisticos mas complejos, denominados métodos multi- variantes. 140 En realidad los métodos multivariantes han sido desarrollados (y siguen siéndolo en diversas direcciones) desde hace bastantes afios, pero su utilizacién se veia restringida por la complejidad matematica y de calculo que tienen. Sin embargo, en la ultima década se han confeccionado programas computacionales, basados en lenguajes cada vez mas sencillos y que permiten el empleo de dichos métodos sin grandes dificultades de calculo, si se presta debida atencién a los conceptos estadisticos involucrados. Esta facilidad computacional se ofrece hoy dia no sélo a través de grandes computadores, sino por medio de programas para microcompu- tadores con acceso a cualquier investigador. En términos muy generales, podemos decir que los métodos multiva- riantes son aquéllos que permiten, mediante ciertas estructuras (funciones) matematicas, estudiar en forma simultanea un conjunto de variables. A partir de esta simple conceptualizacién, se pueden derivar diferentes metolodologias estadisticas donde cada una de ellas posee su propia estructura matem4tica y su aplicabilidad a diferentes problemas dependiendo de las caracteristicas propias de él. En el campo de la epidemiologia son varios los métodos que se han utilizado, segtin el estudio de que se trate; sobresalen en este aspecto los modelos de regresicn basados en la distribucién logistica (regresidn logistica). Basicamente la regresién logistica consiste en establecer una funcién (logistica) entre una variable dependiente o respuesta (de caracter cualitativo) y un conjunto de variables independientes que pueden o no ser todas cuantitativas. Suponga que se desea estudiar el efecto de un conjunto de variables sobre la neoplasia cervical intraepitelial (NCI). Para ello se considera una muestra de personas con NCI (casos) y otra muestra de mujeres en que esta ausente la enfermedad (controles). Denotemos por ¥ la variable dependiente “presencia o ausencia de la patologia", asi: ¥,=1 si la i-ésima mujer observada tiene NCI e ¥,=0 sila i-ésima mujer observada no tiene la enfermedad. Ademas, sea p = P(¥ = 1) la probabilidad de tener la enfermedad y q = 1- P(¥ = 0) la probabilidad de no tener la enfermedad. A partir de las variables independientes X,, X,, --.-, Xp (que en este ejemplo pueden ser: edad, edad de menarquia, numero de abortos, paridad, uso de contraceptivo oral, etc.), la idea es 41 generar una funcién de estas variables que permita estimar la Probabilidad que una paciente tenga la enfermedad bas4ndose en su perfil observado para dichas variables. Por razones que no son del caso discutir, en lugar de buscar una relacién directa entre p = P(y = 1) y las variables independientes Xt, er ++++4 Xe, S@ formula una relacion lineal entre el logaritmo natural del cuociente entre p y q (1lamado logito de p) con dichas variables. Asi, Ln (p/q) = By + ByX; + ByXp + -... BX Sin embargo, el interés es modelar p y no Ln (p/q). Por medio de una simple transformacién se puede obtener la siguiente ecuacién de regresién conocida como regresién logistica : Bee) egy erage gnc seen aE 7 BBX BX ate ea 1 + exp (-By-BiXy. BX) Este es un modelo de regresién no lineal que requiere de métodos relativamente complejos para estimar los pardmetros By, By, ...., B,. Una vez obtenidas las estimaciones de los parametros y dis poniendo de los valores de X;, Xz, ---,X, para una paciente dada, se reemplazan estos valores en la expresién anterior obteniéndose una estimacién de la probabilidad que dicha paciente tenga NCI. Ademas de obtener esta probabilidad estimada, que ya es importante como elemento predictivo, los coeficientes’ del modelo permiten evaluar el mayor o menor riesgo asociado a una persona para valores o niveles particulares de las variables independientes. Por otra parte, se pueden obtener las desviaciones estandares de las estimaciones de los coeficientes B,, ...., By, con lo cual es posible estudiar la importancia de cada variable en el modelo. 142 ANEXO 5 ORIENTACION SOBRE LOS METODOS ESTADISTICOS QUE EN GENERAL SE PUEDEN APLICAR BEGUN LAS VARIABLES QUE SE RELACIONAN VARIABLE : DEPENDIENTE UNICA MULTIPLE ‘VARIABLE INDEPENDIENTE DISCRETA CONTINUA DISCRETA CONTINUA “TEST = TABLAS DE CONTINGENCIA | -REGRESION LOGISTICA DISCRETA “TABLAS DE CONTINGENGIA |” anova MULTIDIMENSIONAL ANAUISIS DISCRIMINANTE 0 N 1 c A - REGNESION LocisTICA ‘CORRELAGION ; conee “ANALISIS DISCRIMINANTE | - REGRESION SIMPLE ~REGRESION MULTIPLE ~ TABLAS DE CONTINGENCIA - TABLAS DE CONTINGENCIA. |. ANOVA MULTIVARIADO ree MULTIDIMENSIONAL Se MENON: MULTIDIMENSIONAL M a L T - REGRESION LOGISTICA ~ CORRELACION PARCIAL - REGRESION MULTIPLE i: CONTINUA ~ ANALISIS DISCRIMINANTE - REGRESION MULTIPLE -ANALISIS CANGNICO i E _ REGRESION LOGISTICA ANCOVA - REGRESION MULTIPLE a + ANALISIS DISCRIMINANTE na TANALISIS CANONICO BIBLIOGRAFLA 10. 11. 12. 13. Abad, A. y Servin, L. Introduccién al Muestreo. 2a. ed. México, Edito- rial Limusa, 1982. Aburto, C. Elementos de Bioestadistica. México, Fondo Educativo Inter- americano, 1979. Agresti, A. Analysis of Ordinal Categorical Data. New York, John Wiley, 1984. Armitage, P. Statistical Methods in Medical Research. New York, John Wiley, 1971. Breslow, N. y Day N. E. Statistical Methods in Cancer Research: The Analysis of case-control Studies. Lyon, 1980. IARC, vol. 1. Colton, T. Statistics in Medicine. Boston, Little, Brown & Co., 1974. Fleiss, J. Statistical Methods for Rates and Proportions, 2nd. ed. New York, John Wiley, 1981. Guerrero, V. R., Gonzalez, C. L. y Medina, E. L. Epidemiologia, Bogoté, Fondo Educativo Interamericano, 1981. Lee, J. An insight on the use of multiple logistic regression analysis to estimate association between risk factor and disease ocurrence. Int J Epidemiol 1(15) 122-29, 1986. Portus, L. Curso practico de Estadistica. Colombia, Mc. Graw-Hill, 1985. Reynaga, J. Epidemiologia IIT: la medicion en el trabajo epidemiolégico. Taller de Evaluacién Epidemiolégica de Riesgos Causados por Agentes Quimicos Ambientales. México, Centro Panamericano de Ecologia Humana y Salud OPS/OMS, 1985. Snedecor, G. y Cochran, W. Statistical Methods. 6a. ed. Ames, The Towa State University Press, 1967. Steel, R. y Torrie, J. Principles and Procedures of Statistics: A Biometrical Approach. 2nd ed. New York, Mc Graw-Hill, 1980. 144

También podría gustarte