Está en la página 1de 25

Ctedra I Estadstica II Autor I Hebe Goldenhersch

MUESTREO Y MODELOS DE MUESTREO

Objetivos
Se espera que al finalizar el estudio de este captulo, el estudiante sea capaz de: Comprender los requisitos necesarios para que una muestra sea probabilstica. Conocer los principales mtodos de muestreo, sus ventajas y desventajas para ser aplicados en diversas condiciones. Seleccionar muestras probabilsticas en situaciones no muy complejas. Calcular los errores estndar de los estimadores en diversos casos. Conocer la bibliografa a que deber recurrir para situaciones complejas.

Contenidos
1. Introduccin - Razones para usar el muestreo. 1.1. Algunos ejemplos en los que se requiere extraer una muestra. 1.2. El marco de la muestra. 2. Muestreo simple al azar. 3. Muestreo estratificado. 4. Muestreo por conglomerados. 5. Muestreo sistemtico. 6. El muestreo estadstico como herramienta para la Auditora. Aplicacin de tcnicas de muestreo en Auditora. Casos especiales: muestreo de "parar o seguir", muestreo para variables, muestreo exploratorio o de descubrimiento. Breve nota acerca del muestreo de aceptacin. 6.1. El muestreo de parar o seguir. 6.2. El muestreo de descubrimiento. 6.3. Breve nota acerca del muestreo de aceptacin.

57

Ctedra I Estadstica II Autor I Hebe Goldenhersch

58

Ctedra I Estadstica II Autor I Hebe Goldenhersch

1. Introduccin - Razones para usar el muestreo


En este Captulo slo se pretende dar un ligero pantallazo acerca del concepto y los mtodos de muestreo, de manera que los estudiantes conozcan de la existencia de tales mtodos y puedan decidir cul aplicar para la seleccin de su muestra en los problemas que la prctica profesional los lleve a enfrentar. No obstante, el tema del muestreo abarca una materia completa, ya que se trata de una especialidad dentro de la Estadstica. Existe una abundante bibliografa sobre el tema, y seguramente quien deba disear una muestra para una situacin algo compleja, necesitar recurrir a la misma para solucionar los problemas que se le presentarn tanto en el diseo como en el clculo de las estimaciones y sus errores. Al final de este Captulo se mencionan algunas de esas referencias bibliogrficas. Casi toda la teora de la Inferencia Estadstica que se desarrolla en este curso, para ser aplicada en la prctica requiere del muestreo. Qu es el muestreo? Es posible responder que es el proceso por el cual puede conocerse algo acerca de una poblacin en base a una muestra obtenida de ella. El muestreo estadstico siempre trata de muestras probabilsticas y no simplemente de muestras entendidas como subconjuntos de las poblaciones. El muestreo probabilstico implica que, en el proceso de muestreo ha sido posible enunciar todas las muestras que hipotticamente pueden obtenerse de esa poblacin, y tambin conocer cul es la probabilidad asociada a cada una de ellas. En Estadstica I se habl acerca de la cantidad de muestras diferentes que es posible obtener a partir de una poblacin. Se explic cmo, en una poblacin que tiene N elementos pueden extraerse
n 1 CN . n CN

muestras diferentes de tamao n, sin reemplazo.

Todas esas muestras tienen igual probabilidad de ser elegidas. Esa probabilidad es

Si las muestras se extraen con reemplazo, entonces pueden extraerse

N n muestras n con reemplazo, y cada una de ellas tiene igual probabilidad de ser elegida ( 1 N ).

Se enunci asimismo la Ley de los Grandes Nmeros, y a partir de ella cmo, tomando una muestra suficientemente grande, existe una elevada probabilidad que la media de la muestra se encuentre alejada a lo sumo en una cantidad predeterminada (error de estimacin) de la media de la poblacin, y lo mismo ocurre cuando se desea estimar una proporcin en la poblacin y se utiliza la proporcin muestral como estimador de esa proporcin poblacional desconocida. A su vez, por el Teorema Central de Lmite, se explic cmo la media de una muestra, cualquiera sea la distribucin de la poblacin de donde fue extrada, tiende a distribuirse en forma normal (lo mismo ocurre con la proporcin muestral). Al aplicar estos importantes conceptos en el Captulo anterior, vimos cmo es posible, utilizando la distribucin normal, llegar a conocer con qu probabilidad puede afirmarse que un cierto intervalo contiene un parmetro poblacional desconocido. Es decir que, utilizando el muestreo probabilstico (esto es muestras independientes, todas con igual probabilidad de ser elegidas, todos los elementos de la poblacin con una probabilidad conocida de ser seleccionados en la muestra), es posible realizar inferencias acerca de parmetros poblacionales desconocidos, indicando cul es el error mximo en cada estimacin y cul la probabilidad de mantener acotado ese

59

Ctedra I Estadstica II Autor I Hebe Goldenhersch

error. Precisamente en este punto radica la diferencia entre el muestreo probabilstico y otro que no lo sea. En este ltimo caso, no es posible conocer la magnitud del error que puede cometerse al realizar una estimacin acerca de un parmetro poblacional. En este sentido, suele hablarse de los errores de muestreo que son los que pueden medirse, como se indic ms arriba, expresando el grado de confianza de las estimaciones y de errores no de muestreo los cuales ocurren por distintos motivos que van desde aquellos errores cometidos por el encuestador, hasta problemas de representatividad de la muestra, errores en el cuestionario, respuestas mal anotadas, etc. Estos errores pueden cometerse an cuando se trabaje con toda la poblacin (censo) y llevan a que, a veces con un costo muy elevado, no llegue a conocerse exactamente lo que se busca y lo que es peor, no pueda medirse el grado de confianza de las estimaciones ni la magnitud de los errores (exactitud de las estimaciones) y su probabilidad. Son frecuentes este tipo de errores en la seleccin de la muestra, y en ese caso, sta no resulta realmente aleatoria ni representativa de la poblacin y luego las fallas son atribuidas a la estadstica. Esto ocurre muchas veces en las predicciones electorales, o en investigaciones de mercado cuando el consumo real observado a posteriori se aleja sustancialmente del observado en la muestra, pero sta fue tomada en algunos barrios de determinadas caractersticas y luego se proyect a toda una ciudad ... 1.1. Algunos problemas en los que se requiere extraer una muestra

60

Ctedra I Estadstica II Autor I Hebe Goldenhersch

Se sugiere leer estos problemas, slo para advertir la diversidad de situaciones en que resulta necesario seleccionar una muestra y luego de haber concluido el Captulo, volver a releerlos reflexionando sobre el tipo de muestreo que se requerira para solucionar los problemas planteados, relacionando stos con el cuadro resumen del final del Captulo (pg. 79) donde se esquematizan las ventajas, desventajas y caractersticas ms importantes del mtodo. 1. Se desea estimar la proporcin de nios en edad escolar que sufren cierta enfermedad (parasitosis) en la ciudad de Crdoba. Sera importante conocer si hay diferencias entre los que tienen hasta 10 aos an no cumplidos y los que tienen 10 o ms aos. Y qu pasara si se desea conocer si existen o no diferencias entre las proporciones para los diversos barrios? 2. Se desea realizar una encuesta para averiguar opiniones de los maestros de escuelas primarias de la provincia de Crdoba (oficiales y privadas) acerca de los mtodos de evaluacin. 3. Se desea analizar las caractersticas socio-econmicas de las familias cuyos nios reciben los beneficios del PAICOR. 4. Se investigan varias caractersticas de la industria en la Provincia de Crdoba. Es importante conocer el diferente comportamiento de las empresas grandes y pequeas, as como de cada rama de actividad. 5. Se desea realizar una encuesta para estimar el porcentaje de personas econmicamente activas que se encuentren desocupadas, en la Ciudad de Crdoba, en la ltima semana de octubre de 2004. 6. En una investigacin de mercados, se desea explorar el mercado potencial de un nuevo producto. Se desea entrevistar a usuarios y no usuarios de un sustituto, los que constituirn una muestra. 7. Se desea auditar los saldos de las cuentas por cobrar en una empresa. 8. Se desea conocer la opinin de los habitantes de la ciudad acerca del uso de cospeles para el transporte urbano. 9. Suponga que desea efectuar un sondeo de opiniones de residentes en su barrio. Describa cmo realizara la tarea si decide usar: a) muestreo simple al azar, b) muestreo sistemtico, c) muestreo estratificado, d) muestreo por conglomerados Cul de estos mtodos le parece ms adecuado para el caso? 10. Para muestrear un proceso de fabricacin se han sugerido tres planes alternativos: a) inspeccionar la i-sima unidad o una unidad cada j minutos; b) inspeccionar una muestra simple al azar de n unidades de la produccin de cada hora; c) inspeccionar n unidades consecutivas a intervalos de una hora qu plan de muestreo se prev en cada uno de los tres casos? Cul le parece ms apropiado? 11. Qu piensa acerca de realizar una encuesta por telfono? Por correo? Qu piensa acerca de seleccionar una muestra para una investigacin de mercado tomando como padrn la gua telefnica? 12. Se desea estimar el valor total del inventario en una ferretera. 13. Se desea conocer qu tipo de muestra hay que seleccionar si se sospechan graves irregularidades en el otorgamiento de crditos en un banco, para contar con una elevada probabilidad de descubrir dichas irregularidades si existieran. 14. Se necesita decidir, a partir del examen de una muestra de comprobantes de cada archivo, si es necesario revisar todos los comprobantes que lo integran o si, de acuerdo a la calidad observada en la muestra, puede el archivo ser aceptado sin mayor revisin. Se pretende adems que exista una probabilidad baja de aceptar archivos con muchos errores, as como de rechazar (y por lo tanto revisar exhaustivamente) archivos con pocos errores. La lectura atenta de estos ejemplos, est indicando que no existe un nico mtodo para efectuar un muestreo probabilstico, sino que hay un conjunto amplio de diseos alternativos adecuados para los diferentes casos.

61

Ctedra I Estadstica II Autor I Hebe Goldenhersch

1.2. El marco de la muestra Para disear una muestra, es imprescindible una correcta definicin de la poblacin con respecto a la cual se extraern las conclusiones. No siempre es posible contar con un listado completo, del cual obtener la muestra representativa de esa poblacin. Ocurre frecuentemente que los elementos disponibles para esa tarea no concuerdan exactamente con la poblacin mencionada. El conjunto de esos elementos disponibles, de los cuales se extraer la muestra, constituye el marco de la muestra. Un ejemplo contribuir a aclarar el concepto: se desea realizar una investigacin sobre cierto tipo de afecciones bucales en nios de 5 a 12 aos en la ciudad de Crdoba. La poblacin es el conjunto de todos los nios comprendidos entre esas edades, pero puede contarse con un listado de los mismos? Lo primero que piensa quien debe seleccionar la muestra es, seguramente, recurrir a las escuelas primarias donde se supone concurren esos nios. Efectivamente, un marco adecuado de la muestra estar constituido por todos los nios que concurren a las escuelas primarias de la ciudad. Coincide exactamente este marco con la poblacin? Seguramente que no, porque, aunque pequeo, existe un porcentaje de nios comprendidos en esas edades que no concurre a las escuelas (lamentablemente muchos concurren slo porque reciben alimentacin en la escuela, pero los datos censales reflejan que es cercano al 100% el porcentaje que concurre a la escuela primaria en esas edades). De todos modos, el marco planteado es tal vez el ms cercano a la poblacin de referencia. Pero es necesario ser cuidadoso ya que en algunas ocasiones, las dificultades para definir el marco llevan a que el mismo se aleje sensiblemente de la poblacin y luego las conclusiones slo podrn referirse al conjunto de elementos que proporcionaron el marco muestral, y no a toda la poblacin. Por ejemplo, es frecuente que para algn tipo de encuestas se recurra a la gua telefnica y luego se pretenda sacar conclusiones para toda una ciudad cuando las personas que no tienen telfono o no figuran en gua tienen probabilidad cero de ser seleccionadas en la muestra. Modelos de muestreo probabilstico En los prximos apartados se exponen brevemente las caractersticas ms importantes de cada modelo de muestreo, y se expresan las frmulas para calcular las varianzas de los estimadores de la media y de la proporcin, a fin de facilitar la comparacin de los mtodos. Por qu hablamos de la varianza del estimador? Si se releen los intervalos de confianza construidos en el Captulo anterior, se observa que la varianza del estimador es el elemento que determinar (fijado el nivel de confianza) el error mximo de estimacin, (suponiendo un tamao de muestra fijo, de lo contrario estos elementos tambin dependen de dicho tamao). Distintos mtodos de muestreo implican diferentes varianzas de los estimadores. Por ello, cuando se va a decidir el mtodo de muestreo a utilizar es muy importante conocer la varianza de los estimadores (y por lo tanto sus errores estndar) que resultarn. Adems, por supuesto, es importante considerar el costo del relevamiento resultante de la aplicacin de cada mtodo. Los modelos de muestreo que se exponen a continuacin son: el muestreo aleatorio simple (MAS), el estratificado, el muestreo por conglomerados y el mtodo de seleccin sistemtico. En la prctica, estos modelos pueden combinarse, dando lugar a diseos ms complicados pero de gran utilidad en numerosas ocasiones.

62

Ctedra I Estadstica II Autor I Hebe Goldenhersch

2. Muestreo simple al azar


Es el ms simple desde el punto de vista terico, aunque no siempre es el ms eficiente o de ms sencilla aplicacin. En este caso, todos los elementos de la poblacin tienen igual probabilidad de ser seleccionados en la muestra (n/N). Para obtener la muestra es imprescindible numerar todos los elementos de la poblacin, seleccionando luego al azar -ya sea mediante una tabla de nmeros aleatorios o generndolos en una computadora, o por algn otro procedimiento- los n elementos que formarn la muestra. Es necesario que, una vez seleccionado un nmero al azar, se conozca exactamente a cul elemento de la poblacin corresponde. En esto estriba la dificultad para la aplicacin prctica de este modelo, cuando las poblaciones son muy grandes o no es posible numerar todos los elementos, o los mismos estn dispersos en reas muy extensas. Las frmulas y procedimientos estudiados en el Captulo anterior para determinar tamao de muestra, intervalos de confianza, etc., se aplican literalmente en el caso del muestreo aleatorio simple. Debe tenerse en cuenta solamente si se ha aplicado un esquema que permite las repeticiones (con reemplazo) o no, para seleccionar la frmula adecuada en cada caso. En una seleccin de nmeros al azar pueden resultar repetidas algunas observaciones; si el criterio adoptado es el de eliminarlas cuando aparecen por segunda vez, se habr optado por el muestreo sin reemplazo. Para seleccionar los nmeros de una tabla de nmeros aleatorios, debe sealarse algn punto de partida aleatorio en la misma (por ejemplo cerrando los ojos elegir una pgina y algn lugar de la pgina), y decidir una direccin a seguir (horizontal o vertical). A partir del nmero sealado se van seleccionando tantos nmeros sucesivos como elementos se desee incluir en la muestra. Naturalmente, los nmeros sern de tantos dgitos como sean necesarios para incluir a todos los elementos de la poblacin. As por ejemplo, si en la poblacin hay 7900 elementos y se desea seleccionar 100, sern elegidos aquellos cuyo nmero de orden coincida con los nmeros de cuatro dgitos no mayores a 7900 que vayan apareciendo en la tabla, hasta llegar a 100 nmeros. Cuando el nmero de la tabla es mayor que 7900 no se tomar en cuenta. Es interesante recordar cul es el error estndar de los estimadores ms usuales, si se aplica muestreo aleatorio simple. Recuerde que el error estndar del estimador es algo as como la unidad de medida del error de estimacin; z veces el error estndar es el mximo error aceptable con el nivel de confianza correspondiente a ese valor de z.
1/

Estimador

Error estndar (con reempl)

Error estndar (sin reempl)

X p

n . N n N 1

.(1 p ) n p

.(1 p ) n. N n N 1 p

El muestreo aleatorio simple puede resultar inadecuado o imposible de aplicar en algunas circunstancias: cuando no es posible numerar todos los elementos constitutivos de la poblacin; por ejemplo si se desea obtener una muestra de personas de entre 15 y 18 aos de una ciudad (no existe un listado); cuando la poblacin est formada por subconjuntos bien diferenciados entre s, acerca de los cuales se necesitan estimaciones en particular adems de la general; por ejemplo, si se desea obtener una muestra de establecimientos industriales, una muestra simple al azar contendra seguramente muy pocos o ningn establecimiento grande, debido a que su proporcin en la poblacin es muy pequea y no ser posible realizar estimaciones para el subconjunto de establecimientos grandes;
En la bibliografa puede encontrar como factor de correccin 1-(n/N) que es prcticamente igual que lo utilizado en este caso.

1/

63

Ctedra I Estadstica II Autor I Hebe Goldenhersch

cuando los elementos de la poblacin estn muy dispersos geogrficamente y resultara de un alto costo acceder a los que fueron seleccionados por muestreo aleatorio simple; por ejemplo si se desea obtener una muestra de hogares de una gran ciudad, adems de la necesidad de contar con un listado exhaustivo (que no existe), en la seleccin al azar resultara que cada uno de los n hogares elegidos estara ubicado en un lugar diferente y alejado del resto, lo que encarece significativamente los costos de recoleccin de la informacin. Este problema se acenta si se trata de elegir una muestra de esas caractersticas a nivel provincial, regional o nacional.

Para solucionar estos problemas, existen otros diseos de muestreo: el muestreo estratificado, el muestreo por conglomerados, y otros adecuados a diferentes situaciones concretas.

3. Muestreo estratificado
Este mtodo soluciona el problema planteado ms arriba, acerca de la necesidad de conocer estimaciones para subconjuntos de la poblacin, los cuales adems, son en general bastante homogneos internamente. En este mtodo, la muestra obtenida, tambin al azar, resulta en general ms eficiente que en el muestreo simple. Esto es, una muestra de menor tamao puede suministrar estimaciones tan exactas como el muestreo aleatorio simple con una de mayor tamao, o lo que es ms importante, es posible disear la muestra de tal forma que puedan obtenerse estimaciones respecto de subconjuntos de inters en la poblacin. Ese es precisamente el concepto de estrato: se trata de subconjuntos mutuamente excluyentes y exhaustivos (en el sentido que entre todos constituyen la poblacin completa). Un ejemplo contribuir a aclarar esta cuestin. Supngase la siguiente distribucin de las cuentas por cobrar de la empresa segn la magnitud de su saldo: Saldo Mayor a 10.000 $ 200 $ - 10.000 $ Menores que 200 $ Total Nmero de cuentas 70 500 10.000 10.570 cuentas Desviacin estndar 1247,00 105,50 29,50 278,79 $

En la columna de desviacin estndar, se consigna la de cada estrato, y en la ltima fila la de todas las cuentas en conjunto. Se desea estimar el saldo promedio a partir de una muestra2/. Recordemos la relacin existente entre el tamao de la muestra, el error y el nivel de confianza de las estimaciones, que puede expresarse mediante la frmula:

n=

z 2 . 2 e2

(1)

Si se emplea el factor de correccin para poblaciones finitas, estos elementos se relacionan de la siguiente forma:

e=

z.

N n N 1

(2)

2/

En general, las varianzas poblacionales de cada estrato son desconocidas, y los valores utilizados son o estimaciones, o varianzas conocidas de situaciones similares o experiencias anteriores.

64

Ctedra I Estadstica II Autor I Hebe Goldenhersch

donde n es el tamao de la muestra, N el de la poblacin, z el valor de la N(0,1) correspondiente al nivel de confianza deseado, mximo aceptado para la estimacin. Resulta para el ejemplo planteado, que una muestra de 350 cuentas arroja, para un nivel de confianza del 95% (z = 1.96) un error mximo de 28,5 pesos en el saldo promedio estimado de las cuentas. Ahora bien, si el auditor tiene especial inters no slo en la estimacin del saldo promedio general, sino que pretende conocer cul es el promedio de cada estrato, y fundamentalmente de las cuentas mayores, es posible que haya muy pocas de stas en la muestra (o tal vez ninguna), de manera que no podr estimar su saldo promedio. Por otra parte la gran dispersin de ese estrato determina que sea muy imprecisa una muestra pequea del mismo. Si se piensa en un procedimiento alternativo como el siguiente: se considera cada uno de los tres intervalos planteados como un estrato, y se determina una muestra para cada uno de ellos, ya sea en forma arbitraria, proporcional o por algn otro mtodo, se observa que se logran simultneamente varias ventajas. Por ejemplo, en el primer estrato, debido a la poca cantidad de cuentas, a la importancia de las mismas y/o a su gran dispersin, se decide examinarlas a todas, es decir, se estimar el saldo promedio de ese estrato sin error de muestreo. Y el resto de las 350 cuentas que se prevea analizar, se distribuye en 140 para cada uno de los restantes estratos. Esta forma de afijar la muestra (as se le llama a la distribucin de la muestra entre los estratos) es arbitraria, no obstante logra que el error de estimacin mximo, para el mismo nivel de confianza del 95% se reduzca notablemente: para el estrato 1, el error es cero; para el estrato 2 es de 14,83 pesos y para el estrato 3 es de 4,85 pesos. Para toda la muestra, el error no supera los 4,64 pesos. Sugerimos que usted verifique estos resultados, teniendo en cuenta que el error del estrato h (cada uno de ellos) es:
2

la varianza poblacional y e el error

eh =

z. h

nh

N h nh Nh 1

3/

(3)

Existen varias alternativas para distribuir (afijar) la muestra entre los distintos estratos. La ms eficiente es la llamada de afijacin ptima que consiste en distribuir la muestra en forma proporcional a la dispersin de los estratos. As, en una muestra de n observaciones, corresponde al estrato h-simo:

nh

N h h N i i
i

n (4)

Otra forma de afijacin es la proporcional, en donde a cada estrato se le asigna una proporcin

wh = N h N

de la muestra total. Esta manera de afijar la muestra presenta

dificultades cuando en algn estrato hay pocas observaciones y/o elevada dispersin (por qu?). El mnimo error en las estimaciones (o un tamao de muestra mnimo para un error dado) se obtiene con la afijacin planteada en la frmula (4), la que incluso es posible corregir considerando los costos de muestreo.

3/

Se ha utilizado en todos los estratos el factor de correccin.

65

Ctedra I Estadstica II Autor I Hebe Goldenhersch

En el caso de este ejemplo (se sugiere que usted calcule los tamaos de muestra y el error en cada estrato) resulta, para la afijacin ptima, un error de estimacin mximo para la media de toda la muestra de 3.85 pesos (frmula 3). Si se hubiera empleado el muestreo aleatorio simple, no se alcanzara este nivel de error a menos que se tome toda la poblacin (esto es una muestra 30 veces superior a la del estratificado). Adems s obtiene la gran ventaja de poder estimar los saldos para cada estrato y del total, y por haber trabajado con la poblacin no existe error de muestreo en el estrato de las cuentas mayores (comparar esta situacin con el ejemplo 4 del listado del punto 1.1.). En lo que sigue, se calcula para el muestreo estratificado, la varianza del estimador de la media (aplicando propiedades de media y de varianza). Como luego

Y = whYh donde Yh es la media estimada para el estrato h-simo y wh = 1 ,


2 V (Y ) = wh V (Yh ) . h

Depende del tipo de afijacin usado, cul ser finalmente la varianza en cada estrato y por lo tanto la varianza total. Pero de cualquier manera, calculando la relacin:

V (Ym.estrat ) V (Ym.aleat .simple )


se obtiene una medida de la eficiencia del muestreo estratificado (efecto del diseo). La mayor o menor ganancia de la estratificacin depende de varios elementos, entre ellos el tipo de afijacin utilizado y la caracterstica de los estratos. Este ltimo aspecto es importante: mientras ms homogneos sean internamente los estratos (menores las

h2 ) y mayor la diferencia entre los estratos, que puede medirse con la dispersin
(Yh Y )
h 2

entre las medias de cada estrato y la media general ganancia por estratificacin.

, mayor ser la

Entiende ahora por qu entre las caractersticas que definen al muestreo probabilstico se menciona: que cada elemento de la poblacin tenga una probabilidad conocida de ser seleccionado y no es necesario que todos tengan igual probabilidad?

En resumen, siendo

wh =

Nh N

el peso de cada estrato en la poblacin, y cualquiera

sea la forma de afijacin que utilizada, el estimador de la media y su varianza se calcula como se indica en el siguiente cuadro. Las diferentes alternativas de afijacin influirn en la varianza de los estimadores de cada uno de los estratos, y con ello en la precisin de los estimadores.
Varianza del estimador (con reemplazo) Varianza del estimador (sin reemplazo)

Parmetro

Estimador

66

Ctedra I Estadstica II Autor I Hebe Goldenhersch

2 Y = wh Yh h V (Y ) = whV (Yh ) = h h V (Y ) = whV (Yh ) = wh . h h nh 2 h N h nh


wh . h nh Nh 1

Las diferentes alternativas de afijacin pueden resumirse en:


Afijacin Proporcional No proporcional Igual Tamao de muestra para cada estrato

nh = wh .n nh = n / h
nh = N h h N i i i .n

Optima (o de Neyman) (esta frmula suele completarse incluyendo los costos del muestreo en cada estrato)

4. Muestreo por conglomerados


En este tipo de muestreo, la unidad de muestreo (o de seleccin), en lugar de ser un elemento de la poblacin, est constituida por varios de estos elementos agrupados naturalmente. Se habla de cluster o conglomerado para referirse a cada unidad de muestreo. Es especialmente indicado cuando las unidades estadsticas (elementos de la poblacin) estn muy dispersas y resulta costoso disear un mtodo de muestreo que seleccionando al azar implique viajes prolongados para captar la informacin, y al mismo tiempo estn naturalmente agrupadas por ejemplo en manzanas, escuelas, fbricas, etc. As, analizando los ejemplos 2 y 3 del punto 1.1. se advierte que realizando la seleccin de maestros o de nios al azar, sobre la base de un listado para toda la provincia, ocurrir seguramente que la muestra tal vez no muy grande de acuerdo con los requerimientos de precisin y confianza del trabajo, resulte dispersa por toda la provincia. Para relevar la informacin se requerir viajar a los ms alejados lugares a fin de realizar en cada uno muy pocas encuestas. En cambio, si se define a las escuelas como conglomerados o unidades primarias de muestreo y se seleccionan al azar (por cierto en toda la provincia) algunas escuelas y luego en ellas se releva a todos (o algunos) nios o maestros, el costo del relevamiento se reduce notablemente. Es bueno reflexionar acerca de las propiedades de este mtodo: si se trata de una situacin en la cual cada conglomerado es muy heterogneo internamente (contiene casi toda la diversidad de la poblacin) y a su vez son todos parecidos entre s (homogeneidad externa; o entre conglomerados), es posible elegir unos pocos conglomerados y tener as representada toda la poblacin. Esto ocurrira, por ejemplo, si eligiramos escuelas para seleccionar luego nios, y la escuela donde ellos concurren hubiera sido asignada al azar. Pero la situacin as descripta no es real: los padres eligen las escuelas donde asistirn sus hijos de manera que la composicin interna de cada una es bastante homognea (pblicas o privadas, caras o baratas, en un barrio de alto poder adquisitivo o al revs). De esta manera, cada conglomerado tiene un alto grado de homogeneidad interna, y son muy diferentes entre s. Esta realidad, tornara ineficiente el mtodo de muestreo por conglomerados, pero sus

67

Ctedra I Estadstica II Autor I Hebe Goldenhersch

ventajas en trminos de costos, hacen que se lo prefiera a pesar de ello, aunque seleccionando una cantidad importante de conglomerados. As se recupera la variabilidad que no contiene cada uno en su interior. Las frmulas que se analizan a continuacin, reflejan la situacin planteada y permiten decidir acerca del empleo de este mtodo de muestreo. Estudiamos a continuacin la varianza de los estimadores en el muestreo por conglomerados, y por lo tanto nos estamos refiriendo a la evaluacin de su eficiencia. Las frmulas para calcularlos se refieren a un caso particular: cuando se ha dividido la poblacin en N conglomerados con M elementos cada uno (es decir, conglomerados de igual tamao). Si ello no ocurriera se complican las frmulas para el clculo de los errores estndar de los estimadores, pero las que aqu se plantean servirn como ilustracin de las caractersticas generales del mtodo. Si se trata por ejemplo de estimar una proporcin poblacional, se tendr que dicha proporcin (desconocida) es:

p=
donde

i =1 j =1

yij
NM

N M

yij

es igual a 1 0 segn el elemento tenga o no la propiedad de inters (xito

o fracaso). El estimador de la proporcin ser por lo tanto:

= p

i =1 j =1

yij nM
,

n M

donde n es el nmero de conglomerados seleccionados en la muestra. La varianza del estimador (con correccin para poblaciones finitas) es:

) = V(p

1 n

(1

i p )2 (p n i =1
N ) n 1

donde

i es p

la

proporcin de xitos en el

conglomerado i-simo. Aqu se observa que, en la medida en que los conglomerados sean ms parecidos entre s (prximas la pi) mayor ser la precisin de las estimaciones (o menor el tamao requerido), porque el error estndar ser menor. Si se trata de estimar la media de la poblacin, y esta se ha dividido en N conglomerados de M elementos cada uno, el estimador de la media y su varianza se expresan en las frmulas que se transcriben ms abajo, en las que se ha introducido un coeficiente , llamado coeficiente de homogeneidad, que vincula la dispersin dentro de los conglomerados (denominador) con la dispersin entre los conglomerados (numerador). Este coeficiente se define:

i =1 j , k =1 = M 1 N M 2 ( yij Y ) i =1 j =1

( yij Y )( yik Y )
con j k;

Y es la media general de la poblacin; su estimador es:


68

Ctedra I Estadstica II Autor I Hebe Goldenhersch

= Y

i =1 j =1

yij
nM

n M

yi i =1 n
n

(media de las medias de los conglomerados)

y la varianza de este estimador:

) = v(Y

1 n (1 ) S 2 (1 + ( M 1) ) nM N
1 M 1
.

El valor mximo de

es 1, raramente es negativo, pero su valor mnimo es

De las frmulas anteriores, surge claramente que si la variabilidad interna de los conglomerados es grande (stos son internamente heterogneos, reproduciendo cada uno las caractersticas de dispersin de la poblacin) y la variabilidad entre ellos es pequea (son parecidos entre s), entonces la varianza del estimador es menor que en el muestreo aleatorio simple y se produce una importante disminucin en los costos de relevamiento. Si ocurre lo contrario, es prximo a 1, la varianza del estimador crece con relacin al muestreo aleatorio simple. Por lo tanto este tipo de muestreo slo debe ser usado cuando es posible una sustancial reduccin en los costos de relevamiento que permita elegir un nmero importante de conglomerados y muchos elementos dentro de cada uno de ellos. Si la situacin es intermedia, entonces la varianza del estimador es igual a la del muestreo aleatorio simple, y su uso se justificar por la reduccin de costos de relevamiento (viajes, etc.). Las frmulas planteadas se refieren a conglomerados de igual tamao y a muestreo en una sola etapa, esto es, seleccionando todos los elementos de cada conglomerado. Esas frmulas se modifican sustancialmente si hay tamaos diferentes y si el muestreo se realiza en ms de una etapa, esto es, seleccionando al azar algunos elementos en cada conglomerado. Las propiedades del mtodo son las mismas, slo que cambian las frmulas necesarias para calcular los errores estndar. En este curso no pretendemos desarrollar en detalle cada uno de los mtodos de muestreo; tal como lo planteamos en los objetivos, se trata de alcanzar una visin global de las diferentes alternativas. Ustedes estarn en condiciones, luego de estudiar el Captulo, de aplicar los diferentes mtodos a situaciones ms o menos sencillas; si se trata de un cuadro ms complejo, ser necesario acudir a la bibliografa que est citada al comienzo del texto, en particular el libro de Cochran.

5. Muestreo sistemtico
Ms que un mtodo de muestreo, se trata de una forma de seleccin de las muestras aplicable a cualquiera de los anteriores. Se utiliza frecuentemente en lugar del muestreo aleatorio simple, por la sencillez del procedimiento de seleccin. Para aplicarlo, es necesario elegir aleatoriamente un arranque, que determina el primer elemento de la muestra (sea el elemento a) y luego, sin efectuar nuevas selecciones al azar, se incorporan a la muestra los elementos a + k, a + 2k, a + 3k, etc. Ese nmero k se denomina intervalo de muestreo y est determinado por la relacin entre N (tamao de la poblacin) y n (tamao de la muestra): k =

N n

. El primer

nmero aleatorio seleccionado (a) deber ser menor o a lo sumo igual a k. Por ejemplo, si de una poblacin que contiene 2120 elementos, se desea extraer una muestra de 50, calcula k = 2120/50= 42.4; el entero ms prximo es 42, luego la primera unidad muestreada ser un nmero aleatorio comprendido entre 1 y 42; sumando sucesivamente 42 al nmero de arranque, se van determinando los restantes elementos de la muestra, hasta completar los 50. Por el problema del redondeo de k, lo nico que puede ocurrir es que, segn el arranque, a veces resulte una muestra en

69

Ctedra I Estadstica II Autor I Hebe Goldenhersch

la que falte un elemento, en cuyo caso se agrega otro seleccionado volviendo al comienzo del listado como si se tratara de una continuacin del mismo proceso de seleccin. Se cuestiona al muestreo sistemtico por el hecho de no permitir el clculo de la varianza de los estimadores, puesto que se hace slo una seleccin al azar; es algo as como efectuar un muestreo por conglomerados seleccionando slo un conglomerado, ya que al elegir el primer elemento de la muestra, quedan automticamente determinados todos los dems, que formaran junto con ese primer elemento, un conglomerado. Para obviar este cuestionamiento a veces se seleccionan dos puntos de arranque, y a partir de cada uno la mitad de la muestra. La gran ventaja del mtodo es asegurar una muestra bien repartida a lo largo de toda la poblacin; por ejemplo, si se trata de seleccionar una muestra de clientes de un archivo que est ordenado por antigedad, se obtendr una muestra con clientes correspondientes a los diferentes perodos de tiempo. En cambio, se genera un problema importante de sesgo en la muestra, que puede llegar a invalidarla por completo, si existiera algn ordenamiento en la poblacin con una cierta periodicidad; peor si sta coincide con el nmero k o algn mltiplo de k. Por ejemplo, si se seleccionan das de la semana para una estimacin de alguna caracterstica de las ventas diarias en un supermercado, y el nmero k resulta igual a 14, si el punto de partida es 2 (da martes), todos los elementos de la muestra sern martes y sta no ser representativa del total de los das sino de los martes; si se estn seleccionando personas de un listado que contiene sucesivamente todos los miembros de cada hogar, y k es igual a 5, como hay muchas familias con cinco personas, si el punto de arranque es por ejemplo 1, es posible que la muestra est integrada por muchos jefes de hogares, etc. Se puede comprender as que el orden en que estn los elementos de la poblacin, tiene importancia para la muestra sistemtica, y esta situacin se refleja en la varianza del estimador de la media poblacional, ya que sta es diferente segn el orden en que estn los elementos de la poblacin. Aunque no lo probamos en este texto, es posible establecer que en promedio (es decir la esperanza de la varianza de los estimadores) para todos los rdenes posibles, la varianza del estimador del muestreo sistemtico coincide con la del muestreo aleatorio simple; pero en cada realizacin particular nada puede decirse de esta varianza. La sencillez de este mtodo de seleccin, no obstante, determina que sea muy utilizado, pero es recomendable slo cuando se tiene la certeza de aleatoriedad en el orden de los elementos de la poblacin (que no exista periodicidad alguna) por ejemplo, un listado de empresas por orden alfabtico, un listado de hogares siguiendo las manzanas, etc. En ese caso la varianza del estimador se calcula como en el muestreo aleatorio simple, a pesar de algunas objeciones que suelen realizarse a raz de que estrictamente no es posible calcular la varianza del estimador. En los muestreos de reas, resulta interesante la aplicacin del muestreo sistemtico acompaando a un muestreo por conglomerados en dos o ms etapas, seleccionando en la primera los conglomerados con probabilidad proporcional al tamao y en los siguientes un nmero igual a cada conglomerado. Desarrollaremos un ejemplo, que resulta ilustrativo de la forma de aplicar este mtodo y sus ventajas.

70

Ctedra I Estadstica II Autor I Hebe Goldenhersch

El cuadro siguiente, (cuyos datos tambin se usarn en el ejercicio nmero 2) presenta la distribucin del nmero de amas de casa por manzana, en una ciudad en la que, para desarrollar este ejemplo, suponemos que hay solamente 10 manzanas, en las que existen 619 hogares. En la tercera columna se observan las frecuencias acumuladas, y en la cuarta el rango de nmeros aleatorios que se asigna a cada manzana para la seleccin de la muestra. Se trata de seleccionar una muestra de 30 amas de casa en la ciudad; se cuenta con el listado de la cantidad de hogares (y se supone que tambin de amas de casa - o por qu no amos de casa?) que hay en cada manzana. Supongamos tambin, por tratarse de un ejemplo, que para aplicar el mtodo que comentamos, se elegirn al azar 3 manzanas4/ y en cada una de ellas 10 hogares. Estamos en este caso aplicando el mtodo de seleccin sistemtica por conglomerados, en dos etapas con probabilidad proporcional al tamao en la primera etapa e igual en la segunda. El ttulo es largo, pero el desarrollo del ejemplo permitir comprender que no es tan complicado, y se trata de un mtodo muy adecuado cuando se debe tomar una muestra del tipo personas en una ciudad, seleccionando, nios en una regin para ello se necesita seleccionar manzanas en lugar de personas, escuelas en lugar de nios en la primera etapa y luego en cada manzana elegida se seleccionan hogares y personas al azar y en cada escuela elegida se seleccionan nios al azar. Se trata de un mtodo que otorga probabilidades iguales a todos los elementos de la poblacin. Manzana 1 2 3 4 5 6 7 8 9 10 N de amas de casa 62 55 49 71 70 69 58 74 57 54 N de amas de casa acum. 62 117 166 237 307 376 434 508 565 619 rango de nros. Aleatorios 1 a 62 63 a 117 118 a 166 167 a 237 238 a 307 308 a 376 377 a 434 435 a 508 509 a 565 566 a 619

Para elegir las tres manzanas al azar con probabilidad proporcional al tamao se asignan a cada manzana tantos nmeros como lo indique su tamao: cuando seleccionemos un nmero al azar, la manzana que tiene ms nmeros, tendr mayor probabilidad. En general podemos decir que, la probabilidad de elegir la manzana i-sima, si son w las manzanas a seleccionar es igual a

w Mi N

siendo

Mi

el tamao de la manzana i-sima (nmero de hogares que contiene y N el

nmero total de hogares en la ciudad). En una segunda etapa, se eligen al azar un nmero fijo y constante de hogares en cada una de las manzanas seleccionadas (m por ejemplo). Luego, la probabilidad de un hogar de la manzana i-sima de estar incluido en la muestra es

m Mi :

un hogar de una manzana pequea que haya

cado en la muestra, tiene una alta probabilidad de ser seleccionado en la segunda etapa -esa manzana tuvo una baja probabilidad de ser elegida- y viceversa:

4/

En la prctica, es siempre conveniente elegir no menos de 20 conglomerados en la primera etapa a fin de evitar el problema que causara la homogeneidad interna que suelen tener los conglomerados en una muestra con un pequeo nmero. Por ejemplo, al seleccionar manzanas, la situacin ideal sera que stas fueran muy heterogneas (que tuvieran la variabilidad de la poblacin); ello en general no es as: los hogares de una manzana en particular suelen ser bastante parecidos, y para tener una representatividad de toda la poblacin es necesario seleccionar muchas manzanas. Esto se explica tambin revisando las frmulas que hemos presentado para los errores estndar en el muestreo por conglomerados.

71

Ctedra I Estadstica II Autor I Hebe Goldenhersch

un hogar de una manzana grande, que tuvo una alta probabilidad de estar en la muestra, tendr una pequea probabilidad de ser elegido en la segunda etapa. La probabilidad conjunta, que en definitiva es la probabilidad de cada hogar de formar parte de la muestra es el producto de ambas probabilidades:

p (h) = w M i N . m M i y simplificando: p(h) = w. m N


y esta probabilidad es idntica para todos los hogares, cualquiera sea la manzana a que pertenece. Como se trata de aplicar el mtodo de seleccin sistemtico para las manzanas, se procede de la siguiente manera: se divide N (total de hogares, 619 en este caso) por la cantidad de manzanas conglomerados- a elegir, y as se obtiene un intervalo de seleccin.

k=N w
En este ejemplo, k = 619/3 = 206,3; es decir que debe elegirse un hogar cada 206. Se toma manzana muestra. manzana un nmero al azar entre 1 y k (entre 1 y 206) y se observa a qu corresponde el nmero elegido; sa ser la primera manzana de la Supongamos que el nmero elegido al azar fue el 128, corresponde a la nmero 3. Se suma al 128 el intervalo de seleccin (206) y resulta:

128 +206 = 334; corresponde a la manzana nmero 6 y por ltimo: 334 + 206 = 540 y se trata de la manzana nmero 9. De cada una de las tres manzanas seleccionadas, se eligen al azar 10 hogares y as se obtienen los 30 requeridos para la muestra. Es necesario diagramar un mtodo que garantice la aleatoriedad en la eleccin de los hogares dentro de las manzanas; por ejemplo, numerarlos a todos, determinar el intervalo de seleccin dentro de la manzana, buscar un punto de partida (por ejemplo la segunda casa empezando de la esquina Noroeste), y luego ir dando la vuelta a la manzana seleccionando uno de cada tantos hogares hasta completar los 10 necesarios. A continuacin le proponemos las siguientes Actividades: Actividad 1: El nmero de cuentas atrasadas en su pago es un motivo importante de preocupacin para una ferretera industrial que ofrece crdito a sus clientes. El auditor contratado por esta empresa considera que, para realizar su trabajo, debe examinar 15 cuentas entre las incluidas en el fichero de cuentas por cobrar. a) Seleccione las cuentas utilizando muestreo aleatorio simple. b) Seleccione las cuentas utilizando muestreo sistemtico. c) Estratifique la poblacin segn el nivel de atraso y seleccione las cuentas utilizando los tres criterios de afijacin. d) Obtenga el saldo promedio, en cada una de las muestras. e) Obtenga la proporcin de cuentas con atraso de ms de 60 das, en cada una de las muestras. f) Comente lo obtenido en d) y e). g) A partir de las tres muestras, construya intervalos de confianza a un nivel del 95% para los parmetros de inters. Son los mismos intervalos? Compare con los verdaderos valores poblacionales. h) Compare la precisin de ambos estimadores, en los tres mtodos de muestreo.

72

Ctedra I Estadstica II Autor I Hebe Goldenhersch

Fichero de cuentas por cobrar


Cta. N 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 Atraso (en das) 35 38 62 75 122 69 75 88 87 69 93 99 110 35 35 45 48 73 65 52 48 59 67 62 38 46 95 108 125 75 58 39 59 51 Saldo (en $) 136 216 520 318 180 250 235 345 260 185 285 310 430 605 310 60 155 190 425 75 315 240 209 178 313 152 858 130 416 144 320 210 275 540 Cta. n 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 Atraso (en das) 78 65 38 53 49 78 110 150 48 79 56 60 72 83 60 31 49 52 57 98 74 71 48 53 61 65 79 60 85 35 38 60 92 95 Saldo (en $) 350 560 365 125 312 165 360 450 235 190 345 240 389 80 205 215 146 173 235 220 600 605 135 160 325 290 302 250 280 235 560 320 305 160 Cta. n 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 Atraso (en das) 60 32 85 69 74 113 93 84 73 68 92 100 114 50 43 48 55 59 35 61 33 49 90 93 108 36 43 55 62 74 86 93 104 116 Saldo (en $) 255 204 120 403 265 322 602 233 85 162 165 483 342 290 95 338 710 155 115 200 450 245 260 530 200 216 195 395 126 250 405 196 260 185

Actividad 2: Una agencia de publicidad que asesora a una empresa que vende artculos para el hogar desea conocer la cantidad mensual que gastan las amas de casa de una ciudad en revistas y peridicos, para aconsejar el medio de publicidad ms conveniente. Se cuenta con los siguientes elementos: No existe una lista de amas de casa. La ciudad en cuestin consta de 100 manzanas.

a) Qu tipo de muestreo aplicara en este caso y cmo seleccionara la muestra? b) Suponiendo que se entrevistan a amas de casa de 10 manzanas y se les pregunta sobre lo que gastan en revistas y peridicos (los datos estn a continuacin), qu cantidad promedio mensual gastan?, cul es la proporcin de amas de casa que no compran revistas y peridicos? Manzana
1 2 3 4 5 6 7 8 9 10

N de amas de casa
62 55 49 71 70 69 58 74 57 54

Gtos. Totales (en $)


38,00 51,70 48,00 61,30 54,00 40,30 55,50 48,60 45,00 39,50

N de amas de casa que no compran


18 16 12 20 20 20 17 25 10 10

73

Ctedra I Estadstica II Autor I Hebe Goldenhersch

Actividad 3: Se sabe que en la zona sur de nuestra provincia un determinado forraje es almacenado en tres tipos de silos diferentes. Los datos de la siguiente tabla se obtuvieron de la Federacin Agraria local: Tipo de silo
I II III

Cantidad de silos
150 500 180

h (en tn.)
6,70 8,30 3,00

Se desea estudiar la capacidad de almacenaje de cada uno de los tres tipos de silos, para lo cual se tomar una muestra de tamao 96. Calcule y compare los nh utilizando afijacin: 1- Igual 2- Proporcional 3- ptima

Actividad 4: Una empresa de turismo entrega una encuesta de evaluacin a todos sus clientes que contratan el paquete de excursin a Europa, la que espera sea entregada al finalizar el viaje. El objetivo de dicha encuesta es conocer el perfil de su clientela y la opinin sobre la calidad del servicio que ofrece. a) Indique la poblacin objeto de estudio. b) Cuenta con un marco muestral completo? c) Hay alguna diferencia entre ambos? (poblacin y marco muestral). Actividad 5: Se pretende estudiar el nivel de asistencia de los legisladores a las sesiones del Congreso. En la oficina de Personal es posible solicitar un listado de los mismos, ordenados alfabticamente. Por otra parte, y debido a que las elecciones han sido recientemente, se dispone de una tabulacin que los clasifica por sexo y partido poltico al que representan. Indique cmo aplicara a esta situacin el muestreo aleatorio simple, el sistemtico y el estratificado. De qu depende la aplicacin de uno u otro? Actividad 6: En cada una de las siguientes situaciones de investigacin, discuta el mtodo de muestreo ms conveniente. El Ministerio de Salud de nuestra provincia est pensando en establecer una reglamentacin que permita a las grandes cadenas de supermercados vender medicamentos de venta libre. Antes de tomar una decisin, desea conocer la opinin de los titulares de farmacias y de las grandes cadenas de supermercados. Se desea realizar una encuesta referida al hbito deportivo de los alumnos del ltimo ao de los colegios secundarios (privados y no privados) del pas. Una mquina determinada, debido al desgaste que se produce en una de sus piezas por el trabajo que la misma realiza, obliga al operador a realizar ajustes cada 20 piezas. El gerente de control de calidad est pensando en obtener las muestras en base al muestreo sistemtico, considera adecuado este procedimiento para el caso? Un pas tiene 540 municipalidades de menos de 1000 habitantes, y desea obtener una muestra al azar de 25 municipalidades para estudiar los hbitos alimenticios de sus pobladores. En la situacin anterior, una vez obtenida la muestra y dado el nmero de habitantes de las municipalidades seleccionadas, ante la imposibilidad de encuestarlos a todos se ha decidido elegir en cada pueblo una de cada diez familias; y dentro de cada familia, uno de sus miembros mayor de 16 aos. El Ministerio de Educacin de la Nacin desea conocer las razones de la

74

Ctedra I Estadstica II Autor I Hebe Goldenhersch

duracin real de las distintas carreras que se dictan en el mbito de la Universidad Nacional de Crdoba, la cual es bastante mayor a la duracin terica establecida en los planes de estudio. Para conocer las opiniones de los egresados, se tomar una muestra de los graduados en los ltimos dos aos en esa casa de estudios. La Cmara de Administradores de Propiedad Horizontal desea consultar a los habitantes de este tipo de propiedades sobre la conveniencia de contratar un servicio de seguridad durante las 24 hs. del da.

Se comentan someramente en este punto otros modelos de muestreo que son de aplicacin especialmente en Auditoria (aunque no de forma excluyente). Si bien los estudiantes an no han cursado esta asignatura del rea contable, es importante que conozcan las posibilidades de aplicacin de los mtodos de muestreo a esta rama tan importante de la contabilidad. La aplicacin del muestreo y por ende de la inferencia estadstica, permite disminuir significativamente los costos del trabajo del auditor en una gran cantidad de casos. Al retomar este tema en la materia especfica (Auditoria), podrn recurrir a bibliografa ampliatoria especialmente dedicada al mismo. La mayora de los mtodos desarrollados en este Captulo son de aplicacin en las tareas del auditor: puede necesitar un muestreo de variables, cuando se trata de estimar medias, totales o varianzas (por ejemplo monto promedio de errores en los saldos de cuentas por cobrar, valor total de un inventario); ms frecuentemente se requiere utilizar el llamado muestreo por atributos, refirindose a los casos en que se desean estimar proporciones (por ejemplo, proporcin de defectos en un lote de comprobantes). Como en general las aplicaciones del muestreo a esta disciplina son iguales a las que se realizan en cualquier otro campo, nos limitaremos a dos casos en los que el objetivo y la tcnica son diferentes a las explicadas anteriormente: nos referimos al muestreo de parar o seguir y al muestreo de descubrimiento, y por ltimo una breve introduccin al muestreo de aceptacin. 6.1. El muestreo de parar o seguir Este es un modelo especial para el muestreo de atributos, con una caracterstica particular: permite a veces realizar la estimacin deseada con una muestra bastante menor a la necesaria segn la frmula que determina el tamao de muestra (n) para estimar una proporcin. (Revisar el punto 7 del Captulo anterior). La principal ventaja es el sustancial ahorro de tiempo por la posibilidad de tomar una decisin con muestras ms pequeas, y el principal inconveniente es que el mtodo no permite una estimacin puntual o por intervalos de p, sino que concluye en una afirmacin del tipo: con los resultados obtenidos, se puede afirmar con un determinado nivel de confianza, que p no supera cierto valor. Se incluye a continuacin parte de una tabla para este tipo de muestreo5/. La tabla contiene las probabilidades de que la tasa de error (proporcin) no supere a la de cada columna, cuando en la muestra del tamao indicado en el margen izquierdo (en una poblacin de tamao N), se han encontrado 0 errores, o un error, o dos errores, etc. El procedimiento calcula las probabilidades con la distribucin hipergeomtrica (muestreo sin reemplazo).
5/

Departamento de Auditora interna de Lockheed Aircraft Corporation: Manual de Muestreo para Auditores - (Centro de Estudios Monetarios Latinoamericanos) - Mxico 1970 - pg. 77 Reproducido en Ramos Hugo Oscar: Muestreo a la Auditora (Notas de Ctedra - Asoc. Coop. FCE) 1994.

75

Ctedra I Estadstica II Autor I Hebe Goldenhersch

Tamaos de muestra para el muestreo de suspensin o continuacin. Probabilidad de que la tasa de error en tamao de universo de 2000 sea menor de:
Tamao de la muestra examinada 50 Nmero de errores hallados 0 1 2 3 4 0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 10 11 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

1% 39.50

2% 63.58

3% 78.19

4% 87.01 59.95

5% 92.31 72.06

6% 95.47 81.00 58.38

7% 97.34 87.35 68.92

8% 98.45 91.73 77.40 57.47 99.71 97.93 92.60 82.10 66.80

9% 99.10 94.60 83.95 66.97 99.86 98.92 95.72 88.53 76.61 61.06 99.99 99.91 99.52 98.27 95.26 89.55 80.60 68.72 55.06 100.00 99.98 99.90 99.60 98.61 96.42 92.26 85.57 76.21 64.70 52.06 100.00 100.00 99.99 99.95 99.81 99.41 98.45 96.50 93.04 87.65 80.13 70.66 59.82

70

50.52

75.69

88.14 62.47

94.26 77.51 53.44

97.24 87.03 68.63

98.69 92.81 79.87 61.15

99.38 96.10 87.59 73.07 54.77

100

63.40

86.74 59.67

95.25 80.54 58.02

98.31 91.28 76.79 57.05

99.41 96.29 88.17 74.22 56.40

99.80 98.48 94.34 85.70 72.32 55.93

99.93 99.40 97.42 92.56 83.68 70.86 55.57

99.98 99.77 98.87 96.33 90.97 82.01 69.68 55.29

120

70.06

91.15 69.46

97.41 87.82 70.16

99.25 95.53 86.28 71.13 52.67

99.79 98.45 94.25 85.56 72.18 55.85

99.94 99.48 97.75 93.40 85.27 73.23 58.50

99.98 99.83 99.17 97.19 92.83 85.23 74.26 60.81

100.00 99.95 99.71 98.87 96.75 92.47 85.35 75.25 62.85

150

77.86

95.17 80.39 57.91

98.96 94.15 83.07 66.16

99.78 98.41 94.16 85.42 72.04 55.76

99.95 99.60 98.19 94.52 87.44 76.56 62.71

99.99 99.90 99.48 98.14 95.01 89.17 80.16 68.34 54.84

100.00 99.98 99.86 99.42 98.20 95.52 90.66 83.12 72.98 60.93

100.00 100.00 99.96 99.83 99.40 98.31 96.03 91.94 85.58 76.85 66.16 54.32

180

83.62 53.84

97.37 87.69 70.01

99.58 97.27 90.86 79.10 63.01

99.94 99.45 97.65 93.20 84.99 72.95 58.32

99.99 99.90 99.46 98.10 94.93 89.05 80.02 68.21 54.77

100.00 99.98 99.89 99.52 98.50 96.21 91.93 85.15 75.79 64.37 51.90

100.00 100.00 99.98 99.89 99.60 98.84 97.16 94.03 88.92 81.58 72.13 61.13

100.00 100.00 100.00 99.98 99.90 99.68 99.11 97.88 95.57 91.72 86.00 78.32 68.91 58.33

100.00 100.00 100.00 100.00 99.98 99.92 99.75 99.32 98.42 96.70 93.81 89.38 83.21 75.33 66.03 55.86

10% 99.49 95.68 88.83 74.97 56.88 99.94 99.45 97.58 92.88 84.12 71.28 55.82 100.00 99.97 99.81 99.22 97.63 94.24 88.28 79.40 67.91 54.87 100.00 100.00 99.97 99.84 99.44 98.40 96.78 92.16 85.86 77.14 66.39 54.45 100.00 100.00 100.00 99.99 99.95 99.81 99.44 98.60 96.93 94.00 89.40 82.91 74.55 64.70 53.98 100.00 100.00 100.00 100.00 100.00 99.98 99.93 99.80 99.49 98.82 97.55 95.37 91.96 87.06 80.57 72.59 63.44 53.63

Fuente: Vase Cuadro B.1.

Supngase que la tasa de error (proporcin poblacional) mxima tolerada fuera de 0.03 (columna encabezada por 3%), y que el nivel de confianza deseado sea del 95%. Pensando que no se encontrar ningn error, se toma una muestra de 100. Si se observa la interseccin de la fila correspondiente a 100 y 0 error en la muestra, con la

76

Ctedra I Estadstica II Autor I Hebe Goldenhersch

columna del 3% se encuentra el nmero 95.25. Este nmero es (expresado como porcentajes), la probabilidad de no encontrar ningn error en una muestra de 100, tomada de una poblacin de 2000, siendo la proporcin poblacional del 0.03 (3%). La probabilidad se calcul con la distribucin hipergeomtrica:

x n-x n P(N, k, n, x) = C . C CN k N-k P(2000, 60, 100, 0) = 0, 044


Esta es la probabilidad de obtener exactamente cero errores en las condiciones explicadas. Por lo tanto, la probabilidad de obtener uno o ms sera el complemento 0,956. Si no ocurri ningn error, y la probabilidad de obtener uno o ms es tan elevada, la conclusin es que la tasa (proporcin) de errores en la poblacin es menor al 3%. En realidad, el nmero que aparece en la tabla es algo menor (0,9525) porque el clculo es ms complicado: se realiza acumulando los valores de la distribucin hipergeomtrica, para obtener 0 errores con el 0,03 o menos de proporcin poblacional; entonces el resultado es algo mayor a 0,044 y su complemento resulta 0,9525. Como las tablas ya estn construidas, no es necesario que el auditor realice los clculos, sino que comprenda cmo se lleg a esos nmeros. Recapitulando: se prev que el porcentaje de errores en la poblacin no debe superar el 3%; se toma una muestra de 100, suponiendo que no se encontrarn errores en la muestra, y en ese caso el nivel de confianza ser suficientemente alto como para sostener efectivamente, la proporcin de errores en la poblacin no supera al 0,03 (qu pasara si hubiera tomado una muestra de 70; al no encontrar ningn error, el nivel de confianza para realizar esa afirmacin, sera suficiente?). Continuamos: si en la muestra de 100 se encuentra un error, entonces el nivel de confianza para afirmar efectivamente, la proporcin de errores en la poblacin no supera al 0,03 es 80,545% (no llega al 95% deseado); entonces hay que ampliar la muestra (seguir). En la tabla puede observarse que 120 tampoco es suficiente habiendo encontrado un error (se siguen contando los errores a partir de los ya obtenidos, no se comienza de nuevo); hay que llegar hasta n = 180, nivel para el cual se supera el 95% de confianza. Si se encuentra en el camino otro error, hay que aumentar ms la muestra Pero la frmula para calcular el tamao necesario para estimar p, si la proporcin poblacional es de 0,03, con un 95% de confianza y un error de estimacin mximo del 0,01, es de 1.118 casos; advirtase el ahorro que significa aplicar este mtodo. Un uso alternativo de esta misma tabla, es el que puede hacerse habiendo elegido un tamao de muestra (por ejemplo 150), y encontrado en ella cierto nmero de errores (por ejemplo 2), moverse hacia la derecha por la fila del 2, hasta encontrar un nivel de confianza suficiente y luego mirar el encabezamiento de la columna correspondiente lo que permite afirmar cul es la tasa mxima de errores que existe en la poblacin en cuestin. En este caso, el primer nivel de confianza que supera al 95% es el que corresponde a un 5% de errores (98,19% de confianza). Puede afirmarse entonces, con un 98,19% de confianza que la proporcin de errores en la poblacin no supera el 0.05. Observen que no se ha estimado la proporcin de errores, ni en forma puntual ni por intervalos, pero s se ha establecido una cota mxima para esa proporcin, lo que a veces es suficiente para los objetivos del trabajo, y esto se ha realizado con un tamao de muestra mucho menor que el requerido para estimar p. Actividad 7: Se desea controlar, de un universo de 2.000 rdenes de pago, si las mismas estn respaldadas por sus correspondientes facturas. Para ello se establece que: El nivel de confianza deseado es del 95%. La tasa mxima admitida de ocurrencia de este tipo de problema es del 0,03.

a) Qu tamao de muestra inicial deber tomarse, suponiendo que no se encontrarn comprobantes sin su correspondiente factura?

77

Ctedra I Estadstica II Autor I Hebe Goldenhersch

b) Si tomada la muestra inicial, se encuentra un comprobante con esa irregularidad en cunto deber ampliarse la muestra para satisfacer los requerimientos planteados? c) Concluye all el proceso de muestreo o debe continuar? Actividad 8: Suponga que de una poblacin de 2.000 comprobantes se extrae una muestra sin reemplazo de 120 y se encuentran 3 con algn tipo de error. Con qu nivel de confianza puede afirmar que el porcentaje de errores en el universo no supera a: a) 4%, b) 7%, c) 10%?

6.2. El muestreo de descubrimiento Este tipo de muestreo permite determinar un tamao de muestra adecuado para solucionar el siguiente problema: cuando la existencia de unos pocos errores o irregularidades en la poblacin implican la existencia de un fraude o de una situacin muy peligrosa, es importante determinar de qu tamao hay que elegir la muestra para que exista una elevada probabilidad de que, si existen ese tipo de irregularidades en la poblacin, una de ellas aparezca en la muestra. De esta manera, si en la muestra ocurre ese evento, esto implica la iniciacin de una investigacin en profundidad, y si no ocurre, hay un alto grado de confianza en que dichas irregularidades no estn ocurriendo. Por ejemplo, se sospecha que algunos crditos en un banco se estn otorgando sin las garantas correspondientes; se elegir una muestra del tamao indicado por el modelo, y si en esa muestra aparece una carpeta sin la garanta correspondiente, habr que revisar todas las carpetas; si. no aparece ninguna, existe una elevada probabilidad (confianza) que tal irregularidad no est ocurriendo. Nuevamente, como en el caso anterior, no interesa al auditor estimar la tasa (proporcin) de ocurrencia del evento, sino asegurarse (o casi asegurarse ya que se trabaja con muestras) que dicha tasa no supera cierto lmite crtico previamente establecido. De igual modo, se utiliza la distribucin hipergeomtrica, con la cual es necesario calcular la probabilidad de que si en la poblacin la tasa de ocurrencia supera a un cierto lmite, en la muestra aparezca por lo menos un error. El clculo es bastante engorroso, pero existen las tablas con los resultados necesarios. Adems, se ha desarrollado una frmula que simplifica notablemente el clculo aproximado del tamao adecuado de muestra para solucionar el problema. Esta frmula es la siguiente6/:

n = N (1 k 1 p ) (5)
donde n es el tamao necesario de muestra, N el de la poblacin, k el nmero de errores en la poblacin correspondiente a la tasa mxima aceptable (a partir de la cul se considera posible la existencia de fraude o hecho irregular) y p el nivel de confianza (expresado como la probabilidad de que en la muestra, si el problema existe, aparezca por lo menos un caso). Debido a la sencillez de aplicar esta frmula, consideramos innecesario incluir las tablas. Ejemplo: en una gran empresa, que tiene 5000 empleados, se sospecha que se estn pagando sueldos a personas inexistentes. Se entiende que pueden existir errores en la nmina mientras no se supere el tres por mil del total. Ms all de esta cantidad (15 casos) se entender que existe una irregularidad grave y ser necesario investigar las
6/

Departamento de Auditora Interna de Lockheed Aircraft Corporation - Op. Cit. pg. 114 - La frmula para n est despejada en Ramos Hugo O. (op. cit) pg. 25).

78

Ctedra I Estadstica II Autor I Hebe Goldenhersch

responsabilidades correspondientes. De qu tamao debe tomarse la muestra y cmo se interpretar el resultado si a) no aparece ningn hecho irregular, b) aparece uno ms casos irregulares? La aplicacin de la frmula (5) conduce a:
n = 5000(1 - 15 1 - 0, 95) = 905 Luego, deben seleccionarse al azar 905 empleados de la nmina; si no aparece ningn caso irregular, es decir ningn sueldo pagado a un empleado inexistente, el auditor concluye con un 95% de confianza que no se est cometiendo el fraude sospechado; si aparece uno o ms errores, el problema existe y ser necesario realizar una investigacin en profundidad revisando todos y cada uno de los salarios pagados.

Actividad 9: Se desea conocer, sobre una carpeta de 2.000 crditos de un banco, si se ha otorgado alguno sin su correspondiente garanta. Se cree que la tasa mxima de ocurrencia de este tipo de error es de 1%.
a) Trabajando con un nivel del confianza del 99%, determine la cantidad de crditos que se debern muestrear para satisfacer los requerimientos. b) Si en dicha muestra no se encontraran crditos sin garanta, cul es la probabilidad de que la tasa mxima de error en la poblacin sea menor a: 1) 0,5%? 2) 1,5%? Para resolver este punto es necesario contar con las tablas citadas en el pie de pgina nmero 6Pg. 77.

6.3. Breve nota acerca del muestreo de aceptacin


El muestreo de aceptacin, consiste en un modelo por el cual se determina un tamao de muestra a seleccionar en cada lote en que se ha organizado la poblacin (lotes son por ejemplo una archivo de comprobantes, caja, cajn de mercaderas, el trabajo diario de un empleado, etc.). Se determina un tamao de muestra, un nmero de aceptacin (que se llamar c) y una regla de decisin: si en la muestra aparecen menos de c errores o defectos, el lote es aceptado sin mayor revisin, y existe una elevada probabilidad de que efectivamente sea aceptable dentro de lmites de calidad establecidos. Si en la muestra aparecen c o ms errores, el lote es rechazado y por lo tanto debe ser revisado en su totalidad para corregir los errores, existiendo tambin una probabilidad pequea de cometer el error consistente en que los lotes aceptables por su calidad sean rechazados y sometidos a revisin total. Existen modelos alternativos, llamados de muestreo doble, mltiple o secuencial, que suelen resultar ms eficientes para solucionar el mismo problema planteado en el muestreo de aceptacin, pero se procede por etapas que pueden ser dos (muestreo doble), un nmero fijo mayor que dos (mltiple) o un nmero indeterminado de etapas (secuencial). En estos casos, debe seleccionarse una muestra bastante ms pequea que la indicada para el caso de aceptacin en una sola etapa, y de acuerdo al nmero de errores o defectos encontrados en esa primera submuestra, puede decidirse en ese momento si se acepta o rechaza el lote (parar el muestreo), o si hay que tomar otra submuestra para llegar a la decisin (seguir con el proceso de muestreo). En estos casos, la reduccin de costos suele ser sustancial porque las submuestras son pequeas y en muchos casos se adopta la decisin a partir de una primera o segunda submuestra, sin necesidad de llegar al tamao total de la muestra. Con este tema hemos terminado esta breve revisin de los mtodos de muestreo. En el Captulo III retomaremos la aplicacin de los mtodos de Inferencia Estadstica, encarando los procedimientos llamados de Prueba, Test o Contraste de hiptesis.

79

Ctedra I Estadstica II Autor I Hebe Goldenhersch

80

Ctedra I Estadstica II Autor I Hebe Goldenhersch

Muestras no probabilsticas (No se conocen las probabilidades de cada individuo o elemento de ser incluido en la muestra)

Muestras probabilsticas (Todos los individuos o elementos tienen una probabilidad conocida de sus incluidos en la muestra) No necesariamente todos los individuos tienen igual probabilidad de darse en la muestra
Estratificada

Todos los individuos tienen igual probabilidad de darse en la muestra

Cuotas

Intencional

Casual

Conglomerados No proporcional Proporcional

Sistemtica

Muestra simple al azar

Cada entrevistador debe entrevistar una cierta cuota de individuos de cada categora (por ejemplo hombres y mujeres).

Seleccionar casos tipicos del universo segn el criterio de un experto.

Entrevistar los indivi- 1. Dividir el universo en distintos grupos o duos hasta un cierto cluster. nmero de forma casual (por ejemplo los 2. Seleccionar primero que pasen por una que cluster deben constituir la mueses quina). tra. 3. Dentro de cada cluster, seleccionar los individuos de la muestra de modo aleatorio. 1. dem muestreo simple al azar.

1. dem, proporcional. 1. Dividir el universo en 1. Hacer una lista com- 1. Hacer una lista completa del universo. 2. Asignar un nmero a cada individuo del 2. dem, proporcional. estratos internapleta del universo. 3. Las fracciones en mente homogneos. 2. Seleccionar el primer universo. cada estrato deben 2. Seleccionar dentro de individuo a travs de 3. A travs de una tabla de nmeros aleatorios o ser distintas segn cada estrato indi un mtodo aleatorio. procedimiento similar seleccionar un nmero las necesidades. viduos de modo alea 3. Seleccionar a cada ide individuos que van a constituir la muestra. torio. simo individuo a 3. Las fracciones de partir del 1 selecmuestra, en cada es cionado (por ejemtrato, son proporcioplo, cada dcimo individuo). nales. 1. dem que para los dos anteriores. 2. Posibilita mejor cono cimiento de grupos pequeos en el universo. 1. Si los estratos son homogneos ceteris paribus, hace posible una muestra me nor y mayor economa. 1. Exige tratamientos estadsticos algo complejos. 2. Dificultad para identi ficar estratos homogneos. Mnimas. 1. dem que para los 1. Para la muestra simdos anteriores. ple al azar. 2. Garantiza representatividad. 3. Elimina errores entre estratos. 1. dem que para la 1. Mayor facilidad en muestra sistemtica. obtener la muestra. 1. Igual posibilidad de inclusin en la muestra de todos los individuos. 2. Permitir la generalizacin. 3. Proporciona la base para calcular el grado de disparidad entre las medidas de la muestra y del universo. Las que se derivan de no tomar a todo el universo (Comn a toda tipo de muestras).

PROCEDIMIENTOS BSICOS

TCNICAS

VENTAJAS

dem.

dem.

dem.

dem.

Exige personal me- 1. Ahorra dinero sobre nos entrenado y de todo porque permite costo menor. la concentracin de los entrevistadores en reas prximas. 2. Ahorra tiempo. Representa serio obs 1. Exige tratamientos muy tculo a la generaliestadsticos zacin. complejos. 2. Hay prdida de precisin.

ECONMICAS

Mnimas.

Mnimas.

Mnimas.

Mnimas.

1. Puede no proveer un 1. Si hay algn tipo de nmero suficiente de periodicidad en la casos para estra- tos poblacin, el muespequeos. treo es influido por 2. Dificultad para idenl. tificar estratos homo gneos. 1. Costo ms alto que dem. en el muestreo simple y de conglomerado. 2. Alto costo de tiempo.

1. No provee un nmero suficiente de casos de grupos especiales. 2. Puede haber distorsiones en cuanto a su representatividad.

TCNICAS

DESVENTAJAS

1. Alto costo monetario. 2. Alto costo de tiempo.

ECONMICAS

Cuadro tomado de Jorge Padua: Tcnicas de Investigacin Aplicadas en las Ciencias Sociales (F.C.E. Mxico 1982) (Tiene ligeras modificaciones).

79

También podría gustarte