Está en la página 1de 86

CURSO DE MUESTREO PROBABILISTICO PARA ENCUESTAS

Francisco Snchez Villarreal. Facultad de Ciencias UNAM 2010

Introduccin al Muestreo Probabilistico

1. GENERALIDADES 1.1 Introduccin.


La recoleccin de informacin mediante encuestas sobre diversos fenmenos sociales, econmicos y polticos se ha popularizado notablemente en todo el mundo. Revistas y peridicos publican diariamente resultados de sondeos de opinin sobre diversos temas de actualidad. Los planificadores y evaluadores de programas educativos, econmicos y de salud pblica recurren a la encuesta como instrumento fundamental. Los investigadores de mercados y publicistas aplican encuestas para medir la aceptacin del pblico a un nuevo producto o medir el impacto de una campaa publicitaria. En poca de elecciones, instituciones de diversa orientacin poltica realizan encuestas predictivas del voto, encuestas a la salida de las casillas y conteos rpidos sobre resultados electorales. Los organismos responsables de las estadsticas de fenmenos demogrficos y macroeconmicos complementan la informacin recolectada a partir de censos o registros administrativos con datos de encuestas por entrevista directa, telefnicas, sitios de Internet. En las encuestas se utilizan diversas metodologas de muestreos probabilsticos, de cuota o intencionales y ello ha dado origen tambin a el abuso de prcticas inadecuadas que reducen notablemente la confianza del pblico en sus resultados; pero la encuesta, cuyos orgenes se remontan a los de nuestra cultura es un producto desarrollado fundamentalmente en los ltimos 50 aos, ha llegado para quedarse como la mejor alternativa para obtener datos especficos e inmediatos. Las innovaciones tecnolgicas en metodologas de diseo, instrumentos electrnicos para la recoleccin de datos y software mejorado para el proceso de resultados tienden a incrementar el campo de sus aplicaciones.

1.2 Poblacin y Muestra.


El primer paso en la realizacin de una investigacin, consiste en establecer los objetivos que se pretenden alcanzar. Los objetivos se deben plantear tan clara y especficamente como sea posible para establecer los lmites del estudio. Ello permitir hacer una eleccin adecuada del universo que se someter a observacin. Desde el punto de vista del muestreo, se entender por poblacin o universo cualquier coleccin finita de personas u otro tipo de elementos que posean ciertas caractersticas en comn. Los elementos de la poblacin o universo, son las unidades de las que se busca informacin y se determinan en funcin de los objetivos del estudio. Es posible en este sentido hacer referencia a una poblacin de fbricas de artculos electrnicos, de vehculos de carga del autotransporte federal, de predios agrcolas dedicados al cultivo de algodn, etc. La definicin de la poblacin o universo en estudio se debe precisar en trminos de: El Contenido. Es decir, el tipo de elementos constitutivos, por ejemplo: estudiantes, hogares, predios, empresas, etc. La Extensin. Se refiere a las atribuciones geogrficas y/o administrativas asociadas a los elementos, por ejemplo: los estudiantes de la Facultad de Ciencias de la UNAM, las fbricas de prendas de vestir del rea metropolitana de la ciudad de Mxico, los predios ejidales del estado de Puebla, los productores de aguacate del estado de Michoacn, etc. El Tiempo. La mayor parte de las poblaciones presentan cambios funcin del tiempo y una encuesta es una medicin transversal, vigente durante un perodo relativamente corto, por tanto, se debe referir el momento en el que se hace el estudio. Por ejemplo, los estudiantes de la Facultad de Ciencias de la UNAM en el perodo escolar 2007-II, Las fbricas de prendas de vestir del rea metropolitana de la ciudad de Mxico en abril de 2005, etc.

1.3 Definiciones Operacionales.


Francisco Snchez Villarreal Facultad de Ciencias UNAM 1

Introduccin al Muestreo Probabilistico_

Los aspectos de la poblacin que se pretenden medir conducen a la definicin de conceptos y procedimientos de medicin. En este punto se suelen presentar frecuentes discrepancias que no son atribuibles a las tcnicas de muestreo, sino a las bases conceptuales. Los investigadores suelen definir los conceptos en funcin de los intereses y alcances de su proyecto, pero es conveniente hacer algunos comentarios para profundizar un poco en este punto. En 1927 Percy W. Bridgman, fsico norteamericano que obtuvo el premio Novel en 1945, escribi un libro llamado Lgica de la Fsica Moderna en el que propuso que los conceptos se definieran por las operaciones con que se acostumbra medirlos. Segn l, por ejemplo, "el concepto de longitud involucra, ni ms ni menos, al conjunto de operaciones con que se determina la longitud". Significa, por ejemplo, que si medimos algo de dos maneras diferentes, tenemos en realidad dos conceptos diferentes. En los siguientes aos surgieron muchos entusiastas y crticos del "Operacionalismo", como se le llam esta corriente cientfica. Se afirmaba que las definiciones operacionales ayudaran a evitar nociones ambiguas e incluso contradictorias. El campo de aplicacin del operacionalismo trascendi a las operaciones fsicas y se extendi a operaciones lgicas. El operacionalismo ha tenido sus detractores ante los abusos que se puedan hacer en la aplicacin de las definiciones, pero sin duda ha permitido que en el muchos mbitos se puedan definir claramente conceptos, no necesariamente con aceptacin universal, sino solamente en el consenso de un reducido crculo de interesados en los temas de su especialidad. Definir en forma clara y precisa es condicin previa para posteriormente medir. Por ejemplo, si se desea contar el nmero de localidades urbanas en una entidad federativa, antes hay que definir el concepto de localidad urbana. La definicin operacional de localidad urbana utilizada con mayor frecuencia en los medios oficiales: "Localidad urbana es aquella que tiene 2500 habitantes o ms" ha sido motivo de frecuentes discusiones, pues no refleja los aspectos asociados al urbanismo, como son alumbrado, agua potable, drenaje, pavimento, vigilancia, servicios mdicos, servicios educativos, etc. As, una localidad rural con 2,499 habitantes puede cambiar a urbana de un da para otro con el solo nacimiento de un beb. El lector podr percibir la dificultad de definir si intenta definiciones operacionales de conceptos tan familiares como: habitacin, silla, predio, familia, etc. Las discrepancias conceptuales perturban frecuentemente los resultados estadsticos, pero desafortunadamente se responsabiliza a la estadstica y no a las actividades conceptuales.

1.4 Ventajas y Limitaciones del Muestreo.


Los atributos de una muestra se infieren a la poblacin, ello implica un proceso de generalizacin que debe apoyarse en tcnicas estadsticas para tener una medida del error en que se incurre y una garanta de objetividad. El estudio de la poblacin completa (censo), en muchas ocasiones resulta imprctico o costoso y ello obliga al anlisis mediante muestras. Azorn Poch, menciona las siguientes situaciones tpicas en el empleo de muestras: Cuando la poblacin sea tan grande que el anlisis completo o censo exceda las posibilidades econmicas del organismo investigador. Cuando la poblacin presente uniformidad en su definicin y una muestra de tamao adecuado proporcione una buena representacin de la misma y por tanto carezca de sentido examinar la poblacin completa. Cuando el proceso de medida o investigacin de las caractersticas sea destructivo o pueda modificar en alguna forma a las unidades observadas. Por otra parte, se pueden mencionar como las principales ventajas del muestreo, las siguientes:
Francisco Snchez Villarreal Facultad de Ciencias UNAM. 2

Introduccin al Muestreo Probabilistico

Bajos costos. Es evidente que la obtencin de informacin de una fraccin de la poblacin requiere de menores recursos que los necesarios para un censo, pero no es barata. Es importante destacar que la informacin por cualquier mtodo que sea recolectada es un producto caro, de utilizacin limitada y de vigencia muy corta. Poco tiempo. La recoleccin y procesamiento de datos de una fraccin de la poblacin se realiza en menor tiempo. Actualidad de datos. Los datos recolectados a partir de una encuesta proceden de un tiempo cercano a su anlisis y por tanto las conclusiones de ese anlisis tendrn referencias ms actuales de la poblacin. Oportunidad de resultados. Los datos recolectados se utilizan en el momento que son requeridos para su anlisis y evitan retrasos en los procesos de produccin de resultados. Desagregacin ajustada a necesidades. La desagregacin de las estadsticas que se puede lograr a partir de una encuesta puede ser refinada tanto como el investigador lo desee y los recursos disponibles lo permitan. Mejor capacitacin del personal de campo. Las personas que recolectan la informacin para una encuesta pueden ser capacitadas y supervisadas con ms cuidado debido a su reducido nmero y verificados los datos que recolectan. Todo ello se refleja en notables mejoras en la integridad y precisin de los datos recolectados. Ante las ventajas sealadas para el muestreo, es conveniente mencionar tambin sus principales limitaciones: El riesgo que tienen las muestras de sufrir serios desvos o sesgos motivados por metodologas o prcticas de campo inadecuadas y que desde luego se reflejan en las estimaciones de las caractersticas de la poblacin que se desean estimar. Al trabajar con una fraccin de la poblacin no se puede ser concluyente en afirmaciones pues siempre existe la probabilidad de errores de muestreo, aunque esa probabilidad de errores importantes sea baja. La necesidad de personal especializado para disear la muestra, efectuar la aplicacin de cuestionarios y el proceso estadstico de datos.

1.5 El Muestreo Probabilstico.


El procedimiento por el cual se seleccionan elementos de la poblacin, para su incorporacin a la muestra, define el que se trate o no, de un muestreo probabilstico. En un muestreo probablistico, es posible definir el espacio muestral o conjunto de todas las muestras posibles. Adems de que, es posible asociar a cada muestra una probabilidad conocida y distinta de cero de ser seleccionada. Con el fin de evitar posibles sesgos en el proceso de seleccin, se incorporan a ste prcticas de aleatorizacin que hac en independiente del diseador la muestra seleccionada. Finalmente, en el muestreo probabilstico, se define un mtodo de estimacin que proporciona un resultado nico para cada muestra. El desarrollo de la teora de muestreo se refiere al muestreo probabilstico, aunque en la prctica no es la nica alternativa pues tambin se recurre frecuentemente a muestreos intencionales y de cuota, cuya limitante es la frecuente falta de objetividad y el no cumplimiento de los supuestos de las tcnicas de inferencia. Tambin hay que considerar situaciones de riesgo en muestras para ensayos clnicos y entonces la muestra es autoselectiva pues se recurre a voluntarios.
Francisco Snchez Villarreal Facultad de Ciencias UNAM 3

Introduccin al Muestreo Probabilistico_

1.6 El Marco de Muestreo.


A la definicin conceptual de la poblacin objetivo debe corresponder una forma prctica de tener acceso a todos los elementos que la constituyen. En forma simple, la relacin de todos los elementos que integran una poblacin o universo de estudio se le conoce como marco de muestreo. Es frecuente el empleo de marcos que hacen referencia a superficies rurales o urbanas, tales como mapas de terrenos de cultivos o planos de traza urbana de localidades. Estas ltimas formas de marcos se identifican genricamente como marcos rea. La disposicin de marcos adecuados suele ser una problemtica frecuente para el investigador. Los archivos administrativos que usualmente se utilizan como marco de muestreo frecuentemente presentan serias omisiones de elementos de la poblacin objetivo, repeticiones o inclusiones de elementos extraos. Una conducta deseable para el investigador es la de evaluar los problemas que pueda tener un marco mediante la verificacin en campo de los datos que aparecen en los registros administrativos. Idealmente construir especficamente un marco sera la mejor opcin, pero su costo suele estar fuera de los presupuestos.

1.7 Etapas en el Desarrollo de una Encuesta.


La realizacin de una encuesta involucra una serie de actividades de planeacin y organizacin cuya complejidad puede variar notablemente. Por ejemplo, una encuesta de opinin entre los estudiantes de una preparatoria de 1200 alumnos, supone una situacin muy diferente a una encuesta de produccin agropecuaria en todo el pas. Sin embargo, existen una serie de actividades que podramos considerar comunes en toda encuesta: Identificacin del Problema. La necesidad de informacin para un nuevo proyecto, usualmente se presenta en forma poco clara y precisa, hay necesidad entonces de delimitar los alcances del estudio. Formulacin de Objetivos. Una vez delimitado el alcance de la encuesta se pueden concretar los objetivos e hiptesis a probar. Conceptualizacin. La definicin operacional de las variables involucradas, as como la escala de medicin empleada surgen del marco terico del proyecto. Diseo de Tabulaciones. Los criterios de clasificacin y grado de agregacin de datos son condicionantes que el diseador de la muestra debe conocer para determinar tamaos de muestra. Diseo del Cuestionario. Involucra una actividad ms compleja de lo que aparenta pues se pueden cometer muchos errores e inducir otros ms si el cuestionario no tiene una estructura adecuada. La redaccin de las preguntas del cuestionario o instrumento de recoleccin deben ser congruentes las definiciones operacionales y con el marco terico adoptado. Evaluacin del marco. Se debe verificar el grado de actualizacin y consistencia de los datos de las unidades de la poblacin para determinar porcentajes de exclusin de elementos de la poblacin e inclusin de elementos extraos. Diseo de Muestra. Resume los procedimientos de seleccin y estimacin asociados a mrgenes de errores con probabilidades conocidas. Prueba Piloto. Es frecuente la aplicacin de una prueba piloto para verificar si los supuestos planteados en los estudios de gabinete se cumplen adecuadamente. La prueba piloto permite corregir cuestionario, estimar varianzas, ajustar presupuestos y precisar tiempos de realizacin de trabajo de campo.

Francisco Snchez Villarreal Facultad de Ciencias UNAM.

Introduccin al Muestreo Probabilistico

Cartografa de Enumeracin. Las cargas de trabajo, requerimientos de viticos y transportes se pueden planear eficazmente si se dispone de una buena cartografa. La cartografa es esencial para marcos definidos por reas. Edicin de Documentos de trabajo. Manuales, insructivos y formatos de control permiten homogeneizar criterios de solucin de las diversas situaciones problemticas que se presentan en la logstica de una encuesta. Capacitacin de personal de campo. Ningn diseo de muestra por bueno que sea puede agregar calidad a datos mal registrados. La capacitacin cuidadosa del personal de campo es garanta de eliminacin de fuentes de error ajenas al muestreo. Controles de campo y programacin de captura. Es necesaria una excelente comunicacin entre el personal de las reas de muestreo, control de documentos en campo y los analistas y programadores responsables del proceso de datos para obtener los resultados que se esperan de una encuesta. Codificacin y captura de datos. La disposicin o construccin de catlogos adecuados para una correcta codificacin y captura- verificacin de datos darn como resultado archivos confiables para procesos posteriores. Proceso Estadstico de datos. La obtencin de resultados mediante software especfico y paquetera facilitan esta labor, pero los tabulados y reportes requieren de edicin adicional para su presentacin definitiva. Edicin de Informe y Anexos. Un reporte que analice resultados e incluya una memoria tcnica y anexos con cuestionarios y otros documentos permitirn al usuario explotar al mximo la informacin.

1.8 El Cuestionario.
Los aspectos tericos del muestreo que se comentarn en el curso suponen que se dispone de un buen instrumento para la recoleccin de datos, sin embargo, toda la labor desarrollada por el equipo de diseo, dirigida a lograr un buen diseo de la muestra, un adecuado control de las operaciones de campo y estimaciones ptimas, puede verse invalidada por no disponer de un cuestionario elaborado cuidadosamente. La elaboracin del cuestionario debe responder a los objetivos planteados por el proyecto. Significa la precisin de muchos aspectos, cuya conceptualizacin se presentaba poco clara. En la manufactura de un cuestionario se deben tomar en cuenta las siguientes recomendaciones: 1. Evitar el afn de informacin. Cuando se elabora un cuestionario, se suele exceder el nmero de preguntas necesarias para alcanzar los objetivos iniciales. El exceso de preguntas fatiga al entrevistado y lo induce a falsear sus respuestas. 2. Redactar las preguntas en lenguaje claro para el entrevistado. Se debe considerar la heterogeneidad de capacidades, idiosincrasias y niveles culturales de los entrevistados. 3. Hacer las preguntas concisas, sin que ello signifique un sacrificio de la claridad. 4. Las preguntas deben redactarse de modo que el entrevistador no tenga que participar en la aclaracin de un concepto pues puede distorsionar su intencin original. 5. Evitar preguntas que obliguen al entrevistado a realizar clculos.

Francisco Snchez Villarreal Facultad de Ciencias UNAM

Introduccin al Muestreo Probabilistico_

6. Evitar preguntas que molesten al entrevistado. En ocasiones no se puede evitar el tocar temas escabrosos para el entrevistado, en estos casos se debe redactar la pregunta con el mayor tacto posible o recurrir a mecanismos de respuesta aleatorizada. 7. Evitar preguntas que induzcan la respuesta. El emitir en forma implcita un juicio de valor conduce respuestas inducidas y que indudablemente falsean los resultados. 8. Considerar las tabulaciones y sus niveles de agregacin para definir las alternativas de respuesta en preguntas de opcin mltiple. Clasificaciones muy amplias darn lugar a tabulaciones con celdas vacas. 9. Presentar formatos que faciliten posteriormente la captura y proceso de datos, con cdigos claros y bien definidos. 10. No realizar dos preguntas en una. Tipos de Preguntas. Las preguntas de un cuestionario pueden clasificarse en la forma siguiente: . Cerradas dicotmicas. Preguntas cuya respuesta suele ser SI o NO y que sirven para condicionar la aplicacin de bloques del cuestionario. . Cerradas de opcin mltiple excluyente. La respuesta se limita a un nmero determinado de respuestas que mutuamente se excluyen. . Cerradas de opcin mltiple no excluyente. La respuesta se limita a un nmero determinado de respuestas, pero el entrevistado puede seleccionar una o ms respuestas simultneamente. . Abiertas. La respuesta textual del entrevistado se transcribe para posteriormente definir criterios que permitan su codificacin y proceso.

1.9 Niveles de medicin.


Los niveles de medicin de las variables involucradas en una pregunta constituyen otra alternativa de clasificacin: . Categricas. Su respuesta est asociada a un criterio de clasificacin de dos o ms clases. Los valores de las variables categricas funcionan como elementos de identificacin y no es factible realizar operaciones aritmticas con ellos. Las variables categricas se someten procesos estadsticos que involucran frecuencias absolutas o relativas. . Ordinales. Los valores de las escalas ordinales permiten asociar un orden, pero las diferencias entre valores consecutivos de la escala no son consistentes. Son frecuentes escalas de diferencial semntico con extremos tales como totalmente de acuerdo y totalmente en desacuerdo. . Intervalares. Los datos de escalas intervalares se pueden someter a operaciones aritmticas diversas. Tienen la particularidad de que el cero de la escala no representa ausencia de la caracterstica, sino solamente es un punto de referencia arbitrario. El caso ms ilustrativo es el de la medicin de la temperatura. .Razn. En esta escala son vlidas todas las operaciones aritmticas y el cero representa ausencia de la caracterstica. Por ejemplo las medidas de distancia, superficie o volumen.
Francisco Snchez Villarreal Facultad de Ciencias UNAM. 6

Introduccin al Muestreo Probabilstico

2 MUESTREO SIMPLE ALEATORIO PARA MEDIAS Y TOTALES. 2.1 Definicin El muestreo aleatorio simple no solamente es el ms sencillo de aplicar, sino que constituye la unidad elemental de diseo a partir de la cual se suelen plantear muestras complejas. Tambin es el que se apoya en el menor nmero de supuestos y en esa sencillez reside su flexibilidad y capacidad de aplicacin a todo tipo de poblaciones. Suponga que se tiene una poblacin con las siguientes caractersticas:

a) El tamao de la poblacin es N. a) El tamao de la muestra es n. b) Las unidades se seleccionan sin reemplazo, lo que equivale a selecciones sucesivas con probabilidades asociadas a las unidades no seleccionadas en cada extraccin iguales a 1 para i= 0,1,2,3,.....,n-1 N i c) Las muestras que tengan las mismas unidades aunque el orden de extraccin sea distinto se consideran iguales y por tanto una muestra es diferente de otra, cuando al menos existe una unidad diferente.

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM.

Introduccin al Muestreo Probabilstico

Puesto que se seleccionan sin reemplazo (b) y el orden no importa (c), el nmero total de muestras est dado por todas las formas posibles de seleccionar n unidades de N en total. Este nmero de formas corresponde a las combinaciones de los N elementos de la poblacin tomados n a la vez:
N N! n = ( N n )! n!

2.2 Notacin La notacin que se emplear en el muestreo aleatorio simple (M.A.S.) ser la siguiente: N n yi f Tamao de la poblacin Tamao de la muestra El valor de la variable estudiada en la i-sima unidad de la muestra de la poblacin. Fraccin de Muestreo n f = N Total de la poblacin
Y = yi
i =1 N

Media de la poblacin
Y =

y
i =1

N
8

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM.

Introduccin al Muestreo Probabilstico

Media de la Muestra

y=

y
i =1

$ Y
$ Y

Estimador de la Media Estimador del Total Y )


2

2 =

(y
i =1 N

Varianza poblacional Y )

S2 =

(y
i =1

N 1

Cuasivarianza poblacional

2.3 Nmeros Aleatorios Para el proceso de seleccin de la muestra se han elaborado, con la finalidad de obtener las ventajas de la aleatorizacin y eliminar posibles sesgos, las llamadas Tablas de Nmeros Aleatorios. Estas vinieron a sustituir algunos dispositivos fsicos como las urnas. La primera tabla de nmeros aleatorios de la que se tiene noticia fue "Random Sampling numbers"; Tracts for Computers editada por la Universidad de Cambridge. El procedimiento de elaboracin consisti en tomar nmeros a partir de resultados censales, con ellos se integr una tabla de 41,600 dgitos. Otras tablas conocidas son las de Fisher y Yates, quienes en 1943 construyeron su tabla de 100,000 dgitos (Statistical Tables for use in Biological Agricultural and Medical Research). Una de las ms extensas, pues comprende 1,000,000 de dgitos, es la de la Rand Corporation, elaborada en 1955. Las tablas se suelen presentar en columnas de 3,4 5 dgitos. Para el empleo correcto de stas, se deben seguir unas sencillas reglas: a) Conocer previamente el tamao de la poblacin N y de la muestra n b) Se toma una pgina de las tablas y se parte de cualquier posicin tomando el nmero de dgitos que convenga. El arranque puede darse por coordenadas aleatorias de acuerdo al nmero de columnas y renglones de la pgina.

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM.

Introduccin al Muestreo Probabilstico

c) Se procede a tomar consecutivamente nmeros en columna o rengln, conservando aquellos menores o iguales a N y suprimiendo los mayores o repetidos en caso de muestreo sin reemplazo hasta completar n. Generadores de Nmeros Aleatorios Actualmente, las computadoras cuentan con la funcin Random que genera nmeros con comportamiento aleatorio basado en algoritmos de congruencias, y aunque los dgitos generados no son estrictamente aleatorios, tienen las propiedades de stos, lo cual se verifica con diversas pruebas estadsticas, como de uniformidad, rachas, etc. Esta funcin se incluye en hojas de clculo y diversos modelos calculadoras de bolsillo. Las funciones de generacin de nmeros seudoaleatorios usualmente devuelven un nmero con distribucin uniforme en el intervalo (0,1). El argumento puede ser falso o corresponder a una semilla de arranque para la secuencia. Por ejemplo, Excel cuenta con la funcin ALEATORIO(), la cual se puede utilizar de la siguiente frmula para generar una muestra un valor entre 1 y N=500. La frmula asegura la misma probabilidad de aparicin para todos los nmeros enteros en el intervalo. A=ENTERO(ALEATORIO()*500)+1) En otra plataforma de clculo se utilizara una instruccin equivalente. 2.4 Nmero de Muestras y Probabilidad estar en la Muestra La probabilidad de una muestra particular est dada por: 1 N n Una forma sencilla de verificar esto es la siguiente: Si las unidades de una muestra particular toman los valores y1,y2,...,yn; la probabilidad de obtenerlas en ese orden procediendo sin reemplazo, est dada por:

( N n) ! 1 1 1 1 . . ... = N N 1 N 2 N n +1 N!
Como el orden no importa, entonces se multiplica por todas las posibles formas de ordenar o permutar n elementos tomados todos a la vez, es decir n!

( N n) ! n !
N!

1 N n

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM.

10

Introduccin al Muestreo Probabilstico

Si cada unidad se toma con reemplazo, entonces la probabilidad de una muestra particular est dada por 1 1 1 1 . ... = n N4 N N N 1 24 3
n

En un muestreo aleatorio simple sin reemplazo, la probabilidad de que una unidad, en particular con valor yo, sea elemento de la muestra, est dada por la probabilidad de seleccionar dicho elemento en la primera extraccin, esto es 1/N. En la segunda, su probabilidad est condicionada a extraer cualquiera de las N-1 restantes y enseguida extraer la que interesa con probabilidad 1/(N-1). En todos los casos se concluye que la probabilidad de cada extraccin es 1/N. A continuacin se expone esta secuencia: 1 Extraccin 2 Extraccin 3 Extraccin . n Extraccin

1 N N 1 1 1 = N N 1 N N 1 N 2 1 1 = N N 1 N 2 N =
N 1 N 2 1 1 ........... = N N 1 N (n 1) N

Como son eventos mutuamente excluyentes, la probabilidad de la unin est dada por la suma de las probabilidades, es decir, la probabilidad de observar la unidad en la 1, 2, nsima extraccin estar dada por
1 1 1 n + +...+ = N 44 N N N 1 244 3
n

Por lo tanto, la probabilidad de que cualquier elemento pertenezca a la muestra es el cociente

n N
2.5 Estimadores para Medias y Totales El estimador usual de la media poblacional Y es la media muestral.

$=y Y
El estimador del total Y se obtiene de la siguiente forma: Recuerde que el total de una poblacin se puede expresar con la frmula:
Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM. 11

Introduccin al Muestreo Probabilstico

Y = yi Si esta expresin se multiplica y se divide con N, la relacin no se altera:


i =1

Y =

N yi
i =1

y, por definicin de Y , se tiene: Y = NY

Para estimar el total se adopta una forma lgica, basta conocer N y una estimacin de la media Y :

$ = NY $ Y
Como la media muestral y es el estimador adoptado de Y tendremos como estimador del total:

= Ny Y
2.6 Esperanza y Varianza de los Estimadores. Para obtener expresiones para la esperanza y varianza del estimador y se recurrir a un modelo de aleatorizacin, conocido como mtodo de Cornfield. Sea X i una variable aleatoria dicotmica tal que:
1 Si la observacin y i en la muestra Xi = 0 Si la observacin y i en la muestra

Por la forma como se defini Xi, se trata de una variable aleatoria que se distribuye Bernoulli, n n de modo que: Pr ( X i = 1) = Pr ( X i = 0) = 1 N N Tambin el hecho de que X se distribuye Bernoulli permite expresar fcilmente su esperanza y varianza:

E(X i ) = P =

n N

V ( X i ) = PQ =

n n 1 N N

Tambin involucraremos a la covarianza, la cual en este caso se considera:

COV (X i X j ) = E (X i X j ) E ( X i )E (X j )

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM.

12

Introduccin al Muestreo Probabilstico

Se debe obtener una expresin para E (X i X j )


n n 1 1 Si y i y j en la muestra con probabilidad N N 1 Xi X j = n n 1 0 Si y i y j en la muestra con probabilidad asociada a tres casos 1 N N 1

De aqu se obtiene:

n n 1 n n 1 E (X i X j ) = (1) + (0)1 N N 1 N N 1 E (X i X j ) = n n 1 N N 1

Ahora se sustituye en la expresin de la covarianza


COV (X i X j ) = E (X i X j ) E ( X i )E (X j ) n n 1 n = N N 1 N = = =
2

n n n 1 ( N 1) N(N - 1) N n nN n + n 1 N(N - 1) N N n n 1+ N(N - 1) N


n n 1 N ( N 1) N

COV (X i X j ) =

Ahora bien, de acuerdo a la definicin de X i , podemos expresar a la media muestral como una suma de todos los valores de la poblacin multiplicados por una variable indicadora que adopta solamente los valores (0,1) y que por tanto apunta solamente a los valores correspondientes a las unidades en muestra.

y=

yi
i =1

X
i =1

yi

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM.

13

Introduccin al Muestreo Probabilstico

Se verifica a continuacin que la media muestral es un estimador insesgado.


N X i yi E ( y ) = E i =1 n

E ( X )y
i =1 i

N y
i =1

y
i =1

=Y

Como resultado inmediato, el estimador del total tambin es un estimador insesgado.

) = E ( Ny ) = NE ( y ) = NY = Y E (Y
Para abordar el problema de la varianza del estimador se definen a continuacin dos estadsticas que involucran a toda la poblacin. La varianza y la cuasivarianza parametrales.

2 =

( y
i =1

Y)

S2 =

( y
i =1

Y)

N 1

Los desarrollos algebraicos se suelen simplificar con el empleo de S2, sobre todo bajo el enfoque de anlisis de varianza, de ah su presencia ms frecuente en todo tipo de desarrollos. Se aplica el modelo de aleatorizacin para obtener la varianza del estimador.
N X i yi Entonces su varianza se expresa: V ( y ) = V i =1 n N = 1 V X i yi 2 n i =1

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM.

14

Introduccin al Muestreo Probabilstico

Por otra parte, recurdese que la varianza de una suma de variables aleatorias es:
V ( x ) = V ( x ) + 2 COV (xi x j )
i< j

Con los resultados anteriores se obtiene la varianza de y

V (y ) =

N 1 N N V ( X i y i ) + 2 COV ( X i yi , X j y j ) i< j i =1 1 N = 2 y i2V ( X i ) + 2 y i y j COV (X i X j ) n i =1 i< j n n n n 1 N = 2 y i2 1 2 y i y j 1 N N N ( N 1) N n i =1 i< j 1 n N 2 2 = yi y j 1 y i (N 1) i< j nN N i =1 1- f N 1 N 2 2 yi y j = yi (N 1) i< j Nn N 1 i =1 N 1 N 1- f N N 2 1 N 2 = y y y i y j 2 + i i (N 1) i =1 Nn i< j N 1 i =1 2 1- f N N 2 1 N = y yi i N N Nn 1 1 i =1 i =1 2 N Y 1- f N 2 = y i N Nn N 1 i =1

1 n2

1- f N N 2 ( y i Y 2 ) Nn N 1 i =1 S2 n

V ( y ) = (1 f )

$ = Ny , la cual tiene la De donde se deriva fcilmente la varianza del estimador del total Y siguiente expresin: n S2 $) = N 2 1 V (Y N n

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM.

15

Introduccin al Muestreo Probabilstico

Su verificacin Se sabe que si K es una constante y X es una variable aleatoria:

V ( KX ) = K 2V ( X )
Aplicando el resultado a nuestro caso: $ ) = V ( Ny ) V (Y
= N 2V ( y ) n S2 = N 1 N n
2

n S2 2 $ V ( Y ) = N 1 N n se expresan en funcin de S2, parmetro generalmente Tanto la varianza de y como la de Y desconocido. En la prctica se procede con estimaciones de las varianzas de y y Y calculadas en base al estimador de S2 el cual ser s2: s2 =

( y
i =1

y)

n 1 El estimador s de la S poblacional es un estimador insesgado.


2 2

E( s2 ) = S 2 Recurdense las siguientes expresiones y sus equivalencias:


2 ( X i X ) = X i2 NX 2
N N

V ( X ) = E ( X X ) = E (X 2 ) X 2
2

i =1

i =1

n S2 +Y 2 Debido a que y es una variable aleatoria se tendr: E ( y ) = V ( y ) + Y = 1 N n Por lo tanto si se recurre nuevamente al modelo de aleatorizacin se verifica su insesgamiento.
2 2

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM.

16

Introduccin al Muestreo Probabilstico

n ( y i y )2 E s 2 = E i =1 n 1 1 n E y 2 i ny 2 = n 1 i =1

( )

= = =

1 N E ( X i y i ) 2 ny 2 n 1 i =1 1 N E X i2 y i2 ny 2 n 1 i =1

1 N 2 2 2 E ( X i ) y i nE y n 1 i =1 1 N n 2 n S2 1 y n + Y 2 = i n 1 i =1 N N n

( )

n 1 n 1 N

n S2 2 1 y Y 2 i N n i =1
N

n 1 = n 1 N = = =

NY 2 n S2 y 1 N N n i =1
N 2 i

n (N 1) 2 N n S 2 S (n 1) N N n nS 2 1 ( N 1) ( N n ) N (n 1) n

n S2 n 1 N 2 2 y N Y 1 i (n 1) N i =1 N n

= S2

Por tanto se trata de un estimador insesgado.

E( s2 ) = S 2
Al aplicar los resultados previos se tendrn los estimadores de las varianzas insesgados de dados por: y yY n s2 n s2 $( y ) = $( Y $) = N 2 1 1 V V N n N n

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM.

17

Introduccin al Muestreo Probabilstico

2.7 Muestreo con reemplazo El muestreo aleatorio simple supone seleccin aleatoria sin reemplazo, pero qu ventaja ofrece seleccionar la muestra sin reemplazo? Se analizan a continuacin las consecuencias de seleccionar una muestra con reemplazo. Seleccionar la muestra con reemplazo es equivalente a disponer de una serie de N casillas vacas colocadas en lnea y arrojar n bolas. Habr casillas en las que caigan cero bolas y otras que podrn tener 1,2,.n bolas. La distribucin asociada es una multinomial con los siguientes parmetros: E ( X i ) = nPi = n(1 / N ) , con reemplazo es insesgado y la diferencia est en su varianza.

V ( X i ) = nPi (1 Pi ) = n(1 / N )(1 1 / N ) y Cov (X i , X j ) = nPi Pj = n / N 2 . El estimador de la media

V (yR ) = =

1 N V yi X i 2 n i =1

N 1 N 1 N 2 + y V ( X ) 2 y y Cov ( X , X ) i i i j i j n 2 i =1 i< j

= = = =

N 1 N 1 N 2 ( ) 2 y V X y i y j Cov( X i , X j ) + i 2 i n i =1 i< j

n 1 N 2 n N 1 N 1 N y 2 y i y j 2 2 i N N N n i =1 i< j
N 1 N 1 n N 2 ( ) y N yi y j 1 2 2 2 i n N i =1 i< j N 1 N 1 n N 2 N 2 N y y yi y j 2 + i i 2 2 n N i< j i =1 i =1

2 1 n N 2 N2 N = 2 2 N yi 2 yi N i =1 n N i =1

1 nN N 1 = 2 2 y i2 N n N N i =1 22 1 N y Y = i nN i =1

yi i =1
N

n Expresin conocida en el caso de la varianza de la media para poblaciones infinitas. Es evidente que el estimador calculado a partir de una muestra sin reemplazo tiene una menor varianza que el calculado a partir de una muestra con reemplazo.

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM.

18

Introduccin al Muestreo Probabilstico

2.8 Intervalos de Confianza para Medias y Totales Generalmente se supone que los estimadores de la media Y y el total Y se distribuyen en forma normal en torno a los parmetros. Esta suposicin se basa en ciertos resultados anlogos al Teorema Central del Lmite, el cual es vlido para poblaciones infinitas. Hjek encontr que la condicin necesaria y suficiente para que se considere que la distribucin de y tiende a la normalidad es:
Lm v

(y
i =1

nv

vi

Yv )

(nV 1)S v2

=0

Sin embargo, influye de manera definitiva el conocimiento previo que se tenga de la variable, ya que variables con un comportamiento francamente asimtrico, como son: los tamaos de las ciudades, de empresas tiendas, el ingreso de la poblacin, etc.; requieren tamaos mayores de muestra para su convergencia a la normalidad que los requeridos para variables de comportamiento simtrico, como son las medidas antropomtricas y sus equivalentes en cualquier tipo de organismos. Las muestras relativamente pequeas de poblaciones asimtricas suelen conservar parcialmente esa asimetra en la distribucin de sus correspondientes medias. Considere como ejemplo la distribucin de tamaos de poblacin de 153 Areas Geoestadsticas Bsicas de la Delegacin de Coyoacn segn el censo de poblacin y vivienda del ao 2000. La distribucin de sus tamaos tiene un comportamiento claramente asimtrico. El tamao promedio de las 153 AGEBs es de 4,185.8 personas.

Mediante simulacin de Montecarlo se extrajeron 200 muestras de tamao 15 y 200 muestras de tamao 30. En la siguiente grfica se presentan las distribuciones empricas de ambas simulaciojnes. Puede observarse que en la muestras de tamao 15 hay claros rastros de asimetra. En la distribucin de las muestras de tamao 30 la presencia de la asimetra es menor y desde luego con una menor varianza en torno al valor promedio y aproximacin a la normalidad. El error estndar calculada empricamente para n =15 en base a las 200
Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM. 19

Introduccin al Muestreo Probabilstico

muestras fue de 628.2 y el correspondiente a n = 30 fue de 419.4. Ambos valores se aproximan a los valores poblacionales de 637.5 y 417.2 respectivamente.

n S2 Si se supone que y N Y , 1 y por otro lado recordamos que para una variable N n aleatoria ZN (0,1) un intervalo del 100 (1-)% de confianza se obtiene de la siguiente forma:

P Z( 1 2 ) < Z < Z ( 1 2 ) = 1
Se estandariza la media

Z=

y Y n S2 1 N n

y se obtienen los lmites del intervalo.

y Y < Z ( 1 / 2 ) = 1 P Z ( 1 / 2 ) < 2 n S 1 N n n S2 n S2 P y Z ( 1 / 2 ) 1 < Y < y + Z ( 1 / 2 ) 1 = 1 N n N n

As, los lmites del intervalo buscado sern:


n S2 y Z ( 1 / 2 ) 1 N n
Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM. 20

Introduccin al Muestreo Probabilstico

$ = Ny , se tiene como corolario que los lmites para un intervalo de 100(1-) Debido a que Y para el total Y, sern: n S2 $ Y NZ ( 1 / 2 ) 1 N n
Al desconocer S2 se puede utilizar su estimador s2. En sentido estricto la distribucin a utilizar sera la t de Student con n-1 grados de libertad, pero si n>50 resulta indistinto para efectos prcticos utilizar valores percentilares de la normal estndar. En la siguiente grfica se presenta una serie de intervalos de 95% de confianza para la media calculados a partir de las primeras 40 muestras de tamao n = 30 de las AGEBs de Coyoacn. Los intervalos de las posiciones 29 y 32 no cubren al parmetro. Las amplitudes varan debido a los diferentes valores de la estimacin de S2.

Ejemplo 2.1 En una biblioteca se han puesto los libros en 130 anaqueles de tamao semejante. El nmero de libros de 15 estantes seleccionados al azar fue registrado en la siguiente forma: 28,23,25,33,31,18,22,29,30,22,26,20,21,28,25 Estime el total de libros en la biblioteca y calcule un intervalo de confianza de 95% para el total.N = 130
15

y=

y
i =1

15

= 25.4

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM.

21

Introduccin al Muestreo Probabilstico

n = 15

s2 =

( y
i =1

15

y)

14

= 19.257143

Como n es relativamente pequea, se utiliza el valor percentilar de t para 97.5% y 14 grados de libertad. t97.5%, 14 gl = 2.145 s=4.3882961
$ = NY Y

$ = 130 (25.4) = 3302 Y

Intervalo de confianza:

n S2 Ny NZ ( 1 / 2 ) 1 N n

15 19.257143 3302 (130)(2.145) 1 15 130 3302 290.165

El intervalo solicitado de 95% de confianza para el total Y es (3005,3599)

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM.

22

Introduccin al Muestreo Probabilstico

2.9 Determinacin del tamao de Muestras para Medias y Totales Elementos a Considerar en el tamao de muestra. La pregunta con la que inicialmente se inician los trabajos de una encuesta es casi inevitablemente la referencia al tamao de muestra necesario, sin embargo la respuesta no se puede dar a la ligera, pues requiere de la determinacin de varios aspectos. a) Tener al menos una idea aproximada de la magnitud del error permisible en la estimacin. b) Elegir el nivel de confianza, esto es, la probabilidad de ubicarse dentro del margen de error permisible. c) Disponer informacin sobre la varianza de las principales variables que son objetivo de la encuesta el origen de esta informacin puede ser una prueba piloto, datos de encuestas similares aplicadas con anterioridad o incluso conjeturas sobre las distribuciones y varianzas asociadas a las variables de inters. d) Plantear una funcin que involucre todos estos elementos para obtener el valor del tamao de muestra n. e) Debido a que las encuestas usualmente tienen muchas preguntas, se debe determinar cual cuales son las ms importantes para que en base a ellas, se calculen tamaos opcionales de muestra. f) Cuando se desean presentar resultados por subdivisiones de la poblacin, se debe calcular por separado el tamao de muestra para cada subdivisin y tomar el tamao de muestra total como la suma de los valores de los tamaos calculados para las subdivisiones. Error de Muestreo La diferencia entre el valor del parmetro de la poblacin y el valor que toma el estimador se denomina error de muestreo. Error de Muestreo = $ Como el error de muestreo est en trminos de un parmetro desconocido, no es posible conocer este error. Sin embargo, es posible establecer una relacin probabilstica en torno a un error mximo admisible d, de la siguiente manera siguiente.

( ) P( Y y d ) = 1
P Y y > d =
23

Introduccin al Muestreo Probabilstico

Yy d P= 2 n s2 n s 1 1 N n N n

= 1 = 1

d Yy d P = n s2 n s2 n s2 1 1 1 N n N n N n

Si se considera el supuesto de normalidad para y , se plantea la siguiente igualdad: d Z( 1 2 ) = n s2 1 N n Donde Z( 1 2 ) es el valor tal que P = Z Z ( 1 2 ) = 1 2 si Z N(0,1). De aqu se llega a la siguiente expresin que define una varianza deseada por el investigador y que se define en el cociente del miembro izquierdo: d2 n s2 = 1 Z 2 ( 1 2 ) N n

De esta expresin se despeja n

n s2 d 2 = Z 2 ( 1 2 ) 1 N n Nnd 2 = Z 2 ( 1 2 ) ( N n) s 2 = Z 2 ( 1 2 ) s 2 N Z 2 ( 1 2 ) s 2 n n= NZ 2 ( 1 2 ) s 2 Nd 2 + Z 2 ( 1 2 ) s 2

Se dividen numerador y denominador entre Nd2:

Z 2 ( 1 2 ) s 2 n= d2 Z ( 1 2 ) s 2 1+ Nd 2
2

24

Introduccin al Muestreo Probabilstico

corresponde al tamao de muestra para una poblacin infinita o una d2 seleccin con reemplazo y se identifica como no para sustituirla en la frmula anterior.
no n0 1+ N 2 Z ( 1 2 ) s 2 no = d2 n=

La expresin

Z 2 ( 1 2 ) s 2

Note que n < no y que para N muy grande n converge a no. Ejemplo 2.2 Se desea estimar el peso promedio de una poblacin de 5000 cerdos con una precisin de d=2 kg. Se supone S2= 380 y se desea una confianza de 95%. Calcule el tamao de muestra necesario. d=5 =
Z (1 ) 2 1.96

N=5000

S2= 380

no 364.954 = = 340.12 n = 341 365.954 n0 4 d 1+ 1+ 5000 N El tamao de muestra es particularmente sensible a la precisin. En la siguiente tabla se presentan tamaos de muestra en funcin de la precisin. Tamao de la poblacin N = 5000, varianza S2 = 620 y coeficiente de confianza de 95% Z = 1.96. Se ha variado la precisin d desde 1 hasta 6. El tamao de n oscila entre 66 y 1614 y no entre 66 y 2382. no =
2

Z 2 (1 2 )s 2

(1.96)2 (380) = 364.95

n=

2.10 Muestreo Aleatorio Simple para Proporciones


25

Introduccin al Muestreo Probabilstico

Frecuentemente se desea estimar a proporcin o el total de unidades en una poblacin que poseen determinada caracterstica o atributo. Supngase que la poblacin consta de dos clases C y C*. Los elementos de inters pertenecen a la clase C. La poblacin consta de N elementos de los cuales A son de la clase C y N-A del complemento C*, la muestra aleatoria simple tiene n elementos con a pertenecientes a la clase C. El parmetro de inters es la proporcin definida por el cociente

P=

A N

Q = 1 P

El estimador natural de la proporcin P es la proporcin muestral p =

a n $ = Np . El estimador del total de elementos de la clase de inters A, es el producto A

La estimacin de proporciones se puede ver como un caso particular de la estimacin de medias que involucran variables que adoptan valores 0 y 1 de acuerdo a la siguiente regla.:

1 si la unidad C Sea yi = 0 si la unidad C


De aqu se concluye de manera inmediata que la proporcin es equivalente a la media de y definida como variable dicotmica.

Y =

y
i =1

A =P N

Adems debido a la dicotoma de yi se tiene el siguiente resultado.

A = yi = y
i =1 i =1

2 i

semejante para la muestra

a = y i = y i2
i =1 i =1

La S2 tambin adopta una forma particular en razn de la dicotoma.


26

Introduccin al Muestreo Probabilstico

S2 = = =

1 N ( y i Y )2 N 1 i =1 1 N 2 y i NY 2 N 1 i =1

1 NP NP 2 N 1 N = P(1 P) N 1

La varianza del estimador de la proporcin adopta una forma alternativa:

n S2 V ( p ) = 1 N n n 1 N = 1 P(1 P) N n N 1 Al hacer las cancelaciones adecuadas se obtiene la frmula de la varianza de p


V ( p) = N n PQ N 1 n

y su error estndar

EE ( p ) =

N n PQ N 1 n

De modo semejante al caso de y cuya varianza est en funcin de S2 la cul es desconocida la mayora de las veces, se observa que la V(p) est en funcin precisamente del parmetro P. En vista de ello lo que se hace es utilizar el estimador p para estimar su varianza. El estimador insesgado de la S2 en trminos de p adopta la siguiente expresin :
s2 = npq n 1

donde q = 1-p

As al sustituir el estimador s2 en la frmula para la estimacin de la varianza de la media, para p en nuestro caso se obtiene el estimador insesgado de la varianza de p.

n s2 $ ( p) = 1 V N n
Finalmente se tendr la frmula para un estimador insesgado:

( p ) = N n pq V n 1 N

El error estndar estimado de p se calcula:

E( p ) = E

N n pq n 1 N

27

Introduccin al Muestreo Probabilstico

Como resultado inmediato se tiene el estimador del total de la poblacin con la caracterstica de inters y su varianza.

) = V ( Np ) = N 2V ( p ) V (A

)= N 2 V (A

N n PQ n 1 N

Cuyo estimador es:

) = N ( N n ) pq (A V n 1

2.11 Efecto de P en la varianza del estimador p Si se ignora el factor de correccin por finitud en la varianza de p, se tiene V ( p) = Se toma esa expresin como una funcin de P
PQ n

(P ) =

PQ 1 = (P P 2 ) n n

Se deriva (P) respecto a P y se iguala a cero para obtener el valor de P que maximiza a (P)

( P) 1 2 P = =0 P n
Por lo tanto, V(p) es mxima cuando P =
1 2

de donde

P=

1 2

Varianza del estimador de proporciones en funcin de P

V(p)

0.00

0.10

0.20

0.30

0.40

0.50

0.60

0.70

0.80

0.90

1.00

Valores de P

28

Introduccin al Muestreo Probabilstico

Este resultado se suele utilizar para tener una cota mxima de la varianza y en funcin de ella calcular un tamao de muestra conservador.

2.12 La distribucin Hipergeomtrica en relacin al estimador p. Para el caso de p es posible conocer su distribucin exacta de al vincularla a una variable aleatoria X que representa el nmero de elementos de la muestra que pertenecen a la clase de inters. El modelo se enfoca como el caso de una urna con A elementos de la clase C y N-A elementos de la clase complementaria C*. La probabilidad de que al extraer una muestra, sin reemplazo se obtengan X = a elementos de la clase C responde a una distribucin hipergeomtrica. En este contexto se considera la relacin p=a/n de donde X=np.

A N A a na P( X = a) = N n

a = 0,1,2,..., n a< A na < N A

Si se considera A/N = P son inmediatos los siguientes resultados:

E( X ) =
V (X ) =

nA = nP N
( N n) nA( N A) ( N n) = nP(1 P) 2 ( N 1) ( N 1) N

Como V(X) = V(np) = n2V(p). La varianza de p se obtiene al dividir V(X) entre n2 y se llega a la misma frmula que se obtuvo para V(p) como caso particular de la media de una muestra aleatoria simple.

V(p) =

P(1 - P) ( N n) n ( N 1)

La hipergeomtrica se puede aproximar mediante la Binomial cuando A y N-A son grandes en relacin al tamao de muestra n. Mediante la distribucin Hipergeomtrica y la Binomial se han elaborado tablas y grficas como las de Chung y De Lury (Confidence limits for the hipergeometric distribution, University of Toronto Press; 1950) para establecer intervalos de confianza para P al 90, 95 y 99% de confianza con N=500, 2500 y 10000. La capacidad de las computadoras personales actuales permite construir estos intervalos para tamaos moderados de los valores parametrales de la poblacin.

29

Introduccin al Muestreo Probabilstico

2.13 Intervalos de confianza para P mediante la aproximacin normal. Si suponemos que una p se distribuye aproximadamente normal es fcil construir intervalos de confianza basados en esta propiedad. La pregunta fundamental es cundo se puede suponer la normalidad de p en presencia de determinados valores de N, n, P y el nivel de confianza seleccionado? Se ha verificado que el error de aproximacin es ms sensible respecto a n y P. La conclusin es que si n es moderadamente grande y P est cercano a 0.5 se puede suponer normalidad para p sin problema, pero para valores alejados de 0.5 la asimetra en la distribucin de p juega un papel pernicioso. W. Cochran da los siguientes valores mnimos de n requeridos para suponer la normalidad de p:
Valores de P Menor a Mayor a 0.40 0.30 0.20 0.10 0.05 0.60 0.70 0.80 0.90 0.95 Muestra Requerida 50 80 200 600 1400

Si se puede suponer la normalidad, los lmites de confianza para p se pueden obtener de la expresin siguiente: N n pq 1 p Z (1 ) + 2 n 1 N 2n
1 es un factor de correccin por continuidad cuyo efecto es un 2n intervalo ms conservador. Sin la aplicacin de esta correccin, el intervalo resulta ligeramente ms angosto.

En esta expresin el cociente

Ejemplo 2.3 Supngase que en una muestra de n =500 estudiantes de una universidad con 20,000 alumnos, 150 de ellos se transportan en auto propio. Construya un intervalo de confianza de 95% para P.
N n pq 1 p Z (1 2 ) n 1 N + 2n 20,000 100 (0.3)(0.7) 1 + 0.30 1 . 96 500 1 20,000 2(500) 0.30 (1.96(0.02025637) + 0.001)

0.30 0.040702
El intervalo requerido es (0.259277, 0.340702)

30

Introduccin al Muestreo Probabilstico

2.14 Tamao de Muestra para Proporciones Si se supone la normalidad se puede obtener una expresin para n, anloga a la obtenida para el caso y con una precisin d y confianza 100(1-)%
d = Z (1- ) EE p 2 N n PQ N 1 n 2 2 d ( N 1)n = Z (1- 2 ) ( N n )PQ d 2 = Z 2 (1- 2 )

(Z (
2

d 2 Nn d 2 n = Z 2 (1- 2 ) NPQ Z 2 (1- 2 )nPQ


1- 2

) PQ + d 2 N d 2 )n = Z 2 (1- 2 ) NPQ
Z 2 (1- 2 ) NPQ

n=

d 2 N + Z 2 (1- 2 ) PQ d 2

Se divide numerador y denominador entre d2N:

Z 2 ( 1- 2 ) PQ
n= d2

1+

Z 2 ( 1- 2 ) PQ
Nd
2

1 N

Z 2 ( 1- 2 ) PQ
n= d2 Z 2 ( 1- 2 ) PQ 1 1 1+ d2 N Z 2 ( 1 2 ) PQ d2
que corresponde al tamao de una muestra con reemplazo
no n 0 1 1+ N

Si se identifica no =

Finalmente se tiene el tamao de muestra en funcin de no: n =

31

Introduccin al Muestreo Probabilstico

Ejemplo 2.4 En una muestra preliminar de n = 50 estudiantes seleccionada de una poblacin de N=4000 se encuentra que a = 30 fuman. Qu tan grande debe ser la muestra para estimar p con una precisin de 5% con una confianza de 99%?. N = 4000 n = 50 p=0.6 q=0.4 Z=2.58 d = 0.05 (absoluta)
n= no n 0 1 1+ N

no =
n=

Z 2 ( 1 2 ) pq d2

( 2.58) 2 ( 0.6)( 0.4) = = 639.0144 ( 0.05) 2

639.0144 = 55111032 . 639.0144 1 1+ 4000

n = 552 Ejemplo 2.5 Unos antroplogos desean estimar la proporcin de personas de una regin de 6,000 habtantes que presentan cierta caracterstica de tipo hereditario. No disponen de datos de una prueba piloto y simplemente conjeturan que la caracterstica se presente en la mitad de los habitantes para tener un tamao conservador de la muestra. Calculan tamao de muestra para estimar la caracterstica con una precisin de 0.03 y 95% de confianza. P = q = 0.5 d = 0.03 Z = 1.96
n=
no = Z 2 (1 2 ) pq d2 =

(1.96 )2 (0.5)(0.5) = 1067 .11 (0.03)2

1067.11 = 906.1 1067.11 1 1+ 6000

Se redondea al entero mayor o igual y por lo tanto n = 907

32

Introduccin al Muestreo Probabilstico

3. MUESTREO ESTRATIFICADO 3.1 Definicin y Notacin Hasta este momento se ha considerado a la poblacin y a la muestra como conjuntos de elementos con cierta homogeneidad, sin embargo, en ocasiones es conveniente dividir a la poblacin en subpoblaciones estratos. Los estratos se forman en funcin de variables altamente correlacionadas con las variables en estudio, como nivel socioeconmico, tamao de la localidad, giro de empresas, etc.

Los elementos que se incluyen en cada estrato, se procura que sean homogneos con respecto a las caractersticas que se investigan para obtener mayor eficiencia en el diseo. Las principales ventajas que se tienen con la estratificacin son las siguientes: a) Utilizar informacin previa a la poblacin para reducir el error de muestreo, esto es, ganar precisin en las estimaciones debido a que los elementos en cada estrato tienen cierto grado de homogeneidad.

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

32

Introduccin al Muestreo Probabilstico

b) Es posible dividir la poblacin en estratos que coincidan con divisiones geogrficas o administrativas para las cuales se requieren estimaciones separadas del total, esto es que los estratos pueden ser dominios de estudio. c) La estratificacin permite hacer compensaciones en diseos de muestreo menos eficientes, como por ejemplo el muestreo por conglomerados. d) Desde el punto de vista logstico se pueden designar delegados que supervisen y controlen la encuesta en cada regin estrato. La notacin correspondiente al muestreo estratificado es la siguiente: N= L Nh n= nh yhi Wh =

N
h =1

Total de unidades en la poblacin Nmero de estratos Total de unidades en el estrato h

n
h =1

Tamao total de la muestra Total de unidades en la muestra del estrato h El valor de la caracterstica investigada en la i-sima unidad del estrato h

Nh N

El peso ponderacin del estrato h

fh =

nh Nh

Fraccin de muestreo en el estrato h

Yh =

y
i =1

Nh

hi

Total del estrato h

Y =

y
i =1

Nh

hi

Nh
L Nh

Media del estrato h

Yst = y hi Total de la poblacin


h =1 i =1

Yst =

y
h =1 i =1

Nh

hi

Media de la poblacin total

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

33

Introduccin al Muestreo Probabilstico

yh =

y
i =1

nh

hi

nh

Media muestral del estrato h.

2 = Sh

(y
i =1

Nh

hi

Yh )

N h 1

Medida de variacin del h-simo estrato

2 = sh

(y
i =1

nh

hi

yh )

nh 1

Medida de variacin de la muestra en el h-simo estrato

3.2 Estimadores en Muestreo Estratificado para Medias y Totales. La media de la poblacin total Y se puede expresar como la suma ponderada de las medias de todos los estratos:
Yst =

y
h =1 i =1 L

Nh

hi

N Nh y 1 = N h hi h =1 N i =1 N h =
h =1 L

Nh Yh N
L h =1

Y = WhYh Para obtener el estimador de Y se sustituyen Yh por sus correspondientes estimadores yh

st = Wh y h Y
h =1

st como y st . Debe notar que el estimador En ocasiones tomaremos la notacin alternativa de Y anterior, en general, no coincide con la media de la muestra total, la cual tendra la siguiente expresin: 1 L nh y = y hi n h=1 i =1
El estimador y coincidira con y st slo en el caso de que se cumpla la siguiente relacin de proporcionalidad para todos los estratos.

nh N h = n N
Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM 34

Introduccin al Muestreo Probabilstico

Si en cada uno de los L estratos yh es un estimador insesgado de Y h entonces y st es un estimador insesgado de Yst . L N E ( y st ) = E h y h h =1 N

=
h =1 L

Nh E ( yh ) N Nh Yh N

=
h =1 L

= WhYh
h =1

= Yst
Como las muestras se obtienen de manera independiente en cada estrato, entonces la varianza del estimador de la media total se obtiene mediante la suma de los ponderadores de los estratos al cuadrado por las varianzas de los estimadores de las medias en los estratos.

L N V ( y st ) = V h y h h =1 N =
h =1 L L

Nh V ( yh ) N2
2

= Wh V ( y h )
h =1

Si se utiliza muestreo aleatorio simple en todos los estratos, la varianza del estimador de la media total y st tiene la expresin siguiente, a la cual se designar como Forma General:

V ( y st )
L

1 = 2 N

1 Nh 2 Sh 2 nh N 2 h =1
L

NhSh
h =1

V ( y st ) = Wh2 V ( y h )
h =1 L 2 n h Sh = W 1 h =1 N h nh 2 L N 2 n h Sh 1 = h 2 N h nh h =1 N 2 h

1 N2

2 2 Nh Sh 1 2 nh N h =1 L

N
h =1

2 Sh

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

35

Introduccin al Muestreo Probabilstico

n Si se ignora el factor de correccin por finitud 1 h la expresin se simplifica. Nh 1 L N 2S 2 V ( y st ) = 2 h h N h=1 nh

Como en general Sh2 es desconocido, para estimar la varianza se le sustituye por sh2 muestral en las frmulas mencionadas. El error estndar se obtiene como la raz cuadrada de la varianza y los intervalos de confianza para la media estratificada se calculan en forma anloga al caso de muestreo aleatorio simple.

E ( y st ) y st Z 1 / 2 E
El estimador del total Yst se obtiene mediante la multiplicacin del estimador de la media total por el tamao de la poblacin. $ = Ny Y st st La varianza del estimador del total se calcula mediante el producto del cuadrado del tamao de la poblacin total por la varianza de la media.

$ ) = N 2V ( y ) V (Y st
Ejemplo 3.1 En una regin hay 12,789 productores de cereal. Los predios han sido divididos en funcin del uso de tecnologa dominante en 3 estratos: Uso intensivo de tecnologa, Uso medio de tecnologa y Uso bajo de tecnologa. Se tom una muestra de 31 predios divididos como lo indica la tabla. En cada predio se midi el rendimiento en Toneladas por Ha. a) Estimar el rendimiento medio por Ha. en la regin y construir un intervalo de 90% de confianza. b) Estimar la produccin total en la regin y construir un intervalo de 90%.
Nmero 1 2 3 4 5 6 7 8 9 10 11 12 Estrato 1 5.06 3.66 4.02 4.82 4.27 3.32 2.19 4.1 1.93 Estrato 2 1.6 2.33 3.46 3.67 1.93 2.55 1.58 4.09 2.26 4.35 Estrato 3 1.28 2.43 4.48 1.19 4.23 0.23 4.10 2.99 3.62 6.36 2.82 2.27

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

36

Introduccin al Muestreo Probabilstico

Cuadro de Clculos
Estrato Alto Medio Bajo Total

Nh
3,253 4,234 5,302 12,789

Wh
0.2543592 0.3310658 0.4145750 1.0000000

nh
9 10 12 31

yh
4.020 3.436 2.543

2 h S

2 2 S h / nh Wh y h N h

2 h NhS

0.47920 0.66632 0.88204

1.0225 1.1375 1.0544 3.2145

563,433.19 1,194,487.64 2,066,272.88 3,824,193.71

1,558.84 2,821.18 4,676.59 9,056.61

st = Wh y h = 3.2145 La media se obtiene mediante la frmula Y


h =1

Como la asignacin de muestra en los estratos es arbitraria, se utiliza la frmula general de la varianza.
V ( y st ) = 1 N2

h =1

Nh 2 Sh 2 1 2 nh N

NhSh
h =1

1 (3,824,193,71) 1 2 (9,056.61) = 0.02333 2 (12,789) (12,789)

El error estndar se calcula al aplicar raz cuadrada a la varianza estimada.

E ( y st ) = 0.02333 = 0.1527279 E
Para construir el intervalo de 90% de confianza se utiliza el valor percentilar 1.645 de la distribucin normal considerando que n tiene el mnimo de unidades necesario para la aplicacin de la normal estndar.

E ( y st ) Al sustituir se obtiene el intervalo 3.2145 1.645(0.1527279) y st Z 1 / 2 E


El intervalo solicitado para el rendimiento tiene los lmites: (2.9632 , 3.4657) La estimacin del total se obtiene al multiplicar la media general estimada por el tamao de la poblacin.

= Ny est Y

12,789(3.2145) = 41,110.24

Los lmites del intervalo se obtienen al sumar y restar al total estimado el producto del error estndar de la media por la poblacin y el coeficiente de confianza

Z1 / 2 N ( E E ( y st )) Y
Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

41,110.24 3,213.08
37

Introduccin al Muestreo Probabilstico

3.3 Fuentes de variacin en muestreo estratificado. Al tener a la poblacin dividida es estratos, la variacin total de la caracterstica de inters se puede atribuir a dos fuentes: la variacin dentro de estratos y la variacin entre estratos. Esto se puede observar mediante el siguiente anlisis:

1 L Nh = ( y hi Y )2 N h=1 i =1
2 st

= = =

1 L Nh [( yhi Yh ) + (Yh Y )]2 N h=1 i =1 1 L Nh ( yhi Yh )2 + 2( yhi Yh )(Yh Y ) + (Yh Y )2 N h=1 i =1 1 L Nh 1 L Nh 2 ( ) (Yh Y )2 + y Y hi h N h=1 i =1 N h=1 i =1
2

Nh ( y Y h ) + 1 L N (Y Y )2 1 L = N h hi h h N h=1 Nh N h=1 i =1

1 L 1 L 2 2 N + N h (Yh Y ) h h N 42 N4 h =1 h =1 1 43 1 4 4 244 4 3
Dentro de Estratos Entre Estratos

3.4 Afijacin de la Muestra. El objetivo siguiente es calcular el tamao total de muestra n y distribuir este tamao de muestra entre los L estratos. A este proceso se le conoce tambin como afijacin de la muestra. Si se supone que n es conocida, la pregunta que surge es: Qu es una buena afijacin?. Se entender por una buena afijacin, aquella que proporcione mxima precisin para un nivel de confianza dado y de ser posible con el mnimo costo. Como la precisin est relacionada con la varianza, el se buscar minimizar la varianza. Afijacin de Igual Nmero en cada Estrato. La forma ms simple para asignar el tamao de muestra correspondiente a cada estrato, es dividir el tamao total de la muestra entre los L estratos. De este modo la expresin de nh sera la siguiente:

nh =

n L

La asignacin de igual nmero en cada estrato es ineficiente, pero puede haber razones de otro tipo para su empleo. Si se considera que la muestra total n se asigna segn ste criterio, la frmula de la varianza del estimador de la media total toma una expresin particular.
Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM 38

Introduccin al Muestreo Probabilstico

Se parte de la Forma General:

V ( y st ) =
Al sustituir nh =

1 N2

2 Nh Sh 1 2 nh N h =1 L

N
h =1

2 Sh

n , se tendr la frmula particular para la varianza: L 2 L L N 2S 1 L 2 V ( y st ) = 2 h h 2 N h S h N h=1 n N h=1

Determinacin del tamao de Muestra Total n para una Varianza fija D2 Hasta este punto se ha supuesto que se conoce el tamao de muestra n y no se ha mencionado la forma de obtenerlo. Para ello, se parte de la frmula que relaciona precisin, confianza y varianza: d2 = Z2 V ( yst ) 1

Se despeja la varianza y se asignan valores a la precisin d y al coeficiente de confianza Z 21 .

La varianza se iguala a una constante que se llamar D , la varianza deseada.

V ( y st ) =

d2 Z2 1

= D2

Se despejar n al sustituir V ( y st ) por D2 segn el criterio de afijacin igual para cada estrato.
D2 =
L

L N2

h =1

2 2 Nh Sh 1 2 n N

N
h =1

2 Sh

2 N 2D2 + N h Sh = h =1

L L 2 2 Nh Sh n h=1
L

n=

2 2 L N h Sh h =1 2 N 2 D2 + N h Sh h =1 L

Afijacin Proporcional al Tamao del Estrato.


Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM 39

Introduccin al Muestreo Probabilstico

Se parte de una relacin de proporcionalidad que iguala la razn del tamao del estrato respecto al tamao de la poblacin con la razn del tamao de muestra en el estrato respecto al tamao total de la muestra.

nh N h = n N

De donde, al despejar nh se tiene la frmula de afijacin:

nh =

Nh n N

A continuacin se obtendr la expresin correspondiente a la varianza de y st al suponer afijacin proporcional de la muestra. Nuevamente se parte de la Forma General de la varianza de y st .

V ( y st ) =
En ella se sustituye:

1 N2

2 2 Nh Sh 1 2 nh N h =1 L

N
h =1

2 Sh

Nh n N 1 V ( y st ) = 2 N nh =

2 2 Nh Sh 1 L 2 Nh Sh 2 N N h=1 h h =1 n N L N S2 1 1 L 2 V ( y st ) = h h 2 N h S h N h=1 n N h=1 L

El tamao de muestra total n, se obtiene en forma semejante al caso anterior mediante una varianza deseada D2 y se despeja n de la frmula de la varianza de y st con el criterio de afijacin proporcional.
D2 =
2 1 L Nh Sh 1 2 N h=1 n N

N
h =1

2 Sh

2 N 2D2 + N h Sh = N h =1 h =1

2 N h Sh n

n=

2 N N h Sh h =1 2 N 2 D2 + N h Sh h =1 L

Ejemplo 3.2
Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM 40

Introduccin al Muestreo Probabilstico

Una fbrica de productos alimenticios tiene 1,921 empleados en sus plantas y oficinas en todo el pas y requiere estimar la antigedad de sus empleados de las diferentes reas. Se ha estimado la varianza a partir de archivos incompletos. Calcule el tamao de muestra necesario para estimar la antigedad promedio de los empleados toda la fbrica con una precisin de 0.5 aos y un nivel de confianza de 95%. Utilice afijacin proporcional al tamao del estrato y distribuya la muestra resultante.
Estrato Produccin Distribucin Administracin Total

Nh
1,250 531 140 1,921

2 h S

16.0000 49.0000 36.0000

Como se desea calcular inicialmente el tamao total de la muestra se aplicar la siguiente frmula y para ello se complementar el cuadro anterior con clculos adicionales.
2 N N h Sh h =1 2 N D + N h Sh 2 2 h =1 L L

n=

Estrato Produccin Distribucin Administracin Total

Nh
1,250 531 140 1,921

2 h S

2 h NhS

16.0000 49.0000 36.0000

20,000.000 26,019.000 5,040.000 51,059.000

La varianza deseada D2 se obtiene con el cociente del cuadrado de la precisin deseada d = 0.5 entre el cuadrado del coeficiente de confianza Z = 1.96:

D2 =

d2 Z2

0.5 = 0.067057 1.96

Se sustituye en la frmula y se obtiene el tamao de muestra requerido.

n=

1921(51,059.00) (1,921) (0.067057 )2 + 51,059.00


2

336.817

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

41

Introduccin al Muestreo Probabilstico

Se redondea al entero mayor y por tanto n = 337. La distribucin proporcional al tamao del estrato se presenta en la siguiente tabla.
Estrato Produccin Distribucin Administracin Total

Nh
1,250 531 140 1,921

2 h S

2 h NhS

Wh
0.650703 0.276419 0.072879 1.000000

nh
219 93 25 337

16.0000 49.0000 36.0000

20,000.000 26,019.000 5,040.000 51,059.000

Afijacin Optima Es posible incorporar una funcin de costos cuando se conoce la cantidad que cuesta levantar un cuestionario en cada uno de los estratos. Una funcin de uso frecuente es la siguiente:
C = C0 + Ch nh
h =1 L

Donde Co representa la suma de costos fijos y Ch el costo de levantar un cuestionario en el estrato h. Se considera que C1 es el costo total de levantamiento de cuestionarios :
C1 = Ch nh
h =1 L

Dado un presupuesto fijo C1 se pretende distribuir n en los L estratos de manera que la varianza de la media poblacional V ( y st ) sea mnima. Se supone muestreo aleatorio simple en cada estrato. Se parte de la expresin general:

V ( y st ) =

1 N2

2 Nh Sh 1 2 nh N h =1 L

N
h =1

2 Sh

Se define una funcin (nh) y utilizando multiplicadores de Lagrange se minimizar (nh), esto es encontrar la nh que minimice la varianza sujeta a la restriccin de costos. Estrictamente nh es entero, pero para aplicar la tcnica, se supone que nh es cualquier real y as se tendr (nh) continua.

(nh ) =

1 N2

2 2 Nh Sh 1 2 nh N h =1 L

L 2 N S + C h nh C1 h h h =1 h =1
L

Se deriva (nh) respecto a nh (una en especial y el caso se generaliza para cualquier h) y se iguala a cero:
Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM 42

Introduccin al Muestreo Probabilstico

N 2S 2 (nh ) = h2 h + Ch = 0 2 N nh nh
2 2 Nh S Ch = 2 h 2 N nh

n2 h =

2 2 Nh Sh Ch N 2

nh =

Nh Sh

Ch N

(a)

Esta expresin est en funcin de h a la cual se ha dado una equivalencia en trmino de elementos conocidos. Si se suma (a) para toda h hasta L:

n
h =1

N
h =1

Sh

Ch

Pero recurdese que:

n
h =1

=n

n=

N
h =1 L

Sh

Ch

De donde:

N
h =1

Sh nN

Ch

(b )

Se sustituye (b) en (a):

nh =

Nh Sh

Ch Ch

N
h =1

Sh

Se observa que el tamao de la muestra es proporcional directamente al producto NhSh e inversamente proporcional a Ch Varianza del estimador de la Media con Afijacin Optima

1 Sabemos que: V ( y st ) = 2 N

2 2 Nh Sh 1 2 nh N h =1 L

N
h =1

2 Sh

En afijacin ptima tenemos la siguiente expresin para nh:


Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM 43

Introduccin al Muestreo Probabilstico

nh =

Nh Sh

Ch Ch

N
h =1

Sh

Al sustituir en la expresin general de V ( y st )


1 V y st = 2 op N

h =1 L

2 2 Nh Sh

N h Sh

Ch Ch

1 N2

N
h =1

2 Sh

N
h =1

Sh

1 L N S Ch L V y st = 2 h h N h S h N h =1 n op h =1

1 Ch 2 N

N
h =1

2 Sh

Tamao de Muestra Total para una Varianza deseada D2 en Afijacin Optima. Se sustituye en la frmula anterior la varianza deseada:

D2 =

1 L L N h S h Ch L 2 N S C N h Sh h h h 2 n N h =1 h =1 h =1 L L L 2 D 2 N 2 n = N h S h C h N h S h C h n N h S h h =1 h =1 h =1 L L L 2 nD 2 N 2 + N h S h Ch = N h S h C h N h S h h =1 h =1 h =1 L L Ch N h S h C h N h S h h =1 n = h =1 L 2 D2 N 2 + Nh Sh 1 N2
h =1

Tamao de Muestra para un presupuesto fijo C1 Se parte de considerar que el costo de operacin est limitado a un presupuesto C1 y a partir de ello calcular el tamao total de muestra.

C1 = C h n h
h =1

Se sustituye la expresin de nh correspondiente a la afijacin ptima:


Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM 44

Introduccin al Muestreo Probabilstico

C1 = C h
h =1

N h Sh

Ch Ch

N
h =1

Sh

L N h S h Ch h =1 C1 = L Nh Sh Ch h =1

n=

C1 N h S h

N
h =1

h =1 L

Ch

S h Ch

Afijacin de Neyman y otros criterios como casos particulares de la afijacin ptima. La afijacin de Neyman se puede considerar un caso particular de la afijacin ptima en el que el costo de cada entrevista es igual en todos los estratos, es decir Ch = K1 para toda h. Se parte de la frmula de nh para la afijacin ptima.

nh =

N h Sh

K1 K1

N
h =1

Sh

Se obtiene la frmula de Neyman

nh =

Nh Sh

N
h =1

Sh

La frmula para la varianza del estimador de la media se obtiene mediante un procedimiento anlogo de sustitucin. 2 L NhSh 1 h=1 1 L 2 = V y 2 NhSh st N 2 n N h =1 ney Finalmente la frmula para el tamao general de muestra con afijacin de Neyman.:
L NhSh h =1
L h =1 2

n=

D 2 N 2 + NhSh 2
45

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

Introduccin al Muestreo Probabilstico

Ahora se parte de la frmula de afijacin de Neyman y considrese el caso de desviaciones estndares iguales en todos los estratos. Esto es Sh = K2

nh =

NhK 2

N
h =1 L

K2

nh =

Nh

N
h =1

n
h

nh =

Nh n N

Pero esta ltima expresin corresponde a la afijacin proporcional. As la afijacin proporcional se considera un caso particular de la afijacion ptima en el que tanto los costos, como las varianzas en los estratos son iguales. Finalmente se parte de la frmula de afijacin proporcional y ahora considrese que los tamaos de los estratos son iguales, Nh = K3.

nh =

K3

K3
h =1

nh =

1 n L

Resulta la afijacin de muestra igual en todos los estratos. En conclusin el asignar tamaos de muestra iguales a todos los estratos resulta en varianza mnima, solamente que costos, varianzas y tamaos de los estratos sean homogneos. En la medida que uno o ms supuestos no se cumplan, la afijacin igual en cada estrato resulta menos eficiente para estimar el parmetro global. Hay que insistir en que con frecuencia hay conflicto de intereses entre la estimacin del parmetros global y las estimaciones para los estratos cuando stos son dominios de estudio. En estos casos se sacrifica un poco la precisin en la estimacin global para lograr precisiones homogneas en los estratos.

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

46

Introduccin al Muestreo Probabilstico

3.5 Comparacin del Muestreo Estratificado con Afijacin Proporcional y el Muestreo Aleatorio Simple. Al inicio de este captulo se argument que el muestreo estratificado brinda estimadores ms eficientes que los que se obtienen por muestreo aleatorio simple. Se verificar a continuacin que la varianza del estimador de la media es menor mediante el muestreo estratificado con afijacin proporcional al compararla con la varianza del estimador de la media resultante del muestreo aleatorio simple. Si el factor de correccin por finitud es ignorado se pueden tomar las siguientes expresiones de la varianza: S2 V ( y m.a .s. ) = n
V ( y st ) =

NhSh
h =1

nN

Se parte de la expresin que corresponde a S2 para toda la poblacin.

S2 =
L

( yh
h =1 i =1

Nh

Y )

N 1
Y )
2

(N 1)S 2 = ( yhi
h =1 i =1 L Nh

Nh

= ( yhi Y h + Y h Y )
h =1 i =1 L Nh 2 L Nh

= ( yhi Y h ) + (Y h Y )
h =1 i =1 h =1 i =1

Si se considera vlida la aproximacin tendr:


NS 2 = NhSh 2 + ( Y h Y )
h =1 h =1 i =1 L L L Nh 2

Nh Nh-1 y Nh Nh-1 para valores grandes de Nh, se

S = n

NhSh
h =1

( Y h Y )
+
h =1 i = 1

Nh

nN

nN

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

47

Introduccin al Muestreo Probabilstico

V ( y m.a .s. )

= V y st + prop

( Y h Y )
h =1 i =1

Nh

nN

La varianza del muestreo aleatorio simple es entonces igual a la del muestreo con afijacin proporcional ms la variacin entre estratos. Ello ilustra la mayor eficiencia del muestreo estratificado en la medida en que se logran estratos que maximicen la varianza entre estratos y minimicen la varianza dentro de estratos.
V ( y m.a .s. ) V y st prop

3.6 Comparacin del Muestreo Estratificado con Afijacin Proporcional y el Muestreo Estratificado con Afijacin de Neyman Nuevamente, si se ignora el factor de correccin por finitud las expresiones de la varianza de la media se toman de la manera siguiente:

V y st = prop

NhSh
h =1

nN
2

L NhSh h =1 V 2 y st = nN ney

Se parte de la expresin de la varianza de la media proporcionala la cual se le suma y resta la varianza de Neyman.
L L NhSh NhSh NhSh 1 1 1 h =1 h =1 + 2 h =1 V y st = 2 N n n n N N prop
L 2 2 2

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

48

Introduccin al Muestreo Probabilstico

L NhSh 2 2 L 1 = V y st + h =1 2 NhSh N n h =1 ney nN 1 = V y st + ney nN


2 1 L L 2 NhSh NhSh N h =1 h =1

2 2 1 2 L 1 L L 2 = V y st + NhSh NhSh + NhSh N h =1 N h =1 h =1 ney nN L Nh L 2 2 L L 1 2 NhSh 2 NhSh + h =1 2 NhSh = V y st + N h =1 N h =1 ney nN h =1 2 L L L L 2 NhSh NhSh Nh NhSh 1 L h =1 h =1 h =1 h =1 2 = V y st + + NhSh 2 nN h =1 N N ney 2 L L NhSh NhSh Nh 2 2 Sh h =1 h =1 h =1 + + = V y Sh st 2 nN N N ney L

Nh h =1 Sh + = V y st nN ney Por lo tanto


L

NhSh h =1 N
L

V y st V y st prop ney

Se concluye que la varianza del estimador de la media con afijacin proporcional es igual a la varianza del estimador con afijacin de Neyman ms una cantidad que solamente se anula cuando las desviaciones estndares de los estratos son todas iguales.
Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM 49

Introduccin al Muestreo Probabilstico

Se cumple entonces la triple desigualdad:

V ( y mas ) V ( y prop ) V ( y Ney )


Ejemplo 3.3 Utilice los datos por estratos del Ejemplo 3.2 y calcule el tamao de muestra necesario para alcanzar una precisin d = 0.5 en la estimacin de la media global, con una confianza del 95% . Considere en este caso afijacin de Neyman. Se aplicarn las frmulas siguientes

n=

L NhSh h=1
L h =1

nh =

N h Sh

D 2 N 2 + NhSh 2
Estrato

N S
h =1 h

n
h

Nh
1,250 531 140 1,921

2 h S

2 h NhS

Wh
0.6507 0.2764 0.0729 1.0000

h NhS
5,000.000 3,717.000 840.000 9,557.000

nh
164 122 28 314

Produccin Distribucin Administracin Total

16.000 49.000 36.000

20,000.000 26,019.000 5,040.000 51,059.000

Z = 1.96 d = 0.5 D2 = 0.067057

n = 313.64

Note que el tamao de muestra obtenido mediante Neyman es ms pequeo en 23 unidades comparado con el calculado para afijacin proporcional al tamao con las mismas condiciones de precisin y nivel de confianza.

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

50

Introduccin al Muestreo Probabilstico

4 MUESTREO POR CONGLOMERADOS 4.1 Definicin y Notacin El muestreo por conglomerados se considera como una opcin de gran utilidad en situaciones en las que por limitaciones prcticas no se dispone de un marco de unidades elementales de observacin o por razones econmicas resulta ms conveniente recolectar datos en agrupamientos naturales de la poblacin, como lo son empresas, escuelas, hospitales, municipios, localidades, etc. Se considera que la poblacin se forma de M conglomerados como unidades de primera etapa (UPM) de las cuales se toma una muestra aleatoria simple de tamao m. Cada conglomerado tiene Ni elementos de los cuales se toma una muestra aleatoria simple de tamao ni.

Notacin M m Ni Nmero de conglomerados en la poblacin Nmero de conglomerados en muestra Tamao del conglomerado i.
M

N = Ni
i =1

Tamao de la poblacin

ni

Tamao de la muestra en conglomerado i.

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

52

Introduccin al Muestreo Probabilstico

n = ni
i =1

Tamao total de muestra

y ij

Valor de la caracterstica del j del conglomerado i.

yi =

Y
i =1

ni

ij

ni

Media muestral del conglomerado i.

Yi =

Y
i =1

Ni

ij

Ni

Media total del conglomerado i. Estimador del total del conglomerado i.

$ =N y Y i i i

YC =

1 M

Y
i =1

Media de totales por conglomerado en la poblacin

m C = 1 Y i Media de totales por conglomerado en la muestra. Y m i =1


2

1 M S = (Yi YC ) M 1 i =1
2 e

Cuasivarianza entre totales por conglomerados en la poblacin.

e2 = S

1 m Yi YC m 1 i =1

Cuasivarianza entre totales por conglomerados en la muestra


2

1 Ni S = (Yij Yi ) Cuasivarianza de elementos dentro del conglomerado i de la poblacin. N i 1 j =1


2 i

i2 = S

1 ni Yij Yi ni 1 j =1

Cuasivarianza de elementos dentro del conglomerado i de la muestra.

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

53

Introduccin al Muestreo Probabilstico

4.2 Estimador del Total El estimador se basa en el clculo del promedio por unidad elemental dentro de cada conglomerado el cual se expande al total del conglomerado al multiplicar por Ni. A continuacin se promedian estos totales para los m conglomerados en muestra y luego se expanden por el nmero M de conglomerados en la poblacin para as tener una estimacin del total de la variable.

$= M Y m

Ni ni ni Yij i =1 j =1

En forma alternativa, cada unidad en muestra se multiplica por un factor de expansin que es igual a los recprocos de las probabilidades de seleccin en cada etapa.
m ni m ni M Ni Y = Yij = Fi Yij i =1 j =1 m ni i =1 j =1

Propiedades del Estimador El estimador del total es un estimador insesgado. Se prueba fcilmente al tomar esperanzas condicionales en cada etapa.

) = Ei Ej (Y ) E (Y M = Ei E j m M = Ei m Ni ni y ij i =1 ni j =1
m

ni y ij m j =1 Ni E j ni i =1

M = Ei m M = Ei m = MYC =Y

Ni Y
i =1 m i

Y
i =1 i

La varianza del estimador del total se puede descomponer fcilmente en sus dos fuentes: la varianza entre conglomerados y la varianza dentro de conglomerados. Se suma la varianza de la muestra aleatoria simple de conglomerados en primera etapa y la varianza de las muestras aleatorias dentro de conglomerados en la segunda etapa.

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

54

Introduccin al Muestreo Probabilstico

M S2 Ni ni S i2 ) = M 2 M m e + M N i2 V (Y M44 m 1 m4 Ni ni 24 4 i =1 14 4 2 3 44 4 44 3 Entre Conglomerados Dentro de Conglomerados

La varianza del estimador del total est en funcin de las cuasivarianzas entre y dentro de conglomerados: 2 1 M 2 Se = (Yi YC ) M 1 i =1

1 Ni (Yij Yi ) N i 1 j =1 La siguiente frmula permite su estimacin insesgada. S i2 =


m 2 i2 S Ni ni S (Y ) = M 2 M m e + M N i2 V M44 m 1 m4 Ni ni 24 4 i =1 14 4 2 3 44 4 44 3 Entre Conglomerados Dentro de Conglomerados

El mayor aporte a la varianza se da entre conglomerados, usualmente ms del 90%. Ello sugiere que entre ms conglomerados tenga la muestra, el estimador resulta ms eficiente. Si se requiere incrementar la muestra, conviene ms incrementar el nmero de conglomerados en muestra que incrementar el nmero de unidades elementales en muestra dentro de los conglomerados. 4.3 Relacin del Muestreo por Conglomerados y el Muestreo Estratificado Si el tamao de muestra de conglomerados, (unidades de primera etapa UPM) es igual al total de conglomerados en la poblacin, esto es m = M, lo cual equivale a un censo de UPMs, el estimador del total por conglomerados coincide con el estimador del total por muestreo estratificado.

=M Y M

Ni i =1 ni
M

Y
j =1 ni j =1

ni

ij

= N
i =1 M

Ni 1 N ni Ni yi N

ij

= N
i =1 M

= N Wi yi
i =1

La varianza del estimador del total obviamente coincidir con la forma general de la varianza para muestreo estratificado. e2 M m 2 i2 ni S m S 2 V (Y ) = M 1 + N i 1 M m m i =1 N i ni
Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM 55

Introduccin al Muestreo Probabilstico

M = M 2 1 M

e2 M S + m M

i2 ni S 2 1 N i i =1 N i ni
M

N2 = 2 N

i2 ni S N 1 N i =1 i ni
M 2 i

= N2
i =1

i2 N i2 ni S 1 N2 N i ni
M

(Y ) = N 2 Wi 2V ( yi ) V
i =1

Se concluye que el muestreo estratificado es equivalente a un censo de conglomerados. Por otra parte, si todas las unidades dentro de los conglomerados en muestra son seleccionadas, entonces la contribucin de la varianza se reduce a la contribucin entre conglomerados.

2 S (Y ) = M 2 M m e V M m
Se mencion que la proporcin de la varianza entre conglomerados es mayor que la varianza dentro de conglomerados y que por ello es ms eficiente incrementar el nmero de conglomerados en muestra que incrementar el nmero de elementos dentro de conglomerados. Esto se debe a la redundancia informativa que se presenta dentro de cada conglomerado al estar formados por unidades con alto grado de homogeneidad. Por simplicidad en los siguientes anlisis, considrese el caso de tamaos de conglomerados iguales y tamaos de muestra iguales dentro de cada conglomerado.

Ni = N =

N M

ni = n =

n m

El estimador de la media poblacional se resulta ser equivalente al promedio simple de todas las unidades en muestra.

= 1 M Y N m =

N i =1 n
m

y
j =1 n

ij

1 M N N m n

y
i =1 j =1

ij

1 m n = yij mn i =1 j =1
Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM 56

Introduccin al Muestreo Probabilstico

El estimador de la varianza tambin experimenta un cambio sustancial.


e2 M m S ) = 12 M 2 (Y 1 V + N Mm m i2 n S 2 1 N N n i =1
M

e2 i2 1 1 M N 2 N n M S m S 2 + 2 = 2 M 1 2 N M m N m M N i =1 n = e2 i2 1 1 M N 2 N n M S m S 2 1 M + 2 N2 M m N mn M N i =1 M
= m 1 1 2 N M 2 2 1 N n M S S i e + m n m N i =1 M

2 m S12e N n S 2 + = 1 i M m N nm

Donde

2 S2 i = i =1

i2 S M

S e2 S = 2 N
2 1e

La varianza de la media queda expresada en otros trminos por:


2 m S 2 N n S2 )= V (Y i 1 1e + M m N nm

Pero alternativamente se puede expresar:

m S2 N n 1 )= V (Y 1 1e + M m N M

Si2 i =1 n m
M

4.4 Coeficiente de Correlacin Intraclase. Las unidades de anlisis dentro de un mismo conglomerado presentan semejanzas que son medidas a travs del coeficiente de correlacin calculado entre todas las parejas posibles de Ni unidades dentro de un mismo conglomerado 2 =Ni(Ni-1)/2. El coeficiente de correlacin intraclase mide la relacin lineal entre las parejas de un mismo conglomerado, pero tambin se puede interpretar como el incremento en la probabilidad de que dos unidades seleccionadas al azar dentro de un mismo conglomerado tengan el mismo valor para la variable de anlisis respecto de una seleccin no conglomerada.

r=

E ((Yij Y )(Yik Y ) ) E (Yij Y ) 2

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

57

Introduccin al Muestreo Probabilstico

r=

(Y
M N 1 N j< k i =1

ij M

Y )(Yik Y ) /( MN ( N 1) / 2)
N ij

(Y
i =1 j =1 M N 1 N j< k ij

Y )2 / M N

(Y
i =1

Y )(Yik Y ) /( MN ( N 1) / 2)
N

( MN 1) (Yij Y ) 2 / ( MN ( MN 1))
i =1 j =1

(Y
M N 1 N j< k i =1

ij

Y )(Yik Y ) /( MN ( N 1) / 2) ( MN 1) S 2 / MN

r=

2 (Yij Y )(Yik Y
M N 1 N j< k i =1

(N 1)(MN 1)S 2

4.5 Relacin del Muestreo por Conglomerados y el Muestreo Aleatorio Simple Se ha argumentado que el muestreo por conglomerados resulta ms econmico que el muestreo aleatorio simple, pues abarata costos al tomar unidades cercanas dentro de un mismo conglomerado, el cual puede ser una manzana como conglomerado de viviendas, una escuela como conglomerado de estudiantes, una fbrica como conglomerado de obreros, etc. Pero cul es el costo en eficiencia estadstica?. Para dar respuesta, se Inicia con la revisin de la varianza total, la cual queda reflejada en la siguiente frmula:

S =
2 i =1 i =1

Ni

(y

ij

Y )

N 1
2 S2 i

Esta S 2 se relaciona con

S12e y con

de la siguiente forma:
2 S2 i =

S12e =

MN 1 2 S [1 + ( N 1)r ] N 2 ( M 1)

MN 1 2 S (1 r ) MN

Donde r es el coeficiente de correlacin intraclase. Al sustituir estas expresionaes en la frmula de la varianza de la media se obtiene la relacin de la varianza del muestreo aleatorio simple con la del muestreo por conglomerados . Se observa fcilmente que la varianza del estimador de la media por conglomerados es mayor que la del muestreo aleatorio simple y que la diferencia se incrementa con el valor del coeficiente de correlacin y el tamao medio de muestra dentro de cada conglomerado.
Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM 58

Introduccin al Muestreo Probabilstico

2 m S 2 N n S2 )= V (Y 1 1e + i M m N nm

)=V MAS )[1 + (n 1)r ] (Y (Y V


El efecto de diseo fue definido por Kish (Design Effect abreviado Deff) como el cociente de la varianza del estimador con el modelo seleccionado, entre la varianza del estimador correspondiente con muestreo aleatorio simple . Algunos autores hacen referencia a la raz cuadrada del Deff identficndolo como Deft y que dara como consecuencia el cociente anlogo entre errores estndares.

Deff =

) (Y V = [1 + (n 1)r ] MAS ) (Y V

) = V(Y mas )Deff esta relacin es frecuentemente aprovechada para calcular el V(Y De donde tamao de muestra por conglomerados a partir del clculo del tamao por muestreo aleatorio simple y posteriormente multiplicndolo por el efecto de diseo.
Si se conoce el efecto de diseo y el tamao de muestra medio por conglomerado, se puede calcular el coeficiente de correlacin intraclase en forma ms simple que a partir del Deff.

r=

Deff 1 n 1

4.6 Asignacin de Muestra Una vez que se ha decidido efectuar un muestreo por conglomerados se debe determinar cuntas unidades primarias de muestreo (UPM) o conglomerados (m) hay que seleccionar en una primera n etapa etapa y cuntas unidades de segunda hay que seleccionar como promedio en cada conglomerado. Para tener una menor varianza y costo.
2 2 S S m N n 1 e 2 ) = 1 + V (Y i M m N nm

Como funcin de costo se supondr una que involucre los costos unitarios por acceder a una unidad de primera etapa y a una de segunda etapa multiplicados por los respectivos tamaos. El total ser igual al costo variable del proyecto.

cV = c1m + c2 mn
Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM 59

Introduccin al Muestreo Probabilstico

Se procede a definir una funcin que involucra la varianza y la restriccin de la funcin de costos para minimizarla con la tcnica del Multiplicador de Lagrange ya utilizada en muestreo estratificado.
2 2 M m S1e N n S 2i + + (c1m + c2 mn cV ) = M m N nm

Se procede a derivar la funcin respecto de m y n media e igualar a cero.


2 2 S12e S 2 S2 i i = 2 2 + + (c1 + c2 n ) = 0 m m m n Nm2

2 S2 = i 2 + c2 m = 0 m mn

La primera ecuacin se multiplica por m 2 y la segunda por m


2 2 S2 S2 i S + i + m 2 (c1 + c2 n ) = 0 n N 2 1e

2 S2 2i + c2 m 2 = 0 n

Se despeja

m 2

en la segunda ecuacin y se sustituye en la primera


2 S2 m = i 2 c2 n 2

2 2 2 S2 S2 S2 i i S + + i 2 (c1 + c2 n ) = 0 n N c2 n 2 1e

Se distribuye el producto y se efectan las cancelaciones necesarias


2 2 2 2 S2 S2 S2 S2 i i i c1 S + + + i =0 2 n N c2 n n 2 1e

2 2 S2 S2 c1 i S + + i2 =0 N c2 n 2 1e

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

60

Introduccin al Muestreo Probabilstico

Finalmente se despeja el tamao medio de muestra en cada conglomerado.

n=

c1 2 S 2i c2 2 S2 2 S1e i N

Una forma alternativa de expresar el tamao medio por conglomerado es mediante el coeficiente de correlacin intraclase. Se observa fcilmente que a mayor costo por UPM se incrementa la muestra dentro de los conglomerados y que al aumentar el coeficiente de correlacin intraclase, se tiende a disminuir el tamao de muestra dentro de los conglomerados.

n=

c1 1 r c2 r

cT = c1m + c2 mn

m=

cT (c1 + c2 n )

El ahorro econmico en los diseos por conglomerados trae aparejada la disminucin en la precisin que provoca el efecto de conglomeracin. Ello da lugar para que los diseadores mezclen el muestreo por conglomerados con otros recursos como el muestreo estratificado y el uso de variables con informacin adicional incorporada va procedimientos de seleccin con probabilidades no homogneas, estimadores de razn, regresin, etc.

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

61

Introduccin al Muestreo Probabilstico

5. MUESTREO SISTEMATICO 5.1 Introduccin Suponga que una empresa con 10,000 trabajadores desea extraer una muestra de 500 de ellos para conocer su opinin sobre aspectos contractuales. Una muestra aleatoria simple puede ser la respuesta inmediata, pero ello implica un tiempo excesivo para la seleccin. Si el archivo de personal est grabado en medios magnticos, otra opcin es solicitarle al departamento de informtica que emita un listado utilizando un salto sistemtico cada 20 registros. El muestreo ofrece ventajas notables por su facilidad de seleccin, sin embargo, hay que guardar ciertas precauciones con el marco para seleccionar la muestra, pues se puede incurrir en sesgos notables debidos a un ordenamiento relacionado con las variables objetivo de la investigacin. En principio se supone que la muestra es un submltiplo de la poblacin, esto es que existe una K entera tal que el tamao de la poblacin se puede expresar por el producto de K y el tamao de muestra: N = K*n Cuando la proporcionalidad se cumple en forma estricta, esto es K es un entero, el procedimiento de seleccin consiste en los siguientes pasos: Seleccionar un nmero aleatorio A entero en el intervalo 1 A K. Tomar el elemento A de la poblacin como primera unidad en muestra Sumar K al aleatorio A y el nmero obtenido ser la siguiente unidad en muestra. Repetir el procedimiento de suma para extraer la unidad A+2K, A+3K,...,A+(n-1)K Suponga que se tiene una poblacin con 12 elementos cuyos valores para la variable de inters son: Y1,Y2,......Y12 Se toma una muestra de tamao n = 4 y por tanto K = 3 En funcin del nmero aleatorio de arranque A en el intervalo [1, 3]. Existen 3 posibles muestras sistemticas. Y1 Y4 Y7 Y10 Y2 Y5 Y8 Y11 Y3 Y6 Y9 Y12
62

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

Introduccin al Muestreo Probabilstico

Cada muestra tiene probabilidad 1/K = 1/3 de ser seleccionada. Si A=1 se incluyen en la muestra Y1,Y4,Y7 y Y10. Si se toma una muestra n = 3 entonces K = 4 y las diferentes muestras se configuran como sigue: Y1 Y5 Y9 Y2 Y6 Y10 Y3 Y7 Y11 Y4 Y8 Y12

Suponga que en lugar de seleccionar cada 3 o cada 4, elementos se selecciona uno de cada 5, esto es N ahora es diferente del producto nk. Las 5 muestras resultantes seran: Y1 Y6 Y11 Y2 Y7 Y12 Y3 Y8 Y4 Y9 Y5 Y10

Cada una de ellas con probabilidad 1/5 y se tendran entonces dos muestra de tamao 3 y tres muestras de tamao 2. Ahora se verificar que el estimador de la media mediante el muestreo sistemtico es insesgado si se cumple la relacin de proporcionalidad.
E ( y sis ) = =
=

1 ( y + y 2 +.....+ y k ) K 1 1 1 ( y + y 2 +.....+ y12 ) Kn 1


1 N

y
i =1

=Y

Claramente si K por n no es igual a N el estimador resulta sesgado. En la prctica el sesgo es muy pequeo y no se suele tomar en cuenta. Una de las alternativas que se utilizan en la prctica es tomar K no entera. El procedimiento con la ayuda de una calculadora de bolsillo sera como sigue: Suponga que se tiene una poblacin de tamao N = 1000 y se desea tomar una muestra de tamao n= 145 esto implica K=N/n = 1000/145=6.8955 Guarde en la memoria de su calculadora el valor de K =6.8955 Se toma un nmero aleatorio A en el intervalo de uno a la parte entera de K, esto es en el intervalo [1,6]
Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM 63

Introduccin al Muestreo Probabilstico

Suponga que el nmero aleatorio que se obtiene es A = 4. Seleccione el elemento que ocupa la posicin A en el archivo como primera unidad en muestra.. Sume al aleatorio A = 4 el valor K=6.8955 lo cual le da el valor 10.8995 Tome la parte entera del valor obtenido para incluir la unidad 10 en muestra. A 10.8995 smele el valor K=6.8995 que tiene en la memoria y el resultado ahora es 17.7990 Tome la parte entera (17) y seleccione el elemento correspondiente. Contine sumando hasta que la suma supere el tamao N. En ese punto habr concluido la seleccin y tendr en muestra n = 145 elementos. El procedimiento no tiene saltos sistemticos estrictamente del mismo tamao, pero el efecto de sesgo se puede considerar despreciable.

5.2 Varianza del Estimador de la Media A partir de la definicin de varianza se obtiene la expresin para el estimador que parte de una muestra sistemtica.

V ( y sis ) =

1 K ( yi Y ) 2 k i =1

Puesto que hay K muestras distintas, cada una con probabilidad 1/K Esta sencilla frmula encierra, sin embargo, la dificultad de no contar con un estimador de la varianza del estimador, pues solamente disponemos de una de las K muestras. A continuacin se procede a analizar la varianza de la media estimada por muestreo sistemtico. Se parte de la suma de cuadrados total, la cual se podr expresar como la suma de cuadrados dentro de cada muestra sistemtica y la suma de cuadrados entre las K muestras sistemticas.

(y
K n i =1 j=1

ij

Y ) = (y ij Yi ) + (Yi Y )
2 K n i =1 j=1

= (y ij Yi ) 2 + (Yi Y ) 2 + 2( y ij Yi )(Yi Y )
i =1 j=1

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

64

Introduccin al Muestreo Probabilstico

= (y ij Yi ) 2 + (Yi Y ) 2 + 2 ( y ij Yi )(Yi Y )
i =1 j=1 i =1 j =1 i =1 j =1

= (y ij Yi ) 2 + n (Yi Y ) 2 + 2 (Yi Y ) ( y ij Yi )
i =1 j=1 i =1 i =1 j =1

= (y ij Yi ) + n (Yi Y ) 2
2 i =1 j=1 i =1

Por tanto, si se despeja el segundo sumando se tendr


n (Yi Y ) 2 = (y ij Yi ) 2 ( y ij Yi )
K K n K n i =1 i =1 j=1 i =1 j =1 2

El miembro derecho se multiplica y divide por K y se tiene la varianza de la media por muestreo sistemtico.
nK 1 K

(Yi Y ) 2 = (y ij Yi ) 2 (yij Yi )
K K n K n i =1 i =1 j=1 i =1 j =1 K n K n 2

nKV ( y sis ) = (y ij Yi ) 2 ( y ij Yi )
i =1 j=1 i =1 j =1

1 V ( y sis ) = nK

(y
i =1 j=1

ij

Yi ) 2

1 nK

(y
K n i =1 j =1

ij

Yi )

Se multiplica y divide el segundo sumando por N-1 para obtener una expresin en funcin de S2.
= 1 N 1 1 K n (y ij Yi ) 2 N N 1 i =1 j=1 N N 1 2 1 S N N

(y
K n i =1 j =1 2

ij

Yi )

V ( y sis ) =

(y
K n i =1 j =1

ij

Yi )

El primer sumando se puede considerar constante en cualquier poblacin. El trmino que se resta depende de la varianza dentro de cada muestra, entonces en la medida en que cada muestra sea ms diversa, esto es, que tenga mayor varianza, tendr como efecto que la varianza de la media del muestreo sistemtico ser menor.

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

65

Introduccin al Muestreo Probabilstico

Esta caracterstica se suele aprovechar al ordenar las unidades a seleccionar en el marco de muestreo en funcin de una variable correlacionada con la variable objetivo o la misma variable con datos correspondientes a una medicin previa. Entonces se puede proceder con la seleccin sistemtica. A este procedimiento se le conoce como induccin de una Estratificacin Implcita. Es equivalente a tomar una sola observacin de los K estratos homogneos dentro de s y por tanto no es estimable la varianza dentro de cada estrato.

5.3 Coeficiente de Correlacin Intramuestras. Otra forma de medir la heterogeneidad de las muestras sistemticas es a travs del coeficiente de correlacin intramuestras. Este coeficiente se calcula de manera similar al coeficiente de correlacin intraclase del muestreo por conglomerados y la varianza del muestreo sistemtico se relaciona con el muestreo aleatorio simple y el coeficiente de correlacin intramuestras de forma anloga a la relacin de muestreo por conglomerados con el aleatorio simple.

V ( y sis ) = V ( y MAS )[1 + (n 1)r ]


De donde se puede despejar el valor de r.

V ( y sis ) 1 V ( y MAS ) r= n 1

o bien en trminos del efecto de diseo

r=

Deff 1 n 1

Se nota fcilmente que si r = 0 la varianza del estimador de la media sistemtica es equivalente a la del MAS, pero si r es grande, entonces la varianza del muestreo sistemtico ser tambin grande. Pero si r<0 entonces se logra mayor eficiencia. Para la estimacin de varianzas en la prctica se tienen dos alternativas: Suponer que la muestra se ha extrado por muestreo aleatorio simple y aplicar la frmula de estimacin de varianza que ya conocemos a partir de S2 estimada con una muestra. Si se adopt una estimacin implcita, esta opcin ser conservadora, se espera que la varianza sea sensiblemente menor que la del muestreo aleatorio simple. Tomar varios (m) arranques aleatorios de modo que m = n/L para estimar en cada uno de ellos la media del grupo y a partir de las desviaciones de las medias de grupo respecto de la media global sistemtica y as estimar la varianza de la media global como varianza de la media de las m submuestras.
( y sis ) = V

(y
i =1

y sis )

m(m 1)

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

66

Introduccin al Muestreo Probabilstico

6. ESTIMADORES DE RAZON 6.1 Introduccion Es muy frecuente que a partir de los datos de una encuesta se requiera la estimacin de razones de variables que corresponden a la estructura de una clasificacin o unin de categoras. Por ejemplo a un banco le interesa conocer del monto total de crditos que otorga, cunto corresponde a la compra de automviles. A un economista le interesa saber la proporcin del gasto destinado a alimentos respecto del ingreso total de los hogares. A un demgrafo le interesa conocer la razn de trabajadores que ganan dos salarios mnimos o menos entre todos los que se dedican a la construccin. A un organismo de capacitacin agropecuaria le interesa conocer la proporcin de la superficie de tierras que permanecen ociosas respecto del la superficie total de tierras cultivables. En todos los casos el parmetro que se desea estimar es una razn:

R=

y x
i =1 i =1 N

La estimacin del parmetro se realiza a travs de la razn muestral de las sumas para las dos variables o de la razn de sus medias: = R

y x
i =1 i =1 n

y x

El cociente de estas dos medias se debe analizar en forma especial, pues los valores de las sumas o promedios muestrales, varan de muestra a muestra. Se tiene el cociente de dos variables aleatorias y el estimador resulta ligeramente sesgado. Por otra parte en el clculo de la varianza de este estimador hay que considerar la presencia de covarianzas entre las varables que se involucran en el cociente. La estimacin de razones, tambin es un recurso muy utilizado para lograr estimadores ms eficientes cuando se dispone de una variable auxiliar fuertemente correlacionada con la variable objetivo. Por ejemplo, se dispone del nmero de viviendas censadas de un grupo de localidades y se desea estimar el total de viviendas con nios en edad escolar que requieren de becas. Para comprender de manera ms simple a este tipo de estimador, considrense los datos a nivel de AGEB de poblacin total y poblacin econmicamente activa (PEA) de la Delegacin de Coyoacn segn el censo del 2000. La poblacin total de las 153 AGEBs es 643,623 personas y de ellas 287,911 pertenecen a la PEA. La razn de la PEA a la poblacin total es R=0.4495638. Ambas variables estn fuertemente correlacionadas. Su correlacin es r = 0.993112 .

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

67

Introduccin al Muestreo Probabilstico

6.2 Interpretacin Geomtrica del Estimador de Razn. La razn R se interpreta geomtricamente como la pendiente de una recta que pasa por el origen y que describe, en nuestro ejemplo, una relacin lineal entre la poblacin total y la PEA. Puesto que la R no es constante para todas las AGEBs, hay que considerar un trmino de error y el modelo forzado a pasar por el origen se expresa como sigue:

y = Rx +
Se procede a continuacin a estimar el valor de Y correspondiente a cada valor de X observados como el producto de la razn por la poblacin total en cada AGEB. para i = 1,2,,n. Los valores observados y estimados se presentan en el siguiente grfico de dispersin:
Poblacin Total vs Poblacin Econmicamente Activa y Razn por Poblacin Total AGEBs de Coyoacn
7,000

y i = Rxi

6,000

Coeficiente de Correlacin r = 0.99311298

5,000

4,000
PEA

3,000

PEA y R*x

2,000

Razn PEA/PTOTAL R = 0.4495638

1,000

2,000 4,000 6,000 8,000 10,000 12,000 14,000


Poblacin Total de AGEB

De acuerdo con el modelo expuesto, es factible obtener un estimador de la razn por mnimos cuadrados ordinarios para el modelo forzado al origen, el cual adopta la siguiente forma:

= R

x y
i =1 n i

x
i =1

2 i

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

68

Introduccin al Muestreo Probabilstico

Pero la varianza de Yi dado un valor de X i adopta la forma 2 xi , esto es, es proporcional a X i . Para evitar este inconveniente se utilizan mnimos cuadrados ponderados y se adopta la variable transformada Yi / X i , cuya varianza 2 no depende de X i . As entonces, se minimiza la suma de cuadrados ponderada y estimador resulta ser de mnimos cuadrados ponderados :

(y
i =1

Rxi )

1 xi

n d n ( yi Rxi )2 1 = 2 xi yi Rxi2 1 = 0 dR i =1 xi xi i =1

De donde se tiene

( yi Rxi ) = 0
i =1

= y por lo tanto R

y x
i =1 i =1 n

y x

6.3 Sesgo y Varianza del Estimador de Razn. El estimador de la razn expuesto no es un estimador insesgado, pero su sesgo disminuye sensiblemente para valores moderadamente altos de la muestra n. Se proceder, sin embargo, a un anlisis ms detallado del sesgo. Primero considrense las siguientes igualdades:

(y Y ) y = Y + ( y Y ) = Y 1 + Y
(x X ) x = X + (x X ) = X 1 + X
Entonces el estimador de razn adopta la siguiente forma:

( y Y ) 1 + (x X ) = y=Y R 1 + x X Y X

( y Y ) ( x X ) = R 1 + 1 + Y X

El segundo parntesis se puede expresar en trminos de un desarrollo en serie de Taylor

( y Y ) (x X ) + (x X )2 ......... = y = R 1 R 1 + x Y X X2
Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM 69

Introduccin al Muestreo Probabilstico

De donde al efectuar el producto se obtiene:

( y Y ) ( x X ) ( x X )2 ( y Y )(x X ) y R = = R 1+ + ......... 2 x Y X YX X

para los primeros 5 trminos de la serie A continuacin se toma valor esperado de R


2 ( ( ( ( y Y )(x X ) ......... y Y ) x X) x X) E (R ) = E R + R R R +R 2 Y X Y X X 2 E( y Y ) E (x X ) E (x X ) E ( y Y )( x X ) R R R R = + + R ......... 2 Y X YX X

R R Cov( y , x )........ = R + R(0) R(0) + 2 V ( x ) YX X


R+ R N n S x2 R N n SySx 2 n X N n YX N R N n S x2 1 Y N n SySx 2 n X N n YX X N R X2
2 1 N n Sx 2 X N n

R+

R+

N n SySx n N

N n 1 R+ RS x2 S y S x 2 N nX

Entonces el sesgo aproximado del estimador es:

N n 1 ) R E(R RS x2 S y S x 2 N nX

El sesgo se anula si se cumple la siguiente condicin o se reduce en la medida que sea mnima la diferencia.
RS x S y = 0

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

70

Introduccin al Muestreo Probabilstico

Varianza del estimador de la razn: La varianza del estimador de razn se puede interpretar como la dispersin de rectas muestrales en torno a la recta poblacional.
) = E (R R) V (R
2

Si se supone que la diferencia entre la media muestral de x y la media poblacional de la misma variable es pequea, entonces x = X y la diferencia entre estimador de la razn y el parmetro se puede expresar:

R = y Rx R X = 1 1 n ( yi Rxi ) X n i =1

Si ahora se definen nuevas variables como diferencias:

d i = yi Rxi
La expresin anterior se expresa como promedio de diferencias.

1 = X

1 n 1 n ( y i Rxi ) = X i =1

d
i =1

La media parametral de las variables de diferencias es nula

D=

d
i =1

1 N

(y
i =1

Rxi ) = Y RX = 0

Entonces la varianza de la razn se puede expresar como la varianza de la media muestral de las diferencias

R )2 = E 1 (d D ) E (R X

1 N n X2 N

2 (d i D ) i =1

n( N 1)

Se define

2 Sd =

(d
i =1

D)

N 1

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

71

Introduccin al Muestreo Probabilstico

2 1 N n Sd X2 N n

De donde se concluye
) = 12 V (R X N n N

(y
i =1

Rxi )

n( N 1)

Una forma alternativa de la varianza de uso frecuente se obtiene en funcin del coeficiente de correlacin. Se parte de una expresin alternativa de la suma de cuadrados.

(y
N i =1

xi ) = ( y i Rxi ) (Y RX ) ) R
2 N i =1 N

Por construccin del parmetro

Y RX = 0

= (( y i Y ) R( xi X ) )
i =1 N

= ( y i Y ) 2 + R 2 ( xi X ) 2 2 R( y i Y )( xi X )
i =1 N N N

= ( y i Y ) 2 + R 2 ( x i X ) 2 2 R ( y i Y )( x i X )
i =1 i =1 i =1

2 2 2 2 = ( N 1) S y + R2Sx 2 RCov( x, y) = ( N 1) S y + R2Sx 2 RS y S x

Por lo tanto la varianza de la razn se expresa alternativamente:


N n1 2 2 2 ) = 12 V (R S y + R S x 2 RS y S x X N n

La varianza del estimador de razn se puede estimar con la siguiente frmula sustituyendo el parmetro por su estimacin a partir de la muestra:

(R ) = 12 V X N

(y N n
n

i =1

xi )2 R

n(n 1)

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

72

Introduccin al Muestreo Probabilstico

En forma alternativa, en este caso, en funcin del coeficiente de correlacin, varianzas y desviaciones estndares muestrales:
N n 1 2 2 2 yS x (R ) = 12 V S S y + R S x 2R X N n

6.4 Tamao de Muestra


2 Se parte de la expresin de la varianza en funcin de la S d

de las desviaciones:

N nS ) = 12 V (R X N n

2 d

Apoyados en el supuesto de normalidad, la varianza se iguala al cociente del cuadrado de la precisin deseada entre el cuadrado del coeficiente de confianza Z correspondiente al valor percentilar (1-/2) de la normal estndar. Este cociente se identifica como varianza deseada D2. D2=

2
Z 12 / 2

2 1 N n Sd X2 N n

A continuacin se despeja el tamao global de muestra n


2 Z 12 / 2 NS d n= 2 2 X N + Z 12 / 2 S d2

Se divide numerador y denominador entre 2 X 2 N + Z12 / 2


2 Z 12 / 2 S d 2X 2 n= 2 Z 2 / 2 S d 1 + 12 X 2N

Se define no =

2 Z 12 / 2 S d 2X 2

el tamao de muestra para poblaciones no acotadas.

El tamao de muestra final queda en funcin de la no y del tamao de la poblacin. no n= n 1+ o N

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

73

Introduccin al Muestreo Probabilstico

6.5 Estimador de Razn en Muestreo Estratificado. Si la poblacin est estratificada, existen dos alternativas para estimar la razn: a) Estimador de Razn Combinado En este caso se estiman las medias poblacionales para ambas variables en forma independiente a partir de las medias por estrato y la razn se calcula como el cociente de estas dos estimaciones:
L r y = Wh y h h =1 L r x = Wh x h h =1

C = R

W
h =1 L h =1

yh
h

W x
h

y st x st

Cuya varianza se puede aproximar con el supuesto usual de igualdad x st = X st de la siguiente forma:

C ) = V (R

1 V ( y st ) + R 2V ( x st ) 2 RCov ( y st , x st ) 2 X

Tamao de Muestra. Se procede a desagregar la frmula para expresar la varianza en trminos de nh

L N nh C ) = 12 Wh2 h V (R N X h =1 h

L S h, y 2 2 N h nh + R W h n N = h 1 h h 2

2 L Sh ,x 2 N h nh R W 2 h n N = 1 h h h

Cov ( y hi , x hi ) nh

Al factorizar y simplificar se llega a la siguiente frmula:

C ) = V (R

1 X2

W
h =1

2 h

N h nh N h

1 2 2 2 n S h , y + R S h , x 2 RCov ( y hi , x hi ) h

Equivalente a

C ) = 12 V (R X

W
h =1

2 h

N h nh N h

(y
i =1

Nh

hi

Rx hi )

nh (N h 1)

Afijacin de la Muestra para Razones


Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM 74

Introduccin al Muestreo Probabilstico

Nuevamente partamos de la primera expresin de la varianza para involucrar los criterios de afijacin de la muestra.

C ) = 12 V (R X

W
h =1

2 h

N h nh N h

1 2 2 2 n S h , y + R S h , x 2 RCov ( y hi , x hi ) h

]
Nh

2 2 2 2 Por simplificacin se designar: S dh = Sh , y + R S h , x 2 RCov ( y hi , x hi ) = ( y hi Rx hi ) /( N h 1) 2


i =1

C ) = 12 V (R X 1 = 2 X
= 1 X2

N h nh W N h =1 h
L 2 h 2 N h nh Nh 2 Nh h =1 N L

2 S dh n h 2 S dh n h

2 Nh S dh ( ) N n h h 2 nh h =1 N L

Finalmente se tiene una forma general de la varianza del estimador de razn combinado.

C ) = V (R

2 2 L S dh 1 L Nh 2 N S h dh X 2 N 2 h =1 nh h =1

Se adopta esta expresin y a continuacin se define una funcin de nh con la adicin de un multiplicador de Lagrange aplicado la restriccin del tamao de muestra y se deriva respecto de una nh para obtener la expresin para afijacin de muestra con el criterio de Neyman.

(nh ) =

2 2 L S dh 1 L Nh L 2 N S + nh n h dh 2 2 X N h =1 nh h =1 h =1

2 2 d (nh ) Nh S = 2 2dh 2 + = 0 dnh X N nh

Se despeja nh de la anterior expresin

nh =

N h S dh . (a) XN

Considerando que siempre se cumple

n
h =1

=n

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

75

Introduccin al Muestreo Probabilstico

n=
h =1

N h S dh .(b) XN

de (b) y se sustituye en (a) para obtener la expresin de nh

De esta expresin se despeja

=
h =1

N h S dh XNn

Por lo tanto se obtiene finalmente la form de nh para afijacin de Neyman.

nh =

N h S dh

N
h =1

S dh

Clculo de la Varianza del Estimador de Razn Combinado con Afijacin de Neyman. S comienza por sustituir la nh encontrada en la forma general de la varianza

C ) = V (R

2 2 L S dh 1 L Nh 2 N h S dh 2 2 X N h =1 nh h =1

Finalmente la frmula para la varianza de la razn bajo el supuesto de afijacin de Neyman

Ney ) = V (R

1 1 L 1 N h S dh 2 2 2 2 X N h =1 n X N

N
h =1

2 S dh

Tamao General de Muestra Esta expresin de varianza se iguala a una varianza deseada D2 y se despeja n, se dispondr entonces de la frmula para calcular un tamao de muestra global bajo afijacin de Neyman.

n=

L N h S dh h =1
L 2 2 2 h =1

2 D X N + N h S dh

En caso de utilizar afijacin de muestra proporcional al tamao del estrato, por un procedimiento anlogo se obtienen las siguientes frmulas para afijar la muestra, calcular varianzas y determinar tamao global de la muestra:

nh =

Nh n N
76

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

Introduccin al Muestreo Probabilstico

Pr op ) = V (R

2 N h S dh 1 2 2 2 X N h =1 n X N

N
h =1

2 S dh

n=

2 N N h S dh h =1 2 D X N + N h S dh 2 2 h =1 L

b) Estimador de Razn Separado. El estimador global de razn se obtiene como la suma ponderada de las estimaciones separadas de las razones de los estratos. Es de utilidad cuando los estratos son dominios de estudio y se requieren estimaciones de razones separadas para cada estrato, las cuales pueden diferir sensiblemente.

h = S = Wh R h Donde R R
h =1

y
i =1 nh

nh

hi

x
i =1

yh xh

hi

Puesto que las muestras son independientes

S ) = Wh2V ( R h ) V (R
h =1

Donde

h ) = V (R

1 2 Xh

N h nh N h

1 2 2 2 n S hy + Rh S hx 2 Rh h S hy S hx h

Como se puede observar, la varianza depende de las varianzas, razones y los coeficientes de correlacin de cada estrato.

S ) = Wh2 V (R
L h =1

1 N h nh 2 Xh Nh

1 2 2 2 n S hy + Rh S hx 2 Rh h S hy S hx h

El sesgo del estimador de razn, que es muy pequeo en la estimacin del estimador combinado, puede ser de magnitud peligrosa al estimar cada razn por separado, pues se tiene una acumulacin de sesgos en lugar de uno slo, sobretodo ante la presencia de muchos estratos con pequeos tamaos de muestra. Si se toma la diferencia de varianzas entre ambos estimadores, se pude observar que coinciden, solamente en el caso de que medias, razones y coeficientes de correlacin de los estratos, sean iguales a las globales.
L N n h C ) V (R S ) = 1 2 1 2 h V (R Profr. Francisco SnchezX Villarreal Xh h =1 N h Facultad de Ciencias UNAM

1 2 2 2 hy + RC Rh S hx 2( RC h R h h )S hy S hx n S 77 h

Introduccin al Muestreo Probabilstico

En cuanto a clculos de tamao de muestra globales y afijacin de muestra, se pueden utilizar los mismos resultados vistos para el estimador combinado, excepto que la S2dh adopta la siguiente forma al estar en funcin de la razn en cada estrato y no en funcin de la razn global:

S = S + R S 2 Rh h S hy S hx = ( yhi Rh xhi ) /( N h 1)
2 dh 2 hy 2 h 2 hx 2 i =1

Nh

6.6 Estimador Insesgado de la Razn. H. Hartley y A. Ross publicaron en 1954 en la revista Nature un artculo sobre estimadores insesgados de razn. Su mtodo parte del estimador sesgado calculado como promedio de razones elemento a elemento a partir de una muestra aleatoria simple.

= 1 Yi R n i =1 X i
Se verifica a continuacin que ste es un estimador sesgado.

1 n Yi E R = E n X i =1 i 1 N Yi = E n X Wi i =1 i

( )

1 N Yi E (Wi ) n i =1 X i 1 N Yi n n i =1 X i N Yi i =1 X i
N

1 = N

Pero este cociente es en general diferente de R =

Y
i =1 N i =1

El sesgo del estimador promedio de razones queda expresado de la manera siguiente:

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

78

Introduccin al Muestreo Probabilstico

Y Sesgo = E R X 1 N Y Y = i N i =1 X i X X = Yi 1 Y N i =1 X i X
N

( )

Por otra parte, un estimador insesgado de

1 N Ri ( X i X ) N 1 i =1
es (Teorema 2.3 Cochran)

1 n Ri (xi x ) n 1 i =1 = 1 n n Ri (xi x ) n 1 n i =1 n n x yR n 1 i =1

1 N Yi 1 N Yi X Xi N i =1 X i N i =1 X i = X = 1 N Yi (X i X ) N i =1 X i X

1 = NX =

R (X
i =1 i

X)

N 1 1 N Ri ( X i X ) NX N 1 i =1

Entonces un estimador insesgado del sesgo, aunque la frase suene redundante, combinando ambos resultados es:

N 1 n x yR NX n 1

)
)

El estimador insesgado de Hartley y Ross se expresa finalmente como la siguiente diferencia:

N 1 n y R x HR = R R NX n 1

Existen otras propuestas para estimadores insesgados y para funciones de razones, tales como cocientes de razones, productos y diferencias.

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM

79

Introduccin al Muestreo Probabilstico

7. ESTIMADORES CON PROBABILIDADES PROPORCIONALES AL TAMAO (PPT) CON REEMPLAZO. 7.1 Introduccin Supongamos que se desea seleccionar una muestra de empresas dedicadas al ramo textil para conocer el valor de la produccin en el ramo. Si se dispone de una lista de empresas se puede proceder a seleccionar una muestra aleatoria a partir de la lista. Las empresas de este ramo, en forma semejante a lo que sucede con otros ramos, suelen tener distribuciones muy asimtricas en lo que se refiere a su tamao. Las empresas de gran tamao y medianas, que de hecho son las que dominan el mercado, son poco numerosas y muy numerosas las pequeas y microempresas. En consecuencia una muestra aleatoria de la lista estara dominada por empresas pequeas y es factible que ninguna de las 10 empresas ms grandes apareciera en muestra. Desde luego, si se dispone de datos sobre su capital social o del nmero de trabajadores que trabajan en ellas, es posible adoptar esa informacin para estratificarlas o efectuar una estimacin indirecta va un estimador de razn, pues lgicamente estas variables se espera que guarden una fuerte correlacin positiva con la produccin. Otra alternativa frecuentemente utilizada es adoptar la variable como medida de tamao y utilizarla para definir probabilidades de seleccin proporcionales a esa medida de tamao (PPT). Esto es las probabilidades de seleccin sern desiguales. 7.2 Estimador de Hansen y Hurwitz El diseo de muestras con reemplazo y probabilidades desiguales fue propuesto inicialmente por Hansen y Hurwitz y se plantea en los siguientes trminos: Una vez definido un tamao de muestra n, si la seleccin se hace con reemplazo, cada una de las N unidades en la poblacin puede ser seleccionada 0,1,2,n veces. Esta situacin es anloga a tener una serie de N cajas y arrojarles n bolas. En cada caja puede suceder que no caiga una sola bola, que caiga una o ms de 1. El caso extremo sera que las n bolas arrojadas cayeran en la misma caja. En otra perspectiva, cada una de las N cajas puede acumular 0,1,2,..n bolas.

Sea Pi la probabilidad de que una bola caiga en la caja i-sima en cada evento de arrojar una bola y sea Xi el nmero de bolas acumuladas en cada caja. La distribucin conjunta de las Xi corresponde a una multinomial:

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM.

80

Introduccin al Muestreo Probabilstico

f ( x1 , x 2 ,...... x N ) =

n P1x1 P2x2 .......PNx N x1! x 2 !......x N !


Cov ( X i , X j ) = nPi Pj

La funcin de probabilidad multinomial tiene los siguientes valores esperados:

E ( X i ) = nPi

V ( X i ) = nPi (1 Pi )

El estimador del total para la variable Y propuesto por Hansen y Hurwitz adopta la siguiente forma:

HH = Y
i =1
N

Yi xi E( X i )

Yi xi i =1 nP i

1 n Yi n i =1 Pi

Una vez eliminadas las unidades no seleccionadas y con inclusin posibles repeticiones de las seleccionadas.

Considrese el caso particular en el que Pi =

1 , esto es que las probabilidades para todas las N cajas son homogneas. El estimador adoptar entonces la forma del conocido estimador del total:
n n Y Y HH = 1 i = 1 i = N Y n i =1 Pi n i =1 1 / N n

Y
i =1

= Ny

Si Yi tiene probabilidades que guardan una relacin de proporcionalidad con el total, esto es PiY=Yi, entonces el estimador coincide con el parmetro para cualquier muestra.
n n n Y Y HH = 1 i = 1 i = 1 Y = Y Y n i =1 Pi n i =1 Yi / Y n i =1

Esta propiedad sugiere que si se tiene una variable de tamao correlacionada con la variable objetivo que guarde cierta relacin de proporcionalidad con la variable objetivo y como consecuencia con una fuerte correlacin positiva, entonces esa variable de tamao se puede utilizar para definir probabilidades proporcionales al tamao y que redundara en una mejor estimacin del total que con una muestra aleatoria simple.

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM.

81

Introduccin al Muestreo Probabilstico

7.3 Varianza del Estimador de Hansen y Hurvitz La varianza del estimador de Hansen y Hurvitz se obtiene a continuacin:
HH ) = E (Y HH Y ) = E Y 2 Y 2 V (Y
2

( )

1 N Yi X i = E n P i =1 i
1 = 2 n Yi i =1 P i
N 2

1 2 Y = E n 2
2

Yi 2 X i2 2 + 2 2 Pi n i =1
N

i <j

N 1 N

Yi X i Y j X j Pi Pj

Y 2 =

2 E ( X i2 ) + 2 n

P P
i <j i

N 1 N

Yi Y j
j

E( X i X j ) Y 2 =

Ahora se vuelve la atencin a las propiedades de la multinomal:


V ( X i ) = E X i2 E ( X i ) = E X i2 n 2 Pi 2 = nPi (1 Pi )
2

( )

( )

De donde

E X i2 = nPi (1 Pi ) + n 2 Pi 2 = nPi nPi 2 + n 2 Pi 2


Cov ( X i , X j = E (( X i E ( X i )( X i E ( X i )) = E ( X i X j ) E ( X i ) E ( X j ) = E ( X i X j ) n 2 Pi Pj = nPi Pj

( )

De donde
E ( X i X j ) = n 2 Pi Pj nPi Pj

Por lo tanto al sustituir en la expresin de la varianza


HH ) = 12 V (Y n 1 = 2 n 1 = 2 n 1 = 2 n Yi i =1 P i
N N

Yi i =1 P i
N 2

2 E ( X i2 ) + 2 n

P P
i

N 1 N

Yi Y j
i j

<j

E( X i X j ) Y 2

2 nPi nPi 2 + n 2 Pi 2 + 2 n

P P (n
N 1 N i

Yi Y j
i

<j

Pi Pj nPi Pj Y 2

Yi i =1 P i Yi i =1 P i
N

1 nPi 2 n
2

Yi i =1 P i
N

1 nPi 2 + 2 n

Yi i =1 P i
N

2 2 2 n Pi + 2 n

P P
i

N 1 N

Yi Y j
i j

<j

n 2 Pi Pj

2 n2

P P
i

N 1 N

Yi Y j
i j

<j

nPi Pj Y 2

N N 1 N 1 N 2 N 1 N nPi Yi 2 + Yi 2 + 2 Yi Y j Yi Y j Y 2 j n i =1 n i <j i =1 i <j

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM.

82

Introduccin al Muestreo Probabilstico

1 = 2 n

Yi i =1 P i
N

1 N 2 N 1 N nPi Yi 2 + Y 2 Yi Y j Y 2 n i =1 n i <j
2

1 N Yi = n i =1 Pi 1 N Yi = n i =1 Pi 1 N Yi = n i =1 Pi

1 N 2 N 1 N Pi Yi 2 Yi Y j n i =1 n i <j
N 1 N 1 N Pi Yi 2 + 2 Yi Y j n i =1 i <j 2

Y2 Pi n

De donde finalmente se tiene la varianza:


HH ) = 1 V (Y n Yi P Y Pi i =1 i
N 2

Si se torna al estimador con probabilidades iguales Pi= 1/N y con reemplazo, su varianza estara dada por:
HH ) = 1 V (Y n Yi 1 1/ N Y N i =1
N 2

1 n

(NY
N i =1

1 N

1 n

(NY
N i =1
N

1 N
2

1 = n

NY 1 NYi N N i =1

1 = n

Y N2 Yi N N i =1
N

N = n

(Y
N i =1

Y N

=N

2
n

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM.

83

Introduccin al Muestreo Probabilstico

Varianza que resulta familiar, ya que corresponde al estimador del total para una muestra aleatoria con reemplazo. Un estimador insesgado de la varianza del estimador de Hansen y Hurwitz se calcula mediante la siguiente frmula: Yi P Y i =1 i V (YHH ) = n(n 1)
n 2

Este es un estimador muy fcil de calcular y como se mencion, es insesgado, lo cual se verifica a continuacin: Yi HH Y i =1 P i (Y HH ) = V n(n 1)
n

1 n Yi = n(n 1) i =1 P i

2 2 HH nY

Por una relacin de frecuente uso en estadstica.

Como la varianza de una variable ms la suma algebrica de una constante no se altera, V(X)=V(XK). Se suma y resta el valor parametral del total en la expresin anterior.

1 n Yi = Y n(n 1) i =1 P i

2 HH Y ) 2 n ( Y

A continuacin se agrega la variable indicadora de seleccin de la unidad correspondiente y el recorrido de la suma se extiende a N

1 N Yi = Y n(n 1) i =1 Pi

2 HH Y ) 2 X i n(Y

Enseguida se procede a tomar esperanza matemtica de toda la expresin y se concluye el insesgamiento.


2 N Y 1 2 i (Y HH )) = E (V Y E (X i ) nE (YHH Y ) n(n 1) i =1 P i

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM.

84

Introduccin al Muestreo Probabilstico

2 1 N Yi HH ) = Y nPi nV (Y n(n 1) i =1 Pi

1 2 = n n(n 1) =

2 Yi Y P i i =1 P i HH ) nV (Y n N

1 HH ) nV (Y HH ) n 2V (Y n(n 1)

HH ) = V (Y

Profr. Francisco Snchez Villarreal Facultad de Ciencias UNAM.

85