Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En un sentido general, la teora del muestreo puede considerarse co-extensa a la teora moderna de mtodos estadsticos. Casi todos los desarrollos modernos en estadstica estn relacionados con las inferencias que pueden hacerse sobre una poblacin o universo cuando la informacin proviene de una muestra de los elementos de la poblacin. Ms abajo se mencionan algunas de las maneras en que esto se ve reflejado en los programas estadsticos. 1.1.1 Trabajo Relacionado a Encuestas
En la mayor parte del trabajo de una encuesta, la poblacin consiste en todas las personas (o unidades de vivienda, hogares, establecimientos industriales, fincas, etc.) de una ciudad u otra rea geogrfica. La informacin se obtiene de una muestra de la poblacin, pero se desea hacer inferencias o extrapolar las caractersticas a la poblacin total. 1.1.2 Diseo y Anlisis de Experimentos
En el diseo y anlisis de experimentos, la poblacin representa todas las aplicaciones posibles de varias tcnicas alternativas que pueden usarse. Por ejemplo, el experimento puede ser de naturaleza agrcola, en el que se est testeando un nmero dado de fertilizantes. La poblacin se considera infinita ya que representa el uso de fertilizantes en todas las fincas posibles a travs de todo el tiempo. El problema entonces es disear experimentos de tal manera que se pueda obtener la mayor cantidad de informacin para hacer inferencias sobre la poblacin total. Esta informacin se estima a partir de una muestra de tamao limitado. 1.1.3 Control de Calidad
En la aplicacin de la metodologa de control de calidad en una planta industrial, por ejemplo, la poblacin viene dada por todos los productos que salen de una mquina. Se desea hacer inferencias sobre la calidad del producto para ver si el mismo sale conforme a especificaciones preestablecidas. El trmino "control de calidad" tambin se aplica para las tareas de monitoreo de la calidad del trabajo de campo que se realiza en una encuesta por muestreo; por ejemplo, se puede controlar la calidad del trabajo realizado en el campo. Las operaciones de oficina, como por ejemplo la validacin (o depuracin) y la codificacin tambin estn sujetas a un control de calidad; se monitorea una muestra del trabajo para determinar si se satisfacen las normas aceptadas o establecidas.
1.2
Los captulos siguientes se limitarn a un aspecto del muestreo; es decir, a la aplicacin del muestreo en trabajos de encuestas. Estos captulos tratarn bsicamente de los principios del muestreo desde el punto de vista del sentido comn y no tanto desde el punto de vista matemtico, a pesar de que la matemtica no puede evitarse enteramente. Se pondr nfasis en la metodologa de muestreo que puede usarse bajo diferentes condiciones. Se presentarn frmulas, algunas sin pruebas matemticas, y su subsiguiente aplicacin. Se utilizarn dos tipos de ejemplos para ilustrar frmulas y mtodos: (a) ejemplos simples para aclarar las tcnicas usadas, y (b) ejemplos obtenidos de encuestas reales para demostrar las aplicaciones realistas de los mtodos discutidos. Primero discutiremos el contenido de la materia de manera general, incluyendo la naturaleza del muestreo probabilstico y las opciones que existen en trminos de unidades muestrales y marcos de muestreo. Luego describiremos los tipos ms comnes de diseos muestrales - muestreo aleatorio simple, muestreo estratificado, y muestreo por conglomerados. Discutiremos en profundidad los puntos ms importantes de estos diseos muestrales y los mtodos de seleccin. Tambin hablaremos de los diferentes mtodos que se utilizan para la estimacin de caractersticas de la poblacin a partir de resultados muestrales, as como la determinacin del tamao de muestra requerido para obtener un grado de precisin preestablecido. Por ltimo, hablaremos de cmo calcular los errores muestrales. Tambin discutiremos el problema de estimar, a partir de una muestra, los resultados que se habran obtenido de un censo utilizando el mismo cuestionario, los mismos procedimientos de levantamiento y entrevistas, supervisin, etc. Estos son aspectos muy importantes del problema del error muestral. Hay, por supuesto, errores no muestrales que provienen de respuestas equivocadas o de preguntas mal formuladas. Pero estos se encuentran presentes tanto en censos como en encuestas muestrales. Aunque este manual no se concentrar esencialmente en los errores no muestrales, estos son muy importantes ya que muchas veces representan limitaciones mucho ms serias que los errores muestrales en el uso de las estadsticas.
1.3
USO DE MUESTRAS
Hay seis razones bsicas que justifican el uso de muestras: (1) (2) (3) (4) Ahorro sustancial cuando se compara con el costo de un censo, siempre y cuando no sea necesario tener una precisin absoluta. El uso de una muestra ahorra tiempo, sobre todo cuando se quiere obtener informacin ms oportuna de la que se podra obtener de un censo. Una muestra permite concentrarse en casos individuales y obtener mayor cantidad de informacin. En el caso de usos industriales, hay pruebas que son de naturaleza destructiva, como por ejemplo el testeo del tiempo que una lmpara elctrica puede estar prendida. En este tipo de caso, slo una muestra puede proporcionarnos la informacin, y no un censo. Otro ejemplo, sera el anlisis de sangre. Este ltimo slo puede llevarse a cabo por medio de una muestra por razones evidentes. 2
(5)
Algunas poblaciones se consideran de naturaleza infinita y slo pueden muestrearse. Un ejemplo simple sera el experimento agrcolo para testear fertilizantes. En cierto sentido, uncenso podra considerarse como una muestra en un instante de tiempo determinado de un sistema causal subyacente con caractersticas aleatorias. Si los errores no muestrales son muy grandes, una muestra puede arrojar mejores resultados que un censo ya que los errores no muestrales se pueden controlar ms fcilmente en operaciones de menor escala, como son las encuestas.
(6)
1.4
Los siguientes puntos ilustran el uso de muestreo en varias situaciones: 1.4.1 Fondos Limitados
Es de conocimiento general que cuando hay fondos limitados, se utilizan muestras para recolectar informacin. Por ejemplo, en el censo de Estados Unidos del ao 1950, la mayora de la informacin se recolect sobre una base del cien por cien. Sin enbargo, se utiliz muestreo para muchas de las tabulaciones (20% o 3-1/3%) y para las clasificaciones bien detalladas, en vez de utilizar los 150.000.000 de registros individuales. En el censo de 1960 se utiliz an ms el muestreo para la recoleccin y para la tabulacin de los datos. 1.4.2 Ahorro de Tiempo
Otros ejemplos del censo de 1950 en los Estados Unidos ilustran el uso de muestreo para ahorrar tiempo. El levantamiento del censo se llev a cabo en abril de 1950. El tiempo requerido para el procesamiento de los resultados era tal que se esperaba que la publicacin de los resultados empezara en 1951 y continuara durante 1952. Se seleccion una muestra de los resultados censales para su subsiguiente procesamiento y tabulacin, y los resultados preliminares, que se basaron en dicha muestra, se publicaron 1 o 2 aos antes que los resultados del censo completo. 1.4.3 Concentracin en Casos Particulares
Algunas encuestas requieren entrevistas tan intensivas y que consumen tanto tiempo que es imposible llevarlas a cabo durante un censo. Adems, el uso de muestras permite prestar ms atencin a un nmero limitado de casos. Como ejemplos tenemos las encuestas de ingresos y gastos y las encuestas sobre las condiciones de la salud de la poblacin. 1.4.4 Muestreo para Series Cronolgicas
Es posible que se necesite informacin para una serie cronolgica cuando los datos estn disponibles slo para perodos especficos de tiempo, como ser anual, mensual o trimestral. La serie puede reflejar la actividad econmica de un pas, ya sea mensualmente, como por ejemplo la tasa de desocupacin, o cualquier otro perodo.
1.4.5
Un ejemplo interesante sucedi en el censo de 1950 en Estados Unidos. Se dio el caso de que la relacin entre los errores no muestrales y los muestrales provoc que los resultados de la muestra se prefirieran a los del censo. En Estados Unidos se ha hecho una encuesta mensual sobre la fuerza de trabajo desde el ao 1940. El tamao de la muestra en 1950 fue de 20.000 hogares. Tambin se obtuvo informacin sobre la fuerza laboral en el censo de 1950. Cuando aparecieron los resultados del censo, se hizo evidente que las tasas de desocupacin y de ocupacin eran bien diferentes de las que se estimaron a partir de la encuesta de la fuerza laboral. Estas diferencias eran mucho mayores que las que se podan explicar por medio de errores muestrales. Lo que sucedi fue que el problema de declaracin de informacin en el censo introdujo un error mucho mayor que el error muestral proveniente de la encuesta de la fuerza laboral (este error fue causado por censistas sin experiencia en el arte de entrevistar). Por lo tanto, se decidi informar a los usuarios de datos de utilizar los resultados de la encuesta de la fuerza laboral, ya que stos eran ms confiables que los provenientes del censo.
1.5
Bajo ciertas condiciones, es posible cuestionar la utilidad del uso del muestreo. Se mencionan ms abajo algunos casos relacionados a estas limitaciones. (1) Si se necesitan datos para reas muy pequeas, se debern tomar muestras desproporcionalmente grandes, ya que la precisin de una muestra depende en gran parte del tamao de muestra (n) y no de la tasa de muestreo (n/N). En este caso, el muestreo puede ser tan caro como un censo completo. Si se necesitan datos a intervalos regulares de tiempo, y es importante medir cambios pequeos entre dos perodos, ser necesario obtener muestras muy grandes. Si los gastos generales de una encuesta (debidos a trabajos de seleccin de muestras, control, etc.) son muy elevados, el uso de muestreo es poco prctico. Por ejemplo, en un pas con muchos pueblos pequeos, es ms prctico y ms econmico entrevistar a todos los hogares en los pueblos que caen en muestra, que entrevistar una muestra de hogares dentro de los pueblos. Sin embargo, cuando se hace el procesamiento en la oficina, se puede tomar una muestra de los hogares entrevistados para reducir el trabajo y los costos asociados con la produccin de tabulaciones.
(2) (3)
CAPITULO 2
CRITERIOS Y DEFINICIONES
2.1 CRITERIOS PARA DETERMINAR LA ACEPTABILIDAD DE UN METODO MUESTRAL
Se ha demostrado repetidamente en aplicaciones prcticas que los mtodos modernos de muestreo pueden proporcionar datos confiables de manera eficiente y econmica. Sin embargo, aunque una muestra contenga una parte de la poblacin, no se puede llamar una muestra a cualquier grupo de miembros de una poblacin por el simple hecho de formar parte de dicha poblacin. Para que sea aceptable para propsitos estadsticos, una muestra debe representar la poblacin y debe tener confiabilidad medible. Adems, el plan de muestreo debe ser prctico y eficiente. 2.1.1 Probabilidad de Seleccin de Cada Unidad
Se debe seleccionar la muestra para que represente adecuadamente a la poblacin que cubre. Esto significa que cada unidad (finca, hogar, persona, o cualquiera otra unidad) debe tener una probabilidad de seleccin mayor que cero. 2.1.2 Confiabilidad Medible
Una de las condiciones ms importantes del muestreo probabilstico es la capacidad de poder medir la confiabilidad de las estimaciones provenientes de la muestra. Es decir, adems de proporcionar estimaciones sobre las caractersticas de la poblacin (totales, promedios, porcentajes, etc.), la muestra debe arrojar medidas sobre la precisin de estas estimaciones. Como veremos ms adelante, estas medidas de precisin pueden utilizarse para indicar el error mximo que se puede esperar de dichas estimaciones si los procedimientos se siguen de acuerdo a las especificaciones y si la muestra es moderadamente grande. No se puede estimar la precisin de las estimaciones si la seleccin aleatoria no se lleva a cabo de manera tal que se conozca de antemano la probabilidad de seleccin de cada unidad seleccionada. 2.1.3 Viabilidad
Una tercera caracterstica es que el plan muestral sea prctico. Debe ser lo suficientemente simple y directo para que pueda implementarse de la manera en que se planific. Un plan muestral, por ms atractivo que se vea escrito en papel, es slo til si se puede implementar en el campo. Cuando los mtodos que se utilizan son esencialmente los mismos que los especificados en el plan muestral, la teora de muestreo probabilstico proporciona las medidas necesarias de confiabilidad. Adems, las medidas de confiabilidad calculadas a partir de los resultados de la encuesta servirn como guas para el futuro mejoramiento de los aspectos importantes del diseo muestral. 2.1.4 Economa y Eficiencia
Para terminar, el diseo muestral debe ser eficiente. Entre todos los mtodos muestrales que 5
satisfacen los tres criterios mencionados anteriormente, vamos naturalmente a elegir el mtodo que proporcione la informacin requerida a un costo mnimo. Aunque esta no sea una caracterstica esencial de un plan muestral aceptable, es claramente una caractersica muy deseable. Esta caracterstica presupone que se utilizarn de la manera ms eficiente posible todas las instalaciones y recursos, tales como oficinas, mapas, datos estadsticos, conocimientos personales, teora del muestreo, etc. Vamos a considerar solamente los mtodos de muestreo que se ajusten a los criterios mencionados anteriormente. Vamos a presentar la teora bsica para poder aplicar los diseos presentados y poder medir la precisin de las estimaciones. Vamos a poner nfasis en mtodos prcticos y eficientes.
2.2
2.2.1
TERMINOLOGIA
Encuesta Estadstica
Una encuesta estadstica es una investigacin cuyo objetivo es la recoleccin de datos. Se tomarn observaciones y mediciones de una muestra de elementos de una poblacin determinada para poder hacer inferencias (ver el Glosario en el Anexo A) sobre un grupo definido de elementos. 2.2.2 Unidad de Anlisis
La unidad de anlisis es la unidad para la cual se desea obtener informacin estadstica. Las unidades de anlisis ms comunes son las personas, los hogares, las fincas, y los establecimientos comerciales. Tambin pueden ser productos que salgan de una mquina procesadora. Se llama frecuentemente a la unidad de anlisis un elemento de la poblacin. Puede ser que haya ms de una unidad de anlisis para la misma encuesta; por ejemplo, hogares y personas; o el nmero de fincas y las hectreas de tierra cultivadas. 2.2.3 Caractersticas
Una caracterstica es un trmino general que se utiliza para una variable o atributo que tiene diferentes valores para las diferentes unidades de muestreo o de anlisis. En una encuesta observamos o medimos los valores de una o ms caractersticas para la unidades de la muestra. Por ejemplo, observamos (o preguntamos) sobre la superficie de tierra dedicada al cultivo del arroz, el nmero de cabezas de ganado en una finca, la edad y el sexo de una persona, el nmero de hijos por familia, etc. Por lo tanto, podemos decir que observamos una unidad y medimos varias caractersticas de esa unidad. 2.2.4 Poblacin o Universo
La poblacin o universo es el grupo completo de todas las unidades de anlisis cuyas caractersticas queremos estimar. Los siguientes captulos de este manual tratarn primordialmente con una poblacin finita, con N unidades. 2.2.5 Muestra Probabilstica
Una muestra probabilstica es una muestra obtenida por medio de la aplicacin de la teora de la probabilidad. En el muestreo probabilstico, cada elemento de una poblacin definida tiene una 6
probabilidad de seleccin conocida y diferente de cero. Se debe poder considerar cualquier elemento de la poblacin y establecer su probabilidad de seleccin. 2.2.6 Muestreo con Reemplazo y sin Reemplazo
Una manera simple de obtener una muestra probabilstica es elegir unidades, una a la vez, con una probabilidad conocida de seleccin que se asigne a cada unidad de la poblacin al momento de ser elegida. Las selecciones subsiguientes pueden hacerse con o sin reemplazo de las unidades que se eligieron anteriormente. 2.2.7 Muestreo Aleatorio Simple
El muestreo aleatorio simple es un caso especial del muestreo probabilstico, tambin conocido con el nombre de muestreo aleatorio irrestricto. Es un procedimiento que se utiliza para seleccionar n unidades, una a la vez, de una poblacin de N unidades, de tal manera que cada unidad seleccionada tenga la misma probabilidad de ser elegida en muestra. Cada combinacin posible de n unidades muestrales tiene la misma probabilidad de ser elegida. La seleccin de una unidad muestral a la vez con igual probabilidad puede llevarse a cabo ya sea con reemplazo o sin reemplazo. Casi todas las muestras se eligen sin reemplazo. El uso de tablas de nmeros aleatorios para la seleccin de este tipo de muestras satisface la definicin de muestreo aleatorio simple. 2.2.8 Marco Muestral
El conjunto de unidades que se utiliza para elegir la muestra se llama marco muestral. Este marco puede estar conformado por una lista de personas o de unidades de vivienda; puede ser tambin un mapa subdividido en reas, o una lista de nombres y domicilios almacenados en algn medio electrnico, como por ejemplo un archivo en un disco duro o en una base de datos. 2.2.9 Parmetro
Un parmetro es el valor de una caracterstica dada que se calcula usando todos los valores disponibles en la poblacin. Es decir, un parmetro es una medida descriptiva de una poblacin. Por ejemplo, consideremos una poblacin que contiene N elementos. Por consiguiente, el total poblacional, la media poblacional o cualquier otra medida descriptiva que se calcule utilizando todos los elementos de la poblacin es un parmetro. El objetivo del muestreo es estimar los parmetros de una poblacin. 2.2.10 Estadsticos Un estadstico es una cantidad que se calcula a partir de las observaciones muestrales de una caracterstica para hacer inferencias sobre la caracterstica en la poblacin. La caracterstica puede ser cualquier variable que est asociada a un miembro de la poblacin, como por ejemplo la edad, el ingreso, el estado laboral, etc.; la cantidad puede ser un total, un promedio, una mediana, o cualquier cuartil o percentil. Puede tambin ser una tasa de cambio, un porcentaje, una desviacin estndar, o cualquier otro valor que se desee estimar de una poblacin. Ntese que el trmino estadstico se utiliza cuando nos referimos a una estimacin proveniente de una muestra, mientras que el trmino parmetro se refiere a un valor poblacional.
Nota sobre cuantiles: Qu es un cuantil? Si un conjunto de datos se ordena de acuerdo a su magnitud, el valor medio (o la media aritmtica de los dos valores centrales) que divide al conjunto en dos partes iguales se llama la MEDIANA. Si se extiende este concepto, podemos pensar en aquellos valores que dividen al conjunto en cuatro partes iguales. Estos valores, que se denotan Q1 , Q2 y Q3 se llaman, respectivamente, el primer, el segundo, y el tercer cuartil. Q2 es igual a la mediana. De manera similar, los valores que dividen un conjunto de datos en diez partes iguales se llaman deciles y se denotan por D , D , ... D , mientras que los valores que dividen un conjunto de 1 2 9 datos en cien partes iguales se llaman percentiles y se denotan por P , P , ... P . El quinto decil y el 1 2 99 quincuagsimo (50simo) percentil corresponden al valor de la mediana. Los percentiles vigsimo quinto (25) y septuagsimo quinto corresponden al primer y tercer cuartil, respectivamente. El trmino cuantil se utiliza para denominar colectivamente los cuartiles, los deciles y los percentiles. 2.2.11 Informacin Independiente
Se llama informacin independiente a todos los datos que se conocen de antemano, que no provienen de los datos de la muestra, y que se utilizan para mejorar ya sea el diseo muestral o las estimaciones provenientes de una muestra. Esta informacin independiente puede usarse para propsitos de estratificacin, para determinar las probabilidades de seleccin, o para estimar los resultados finales de los datos muestrales. Esta informacin independiente debe ser de buena y conocida calidad. 2.2.12 Estimacin y Estimador
Una estimacin es un valor numrico que se calcula a partir de las observaciones muestrales de una caracterstica determinada para proporcionar informacin sobre un valor poblacional. Un estimador es una frmula matemtica o regla que usa resultados de una muestra para producir estimaciones para los valores de una poblacin. Por ejemplo, el promedio aritmtico: .
es un estimador. Proporciona una estimacin del parmetro poblacional denominado media poblacional.
Por lo tanto, el estimador se refiere a una frmula matemtica. Cuando se utilizan nmeros en la frmula matemtica se obtiene lo que se llama una estimacin. Sin embargo, en el lenguaje estadstico diario, se utilizan las dos acepciones como sinnimos, sin que sto de lugar a ningn tipo de confusin.
2.2.13 Probabilidad de Seleccin La probabilidad de seleccin es la probabilidad que tiene cada unidad de la poblacin de ser incluida en la muestra. Las probabilidades van de 0 a 1, inclusivamente. 2.2.14 Variables Aleatorias
Una variable aleatoria es una que puede tomar aleatoriamente cualquier valor de un conjunto especificado de valores. La probabilidad de que la variable aleatoria sea igual a un valor determinado (o caiga entre dos lmites establecidos) es o conocida de antemano, o puede ser determinada, o puede ser aproximada o estimada. El valor que toma una variable aleatoria viene determinado por un mecanismo probabilstico. Por ejemplo, cuando se tira una moneda al aire, podemos definir una variable aleatoria X, que puede tomar el valor 1 si la moneda cae cara o el valor 0 si la moneda cae seca. Por lo tanto, la variable aleatoria X, como se acaba de mencionar en la definicion de variable aleatoria, puede tomar cualquiera de los dos valores despus de haber arrojado la moneda al aire. 2.2.15 Distribucin Probabilstica
La distribucin probabilstica proporciona las probabilidades asociadas a los valores que puede tomar una variable aleatoria. Si hay N valores que la variable aleatoria X puede tomar, como por ejemplo los valores X1, X2, ... ,XN, hay entonces N probabilidades asociadas a los valores Xi's , los cuales se denotan por P , P , ... ,P . La distribucin probabilstica de X viene dada por el conjunto de 1 2 N valores que toma la variable aleatoria X y las probabilidades con que toma dichos valores. 2.2.16 Ilustracin El Censo de Poblacin y Vivienda de 1980 en Estados Unidos arroj una poblacin de 217,482,000 personas que vivan en 79,108,000 de hogares, de las cuales 8,958,000 de personas vivan en instituciones o en viviendas colectivas. La Tabla 2.1 muestra la distribucin de los hogares de acuerdo al tamao de los mismos. Los datos en la Tabla 2.1 muestran que el 22.5% de los hogares tenan una sola persona; 31.3% tenan dos personas, y as sucesivamente. Si furamos a elegir un hogar al azar, cul es la probabilidad de elegir un hogar con una sola persona? Si cada hogar, sin importar el tamao del mismo, tiene la misma probabilidad de ser elegido, entonces hay una probabilidad de .225 de elegir un hogar que contenga una sola persona.
Table 2.12. TAMAO DE HOGARES EN ESTADOS UNIDOS, 1980 TAMAO 1 Persona 2 Personas 3 Personas 4 Personas 5 Personas 6 Personas 7 o ms NUMERO DE HOGARES 17,816,000 24,734,000 13,845,000 12,470,000 5,996,000 2,499,000 1,748,000 PORCENTAJE DEL TOTAL .225 .313 .175 .158 .076 .032 .022
TOTAL
79,108,000
1.00
Origen: U.S. Bureau of the Census, Current Population Survey in Statistical Abstract of the United States. (Washington, D.C. : U.S. Government Printing Office, 1981)
10
Trabajo Prctico
1. Para poder seleccionar una muestra de la poblacin total de una ciudad, se utiliza la gua telefnica y se entrevistan las familias de las personas elegidas. Satisface este mtodo el criterio de aceptabilidad de muestra probabilstica?. Para determinar la poblacin de una ciudad donde todos los nios de edad escolar asisten a la escuela, se toma una muestra de nios que asisten a la escuela y se entrevistan a sus familias. Proporcione dos razones por las cuales este mtodo no satisface el criterio de aceptabilidad. (Piense en las familias que tienen ms de un hijo de edad escolar y de las familias que no tienen hijos.) Suponga que debe usar las tcnicas de muestreo para estimar el nmero total de palabras en un libro que contiene ilustraciones. (a) Hay algn problema en la definicin de la poblacin? (b) Cules son los pros y los contras de (1) usar la pgina, (2) el rengln como unidad muestral? 4. Suponga que trabaja en una institucin de encuestas de opinin pblica y que quiere estimar la proporcin de ciudadanos adultos que piensan que el Presidente se est desempeando adecuadamente en el mbito econmico del pas. Defina claramente la poblacin de la cual desea sacar una muestra. El problema de encontrar un marco que sea completo del cual se pueda sacar una muestra puede llegar a ser un verdadero obstculo. Qu clases de marcos se podran usar para las siguientes encuestas? Tienen algn defecto los marcos propuestos? (a) (b) (c) (d) Una muestra de negocios que venden equipaje en una gran ciudad. Una muestra de los tipos de artculos que la gente se olvida en los mnibus. Una muestra de personas que han sido mordidas por vboras durante el ltimo ao. Una muestra para estimar el nmero de horas por semana que pasa una familia mirando televisin.
2.
3.
5.
11
CAPITULO 3
MUESTREO ALEATORIO SIMPLE: DISTRIBUCION MUESTRAL
3.1
INTRODUCCION
En este captulo vamos a introducir el concepto de distribucin muestral de un estadstico, quizs el concepto ms bsico de la inferencia estadstica. Vamos a concentrarnos solamente en la media muestral y su distribucin muestral. Vamos primero a presentar ciertas definiciones y trminos relaciondos que se necesitan para determinar la distribucin muestral de un estadstico.
3.2
VALOR ESPERADO
El valor esperado es el valor promedio de una caracterstica proveniente de todas las posibles muestras de un mismo tamao. Matemticamente, podemos definir el valor esperado (o promedio) de una variable aleatoria Y de la siguiente manera:
donde
y la letra griega se usa para indicar la sumatoria de los productos de todos los
posibles valores de la variable y y las probabilidades asociadas p(y), asociadas a la variable y. La letra minscula y denota un valor particular de la variable Y. El valor esperado es un promedio ponderado de los posibles valores que pueda tomar la variable aleatoria, donde las probabilidades p(y) reflejan las ponderaciones o la probabilidad de ocurrencia de cada valor de la variable aleatoria. As, el valor esperado debe interpretarse como el valor promedio de Y a la larga (cuando el experimento se lleva a cabo un nmero infinito de veces), si la frecuencia de cada resultado ocurre de acuerdo con la probabilidad del mismo. Por ejemplo, consideremos la Tabla 2.1 donde la variable Y representa el tamao de un hogar seleccionado al azar. El valor esperado de la variable Y viene dado por: E(y) = (1) (.225) + (2) (.313) + (3) (.175) + (4) (.158) + (5) (.076) + (6) (.032) + (7.7) (.022) = 2.75 Ahora, el valor esperado de Y no es el ms posible ni el ms tpico, sino el valor promedio de Y si repetimos continuamente la seleccin aleatoria de hogares. Algunos hogares tienen menos de 2.75 personas; otros tienen ms. El promedio de estos distintos tamaos de hogares es 2.75. Ntese que la categora "7 o ms" representa la agregacin de datos para los hogares con 7 o ms personas. Sera un error utilizar 7 para esta categora. Lo que hemos hecho es determinar el tamao promedio de los hogares con un mnimo de 7 personas. Este promedio viene dado por 7.7 con una probabilidad de 0.022.
12
3.2.1
Estimador Insesgado
Un estimador que tenga la propiedad de que el promedio obtenido de todas las muestras posibles de un mismo tamao sea igual al verdadero valor se llama insesgado. Matemticamente hablando, un estimador es insesgado si el valor esperado del estimador es igual al parmetro que se desea estimar. Por ejemplo, si es un estimador del parmetro y si entonces es un estimador insesgado de . Si no, Es decir, el sesgo es la diferencia entre el valor esperado de una estimacin y el verdadero valor poblacional (parmetro). 3.2.2 Estimador Consistente
Un estimador es consistente si sus valores tienden a concentrarse alrededor del verdadero valor a medida de que el tamao de la muestra aumenta. En otras palabras, la estimacin asume el valor poblacional con una probabilidad que se acerca a la unidad a medida de que el tamao de la muestra se hace infinito. Esta definicin de consistencia se aplica estrictamente a estimaciones basadas en muestras que se toman de una poblacin infinita. En el caso de poblaciones finitas, se utiliza la siguiente definicin. Se dice que una estimacin es una estimacin consistente del parmetro Y si la estimacin toma el valor poblacional cuando n=N. En la seccin siguiente, vamos a ver que para el muestreo aleatorio simple el promedio es una estimacin insesgada y consistente del promedio poblacional.
3.3
DISTRIBUCIONES MUESTRALES
Una distribucin muestral es la distribucin de probabilidades de todos los posibles valores que pueda tomar una estimacin bajo un plan muestral especfico. En esta seccin vamos a mostrar por medio de ejemplos que el promedio aritmtico es un estimador insesgado y consistente del verdadero promedio de la poblacin. Vamos primero a presentar la idea de una distribucin muestral de la media listando todas las posibles muestras de tamao n = 2 que pueden obtenerse de una poblacin hipottica de N = 5 hogares, los que se presentan en la Tabla 3.1. Queremos estimar el tamao promedio por hogar por medio de una muestra. Tabla 3.1 TAMAO PROMEDIO POR HOGAR Hogar 1 2 3 4 5 Tamao del Hogar 3 5 7 9 11
13
El nmero promedio de personas por hogar (o tamao promedio del hogar) es:
Los promedios de personas provenientes de estas muestras son respectivamente 4, 5, 6, 7, 6, 7, 8, 8, 9, y 10, y si el muestreo es aleatorio de tal manera que cada muestra tenga una probabilidad de 1/10, obtenemos todas las posibles muestras de tamao 2 (hogares) de una poblacin de 5 hogares, como se muestra en la Tabla 3.2. La Tabla 3.3 presenta la distribucin muestral del promedio. TABLE 3.2 MUESTRAS DE DOS HOGARES DE UNA POBLACION DE 5 HOGARES
MUESTRAS DE TAMAO n=2 3,5 3,7 3,9 3,11 5,7 5,9 5,11 7,9 7,11 9,11 4 5 6 7 6 7 8 8 9 10 VALOR DE PROBABILIDAD p(y) 1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10
14
4 5 6 7 8 9 10
Un examen de esta distribucin muestral revela un poco de informacin relativa al problema de la estimacin de la media de la poblacin con una muestra de tamao 2. Por ejemplo, vemos que correspondiente a la probabilidad es 6/10 de que la media muestral no difiera de la media poblacional (que es igual a 7) en ms de una unidad, y que correspondiente a = 5, 6, 7, 8, o 9, la probabilidad es 8/10 de que la media muestral no difiera de la media poblacional en ms de dos unidades (2 personas en nuestro caso). Se puede obtener informacin an ms til sobre esta distribucin de la media muestral si calculamos su valor esperado:
Ntese que se hubieran obtenido los mismos resultados usando muestras de cualquier tamao. Recuerden la definicin de valor esperado, que el es promedio de una sola caracterstica usando todas las posibles muestras de un tamao determinado. Entonces, cuando se obtiene una muestra aleatoria simple, la media muestral es una estimacin insesgada de la media poblacional. Vamos ahora a comparar la distribucin de las estimaciones muestrales para mostrar que: 15
(1)
A medida de que el tamao de la muestra aumenta, las medias de las muestras tienden a concentrarse ms y ms alrededor del verdadero valor. En otras palabras, las estimaciones tienden a ser ms y ms confiables a medida de que el tamao de muestra aumenta. Se pueden usar las distribuciones porcentuales de las estimaciones muestrales para predecir la probabilidad de obtener una estimacin muestral, con la cual se pueda crear un intervalo que, con dicha probabilidad, contenga dentro del mismo el verdadero valor poblacional. Para aclarar lo anteriormente dicho, consideremos una poblacin hipottica de 12 individuos. Queremos hacer estimaciones diferentes a partir de muestras de tamao 1,2,3,4,5,6 y 7 individuos. Se muestra la poblacin completa en la Tabla 3.4 ms abajo. Tabla 3.4 INGRESOS DE LA POBLACION HIPOTETICA DE 12 PERSONAS INDIVIDUO A B C D E F G H I J K L INGRESO TOTAL INGRESO PROMEDIO INGRESO $1,300 6,300 3,100 2,000 3,600 2,200 1,800 2,700 1,500 900 4,800 1,900 $32,100 $2,675
(2)
Se presenta en la Tabla 3.5 la distribucin de frecuencias de las medias muestrales para muestras de tamao 1,2,3,4,5,6 y 7 individuos. Para cada tamao muestral, se presenta el porcentaje de las estimaciones muestrales que cae dentro de un rango especificado del verdadero valor y el promedio de las medias. 16
Por ejemplo, la proporcin de los resultados muestrales que caen entre $2,000 y $3,400 es 47% para muestras de tamao 2; 58% para muestras de tamao 3; 69% para muestras de tamao 4; y 78%, 87%, y 94% para muestras de tamao 5,6, y 7, respectivamente. Esto quiere decir que si tomamos muestras cada vez ms grandes, la proporcin de las estimaciones muestrales que caen dentro de un intervalo designado alrededor del valor esperado se acercar al valor 100% a medida de que el tamao de muestra se vaya acercando al tamao de la poblacin. Es decir, podemos predecir la precisin de una muestra si tenemos a nuestra disposicin la distribucin de todas las estimaciones muestrales provenientes de una muestra de un tamao determinado. La concentracin creciente de estimaciones muestrales alrededor del verdadero valor poblacional ilustra el concepto de consistencia, una cualidad que poseen tipos importantes de estimaciones muestrales. TABLA 3.5 TODAS LAS POSIBLES ESTIMACIONES DE INGRESO PROMEDIO DE MUESTRAS SIN REEMPLAZO DE UNA POBLACION DE 12 PERSONAS
Ingreso Promedio Estimado de las Muestras $ 800 to $1,199 $1,200 to $1,399 $1,400 to $1,599 $1,600 to $1,799 $1,800 to $1,999 $2,000 to $2,199 $2,200 to $2,399 $2,400 to $2,599 $2,600 to $2,799 $2,800 to $2,999 $3,000 to $3,199 $3,200 to $3,399 $3,400 to $3,599 $3,600 to $3,799 $3,800 to $3,999 $4,000 to $4,199 $4,200 to $4,399 $4,400 to $4,599 $4,600 to $4,799 $4,800 to $6,399 Nmero de Muestras Promedio de todas las posibles Muestras de un Mismo Tamao
* *
Nmero de Muestras de Tamao n que Producen un Ingreso Promedio dentro del Intervalo
n =1 1 1 1 2 1 1 1 1 1 2 12 $2,675
n=2 1 2 5 6 5 6 6 6 3 4 3 3 2 2 3 3 2 1 1 2 66 $2,675
Valor Esperado
Esto significa que si la muestra es lo suficientemente grande, el riesgo es pequeo cuando se utilizan estimaciones muestrales. (De la ilustracin precedente, se puede pensar que el incremento en la concentracin alrededor del verdadero valor, a medida que aumenta el tamao de la muestra, ocurre porque el porcentaje de la poblacin en la muestra es cada vez mayor. En realidad, se pueden 17
obtener resultados similares cuando el tamao de muestra aumenta, pero slo una pequea proporcin de la poblacin est en muestra.) 3.4 PREDICCION DE LA CONFIABILIDAD DE LAS ESTIMACIONES MUESTRALES (INTERVALO DE CONFIANZA)
Hemos visto que la precisin de una muestra puede determinarse si tenemos, dado un tamao de muestra especfico, la distribucin de todas las estimaciones muestrales. Pero en la prctica, no podemos seleccionar todas las muestras posibles y examinar las estimaciones provenientes de las mismas. Tenemos que depender de una sola muestra. Por lo tanto, es necesario encontrar alguna medida para poder determinar la variacin que existe entre las estimaciones (provenientes de varias muestras) y el verdadero valor; para que esta medida sea til, debe poder estimarse directamente de la muestra misma. Antes de mostrar cmo y porqu podemos hacer esto, vamos a introducir ciertas definiciones y relaciones que se derivan de la teora del muestreo. 3.4.1. Desviacin o Error Estndar o Tpica Vamos a demostrar que existe una medida de la variabilidad en la poblacin original que puede estimarse a partir de las observaciones obtenidas de una sola muestra, y de la cual es posible estimar el error esperado de la media muestral. La medida de variabilidad en la poblacin se llama desviacin (error) estndar o desviacin (error) tpica; el cuadrado de sta es la varianza poblacional y se la denota por medio del smbolo . La varianza de la poblacion se define como el promedio de los cuadrados de las desviaciones de 2 todas las observaciones individuales respecto de su valor medio. Por lo tanto, si se conoce el valor de todos los elementos del universo, se puede utilizar la siguiente frmula:
donde las Y's con subndices representan observaciones individuales y es la media de las N observaciones para los N elementos en el universo. Es una prctica comn en muestreo denotar la varianza poblacional por cuando se utiliza N en el denominador, y por S cuando se utiliza N-1, 22 en cuyo caso se obtiene:
18
En este manual vamos a utilizar S2, ya que s es un estimador insesgado de S2. Ntese que los2 resultados son equivalentes en ambas notaciones. Tambin,
3.4.2
La varianza de la media es el promedio de los cuadrados de las desviaciones de las medias de todas las posibles muestras de tamao n respecto de la media verdadera. La verdadera varianza de se denota por . Se calcula de la siguiente manera:
La raz cuadrada de la varianza de es el error muestral de las medias provenientes de muestras de tamao n. El error muestral de es:
Es importante notar que el error muestral vara con el tamao de la muestra. Si calculamos el error muestral para todas las muestras posibles con los tamaos que se presentan en la Tabla 3.5, vemos que a medida que aumenta el tamao de muestra, el error muestral disminuye cada vez ms y ms. Esto se hace evidente en la siguiente ilustracin (vase la Tabla 3.5). El factor en la
frmula de la varianza de se conoce con el nombre de factor de correccin por poblacin finita (fpc). Como regla emprica, si podemos ignorar ya que su valor es casi
igual a 1. Si este no fuera el caso, se debe incluirlo en la frmula para no sobreestimar la varianza de
3.4.3
Ilustracin
Consideremos nuevamente la poblacin de 12 individuos en la Tabla 3.4. En este caso, el verdadero promedio es = $2,675 con N=12. Calculamos S de la siguiente manera:2
19
y S = $1,571.41 Usando S, podemos calcular el error de la media para diferentes tamaos de muestra n. Por
Para n = 2,
Los errores para todos los posibles tamaos de muestra se presentan en la siguiente tabla. Tabla 3.6 ERROR DEL INGRESO MEDIO PARA VARIOS TAMAOS DISTINTOS DE MUESTRA
TAMAO DE MUESTRA
1 2 3 4 5 6 7
3.4.4
Sabemos que la probabilidad de que una estimacion sea igual al verdadero valor es cero para variables continuas. Por lo tanto, ser ms til si podemos hablar de cuan probable es que un 20
intervalo basado en nuestra estimacin pueda contener el valor del parmetro que se quiere estimar. Estimador por Intervalo - Un estimador por intervalo es una frmula que utiliza las observaciones muestrales para calcular dos nmeros que definen un intervalo que incluye el parmetro con una cierta (en general, alta) probabilidad. El intervalo que se obtiene se llama intervalo de confianza y la probabilidad de que contenga el valor del parmetro se llama coeficiente de confianza. Un intervalo de confianza que tiene un coeficiente de confianza de 0,95 recibe el nombre de "intervalo de confianza de 95%." En general, el intervalo de confianza para un parmetro viene dado por El smbolo t es el valor de la variable normal que corresponde al valor de la probabilidad de confianza deseado. En la prctica, no se conoce S y se usa el s2, la varianza muestral para estimar el2 valor de S2. Si el tamao de muestra n es grande, s proporciona una buena estimacin de S; sin embargo, para muestras pequeas, la estimacin no es tan buena. Si usamos s, el intervalo de confianza es Para el parmetro el intervalo de confianza es:
(Ignorar el fpc si
El valor de t depende del nivel del intervalo de confianza. Para muestras grandes, los valores ms comunes (ver el Apndice I) son: t = 1.28 para un nivel de confianza del 80% t = 1.64 para un nivel de confianza del 90% t = 1.96 para un nivel de confianza del 95% t = 2.58 para un nivel de confianza del 99% Si el tamao de muestra es inferior a 30, los porcentajes se deben obtener de la tabla de la distribucin t de Student (ver Apndice II) con (n-1) grados de libertad. 3.4.5 Approximacin a la Distribucin Normal
Si comparamos las Tablas 3.5 y 3.6, se puede notar que a medida que el tamao de muestra aumenta, las estimaciones muestrales difieren cada vez menos del valor esperado y, a la misma vez, el error muestral disminuye cada vez ms. En problemas prcticos de muestreo, donde se utiliza un tamao de muestra razonablemente grande (generalmente 30 o ms casos), la distribucin de los 21
resultados muestrales de todas las posibles muestras se aproxima a la distribucin normal-- la curva acampanada tan conocida. Este es el resultado del teorema ms importante de la estadstica, el Teorema del Lmite Central, cuyo enunciado dice, bsicamente, que la suma de variables aleatorias sigue la distribucin normal, si la muestra es suficientemente grande. Para esta distribucin se conocen las probabilidades de que el valor medio se encuentre dentro de un intervalo fijo. Adems estas probabilidades se han publicado (ver el Apndice I). Estas probabilidades dependen solamente del valor del error estndar. Por ejemplo, la probabilidad de caer dentro de un error estndar es 68%; dentro de dos errores estndares es 95%; dentro de tres es 99.7%. Las implicaciones son de importancia fundamental para la teora de muestreo. Supongamos que hemos elegido una muestra aleatoria simple de una poblacin, y que hemos calculado la media utilizando la muestra supongamos que hemos estimado el verdadero error de la media, por medio de Cmo podemos inferir la precisin de este resultado muestral particular? Si formamos un intervalo basado en alrededor de la estimacin muestral podemos tener la suficiente confianza de que nos dar un intervalo que contendr, las dos terceras partes nos da un intervalo de ser de las veces, el verdadero valor de la media. De manera similar, confianza para el cual la suposicin ser correcta el 95% de las veces, y para correcta el 99.7% de las veces. Para comprender este concepto, presentamos la siguiente ilustracin. 3.4.6 Ilustracin
Consideremos una vez ms la poblacin de los 12 individuos en la Tabla 3.5. Vamos a buscar el porcentaje de promedios muestrales en la Tabla 3.5 que difiere de la media poblacional = $2,675 en menos de (Estamos usando la letra mayscula S en vez de la minscula s, igual que porque conocemos todos los valores de la poblacin y, por lo tanto, sabemos la verdadera varianza y la verdadera media). Esto es equivalente a encontrar el porcentaje de promedios muestrales que cae dentro de una muestra de tamao 2. Usando la Tabla 3.6 con tenemos: Consideremos
La Tabla 3.5 muestra que hay 42 promedios muestrales que caen dentro del intervalo de confianza (1660, 3690). Es decir, el 64% de los promedios muestrales difiere de la media poblacional en menos de un error estndar. De manera similar, hay 64 promedios que caen dentro del intervalo de confianza (645, 4705); es decir, alrededor del 97% de los promedios muestrales difiere de la media poblacional en menos de dos errores estndares. Puede verse fcilmente que el 100% de los promedios muestrales difiere de la media poblacional en menos de tres errores estndares. Para la 22
distribucin normal, hemos visto que la probabilidad de estar dentro de un error estndar es 68%; para dos errores estndares es 95%; para tres es 99.7%. Esto demuestra que an para pequeas muestras de tamao 2, la distribucin de los resultados muestrales de todas las muestras posibles se aproxima a la distribucin normal. Para muestras ms grandes, los resultados se acercarn an mucho ms a la distribucin normal. Los porcentajes de las medias muestrales en la Tabla 3.5 que difieren de las medidas poblacionales en menos de se presentan en la Tabla 3.7. Tabla 3.7 CONCENTRACION DE RESULTADOS MUESTRALES ALREDEDOR DE LA MEDIA POBLACIONAL
Tamao de Muestra n Porcentaje de medias muestrales en la Tabla 3.5 que difiere de la media poblacional en: menos de 1 2 3 4 5 6 7 DISTRIBUCION NORMAL $1,505 1,015 786 642 537 454 383 75 64 65 64 65 64 65 68 menos de 92 97 96 97 97 97 97 95 menos de 100 100 100 100 100 100 100 99.7
La Tabla 3.5 presenta la distribucin del ingreso promedio proveniente de todas las muestras posibles de tamao 7. El grfico de esta distribucin se presenta en la Figura 3.1. Esta figura es aproximadamente simtrica y muestra la aglomeracin de las mediciones alrededor del punto medio de la distribucin, y una disminucin de esta aglomeracin a medida que nos alejamos del centro del histograma. Por lo tanto, el grfico posee las siguientes propiedades: (1) (2) (3) La distribucin muestral de parece aproximadamente normal cuando el tamao de muestra es grande. El promedio de todos los posibles promedios muestrales es igual a la media poblacional. La varianza de la distribucin muestral es igual a la varianza poblacional, Este valor es inferior a
23
La propiedad (1) ms arriba es el resultado del Teorema del Lmite Central (TLC), unos de los teoremas ms importantes y fundamentales de la estadstica. Este teorema bsicamente dice que si x , x , ... , x son variables aleatorias independientes con la misma distribucin con media y 1 2 n varianza , entonces para una muestra de tamao grande, la variable
tiene la distribucin normal estndar (es decir, media igual a cero y varianza igual a uno). Figura 3.1 DISTRIBUCION DEL INGRESO PROMEDIO EN TODAS LAS MUESTRAS POSIBLES DE TAMAO 7
3.4.7
Ilustracin
Las aerolneas pierden dinero cuando sus vuelos tienen asientos desocupados. Supongamos que una aerolnea grande desea estimar el nmero promedio de asientos desocupados por vuelo durante el ao anterior. Para llevar esto a cabo, se seleccionan aleatoriamente de los archivos 225 registros de vuelos y se toma nota del nmero de asientos desocupados en cada uno de los vuelos en muestra. 24
Estimemos el promedio de asientos desocupados por vuelo durante el ao anterior, con un intervalo de confianza del 90% (ignoremos el fpc). El intervalo de confianza del 90% es:
es decir, con un nivel de confianza del 90%, estimamos que el promedio de asientos desocupados por vuelo se encuentra entre 11.15 y 12.05 durante el ao en muestra. 3.4.8 Errores Muestrales y No Muestrales
Las estimaciones estn sujetas a errores muestrales y no muestrales. El error muestral surge porque la informacin slo se recolecciona de una parte de la poblacin. Por medio de procedimientos cientficos de muestreo, es posible estimar, a partir de una muestra, el intervalo que contiene el verdadero valor poblacional (parmetro) con una cierta probabilidad. El error no muestral, por otro lado, se define como una categora residual que consiste en todos aquellos errores que no tengan nada que ver con el hecho de haber elegido una muestra de la poblacin. Estos errores incluyen los cometidos por los informantes, los encuestadores, los supervisores, personal de oficina, personal de codificacin y entrada de datos, etc. 3.4.9 Error Total (Error Cuadrtico Medio)
El error total es la suma de todos los errores en una estimacin muestral, tanto los de origen muestral como los de origen ajenos al muestreo. Una ilustracin de la composicin del error total se presenta ms abajo: Error Total Error Muestral Error Variable Sesgo Error No Muestral Error Variable Sesgo
En la prctica, la mayor parte del error muestral se debe al error variable y la mayor parte del error no muestral se debe al sesgo. Desde el punto de vista matemtico, el error total est representado por medio del error cuadrtico medio. En trminos del valor esperado, el error cuadrtico medio de la estimacin se denota por y viene dado por:
25
que es el promedio de los cuadrados de las desviaciones de todas las posibles estimaciones con Es til recordar que medio es equivalente a la varianza. Si las estimaciones son insesgadas, el error cuadrtico
26
TRABAJO PRACTICO
A. Se desea calcular los promedios y las desviaciones tpicas del nmero de vacas por finca. Suponga que sabe el nmero de vacas por finca para cada una de las siguientes fincas: Finca Nmero de Vacas 1. 2. 3. 4. 1 4 2 5 3 0 4 3 5 2 6 1 7 1 8 0
Calcular el promedio de vacas por finca. Calcular la desviacin estndar del nmero de vacas por finca. Tome todas las muestras posibles de dos fincas y calcule el nmero promedio de vacas por finca para cada muestra. Prepare una distribucin de frecuencias que muestre el nmero de muestras (de tamao 2 fincas) cuyos promedios muestrales caigan en cada uno de los grupos siguientes: Menor a 1.00 1.00 a 1.49 1.50 a 1.99 2.00 a 2.49 2.50 a 2.99 3.00 a 3.49 3.50 a 3.99 4.00 o ms.
5. 6. 7.
Compute el promedio de las 28 medias obtenidas en el ejercicio 3 y comprelo con el valor verdadero de la media. Compute el error muestral de los promedios de muestras de 2 fincas. Convierta los datos de la Tabla 3.2 a distribuciones porcentuales para n = 1, 3, 5, y 7 (dividiendo las frecuencias por el total que aparece en la penltima fila de la tabla). Prepare histogramas para n =1, n =3, n =5, y n =7 en el mismo grfico (ya sea superpuestas o paralelas utilizando lpices de color distintos). Haga los ajustes necesarios, ya que el primer intervalo es dos veces ms ancho que el intervalo estndar, y el ltimo intervalo es 8 veces ms ancho que el intervalo estndar. Etiquete el grfico y los histogramas individuales. Note que las distribuciones se centran cada vez ms alrededor de la media a medida que crece el valor de n y que las distribuciones se aproximan a la distribucin normal cada vez ms a medida que el tamao de muestra aumenta.
8.
que se
27
Cmo se pueden
Considere la siguiente distribucin de N = 6 valores poblacionales que representan "el nmero de personas por hogar que residen en la unidad de vivienda." Se toman muestras de tamao 2 de esta poblacin. Unidad de Vivienda (UV) 1 2 3 4 5 6 Tamao del Hogar (TH) 5 6 7 8 9 10 = 7,5 y que la desviacin estndar es S
9.
Cuantas muestras de tamao 2 pueden obtenerse de esta poblacin? Lstelas todas y calcule sus medias. Use los resultados del ejercicio 10 para asignar a cada muestra posible una probabilidad y obtenga la distribucin muestral de la media para muestras de tamao 2. Calcule la media y la desviacin estndar de la distribucin de probabilidades obtenida en el ejercicio 11. Una muestra aleatoria simple de 100 hogares se elige de una ciudad en Nigeria. Para esta ciudad = 75 Nairas por mes se gasta en electricidad y s = 15 Nairas. Obtenga el Interprete el intervalo (ignore el fpc).
Una compaa manufacturera desea estimar el promedio de horas por mes de ausentismo. La compaa decide elegir al azar una muestra de 320 empleados de un total de 5.000 empleados y monitorear el trabajo durante un mes. Al final del mes, se registra el nmero 28
total de horas ausente para cada empleado en la muestra. Si la media y la desviacin estndar de la muestra son = 9.6 horas y s = 6.4 horas, obtenga el intervalo de confianza del 95% para el verdadero valor del promedio de horas ausente por mes por empleado.
29