Está en la página 1de 60

INSTITUTO TECNOLGICO SUPERIOR DE HUETAMO

INGENIERA EN GESTION EMPRESARIAL

TRABAJO DE INVESTIGACION UNIDAD IV MUESTREO Y ESTIMACIONES


PROBABILIDAD Y ESTADISTICA

ALUMNO(S)
JUAN LEONARDO ALBITER PONTIFES

No. CONTROL
10070091

16 de diciembre de 2011

INDICE
INTRODUCCION
1.- Definicin de muestreo --------------------------------------------------------------------------------------------- 4 1.1-Tipos de muestreo aleatorio, sistematizado, estratificado y conglomerados-------------------------- 4 2.- Concepto de distribucin de muestreo de la media ---------------------------------------------------------- 9 2.1-Distribucin muestral de la media con 2 conocida y desconocida -------------------------------------- 10 2.2.-Distribucin muestral de la diferencia entre dos medias con 2 conocida y desconocida --------- 13 2.3.-Distribucin muestral de la proporcin ------------------------------------------------------------------------ 18 2.4.-Distribucin muestral de la diferencia de dos proporciones ---------------------------------------------- 18

3.- Teorema del lmite central------------------------------------------------------------------------------------------ 27

3.1.-Tipos de estimaciones y caractersticas ------------------------------------------------------------------------ 37

3.2.-Determinacin del tamao de la muestra de una poblacin --------------------------------------------- 45

3.3.-Intervalos de confianza para la media, con el uso de la distribucin Normal y t student ------- 54

3.3.1.- Determinacin del tamao de la muestra con grado de confianza y estimacin de ----------- 57

CONCLUSIONES BIBLIOGRAFIA

INTRODUCCION

Algunas veces es posible y prctico examinar a cada persona o elemento de la poblacin que deseamos describir. A esto lo llamamos enumeracin completa o censo. Utilizamos el muestreo cuando no es posible contar o medir todos los elementos de la poblacin. Los estadsticos usan la palabra poblacin para referirse no slo a personas sino a todos los elementos que han sido elegidos para un estudio, y emplean la palabra muestra para describir una porcin elegida de la poblacin. Condiciones que debe reunir una muestra:

Homogeneidad: debe ser extrada de la misma poblacin. Independencia: las observaciones no deben estar mutuamente condicionadas entre s. Representatividad: la muestra debe ser el mejor reflejo posible del conjunto del cual proviene.

Hemos mencionado que las poblaciones estn formadas por individuos, pero sera mejor denominarlas unidades de muestreo o unidades de estudio:

 Personas, clulas, familias, hospitales, pases


La poblacin ideal que se pretende estudiar se denomina poblacin objetivo.

 No es fcil estudiarla por completo.


Aproximamos mediante muestras que den idealmente la misma probabilidad a cada individuo de ser elegido.

 Tampoco es fcil elegir muestras de la poblacin objeCvo:  llamamos por telfono excluimos a los que no Cenen. Si  elegimos individuo en la calle, olvidamos los que estn trabajando... Si

Definicin de muestreo.
Tipos de muestreo aleatorio, sistematizado, estratificado y conglomerados.

Definicin.

Un muestreo es la seleccin de una muestra a partir de una poblacin, entendida como muestra un subconjunto, elegido de un conjunto mayor usualmente de manera aleatoria, para realizar un estudio estadstico. Al elegir una muestra, se espera que los datos estadsticos sean proporcionales a la poblacin, y por lo tanto, que las propiedades sean extrapolables a la poblacin. Este proceso permite ahorrar recursos, obteniendo resultados parecidos si se realizasen a toda la poblacin. Cabe mencionar para que el muestreo sea vlido y se pueda realizar un estudio fiable (que represente a la poblacin), debe cumplir ciertos requisitos, lo que lo convertira en una muestra representativa.

Introduccin al muestreo. a. Concepto e importancia Es la actividad por la cual se toman ciertas muestras de una poblacin de elementos de los cuales vamos a tomar ciertos criterios de decisin, el muestreo es importante porque a travs de l podemos hacer anlisis de situaciones de una empresa o de algn campo de la sociedad. b. Terminologa bsica para el muestreo Los nuevos trminos, los cuales son frecuentemente usados en inferencia estadstica son: Estadstico: Un estadstico es una medida usada para describir alguna caracterstica de una muestra , tal como una media aritmtica, una mediana o una desviacin estndar de una muestra. Parmetro: Una parmetro es una medida usada para describir alguna caracterstica de una poblacin, tal como una media aritmtica, una mediana o una desviacin estndar de una poblacin.

Cuando los dos nuevos trminos de arriba son usados, por ejemplo, el proceso de estimacin en inferencia estadstica puede ser descrito como le proceso de estimar un parmetro a partir del estadstico correspondiente, tal como usar una media muestral (un estadstico para estimar la media de la poblacin (un parmetro). Los smbolos usados para representar los estadsticos y los parmetros, en ste y los siguientes captulos, son resumidos en la tabla siguiente: Tabla 1 Smbolos para estadsticos y parmetros correspondientes Medida Smbolo para el estadstico Smbolo para el parmetro (Muestra) (Poblacin) X s n p N P

Media Desviacin estndar Nmero de elementos Proporcin

Distribucin en el muestreo: Cuando el tamao de la muestra (n) es ms pequeo que el tamao de la poblacin (N), dos o ms muestras pueden ser extradas de la misma poblacin. Un cierto estadstico puede ser calculado para cada una de las muestras posibles extradas de la poblacin. Una distribucin del estadstico obtenida de las muestras es llamada la distribucin en el muestreo del estadstico. Por ejemplo, si la muestra es de tamao 2 y la poblacin de tamao 3 (elementos A, B, C), es posible extraer 3 muestras (AB, BC Y AC) de la poblacin. Podemos calcular la media para cada muestra. Por lo tanto, tenemos 3 medias mustrales para las 3 muestras. Las 3 medias mustrales forman una distribucin. La distribucin de las medias es llamada la distribucin de las medias mustrales, o la distribucin en el muestreo de la media. De la misma manera, la distribucin de las proporciones (o porcentajes) obtenida de todas las muestras posibles del mismo tamao, extradas de una poblacin, es llamada la distribucin en el muestreo de la proporcin.

TEORIA DEL MUESTREO

Uno de los propsitos de la estadstica inferencial es estimar las caractersticas poblacionales desconocidas, examinando la informacin obtenida de una muestra, de una poblacin. El punto de inters es la muestra, la cual debe ser representativa de la poblacin objeto de estudio.

Se seguirn ciertos procedimientos de seleccin para asegurar de que las muestras reflejen observaciones a la poblacin de la que proceden, ya que solo se pueden hacer observaciones probabilsticas sobre una poblacin cuando se usan muestras representativas de la misma.

Una poblacin est formada por la totalidad de las observaciones en las cuales se tiene cierto observa.

Una muestra es un subconjunto de observaciones seleccionadas de una poblacin. Muestras Aleatorias

Cuando nos interesa estudiar las caractersticas de poblaciones grandes, se utilizan muestras por muchas razones; una enumeracin completa de la poblacin, llamada censo, puede ser econmicamente imposible, o no se cuenta con el tiempo suficiente.

A continuacin se ver algunos usos del muestreo en diversos campos: 1. Poltica. Las muestras de las opiniones de los votantes se usan para que los candidatos midan la opinin pblica y el apoyo en las elecciones. 2. Educacin. Las muestras de las calificaciones de los exmenes de estudiantes se usan para determinar la eficiencia de una tcnica o programa de enseanza. 3. Industria. Muestras de los productos de una lnea de ensamble sirve para controlar la calidad. 4. Medicina. Muestras de medidas de azcar en la sangre de pacientes diabticos prueban la eficacia de una tcnica o de un frmaco nuevo. 5. Agricultura. Las muestras del maz cosechado en una parcela proyectan en la produccin los efectos de un fertilizante nuevo. 6. Gobierno. Una muestra de opiniones de los votantes se usara para determinar los criterios del pblico sobre cuestiones relacionadas con el bienestar y la seguridad nacional.

Errores en el Muestreo

Cuando se utilizan valores muestrales, o estadsticos para estimar valores poblacionales, o parmetros, pueden ocurrir dos tipos generales de errores: el error muestral y el error no muestral.

El error muestral se refiere a la variacin natural existente entre muestras tomadas de la misma poblacin.

Cuando una muestra no es una copia exacta de la poblacin; an si se ha tenido gran cuidado para asegurar que dos muestras del mismo tamao sean representativas de una cierta poblacin, no esperaramos que las dos sean idnticas en todos sus detalles. El error muestral es un concepto importante que ayudar a entender mejor la naturaleza de la estadstica inferencial.

Los errores que surgen al tomar las muestras no pueden clasificarse como errores muestrales y se denominan errores no muestrales.

El sesgo de las muestras es un tipo de error no muestral. El sesgo muestral se refiere a una tendencia sistemtica inherente a un mtodo de muestreo que da estimaciones de un parmetro que son, en promedio, menores (sesgo negativo), o mayores (sesgo positivo) que el parmetro real.

El sesgo muestral puede suprimirse, o minimizarse, usando la aleatorizacin. La aleatorizacin se refiere a cualquier proceso de seleccin de una muestra de la poblacin en el que la seleccin es imparcial o no est sesgada; una muestra elegida con procedimientos aleatorios se llama muestra aleatoria.

Los tipos ms comunes de tcnicas de muestreo aleatorios son el muestreo aleatorio simple, el muestreo estratificado, el muestreo por conglomerados y el muestreo sistemtico.

Si una muestra aleatoria se elige de tal forma que todos los elementos de la poblacin tengan la misma probabilidad de ser seleccionados, la llamamos muestra aleatoria simple.

Concepto de distribucin de muestreo de la media.


Distribuciones Muestrales Las muestras aleatorias obtenidas de una poblacin son, por naturaleza propia, impredecibles. No se esperara que dos muestras aleatorias del mismo tamao y tomadas de la misma poblacin tenga la misma media muestral o que sean completamente parecidas; puede esperarse que cualquier estadstico, como la media muestral, calculado a partir de las medias en una muestra aleatoria, cambie su valor de una muestra a otra, por ello, se quiere estudiar la distribucin de todos los valores posibles de un estadstico. Tales distribuciones sern muy importantes en el estudio de la estadstica inferencial, porque las inferencias sobre las poblaciones se harn usando estadsticas muestrales. Como el anlisis de las distribuciones asociadas con los estadsticos muestrales, podremos juzgar la confiabilidad de un estadstico muestral como un instrumento para hacer inferencias sobre un parmetro poblacional desconocido. Como los valores de un estadstico, tal como x, varan de una muestra aleatoria a otra, se le puede considerar como una variable aleatoria con su correspondiente distribucin de frecuencias. La distribucin de frecuencia de un estadstico muestral se denomina distribucin muestral. En general, la distribucin muestral de un estadstico es la de todos sus valores posibles calculados a partir de muestras del mismo tamao. Suponga que se han seleccionado muestras aleatorias de tamao 20 en una poblacin grande. Se calcula la media muestral x para cada muestra; la coleccin de todas estas medias muestrales recibe el nombre de distribucin muestral de medias, lo que se puede ilustrar en la siguiente figura:

Distribucin muestral de la media con 2 conocida y desconocida.


Distribucin Muestral de Medias Si recordamos a la distribucin normal, esta es una distribucin continua, en forma de campana en donde la media, la mediana y la moda tienen un mismo valor y es simtrica. Con esta distribucin podamos calcular la probabilidad de algn evento relacionado con la variable aleatoria, mediante la siguiente frmula:

En donde z es una variable estandarizada con media igual a cero y varianza igual a uno. Con esta frmula se pueden a hacer los clculos de probabilidad para cualquier ejercicio, utilizando la tabla de la distribucin z. Sabemos que cuando se extraen muestras de tamao mayor a 30 o bien de cualquier tamao de una poblacin normal, la distribucin muestral de medias tiene un comportamiento aproximadamente normal, por lo que se puede utilizar la frmula de la distribucin normal con y , entonces la frmula para calcular la probabilidad del comportamiento del estadstico, en este caso la media de la muestra , quedara de la siguiente manera:

Y para poblaciones finitas y muestro con reemplazo:

Ejemplo: Una empresa elctrica fabrica focos que tienen una duracin que se distribuye aproximadamente en forma normal, con media de 800 horas y desviacin estndar de 40 horas. Encuentre la probabilidad de que una muestra aleatoria de 16 focos tenga una vida promedio de menos de 775 horas. Solucin:

10

Este valor se busca en la tabla de z

La interpretacin sera que la probabilidad de que la media de la muestra de 16 focos sea menor a 775 horas es de 0.0062. Ejemplo: Las estaturas de 1000 estudiantes estn distribuidas aproximadamente en forma normal con una media de 174.5 centmetros y una desviacin estndar de 6.9 centmetros. Si se extraen 200 muestras aleatorias de tamao 25 sin reemplazo de esta poblacin, determine: a. El nmero de las medias muestrales que caen entre 172.5 y 175.8 centmetros. b. El nmero de medias muestrales que caen por debajo de 172 centmetros. Solucin: Como se puede observar en este ejercicio se cuenta con una poblacin finita y un muestreo sin reemplazo, por lo que se tendr que agregar el factor de correccin. Se proceder a calcular el denominador de Z para slo sustituirlo en cada inciso.

a.

11

(0.7607)(200)=152 medias muestrales

b.

(0.0336)(200)= 7 medias muestrales

12

Distribucin muestral de la diferencia entre dos medias con 2 conocida y desconocida. Distribucin Muestral de Diferencia de Medias Suponga que se tienen dos poblaciones distintas, la primera con media 1 y desviacin estndar 1, y la segunda con media 2 y desviacin estndar 2. Ms an, se elige una muestra aleatoria de tamao n1 de la primera poblacin y una muestra independiente aleatoria de tamao n2 de la segunda poblacin; se calcula la media muestral para cada muestra y la diferencia entre dichas medias. La coleccin de todas esas diferencias se llama distribucin muestral de las diferencias entre medias o la distribucin muestral del estadstico

La distribucin es aproximadamente normal para n1 30 y n2 30. Si las poblaciones son normales, entonces la distribucin muestral de medias es normal sin importar los tamaos de las muestras.

En ejercicios anteriores se haba demostrado que

y que

, por lo que no es difcil

deducir que

y que

La frmula que se utilizar para el clculo de probabilidad del estadstico de diferencia de medias es:

13

Ejemplo: En un estudio para comparar los pesos promedio de nios y nias de sexto grado en una escuela primaria se usar una muestra aleatoria de 20 nios y otra de 25 nias. Se sabe que tanto para nios como para nias los pesos siguen una distribucin normal. El promedio de los pesos de todos los nios de sexto grado de esa escuela es de 100 libras y su desviacin estndar es de 14.142, mientras que el promedio de los pesos de todas las nias del sexto grado de esa escuela es de 85 libras y su desviacin estndar es de 12.247 libras. Si representa el promedio de los pesos de 20 nios y es el promedio de los pesos de una muestra de 25 nias, encuentre la probabilidad de que el promedio de los pesos de los 20 nios sea al menos 20 libras ms grande que el de las 25 nias. Solucin: Datos:
1=

100 libras

= 85 libras
1=

14.142 libras

2=

12.247 libras

n1 = 20 nios n2 = 25 nias =?

Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de nios sea al menos 20 libras ms grande que el de la muestra de las nias es 0.1056.

14

Ejemplo: Uno de los principales fabricantes de televisores compra los tubos de rayos catdicos a dos compaas. Los tubos de la compaa A tienen una vida media de 7.2 aos con una desviacin estndar de 0.8 aos, mientras que los de la B tienen una vida media de 6.7 aos con una desviacin estndar de 0.7. Determine la probabilidad de que una muestra aleatoria de 34 tubos de la compaa A tenga una vida promedio de al menos un ao ms que la de una muestra aleatoria de 40 tubos de la compaa B. Solucin: Datos:
A=

7.2 aos

= 6.7 aos
A=

0.8 aos

B=

0.7 aos

nA = 34 tubos nB = 40 tubos =?

15

Ejemplo: Se prueba el rendimiento en km/L de 2 tipos de gasolina, encontrndose una desviacin estndar de 1.23km/L para la primera gasolina y una desviacin estndar de 1.37km/L para la segunda gasolina; se prueba la primera gasolina en 35 autos y la segunda en 42 autos. a. Cul es la probabilidad de que la primera gasolina de un rendimiento promedio mayor de 0.45km/L que la segunda gasolina? b. Cul es la probabilidad de que la diferencia en rendimientos promedio se encuentre entre 0.65 y 0.83km/L a favor de la gasolina 1? Solucin: En este ejercicio no se cuenta con los parmetros de las medias en ninguna de las dos poblaciones, por lo que se supondrn que son iguales. Datos:
1=

1.23 Km/Lto 1.37 Km/Lto

2=

n1 = 35 autos n2 = 42 autos a. =?

16

b. ?

La probabilidad de que la diferencia en rendimientos promedio en las muestras se encuentre entre 0.65 y 0.83 Km/Lto a favor de la gasolina 1 es de 0.0117.

17

Distribucin muestral de la proporcin.


Distribucin muestral de Proporciones Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que queremos investigar la proporcin de artculos defectuosos o la proporcin de alumnos reprobados en la muestra. La distribucin muestral de proporciones es la adecuada para dar respuesta a estas situaciones. Esta distribucin se genera de igual manera que la distribucin muestral de medias, a excepcin de que al extraer las muestras de la poblacin se calcula el estadstico proporcin (p=x/n en donde "x" es el nmero de xitos u observaciones de inters y "n" el tamao de la muestra) en lugar del estadstico media.

Una poblacin binomial est estrechamente relacionada con la distribucin muestral de proporciones; una poblacin binomial es una coleccin de xitos y fracasos, mientras que una distribucin muestral de proporciones contiene las posibilidades o proporciones de todos los nmeros posibles de xitos en un experimento binomial, y como consecuencia de esta relacin, las afirmaciones probabilsticas referentes a la proporcin muestral pueden evaluarse usando la aproximacin normal a la binomial, siempre que np 5 y n(1-p) 5. Cualquier evento se puede convertir en una proporcin si se divide el nmero obtenido entre el nmero de intentos. Generacin de la Distribucin Muestral de Proporciones Suponga que se cuenta con un lote de 12 piezas, el cual tiene 4 artculos defectuosos. Se van a seleccionar 5 artculos al azar de ese lote sin reemplazo. Genere la distribucin muestral de proporciones para el nmero de piezas defectuosas. Como se puede observar en este ejercicio la Proporcin de artculos defectuosos de esta poblacin es 4/12=1/3. Por lo que podemos decir que el 33% de las piezas de este lote estn defectuosas.

18

El nmero posible de muestras de tamao 5 a extraer de una poblacin de 12 elementos es 12C5=792, las cuales se pueden desglosar de la siguiente manera: Nmero de maneras en las que se puede obtener la muestra
8C1*4C4=8 8C2*4C3=112 8C3*4C2=336 8C4*4C1=280

Artculos Buenos

Artculos Malos

Proporcin de artculos defectuoso

1 2 3 4 5 Total

4 3 2 1 0 792

4/5=0.8 3/5=0.6 2/5=0.4 1/5=0.2 0/5=0

8C5*4C0=56

Para calcular la media de la distribucin muestral de proporciones se tendra que hacer la sumatoria de la frecuencia por el valor de la proporcin muestral y dividirla entre el nmero total de muestras. Esto es:

Como podemos observar la media de la distribucin muestral de proporciones es igual a la Proporcin de la poblacin.
p

=P

Tambin se puede calcular la desviacin estndar de la distribucin muestral de proporciones:

La varianza de la distribucin binomial es 2= npq, por lo que la varianza de la distribucin muestral de proporciones es 2p = (Pq)/n. Si se sustituyen los valores en esta frmula tenemos que:

19

, este valor no coincide con el de 0.1681, ya que nos falta agregar el factor de correccin para una poblacin finita y un muestreo sin reemplazo:

La frmula que se utilizar para el clculo de probabilidad en una distribucin muestral de proporciones est basada en la aproximacin de la distribucin normal a la binomial. Esta frmula nos servir para calcular la probabilidad del comportamiento de la proporcin en la muestra.

A esta frmula se le puede agregar el factor de correccin de condiciones necesarias. Ejemplo:

si se cumple con las

Se ha determinado que 60% de los estudiantes de una universidad grande fuman cigarrillos. Se toma una muestra aleatoria de 800 estudiantes. Calcule la probabilidad de que la proporcin de la muestra de la gente que fuma cigarrillos sea menor que 0.55.

20

Solucin: Este ejercicio se puede solucionar por dos mtodos. El primero puede ser con la aproximacin de la distribucin normal a la binomial y el segundo utilizando la frmula de la distribucin muestral de proporciones. Aproximacin de la distribucin normal a la binomial: Datos: n=800 estudiantes p=0.60 x= (.55) (800) = 440 estudiantes p (x<440) =? Media= np= (800) (0.60)= 480

p(x< 440) = 0.0017. Este valor significa que existe una probabilidad del 0.17% de que al extraer una muestra de 800 estudiantes, menos de 440 fuman cigarrillos.

Distribucin Muestral de Proporciones Datos:

21

n=800 estudiantes P=0.60 p= 0.55 p (p<0.55) = ?

Observe que este valor es igual al obtenido en el mtodo de la aproximacin de la distribucin normal a la binomial, por lo que si lo buscamos en la tabla de "z" nos da la misma probabilidad de 0.0017. Tambin se debe de tomar en cuenta que el factor de correccin de 0.5 se est dividiendo entre el tamao de la muestra, ya que estamos hablando de una proporcin. La interpretacin en esta solucin, estara enfocada a la proporcin de la muestra, por lo que diramos que la probabilidad de que al extraer una muestra de 800 estudiantes de esa universidad, la proporcin de estudiantes que fuman cigarrillos sea menor al 55% es del 0.17%. Ejemplo: Un medicamento para malestar estomacal tiene la advertencia de que algunos usuarios pueden presentar una reaccin adversa a l, ms an, se piensa que alrededor del 3% de los usuarios tienen tal reaccin. Si una muestra aleatoria de 150 personas con malestar estomacal usa el medicamento, encuentre la probabilidad de que la proporcin de la muestra de los usuarios que realmente presentan una reaccin adversa, exceda el 4%. a. Resolverlo mediante la aproximacin de la normal a la binomial b. Resolverlo con la distribucin muestral de proporciones a. Aproximacin de la distribucin normal a la binomial:

22

Datos: n=150 personas p=0.03 x= (0.04)(150) = 6 personas p(x>6) = ? Media = np= (150)(0.03)= 4.5

p(x>6) = 0.1685. Este valor significa que existe una probabilidad del 17% de que al extraer una muestra de 150 personas, ms de 6 presentarn una reaccin adversa. b. Distribucin Muestral de Proporciones Datos: n=150 personas P=0.03 p= 0.04 p(p>0.04) = ?

23

Observe que este valor es igual al obtenido y la interpretacin es: existe una probabilidad del 17% de que al tomar una muestra de 150 personas se tenga una proporcin mayor de 0.04 presentando una reaccin adversa. Ejemplo: Se sabe que la verdadera proporcin de los componentes defectuosos fabricados por una firma es de 4%, y encuentre la probabilidad de que una muestra aleatoria de tamao 60 tenga: a. Menos del 3% de los componentes defectuosos. b. Ms del 1% pero menos del 5% de partes defectuosas. Solucin:

a. Datos: n= 60 artculos P=0.04 p= 0.03 p(p<0.03) = ?

24

La probabilidad de que en una muestra de 60 artculos exista una proporcin menor de 0.03 artculos defectuosos es de 0.2327.

b. Datos: n= 60 artculos P=0.04 p= 0.01 y 0.05 p(0.01<p<0.05) = ?

25

26

Teorema del lmite central.


Teorema del Lmite Central

El Teorema del Lmite Central dice que si tenemos un grupo numeroso de variables independientes y todas ellas siguen el mismo modelo de distribucin (cualquiera que ste sea), la suma de ellas se distribuye segn una distribucin normal. Ejemplo: la variable "tirar una moneda al aire" sigue la distribucin de Bernouilli. Si lanzamos la moneda al aire 50 veces, la suma de estas 50 variables (cada una independiente entre s) se distribuye segn una distribucin normal. Este teorema se aplica tanto a suma de variables discretas como de variables continuas. Los parmetros de la distribucin normal son: Media: n * (media de la variable individual multiplicada por el nmero de variables independientes) Varianza: n * 2 (varianza de la variable individual multiplicada por el nmero de variables individuales) Veamos un ejemplo: Se lanza una moneda al aire 100 veces, si sale cara le damos el valor 1 y si sale cruz el valor 0. Cada lanzamiento es una variable independiente que se distribuye segn el modelo de Bernouilli, con media 0,5 y varianza 0,25. Calcular la probabilidad de que en estos 100 lanzamientos salga ms de 60 caras. La variable suma de estas 100 variables independientes se distribuye, por tanto, segn una distribucin normal. Media = 100 * 0,5 = 50 Varianza = 100 * 0,25 = 25 Para ver la probabilidad de que salgan ms de 60 caras calculamos la variable normal tipificada equivalente:

27

(*) 5 es la raz cuadrada de 25, o sea la desviacin tpica de esta distribucin Por lo tanto: P (X > 60) = P (Y > 2,0) = 1- P (Y < 2,0) = 1 - 0,9772 = 0,0228 Es decir, la probabilidad de que al tirar 100 veces la moneda salga ms de 60 caras es tan slo del 2,28%

Teorema Central del Lmite: Ejercicios (I)

Ejercicio 1. La renta media de los habitantes de un pas se distribuye uniformemente entre 4,0 mil pesos. y 10,0 mil pesos. Calcular la probabilidad de que al seleccionar al azar a 100 personas la suma de sus rentas supere los 725 mil pesos. Cada renta personal es una variable independiente que se distribuye segn una funcin uniforme. Por ello, a la suma de las rentas de 100 personas se le puede aplicar el Teorema del Lmite Central. La media y varianza de cada variable individual es: = (4 + 10) / 2 = 7

2 = (10 - 4) ^2 / 12 = 3
Por tanto, la suma de las 100 variables se distribuye segn una normal cuya media y varianza son: Media: n * = 100 * 7 = 700 Varianza: n * 2= 100 * 3 = 300 Para calcular la probabilidad de que la suma de las rentas sea superior a 725 mil pesos, comenzamos por calcular el valor equivalente de la variable normal tipificada:

28

Luego: P (X > 725) = P (Y > 1,44) = 1 - P (Y < 1,44) = 1 - 0,9251 = 0,0749 Es decir, la probabilidad de que la suma de las rentas de 100 personas seleccionadas al azar supere los 725 mil pesos es tan slo del 7,49%

Ejercicio 2. En una asignatura del colegio la probabilidad de que te pasen al pizarrn en cada clase es del 10%. A lo largo del ao tienes 100 clases de esa asignatura. Cul es la probabilidad de tener que salir a la pizarra ms de 15 veces? Se vuelve a aplicar el Teorema del Lmite Central. Pasar al pizarrn es una variable independiente que sigue el modelo de distribucin de Bernouilli: "Pasar al pizarrn", le damos el valor 1 y tiene una probabilidad del 0,10 "No pasar al pizarrn", le damos el valor 0 y tiene una probabilidad del 0,9 La media y la varianza de cada variable independiente es: = 0,10

2= 0,10 * 0,90 = 0,09


Por tanto, la suma de las 100 variables se distribuye segn una normal cuya media y varianza son: Media: n * = 100 * 0,10 = 10 Varianza: n * 2= 100 * 0,09 = 9 Para calcular la probabilidad de pasar al pizarrn ms de 15 veces, calculamos el valor equivalente de la variable normal tipificada:

29

Luego: P (X > 15) = P (Y > 1,67) = 1 - P (Y < 1,67) = 1 - 0,9525 = 0,0475 Es decir, la probabilidad de tener que pasar ms de 15 veces al pizarrn a lo largo del curso es tan slo del 4,75% (no es tan grave). Teorema Central del Lmite: Ejercicios (II)

Ejercicio 1. Un da visitamos el Casino y decidimos jugar en la ruleta. Nuestra apuesta va a ser siempre al negro y cada apuesta de 500 pesos. Llevamos 10.000 pesos. y queremos calcular que probabilidad tenemos de que tras jugar 80 veces consigamos doblar nuestro dinero. Cada jugada es una variable independiente que sigue el modelo de distribucin de Bernouilli. "Salir negro", le damos el valor 1 y tiene una probabilidad del 0,485 "No salir negro", le damos el valor 0 y tiene una probabilidad del 0,515 (*) La probabilidad de "no salir negro" es mayor ya que puede salir rojo o el cero La media y varianza de cada variable individual es: = 0,485

2 = 0,485 * 0,515 = 0,25


A la suma de las 80 apuestas se le aplica el Teorema del Lmite Central, por lo que se distribuye segn una normal cuya media y varianza son: Media: n * = 80 * 0,485 = 38,8 Varianza: n * 2= 80 * 0,25 = 20

30

Para doblar nuestro dinero el negro tiene que salir al menos 20 veces ms que el rojo (20 * 500 = 10.000), por lo que tendr que salir como mnimo 50 veces (implica que el rojo o el cero salgan como mximo 30 veces). Comenzamos por calcular el valor equivalente de la variable normal tipificada:

Luego: P (X > 50) = P (Y > 2,50) = 1 - P (Y < 2,50) = 1 - 0,9938 = 0,0062 Es decir, la probabilidad de doblar el dinero es tan slo del 0,62% (as, que ms vale que nos pongamos a trabajar).

Ejercicio 2. El precio de una accin en bolsa se mueve aleatoriamente entre 10 pesos. y 20 pesos., con la misma probabilidad en todo el tramo. Hemos dado la orden a nuestro broker de que nos compre paquetes de 1.000 acciones cada da durante las prximas 40 sesiones. Una vez ejecutada la orden, tenemos un total de 40.000 acciones. A final de ao vendemos todas las acciones al precio de 13 pesos./accin, recibiendo 520.000 pesos. Calcular la probabilidad de que ganemos dinero en esta operacin. El precio de cada paquete comprado es una variable aleatoria independiente que se distribuye uniformemente entre 10.000 pesos y 20.000 pesos. Su media y varianza son: = (10.000 + 20.000 ) / 2 = 15.000

2= (20.000 - 10.000)^2 / 12 = 833,3


El precio total de los 40 paquetes comprados se distribuye segn una distribucin normal cuya media y varianza son: Media: n * = 40 * 15.000 = 600.000 Varianza: n * 2= 40 * 833,3 = 33.333,3

31

Para estimar la probabilidad de que ganemos dinero, calculamos el valor equivalente de la variable normal tipificada:

Luego: P (X > 520.000) = P (Y > 2,40) = 1 - P (Y < 2,40) = 1 - 0,9918 = 0,0082 Por tanto, la probabilidad de que ganemos dinero con la "dichosa" operacin es tan slo del 0,82%.

Teorema del lmite central Si se seleccionan muestras aleatorias de n observaciones de una poblacin con media y desviacin

estndar , entonces, cuando n es grande, la distribucin muestral de medias tendr aproximadamente una distribucin normal con una media igual a y una desviacin estndar de . La aproximacin ser cada vez ms exacta a medida de que n sea cada vez mayor.

Ejemplo Para la distribucin muestral de medias del ejercicio pasado, encuentre: a. El error muestral de cada media b. La media de los errores muestrales c. La desviacin estndar de los errores muestrales.

32

Solucin: a. En la tabla siguiente se ven las muestras, las medias de las muestras y los errores muestrales: Muestra (0,0) (0,2) (0,4) (0,6) (2,0) (2,2) (2,4) (2,6) (4,0) (4,2) (4,4) (4,6) (6,0) (6,2) (6,4) (6,6) X 0 1 2 3 1 2 3 4 2 3 4 5 3 4 5 6
e,

Error muestral, e=x0 - 3 = -3 1 - 3 = -2 2 - 3 = -1 33=0 1 3 = -2 2 3 = -1 33=0 43=1 2 3 = -1 33=0 43=1 53=2 33=0 43=1 53=2 63=3 es:

b. La media de los errores muestrales es

33

c. La desviacin estndar de la distribucin de los errores muestrales

e, es

entonces:

La desviacin estndar de la distribucin muestral de un estadstico se conoce como error estndar del estadstico. Para el ejercicio anterior el error estndar de la media denotado por x, es 1.58. Con esto se puede demostrar que si de una poblacin se eligen muestras de tamao n con reemplazo, entonces el error estndar de la media es igual a la desviacin estndar de la distribucin de los errores muestrales.

En general se tiene: Cuando las muestras se toman de una poblacin pequea y sin reemplazo, se puede usar la formula siguiente para encontrar x .

donde es la desviacin estndar de la poblacin de donde se toman las muestras, n es el tamao de la muestra y N el de la poblacin. Como regla de clculo, si el muestreo se hace sin reemplazo y el tamao de la poblacin es al menos 20 veces el tamao de la muestra (N 20), entonces se puede usar la frmula.

El factor

se denomina factor de correccin para una poblacin finita.

Ejemplo: Suponga que la tabla siguiente muestra la antigedad en aos en el trabajo de tres maestros universitarios de matemticas: Maestro de matemticas A B C Antigedad 6 4 2

34

Suponga adems que se seleccionan muestras aleatorias de tamao 2 sin reemplazo. Calcule la antigedad media para cada muestra, la media de la distribucin muestral y el error estndar, o la desviacin estndar de la distribucin muestral. Solucin: Se pueden tener 3C2 =3 muestras posibles. La tabla lista todas las muestras posibles de tamao 2, con sus respectivas medias muestrales. Muestras Antigedad Media Muestral 5 4 3

A,B A,C B,C

(6,4) (6,2) (4,2)

La media poblacional es:

La media de la distribucin muestral es: La desviacin estndar de la poblacin es:

El error estndar o la desviacin estndar de la distribucin muestral es:

Si utilizamos la frmula del error estndar sin el factor de correccin tendramos que:

35

Por lo que observamos que este valor no es el verdadero. Agregando el factor de correccin obtendremos el valor correcto:

El diagrama de flujo resume las decisiones que deben tomarse cuando se calcula el valor del error estndar:

36

Tipos de estimaciones y caractersticas. Introduccin a la Teora de la Estimacin ESTIMACION

El objetivo principal de la estadstica inferencial es la estimacin, esto es que mediante el estudio de una muestra de una poblacin se quiere generalizar las conclusiones al total de la misma. Como vimos en la seccin anterior, los estadsticos varan mucho dentro de sus distribuciones muestrales, y mientras menor sea el error estndar de un estadstico, ms cercanos sern unos de otros sus valores. Existen dos tipos de estimaciones para parmetros; puntuales y por intervalo. Una estimacin puntual es un nico valor estadstico y se usa para estimar un parmetro. El estadstico usado se denomina estimador. Una estimacin por intervalo es un rango, generalmente de ancho finito, que se espera que contenga el parmetro.

Propiedades de un Buen Estimador

Insesgado.- Se dice que un estimador puntual es un estimador insesgado de si , para todo valor posible de . En otras palabras, un estimador insesgado es aquel para el cual la media de la distribucin muestral es el parmetro estimado. Si se usa la media muestral para estimar la media poblacional , se sabe que la , por lo tanto la media es un estimador insesgado.

Eficiente o con varianza mnima.- Suponga que 1 y 2 son dos estimadores insesgados de . Entonces, aun cuando la distribucin de cada estimador est centrada en el valor verdadero de , las dispersiones de las distribuciones alrededor del valor verdadero pueden ser diferentes.

37

Entre todos los estimadores de que son insesgados, seleccione al que tenga varianza mnima. El resultante recibe el nombre de estimador insesgado con Varianza mnima (MVUE, mnimum variance unbiased estimator) de .

En otras palabras, la eficiencia se refiere al tamao de error estndar de la estadstica. Si comparamos dos estadsticas de una muestra del mismo tamao y tratamos de decidir cul de ellas es un estimador ms eficiente, escogeramos la estadstica que tuviera el menor error estndar, o la menor desviacin estndar de la distribucin de muestreo. Tiene sentido pensar que un estimador con un error estndar menor tendr una mayor oportunidad de producir una estimacin ms cercana al parmetro de poblacin que se est considerando.

Como se puede observar las dos distribuciones tienen un mismo valor en el parmetro slo que la distribucin muestral de medias tiene una menor varianza, por lo que la media se convierte en un estimador eficiente e insesgado.

Coherencia.- Una estadstica es un estimador coherente de un parmetro de poblacin, si al aumentar el tamao de la muestra se tiene casi la certeza de que el valor de la estadstica se aproxima bastante al valor del parmetro de la poblacin. Si un estimador es coherente se vuelve ms confiable si tenemos tamaos de muestras ms grandes.

38

Suficiencia.- Un estimador es suficiente si utiliza una cantidad de la informacin contenida de la muestra que ningn otro estimador podra extraer informacin adicional de la muestra sobre el parmetro de la poblacin que se est estimando. Es decir se pretende que al extraer la muestra el estadstico calculado contenga toda la informacin de esa muestra. Por ejemplo, cuando se calcula la media de la muestra, se necesitan todos los datos. Cuando se calcula la mediana de una muestra slo se utiliza a un dato o a dos. Esto es solo el dato o los datos del centro son los que van a representar la muestra. Con esto se deduce que si utilizamos a todos los datos de la muestra como es en el caso de la media, la varianza, desviacin estndar, etc.; se tendr un estimador suficiente.

Estimacin Puntual La inferencia estadstica est casi siempre concentrada en obtener algn tipo de conclusin acerca de uno o ms parmetros (caractersticas poblacionales). Para hacerlo, se requiere que un investigador obtenga datos muestrales de cada una de las poblaciones en estudio. Entonces, las conclusiones pueden estar basadas en los valores calculados de varias cantidades muestrales. Po ejemplo, representamos con (parmetro) el verdadero promedio de resistencia a la ruptura de conexiones de alambres utilizados para unir obleas de semiconductores. Podra tomarse una muestra aleatoria de 10 conexiones para determinar la resistencia a la ruptura de cada una, y la media muestral de la resistencia a la ruptura se poda emplear para sacar una conclusin acerca del valor de . De forma similar, si es la varianza de la distribucin de resistencia a la ruptura, el valor de la varianza .

muestral s2 se podra utilizar para inferir algo acerca de

Cuando se analizan conceptos generales y mtodos de inferencia es conveniente tener un smbolo genrico para el parmetro de inters. Se utilizar la letra griega para este propsito. El objetivo de la estimacin puntual es seleccionar slo un nmero, basados en datos de la muestra, que represente el valor ms razonable de .

Una muestra aleatoria de 3 bateras para calculadora podra presentar duraciones observadas en horas de x1=5.0, x2=6.4 y x3=5.9. El valor calculado de la duracin media muestral es = 5.77, y es razonable considerar 5.77 como el valor ms adecuado de .

39

Una estimacin puntual de un parmetro es un slo nmero que se puede considerar como el valor ms razonable de . La estimacin puntual se obtiene al seleccionar una estadstica apropiada y calcular su valor a partir de datos de la muestra dada. La estadstica seleccionada se llama estimador puntual de .

El smbolo

(theta sombrero) suele utilizarse para representar el estimador de

y la estimacin

puntual resultante de una muestra dada. Entonces se lee como "el estimador puntual de es la media muestral ". El enunciado "la estimacin puntual de es 5.77" se puede escribir en forma abreviada .

Ejemplo:

En el futuro habr cada vez ms inters en desarrollar aleaciones de Mg de bajo costo, para varios procesos de fundicin. En consecuencia, es importante contar con mtodos prcticos para determinar varias propiedades mecnicas de esas aleaciones. Examine la siguiente muestra de mediciones del mdulo de elasticidad obtenidos de un proceso de fundicin a presin: 44.2 43.9 44.7 44.2 44.0 43.8 44.6 43.1 Suponga que esas observaciones son el resultado de una muestra aleatoria. Se desea estimar la varianza poblacional . Un estimador natural es la varianza muestral:

En el mejor de los casos, se encontrar un estimador para el cual siempre. Sin embargo, una funcin de las Xi muestrales, por lo que en s misma una variable aleatoria. + error de estimacin

es

Entonces el estimador preciso sera uno que produzca slo pequeas diferencias de estimacin, de modo que los valores estimados se acerquen al valor verdadero.

40

Estimacin por Intervalos Un estimado puntual, por ser un slo nmero, no proporciona por s mismo informacin alguna sobre la precisin y confiabilidad de la estimacin. Por ejemplo, imagine que se usa el estadstico para calcular un estimado puntual de la resistencia real a la ruptura de toallas de papel de cierta marca, y suponga que = 9322.7. Debido a la variabilidad de la muestra, nunca se tendr el caso de que = . El estimado puntual nada dice sobre lo cercano que esta de . Una alternativa para reportar un solo valor del parmetro que se est estimando es calcular e informar todo un intervalo de valores factibles, un estimado de intervalo o intervalo de confianza (IC). Un intervalo de confianza se calcula siempre seleccionando primero un nivel de confianza, que es una medida del grado de fiabilidad en el intervalo. Un intervalo de confianza con un nivel de confianza de 95% de la resistencia real promedio a la ruptura podra tener un lmite inferior de 9162.5 y uno superior de 9482.9. Entonces, en un nivel de confianza de 95%, es posible tener cualquier valor de entre 9162.5 y 9482.9. Un nivel de confianza de 95% implica que 95% de todas las muestras dara lugar a un intervalo que incluye o cualquier otro parmetro que se est estimando, y slo 5% de las muestras producir un intervalo errneo. Cuanto mayor sea el nivel de confianza podremos creer que el valor del parmetro que se estima est dentro del intervalo.

Una interpretacin correcta de la "confianza de 95%" radica en la interpretacin frecuente de probabilidad a largo plazo: decir que un evento A tiene una probabilidad de 0.95, es decir que si el experimento donde A est definido re realiza una y otra vez, a largo plazo A ocurrir 95% de las veces. Para este caso el 95% de los intervalos de confianza calculados contendrn a .

41

Esta es una construccin repetida de intervalos de confianza de 95% y se puede observar que de los 11 intervalos calculados slo el tercero y el ltimo no contienen el valor de .

De acuerdo con esta interpretacin, el nivel de confianza de 95% no es tanto un enunciado sobre cualquier intervalo en particular, ms bien se refiere a lo que sucedera si se tuvieran que construir un gran nmero de intervalos semejantes.

Encontrar z a partir de un nivel de confianza Existen varias tablas en las cuales podemos encontrar el valor de z, segn sea el rea proporcionada por la misma. En esta seccin se realizar un ejemplo para encontrar el valor de z utilizando tres tablas diferentes. Ejemplo: Encuentre el valor de z para un nivel de confianza del 95%.

Solucin 1:

Se utilizar la tabla que tiene el rea bajo la curva de -

hasta z. Si lo vemos grficamente sera:

El nivel de confianza bilateral est dividido en partes iguales bajo la curva:

42

En base a la tabla que se est utilizando, se tendr que buscar el rea de 0.975, ya que cada extremo o cola de la curva tiene un valor de 0.025.

Por lo que el valor de z es de 1.96. Solucin 2: Si se utiliza una tabla en donde el rea bajo la curva es de 0 a z:

En este caso slo se tendr que buscar adentro de la tabla el rea de 0.475 y el resultado del valor de z ser el mismo, para este ejemplo 1.96.

Solucin 3: Para la tabla en donde el rea bajo la curva va desde z hasta :

43

Se busca el valor de 0.025 para encontrar z de 1.96. Independientemente del valor del Nivel de Confianza este ser el procedimiento a seguir para localizar a z. En el caso de que no se encuentre el valor exacto se tendr que interpolar.

44

Determinacin del tamao de la muestra de una poblacin. Determinacin del tamao de una muestra para medias, y Proporciones

TAMAO DE LA MUESTRA

A la hora de determinar el tamao que debe alcanzar una muestra hay que tomar en cuenta varios factores: el tipo de muestreo, el parmetro a estimar, el error muestral admisible, la varianza poblacional y el nivel de confianza. Por ello antes de presentar algunos casos sencillos de clculo del tamao muestral delimitemos estos factores.

Para calcular el tamao de una muestra hay que tomar en cuenta tres factores: 1. El porcentaje de confianza con el cual se quiere generalizar los datos desde la muestra hacia la poblacin total. 2. El porcentaje de error que se pretende aceptar al momento de hacer la generalizacin. 3. El nivel de variabilidad que se calcula para comprobar la hiptesis. La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe para generalizar los resultados obtenidos. Esto quiere decir que un porcentaje del 100% equivale a decir que no existe ninguna duda para generalizar tales resultados, pero tambin implica estudiar a la totalidad de los casos de la poblacin. Para evitar un costo muy alto para el estudio o debido a que en ocasiones llega a ser prcticamente imposible el estudio de todos los casos, entonces se busca un porcentaje de confianza menor. Comnmente en las investigaciones sociales se busca un 95%.

El error o porcentaje de error equivale a elegir una probabilidad de aceptar una hiptesis que sea falsa como si fuera verdadera, o la inversa: rechazar a hiptesis verdadera por considerarla falsa. Al igual que en el caso de la confianza, si se quiere eliminar el riesgo del error y considerarlo como 0%, entonces la muestra es del mismo tamao que la poblacin, por lo que conviene correr un cierto riesgo de equivocarse.

45

Comnmente se aceptan entre el 4% y el 6% como error, tomando en cuenta de que no son complementarios la confianza y el error.

La variabilidad es la probabilidad (o porcentaje) con el que se acept y se rechaz la hiptesis que se quiere investigar en alguna investigacin anterior o en un ensayo previo a la investigacin actual. El porcentaje con que se acept tal hiptesis se denomina variabilidad positiva y el porcentaje con el que se rechaz se la hiptesis es la variabilidad negativa

El muestreo es el proceso de tomar una proporcin o parte de un universo de elementos, con la finalidad de analizar en dichos elementos, caractersticas sujetas a estudio o fenmenos factibles de observacin y en base al anlisis de la muestra o proporcin tomada obtener conclusiones que se refieran no slo a la muestra sino a todo el universo. Para fines estadsticos, el universo puede considerarse finito o infinito. Se considera finito si el nmero de elementos que lo constituyen es menor a 500,000 e infinito si es igual o mayor a este nmero. Siempre que hagamos la eleccin de una muestra, debemos tener cuidado de que sta rena las siguientes caractersticas: Que sea suficiente: es decir que la cantidad de elementos seleccionados sea el que se requiere para que el nivel de confiabilidad sea el que se ha establecido previamente. Que sea representativa: esto quiere decir que los elementos seleccionados debern presentar caractersticas similares a las de la poblacin o universo. Al utilizar muestras en lugar de universos tenemos grandes ventajas, algunas de las ms importantes son: El costo se reduce, pues los gastos sern nicamente los ocasionados por una parte del universo (muestra tomada) y no por la totalidad de l. Si la muestra es representativa, las deducciones resultantes sobre el universo sern confiables. Como solamente se estudia una parte del universo, la informacin obtenida se realiza en menor tiempo.

Cmo obtener el tamao de la muestra a utilizar?

46

Una de las preguntas planteadas con mayor frecuencia al iniciar una investigacin y difcil de contestar, sobre todo por falta de informacin del problema, es: cuntas observaciones se deben obtener para que el tamao de la muestra sea realmente representativo del universo estadstico? En este sentido -la decisin del tamao de la muestra de una poblacin -, es necesario considerar que las muestras varan en su composicin de una a otra. La magnitud de la variacin depende del tamao de la muestra y de la variabilidad original de la poblacin. As, el tamao de la muestra queda determinado por el grado de precisin que se desea obtener y por variabilidad inicial de la poblacin. La respuesta a la pregunta planteada se puede considerar tomando como base lo siguientes: 1. Determinar el nivel de confianza con el cual vamos a trabajar y buscamos el valor de z asociado a dicho nivel de confianza, un nivel de confianza igual o mayor al 92% es aceptable estadsticamente. 2. Evaluar la probabilidad a favor de que suceda un evento o situacin esperada (esta probabilidad se le denomina p). 3. Evaluar la probabilidad en contra de que suceda en un evento o situacin esperada (a esta probabilidad se le denomina q= 1 p). 4. Determinar el error (e) mximo para el nivel de precisin que vayamos a permitir en los resultados (error mximo de estimacin), comnmente se trabaja con errores de estimacin entre el 2% y el 6%, ya que la validez de la informacin se reduce demasiado para valores mayores del 6%. Determinamos el tamao de la poblacin o universo. 5.- Se elige la frmula a utilizar para calcular el tamao de la muestra; dependiendo de si la poblacin o universo sujeto a estudio se va a considerar infinito o finito. (Una poblacin o universo se considera infinito si el nmero de elementos de los que consta es igual o mayor a 500,000 y es considerado finito si el nmero de elementos es menor a esta cantidad).

47

Diferentes niveles de confianza utilizados en la prctica

Nivel Confianza Valores de Z

de

99.73%

99%

98%

96%

95.45%

95%

90%

80 %

68.27 % 1.00

50%

3.00

2.58

2.33

2.05

2.00

1.96

1.64 5

1.2 8

0.674 5

El tamao de la muestra: Al realizar un muestreo probabilstica nos debemos preguntar Cul es el nmero mnimo de unidades de anlisis ( personas, organizaciones, captulo de telenovelas, etc.), que se necesitan para conformar una muestra ( n) que me asegure un error estndar menor que 0.01 ( fijado por el muestrista o investigador), dado que la poblacin N es aproximadamente de tantos elementos. En el tamao de una muestra de una poblacin tenemos que tener presente adems si es conocida o no la varianza poblacional. Para determinar el tamao de muestra necesario para estimar con un error mximo 2 permisible d prefijado y conocida la varianza poblacional ( ) podemos utilizar la frmula: 2 Z1 2

n=

(1) que se obtiene de reconocer que d es el error estndar o error mximo prefijado y est dado por la expresin d =

la estimacin, por lo que podemos inferir adems que P x < d = 1 . Ejemplo 1.2

Z1 para el nivel de confianza 1 y constituye una medida de la precisin de


2

48

Se desea estimar el peso promedio de los sacos que son llenados por un nuevo instrumento en una industria. Se conoce que el peso de un saco que se llena con este instrumento es una variable aleatoria con distribucin normal. Si se supone que la desviacin tpica del peso es de 0,5 kg. Determine el tamao de muestra aleatoria necesaria para determinar una probabilidad igual a 0,95 de que el estimado y el parmetro se diferencien modularmente en menos de 0,1 kg. Solucin:

d = 0,1

= 0,5 1 = 0,95

Z1 2 n= d 1 2 = 0,975

2 = (0,5)(1,96) = 96,4 0,1

Z1 2 = 1,96
Evidentemente un tamao de muestra no puede ser fraccionario por lo que se debe aproximar por exceso. El tamao de muestra sera de 97. Si la varianza de la poblacin es desconocida, que es lo que ms frecuente se ve en la prctica el tratamiento ser diferente, no es posible encontrar una frmula cuando la varianza poblacional es desconocida por lo que para ello aconsejamos utilizar el siguiente procedimientoPrimeramente, se toma una pequea muestra, que se le llama muestra piloto, con ella se estima la 2 2 varianza poblacional ( ) y con este valor se evala en la formula (1), sustituyendo ( ) por su 2 estimacin ( s ). El valor de n obtenido ser aproximadamente el valor necesario, nuevamente con ese valor de n se extrae una muestra de este tamao de la poblacin se le determina la varianza a 2 esa muestra, como una segunda estimacin de ( ) y se aplica de nuevo la formula (1), tomando la muestra con el n obtenido como muestra piloto para la siguiente iteracin, se llegar a cumplir con 2 2 las restricciones prefijadas. Se puede plantear esta afirmacin ya que la s de tiende a 2 estabilizarse a medida que aumenta n alrededor de la por lo que llegar el momento en que se encuentre el tamao de muestra conveniente, sin embargo, en la prctica es mucho ms sencillo pues, a lo sumo con tres iteraciones se obtiene el tamao de muestra deseado, este procedimiento para obtener el tamao de muestra deseado se puede realizar utilizando en Microsoft Excel en la opcin anlisis de datos las opciones estadstica descriptiva para ir hallando la varianza de cada una de las muestras y la opcin muestra para ir determinado las muestras pilotos. Para obtener el tamao de la muestra utilizando este mtodo recomendamos la utilizacin de un paquete de cmputo como por ejemplo el Microsoft Excel, aplicando las opciones muestra y estadstica descriptiva.

49

Para determinar el tamao de la muestra cuando los datos son cualitativos es decir para el anlisis de fenmenos sociales o cuando se utilizan escalas nominales para verificar la ausencia o presencia del fenmeno a estudiar, se recomienda la utilizacin de la siguiente formula:

n=

n' 1 + n' N
s2

(2)

Siendo n' =

sabiendo que:

2 Es la varianza de la poblacin respecto a determinadas variables.


s 2 Es la varianza de la muestra, la cual podr determinarse en trminos de probabilidad como
s 2 = p (1 p ) se Es error estandar que est dado por la diferencia entre ( x ) la media poblacional y la
media muestral. (se )2 Es el error estandar al cuadrado, que nos servir para determinar 2 = (se )2 es la varianza poblacional. Ejemplo 1.3 De una poblacin de 1 176 adolescentes de una ciudad X se desea conocer la aceptacin por los programas humorsticos televisivos y para ello se desea tomar una muestra por lo que se necesita saber la cantidad de adolescentes que deben entrevistar para tener una informacin adecuada con error estandar menor de 0.015 al 90 % de confiabilidad. Solucin: = 1 176 N = 0,015 se 2 2 2

2 , por lo que

= ( se) = (0,015) = 0.000225

s 2 = p(1 p) = 0,9(1 0,9) = 0,09


por lo que n' =

0,09 = 400 2 0,000225 n' 400 n= = = 298 1 + n' N 1 + 4001176 =

s2

Es decir para realizar la investigacin se necesita una muestra de al menos 298 adolescentes. Clculo del tamao de la muestra

50

A la hora de determinar el tamao que debe alcanzar una muestra hay que tomar en cuenta varios factores: el tipo de muestreo, el parmetro a estimar, el error muestral admisible, la varianza poblacional y el nivel de confianza. Por ello antes de presentar algunos casos sencillos de clculo del tamao muestral delimitemos estos factores. Parmetro. Son las medidas o datos que se obtienen sobre la poblacin. Estadstico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto una estimacin de los parmetros. Error Muestral, de estimacin o estandar. Es la diferencia entre un estadstico y su parmetro correspondiente. Es una medida de la variabilidad de las estimaciones de muestras repetidas en torno al valor de la poblacin, nos da una nocin clara de hasta dnde y con qu probabilidad una estimacin basada en una muestra se aleja del valor que se hubiera obtenido por medio de un censo completo. Siempre se comete un error, pero la naturaleza de la investigacin nos indicar hasta qu medida podemos cometerlo (los resultados se someten a error muestral e intervalos de confianza que varan muestra a muestra). Vara segn se calcule al principio o al final. Un estadstico ser ms preciso en cuanto y tanto su error es ms pequeo. Podramos decir que es la desviacin de la distribucin muestral de un estadstico y su fiabilidad. Nivel de Confianza. Probabilidad de que la estimacin efectuada se ajuste a la realidad. Cualquier informacin que queremos recoger est distribuida segn una ley de probabilidad (Gauss o Student), as llamamos nivel de confianza a la probabilidad de que el intervalo construido en torno a un estadstico capte el verdadero valor del parmetro. Varianza Poblacional. Cuando una poblacin es ms homognea la varianza es menor y el nmero de entrevistas necesarias para construir un modelo reducido del universo, o de la poblacin, ser ms pequeo. Generalmente es un valor desconocido y hay que estimarlo a partir de datos de estudios previos. Tamao de muestra para estimar la media de la poblacin Veamos los pasos necesarios para determinar el tamao de una muestra empleando el muestreo aleatorio simple. Para ello es necesario partir de dos supuestos: en primer lugar el nivel de confianza al que queremos trabajar; en segundo lugar, cual es el error mximo que estamos dispuestos a admitir en nuestra estimacin. As pues los pasos a seguir son: Veamos los pasos necesarios para determinar el tamao de una muestra empleando el muestreo aleatorio simple. Para ello es necesario partir de dos supuestos: en primer lugar el nivel de confianza al que queremos trabajar; en segundo lugar, cual es el error mximo que estamos dispuestos a admitir en nuestra estimacin. As pues los pasos a seguir son: 1.- Obtener el tamao muestral imaginando que N>

51

Dnde: : z correspondiente al nivel de confianza elegido : varianza poblacional e: error mximo 2.- Comprobar si se cumple

Si esta condicin se cumple el proceso termina aqu, y ese es el tamao adecuado que debemos muestrear. Si no se cumple, pasamos a una tercera fase: 3.- Obtener el tamao de la muestra segn la siguiente frmula:

Veamos un ejemplo: La Consejera de Trabajo planea un estudio con el inters de conocer el promedio de horas semanales trabajadas por las mujeres del servicio domstico. La muestra ser extrada de una poblacin de 10000 mujeres que figuran en los registros de la Seguridad Social y de las cuales se conoce a travs de un estudio piloto que su varianza es de 9.648. Trabajando con un nivel de confianza de 0.95 y estando dispuestos a admitir un error mximo de 0,1, cul debe ser el tamao muestral que Empleemos?. Buscamos en las tablas de la curva normal el valor de elegido: = 1. que corresponde con el nivel de confianza

1.96 y seguimos los pasos propuestos arriba.

2.- Comprobamos que no se cumple, pues en este caso 10000 < 3706 (3706 - 1); 10000 < 13730730

52

3.-

Tamao de muestra para estimar la proporcin de la poblacin Para calcular el tamao de muestra para la estimacin de proporciones poblaciones hemos de tener en cuenta los mismos factores que en el caso de la media. La frmula que nos permitir determinar el tamao muestral es la siguiente:

dnde : z correspondiente al nivel de confianza elegido P: proporcin de una categora de la variable e: error mximo N: tamao de la poblacin Siguiendo con el estudio planteado en el punto anterior, supongamos que tratamos de estimar la proporcin de mujeres que trabajan diariamente 10 horas o ms. De un estudio piloto se dedujo que P=0.30, fijamos el nivel de confianza en 0.95 y el error mximo 0.02.

53

Intervalos de confianza para la media, con el uso de la distribucin Normal y t student. Intervalos de Confianza para la Media con varianza conocida y con Varianza desconocida Estimacin de la media con conocida.

Es conocido de nosotros durante este curso, que en base a la distribucin muestral de medias que se

gener en el tema anterior, la frmula para el clculo de probabilidad es la siguiente: . Como en este caso no conocemos el parmetro y lo queremos estimar por medio de la media de la muestra, slo se despejar de la formula anterior, quedando lo siguiente:

De esta frmula se puede observar que tanto el tamao de la muestra como el valor de z se conocern. Z se puede obtener de la tabla de la distribucin normal a partir del nivel de confianza por lo que en esos casos lo correcto es utilizar otra establecido. Pero en ocasiones se desconoce distribucin llamada "t" de student si la poblacin de donde provienen los datos es normal. Para el caso de tamaos de muestra grande se puede utilizar una estimacin puntual de la desviacin estndar, es decir igualar la desviacin estndar de la muestra a la de la poblacin (s= Ejemplos: 1. Se encuentra que la concentracin promedio de zinc que se saca del agua a partir de una muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro. Encuentre los intervalos de confianza de 95% y 99% para la concentracin media de zinc en el ro. Suponga que la desviacin estndar de la poblacin es 0.3. Solucin: La estimacin puntual de por lo tanto: es = 2.6. El valor de z para un nivel de confianza del 95% es 1.96, ).

54

Para un nivel de confianza de 99% el valor de z es de 2.575 por lo que el intervalo ser ms amplio:

El intervalo de confianza proporciona una estimacin de la precisin de nuestra estimacin puntual. Si es realmente el valor central de intervalo, entonces estima sin error. La mayor parte de las veces, sin embargo, no ser exactamente igual a y la estimacin puntual es errnea. La magnitud de este error ser el valor absoluto de la diferencia entre y

, y podemos tener el nivel de confianza de que esta diferencia no exceder

Como se puede observar en los resultados del ejercicio se tiene un error de estimacin mayor cuando el nivel de confianza es del 99% y ms pequeo cuando se reduce a un nivel de confianza del 95%. 2. Una empresa elctrica fabrica focos que tienen una duracin aproximadamente distribuida de forma normal con una desviacin estndar de 40 horas. Si una muestra de 30 focos tiene una duracin promedio de 780 horas, encuentre un intervalo de confianza de 96% para la media de la poblacin de todos los focos que produce esta empresa.

55

Solucin:

Con un nivel de confianza del 96% se sabe que la duracin media de los focos que produce la empresa est entre 765 y 795 horas. 3. La prueba de corte sesgado es el procedimiento ms aceptado para evaluar la calidad de una unin entre un material de reparacin y su sustrato de concreto. El artculo "Testing the Bond Between Repair Materials and Concrete Substrate" informa que, en cierta investigacin, se obtuvo una resistencia promedio muestral de 17.17 N/mm2, con una muestra de 48 observaciones de resistencia al corte, y la desviacin estndar muestral fue 3.28 N/mm2. Utilice un nivel de confianza inferior del 95% para estimar la media real de la resistencia al corte. Solucin: En este ejercicio se nos presentan dos situaciones diferentes a los ejercicios anteriores. La primera que desconoce la desviacin estndar de la poblacin y la segunda que nos piden un intervalo de confianza unilateral. El primer caso ya se haba comentado y se solucionar utilizando la desviacin estndar de la muestra como estimacin puntual de sigma. Para el intervalo de confianza unilateral, se cargar el rea bajo la curva hacia un solo lado como sigue:

Esto quiere decir que con un nivel de confianza de 95%, el valor de la media est en el intervalo (16.39, ).

56

Determinacin del tamao de la muestra con grado de confianza y estimacin de . TAMAO DE LA MUESTRA PARA ESTIMAR LA MEDIA CON MUESTREO SIMPLE ALEATORIO Para estimar la media poblacional utilizando una variable aleatoria continua se utiliza la siguiente relacin:
2 N .S 2 Z

n=

N .d + S
2

2 2 Z 2

De donde: n = tamao de la muestra. N = tamao de la poblacin.

= variable estandarizada de distribucin normal.

S = varianza de la muestra. d (e) = precisin del muestreo.

= Nivel de significancia.
Generalmente es necesario hacer un premuestreo de 30 elementos, con el objetivo de hacer una primera estimacin de S. Ejemplo: En un lote de frascos para medicina, con una poblacin de 8000 unidades, se desea estimar la media de la capacidad en centmetros cbicos de los mismos. A travs de un premuestreo de tamao 35 se ha estimado que la desviacin estndar es de 2 centmetros cbicos. Si queremos tener una precisin 0.25 cms3, y un nivel de significancia del 5%. De qu tamao debe de ser la muestra? DATOS: S = 2 cms3; N = 8000; d = 0.25 cms3; = 0.05 (5%)

Z 2 = 1.96

57

n=

2 N .S 2 Z

Nd

2 2 2 + S Z 2

8000( 2 )2 ( 1.96 )2 8000( 0.25 )2 + ( 2 )2 ( 1.96 )2

122931.2 = 239 Frascos. 515.37

Solo faltara muestrear 204 frascos, pues los datos de los 35 frascos del premuestreo siguen siendo vlidos. TAMAO DE LA MUESTRA PARA ESTIMAR PROPORCIONES CON MUESTREO SIMPLE ALEATORIO En bastantes ocasiones, la variable bajo estudio es de tipo binomial, en ese caso para calcular el tamao de muestra bajo el muestreo simple aleatorio, se hara de la siguiente manera:
2 N . p.q .Z

n=

N .d +
2

2 2 p .q .Z 2

De donde: p = probabilidad de xito. q = probabilidad de fracaso. d = precisin expresada en porcentaje. En este caso para la estimacin de la varianza, tenemos dos opciones: a) hacer un premuestreo. b) asumir varianza mxima. Ejemplo: En una investigacin, se desea determinar en qu proporcin los nios de una regin toman leche en el desayuno. Si se sabe que existen 1.500 nios y deseamos tener una precisin del 10 %, con un nivel de significancia del 5 %. De qu tamao debe de ser la muestra? DATOS: N = 1500; d = 10 % = 0.1; = 5 % p = 0.5 y q = 0.5 (asumiendo varianza mxima). Z/2 = 1.96
2 N . p .q .Z 2 2 p .q .Z 2

n=

N .d +
2

1500( 0.5 )( 0.5 )( 1.96 )2 1500( 0.1 ) + ( 0.5 )( 0.5 ) / 1.96 )


2 2

1440.6 = 90 15,96

Se deben de muestrear 90 nios.

58

CONCLUSION Las conclusiones obtenidas en este punto pueden servir para tomar decisiones o hacer predicciones de eventos pasados o futuros. El estudio puede comenzar de nuevo a partir de este momento, en un proceso cclico que permite conocer cada vez mejor la poblacin y caractersticas de estudio.Ya que la muestra nos sirve para conocer datos especficos de la muestra asi como los valores a buscar, un dato estadstico o estimador de un parmetro poblacional en cualquier funcin que relaciona los elementos de la muestra y que utilizaremos para estimar o contrastar el verdadero valor.

59

BIBLIOGRAFIA www.google.com.mx Instituto tecnolgico de kalkini www.wikipedia.com

60

También podría gustarte