Está en la página 1de 34

Tema 7 Intervalos de confianza

Hugo S. Salinas

Tema 7

Introduccin
Hemos definido la inferencia estadstica como un proceso que usa informacin proveniente de la muestra para generalizar y tomar decisiones acerca de toda la poblacin en estudio. Sin embargo, hasta el momento hemos trabajado la muestra y la poblacin por separado. Luego, trabajamos herramientas tiles en el anlisis exploratorio de los datos provenientes de una muestra, tanto grficos como resmenes numricos para extraer informacin de inters para la inferencia. Hablamos de distribuciones de frecuencias y estadsticos. En el tema 6, a travs del lenguaje de la probabilidad, tratamos los modelos para las poblaciones que pueden ser de inters, sobre las cuales nos interesa sacar conclusiones, o tomar una decisin. Definimos las variables aleatorias, sus distribuciones de probabilidad, parmetros y algunos modelos frecuentes. Podemos hacer un cuadro comparativo entre caractersticas del anlisis exploratorio de datos y de la inferencia estadstica:

Tema 7

Introduccin cont.

Muchas de las tcnicas utilizadas en inferencia exigen, tambin, que la distribucin de los datos tenga determinadas caractersticas. El anlisis de datos es de gran ayuda en este aspecto, para descubrir observaciones atpicas y otras desviaciones que puedan perturbar una correcta inferencia. Por lo tanto, en la prctica podemos observar como el anlisis exploratorio de los datos y la inferencia estadstica se complementan.

Tema 7

Introduccin cont.
Como se sabe, muy frecuentemente es necesario seleccionar una muestra de unidades de la poblacin, para extraer conclusiones respecto de la misma, en base a las observaciones muestrales . Resumiendo: Cuando el inters reside en generalizar las conclusiones de los resultados observados a la poblacin en estudio o queremos tomar una decisin sobre la poblacin en base a una muestra, estamos frente a un problema de inferencia estadstica. Para que este proceso sea adecuado, debemos tener en cuenta: Plantear claramente el problema. Delimitar la poblacin en estudio. Definir si el objetivo reside en estimar el valor de un parmetro desconocido de la poblacin (por ej. , , p) a partir de un estadstico calculado con los datos de una muestra o decidir sobre valores hipotticos que asignamos a dichos parmetros. Hacer un correcto diseo para la obtencin de los datos muestrales. Los resultados de las tcnicas para la inferencia que se utilizarn slo sern vlidos si la muestra es obtenida por mtodos aleatorios, que son los mtodos que dan confianza de seleccionar muestras representativas de la poblacin. Un buen diseo para la obtencin de los datos, es la mejor garanta de que la inferencia tenga valor. Tener en cuenta y verificar los requerimientos de las tcnicas a aplicar
Tema 7 4

Parmetros y estadsticos
Un parmetro es un nmero que describe algn aspecto de la poblacin en estudio. En la prctica, en la mayora de los casos (poblacin infinita, pruebas destructivas, etc) el valor del parmetro es desconocido. Un estadstico es un nmero que se calcula a partir de los datos muestrales. Si se utiliza para estimar un parmetro desconocido, se le conoce con el nombre de estimador. Tengamos en cuenta que el valor del parmetro es fijo, mientras que el valor de un estadstico est en funcin de la muestra seleccionada y por lo tanto podr variar de una muestra a otra. Si de alguna manera, pudiramos medir la precisin de este proceso, es decir, si pudiramos evaluar si el valor del estadstico va a estar cerca del valor del parmetro correspondiente, para cualquier muestra extrada de la poblacin, entonces estaramos en condiciones de hacer buenas inferencias. Es aqu donde la tcnica de muestreo y el tamao de la muestra juegan un papel fundamental. Trabajaremos con muestras aleatoria simples, en donde cada elemento de una muestra de tamao n es una variable aleatoria, siendo X1, X2,, Xn, variables independientes entre s. Slo cuando se utiliza el azar para escoger los elementos que conforman una muestra, podemos describir cmo vara el estadstico. Al obtener de forma repetida de una poblacin distintas muestras del mismo tamao, podemos encontrar la distribucin muestral del estadstico, como veremos ahora.
Tema 7 5

Distribucin de la media muestral

Tema 7

Distribucin de la media muestral cont.

Tema 7

Distribucin de la media muestral cont.


(a) La apariencia general de la distribucin t es similar a la de la distribucin normal estndar: ambas son simtricas y unimodales y el valor mximo de la ordenada se alcanza en la media = 0. Sin embargo esta distribucin tiene colas ms amplias ( o ms pesadas) que la normal. Existe una distribucin t distinta para cada tamao de muestra. Una distribucin t viene determinada por un parmetro llamado grados de libertad. A medida que aumentan los grados de libertad, la curva de densidad t se parece ms a la curva de la N(0,1), ya que la estimacin de por S (desviacin estndar muestral) se va haciendo ms precisa. La propiedad 1 indica que el estimador X es insesgado, ya que el centro de su distribucin muestral es igual al valor del parmetro poblacional correspondiente. La propiedad 2 hace a la variabilidad o precisin del estimador y vemos que a medida que el tamao muestral crece la precisin del estimador es mayor, ya que la variacin alrededor del parmetro desconocido disminuye (propiedad de convergencia). Si la distribucin de un estadstico muestra valores muy alejados, se dice que carece de precisin.

Idealmente buscamos un estimador que cumpla estas dos propiedades: que sea insesgado y convergente:
Tema 7 8

Distribucin de la media muestral cont.

En general, la notacin que utilizaremos para los estimadores es la siguiente:

Tema 7

Distribucin de la frecuencia relativa o proporcin muestral

Tema 7

10

Distribucin de la frecuencia relativa o proporcin muestral cont.

Tema 7

11

Distribucin de la varianza muestral

Tema 7

12

Distribucin de la varianza muestral cont.

(b)

Las distribuciones ji cuadrado (o chi cuadrado) son una familia de distribuciones que slo toman valores positivos y que son asimtricas hacia la derecha. Una distribucin ji cuadrado viene determinada por un parmetro llamado grados de libertad. A medida que aumentan los grados de libertad, las curvas de densidad son menos asimtricas y por lo tanto, los valores mayores son ms probables.
Tema 7 13

Distribucin de la varianza muestral cont.


Resumiendo, hemos tratado el comportamiento de las distribuciones muestrales de algunos estimadores cuando se toman muestras aleatorias simples. Se analiz que si el tamao de muestra es ms grande, la distribucin de estos estimadores tiende a centrarse ms y ms alrededor del valor del parmetro que se quiere estimar. En la prctica no se conocer el verdadero parmetro poblacional (por eso la estimacin) y se tomar una sola muestra (no muchas como cuando se simul la distribucin del promedio muestral), pero son las propiedades (insesgado y convergencia) las que garantizan que cuando la muestra que se toma sea grande habr una alta probabilidad de que el valor que toma el estimador (estimacin) est cerca del verdadero valor del parmetro que se quiere estimar.

Tema 7

14

Intervalos de confianza (IC)


Inferir significa sacar conclusiones. La inferencia estadstica nos proporciona mtodos para sacar conclusiones sobre una poblacin a partir de los datos que surjan de una muestra de dicha poblacin, utilizando la probabilidad para expresar la fuerza de nuestras conclusiones. Los dos procedimientos ms ampliamente utilizados de inferencia estadstica son: la construccin de un intervalo de confianza cuando el objetivo sea estimar un parmetro poblacional y la prueba de hiptesis, cuando el objetivo sea tomar una decisin respecto de una hiptesis que se formula sobre el valor de un parmetro poblacional. Slo cuando se utiliza el azar para escoger los elementos que conforman una muestra, podemos describir cmo vara el estadstico. Pudimos contestar preguntas como qu tan cercana queda la media de la muestra X , de la media de la poblacin ?. En este tema y en el prximo vamos a invertir el argumento. A partir de una muestra conocida que se ha extrado de una poblacin qu se puede concluir acerca de los parmetros desconocidos de la misma? Este proceso involucra una induccin, o inferencia estadstica: ir de lo particular (muestra) a lo general (poblacin). Siempre nos basaremos en datos que proceden de una muestra aleatoria simple de una poblacin. Seleccionaremos, para inferir buenos estimadores: estimadores insesgados del parmetro poblacional desconocido y convergentes al mismo.
Tema 7 15

Intervalos de confianza cont.


Si no se conoce el valor de un parmetro poblacional, el mismo se puede estimar a partir de un intervalo de confianza para dicho parmetro. A todo intervalo de confianza, calculado a partir de los datos de una muestra aleatoria, se le fija un nivel de confianza que mide la probabilidad de que el intervalo contenga el verdadero valor del parmetro. Por ejemplo: un intervalo para un parmetro poblacional, calculado con un 95% de confianza, es un intervalo que tiene una probabilidad de 95% de contener el verdadero valor del parmetro. El objetivo de este tema es describir los razonamientos utilizados en la construccin de un intervalo de confianza. Podremos estar interesados en estimar , 2 o p, obteniendo una medida de la precisin de la estimacin y otra sobre cul es nuestra confianza de que el resultado sea correcto, como veremos a continuacin. Nos apoyaremos en un ejemplo de estimacin del parmetro desconocido , cuando los datos son una muestra aleatoria simple de tamao n. El intervalo se basa en el hecho de que la distribucin de la media muestral es normal o aproximadamente normal.
Tema 7 16

IC para la media poblacional con varianza conocida


Anteriormente, suponamos conocida la media poblacional y estudiamos para muestras de distintos tamaos, qu tan cerca o lejos poda esperarse encontrar el valor de la media muestral. Por ejemplo, si se considera una poblacin normal donde = 4.5 y la desviacin poblacional =1, y se extraen muestras de tamao 100, la variable promedio muestral se distribuye normalmente con esperanza 4.5 y desviacin estndar 1/10. En smbolos:

Tema 7

17

IC para la media poblacional con varianza conocida cont.

Tema 7

18

IC para la media poblacional con varianza conocida cont.


Por lo tanto, el 95% de los promedios muestrales estarn entre 4.304 y 4.696:

Tema 7

19

IC para la media poblacional con varianza conocida cont.

Cuando se selecciona una muestra, los lmites dejan de ser aleatorios dado que obtenemos un valor del promedio de la muestra seleccionada y en consecuencia hablamos de un intervalo de confianza de 95% para el promedio poblacional.

Supongamos las siguientes situaciones para una muestra extrada de tamao 100:

Tema 7

20

IC para la media poblacional con varianza conocida cont.


La media muestral resulta igual a 4.35. Luego el intervalo de confianza para es:

Este intervalo (4.154 ; 4.546) contiene a la media poblacional = 4.5. Esta muestra nos llevara a decir que 4.5 es un valor posible de . La media muestral resulta igual a 4.6. El intervalo de confianza obtenido a partir de este valor :(4,404 ; 4.796), tambin nos llevara a decir que 4.5 es un valor posible de . La media muestral resulta igual a 4.25. El intervalo de confianza obtenido a partir de este valor: (4.052 ; 4.446) no contiene al parmetro; nos llevara a decir que 4.5 no es un valor posible de . La media muestral resulta igual a 4.304. El intervalo de confianza obtenido a partir de este valor: (4.108 ; 4.5) nos llevara a decir que 4.5 es un valor posible de . Todas estas situaciones se pueden visualizar en la figura siguiente:
Tema 7 21

IC para la media poblacional con varianza conocida cont.

O sea que para algunas muestras, el intervalo de confianza contiene al verdadero valor de , mientras que para otras no.
Tema 7 22

IC para la media poblacional con varianza conocida cont.


En este ejemplo, siempre que la media (o promedio) est situada a una distancia de a lo sumo 0.196 de , el intervalo cubrir al verdadero valor del promedio poblacional y esto suceder en un 95 % de todas las muestras posibles. La semi-amplitud del intervalo de confianza se conoce como error de estimacin y es una medida de la precisin de la estimacin. En el ejemplo se trabaja con un error de estimacin para un intervalo de 95 % de confianza igual a 0.196.

En la prctica slo se selecciona una muestra y se desconoce . Nunca se sabe con seguridad si el intervalo obtenido incluye la media poblacional. Por ejemplo, si se extrae una muestra y su media resulta igual a 4.6 decimos que tenemos una confianza de 95 % de que la media poblacional desconocida se encuentre en el intervalo (4.404 ; 4.796). Este intervalo es el que vara en funcin de la muestra que sale seleccionada. El valor del parmetro es nico.

Tema 7

23

IC para la media poblacional con varianza conocida cont.


Si a partir del mismo ejemplo se hubiera trabajado con una confianza de 99%, el error de estimacin resultara:

En general, para una confianza de 100 (1-) % el error de estimacin resulta:

Y el intervalo de confianza para la media poblacional con varianza conocida es:

Si la poblacin es Normal, no interesa el tamao de la muestra aleatoria que se selecciona para estimar . Si la poblacin no es Normal, se necesita un tamao de muestra de por lo menos 30 observaciones (Teorema Central del Lmite) para usar la expresin anterior del intervalo de confianza.
Tema 7 24

Tamao de la muestra para estimar


Siempre es necesario planificar la inferencia conjuntamente con la obtencin de los datos.

Si el error de estimacin para la media es:


El tamao de muestra para un error de estimacin y un nivel de confianza determinado se deduce de la ecuacin anterior, resultando:

Es importante tener claro que lo que determina el tamao de la muestra es el error de estimacin y la confianza que se pretende para realizar la estimacin y no el tamao de la poblacin, ya que ste no influye sobre el tamao de muestra que se necesita para la inferencia. Esta frmula (redondear n siempre hacia arriba) no se puede utilizar ligeramente. En la prctica la obtencin de observaciones cuesta tiempo y dinero. Puede ocurrir que el tamao de la muestra ideal sea inviable por razones econmicas y/o de otro tipo.

Tema 7

25

IC para la media con varianza desconocida


En el punto anterior estimamos el promedio poblacional suponiendo la desviacin estndar poblacional conocida. En la prctica, es poco probable conocer el valor de . Antes vimos que si la poblacin de la cual se extraen las muestras es normal, con media poblacional y desviacin estndar poblacional desconocido, se reemplaza por S (desvo muestral) y la estadstica

deja de tener distribucin normal estandarizada y tiene una distribucin t Student con n-1 grados de libertad, es decir:

Para obtener un intervalo de confianza para el promedio poblacional cuando era conocida trabajamos con la variable normal estandarizada (z). Ahora trabajaremos con la variable e t de Student ( t n1; ). En consecuencia, para una confianza de 100 (1-) % el error de estimacin resulta:

Tema 7

26

IC para la media con varianza desconocida


Y el intervalo de confianza para la media poblacional con varianza desconocida es:

Tema 7

27

Resumen IC para la media poblacional

Tema 7

28

IC para la proporcin poblacional


Se sabe que la distribucin del estadstico frecuencia relativa o proporcin muestral. Si n es suficientemente grande, la distribucin de fr se comporta aproximadamente como una distribucin normal con media p y desviacin estndar Es decir:

Tema 7

29

IC para la proporcin poblacional cont.

Tamao de la muestra para estimar p El tamao de muestra n para un error de estimacin y un nivel de confianza de 100 (1)%, se deduce de la ecuacin anterior, resultando:

Tema 7

30

IC para la proporcin poblacional cont.


Para utilizar la frmula anterior se necesita reemplazar a p por una estimacin de la misma. Esta se puede obtener: de la estimacin de la proporcin muestral en una muestra anterior calculando la estimacin de p en una muestra preliminar (o piloto) Si estas alternativas no son posibles, otra forma para calcular el tamao de la muestra requerida, es considerar que siempre p(1 p) es mximo para p = 0.5. Es decir, que una cota superior para n (para una confianza de 100 (1- )% y un error est dada por:

Ejemplo : Una empresa de cable desea conocer qu proporcin de sus clientes se informan de las noticias a travs de los noticiarios que difunden. Para ello seleccion una muestra aleatoria de 200 clientes. De las 200 personas, 110 respondieron que se informan a travs de los noticieros televisivos. El intervalo obtenido para una confianza de 95% result:

Tema 7

31

IC para la proporcin poblacional cont.


Es decir que con una confianza de 95 % se puede inferir que la proporcin de clientes que se informan a travs de los noticieros se encuentra entre el 48% y el 62%. La empresa considera que el error de estimacin es alto y por lo tanto, este intervalo no le brinda demasiada informacin. A tal fin decide consultar a ms clientes. El tamao de muestra que lo llevara a cometer un error de 4%, con la misma confianza, y utilizando la proporcin muestral ya obtenida, resulta:

Es decir que se necesita un tamao de muestra mayor o igual a 595 clientes.

Tema 7

32

IC para la varianza poblacional de una distribucin normal


Se sabe que la distribucin de la varianza muestral S2. Si la poblacin de la cual se extraen las muestras es normal, la variable tiene una distribucin ji cuadrado ( 2 ) con (n -1) grados de libertad

Tema 7

33

IC para la varianza poblacional de una distribucin normal cont.


Ejemplo: En un criadero de peces se cran truchas para aprovisionar ros y lagos. El peso del pez en el momento que es liberado se puede controlar variando la alimentacin. El criadero espera una desviacin estndar de 21.5 gramos en el peso de los peces. Para evaluar si el plan de alimentacin que se aplica cumple lo deseado, se toma una muestra de 25 peces obtenindose una desviacin para el peso de 28.9 gramos. El intervalo de 95% de confianza para la varianza poblacional resulta:

Es decir, que con un 95% de confianza, el desvo estndar poblacional se encuentra en el intervalo (22.57 ; 40.21). Por lo tanto se concluye, con un 95 % de confianza, que el desvo estndar del peso de los peces es superior al deseado por el criadero.

Tema 7

34