Está en la página 1de 17

INFERENCIA ESTADISTICA

El campo de la inferencia estadstica est formado por los mtodos


utilizados para tomar decisiones o para obtener conclusiones sobre una
poblacin. Estos mtodos utilizan la informacin contenida en una
muestra de la poblacin para obtener conclusiones.
La inferencia estadstica puede dividirse en dos grandes reas:
Estimacin de Parmetros y Prueba de Hiptesis.
Estimacin de Parmetros
Como ya hemos visto, a partir de los estadsticos que hemos obtenido
en las muestras queremos obtener una idea de los valores de los
parmetros en la poblacin.
Se trata de emplear los estadsticos para estimar los parmetros.
Veremos DOS tipos de estimadores:
1) Estimacin puntual. Aqu obtendremos un punto, un valor, como
estimacin del parmetro.
2) Estimacin por intervalos. Aqu obtendremos un intervalo dentro
del cual estimamos (bajo cierta probabilidad) estar el parmetro.
Interpretacin de los intervalos de confianza
Un intervalo de confianza se puede interpretar de dos maneras
diferentes.
Ejemplo: una directora de tiendas cree que el gasto medio de sus
clientes en el ltimo ao se encuentra en el intervalo de 35 a 38 dlares
y concede una confianza del 95% a ese intervalo.
Interpretacin 1: confa al 95% en que la media poblacional se
encuentra entre 35 y 38 dlares.
Nota: no significa que haya una probabilidad de 0.95 de que se
encuentre entre 35 y 38 dlares. En sentido apriorstico (antes de formar
el intervalo de confianza) hay una probabilidad de 0.95 de construir un
intervalo que contenga a la media , pero una vez fijado el intervalo,
est o no est comprendido en l, es decir, el 0.95 de probabilidad se
asigna a nuestro grado de confianza de que el intervalo contenga a , no
a la probabilidad de que est en l.

Interpretacin 2: si se construyen todos los intervalos de confianza


posibles, el 95% de ellos incluir el parmetro desconocido.
CONOCIMIENTOS PREVIOS
Distribuciones de muestreo:
La inferencia estadstica tiene que ver con la toma de decisiones sobre
una poblacin, con base en la informacin contenida en una muestra
aleatoria de sta. Por ejemplo supngase que se tiene inters en el
volumen promedio de un envase de refresco. Se requiere que el volumen
promedio de la poblacin sea 300 ml. Un ingeniero toma una muestra
aleatoria de 25 envases y calcula el volumen promedio en la muestra, el

cual resulta ser X = 298 ml. Es probable que el ingeniero decida que la
media de la poblacin es =300 ml, a pesar de que la media de la
muestra es 298 ml, ya que sabe que la media muestral, es un estimador
razonable de y que es muy probable obtener una media muestral de
298 ml, incluso si la media verdadera de la poblacin es =300 ml. De
hecho, si la media verdadera es 300 ml, entonces la prueba puede
repetirse con 25 envases, quizs cada cinco minutos, lo que producir

valores de X que estarn por encima y por debajo de =300 ml.


La media muestral es un estadstico, esto es, una variable aleatoria que
depende de los resultados obtenidos en cada muestra particular. Dado
que un estadstico es una variable aleatoria entonces tiene una
distribucin de probabilidad en donde cada variable aleatoria est
distribuida normal e independientemente, y es llamada Distribucin de
muestro de la media, con media

y varianza

, para

una muestra de tamao n.


La distribucin de muestreo de un estadstico depende de la distribucin
de la poblacin, del tamao de la muestra y del mtodo utilizado para
seleccionar sta.
Teorema del lmite central:
Si se muestrea una poblacin que tiene una distribucin de probabilidad
desconocida, la distribucin de muestreo de la media muestral seguir

siendo aproximadamente normal con media y varianza

, si el

tamao de la muestra n es grande (n>30). De esta forma se llega a la


siguiente definicin:
Si X1, X2,,Xn es una muestra aleatoria de tamao n tomada de una

poblacin (finita o infinita) con media y varianza

, y si X es la media

muestral, entonces la forma lmite de la distribucin de


Cuando n

, es la distribucin normal estndar.

La Distribucin t de Student.
En la generalidad de los casos, no disponemos de la desviacin standard
de la poblacin, sino de una estimacin calculada a partir de una
muestra extrada de la misma y por lo tanto no podemos calcular Z.
En estos casos calculamos el estadstico T:

con

donde S es la desviacin standard muestral,

calculada con n-1 grados de libertad.


Ntese que utilizamos S, la Desviacin Standard de una Muestra, en
lugar de , la Desviacin Standard de la Poblacin.
El estadstico T tiene una distribucin que se denomina distribucin T de
Student, que est tabulada para 1, 2, 3, ... etc. grados de libertad de la
muestra con la cual se calcul la desviacin standard. La distribucin T
tiene en cuenta la incertidumbre en la estimacin de la desviacin
standard de la poblacin, porque en realidad la tabla de T contiene las
distribuciones de probabilidades para distintos grados de libertad.

La distribucin T es ms ancha que la distribucin normal estndar para


un nmero de grados de libertad pequeo. Cuando los grados de
libertad tienden a infinito, la distribucin T tiende a coincidir con la
distribucin normal standard. Es decir, en la medida que aumentemos el
nmero de observaciones de la muestra, la desviacin standard
calculada estar ms prxima a la desviacin standard de la poblacin y
entonces la distribucin T correspondiente se acerca a la distribucin
normal standard. El uso de la distribucin T presupone que la poblacin
con que estamos trabajando tiene una distribucin normal.
La tabla IV suministrada anexa al final proporciona los puntos crticos de
la distribucin t. Sea t , v el valor de la variable aleatorio T con v =n1 grados de libertad para el que se tiene un rea (o probabilidad) . Por
tanto t , v es un punto crtico en la cola superior de la distribucin t con
v grados de libertad. La figura abajo muestra este punto crtico.

t
v

1- , v

=-t

=0

Punto crtico superior = t


,v

En la tabla IV los valores son los encabezados de las columnas,


mientras que los grados de libertad aparecen en la columna de la parte
izquierda. Para ilustrar el uso de la tabla, ntese que el valor t con 10
grados de libertad que tiene un rea de 0.05 a la derecha es t 0.05 , 10 =
1.812. Esto es:

Puesto que la distribucin t es simtrica con respecto a cero, se tiene


que t 1- = - t ; esto es, el valor t corresponde a un rea de 1- a la
derecha (y por tanto un rea a la izquierda) es igual al negativo del
valor t que tiene el rea en la cola derecha de la distribucin.

En consecuencia t

=-t

0.95,10

0.05,10

= - 1.812

TIPOS DE ESTIMADORES
1. Estimacin Puntual: Un estimador puntual es simplemente un
estadstico (media aritmtica, varianza, etc.) que se emplea
para estimar parmetros (media poblacional, varianza
poblacional, etc.).
Es decir, cuando obtenemos una media aritmtica a partir de una
muestra, tal valor puede ser empleado como un estimador para el
valor de la media poblacional.
(Algunos autores comparan los estimadores con los lanzamientos
en una diana; el crculo central sera el valor real del parmetro.)

Estimadores de los parmetros ms usuales:

, media muestral. Se emplea para estimar

1.

y se escribe

2. S2=
estimar

3. S=

, varianza muestral. Este estimador se emplea para


y se escribe

, desviacin tpica muestral. Este estimador se

emplea para estimar

4.

=S2.

y se escribe

= S.

, proporcin muestral.

2. Intervalos de confianza para los principales parmetros


En muchas
situaciones, una estimacin puntual no proporciona
informacin suficiente sobre un parmetro. Por ejemplo, si se tiene
inters en estimar la resistencia promedio a la tensin de los elementos
estructurales empleados en el ala de un aeroplano, entonces es
probable que un solo nmero no sea tan significativo como un intervalo,
dentro del cual se espera encontrar el valor de este parmetro. El
intervalo estimado recibe el nombre de intervalo de confianza.
La mayora de los libros texto de Estadstica Bsica, en el tpico
dedicado a la inferencia estadstica (Estimacin de Parmetro y Prueba
de Hiptesis) trabajan bajo el supuesto de que el proceso de recoleccin
de la informacin es un muestreo aleatorio simple.
3. Concepto de Intervalo de Confianza
En el contexto de estimar un parmetro poblacional, un intervalo de
confianza es un rango de valores (calculado en una muestra) en el cual
se encuentra el verdadero valor del parmetro, con una probabilidad
determinada.
La probabilidad de que el verdadero valor del parmetro se encuentre en
el intervalo construido se denomina nivel de confianza, y se denota 1. La probabilidad de equivocarnos se llama nivel de significancia y se
simboliza por . Generalmente se construyen intervalos con confianza 1 = 95% (o significancia = 5%). Menos frecuentes son los intervalos
con = 10% o = 1%.

3.1.

Intervalo de confianza para la media con

varianza poblacional

conocida

Para construir un intervalo de confianza, suponemos que

X es un
estimador puntual razonable de la media poblacional desconocida y
por tanto puede obtenerse un intervalos de confianza del 100 (1-) por
ciento para al considerar la distribucin de muestreo de la media

muestral de X dado que esta es normal si la poblacin es normal, y


aproximadamente normal si se satisface las condiciones del teorema del

lmite central, el cual indica que el valor esperado o media X es ,


mientras que la varianza es

Por consiguiente, la distribucin de la media poblacional tiene una


distribucin Normal Estndar y cumple:

/2
=2.5%

Punto Crtico

/2 =2.5%
1- =
95%
z

Media=

0.975

0.025

Al examinar la figura se observa que un intervalo de confianza puede


plantearse de la siguiente forma:

P(

<Z<

) = 1-

Por lo tanto el intervalo de confianza del 95% tendr la siguiente forma:

P(

<Z<

) = 1-

Sustituyendo el nivel de confianza y los valores de z por medio de las


tablas de probabilidades se tiene que:
P(-1.96 < Z < 1.96) = 0.95

Luego, si una variable X tiene distribucin N (,

), entonces el 95% de

las veces se cumple:

Despejando en la ecuacin se tiene:

El resultado es un intervalo que incluye a el 95% de las veces. Es


decir, es un intervalo de confianza al 95% para la media cuando
la variable X es normal y

es conocido.

La forma general para este tipo de intervalo viene dada por:

P( X Z / 2 .

X Z / 2 .
) 1
n
n

Donde:
Z / 2 Valor Crtico de la Distribucin Normal correspondiente a un rea de

Probabilidad de / 2 . a la derecha

: Error Estndar de la estimacin


n
Z / 2 .

: Error Mximo de la Estimacin


n

1 = Nivel de Confianza

3.2.

Intervalo de confianza para la media con


desconocida

varianza poblacional

Generalmente,

cuando

se quiere

construir

un intervalo

de

confianza para la media poblacional , la varianza poblacional


es desconocida, por lo que el intervalo para construido al final de
la seccin 2.1 es muy poco prctico.
Si en el intervalo se reemplaza la desviacin estndar poblacional
por la desviacin estndar muestral S, entonces el intervalo de
confianza toma la forma:

La cual es una buena aproximacin para el intervalo de confianza


de 95% para con

desconocido. Esta aproximacin es mejor en

la medida que el tamao muestral sea grande.


Cuando el tamao muestral es pequeo (n<30), el intervalo de
confianza requiere utilizar la distribucin t de Student (con n-1
grados de libertad, siendo n el tamao de la muestra), en vez de la
distribucin normal (por ejemplo, para un intervalo de 95% de
confianza, los lmites del intervalo ya no sern construidos usando
el valor z = 1,96). El estadstico de la distribucin t es:

As el clculo del intervalo vendr dado por:

P ( X t / 2, n 1 .

s
s
X t / 2, n 1 .
) 1
n
n

Donde:
t / 2 Valor Crtico de la Distribucin T de Students correspondiente a un rea de

Probabilidad de / 2 . a la derecha con n-1 grados de libertad


s
: Error Estndar de la estimacin
n

t / 2, n 1.

s
: Error Mximo de la Estimacin
n

1 = Nivel de Confianza
En todo caso, recordar que si "n" es grande (n>30), la distribucin t de
Student ser virtualmente una distribucin normal estndar N(0,1). En otras
palabras,

si

"n"

es

grande,

ambas

frmulas

dan

unos

intervalos

virtualmente idntico, y emplear la distribucin normal es correcto.

Ntese que al emplear la aproximacin de la distribucin T como una


normal estndar las reas de probabilidades para la distribucin t queda
como en la siguiente grfica:

/2

/2
1- =
95%

-t
3.3.

/2 , n-1

=0

/2, n-1

Inferencias para la proporcin (P)

Estimacin puntual

^ x

; x representa el nmero de xitos en la muestra de

tamao (n)
Intervalo de Confianza para la proporcin
A menudo es necesario construir un intervalo de confianza para una
proporcin. Por ejemplo, supngase que se toma una muestra aleatoria de
tamao n de una poblacin grande (posiblemente infinita) y que X(n)

observaciones de esta muestra pertenecen a una clase de inters. Entonces


es un estimador puntual de la proporcin de la poblacin p que
pertenece a esta clase. Ntese que n y p son los parmetros de una
distribucin

binomial

que

la

distribucin

de

muestreo

aproximadamente normal con media p y varianza p(1-p)/n.

de

es

Por tanto la

distribucin de Z es aproximadamente normal estndar y puede construirse un


intervalo de confianza para p dado por:

^^

^^

p(1p ^ p(1p
( Zp /2. Zpp /2. )
n n
^

Donde:
Z / 2 Valor Crtico de la Distribucin Normal correspondiente a un rea de

Probabilidad de / 2 . a la derecha

: Error Estndar de la estimacin


n
Z / 2 .

: Error Mximo de la Estimacin


n

1 = Nivel de Confianza

El estadstico para el clculo de proporciones viene dado por:

4. Clculos de tamaos de muestra con muestreo aleatorio simple


Para la estimacin de la media

Si X se utiliza como estimacin de , entonces puede tenerse una confianza del 100(1) por ciento de que el error |x-| no ser mayor que una cantidad especfica E cuando el
tamao de la muestra sea:
n(

Z / 2. 2
)
E

Para la estimacin de la proporcin


Si

se utiliza como estimacin de p, entonces puede tenerse una confianza del

100(1-) por ciento de que el error |p-P| no ser mayor que una cantidad especfica E
cuando el tamao de la muestra sea:

n(

Z / 2 . 2
) p (1 p )
E

Dado que p no se conoce puede estimarse a travs de una muestra preliminar, de tamao
n >30, o maximizar el tamao de la muestra considerando valores de p =q=0,5. Esto suele
hacerse en estudios de mercado o en sondeos de opinin en los cuales no se tiene
conocimiento previo de la prevalencia o proporcin de aceptacin del producto o del
candidato. En ese caso:
n(

Z / 2. 2
) (0.25)
E

Ejercicio 1: Estimacin de un intervalo para la media con varianza


poblacional conocida.
Se encuentra que la concentracin promedio de zinc que se saca del
agua a partir de una muestra de mediciones de zinc en 36 sitios
diferentes es de 2.6 gramos por mililitro.
Encuentre los intervalos de confianza de 95% y 99% para la
concentracin media de zinc en el ro. Suponga que los datos siguen una
distribucin normal con una desviacin estndar de 0.3.
Solucin:
La estimacin puntual de es 2.6. La varianza de la poblacin es
conocida, el valor de z del 95% es 1.96, por lo tanto el intervalo lo
calcularamos como:

P( X Z / 2 .

X Z / 2 .
) 1
n
n

Y por tanto

con una confianza del 95%. O en otras palabras, la probabilidad de que


la concentracin media de zinc est entre 2.502 y 2.698 gramos por
mililitro es de 0.95.
Para un nivel de confianza de 99% el valor de z es de 2.58 por lo que el
intervalo ser ms amplio:

la probabilidad de que la concentracin media de zinc est entre 2.471 y


2.729 gramos por mililitro es de 0.99.

Como se puede observar en los resultados del ejercicio se tiene un error


de estimacin mayor cuando el nivel de confianza es del 99% y ms
pequeo cuando se reduce a un nivel de confianza del 95%.

Ejercicio 2 Estimacin de un intervalo para la media con varianza


poblacional desconocida.
Los siguientes datos son los puntajes obtenidos para 45 personas de una escala de depresin
(mayor puntaje significa mayor depresin).
2
11
14
16
19

5
11
15
16
19

6
13
15
17
19

8
13
16
17
19

8
14
16
17
19

9
14
16
18
19

9
14
16
18
19

10
14
16
18
20

11
14
16
19
20

Para construir un intervalo de confianza para el puntaje promedio poblacional, asumamos


que los datos tienen distribucin normal, con varianza poblacional
desconocida. Como
es desconocido, lo estimamos por

s = 4.3, donde la media muestral

viene dada por:

= 14.55

Luego, un intervalo de confianza aproximado es:

P( X Z / 2 .

X Z / 2 .
) 1
n
n

Luego, el intervalo de confianza para es (13.2, 15,8). Es decir, el puntaje


promedio poblacional se encuentra entre 13,2 y 15,8 con una confianza 95%.

Nota: En este caso como n>30 y la varianza desconocida, pueden


utilizarse los percentiles de la distribucin Normal. Si n<30 y la varianza
desconocida haba que emplear los de la t de student en el clculo del
intervalo de Confianza.

EJERCICIO 3: Estimacin de un intervalo para una proporcin.


En un estudio de prevalencia de factores de riesgo en una cohorte de
412 mujeres mayores de 15 aos en la Regin Metropolitana, se
encontr que el 17.6% eran hipertensas. Un intervalo de 95% de
confianza para la proporcin de mujeres hipertensas en la Regin
Metropolitana est dado por:

^^

^^

p(1p ^ p(1p
( Zp /2. Zpp /2. )
n n
^

As:
= 0.176 proporcin de mujeres hipertensas del total de 412.
n=412
1- = 0.95 = 0.05 /2 = 0.025
De la tabla IV, Z / 2 = Z 0.025 = 1.96
El intervalo de confianza de 95% viene dador por:

Luego, la proporcin de hipertensas vara entre (0.139, 0.212) con una


confianza de 95%.

EJERCICIO 4: Determinacin del tamao de muestra.


Un bilogo quiere estimar el peso promedio de los ciervos cazados en el
estado de Maryland. Un estudio anterior de diez ciervos cazados mostr
que la desviacin estndar de sus pesos es de 12.2 libras. Qu tan
grande debe ser una muestra para que el bilogo tenga el 95% de
confianza de que el error de estimacin es a lo ms de 4 libras?

Solucin:
E=4
=12.2
1- = 0.95 = 0.05 /2 = 0.025 1- /2 = 0.975 Z / 2 = Z 0.975
= 1.96
Entonces:

En consecuencia, si el tamao de la muestra es 36, se puede tener un 95% de confianza en


que difiere en menos de 4 libras de

EJERCICIO 5: Determinacin del tamao de muestra.


Una empresa elctrica fabrica focos que tienen una duracin
aproximadamente normal con una desviacin estndar de 40 horas. De
qu tamao se necesita una muestra si se desea tener 95% de confianza
que la media real est dentro de 10 horas de la media real?
Solucin:

Se necesita una muestra de 62 focos para estimar la media de la


poblacin y tener un
error mximo de 10 horas.
Qu pasara si en lugar de tener un error de estimacin de 10 horas slo se requiere un
error de 5 horas?

Se necesita una muestra de 246 focos como mnimo.


Se puede observar como el tamao de la muestra aumenta
considerablemente al disminuir el error permitido a la mitad, pero esto
tiene como beneficio una estimacin ms exacta.

EJERCICIO 6: Determinacin del tamao de muestra.

Una legisladora estatal desea encuestar a los residentes de su distrito


para conocer qu proporcin del electorado conoce la opinin de ella,
respecto al uso de fondos estatales para pagar abortos, ella supone que
el 50% del electorado conoce su opinin. Qu tamao de muestra se
necesita si se requiere una confianza del 95% y un error mximo de
estimacin de 0.10?
Solucin:
La proporcin de residentes que conoce la opinin de la legisladora es de 0.5, as que:
n(

Z / 2. 2
) p (1 p )
E

1.96 2
n(
) 0.5(1 0.5) 96.04
0.1

Se requiere un tamao de muestra de 97 residentes para que con una confianza del 95% la
estimacin tenga un error mximo de 0.10.