Está en la página 1de 13

NOTAS DE AULA - ESTATSTICA

TEORIA DA AMOSTRAGEM
ESTIMAO


ISABEL C. C. LEITE




















SALVADOR BA
2007
Estatstica Prof. Isabel C. C. Leite 1



TEORIA DA AMOSTRAGEM DISTRIBUIO AMOSTRAL DOS ESTIMADORES


A teoria da amostragem um estudo das relaes existentes entre uma populao e as amostras
dela extradas.
til em:
estimao de parmetros populacionais;
determinao das causas de diferenas observadas entre amostras.
Constitui o que chamamos de estatstica indutiva ou inferncia estatstica que consiste em
inferir concluses importantes sobre uma populao a partir da anlise de resultados observados em
amostras aleatrias. Como toda concluso deduzida a partir da amostragem acompanhada de um
grau de incerteza ou risco, o problema fundamental da inferncia estatstica medir este grau de
incerteza ou risco das generalizaes.

Parmetro: medida numrica que descreve uma populao. Genericamente representado por .
Exemplos: mdia ( ), varincia (
2
).
Estatstica ou estimador: medida numrica que descreve uma amostra. Genericamente
representado por

. Exemplos: mdia ( x ), varincia (


2
S ).
Estimativa: valor numrico de um estimador.
Erro amostral: erro que ocorre pelo uso da amostra. Denotado por e definido por: =

.

Uma distribuio amostral a distribuio de probabilidade de um estimador (ou estatstica) da
amostra formada quando amostras de tamanho n so colhidas vrias vezes de uma populao.
Por exemplo, se o estimador da amostra for a sua mdia, a distribuio ser uma distribuio
amostral de mdias das amostras.


Para cada distribuio amostral pode-se calcular a mdia, o desvio-padro, etc.


n
n
n
n
1 x
2 x
n
3 x
n
4 x
n
Distribuio
amostral de
x
Populao
M
Repetir esse processo
para todas as amostras
de tamanho n
Estatstica Prof. Isabel C. C. Leite 2


Distribuio amostral das mdias

Consideremos o seguinte problema.
Seja X o peso real de pacotes de caf, enchidos automaticamente por uma mquina. Sabe-se
que a distribuio de X pode ser representada por uma normal, com parmetros
2
e .
Suponhamos que a mquina esteja regulada para encher os pacotes segundo uma distribuio
normal com mdia 500 gramas e desvio padro de 10 gramas, isto , ( ) 100 , 500 ~ N X . Sabemos
que, s vezes, a mquina desregula-se e quando isto acontece o nico parmetro que se altera a
mdia, permanecendo a mesma varincia. Para manter a produo sob controle iremos recolher uma
amostra de 100 pacotes e pes-los. Como essa amostra nos ajudar a tomar uma deciso?
Usaremos a mdia x da amostra como informao pertinente para uma deciso. Mesmo que a
mquina esteja regulada, dificilmente x ser igual a 500 gramas, dado que os pacotes apresentam
certa variabilidade de peso. Mas se x no se afastar muito de 500 gramas, no existiro razes para
suspeitarmos da qualidade do procedimento de produo. S iremos pedir uma reviso se o erro
amostral ( x 500) for muito grande.
O problema que se apresenta agora o de decidir o que prximo ou distante de 500 gramas.
Se o mesmo procedimento de colher a amostra de 100 pacotes fosse repetido um nmero muito
grande de vezes, sob a condio de a mquina estar regulada, teramos idia do comportamento da
varivel x , e saberamos dizer se aquele valor observado ou no um evento raro de ocorrer. Caso
o seja, mais fcil suspeitar da regulagem da mquina do que do acaso.
Portanto importante conhecer as propriedades da distribuio da varivel x .

As mdias x das amostras de tamanho n retiradas de uma populao com mdia e desvio
padro formam a distribuio amostral com os seguintes parmetros:

O valor esperado ou mdia igual mdia populacional: ( ) ( ) = = x x E .
A varincia igual varincia populacional dividida pelo tamanho da amostra:
( )
n
x x Var
2
2
) (

= = .
OBS: Se a populao finita e de tamanho N conhecido, e se a amostragem feita sem
reposio, ento ( )
1
) (
2
2

= =
N
n N
n
x x Var

.
Temos, portanto, para desvio padro das mdias amostrais:
( )
n
x

= , se a populao infinita, ou se a amostragem feita com reposio;
( )
1

=
N
n N
n
x

, se a populao finita, ou se a amostragem feita sem reposio.

Observemos pelas frmulas apresentadas que quanto maior o tamanho da amostra, menor ser a
varincia de x , ou seja, o estimador x ser mais preciso medida que o tamanho da amostra
aumentar.
Estatstica Prof. Isabel C. C. Leite 3


Teorema do limite central

Se de uma populao com parmetros ( ,
2
) for retirada uma amostra de tamanho
suficientemente grande, a distribuio de x ser aproximadamente normal, seja qual for a forma da
distribuio da populao.
Ou seja,
|
|

\
|
|

\
|

|
|

\
|

1
, ou ,
2 2
N
n N
n
N x
n
N x



com distribuies padronizadas dadas por:

1
ou

=
N
n N
n
x
Z
n
x
Z
i
i
i
i














Estatstica Prof. Isabel C. C. Leite 4


Aplicaes

1. Voltando ao problema inicial, onde uma mquina enchia pacotes cujos pesos seguiam uma
distribuio normal N(500,100). Colhendo-se uma amostra de n = 100 pacotes e pesando-os, x
ter uma distribuio normal com mdia 500 e varincia 100/100 = 1. Logo, se a mquina
estiver regulada, a probabilidade de encontrarmos a mdia de 100 pacotes diferindo de 500 g de
menos de 2 gramas ser
( ) ( ) % 95 ) 2 2 ( 502 498 2 500 < < = < < = < z P x P x P
Ou seja, dificilmente 100 pacotes tero uma mdia fora do intervalo (498,502). Caso isto ocorra,
podemos considerar como um evento raro, e ser razovel supor que a mquina esteja
desregulada.

2. Admite-se que as alturas de 3000 estudantes do sexo masculino de uma universidade so
normalmente distribudas, com a mdia 172,72 cm e o desvio padro 7,62 cm. Se forem obtidas
80 amostras de 25 estudantes cada uma, quais sero a mdia e o desvio padro esperados da
distribuio amostral das mdias resultantes se amostragem for feita: (a) com reposio; (b)
sem reposio?

Soluo:

O nmero de amostras de 25 elementos que podem ser obtidas teoricamente de um grupo de
3000 estudantes, com e sem reposio, so: (3000)
25
e C
3000,25
, respectivamente, muito maiores do
que 80. Por isso no se obtm uma verdadeira distribuio amostral das mdias, mas apenas uma
experimental. Apesar disso, visto que o nmero de amostras grande, haver uma concordncia
muito estreita entre as duas distribuies amostrais.
(a) ( ) ( ) cm. 524 , 1
25
62 , 7
x e cm 72 , 172 = = = = =
n
x


(b) ( ) ( ) cm, 518 , 1
1 3000
25 3000
25
62 , 7
1
x e cm 72 , 172 =

= = =
N
n N
n
x

que apenas
ligeiramente menor que 1,524 cm e pode, portanto, para todos os fins prticos, ser considerado igual
ao da amostragem com reposio.

Concluso: pode-se considerar esta distribuio amostral experimental das mdias
aproximadamente normal, com a mdia 172,72 cm e desvio padro 1,524 cm.


3. Em quantas amostras do problema anterior pode-se esperar que a mdia se encontre:
(a) entre 169,67 cm e 173,48cm;
(b) abaixo de 170,00 cm?

Resp: (a) o nmero esperado de amostras 53 6687 , 0 80 .
(b) o nmero esperado de amostras 3 0375 , 0 80 = .




Estatstica Prof. Isabel C. C. Leite 5


Dimensionamento de uma amostra

Muitas vezes importante sabermos qual dever ser o tamanho de uma amostra de modo a
obter um erro de estimao previamente estipulado com determinado grau de confiana dos
resultados obtidos.

Exemplo: Seja ( ) : 1200, 840 X N . Qual dever ser o tamanho de uma amostra de tal forma que
( ) 1196 1204 0, 90 P x < < = ?
Soluo: Se
( )
( )
2
1200
1200 e 840
840 28, 98
x
x
n n

= =

= =


Para o intervalo dado temos que 4 x = =
Como
( )
x
z
x

= e
0,45
1, 64 z z = = , segue-se que
4
1, 64 141,13
28, 98
n
n

= = .
Conclumos que, se retirarmos uma amostra de 141 elementos da populao X, teremos 90% de
confiana que x estar no intervalo (1196,1216) e ( ) 1196 0, 05 P x < = ou ( ) 1216 0, 05 P x > = ;
isto significa que o risco que corremos de que o valor da mdia caia fora do intervalo anterior de
10%.


Distribuio amostral da soma, ou diferena, entre duas mdias

Sejam duas populaes independentes com distribuio amostral das mdias dadas por

2 2
1 2
1 2
1 2
1 2
, e , x N x N
n n


| | | |

| |
\ \
.

Considerando amostras independentes das duas populaes, temos:

( )
2 2
1 2
1 2
1 2
1 2
, x x N
n n


| |
+
|
\

A distribuio normal padro para
( )
1 2 x x ser
( )
( ) 1 2
1 2
2 2
1 2
1 2
i
x x
z
n n



=
+


Aplicao: Numa escola A, os alunos submetidos a um teste obtiveram mdia 70 com desvio
padro 10. Em outra escola B, os alunos submetidos ao mesmo teste obtiveram mdia 65 com
desvio padro 15. Se colhermos na escola A uma amostra de 36 alunos e na B, uma de 49 alunos,
qual a probabilidade de que a diferena entre as mdias seja superior a 6 unidades? Resp. 0,3557



Estatstica Prof. Isabel C. C. Leite 6


Distribuio amostral das propores

Consideremos uma populao infinita onde a probabilidade de ocorrncia de um evento
(denominado seu sucesso) p, enquanto a de sua no ocorrncia (fracasso) q = 1 p. Tomemos
todas as amostras possveis de tamanho n extradas desta populao e, para cada amostra,
determinemos a proporo p de sucessos.
Temos, portanto, o parmetro p que expressa a probabilidade, ou proporo, ou freqncia
relativa, de determinado evento da populao.
n de casos favorveis ao evento na amostra

n total de casos da amostra


x
p
n
= =

Obtemos assim uma distribuio amostral das propores.
Para amostras suficientemente grandes, a distribuio amostral de p aproximadamente
normal com
mdia:
( ) p
p = ,
desvio padro:
( ) p
pq
n
= ,
onde: p = verdadeira probabilidade populacional de sucessos
q = 1 p
n = tamanho da amostra.
Assim, ,
pq
p N p
n
| |

|
\
e sua distribuio normal padronizada expressa por

i
i
p p
Z
pq
n

= .
Aplicao

Verificou-se que 2% das ferramentas produzidas por certa mquina so defeituosas. Qual a
probabilidade de, em uma remessa de 400 dessas ferramentas, revelarem-se defeituosas:
(a) 3% ou mais;
(b) 1,5 % ou menos?

Soluo:
Temos:
( )
0, 02
p
p = = e
( )
0, 02 0, 98
0, 007
400
p
pq
n


= = = .
(a) Calculando a varivel padronizada z para p
1
= 0,03:
1
0, 03 0, 02
1, 43
0, 007
z

= =
( )
( 0, 03) 1, 43 0, 5 0, 4236 0, 0764 P p P z = = = ou 7,64%

(b) Calculando a varivel padronizada z para p
1
= 0,015:
1
0, 015 0, 02
0, 71
0, 007
z

= =
( )
( 0, 015) 0, 71 0, 5 0, 2611 0, 2389 P p P z = = = ou 23,89 %



Estatstica Prof. Isabel C. C. Leite 7

Distribuio amostral da soma, ou diferena, entre duas propores

Sabemos da distribuio amostral das propores que para amostras suficientemente grandes,

1 1
1 1
1
,
p q
p N p
n
| |

|
\
e
2 2
2 2
2
,
p q
p N p
n
| |

|
\
.

Considerando amostras independentes das duas populaes, temos:

( )
1 1 2 2
1 2 1 2
1 2
,
p q p q
p p N p p
n n
| |
+
|
\

A distribuio normal padro para ( )
1 2
p p ser
( ) ( )
1 2 1 2
1 1 2 2
1 2

i
p p p p
z
p q p q
n n

=
+
.

Estimao

Um dos mtodos para realizar inferncias a respeito dos parmetros a estimao, que
determina estimativas dos parmetros populacionais.
Existem dois tipos de estimao de um parmetro populacional: estimao por ponto e a
estimao por intervalo.


Estimao por ponto

A partir das observaes, usando o estimador, procura-se encontrar um valor numrico nico
(estimativa) que esteja bastante prximo do verdadeiro valor do parmetro.
Este procedimento no permite julgar a magnitude do erro que podemos estar cometendo, mas
a distribuio por amostragem dos estimadores torna possvel o estudo das qualidades do estimador.

ESTIMADORES PONTUAIS DOS PRINCIPAIS PARMETROS POPULACIONAIS
Parmetro Estimador
Mdia ()
n
i
i 1
1
x x
n
=
=


Varincia (
2
)
( )
2
2
1
1
1
n
i
i
S x x
n
=
=



Desvio padro ()
( )
2
1
1
1
n
i
i
S x x
n
=
=



Proporo (p)

x
p
n
= , onde
x = nmero de elementos da amostra que possuem a
caracterstica
n = tamanho da amostra




Estatstica Prof. Isabel C. C. Leite 8

Exemplo: Para avaliar a taxa de desemprego em determinado estado, escolhe-se uma amostra
aleatria de 1000 habitantes em idade de trabalho e contam-se os desempregados: 87. Estimar a
proporo de desempregados em todo o estado.
87
0, 087
1000
p = =
Estimao por intervalo

Procura determinar um intervalo que contenha o valor do parmetro populacional, com certa
margem de segurana. Este procedimento permite julgar a magnitude do erro que podemos estar
cometendo.
Com base na amostra, uma maneira de expressar a preciso da estimao calcular os limites
de um intervalo, o Intervalo de Confiana (IC), tais que (1 ) seja a probabilidade de que o
verdadeiro valor do parmetro esteja contido nele.
Portanto,
: grau de desconfiana, nvel de incerteza ou nvel de significncia.
1 : coeficiente de confiana ou nvel de confiabilidade;
Formalizando, se denotarmos o parmetro de interesse por , desejamos obter um intervalo
com limite inferior I e limite superior S tal que
P(I < < S) = 1 ,
onde um valor pequeno, ou seja 1 prximo de 1.
Os limites deste intervalo so variveis aleatrias, pois dependem da amostra selecionada. Um
intervalo deste tipo denominado intervalo de 1 - ( 100)% confiana para o parmetro .
Valores de mais comumente usados so
= 0,10 1 = 0,90 ou 90%
= 0,05 1 = 0,95 ou 95%
= 0,01 1 = 0,99 ou 99%

A preciso com que se conhece depende da amplitude deste intervalo dada por S I. Quanto
menor esta amplitude melhor determinado estar o parmetro.

A figura abaixo ilustra o conceito de intervalo de confiana.








( )
( )
( )
( )
( )
( )
( )

1
AMOSTRA
2
3
4
5
6
7
.
.
.
INTERVALOS DE CONFIANA
Estatstica Prof. Isabel C. C. Leite 9


O verdadeiro valor do parmetro estar contido em 1 ( 100) % desses intervalos.
Observe que algumas estimativas intervalares incluem e outras no incluem o verdadeiro valor
do parmetro da populao. Ao retirarmos uma amostra e calcularmos um intervalo de confiana,
no sabemos na verdade se o parmetro da populao se encontra naquele intervalo calculado. O
importante saber que se est utilizando um mtodo com 1 ( 100) % de probabilidade de
sucesso.

Intervalos de confiana para a mdia de uma populao normal com varincia conhecida

Consideremos uma populao normal com mdia desconhecida que desejamos estimar e com
varincia conhecida,
( )
2
?, X N = .
Procedimento para a construo do IC:
1. Retiramos uma amostra casual simples de n elementos.
2. Calculamos a mdia da amostra x .
3. Calculamos o desvio padro da mdia amostral:
n

.
4. Fixamos o nvel de significncia , e com ele determinamos z

, tal que
( )
, P z z

> = ou seja, ( ) ( ) e
2 2
P z z P z z


> = < = .
Logo, devemos ter
( )
1 P z z

< =






z




Neste caso o Intervalo de Confiana de 1 (100)% para dado por:
, x z x z
n n

| |
+
|
\

Usando uma notao mais simples, teremos ( ) ( ) ( )
1 2
IC , 1 % , = .

Exemplos:

1. A durao de vida de uma pea de equipamento tal que 5 = horas. Foram amostradas
aleatoriamente 100 dessas peas, obtendo-se mdia de 500 horas. Desejamos construir um intervalo
de confiana para a verdadeira durao mdia da pea com um nvel de 95% de confiana.

Soluo: Temos ( ) 5, 100, 500, 1 100 95% n x = = = = .



2

1
2

Estatstica Prof. Isabel C. C. Leite 10




O grfico da distribuio normal padro ser:

0
0,95
0,025 0,025
Distribuio Normal (0,1)
-1,96 1,96






z = 1,96 corresponde rea 0,475
Substituindo os dados na frmula, temos o intervalo de confiana solicitado,

( ) 499, 02 500, 98 95% P < < = ,

significando que com 95% de confiana a durao mdia da pea est entre 499,02 e 500,98 horas.
Portanto, se fossem construdos intervalos dessa mesma maneira, para um grande nmero de
amostras, em 95% dos casos os intervalos incluiriam .

Para os casos de populaes finitas, multiplica-se o desvio padro pelo fator de correo,
gerando o IC:
,
1 1
N n N n
x z x z
N N n n


| |

+
|
|

\



2. Admitindo os mesmos dados do exemplo anterior, consideremos como populao a produo
de 1000 peas. Nesse caso o intervalo para a mdia ser (499,07;500,93), conforme os clculos
abaixo.
1 2
5 1000 100 5 1000 100
500 1, 96 . e 500 1, 96 .
1000 1 1000 1 100 100


= = +



Logo, o intervalo (499,07;500,93) contm a durao mdia das 1.000 peas com 95% de
confiana.


Amostras Grandes - Populao Normal ou no Normal

Se n suficientemente grande (em geral, n > 30), mesmo sem conhecermos a distribuio da
populao, os limites do Intervalo de Confiana para a mdia () podero ser calculados com base
na distribuio Normal padro. Da mesma forma podemos utilizar o desvio padro amostral S no
lugar de (desvio-padro populacional), caso este no seja conhecido.





Estatstica Prof. Isabel C. C. Leite 11


Intervalos de confiana para a proporo

Lembremos que quando p populacional conhecida,
x
p
n
= tem distribuio aproximadamente
normal, ,
pq
p N p
n
| |

|
\
. Para construirmos o IC para p desconhecida, determinamos p na amostra
e consideramos


p
pq
n
.
Logo, ao nvel de significncia,
( )
1 P z z

< = , onde

p
p p
z

= .
Desenvolvendo os clculos, como foi feito para a mdia, chegamos formula do IC para a
proporo p populacional.
( ) ( ) ( )
1 2
IC , 1 % , p p p = =

;
pq pq
p z p z
n n

| |
+
|
|
\

Exemplo:
Para se estimar a porcentagem de alunos de um curso favorveis modificao do currculo
escolar, tomou-se uma amostra de 100 alunos, dos quais 80 foram favorveis.
a. Faa um IC para a proporo de todos os alunos do curso favorveis modificao ao
nvel de 4% de significncia.
b. Qual o valor do erro de estimao ocorrido no intervalo acima?

Soluo: Dados n = 100, x = 80, = 4%, temos que
0,80 , 0, 20 p q = = e

0, 8 0, 2
0, 04
100
p


= .
a.
0,48
2, 05 z z

= = ( ) ( ) IC , 96% 0, 718; 0, 882 p =


Temos uma confiana de 96% que de 71,8% a 88,2% dos alunos do curso sero favorveis
modificao curricular.
b.

p
p p
z

p
p
z z

= =
2, 05 0, 04 0, 082 8, 2% = = =
O erro de estimao cometido em (a) de 8,2% para 96% de confiana e uma amostra de
100 alunos.












Estatstica Prof. Isabel C. C. Leite 12

REFERNCIAS BIBLIOGRFICAS


BUSSAB, Wilton de O. MORETTIN, Pedro A. Estatstica Bsica. 5 edio. So Paulo: Saraiva,
2006.
MORETTIN, Luiz Gonzaga. Estatstica Bsica Volume 2 Inferncia. So Paulo: Pearson
Makron Books, 2000.
MARTINS, Gilberto de A. Estatstica Geral e Aplicada. 3 ed. So Paulo: Atlas, 2005.
SPEIGEL, Murray R. Estatstica. 3 ed. So Paulo: Pearson Makron Books, 1993.
Notas de aula dos professores do Departamento de Estatstica UFBA, disponveis no site
www.est.ufba.br.