Está en la página 1de 12

V.

Inferncia Estatstica

96

V. INFERNCIA ESTATSTICA
5.1 Introduo At agora preparamos o caminho para poder entrar nos problemas da inferncia estatstica. Vimos as diversas tcnicas da anlise exploratria de dados, as tcnicas de amostragem e a teoria de probabilidades, cada uma dessas reas constituem o trip da inferncia estatstica.

Amostrage m

Estatstica Descritiva

Clculo de Probabilidades

Inferncia Estatstica

Figura 31. Esquema geral de um curso de estatstica8 Vimos, tambm, esse processo na Figura 27 da pgina 87. Agora, estamos prontos para entrar na parte fundamental da estatstica, que a tomada de decises em condies de incerteza. A inferncia estatstica se divide em duas grandes reas: Pontual Estimao Inferncia Estatstica Teste de Hipteses 5.2 Estimao de parmetros
8

Por intervalo

Extrado do livro Estatstica de Costa Neto, 1977

Apostila de Estatstica Prof Irene Mauricio Cazorla

V. Inferncia Estatstica

97

Voltemos ao exemplo da 5 srie da escola 1, pgina 88. Ali vimos como a mdia amostral uma varivel aleatria: X: nota dos alunos da 5 srie da escola 1, tomando uma amostra de tamanho 2n=2 Se X ~ N (4,2; 1,452) X ~N (4,2; 1,452/2) Ou pelo Teorema Central do Limite (embora o tamanho seja pequeno) X ~? (4,2; 1,452) X ~N (4,2; 1,452/2) Acontece que quando vamos ao campo escolhemos apenas uma nica amostra das 780 possveis deste caso. No caso extremo, podemos escolher uma amostra composta pelos alunos nmero 5 e nmero 12 (pgina 89), que possuem as maiores notas, neste caso a mdia amostral tomar o maior valor 7,9, este valor chamado de estimativa: X5=7,0 e X12=8,8 X = 7,9 consequentemente, super - estimaramos a mdia, s que a probabilidade de isto acontecer extremamente pequena 2/780

O mesmo acontecer se na amostra forem selecionados o aluno 26, cuja nota 1,2 , a mais baixa de todos os alunos, e como parceiros os alunos 2 ou 15 ou 36 cujas notas so 2,3 X26=1,2 e X2=2,3 X = 1,75 consequentemente, sub - estimaramos a mdia S que a probabilidade de isto acontecer pequena, no to pequena quanto o caso anterior, pois temos trs alunos com notas 2,3 6/780 O mais provvel de acontecer, dado que a maioria dos alunos est perto da mdia, que a mdia amostral, tambm, fique prxima da verdadeira mdia. Podemos calcular todas essas probabilidades, uma vez que podemos aproximar a distribuio da mdia amostral para a distribuio normal. 5.2.1 Estimao pontual Quando utilizamos um nico dado da amostra para estimar um parmetro populacional se diz que a estimao por ponto ou pontual. As estatsticas utilizadas para estimar os parmetros populacionais so chamados de estimadores:

Apostila de Estatstica Prof Irene Mauricio Cazorla

V. Inferncia Estatstica

98

Estatstica Mdia Proporo Varincia Desvio padro

Parmetro populacional Mdia populacional: Proporo populacional: Varincia populacional:


2

Estimador Mdia amostral: Proporo amostral: Varincia amostral: s2 Desvio padro amostral: s Coef. correlao amostral: r

X P

Desvio padro populacional:

Coeficiente de correlao Coef. correlao populacional:

E, os valores que os estimadores tomam em uma amostra determinada so chamados de estimativas. Propriedades dos estimadores: Seja T um estimador de um parmetro populacional : Propriedade 1: Justeza ou no-tendenciosidade Um estimador T dito no viciado ou no-viesado de se : E(T)= Propriedade 2: Eficincia Dois estimadores no viciados T e T de um mesmo parmetro , e V(T) < V(T) Ento, T dito ser mais eficiente que T Propriedade 3: Consistncia Um estimador T consistente se: Lim n P(|T - | ) = 0, para todo > 0

Isto significa que com amostras suficientemente grandes pode-se tornar o erro de estimao to pequeno quanto se queira. Por outro lado, se o estimador for justo, a condio de consistncia equivale a dizer que sua varincia tende a zero, quando n tende a infinito: Lim n 2(T ) = 0 Propriedade 4: Suficincia Um estimador chamado de suficiente se contm o mximo possvel de informao com referncia ao parmetro por ele estimado. Apostila de Estatstica Prof Irene Mauricio Cazorla

V. Inferncia Estatstica

99

Para estimar a mdia populacional, temos vrios estimadores. Comparemos apenas dois, a mdia amostral e a mediana (supondo o nmero de dados mpar, no muda se o nmero de dados for par):
Parmetro a ser estimado: Mdia populacional: Propriedades Mdia amostral: X Mediana(*)

Justeza Eficincia Consistncia Suficincia


(*) para n mpar

E(X) =

E(Mediana) =

Sim Sim 2 V(X) = /n Sim V(Mediana) = 2 No Sim No Sim No

A maioria dos estimadores clssicos possuem estas propriedades.

5.2.2 Estimao por intervalo ou intervalar O problema da estimao pontual, ou por ponto, que este procedimento no permite julgar qual a possvel magnitude do erro que estamos cometendo. Da surge a idia de construir intervalos de confiana que esto baseados na distribuio amostral do estimador pontual. 5.2.2.1 Intervalo de confiana para a mdia populacional Pelo Teorema Central do limite sabemos que :
Z = X n

Ou seja, dado podemos encontrar valores Z /2 tal que a: P( -


/2

<Z<

/2

) = 1-

Apostila de Estatstica Prof Irene Mauricio Cazorla

V. Inferncia Estatstica

100

/2

1
0

/2

/2

/2

Podemos mostrar que: X-


/2

*/ Vn < < X +
/2

/2

*/ Vn
/2

a probabilidade de pertencer ao intervalo [X - , chamado de nvel de confiana

*/ Vn; X +

*/ Vn] 1-

1- nvel de confiana (expresso em tanto por um) nvel de significncia ou margem de erro Suponhamos que = 5% 1- = 95% isso significa que se construssemos 100 intervalos de confiana, esperaramos que 95 deles contenham o verdadeiro valor da mdia, ou seja, haveria uma margem de erro de 5%, o que significaria que devemos esperar que 5 dos 100 intervalos no contenham o verdadeiro valor. Voltemos ao exemplo dos alunos da escola 1, pgina 88. Contruamos alguns intervalos de confiana, para = 5%, o que implica que /2 = 1,96, logo a formula geral ser: Supondo conhecido e igual a 1,45 e o tamanho da n=2 Limite inferior: X 1,96 *1,45/V2 Limite superior X + 1,96 *1,45/V2 X-2 X+2

Clculo dos intervalos de confiana segundo os membros da amostra:


Sujeitos na amostra X5 = 7,0 e X12 = 8,8 X26= 1,2 e X2 = 2,3 X3 = 5,5 e X4 = 5,6 X8 = 4,0 e X16 = 4,9 Mdia amostral 7,90 1,75 5,55 4,45 Limite inferior 5,90 0,00 3,55 2,45 Limite superior 9,90 3,75 7,55 6,45 Contem =4,2? No No Sim Sim

Acontece que voc pega apenas uma nica amostra! Algum poderia perguntar como possvel estimar a mdia populacional supondo a varincia populacional conhecida? Em alguns casos possvel fazer esta suposio, principalmente, em casos onde se conhece a distribuio da varivel em condies ambientais. Por exemplo, a distribuio da presso

Apostila de Estatstica Prof Irene Mauricio Cazorla

V. Inferncia Estatstica

101

sangnea de pessoas normais (no doentes) conhecida, porm voc deseja conhecer o efeito de um medicamento sobre ela. Voc pode partir do pressuposto de que a nica mudana que este medicamento vai trazer o deslocamento da mdia, mas que o a ingesto do medicamento no vai alterar substancialmente a estrutura de variabilidade9. Neste caso, voc pode assumir que a varincia da presso depois de tomar o medicamento igual a varincia antes de tomar o medicamento. Esta suposio pode ser falsa, por essa razo quando testamos hipteses sobre igualdades de mdia, a primeira pergunta que devemos responder se a suposio de igualdade de varincias se sustenta, para o qual o SPSS usa o LEVENE TEST. Se a varincia for desconhecida, esta pode ser estimada pela varincia amostral. Se a amostra for grande (n>30) podemos utilizar a frmula anterior, apenas substituindo a varincia populacional pela varincia amostral. Limite inferior: X - no Limite superior: X +
/2

* s / Vn onde s o desvio padro amostral, que pode ou * s / Vn estar corrigido, j que se trata de grandes amostras

/2

Porm se a amostra for pequena, ao invs de usar a distribuio normal devemos utilizar a distribuio t-student com n-1 graus de liberdade. Limite inferior: X - Limite superior: X +
/2 /2

* s / Vn onde s o desvio padro amostral corrigido * s / Vn j que se trata de pequenas amostras Z= X n X s n X s n X n

Quadro de deciso para estimar a mdia: sim 2 conhecida sim X~Normal


(*) dependendo da natureza da varivel pode ser que n precise ser

no no n > 30 sim

t=

Z=

no

sim 2 conhecida
muito maior do que 30

n > 30 (TCL) (amostra grande)

Z=

no

n > 30 (TCL) (grandes amostras)

Z=

X s n

O pressuposto da homocedasticidade da varincia na comparao de mdias apresentado no prximo captulo

Apostila de Estatstica Prof Irene Mauricio Cazorla

V. Inferncia Estatstica

102

5.2.2.2 Intervalo de confiana para a proporo Limite inferior: p - Limite superior p +


/2

* p(1-p) /n * p(1-p) /n

s para n > 30

/2

5.2.2.3 Intervalo de confiana para a varincia: Limite inferior: (n-1)*S2/ /2 varincia Limite superior: (n-1)*S2/ 1/2
120

Observamos que para pequenas amostras a deve ser corrigida e que o numerador: (n-1)*S2 igual a soma dos quadrados dos desvios

100

80

60

/2

40

/2
20 S t d . D e v = 4 ,6 4 M e a n = 1 0 ,1 N = 1 0 0 0 ,0 0 2 ,0 4 ,0 6 ,0 8 ,0 1 0 ,0 1 4 ,0 1 2 ,0 1 6 ,0 1 8 ,0 2 2 ,0 2 0 ,0 2 4 ,0 2 6 ,0 2 8 ,0 3 0 ,0

C H I1 0

1/

/2

Vejamos alguns exemplos: Voltemos ao exemplo da nota e atitudes frente a Matemtica das crianas das trs escolas, pgina 27. Suponhamos que essas crianas correspondem a uma amostra de cada escola e que no conhecemos nenhum parmetro. A primeira questo a ser respondida ser se as variveis nota e atitude se distribuem segundo uma Normal. Podemos verificar que pelo teste de Lilliefors (pgina 83) que as notas das trs escolas seguem uma distribuio normal:

Estatsticas N de observaes Mdia

Escola1 40 4,2250

Escola2 23 8,2043

Escola3 29 4,9138

Geral 92 5,4370

Apostila de Estatstica Prof Irene Mauricio Cazorla

V. Inferncia Estatstica

103

Desvio padro
Ramo (unidade)
1 2 3 4 5 6 7 8 9 10

1,4565
Escola 2

1,6199
Escola 3

1,1895

2,1558
Geral

Escola 1
2 3334689 123378889 011112455799 03355566 7 0 8

55 377888 35677899 2449 00

3 0033 345555689 334555567 12223 0

2 3333334689 012333378889 011112344555555678999 03333455555556667 12223557 00377888 356778899 2449 00

Passos para calcular os intervalos de confiana


Escola1 =5% Valor Z /2 *s / Vn Limite inferior Z /2 1,96 0,45 3,77 Escola2 t /2 gl=22 2,07 0,70 7,50 Escola3 t /2 gl=28 2,05 0,45 4,45 Geral Z /2 1,96 0,44 4,99 5,88

Limite superior 4,68 8,90 5,37 Obs: O SPSS sempre fornece a varincia e o desvio padro j corrigidos

O SPSS calcula o intervalo de confiana, quando solicitamos comparao de mais de duas mdia, use o banco de dados EXPLORE2.SAV:

Statistics Compare means One way ANOVA Dependent list nota e atitude Factor escola Define Range 1 a 3 ( nmero de escolas) Post Hoc Selecionar Tukeys honestly ... (para achar as diferenas entre os grupos)
SADA DO SPSS - - - - - - - - - -

- - -- - O N E W A Y - - - - - - - - - - - - - -

ANLISE DE VARINCIA - ANOVA: um critrio de classificao O que est sendo testado? Se a nota das trs escolas podem ser consideradas iguais: Hiptese nula: Ho: 1 =
2

Contra a possibilidade da existncia de pelo menos uma diferena

Apostila de Estatstica Prof Irene Mauricio Cazorla

V. Inferncia Estatstica

104

Hiptese alternativa: H1: Variable NOTA By Variable ESCOLA

para algum i j

Analysis of Variance Source Between Groups Within Groups Total D.F. 2 89 91 Sum of Squares 242,8353 180,0790 422,9143 Mean Squares 121,4176 2,0234 F Ratio 60,0079 F Prob. ,0000

p-valor

Group Count Escolas n Grp 1 Grp 2 Grp 3 Total 40 23 29 92

Standard Mean Deviation mdia desvio 4,2250 8,2043 4,9138 5,4370 1,4565 1,6199 1,1895 2,1558

Standard Error Minimum erro-pad mnimo ,2303 ,3378 ,2209 ,2248 1,2000 2,3000 2,3000 1,2000

Maximum mximo 8,8000 10,0000 7,0000 10,0000

95 Pct Conf Int for Mean lim.inferior lim.superior 3,7592 7,5039 4,4613 4,9905 TO TO TO TO 4,6908 8,9048 5,3662 5,8834

Levene Test for Homogeneity of Variances Statistic ,2565 df1 2 df2 89 2-tail Sig. ,774

Teste de homogeneidade de varincias 2 2 2 Hiptese nula: Ho: 1 = 2 = 3 2 2 H alternativa: H1: i = j para algum i j

p-valor

Multiple Range Tests:

Tukey-HSD test with significance level ,050

The difference between two means is significant if MEAN(J)-MEAN(I) >= 1,0058 * RANGE * SQRT(1/N(I) + 1/N(J)) with the following value(s) for RANGE: 3,37 (*) Indicates significant differences which are shown in the lower triangle G G G r r r p p p 1 3 2 Mean 4,2250 4,9138 8,2043 ESCOLA Grp 1 Grp 3 Grp 2

* *

Estas sadas sero exploradas de forma detalhada na anlise de varincia, aqui apenas estamos mostrando o comando que calcula o intervalo de confiana para as mdias populacionais. Observe que os limites dos intervalos calculados por ns diferem ligeiramente daqueles que o SPSS calculou, isto se deve a dois fatores: o primeiro, que o SPSS usa sempre a distribuio t-student, independente do tamanho da amostra e, segundo, a preciso do

Apostila de Estatstica Prof Irene Mauricio Cazorla

V. Inferncia Estatstica

105

clculo do SPSS maior uma vez que ele s arredonda no final das contas e no nos passos intermedirios. Intervalos de Confiana para estimar a nota em Matemtica Escola 1 Escola 2 Escola 3 Geral X: nota na prova

10

Observe que o comprimento do intervalo de confiana 2 * Z /2 * s / n

Z / 2 * X + Z / 2 *X X n n

erroabsoluto = = Z / 2 * n

A amplitude do intervalo depende de: Nvel de confiana: se aumentamos (ou diminumos) o nvel de confiana, o comprimento do intervalo tambm aumenta (ou diminui) Nvel de disperso: se a varivel for muito dispersa, o comprimento aumenta, se a varivel for homognea o comprimento diminui. Tamanho da amostra: se aumentamos o tamanho da amostra o comprimento diminui, mas se amostra for pequena o comprimento aumenta.

O ideal seria termos intervalos estreitos - precisos - com o maior nvel de confiana possvel, intervalos amplos no so de muita utilidade. Aqui entra um outro conceito que a preciso da estimativa. Uma estimativa mais precisa quanto menor comprimento do intervalo de confiana, ou dito de outra forma, quanto menor for o erro absoluto. Suponha que desejamos estimar a proporo de eleitores que votaro no candidato XYZ. De nada adiantar dizer que essa estimativa est entre 0% e 100%, o nosso objetivo ser dar intervalos de confiana, com alta preciso e com um bom nvel de confiana. Alis, o que estamos acostumados a ouvir na mdia , por exemplo, que o candidato XYZ tem 28% com uma margem de erro de mais ou menos 2%. O que significa isto? Que o intervalo de confiana de 26% a 30%, com um nvel de confiana de 95% (de praxe).

Apostila de Estatstica Prof Irene Mauricio Cazorla

V. Inferncia Estatstica

106

Aproveitemos que estamos em pleno processo eleitoral para ler de forma mais crtica as reportagens sobre a corrida eleitoral, uma vez que a divulgao de um certo tipo de informao pode ter influncias decisivas no processo, principalmente quando est em jogo a deciso no primeiro turno e quem passa para o segundo. Trabalho individual: recorte ou tire fotocpia de uma reportagem sobre a corrida eleitoral, onde haja uma nota tcnica sobre o planejamento e procedimento estatstico da pesquisa. Geralmente, a Folha de So Paulo tem essas informaes tcnicas (que devem estar anexas a reportagem, por lei), tea comentrios a luz das ferramentas que estamos trabalhando. Voltando a questo da preciso, ento a pergunta a ser feita , dado um nvel de confiana e um grau de preciso desejado, qual deve ser o tamanho da amostra? 5.3 Tamanho da amostra 5.3.1 Tamanho da amostra para estimar a mdia populacional:
=
Z / 2 * n

Z * n = /2

Vejamos um exemplo. Qual deve ser o tamanho da amostra de crianas de cada escola, para estimar a nota, supondo que a estrutura de varincia a mesma para todas as escolas e igual a (1,2)2 e a margem de erro no supere ponto, com um nvel de confiana de 95%. = 5% Z/2 = 1, 96 a maioria arredonda para 2 = 0,5 = 1,2 Z * n = /2
2

2 * 1,2 2,4 2 n= = = ( 4,8) = 23,04 = 24 0,5 0,5

Logo o tamanho da amostra deve ser de pelo menos 24 alunos por escola. 5.3.2 Tamanho da amostra para estimar a proporo populacional: Suponha, que voc deseja saber quantos eleitores devem ser entrevistados para estimar a proporo que votaro no candidato XYZ, com nvel de confiana de 95% e a margem de erro igual a 2%, sabendo que aproximadamente ele tem 20% do eleitorado. Z n = / 2 * * (1 )
2

2 n = * 0,2 * 0,8 = 1.600 0,02

Apostila de Estatstica Prof Irene Mauricio Cazorla

V. Inferncia Estatstica

107

No pior dos casos, quando voc no sabe nada sobre , voc pode usar =0,5. Neste caso, o tamanho da amostra ser 2.500. Comente esses resultados. Agora voc entende porque a maioria dos institutos coletam amostras to pequenas, com relao ao universo de eleitores que beira 90 milhes de pessoas, ou seja, a frao de amostragem (f=n/N) irrisria.

Apostila de Estatstica Prof Irene Mauricio Cazorla

También podría gustarte