Documentos de Académico
Documentos de Profesional
Documentos de Cultura
A Conduo da Anlise
2014/2
Thierry R. Gasnier
Universidade Federal do Amazonas
Sumrio
Introduo ............................................................................................. 3
1 Estatstica na perspectiva do usurio ........................................... 4
1.1 A cincia e a estatstica............................................................. 4
1.2 Questo, hiptese, previso e evidncia. ................................ 6
1.3 Tipos de evidncias ................................................................... 9
1.4 Tipos de validao de evidncias .......................................... 13
1.5 Estatsticas intuitiva e frequentista..................................... 18
2 Do problema biolgico ao estatstico........................................... 22
2.1 Entidades ................................................................................. 22
2.2 Propriedades ........................................................................... 23
2.3 Tabelas e grficos EPR .......................................................... 24
2.4 Relaes entre variveis ......................................................... 24
2.5 A estatstica para estabelecer relaes. ................................ 25
3 Confiana na medida e independncia ....................................... 29
3.1 Nveis e escalas de medida ..................................................... 29
3.2 Atribuio de nveis nominais e ordinais ............................. 31
3.3 Exatido, preciso e acurcia. ............................................... 32
3.4 Distribuies de frequncias .................................................. 36
3.5 Parmetros populacionais ..................................................... 38
3.6 Intervalos de confiana de parmetros. ............................... 39
3.7 Independncia para parmetros univariados ..................... 43
3.8 Independncia em anlises de relaes ................................ 44
3.9 Consideraes complementares ............................................ 46
4 A lgica dos testes de hipteses .................................................... 51
4.1 O mtodo hipottico dedutivo ............................................... 51
4.2 Estabelecendo hipteses de trabalho .................................... 53
4.3 Descartando hipteses com procedimentos ..................... 55
4.4 Descartando a hiptese do acaso ........................................... 57
4.5 Nvel de significncia e tipos de erros................................... 59
4.6 Consideraes complementares ............................................ 61
Introduo
1 Estatstica na
perspectiva do usurio
Figura 1.1- A soluo de problemas complexos envolve diferentes nveis de conhecimento, desde os mais "moleculares" at os
mais "globais", como ocorre quando conduzimos um carro at
um endereo ou quando conduzimos uma pesquisa..
to do referencial terico do assunto de pesquisa, pois sem ele estamos perdidos. Nosso referencial terico como um mapa necessrio a
cada momento, e dele que nascem as questes de pesquisa. Cada pesquisa tem o seu
referencial, por isto, neste texto comearemos
discutindo sobre uma base comum do que so
questes e hipteses de pesquisas (cap. 1 e 4).
Nas pesquisas que pedem anlises estatsticas
de dados necessrio saber como organiz-los
(cap. 2). Precisamos entender bem as medidas
e as formas de coletar os dados apropriados
para responder questes (Cap. 3 e 6). Finalmente, precisamos saber realizar testes e preparar grficos para uma anlise e comunicao
apropriadas (cap. 5 e 7 e Guia de testes). isto
que um usurio de estatstica precisa saber
fazer bem. Para a maioria dos problemas, o
usurio no precisa lidar diretamente com frmulas ou com algoritmos complexos e menos
ainda com a compreenso de por que as frmulas so vlidas. Este conhecimento matemtico
e de programao pode ajudar, mas tambm
pode atrapalhar, por desviar a ateno do principal. necessrio que se reconhea que os
conhecimentos fundamentais para o estatstico
no coincidem com os conhecimentos fundamentais necessrios para o usurio de estatstica.
Para formar usurios de estatstica, necessria uma abordagem que leve em conta que a
pesquisa semelhante forma cotidiana complexa de se pensar. Quando fazemos pesquisa
precisamos, em primeiro lugar, ter conhecimen-
De fato, nem toda a pesquisa precisa da estatstica no sentido estrito do termo, tanto que a
cincia avanou no passado sem ela. Entretanto, por que no aprender a usar uma ferramenta
poderosa que pode nos ajudar em muitas situa-
para aquela questo, mas como um fato inquestionvel e um dos pilares da Biologia moderna.
Portanto, o que era hiptese tornou-se descrio, pois faz parte do que aceitamos como realidade.
gestao da pesquisa, quando ela precisa tomar forma. Esta etapa demanda tempo e muita
concentrao, esquea o estilo de vida Fast
Food quando estiver elaborando um projeto.
Na pesquisa h respostas de dois tipos: descritivas e hipotticas. As respostas descritivas no
envolvem hipteses, como na questo como
o tubo digestivo desta espcie de formiga?.
Basta desenhar ou fotografar e destacar o que
for considerado mais importante. Algumas descries envolvem ferramentas estatsticas, desde mdias aritmticas at grficos multivariados. A descrio de objetos de interesse cientfico, mesmo considerando a complexidade tcnica, costuma ser simples, no sentido de no
envolver hipteses. Talvez por esta simplicidade, as questes descritivas frequentemente
so consideradas inferiores na pesquisa por
algumas pessoas. Para derrubar esta ideia,
basta considerar o impacto que foi a inveno
do microscpio para a biologia, quando todo um
novo mundo de micro-organismos e microestruturas foi descoberto, ou a atual revoluo resultante da descrio de genomas.
Nossas descries da realidade param no momento que aparecem dvidas sobre o que estamos vendo. O que pensou o primeiro
bilogo que viu clulas em um microscpio? Provavelmente foi o que so estas
caixinhas?. Quando h questes sem
resposta imediata pela simples observao, criamos alternativas de respostas
possveis e investigamos se esto corretas ou no. Estas respostas possveis so
chamadas de Hipteses. Talvez a primeira
hiptese sobre as caixinhas tenha sido
que eram meras ornamentaes casuais
do primeiro tecido observado, mas esta
hiptese teria cado com as observaes
posteriores de outros organismos. Em
algum momento surgiu a hiptese que as
caixinhas eram uma espcie de diviso na
organizao de todos os organismos. Esta
hiptese se sustentou e foi fortalecida com
Figura 1.2- Uma hiptese avaliada pelo contraste entre suas previses e
as observaes posteriores e enriquecida
as observaes (evidncias). Neste exemplo, as evidncias no apoiam a
hiptese que passar sob uma escada d azar.
com detalhes. Hoje a teoria celular no
mais tratada como uma possvel resposta
Figura 1.3- Uma hiptese uma possvel resposta para uma questo.
Para avaliar se efetivamente ela a resposta correta, precisamos
contrastar previses exclusivas dela com os dados (evidncias).
Frequentemente a estatstica uma til ferramenta para realizar este
contraste.
Algumas vezes, uma descoberta uma evidncia factual que gera uma hiptese que ela
Uma Evidncia Factual no significa uma evidncia definitiva e verdadeira, Colombo achava
que a terra era redonda e mostrou que o mundo
no terminava em um abismo no meio do Atlntico, mas errou ao achar que tinha chegado s
ndias. Evidncias factuais, como todas as outras, dependem de premissas vlidas, isto , de
condies explicitas ou no que justifiquem a
confiana na afirmao. Ainda que estejamos
sempre sujeitos a erros, no preciso muito
esforo para encontrar inmeros exemplos de
evidncias factuais que revolucionaram a cincia e que foram utilizadas para construir nossas
certezas de muitas questes do cotidiano.
10
11
tes ou dependentes, ela mais ou menos convincente pela articulao das ideias.
As anlises que envolvem evidncias sistmicas sempre foram importantes na cincia. Uma
dificuldade em trabalhar com evidncias sistmicas que nem sempre fcil convencer pessoas, mesmo com vrios bons argumentos. O
desenvolvimento da estatstica frequentista no
sculo XX possibilitou a criao de critrios
poderosos e objetivos de avaliao de uma
evidncia (quando a evidncia for um conjunto
de dados independentes), a ponto de influenciar o conceito do que cincia. Para muitos
iniciantes, a cincia verdadeira aquela que
envolve estudos experimentais, repeties e
testes estatsticos. O problema que nem sempre a realidade se apresenta como um conjunto
de dados independentes, como ocorre em um
laboratrio. Como usar estatstica para analisar
a revoluo francesa? A exigncia de testes
para considerarmos uma teoria como cientfica
vlida somente se utilizarmos o termo teste
com um significado mais amplo que o de teste
estatstico. Hipteses na Histria, Arqueologia,
Sociologia, Geografia Humana, Economia, Astronomia, Evoluo e outras reas predominantemente no experimentais podem ser testadas
por contraste com outras hipteses comparando
a coerncia do conjunto de cada uma delas, e
lembrando que cada conjunto deve possuir
elementos empricos envolvidos. (e. g. documentos e fatos histricos, objetos arqueolgicos, observaes de corpos celestes).
12
verdadeiros com base na reputao do pesquisador. Portanto, todas as evidncias so parcialmente sistmicas. As pesquisas costumam
envolver diversas hipteses avaliadas com evidncias factuais, frequentistas, contextuais e/ou
sistmicas. Na interpretao, necessrio se
encontrar coerncia e complementaridade entre
as evidncias, por isto, quase sempre as pesquisas so sistmicas.
Nesta seo vimos que a pesquisa no necessariamente utiliza estatstica (no sentido estrito
de anlise com clculos matemticos) at
mesmo em testes de hipteses. A prxima seo sobre condies necessrias para uma
evidncia (frequentista ou contextual) ser vlida.
13
2) Validao Externa. a explicao e a demonstrao que o conjunto de unidades amostrais selecionadas representativo do universo
que pretendemos estar envolvendo no estudo
(representatividade universal).
Segundo Motulsky (2010), o objetivo da anlise
estatstica de dados fazer as concluses mais
fortes possveis com segurana sobre uma populao estatstica com base nos dados disponveis (amostra ou amostras). Uma populao estatstica um conjunto completo de
entidades que se pretende estar envolvendo
em uma anlise. Em contraste, a amostra o
subconjunto da populao estatstica efetivamente utilizado na anlise. Se voc no
puder mostrar que a sua amostra representativa da populao estatstica (tambm denominada universo amostral), a generalizao (ou
externalizao) do que foi observado com os
seus dados suspeita.
14
15
Figura 1.8- Esquema de coleta simbolizando o planejamento amostral que objeto de anlise da validao
interna.
16
metades das duas regies. Desta forma, o efeito do pescador foi eliminado, ou melhor, ele
deixa de ser tendencioso. Novamente, se eu
encontrar uma diferena significativa no nmero
de peixes, eu poderei concluir com segurana
que lagos de uma regio tm mais peixes que
lagos da outra regio.
Binrio
(Categ. de 2)
Categrico
Ordinal ou
Quantitativo
Condio NP
Quantitativo
Condio P
Tabela de
Contingncia (TC)
(b) Graf: Seo III
Mann- Whitney;
Cochrans TT (c)
Graf: Seo IV
Teste t (de 2
grupos) (d)
Graf: Seo IV
Tabela de
Contingncia (b)
Graf: Seo III
Dicotomizar VI ou
VD e usar teste
apropriado (Max.
Balano) (g)
Kruskal-Wallis
(e)
Graf: Seo IV
Anlise de
Varincia (f)
Graf: Seo IV
Correlao de
Postos/ RNL(h)
Graf: Seo V
Correlao de
Postos/ RNL(h)
Graf: Seo V
Correlao de
Postos/ RNL(h)
Graf: Seo V
Pearson/
Regresso
Linear/ RNL (j)
Graf: Seo V
V. ind.
Binrio
(cat. de 2)
Categrico
Teste de 2 prop.,
T. Exato de
Fisher ou T.C. (a)
Graf: Seo III
Tabela de
Contingncia (b)
Graf: Seo III
Ordinal
Mann- Whitney;
Cochrans TT (c)
Graf: Seo VI
Quantitativo
Regresso
Logstica (i)
Graf: Seo VI
Dicotomizar VI ou
VD (Max. Balano)
(g)
17
18
19
20
Exerccios
1.1- O que um problema complexo e por que
o fato dele ser complexo no implica que seja
de difcil soluo.
1.2- Algumas pessoas afirmam que os homens
no conseguem desenvolver atividades complexas como as mulheres. Puro preconceito. Se
for dado tempo suficiente e assessoria adequada, os homens podem desenvolver atividades
igualmente complexas. Explique por que preparar uma festa de criana um problema complexo e quais partes deste problema podemos
terceirizar.
1.3- O uso da estatstica na pesquisa foi comparado com o uso de um microscpio. Explique a
analogia.
1.4 Reflita sobre os temas abaixo e pense em
um estudo (para cada um) na forma de um problema (um aspecto relevante do tema a ser
desenvolvido). Com base nisto: a) defina o problema que ser abordado; b) levante uma hiptese dentro deste problema; c) faa uma previso para testar esta hiptese.
1.4- a. Micorrizas: Suponha que voc descobriu
as Endomicorrizas*, mas ainda no sabe o que
so. O que voc percebeu foi a existncia de
muitos esporos de fungos no solo que aparentemente esto ligados s razes. (Se no sabe o
que so endomicorrizas, comece com uma pesquisa na internet)
1.4- b. Ninhos de cupins. Voc percebe que
algumas espcies de cupins fazem seus ninhos
no alto de rvores enquanto outras espcies
fazem ninhos no solo com uma parte do ninho
acima do solo e um terceiro grupo de espcies
fazem ninhos completamente subterrneos.
1.4- c. Lua: Voc sabe que a variao nas fases
da lua tem efeitos sobre muitos animais. Ento
voc se pergunta, ser que a lua tambm tem
efeito sobre plantas?
1.5- Explique o que uma previso exclusiva
1.6- Cite problemas originais que envolvam uma
evidncia: a) factual; b) frequentista simples; c)
contextual d) sistmica.
1.7- Explique um exemplo original de pesquisa
em que as concluses so suspeitas devido a
incertezas na validade das medidas.
21
2 Do problema
biolgico ao estatstico.
Os livros de estatstica vm com exemplos
prontos para a anlise de dados. Entretanto,
uma das maiores dificuldades dos estudantes
a transformao de problemas biolgicos (ou de
outras cincias, ou cotidianos) em problemas
estatsticos. Neste captulo, descreveremos
sucintamente a Abordagem EPR (Entidade,
Propriedade e Relao) de Macnaugton (2002)
que ajuda a transformar problemas biolgicos (e
outros) em problemas estatsticos. Macnaughton mostrou que h alguns conceitos to
bsicos que passam despercebidos, e que so
chaves para se compreender como se monta
um problema antes de iniciar o planejamento de
coleta de dados e para determinar quais sero
os testes mais adequados anlise dos dados
obtidos. Vejamos estes conceitos.
tantivos, tanto para os tipos de entidades (gatos), como para uma entidade particular (gato
no23). Trata-se de um conceito to bsico, que
raramente discutido em metodologia e estatstica. Entretanto, como veremos, til deix-lo
explcito. As entidades tambm podem ser
chamadas de casos, membros de uma populao, indivduos, itens, espcimes, objetos, observaes, unidades amostrais, etc.
2.1 Entidades
Se voc prestar ateno aos seus pensamentos
cotidianos em um dado momento, provavelmente concordar que estamos pensando sobre
diversos tipos de coisas. Por exemplo, neste
minuto voc poderia estar pensando em um
amigo ou em um compromisso que tem marcado para a tarde. Estas coisas so exemplos de
entidades (Fig. 2.1).
22
2.2 Propriedades
Cada tipo de entidade tem associado a ela uma
gama de atributos ou propriedades (Fig. 2.2).
Carros tm peso, cor, marca e ano de fabricao. rvores tm altura, nome da espcie, posio em um mapa. Bandos de passarinhos tm
um nome da espcie, um nmero de indivduos,
uma razo sexual. Cada entidade tem um valor
para cada propriedade (no existe carro sem
peso, podemos at no saber o valor, mas ele
existe).
Propriedades tambm so chamadas de aspectos, atributos, caractersticas, fatores, qualidades ou tratamentos. Os nomes das propriedades geralmente so substantivos abstratos que
nomeiam qualidades ou estados (localizao,
cor, beleza, idade, velocidade, quantidade, valor
de pH) de entidades. As propriedades tambm
podem ser aes realizadas ou sofridas (ou
no) por uma entidade. Por exemplo, tomar
chocolate (sim ou no) propriedade na frase
fulano tomou chocolate. Os nomes de propriedades tambm podem ser abreviaes de
aes. Por exemplo, a propriedade tomou chocolate (s/n) torna-se apenas Chocolate (s/n).
Os valores das propriedades so adjetivos
(vermelho, velho, rpido, grande, brasileiro,
estudioso), advrbios (aqui, agora, longe, mal,
sim, no, talvez, muito, pouco), numerais com
funes quantitativas, ordinais ou de rtuloplanta no 135 e datas), s vezes smbolos
(,, ou O+), e at substantivos. Quando os
valores so substantivos, eles tm funo qualificadora, isto , tem papel de adjetivo. As propriedades origem, local de formao e espcie
para a entidade pessoa tem os valores Brasil,
USP e Homo sapiens que substituem os adjetivos brasileiro, Uspiano e humano. Como vimos na seo anterior, a espcie Pitangus sulphuratus um substantivo, mas faz parte da
funo qualificadora na expresso aps o verbo
na frase este pssaro da espcie P. sulfuratus.
23
Tamanho
Fmeas
24
A relao entre duas variveis pode ser obscurecida ou confundida pela existncia de outros
fatores (conhecidos ou no) influenciando nos
valores da varivel resposta, por isto, um dos
desafios em um estudo conseguir estabelecer
25
O primeiro passo no estudo das relaes bivariadas (e multivariadas em geral) montar uma
tabela EPR. Comece com a hiptese (e. g. a
ingesto de chocolate causa espinhas), passe
para uma previso com uma varivel preditora
(tomou chocolate- sim/no) e uma varivel
resposta (nmero de espinhas). A entidade
inicialmente algum ou algo a quem estas
propriedades podem ser atribudas, no caso,
pessoa (pessoa 1, pessoa 2, etc.). Faa uma
coluna para numerar as entidades (opcional),
26
planilhas EPR podem ser utilizadas para analisar a mesma previso (embora no seja exatamente a mesma quando as entidades so
diferentes).
Pense em problemas prticos. Neste lago pegaremos bastante peixe? Este paciente ser curado? A plantao produzir mais se plantarmos
em abril ou se esperarmos at setembro? Neste
local encontraremos cobras venenosas? Se no
sabemos as respostas (pois no temos uma
mquina de viajar no tempo ou um orculo) e
no podemos esperar o futuro para tomar decises, o que fazer? Se conseguirmos identificar
relaes entre variveis, podemos fazer previses. Se soubermos que lagos de gua branca
sempre tem muito peixe, e que um determinado
lago tem gua branca, ento podemos prever
que provavelmente haver muito peixe nele. Se
soubermos que pessoas que tm temperatura
alta geralmente esto com infeces, e que
uma determinada substncia controla infeces,
podemos predizer que ela provavelmente ter
diminuio na febre e se sentir melhor se tomar esta substncia. Esta ao aparentemente
banal de estabelecer relaes um dos pilares que sustenta a cincia. A explicao outro
objetivo da cincia, mas se pensarmos bem, ela
est intimamente ligada ao estabelecimento de
relaes.
Algumas hipteses envolvem apenas uma varivel, o que implica em uma coluna na planilha
EPR. Considere a hiptese a resistncia de
peixes ornamentais ao transporte influenciada
pelo sexo do peixe. Podemos testa-la com a
previso que partindo de uma populao de 50
machos e 50 fmeas, a proporo de fmeas ao
final ser maior. Sobrevivem 25 machos e 40
fmeas, que uma diferena estatisticamente
significativa. A forma de determinar isto ser
abordada no captulo 5, o que nos importa agora que a concluso baseia-se apenas na varivel sexo (a entidade peixe). H hipteses
com varivel preditora e varivel resposta que
utilizam testes univariados (testes pareados).
Considere a hiptese: a agilidade de adultos do
sexo masculino diminui aps a ingesto de
apenas uma lata de cerveja. Sua previso
que a velocidade na execuo de certa tarefa
complexa menor depois da ingesto de uma
lata de cerveja. Ento voc mede a diferena de
velocidade antes e depois da cerveja para vrias pessoas. Repare que sua anlise vai se
basear apenas em uma varivel, a diferena de
velocidade, mas h uma varivel preditora im-
27
Exerccios:
2.1- Cite exemplos originais de entidades do
tipo objeto fsico, do tipo entidade coletiva e do
tipo processo, com duas propriedades inerentes
a cada tipo de entidade.
2.2- Explique, com um exemplo original, por que
algumas palavras podem ter significados compatveis com entidades (substantivo) ou com
valores de propriedades (e. g. adjetivos) dependendo do contexto.
2.3- Monte uma tabela EPR que contenha quatro propriedades cujos valores das propriedades
sejam respectivamente adjetivos, advrbios,
numerais e smbolos. Duas destas propriedades
devem ser variveis e as outras duas no.
2.4- Defina uma hiptese, uma previso e faa
um esquema de uma tabela EPR com duas
colunas, a varivel preditora na coluna da esquerda e a varivel resposta na coluna da direita. Inclua valores para cinco entidades.
2.5- Faa um grfico EPR para a tabela da
questo anterior com os 5 valores da tabela e
outros 15 adicionais.
2.6- Qual a diferena entre variveis tericas
e operacionais e entre hipteses de relaes e
hipteses existenciais?
2.7- A frase correlao no implica causalidade est relacionada com a diferena entre relaes consequentes e inconsequentes? Explique
a frase com exemplos originais de relaes
consequentes e inconsequentes.
2.8- De um exemplo original de uma relao
proximal e uma distal para explicar o mesmo
fenmeno.
2.9- Qual a diferena entre as estatsticas
bivariada, univariada e multivariada.
2.10) Elabore tabelas e grficos EPR para a
lista de hipteses/ previses a seguir:
28
3 Confiana na
medida e independncia
Neste captulo abordaremos: a) a incerteza em
medidas de valores individuais em funo da
forma de atribuir uma categoria ou da falta de
preciso ou de acurcia em instrumentos ou
procedimentos de medida; b) a variao natural
em valores quantitativos na forma de distribuies de frequncias; c) a incerteza na estimativa de parmetros populacionais e d) a importncia da independncia entre unidades amostrais na estimativa de parmetros populacionais. Para discutir estes assuntos sero apresentados alguns termos.
Tamnho da aranha(mm)
Phoneutria reidyi
25
20
v
?
15
10
5
0
Abr
Ago
Ms da coleta 2001/2002
Figura 3.1- Neste grfico EPR h seis nveis na varivel Ms da coleta, 19
nveis na varivel Tamanho da aranha e trs nveis na varivel Sexo.
29
Ordinais: Existe uma sequncia ordenada relevante entre os nveis na anlise. A diferena
entre um nvel e o prximo de posio apenas, no h uma quantificao. Por exemplo,
no podemos saber se o segundo lugar em uma
corrida chegou mais prximo do primeiro ou do
terceiro apenas com a posio da chegada.
Outros exemplos: abundncia na escala nula,
rara, intermediria, comum ou muito comum;
vento na escala fraco, moderado, forte, violento
e furaco; notas na escala A, B, C, D ou reprovado; idade na escala filhote, jovem pr
reprodutivo, adulto novo, adulto velho; tipo de
solo na escala arenoso, intermedirio arenoso,
intermedirio argiloso ou argiloso. Voc pode
usar nmeros nestas escalas, mas preciso
lembrar que estes nmeros no so quantidades.
Quantitativas: Variveis quantitativas possuem
valores numricos que efetivamente representam quantidades. No so variveis quantitativas aquelas que possuem valores numricos
que representam apenas ordem ou rtulo de
uma categoria.
Muitos livros de estatstica dividem a escala
quantitativa em duas: Razo e Intervalar. Esta
separao envolve um detalhe matemtico que
raramente relevante para o uso das tcnicas
estatsticas que abordaremos, de forma que no
a utilizaremos. Outra separao comum na
escala quantitativa entre nmeros contnuos
(nmeros Reais) e descontnuos (nmeros
Inteiros). A questo da continuidade relevante
porque os saltos dos nmeros entre nveis
podem exigir ajustes nos clculos estatsticos.
30
requerem mtodos estatsticos prprios. Algumas vezes estas escalas podem ser tratadas
como se fossem uma das escalas apresentadas
anteriormente, entretanto, no o ideal. A Escala Proporo para valores do tipo x de n
(e. g. 15/28 sementes sobreviveram no vaso 1)
ou do tipo que varia de 0 a 1 ou de 0 a 100%.
Muitas vezes estes valores so tratados como
quantitativos, mas h formas mais apropriadas
de lidar com eles (Warton & Hui, 2011). Na Escala Hierrquica a ordem entre os nveis
efetivos hierrquica (grupos dentro de grupos). O exemplo mais comum em biologia a
varivel espcies (pois as espcies se agrupam de forma hierrquica em gneros, famlias,
etc.). A varivel local, como em casas em um
estudo sobre dengue em vrios municpios
tambm hierrquica, pois as casas podem ser
agrupadas em vrios nveis espaciais (bairro,
municpio, estado). As tcnicas especficas so
diversas em funo do problema especfico (e.
g. Anova hierrquica; Regresso Filogentica,
Anlise de Correspondncia Cannica). Na
Escala Circular os nveis so cclicos, isto
seguem uma determinada ordem at chegar a
um ltimo nvel e retornar ao primeiro. Os
exemplos mais comuns envolvem medidas de
tempo, como hora do dia, dia da semana,
ms. Direes angulares (como a direo do
voo indivduos em migrao) tambm esto em
escala circular. Mtodos de Estatstica Circular
31
Por serem interpretaes, as atribuies nominais e ordinais sempre esto sujeitas a erros,
como na identificao de uma espcie, na determinao de qual doena um paciente teve,
ou no sentido de um sim no pargrafo anterior.
importante definir cuidadosamente os critrios
de atribuio, principalmente quando a subjetividade pode ter um papel importante na deciso
de valor. Em muitos estudos de comportamento,
importante se detalhar o significado de categorias de comportamento utilizadas para permitir comparaes (etograma). Se voc chamar de
comportamento agressivo apenas quando
animais efetivamente lutam, vai considerar o
comportamento mais raro do que outra pessoa
que considere qualquer demonstrao de
agressividade.
32
possvel que o aparelho est descalibrado. Neste caso, talvez seja bom ir ao hospital e obter
uma medida confivel. Se o hospital confirmar a
presso alta, pelo menos voc sabe que pode
confiar na acurcia do aparelho para as prximas medidas.
33
A medida da acurcia til para corrigir distores pela calibragem. Em equipamentos, como
vimos acima, comum haver padres para a
calibragem, mas ocasionalmente precisamos
calibrar procedimentos de outras formas. Imagine que voc tivesse que estimar visualmente
tamanhos de jacars distncia. Neste caso,
voc pode calibrar esta capacidade estimando
tamanhos de objetos semelhantes a jacars
(como troncos) distncia e depois verificar
como est se saindo medindo os objetos com
uma trena. Se tiver tendncia a superestimar o
tamanho, reduza suas estimativas e se tiver
tendncia a superestimar, aumente as estimativas. Se puder capturar jacars, conveniente
repetir a avaliao para melhorar a sua capacidade de estimar. Ningum consegue acertar
precisamente todas as medidas, mas voc pode
se considerar calibrado quando a quantidade
de subestimativas semelhante quantidade
de superestimativas.
A preciso costuma ser medida pelo seu inverso, a disperso dos valores (Fig. 3.4-2). Quanto menor a preciso, mais dispersos sero os
34
Quadro 3.1- A mdia aritmtica (1) um parmetro populacional utilizado em clculos de muitas medidas paramtricas.
Quando estimada com base em uma amostra, ela geralmente
simbolizada com um X ou um Y com uma barra encima. O
Desvio Absoluto Mdio (2) uma medida simples e intuitiva
de disperso. O Desvio Padro (3) uma medida bem mais
utilizada, com a mesma essncia do DAM. A frmula de DP
apresentada utilizada quando o determinamos com base em
uma amostra, que a situao mais comum. N= Tamanho
amostral; xi= cada valor registrado na amostra; = smbolo
matemtico de somatrio que significa que deve se somar os
termos a seguir na frmula. Curiosidade matemtica: a estatstica paramtrica utiliza estimativas inicialmente tendenciosas
que necessitam ajustes. o caso do desvio padro da amostra
com seu denominador (N-1). Por que no calculamos a mdia
dos desvios elevados ao quadrado com o denominador N? De
fato, no clculo de um desvio padro de um conjunto completo
de dados o denominador N. O problema que para determinar o desvio padro populacional com base em uma amostra
estaremos subestimando a disperso com o denominador N,
porque nossa mdia no a mdia real, mas uma estimativa
que necessariamente mais central ao conjunto de dados em
questo. Ao dividir por (N-1) temos um valor mais aproximado do DP da populao.
35
36
37
Figura 3.8- Quando temos uma distribuio normal, podemos determinar com base na mdia e no desvio padro
(DP), como os dados se distribuem e a proporo a cada
intervalo entre um, dois e trs desvios padres acima e
abaixo da mdia.
Os parmetros de variveis quantitativas envolvem contagens, como o nmero mdio de clulas brancas por campo em uma lmina de sangue, ou medidas contnuas, como o desvio
padro no tamanho (em m) de indivduos de
uma populao de Artemia salina. Note que as
contagens neste tipo de parmetro no so de
unidades amostrais, mas de algo que est em
cada unidade amostral. No exemplo da lmina
38
3.6 Intervalos de
parmetros.
confiana
de
Nas sees anteriores vimos medidas de disperso como o Desvio Padro e a Amplitude do
Intervalo Interquartil. Se a impreciso da medida
for pouco relevante em relao variao natural, estas medidas tambm so parmetros
populacionais (quando toda a populao foi
amostrada), ou estimativas de parmetros populacionais (quando o clculo foi feito por uma
amostra), pois a variao uma caracterstica
de uma populao.
39
40
10
:0
0
09
:0
0
08
:0
0
07
:0
0
06
:0
0
05
:0
0
O erro padro e o intervalo de confiana paramtrico so simtricos acima e abaixo da media. Este um dos problemas desta forma de
calcular intervalos de confiana que fica claro
no exemplo da figura 3.8. Note que foi omitida a
parte negativa do intervalo de confiana no
horrio 10:00hs. Isto foi feito porque sabemos
que no existe quantidade negativa de nctar.
Quando a distribuio de frequncias muito
assimtrica, como ocorreu neste exemplo, medidas paramtricas de intervalos de confiana
devem ser evitadas.
Quadro 3.2- Clculo paramtrico do Intervalo de Confiana IC95% da mdia. O clculo do Desvio Padro foi apresentado no Quadro 3.1.
41
Quadro 3.3- Determinao de Intervalos de Confiana pela tcnica de Reamostragem chamada Bootstrap. Funciona
como se o computador clonasse os dados vrias vezes, recriando algo semelhante populao original (como os
nmeros na tabela acima). Tendo esta populao, o computador retira uma amostra do mesmo tamanho amostral da
amostra inicial (representada em destaque na tabela) e calcula o valor do parmetro (e. g. a mdia). Depois repete o
processo muitas vezes (e. g. 1000 vezes), obtendo repeties de estimativa do parmetro. Ento retira uma porcentagem
dos valores extremos (e. g.. 5% para obter um IC95%) e obtm os limites do Intervalo de Confiana.
42
populao masculina adulta do Brasil por sorteio de toda a populao ter uma amostra excelente para calcular a mdia de alturas. Se
voc utilizar os dados de toda a populao
masculina adulta de um nico estado, como
So Paulo, esta medida no ser representativa
da mdia nacional, mesmo contendo cerca de
20% da populao do Brasil. Quando h representatividade em distribuio as unidades
43
44
lote neste caso uma varivel de confundimento porque gera uma indefinio, j que
uma explicao alternativa ao tratamento com
Vermiculita para explicar a diferena entre tratamento e controle. Portanto, este segundo
experimento inconclusivo.
Em um terceiro experimento, voc sorteia de
qual dos dois lotes, do Brasil ou do Japo, sair
cada uma das sementes que ir para o tratamento e para o controle. Desta forma, ter uma
mistura dos dois lotes tanto no controle como no
tratamento. Ao final, as plantas nos vasos com
o tratamento cresceram significativamente mais
e a resposta para sua questo sim, pelo menos para esta mistura de dois pacotes. Assim
como o primeiro experimento, este tambm
vlido.
45
46
Administrar projetos de pesquisa uma atividade complexa, de forma que no podemos ignorar custos, tempo, praticidade e questes logsticas na determinao da preciso e acurcia
que ser utilizada. importante conhecer ideais
metodolgicos (e. g. medidas precisas e no
tendenciosas, tamanhos amostrais grandes,
amostragens aleatrias, etc.), mas estes ideais
no so leis metodolgicas absolutas, so apenas diretrizes que devem ser levadas muito a
47
48
Como vimos na seo 3.6, a acurcia na medida de um parmetro maximizada quanto melhor a representatividade amostral. Se a amostragem aleatria no possvel, o que muito
comum, procure o mtodo de coleta que mais
se aproxima daquilo que voc esperaria obter
em uma amostra que fosse aleatria. H muitas
formas sistemticas de coletar os dados que
permitem obter amostras representativas. Tambm h formas de analisar os dados para obter
resultados mais representativos (e. g. a mdia
ponderada). Se nada disto for possvel, procure
coletar amostras o mais distante possvel dentro
da rea de estudo. Tente evitar associar alguma
varivel que poderia dar um vis coleta. Por
exemplo, se quer investigar o interesse de uma
populao por futebol, o ltimo lugar onde vai
obter uma amostra representativa em um
estdio de futebol. Entrevistar pessoas na rua
em diferentes bairros no o ideal, pois exclui
grupos de pessoas que andam pouco na rua,
como idosos. Telefonar para pessoas tambm
pode excluir pessoas que no tem dinheiro ou
interesse em ter um telefone. Entretanto, se
voc fizer as duas coisas e os resultados forem
semelhantes, ento tem uma indicao que
estas formas de amostrar no foram to ruins.
Outra opo simplesmente reduzir o universo
de estudo ao grupo com o qual se pode trabalhar e tirar concluses apenas sobre este grupo.
Por exemplo, seu estudo pode ser sobre o interesse em futebol das pessoas que andam na
rua.
Como vimos na seo 3.8, a questo da independncia no estudo de relaes um problema fcil de resolver em abordagens experimentais normais, nas quais podemos escolher aleatoriamente quais entidades recebero quais
tratamentos. Entretanto, quando isto no possvel bem mais complicado analisar causalidade. Este assunto ser aprofundado no captulo 6.
49
Exerccios:
1) O que so escalas de medida? Apresente um
exemplo original de propriedade com alguns
valores para cada uma delas.
2) Faa um grfico EPR com trs nveis de medida ordinais no eixo x e com cinco nveis quantitativos no eixo Y. Represente 20 entidades
neste grfico.
50
51
to no mostrar que no h nenhuma outra hiptese razovel para explicar a evidncia obtida.
52
turbaes que elas apenas poderiam atrapalhar as formigas, de nenhuma forma poderiam
ajud-las. O fato que mesmo com estas perturbaes, elas conseguiram chegar ao formigueiro. Outra pessoa poderia questionar a interpretao dizendo que as formigas poderiam ter
se orientado com base no eixo magntico da
terra, utilizando uma bssola interna. Ele poderia ter respondido que esta possibilidade no
pode ser excluda, mas que no parece razovel, pois j foi demonstrada a capacidade de
orientao por referenciais espaciais em outros
himenpteros, mas nunca foi demonstrada a
capacidade de orientao magntica em insetos. Algumas descobertas incrveis, como a
capacidade de ecolocao em morcegos demoraram a ser aceitas. Entretanto, geralmente
uma boa deciso no comear seriamente com
ideias muito radicais sem ter bons motivos para
isto, especialmente quando sua hiptese de
trabalho parece muito mais provvel.
Ainda h uma hiptese a considerar: as formigas poderiam ter conseguido retornar por sorte.
Poderiam ter andado a esmo pela rea e por
acaso encontrado a pequena abertura do formigueiro. Entretanto, procure imaginar a situao,
no eram 2m ou 10 m, eram 100 m. uma
distncia enorme para as formigas andarem ao
acaso e encontrarem o formigueiro apenas
por sorte. Seria muito mais provvel que
elas simplesmente se perdessem se no
tivessem orientao. A hiptese de terem
encontrado ao acaso to improvvel que
pode ser tranquilamente descartada.
Para aprofundar a ideia do mtodo hipottico dedutivo, vamos representa-la de forma mais visual (fig. 4.2) e vamos ver as
partes envolvidas. A hiptese de trabalho
tem uma posio central no processo, o
que natural, porque ela que est sendo
testada e dela que partem as previses
que sero utilizadas. Vemos no esquema
que existem vrias hipteses que poderiam competir com ela como explicaes
alternativas para o que se encontrou como
evidncias. No so hipteses de interesse
prprio de pesquisa, por isto utilizamos as
53
Pense no processo utilizado na soluo de crimes. A princpio, quando ainda no temos nenhuma informao, qualquer habitante da terra
poderia ser o culpado de um determinado assassinato (= bilhes de hipteses). No podemos julgar o mundo inteiro, por isto precisamos
de uma investigao para chegar a um suspeito
ou a um grupo de suspeitos que trabalhou junto
para realizar o crime (= 1 hiptese de trabalho).
Depois, h uma busca de evidncias que apoiem a hiptese e ento o caso levado a julgamento. No momento do julgamento ns nos
concentramos em uma nica pessoa ou grupo
de pessoas que poderia ter trabalhado junto
para realizar o crime. Reduzimos bilhes de
hipteses a apenas duas: os rus so culpados
ou os rus so inocentes.
54
Na bolsa de valores h corretores que so considerados geniais com base na proporo das
aes que eles recomendaram e que tiveram
lucros excepcionais, e eles so contratados com
salrios milionrios. Ser que eles valem estes
salrios ou so simplesmente os ganhadores na
loteria das bolsas? Estudos mostraram que,
depois dos sucessos excepcionais, estes corretores brilhantes no tinham mais sucesso que
corretores medianos. No percebemos isto
porque nossas convices que o sucesso est
ligado competncia so to fortes que nos
cegam para perceber que muitas vezes o sucesso fortemente influenciado pelo acaso.
Resultados extremamente positivos so evidncia de competncia, mas a evidncia torna-se
fraca se o nmero de tentativas for elevado.
Achamos que alguns corretores so brilhantes
com base em seus resultados extremamente
positivos porque esquecemos que h milhares
de corretores realizando milhes de operaes
durante anos.
com
55
56
57
Nmero de acertos
seguidos
1
2
3
4
5
6
7
8
9
10
Probabilidade
0.5
0.25
0.125
0.0625
0.03125
0.015625
0.0078125
0.00390625
0.001953125
0.000976563
58
Suponha que tenhamos realizado o experimento com 8 rainhas jovens e tenhamos obtido 5
(62,5%) que escavaram em solo argiloso e 3
(37,5%) que escavaram em solo arenoso. O
esperado, supondo que no haja preferncia
por solos, seria que 50% das formigas escavariam em solo arenoso e a outra metade em solo
argiloso. O resultado obtido foi na direo da
previso da hiptese de trabalho. O problema
que esta diferena tambm compatvel com a
hiptese nula. No quadro 4.1 realizamos o clculo de probabilidade para a mesma diferena
percentual com tamanhos amostrais diferentes.
O que vemos que a probabilidade de se obter
a mesma proporo de formigas escavando em
No existe um valor mgico universal que separe meros indcios de evidncia segura, a ideia
de definir um valor que regras objetivas precisam ser definidas antes do jogo (o termo tcnico a priori). O valor limite pr-determinado
de probabilidade abaixo do qual se rejeita a
hiptese nula chamado Nvel de Significncia, e representado pela letra grega (alfa).
Os valores mais utilizados so 0,05; 0,01 e (raramente) 0,001, dependendo do grau de rigor
que se quer assumir. Algo parecido acontece
quando determinamos a nota mnima abaixo da
qual reprovamos o aluno, que pode ser 5, 6 ou
7. Ao escolher um nvel de significncia voc
est definindo sua chance de errar, ou melhor,
voc est definindo qual tipo de erro
voc est mais disposto a aceitar.
isto que ser explicado adiante.
Quadro 4.1 Probabilidade calculada pelo mtodo 2com base no obtido (O)
o esperado central (E). .
59
cesso civilizatrio. Acontece que crimes costumam deixar pistas e bom lembrar que um dia
poderamos ser ns mesmos em um banco de
rus. Enfim, a regra que toda pessoa deve ser
considerada inocente at que haja uma evidncia realmente convincente de que ela culpada.
Entretanto, por melhor que seja a justia, ela
nunca ser perfeita e h quatro resultados possveis em um julgamento: 1) podemos mandar
prender uma pessoa inocente (injustia);
2) Podemos mandar prender um assassino;
3) Podemos libertar uma pessoa inocente e
4) podemos libertar um assassino (impunidade).
A tabela 4.3 resume estas possibilidades.
Basicamente, queremos evitar erros. Uma forma de evitar erros de deciso obter mais informao relevante. H tcnicas (subutilizadas)
de amostragem at atingir critrios de deciso
(e. g. amostragem sequencial). Entretanto, o
mais comum que a informao seja limitada
(por tempo, dinheiro ou porque todas as pistas
foram exaustivamente exploradas). A forma de
agir neste caso depende da prioridade que damos em evitar o Erro Tipo I e em evitar o Erro
Tipo II. Ao assumir como premissa a inocncia
do ru, estamos dando prioridade em evitar o
Erro Tipo I. A nica forma de evitar o Erro Tipo I
de forma absoluta seria decidir pela inocncia
sem julgamento e independente de provas, o
que no aceitvel. Existe sempre o risco de
inocentes serem presos, mas podemos e devemos reduzir esta probabilidade a uma possibilidade remota, e isto feito ao dar ampla chance de defesa e conservadorismo em aceitar
apenas provas muito fortes e claras. A chance
Um assassino solto algo ruim e deve ser evitado. Entretanto, um inocente preso por assassinato algo mais grave. Por que assumir que a
inocncia de uma pessoa tem prioridade sobre
o risco para resto da populao? Parece estranho, mas esta foi a concluso de um longo proRealidade
Inocente
Culpado
Culpado
Injustia
Deciso
Correta
Inocente
Deciso
Correta
Impunidade
Deciso
Realidade
Deciso
H0 Verdadeira
H0 Falsa
Rejeita H0
Erro tipo I
Deciso
Correta
Aceita H0
Deciso
Correta
Erro tipo II
60
Suponha que a probabilidade de um falso positivo em um exame de AIDS tenha sido estabelecida em 0,7%. O que significa isto? Significa
que a chance dela ter Aids de 99.3%. Com
base no resultado do exame qualquer pessoa
tem a mesma chance de receber um falso positivo? As respostas so no e no. Muitos se
surpreendem ao saber que a chance de ser um
61
62
Evidncia contra Ho
Muito Forte
Forte
Mdia
Nvel de aprendizado
a) Peso da evidncia
contra a Hiptese Nula
b) Analogia
(prova de 100 questes de
Verdadeiro ou Falso)
Muito Alto
Alto
Mdio
0
Negativo?
50%
100%
Erros
0
Negativa?
0.05
0.001 0.01
0.5
Figura 4.3 A probabilidade calculada em um teste estatstico serve como medida do peso da evidncia contrria Hiptese Nula. Quanto menor o valor de P, maior a evidncia contrria Hiptese Nula. Valores intermedirios de P indicam situao indefinida e valores muito altos so estranhos. Ver a explicao no
texto com uma analogia com uma prova com alternativas do tipo verdadeiro ou falso.
63
bm a forma mais natural para apresentar resultados que utilizam tcnicas de reamostragem,
como o Bootstrap (seo 3.6). A terceira vantagem que mais fcil se realizar um teste de
hipteses de trabalho de semelhana.
64
65
g) Efeitos colaterais
Em algumas situaes, particularmente no desenvolvimento de remdios, alimentos ou produtos que possam oferecer riscos ambientais ou
sade humana, temos de ir alm das consideraes sobre o erro tipo I e tipo II. Imagine uma
substncia com potencial para diminuir os enjos durante a gravidez. Podemos testar estatisticamente se o remdio efetivo fixando o erro
tipo I e at o erro tipo II, definindo um tamanho
amostral apropriado com base em coletas preliminares. Esta anlise permitir que se defina
dentro dos critrios discutidos neste captulo se
o remdio efetivo ou no para reduzir o enjo.
Entretanto, este teste s avalia o enjo, no
garante que este remdio no tenha contra
indicaes. Um remdio chamado Talidomida
foi usado na dcada de 1960 contra enjo na
gravidez e causou malformaes em muitos
bebs.
66
4.8- Como devemos ajustar o Nvel de Significncia em funo da ousadia de uma hiptese
de trabalho.
4.9- Como devemos proceder quando o custo
do Erro Tipo II elevado?
4.10- O que so efeitos colaterais e como devemos lidar com eles?
Exerccios
4.1- A lgica dos testes de hipteses um assunto mais amplo do que a utilizao de clculos estatsticos em testes de hipteses. Explique.
4.2- Qual o risco da inflao de testes e como
ele pode ser evitado?
4.3- Quais hipteses costumam ser descartadas por procedimentos preventivos durante um
planejamento experimental? Explique.
4.4- Como descartada a hiptese do acaso? Utilize na sua resposta os conceitos de
a) Hiptese Nula; b) Probabilidade calculada;
c) Nvel de significncia ().
4.5- Por que precisamos de um nvel de significncia em um processo de deciso.
4.6- Explique a relao entre o valor calculado
de probabilidade em um teste (P) e seu peso
como evidncia contra a hiptese nula.
4.7- Explique a diferena entre Erro Tipo I (falso
positivo) e Erro Tipo II (falso negativo) em processos decisrios em tribunais e na pesquisa
cientfica.
67
Tabela 4.2 Anlise e ao em diferentes situaes em funo do custo do Erro Tipo I (falso positivo) e do Erro Tipo II
(falso negativo) e do nmero de etapas de coleta de dados. As formas de analisar os dados mais comuns na pesquisa
esto em destaque.
Alto ou Mdio
Baixo
Baixo ou mdio
Muito Alto ou
Alto
Mdio
Mdio
Custo
Falso
Negativo
Baixo
Muito Alto
Custo
Falso
Positivo
Tempo
Exemplo
Anlise e Ao
nico
68