Está en la página 1de 78

SOFTWARE ESTATSTICO

O Senhor da-me fora e entendimento !!!

LIBERTE-SE de idias do tipo:

No posso No tenho tempo Quem me dera Isso no para mim

Eu nunca vou conseguir

e outras convices pessimistas.

AQUISIO DE CONHECIMENTO

Era da Informao

Importncia da leitura Leitura:

Para a cincia, no existe verdade absoluta


Romance, Playboy,

De entretenimento e cultura geral:


Capricho, Veja, Isto , Info, Exame, ...

De formao: livros, teses, monografias, artigos, ...

Voc sabe ler??? Voc tem hbito de ler ???

Conceito

A estatstica a cincia de resumir e analisar os dados sujeitos a variao aleatria Last, 1988 a cincia de coletar, resumir, apresentar e interpretar dados e, us-los para testar hipteses

Variabilidade

Tudo (ou quase tudo) varia


Presso arterial Glicemia Renda Stress Massa (% gordura) Padro de beleza

Aspectos que no variam no interessam

Variabilidade e estatstica

Se existe variabilidade, h necessidade de se utilizar ferramentas adequadas para: Descrio de eventos

Estatstica descritiva: descreve fatos sem associao de causa e efeito

Comparao de grupos

Estatstica analtica ou inferencial: analisa fatos com associaes de causa e efeito

Estatstica Bsica

Estatstica Descritiva: descreve fatos sem associao de causa e efeito Estatstica Analtica ou Inferencial: analisa fatos com associaes de causa e efeito

Estatstica
Estatstica Descritiva X Estatstica Inferencial
100 90
20 15 10 5 0

80 70 60 50
classe 1 classe 2

Classes 10 - 20 20 - 30 30 - 40 40 - 50 50 - 60 60 - 70 70 - 80 80 - 90 90 - 100 100 - 110 110 - 120 120 - 130

F.A. 2 4 6 12 10 25 12 19 7 5 3 1 106

F.R. 0,02 0,04 0,06 0,11 0,09 0,24 0,11 0,18 0,07 0,05 0,03 0,01

mdia moda mediana desvio mdio desvio padro assimetria curtose coeficiente de variao

Conceitos

Parmetro: uma medida numrica que descreve uma caracterstica de uma populao. Estatstica: uma medida numrica que descreve uma caracterstica da amostra.

Dados primrios: dados coletados pelo prprio pesquisador e sua equipe. Dados secundrios: no foram obtidos pelo pesquisador e sua equipe (diversas fontes como artigos em peridicos, institutos de pesquisa, DATASUS, IBGE, OMS, OPAS).

Variveis

Varivel qualquer caracterstica ou atributo que difere de pessoa para pessoa. Ex.: Idade de cada aluno em uma sala de aula, peso, altura. Podem ser variveis independentes ou dependentes Conforme a caracterstica que medem podem ser:

Quantitativas (ou numricas) Qualitativas (ou categricas)

Tipos de variveis

Quantitativa ou Numrica: Discreta: n de filhos, n de moradores, etc Contnua: peso, altura, etc
Qualitativa ou Categrica Nominal: cor da pele, situao conjugal Ordinal: classe econmica, auto-percepo de sade

DEFINIES OPERACIONAIS
VARIVEIS INDEPENDENTES: influencia(m) outras variveis. aquela (s) que

VARIVEIS DEPENDENTES: aquela(s) que (so) influenciada(s) pela varivel independente.


a)O ndice de suicdios maior entre solteiros que casados. Variveis: estado civil e ndice de suicdio b)A classe social da me influencia no tempo de amamentao dos filhos.
varivel independente:classe social varivel dependente:tempo de amamentao

Anlise Univariada

Resume os principais aspectos da populao em estudo. Mostra o comportamento de uma varivel, independente de outras variveis. Geralmente descrevem-se duas caractersticas:

Distribuio Medidas

...x Bi x Multi-

Estatstica descritiva

Tambm designada Anlise exploratria de dados ou Anlise preliminar de dados

19

Estatsticas ou medidas amostrais

Estatstica ou medida amostral: uma medida numrica que descreve alguma caracterstica de uma amostra. habitualmente representada
por letras latinas. Por exemplo: x (mdia), s (desvio padro), r (coeficiente de correlao)

Amostra

Estatstica / medida amostral


20

Parmetros

Parmetro: uma medida numrica que descreve alguma caracterstica de uma populao. habitualmente representado por
letras gregas. Por exemplo: (mdia), (desvio padro), (coeficiente de correlao)

Populao

Parmetro
21

Ferramentas de Estatstica Descritiva

Clculo numrico de medidas amostrais.


Resumo e descrio global dos dados atravs da construo de tabelas e de grficos. Anlise e interpretao dos resultados obtidos.
22

Medidas amostrais

Tendncia ou localizao central:


mdia (mean), mediana (median), moda (mode), mdia aparada (trimmed mean).

23

Medidas amostrais

Localizao relativa:

Mnimo (minimum), Mximo (maximum), Quartil (quartile), Percentil (percentile).

24

Medidas amostrais

Disperso:

amplitude (range), distncia inter-quartil (inter-quartile range), varincia (variance), desvio padro (standard deviation), coeficiente de variao (coefficient of variation),

25

Medidas amostrais

Assimetria:

Coeficiente de assimetria (skweness).

26

Amostra e variabilidade

Se as pessoas variam, o que acontece com as amostras? Ex.: Estudo para estimar o peso ao nascer no HC-UFG. Afere-se o peso de todas as crianas nascidas na 1 semana de agosto e na 1 semana de setembro.

Resultados

Agosto: mdia 3250g Setembro: mdia 3310g


Como interpretar este resultado? As crianas esto ficando mais pesadas conforme vai terminando o inverno?

Variabilidade amostral

Cada amostra vai fornecer uma mdia diferente.


A questo essencial :

As populaes que forneceram as amostras so realmente diferentes? OU A diferena obtida foi apenas devido a variao aleatria?

Tabelas de frequncias

Tabelas que resumem a informao contida na amostra, ordenando os seus valores e agrupando-os em classes (de valores repetidos ou de valores distribudos por intervalos).

30

Grficos

Grficos de frequncias Histogramas Caixas de bigodes ou diagramas de extremos e quartis (boxplots) Diagramas de caule-e-folhas (stem and leaf) Diagramas de disperso (scatterplot)

31

Descrio resumida das vrias ferramentas de Estatstica descritiva

32

Ordenao e tabela de frequncias

Tipos de frequncias:

Frequncia Frequncia Frequncia Frequncia

absoluta relativa absoluta acumulada relativa acumulada

Uma tabela de frequncias uma tabela onde figuram os valores de pelo menos um destes tipos de frequncias.

33

Tabela de frequncias

Exemplo de uma tabela produzida pelo SPSS:


Durante um ano contabilizou-se diariamente o n de golfinhos presos nas redes dos pescadores das guas Aoreanas.
n de golfinhos presos num dia Frequency 37 45 84 52 23 11 2 1 1 1 257 Percent 14, 4 17, 5 32, 7 20, 2 8, 9 4, 3 ,8 ,4 ,4 ,4 100,0 Valid Percent 14, 4 17, 5 32, 7 20, 2 8, 9 4, 3 ,8 ,4 ,4 ,4 100,0 Cumulat iv e Percent 14, 4 31, 9 64, 6 84, 8 93, 8 98, 1 98, 8 99, 2 99, 6 100,0

Valid

0 1 2 3 4 5 6 8 9 13 Tot al

34

Medidas amostrais

Tendncia ou localizao central:


mdia (mean), mediana (median), moda (mode), mdia aparada (trimmed mean).

35

Medidas de localizao central: Mdia

Mdia: Numa amostra de n observaes, x1, x2, , xn

x1 x2 ... xn x n

x x
i 1 i

Se os dados estiverem agrupados (k valores distintos)


* * * x1 f1 x2 f 2 ... xn fn x n * x i fi i 1 k

x n

* i i

onde fi designa a frequncia absoluta de xi* (ou a frequncia absoluta da classe com marca xi* no caso de dados agrupados em classes)
36

Medidas de localizao central: Mdia

A mdia pode ser pensada como o centro de massa dos valores das observaes, ie, o ponto de equilibrio aps dispormos as observaes sobre uma rgua.

Pontos afastados ou erros nas observaes podem afastar a mdia do grosso das observaes.
37

Medidas de localizao central: Mediana

A mediana a observao central, depois de ordenada a amostra.


Se a amostra tiver dimenso mpar, coincide com a observao central. Exemplo: Na amostra 1.2; 1.7; 2.1; 2.2; 2.4 a mediana 2.1 . Se a amostra tiver dimenso par, a mediana toma o valor da mdia das duas observaes mais centrais. Exemplo: Na amostra 0.3; 0.7; 0.9; 1.1 a mediana 0.8.

A mediana mais robusta que a mdia a erros ou a observaes afastadas.

38

Medidas de localizao central: Mdia aparada

Uma mdia aparada no mais do que uma mistura entre os conceitos de mdia e mediana por forma a combinar as qualidades de ambas. Uma mdia aparada uma mdia que calculada excluindo uma certa proporo de observaes em cada extremo da amostra.

39

Medidas de localizao central: Moda


A moda o valor mais frequente de uma amostra. Ao contrrio do que acontece com a mediana e a mdia, uma amostra pode possuir mais do que uma moda.

Moda
40

Medidas de localizao central: Moda

A moda a nica medida de localizao central que pode ser utilizada para dados numa escala nominal. A moda pode no ter significado, especialmente em dados de natureza contnua ou em dados discretos com poucas observaes repetidas! Quando os dados esto agrupados em classes podemos falar da classe modal, ou seja, da classe com maior frequncia.

41

Medidas amostrais

Localizao relativa:

Mnimo (minimum), Mximo (maximum), Quartil (quartile), Percentil (percentile).

42

Medidas de localizao relativa: Mnimo e Mximo

Mnimo o valor mais reduzido da amostra Mximo o valor mais elevado da amostra

43

Medidas de localizao relativa: Quartis

Quartis so os valores (Q1, Q2 e Q3) que dividem a amostra, depois de ordenada, em quatro partes iguais (ou o mais iguais possvel). Q2 coincide com a mediana.

44

Medidas de localizao relativa: Quantis e Percentis

Quantil de ordem p (0 p 1) um valor, xp, que divide a amostra em duas partes, tal que esquerda de xp est a proporo p da amostra e direita a proporo 1-p. Percentil de ordem p (p vai de 1 a 100) - o mesmo que um quantil mas em que a proporo dada em percentagem.

45

Medidas amostrais

Disperso:

amplitude (range), distncia inter-quartil (inter-quartile range), varincia (variance), desvio padro (standard deviation), coeficiente de variao (coefficient of variation),

46

Medidas de disperso: Amplitude

A amplitude de uma amostra a diferena entre o mximo e o mnimo.


Exemplo: Na amostra 1.2; 1.7; 2.1; 2.2; 2.3 a amplitude 2.3 - 1.2 = 1.1 .

47

Medidas de disperso: Distncia interquartil

Distncia inter-quartil a diferena entre o 3 e o 1 quartis, Q3 - Q1.

No intervalo que vai de Q1 a Q3 encontram-se 50% das observaes (as mais centrais).

48

Medidas de disperso: varincia

A varincia a mdia dos quadrados dos desvios das observaes em relao mdia da amostra.

Habitualmente considera-se uma verso corrigida da varincia

49

Medidas de disperso: desvio padro

A varincia no vem representada na mesma unidade das observaes. Se tomarmos a raiz quadrada da varincia obtemos o desvio padro que tambm uma medida de disperso e vem na mesma unidade das observaes.

Nos programas de estatstica e nas mquinas de calcular o que aparece so as verses corrigidas da varincia e do desvio padro. O desvio padro e a varincia podem ser fortemente afectados por erros ou observaes muito afastadas.
50

Medidas de disperso: coeficiente de variao

O Coeficiente de variao a razo entre o desvio padro e a mdia, v = s / x. Trata-se de uma medida relativa de disperso e por isso no tem unidades.

51

Medidas amostrais: assimetria

Coeficiente de assimetria uma medida que assume o valor zero quando a distribuio de frequncias da amostra completamente simtrica e assume valores diferentes de zero (positivos ou negativos) quando a distribuio no simtrica.
Ateno que numa amostra quase impossvel observar simetria pura. Por isso o coeficiente de assimetria assume valores quase sempre diferentes de zero. Para termos uma ideia se a assimetria relevante devemos comparar o valor do coeficiente com o erro associado. Se o coeficiente no exceder 2 ou 3 vezes o erro, o seu valor no ser muito relevante, especialmente quando queremos extrapolar para a populao.
52

Medidas amostrais: assimetria

Uma distribuio possui assimetria positiva (alternativamente negativa) quando existe uma concentrao de valores na zona de valores mais reduzidos (alternativamente elevados) da amostra.
Quase simetria Coef.ass. ~ 0 Assimetria negativa Coef.ass. <0

Assimetria positiva Coef.ass. >0

53

Medidas amostrais: assimetria

A assimetria tambm pode ser avaliada comparando os valores da mdia, mediana e moda (desde que esta ltima faa sentido).

Assimetria positiva: moda < mediana < mdia

moda

mdia mediana
54

Distribuio Normal

55

Medidas amostrais: assimetria


Assimetria negativa: mdia < mediana < moda

Simetria pura:

mdia = mediana = moda

Simetria aproximada: mdia ~ mediana ~ moda

56

Grficos

Grficos de frequncias Histogramas Caixas de bigodes ou diagramas de extremos e quartis (boxplots) Diagramas de caule-e-folhas (stem and leaf) Diagramas de disperso (scatterplot)

57

Histogramas

O histograma um grfico que reflecte a forma da distribuio de frequncias da amostra. Tambm procura reflectir a estrutura (forma) da populao de onde foi retirada a amostra. Para construir um histograma necessrio primeiro repartir os dados por classes e depois calcular as respectivas frequncias. O histograma um grfico de frequncias construdo a partir desta tabela de frequncias (por classes). Os histogramas so particularmente teis para variveis contnuas ou variveis com poucos valores repetidos.

58

Histogramas

A apresentao do histograma depende muito do nmero de classes considerado. Um nmero muito grande de classes produz um histograma com demasiada irregularidade, enquanto um histograma com um nmero demasiado reduzido de classes oculta a forma da distribuio (perde-se demasiada informao).

59

Histogramas
Poucas classes Muitas classes

60

Grficos de frequncias

Grficos de frequncias so grficos de barras que traduzem graficamente o contedo da tabela de frequncias. Os mais habituais so os grficos de frequncias absolutas ou relativas, mas tambm podemos construir grficos de frequncias absolutas ou relativas acumuladas. Os grficos de frequncias (no acumuladas) so apropriados para dados qualitativos ou numricos discretos (ou que se comportam como tal). Quando as frequncias absolutas so reduzidas e a gama de valores da amostra dispersa os grficos de frequncias tornam-se pouco interessantes (muito irregulares).
61

Grficos de frequncias

Chama-se funo de distribuio emprica funo cuja imagem grfica o grfico de frequncias relativas acumuladas.

10 0%

Exemplo:
Percent

75 %

50 %

25 %

0% 0 1 2 3

62

Caixas de bigodes

Pode ser encarada como a representao grfica de algumas medidas de localizao: mediana Q1 Q3 outliers e extremos

63

Caixas de bigodes
Mnimo da amostra mas no menos de Q1-1.5(Q3-Q1)

Mximo da amostra mas no mais de Q3+1.5(Q3-Q1)

64

Caixa de bigodes

Algumas caixas tm os bigodes at ao mnimo e mximo e no tm representados outliers. As caixas de bigodes do informao sobre

A localizao central: mediana Outras localizaes: 1 e 3 quartis e mnimo e mximo. Disperso: amplitude e distncia inter-quartil Assimetria: posio relativa da mediana na caixa, comprimento dos bigodes.
65

Caixas de bigodes
Assimetria positiva Simetria Assimetria negativa

66

Caixa de bigodes comparativas

As caixas de bigodes tambm so teis para comparar vrias amostras num mesmo grfico, caixas de bigodes comparativas.

67

Caixas de bigodes comparativas

Ex:

68

Formas de distribuies

Os grficos de frequncias, histogramas, diagramas de caule-e-folhas (e em parte as caixas de bigodes) do-nos informao quanto forma da distribuio dos dados (e consequentemente da populao de onde foram retirados) Existem distribuies de vrios tipos: unimodais, bimodais e multimodais

69

Formas de distribuies
Exemplo: unimodal

bimodal

70

Diagramas de disperso

Os diagramas de disperso so grficos que permitem relacionar duas variveis entre si. Representam-se pares de dados (x,y), onde no eixo horizontal marcam-se os valores de x e no eixo vertical os valores de y

71

Diagramas de disperso

Exemplo: pesos e comprimentos de 414 recmnascidos.

72

Matrix de diagramas de disperso

Ex: rvores

73

Apresentao de dados - Tabelas

Componentes

Representao tabular

Apresentao de tabelas A tabela deve ser simples, claras e objetivas. Grandes volumes de dados devem ser divididos em vrias tabelas. A tabela deve ser auto-explicativa. Nenhuma casa da tabela deve ficar em branco, apresentando sempre um nmero ou um smbolo. As tabelas, excludos os ttulos, sero delimitadas, no alto e em baixo, por traos horizontais grossos, preferencialmente.

Representao tabular

Apresentao de tabelas Recomenda-se no delimitar as tabelas direita e esquerda, por traos verticais. Ser facultativo o emprego de traos verticais para a separao de colunas no corpo da tabela. Deve-se manter a uniformidade quanto ao nmero de casas decimais. Os totais e subtotais devem ser destacados.

Tabelas de contingncia

Conjugando duas sries em uma nica tabela, obtm-se uma tabela de dupla entrada.

Distribuies de Freqncia

Relacionam categorias ou classes de valores, juntamente com contagens (ou freqncia) do nmero de valores que se enquadram em cada categoria.
Exemplo 1: VARIVEL QUALITATIVA

Distribuies de Freqncia

Exemplo 2: VARIVEL QUANTITATIVA

Distribuio de freqncia para dados no agrupados ou no tabulados em classes; Distribuio de freqncia para dados agrupados ou tabulados em classes.

Distribuies de Freqncia
Dados agrupados em classes

También podría gustarte