Documentos de Académico
Documentos de Profesional
Documentos de Cultura
So Paulo, 2005.
Sumrio
1
2
Introduo..........................................................................3
Sobre a Estatstica................................................................3
2.1
Um Pouco da Histria da Estatstica...........................................................................3
2.2
Definio............................................................................................................................ 3
2.3
Conceitos Importantes................................................................................................... 3
Populao:................................................................................................................................... 3
Amostra:.................................................................................................................................... 4
3 Distribuio de Freqncias.......................................................4
3.1
Metodologia para a Elaborao de uma Distribuio de Freqncias..................5
4 Medidas de Posio ou Tendncia Central........................................7
4.1
Mdia.................................................................................................................................. 8
4.2
Mediana.............................................................................................................................. 9
4.3
Moda................................................................................................................................... 9
4.4
Ponto Mdio..................................................................................................................... 10
5 Medidas de Disperso ou de Variabilidade......................................10
5.1
Amplitude Total.............................................................................................................. 11
5.2
Desvio-Padro.................................................................................................................. 11
5.3
Varincia........................................................................................................................... 14
6 Assimetria.........................................................................14
7 Curtose.............................................................................15
8 Separatrizes.......................................................................16
9 Referncias........................................................................20
10 Exerccio...........................................................................20
3
1
Introduo
Sobre a Estatstica
4
Populao: uma coleo completa de todos os elementos a serem estudados. Ex:
conhecer a altura de todos os habitantes do Brasil.
Amostra: uma sub-coleo de elementos extrados de uma populao. Ex: conhecer a
altura de um conjunto de habitantes do Brasil.
Quando o estudo trata de dados meteorolgicos, temos em mos uma amostra,
pois no conhecemos a populao, devido no haver o registro contnuo dos dados
desde a origem do planeta.
importante determinar se um conjunto de dados se trata de uma amostra ou
de uma populao, pois a metodologia de anlise muitas vezes diferente e, tambm,
as concluses a que devemos chegar. Quando trabalhamos com amostras, os
resultados obtidos nos clculos estatsticos so utilizados para fazer inferncias
(generalizaes) sobre a populao. Vejamos um exemplo: selecionamos os dados
horrios de temperatura do ar do vero de 2004 medidos numa cidade X, com isto
teremos uma amostra. Calculamos a mdia aritmtica deste conjunto e a partir do
resultado obtido podemos inferir que a mdia da temperatura daquela cidade no vero
(no caso todos os veres - populao) corresponde quele determinado valor.
3
Distribuio de Freqncias
Tabela
1.
Distribuio
de
Intervalos
de
Classe
Freqncias
freqncias da temperatura mdia
16.1 diria
17.8
3
do ms de dezembro
de 2004
17.8 da estao
19.5 do IAG. 8
19.5
21.2
7
21.2
22.9
8
22.9
24.6
4
24.6
26.3
1
Temperatura (C)
Dia
Temperatura (C)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
18,9
18,7
18,4
23,2
22,3
22
22,4
23
20,9
18,3
17,5
18
19,1
18,9
20
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
21,5
20,8
22,4
23,7
18,3
16,1
17,2
19,8
22,6
21,2
21,2
20,1
21,4
22,2
23,2
6
16
25,1
Freqncias
16,1
17,2
17,5
18
18,3
18,4
18,7
18,9
19,1
19,8
20
20,1
20,8
20,9
21,2
21,4
21,5
22
22,2
22,3
22,4
22,6
23
23,2
23,7
25,1
1
1
1
1
2
1
1
2
1
1
1
1
1
1
2
1
1
1
1
1
2
1
1
2
1
1
7
Passo 2: Determinar o nmero de intervalos de classe (K). O nmero de intervalos de
classe obtido pela regra de Sturges (Crespo, 1997):
K = 1+3,3 (log10 n)
(1)
imx
ximn 1
k
(2)
25,1 16,1 1
6
h 1,7
8
de uma srie. Essas medidas so chamadas de medidas de posio ou de tendncia
central, que na prtica, possibilitam determinar um valor compreendido entre o menor
e o maior valor da srie numrica, ou seja, o valor localizado no centro ou no meio de
um conjunto de dados.
H diferentes maneiras de definir o centro de um conjunto de dados, assim, h
diferentes definies de medidas de tendncia central como: mdia, mediana, moda e
ponto mdio.
4.1 Mdia
Mdia Aritmtica: a mdia aritmtica de um conjunto de dados o valor obtido
somando-se todos os elementos do conjunto e dividindo-se a soma pelo nmero total
de elementos. Observe:
x
xi
n
(3)
(4)
9
x
31
1
1
1
1
...
18,9 18,7
22,2 23,2
x 20,360 C
31
x
n
2
i
(5)
4.2 Mediana
A mediana o elemento que ocupa a posio central de uma srie de dados. Para
encontr-la os dados devem estar dispostos em ordem crescente ou decrescente. Se a
srie tiver um nmero mpar de dados o valor que estiver ocupando o meio da srie
ser a mediana. Se tiver um nmero par de dados deve-se extrair a mdia aritmtica
dos dois valores centrais, uma vez que, o valor correspondente a mediana acha-se
entre eles.
A mediana dos dados fornecidos na tabela 1 corresponde a 20,9C.
Projeto PAE Bolsista: Michelle S. Reboita
10
4.3 Moda
A moda o valor que ocorre com maior freqncia em uma srie de dados. Pode
ser identificada apenas observando-se a srie nos casos de dados no agrupados.
Quando a srie possuir dois valores com a mesma freqncia mxima, cada um deles
uma moda, e o conjunto diz-se bimodal. Se mais de dois valores ocorrerem com a
mesma freqncia mxima, o conjunto multimodal. Quando nenhum valor repetido,
o conjunto no tem moda.
A srie de dados fornecida na tabela 1 multimodal, pois cinco valores (18,3;
18,9; 21,2; 22,4 e 23,2) aparecem com a mesma freqncia mxima.
4.4 Ponto Mdio
O ponto mdio o valor que est a meio caminho entre o maior e o menor valor
da srie de dados. Para obt-lo, somamos esses valores extremos e dividimos o
resultado por 2, como na expresso a seguir (Triola, 1998):
PM
(6)
16,1 25,1
2
PM = 20,6 C
5
11
grau de homogeneidade ou heterogeneidade que existe entre os valores que compem
um conjunto.
Consideremos os seguintes conjuntos de valores das variveis x, y e z:
X: 70, 70, 70, 70, 70
Y: 68, 69, 70, 71, 72
Z: 5, 15, 50, 120, 160
Calculando a mdia aritmtica de cada um desses conjuntos, obtemos:
350
70
n
5
yi 350 70
y
n
5
zi 350 70
z
n
5
x
Vemos, ento, que os trs conjuntos apresentam a mesma mdia aritmtica: 70.
Entretanto, fcil notar que o conjunto x mais homogneo que os conjuntos y
e z, j que todos os valores so iguais a mdia.
O conjunto y, por sua vez, mais homogneo que o conjunto z, pois h menor
diversificao entre cada um de seus valores e a mdia representativa.
Chamando de disperso ou de variabilidade a maior ou menor diversificao dos
valores de uma varivel em torno de um valor de tendncia central tomado como ponto
de comparao, podemos dizer que o conjunto x apresenta disperso ou variabilidade
nula e que o conjunto y apresenta uma distribuio ou variabilidade menor que o
conjunto z.
Portanto, para qualificar os valores de uma dada varivel, ressaltando a maior ou
menor disperso ou variabilidade entre esses valores e a sua medida de posio, a
Estatstica recorre s medidas de disperso ou de variabilidade. Dessas medidas,
sero descritas a amplitude total, o desvio-padro e a varincia.
5.1 Amplitude Total
A amplitude total de um conjunto de dados a diferena entre o maior e o menor
valor deste. Para calcul-la, basta subtrair o menor valor do maior.
AT xmx xmn
(7)
12
5.2 Desvio-Padro
A amplitude total uma medida instvel, pois se deixa influenciar pelos valores
extremos, que so, na sua maioria, devidos ao acaso.
O desvio-padro e a varincia so medidas que fogem a essa falha, pois levam
em considerao a totalidade dos valores da varivel em estudo, o que faz delas
ndices de variabilidade bastante estveis e, por isso mesmo, os mais geralmente
empregados. Assim, pode-se definir o desvio-padro como uma medida da magnitude
do espalhamento ou disperso dos dados em relao mdia da srie.
A expresso para o clculo do desvio-padro amostral (s) :
s
xi x 2
(8)
n 1
xi 2
(9)
x x
13
Uma regra que auxilia na interpretao do valor de um desvio-padro a regra
emprica, aplicvel somente a conjuntos de dados aproximadamente em forma de sino,
conforme a figura 2. Essa figura mostra como a mdia e o desvio-padro esto
relacionados com a proporo dos dados que se enquadram em determinados limites.
Assim que, com uma distribuio em forma de sino, temos 95% dos seus valores a
menos de dois desvios-padro da mdia. A regra emprica costuma a ser designada
abreviadamente como a regra 68-95-99.
A regra 68-95-99 diz que:
a. cerca de 68% dos valores esto a menos de 1 desvio-padro a contar da mdia;
b. cerca de 95% dos valores esto a menos de 2 desvios-padro a contar da mdia;
c. cerca de 99,7% dos valores esto a menos de 3 desvios-padro a contar da mdia.
14
x x
n 1
(10)
j a varincia populacional :
i
(11)
xi x
n
(12)
Assimetria
15
moda e a segunda apresenta uma cauda mais alongada esquerda e ocorre quando
mdia da srie for menor que a moda.
a)
b)
c)
Figura
4. Representao
esquemtica da assimetria.
A assimetria pode ser obtida pelo coeficiente de assimetria (A) que uma
medida adimensional, observe:
A
x Mo
s
(13)
3 x Me
s
(14)
(15)
onde:
xi x
m3
n
(16)
16
A distribuio ser simtrica quando A = 0, se A for maior que zero a
assimetria positiva e se A for menor que zero a assimetria negativa.
Utilizando a expresso 15 para calcular o coeficiente de assimetria dos dados
fornecidos na tabela 1, obtemos A = -0,08 que corresponde a uma assimetria negativa,
ou seja, a distribuio possui cauda mais alongada a esquerda. Entretanto, se
fossemos apenas observar a figura 1 no conseguiramos extrair esta informao
facilmente devido a forma do histograma.
7
Curtose
b)
c)
m4
s4
(17)
m4
xi x 4
n
17
A curtose denominada mesocrtica quando C=3, neste caso, tem-se uma curva
normal. Se C>3, a curva de freqncia mais fechada que a curva normal, ou seja
possui um pico e recebe a denominao de leptocrtica. Se C<3, a curva de freqncia
mais achatada que a curva normal, sendo chamada de platicrtica.
A curtose calculada para os dados da tabela 1 foi C = 2,2, portanto C<3 e a curva
de freqncia mais achatada que a curva normal.
8
Separatrizes
18
Considere os dados:
104 5 43 123 58 63 12 71 32
com N=9 observaes. Determine o quartil inferior Q(0,25) e o superior Q(0,75) e o
primeiro tercil Q(0,333):
i
y
Pi=i/(N+1)
1
5
1/10
0,10
2
12
2/10
0,20
3
32
3/10
0,30
4
43
4/10
0,40
5
58
5/10
0,50
6
63
6/10
0,60
7
71
7/10
0,70
8
104
8/10
0,80
9
123
9/10
0,90
19
Dada a tabela:
Pi=i/(N+1)
Yi
Pi=i/(N+1)
Yi
Pi=i/(N+1)
Yi
Pi=i/(N+1)
Yi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
0,010
0,020
0,030
0,040
0,050
0,059
0,069
0,079
0,089
0,099
0,109
0,119
0,129
0,139
0,149
0,158
0,168
0,178
0,188
0,198
0,208
0,218
0,228
0,238
0,248
680
689
832
856
857
864
885
890
890
919
923
926
931
952
973
982
998
1004
1011
1040
1048
1049
1054
1066
1090
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
0,257
0,267
0,277
0,287
0,297
0,307
0,317
0,327
0,337
0,347
0,356
0,366
0,376
0,386
0,396
0,406
0,416
0,426
0,436
0,446
0,455
0,465
0,475
0,485
0,495
1099
1110
1112
1114
1137
1138
1144
1153
1160
1166
1178
1179
1191
1198
1212
1220
1225
1232
1237
1255
1258
1265
1270
1271
1297
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
0,505
0,515
0,525
0,535
0,545
0,554
0,564
0,574
0,584
0,594
0,604
0,614
0,624
0,634
0,644
0,653
0,663
0,673
0,683
0,693
0,703
0,713
0,723
0,733
0,743
1298
1300
1305
1307
1311
1320
1321
1323
1326
1330
1331
1334
1342
1344
1350
1352
1355
1360
1361
1372
1373
1377
1390
1423
1435
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
0,752
0,762
0,772
0,782
0,792
0,802
0,812
0,822
0,832
0,842
0,851
0,861
0,871
0,881
0,891
0,901
0,911
0,921
0,931
0,941
0,950
0,960
0,970
0,980
0,990
1443
1455
1496
1501
1510
1510
1535
1539
1543
1555
1582
1605
1654
1656
1694
1695
1718
1724
1746
1778
1780
1815
1945
1995
2338
20
Para se encontrar os quartis divide-se o N+1 por 4; para os decis divide-se N+1
por 10 e para os percentis divide-se o N+1 por 100.
Na tabela acima, o primeiro quartil o valor da srie ordenada cuja posio
(N+1)/4 = 101/4 = 25,25 que corresponde a um valor de chuva entre 1.090 e 1.099 mm;
a mediana, o segundo quartil, encontrada por 2(N+1)/4 = 202/4 = 50,5, ou seja, o
valor de chuva correspondente a 1.298 mm; o terceiro quartil o 75 valor da srie
ordenada, ou seja, 3(N+1)/4 = 75,75, sendo o valor de chuva entre 1.443 e 1.455 mm.
O primeiro decil corresponde a (N+1)/100 = 101/100 = 1,01, que corresponde a
um valor de chuva compreendido entre 680 e 689 mm. Por interpolao linear obtmse o valor exato do primeiro decil multiplicando-se 0,01 pela diferena entre os
valores da dcima e nona observao e somando-se esse resultado ao valor da nona
observao. Assim:
680+0,01(689-680) = 680,1 mm
Referncias
21
Dia
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Temperatura do Ar (C)
18.76
20.5
21.06
20.66
18.56
22.28
25.38
25.9
25.86
20.52
23.8
24.72
25.5
23.22
23.12
16
17.84
Dia
17
18
19
20
21
22
23
24
25
26
27
26
29
30
31
Temperatura do Ar (C)
19.64
22.74
20.02
18.86
21.02
22.34
21.26
21.32
25.42
28.94
22.04
21.92
23.06
21.36
20.94