Está en la página 1de 35

UNIVERSIDADE SÃO TOMÁS DE MOÇAMBIQUE

FACULDADE DE ECONOMIA E CONTABILIDADE


CURSO DE: GESTÃO DE EMPRESAS, GESTÃO FINANCEIRA E GESTÃO
BANCÁRIA, ECONOMIA E CONTABILIDADE/AUDITORIA

ESTATÍSTICA I E ESTATÍSTICA & PROBABILIDADE

1. Introdução
1.1. Evolução do papel da Estatística

Todas as ciências têm suas raízes na história do homem.


A Matemática, que é considerada como “a ciência que une à clareza do raciocínio a síntese da
linguagem”, originou-se do convívio social, das trocas, da contagem, com carácter prático,
utilitário, empírico.

A Estatística, ramo da Matemática Aplicada, teve origem semelhante.


Desde a Antiguidade vários povos já registavam o número de habitantes, de nascimentos, de
óbitos, faziam estimativas das riquezas individual e social, distribuíam equitativamente terras ao
povo, cobravam impostos e até realizavam inquéritos quantitativos por processos que, hoje,
chamaríamos de “estatísticas”.

A palavra Estatística provém da palavra latina, Status, que significa Estado. Foi no Estado onde
teve a sua origem, onde era utilizado para denominar levantamentos de dados, cuja finalidade era
orienta-lo no processo de tomada de decisões.

Ao longo da Idade Média e até ao século XVIII a Estatística foi puramente descritiva, onde foi
usada pelos governos nos processos de censos, com o objectivo de conhecer seus habitantes, sua
condição socioeconómica, sua cultura, religião, etc. Foi também utilizado para determinar o valor
dos impostos a cobrar os cidadãos, para determinar a estratégia de uma nova batalha em guerras
que se caracterizavam por uma sucessão de batalhas, pois era fundamental aos comandantes, saber
de quantos homens, armas, cavalos, etc, dispunham após a última batalha.

Estatística é uma ciência exacta que visa fornecer subsídios ao analista para colectar, organizar,
resumir, analisar e apresentar dados. A estatística fornece-nos as técnicas para extrair informação

1
de dados, na medida em que nos dão informação útil sobre o problema em estudo, sendo assim, é
objectivo da Estatística extrair informação dos dados para obter uma melhor compreensão das
situações que representam.

Quando se aborda um problema que envolve métodos estatísticos, estes devem ser utilizados
mesmo antes da recolha dos dados, isto é, deve-se planificar a experiência que vai permitir recolher
os dados, de modo que, posteriormente, se possa extrair o máximo de informação relevante para o
problema em estudo.

A estatística no plural (estatísticas) – como informação – indica qualquer colecção consistente de


dados, reunidos com a finalidade de fornecer informações de uma actividade qualquer ou
fenómeno (estatísticas da produção, estatísticas demográficas, estatísticas sociais, etc.).

A estatística no singular (estatística) – como ciência - refere-se a um conjunto de métodos, ou


melhor, uma metodologia tendo em vista a recolha, a classificação, a apresentação, a análise e
interpretação de dados, bem como a obtenção de conclusões válidas e tomada de decisões.

A Estatística geralmente é dividida em duas partes: estatística descritiva e estatística inferencial ou


indutiva.

A estatística descritiva tem por objectivo, a observação de fenómenos da mesma natureza, a


recolha de dados numéricos desses fenómenos, a organização e classificação dos dados recolhidos
e a sua apresentação através de gráficos e quadros, além do cálculo de parâmetros (estatísticas) que
permitem descrever resumidamente os fenómenos.

A estatística indutiva (inferencial) refere-se a um processo de generalização a partir de resultados


particulares. Consiste em obter e generalizar conclusões, ou seja, inferir propriedades para o todo
com base numa parte do universo de referência. Por se basear numa parte do universo (população),
a ela está associada uma medida da incerteza que é tratada mediante técnicas e métodos que se
fundamentam na Teoria da Probabilidade.

População é o conjunto de elementos com pelo menos uma característica comum e de interesse.
Amostra: é um subconjunto da população. A amostra é considerada representativa quando
apresenta as principais características da população de origem, por isso, é estudada com o propósito
tirar conclusões válidas sobre a essa população.

O processo de obtenção ou extracção de amostras designa-se por amostragem. De um modo geral


deve ter-se os seguintes cuidados na formação de uma amostra:

Imparcialidade – Todos os elementos devem ter a mesma oportunidade de fazer parte da amostra

2
Representatividade – Deve conter em proporção as principais características que a população
possui, qualitativa e quantitativamente.

Tamanho – A amostra deve ser suficientemente grande de modo que as suas características se
aproximem tanto quanto possível das características da população.

Parâmetros: são valores singulares que existem na população e que servem para caracterizá-la.
para definirmos um parâmetro devemos examinar toda a população. Os parâmetros, normalmente,
são representados por letras do alfabeto grego (exemplo: media - ; desvio padrão - ).

Estimativa ou estatística: é um valor aproximado do parâmetro e é calculado com o uso da


amostra. As estimativas (estatísticas) normalmente são representadas por letras do alfabeto latino.
(exemplo: media - ; desvio padrão -s).

Chama-se unidade estatística a cada um dos elementos que compõem a população. Cada estudo
estatístico é feito para atingir um certo objectivo. Dependendo do objectivo do estudo, observa-se
cada unidade estatística em relação a um atributo ou atributos determinados. Os atributos
observados podem ser qualitativos ou quantitativos

Um atributo é qualitativo, quando as modalidades não são numéricas ou não são passíveis de
medição, mas podem ser apenas constatadas; uma variável estatística é qualitativa quando se
classifica em diversas modalidades ou categorias e quantitativa quando tem uma modalidade com
intensidades diferentes, ou seja é quantitativa quando for passível de medição. De um modo geral,
os atributos observados quando são qualitativos revestem-se em várias modalidades, e quando são
quantitativos apresentam uma modalidade com diferentes intensidades ou valores.

Variáveis estatísticas - como conceito o termo “variável” é um substantivo que representa classes
de objectos, por exemplo: sexo, grau de escolaridade, renda mensal, participação política, etc.
Evidentemente existem variáveis fáceis de identificar suas modalidades como sexo, mas existem
outras mais complexas como participação política. Uma variável estatística pode ser contínua ou
discreta.

Variável estatística discreta - Quando só pode tomar valores isolados num certo intervalo finito
ou finito.
Ex. X1; X2; X3;...Xn
Exemplo: O número de crianças numa família, número de blocos utilizados na construção de uma
casa, número de viaturas na cidade de Maputo.

3
Variável estatística contínua – Quando pode tomar qualquer valor dentro de um intervalo finito
ou infinito. Ou dado um intervalo a;b com a  b, existe um valor x tal que x  a, e x  b, isto é a 
x  b. Exemplo, altura de uma pessoa, distância entre dois pontos.

ESCALAS DE MEDIDA
Conforme a natureza dos atributos, existem quatro escalas principais usadas para medi-los.
a) Escalas Nominais - são aquelas que separam os atributos em categorias diferentes onde não
existe uma ordenação em termos de hierarquia. Na utilização destas escalas é preciso que se
obedeçam as seguintes condições:
A divisão deve ser coerente de acordo com um único critério;

A divisão deve ser completa.

As categorias que participam na divisão devem ser mutuamente exclusivas.

Exemplo: sexo, nacionalidade, etc.

b) Escalas Ordinais – baseiam-se numa classificação hierárquica. Através desta escala os atributos
são colocados em determinada ordem conforme o critério adoptado. Exemplo: nível académico,
classe social, etc.

c) Escalas de intervalo – colocam as categorias a distâncias iguais. Uma propriedade importante


nesta escala é a de adoptar um zero arbitrários (não absoluto). Exemplo, temperatura em graus
célsius; tempo do calendário, etc..

d) Escalas de Razão - a escala de razão são também uma escala de intervalos adoptando um zero
absoluto, pelo que, admitem as quatro operações. Por exemplo, saldo da conta bancária, idade,
peso, etc.
Os dados necessários para a análise estatística podem ser obtidos através de um CENSO (pesquisa
de toda a população), ou através de uma AMOSTRA (subconjunto finito) da população.

Importância da Estatística
A estatística, ou método estatístico, como é denominada algumas vezes, desempenha um papel
crescente e importante em quase todas as pesquisas humanas. Lidando anteriormente apenas com
os negócios de Estado, a influência da estatística estendeu-se agora à Agricultura, Biologia,
Comércio, Química, Comunicações, Economia, Educação, Electrónica, Medicina, Física, Ciências
Políticas, Psicologia, Sociologia e outros numerosos campos da ciência e engenharia onde é usada
no auxílio de tomada de decisões, com o mínimo de erro possível e maior eficiência.

4
A definição de estatística não é única, pelo que será apresentada uma, em forma de resumo de entre
as mais comuns na literatura:

Estatística é uma parte da Matemática que fornece um conjunto de técnicas ou métodos para a
colecta, a organização, a apresentação, a análise e a interpretação de dados quantitativos,
viabilizando a utilização dos mesmos dados na tomada de decisões, com mínimo grau de incerteza.

Por exemplo, o Estado através do Ministério da Agricultura, conduz um censo para apurar o
número de indivíduos que desenvolvem a actividade agrícola, quais os produtos cultivados, em que
áreas o são, qual o resultado da colheita, o que foi vendido, que pestes afectaram a produção, etc.
Estas estatísticas informam ao Ministério para além de várias outras coisas, como é que está a
desenvolver o sector da Agricultura, em quanto irá contribuir a Agricultura para o PIB Nacional e
ajuda na prevenção de possíveis pestes nas colheitas seguintes. A análise dos dados colhidos é
muito importante para se fazer um planeamento adequado.

Fases do Método Estatístico


1º - Definição do Problema : Saber exactamente aquilo que se pretende pesquisar é o mesmo que
definir correctamente o problema.
2º - Planeamento : Como levantar informações ? Que dados deverão ser obtidos ? Qual
levantamento a ser utilizado ? Censitário ? Por amostragem ? E o Cronograma de actividades ? Os
custos envolvidos ? etc.
3º - Colecta de dados : Fase operacional. É o registo sistemático de dados, com um objetivo
determinado.
Dados primários: quando são publicados pela própria pessoa ou organização que os haja recolhido.
Ex: tabelas do censo demográfico do INE.
Dados secundários: quando são publicados por outra organização. Ex: quando determinado jornal
publica estatísticas referentes ao censo demográfico extraídas do INE.
OBS: É mais seguro trabalhar com fontes primárias. O uso da fonte secundária traz o grande risco
de erros de transcrição.
Colecta Directa: quando é obtida directamente da fonte. Ex: Empresa que realiza uma pesquisa
para saber a preferência dos consumidores pela sua marca.
A colecta directa pode ser : contínua (registos de nascimento, óbitos, casamentos, etc.),
periódica (recenseamento demográfico, censo industrial) e ocasional (registo de casos de dengue).
Colecta Indirecta: É feita por deduções a partir dos elementos conseguidos pela colecta directa, por
analogia, por avaliação, indícios ou proporcionalização.
4º - Apuramento dos dados : Resumo dos dados através de sua contagem e agrupamento. É a
condensação e tabulação de dados.
5º - Apresentação dos dados : Há duas formas de apresentação, que não se excluem mutuamente. A
apresentação tabular, ou seja é uma apresentação numérica dos dados em linhas e colunas
distribuídas de modo ordenado, segundo regras práticas fixadas pelo Conselho Nacional de

5
Estatística. A apresentação gráfica dos dados numéricos constitui uma apresentação geométrica
permitindo uma visão rápida e clara do fenómeno.
6º - Análise e interpretação dos dados : A última fase do trabalho estatístico é a mais importante e
delicada. Está ligada essencialmente ao cálculo de medidas e coeficientes, cuja finalidade principal
é descrever o fenómeno (estatística descritiva). Na estatística indutiva a interpretação dos dados se
fundamentam na teoria da probabilidade.

Estatística Descritiva e Inferencial

Estatística Descritiva é a parte da Estatística que se preocupa com a observação de fenômenos da


mesma natureza, a colecta de dados numéricos referentes a esses fenómenos, a sua organização,
classificação e a sua apresentação através de gráficos e tabelas, sem tirar quaisquer conclusões
sobre a sua população.

Estatística Inferencial ou indutiva consiste num processo de generalização sobre uma


determinada população, a partir de resultados observados a partir de uma parte representativa dessa
população.
Esse processo está associado a uma margem de incerteza. A existência dessa incerteza deve-se ao
fato de que a conclusão que se pretende obter para o conjunto de todos os indivíduos analisados
quanto a determinadas características comuns, baseia-se em uma parcela do total das observações.

Conceitos fundamentais em Estatística

Serão apresentadas as definições de alguns conceitos importantes para o processo de aprendizado


da Estatística

Fenómeno estatístico: é qualquer evento que se pretenda analisar, cujo estudo seja possível a
aplicação do método estatístico.

População (N) é o conjunto, finito ou infinito, de todos os elementos, indivíduos ou objectos que
apresentam em comum pelo menos uma característica definida, cujo comportamento interessa
analisar. A população é estudada em termos de observações de características nos indivíduos
(animados ou inanimados) que sejam relevantes para o estudo, e não em termos de pessoas ou
objecto em si. Por isso, em qualquer estudo estatístico é importante definir bem as características
de interesses dos elementos de uma população para que seja delimitado os elementos que
pertencem à população e os que não pertencem.
Exemplo de população: Estudar o nº de filhos tidos, o tipo de moradia, condições de trabalho,
tempo de trabalho, estado civil, etc., dos docentes da universidade São Tomás.
População: Todos docentes (de tempo inteiro ou parcial) de uma Universidade.

6
A população (Universo) pode ser dividida em finita e infinita.
População Finita: apresenta um número limitado de observações, que é passível de contagem.
Exemplo, Idade dos funcionários do banco XYZ, População: Todos funcionários do banco XYZ.
População Infinita: apresenta um número ilimitado de observações que é impossível de contar e
geralmente esta associada a processos. Exemplo, satisfação dos clientes do supermercado ABC,
população: Todos clientes do supermercado ABC.

Censo: é uma colecta exaustiva de dados relativos a todos os elementos de uma população.

Amostra (n): é um subconjunto da população e deve ser finita. A amostra deve ser seleccionada
seguindo certas regras e deve ser representativa, de modo que ela represente todas as características
da população como se fosse uma fotografia desta.
Exemplo: estudo da satisfação dos estudantes da USTM em relação a qualidade das aulas.
População: todos estudantes da USTM
Amostra: estudantes do 2º ano do curso de Gestão

Dado estatístico: é qualquer característica que possa ser observada ou medida de alguma maneira,
aplicando os métodos estatísticos. As matérias-primas da estatística são os dados observáveis, isto
é, o que é recolhido e preparado para produzir algum resultado.

Variável é uma propriedade dos elementos da população que se pretende conhecer. Pode assumir
qualquer modalidade1 de um conjunto de elementos, o qual denota-se por domínio da variável ou
categoria. Os símbolos utilizados para representar as variáveis são as letras maiúsculas do alfabeto,
tais como X, Y, Z,

As variáveis podem ser classificadas em quantitativas e qualitativas (atributo)

Variáveis quantitativas são as que têm por modalidades quantidades numéricas com as quais
podemos fazer operações aritméticas, sendo classificadas em discretas e contínuas

Variáveis quantitativas discretas são as que podem assumir somente valores inteiros, inclusive
zero, num conjunto de valores, isto é, não admitem uma modalidade intermediária entre duas
quaisquer de suas modalidades.
Exemplo: o número de estudantes numa sala de aulas.

Variáveis quantitativas contínuas são aquelas que podem assumir um valor dentro de um intervalo
de valores. É gerada pelo processo de medição.
Exemplo: a temperatura numa cidade.

1
Modalidade é toda manifestação possível de uma variável, isto é, várias hipóteses de respostas, ou
diferentes variações ou valores que uma variável pode assumir.

7
Variáveis qualitativas ou atributos são as observações (dados estatísticos) que apresentam um
carácter qualitativo, não podendo ser medidas em termos numéricos

Os atributos podem ser Dicotómicos ou Múltiplos (Policotómicos)

Atributos Dicotómicos são aqueles que admitem uma subdivisão em apenas duas classes.
Exemplo: quando classificamos os estudantes quanto ao sexo, só podemos ter duas respostas
possíveis: masculino e feminino.

Atributos Múltiplos são aqueles que admitem uma subdivisão em mais de duas classes
Exemplo: quando classificamos os estudantes quanto ao estado civil, podemos ter mais de duas
respostas possíveis: solteiro; casado; divorciado e viúvo

Escalas de medidas de dados estatísticos

Escalas Nominais – são aquelas que separam os atributos em categorias diferentes não forçando
uma ordenação em termo de hierarquia.
Exemplo: Profissão (1. Contabilista, 2. Informático, 3.Camponês, etc.)

Escalas Ordinais – baseiam-se numa classificação hierárquica. Através desta escala os atributos são
colocados em determinada ordem conforme um critério escolhido.
Exemplo: Cargo numa empresa (1.Presidente, 2.Vice-presidente, 3.administrador, etc.)

Escalas de intervalo – É aquela em que se conhece a distância (o intervalo) entre as diferentes


categorias. Os números conferidos as diferentes categorias das variáveis quantitativas possuem
todas as características das variáveis nominais ou ordinais, com a característica adicional de possuir
uma unidade constante de medição entre as diferentes categorias que estão igualmente espaçadas.
Exemplo: A idade e o número de partos [paridade] são variáveis com intervalos constantes de
mesmo modo que a duração do uso de anticoncepcionais e a data de aceitação de um método
anticoncepcional.

Escalas de Razão - são um caso especial das escalas ordinais, as quais são também nominais
hierárquicas. Assim a escala de razão é também uma escala de intervalo dotada de zero absoluto.
Tem essa designação porque a razão dos números da escala é igual a razão que descreve o grau em
que duas pessoas ou objetos possuem um atributo
Exemplo: uma pessoa com peso de100 Kg e uma outra com 50 Kg a razão é 2 : 1

Distribuição de Frequências
Introdução

8
Ao colectar os dados referentes ao fenómeno objecto de estudo, normalmente o analista se defronta
com valores que se repetem algumas ou muitas vezes, sugerindo sua apresentação através de
tabelas, onde somente apareçam valores distintos uns aos outros. Essa providência favorece
evidentemente uma análise e interpretação mais rápida da natureza e comportamento do fenómeno
observado.

Um dos objectivos da Estatística Descritiva quando se trabalha com grandes quantidades de dados
é obter uma significativa redução dos mesmos dados, para facilitar a sua análise.

Neste caso, a Distribuição de Frequência é uma ferramenta estatística apropriada para a


apresentação de grandes massas de dados, numa forma que torna mais clara a tendência central e a
dispersão dos valores ao longo da escala de medição, bem como a frequência relativa de ocorrência
dos diferentes valores.

Alguns conceitos importantes

Para que se possa organizar os dados em frequência é necessário que eles estejam na sua forma
bruta.
Dados brutos – são os dados originais, que ainda não se encontram prontos para análise, por não
estarem numericamente organizados. (Também são conhecidos como Tabela Primitiva).
Exemplo 1: Considere o conjunto dos pesos (em kg) dos 20 estudantes, tirado de uma lista
alfabética da base de dados do Registo Académico

45, 41, 42, 41, 42 43, 44, 41, 50, 46, 50, 46, 60, 54, 52, 58, 57, 58, 60, 51

Depois de obter os dados brutos no campo, é importante organiza-los em rol.


O Rol é uma lista em que os valores numéricos brutos estão dispostos em uma determinada ordem,
crescente ou decrescente.
Exemplo 2: Apresentando em ordem crescente o conjunto dos pesos dos 20 estudantes do exemplo
anterior temos:
41, 41, 41, 42, 42 43, 44, 45, 46, 46, 50, 50, 51, 52, 54, 57, 58, 58, 60, 60

Existem 4 tipos de frequências pela qual podemos apresentar os dados


Frequência simples ou absoluta ( ): é o valor que representa o número de observações em uma
determinada classe ou em um determinado atributo de uma variável qualitativa. A soma das
frequências simples é igual ao número total dos dados da distribuição.
Frequência relativa ( ): é o valor da razão (proporção) entre a frequência absoluta em uma
determinada classe e a frequência total da distribuição. A soma das frequências relativas é igual a 1
(100%).

9
Frequência simples acumulada de uma classe ( ): é o total das frequências de todos os valores
inferiores ao limite superior do intervalo de uma determinada classe.
Frequência relativa acumulada de uma classe ( ): é a frequência acumulada da classe, dividida
pela frequência total da distribuição.

Distribuição de frequências de dados não agrupados em classe


É a simples condensação dos dados conforme as repetições de seus valores. Este tipo de
apresentação é utilizado para representar uma variável discreta ou contínua. Para uma tabela de
tamanho razoável, esta distribuição de frequência é inconveniente, já que exige muito espaço.
Na primeira coluna, encabeçado pelo índice i, aparecem os números correspondentes à ordem dos
valores da variável. Na segunda coluna, encabeçada por xi, são anotados em ordem crescente
apenas os valores distintos da variável.
A terceira coluna é uma coluna auxiliar (opcional), utilizada para que se possa processar a
contagem dos valores repetidos, sem grande esforço.
A última coluna, encabeçada por fi, apresenta as frequências, que são os resultados numéricos
provenientes da contagem. A soma de frequências é sempre igual ao número total de valores

observados:
k: é o extremo superior do intervalo de valores do índice i.
fi,:é o número de observações de um valor
n: é o número total de valores observados.
Exemplo 3: Considerando o exemplo anterior, sobre o peso dos 20 estudantes, a tabela de
distribuição de frequência será:

Frequências
1 41 3
2 42 2
3 43 1
4 44 1
Tabela1. Exemplo 5 45 1 da distribuição de frequência
de uma variável não 6 46 2 agrupada em classe
7 50 2
Distribuição de 8 51 1 frequências de dados
agrupados em classe 9 52 1
Quando a variável 10 54 1 objecto do estudo é contínua,
é sempre 11 57 1 conveniente agrupar os
valores observados 12 58 2 em classes. Se por outro lado,
13 60 2
Soma --------- 20 10
a variável é discreta e o número de valores representativos dessa variável é muito grande,
recomenda-se o agrupamento dos dados em classes.
Neste último caso, o procedimento visa evitar certos inconvenientes, como:
Grande extensão da tabela, dificultando, tanto quanto os dados brutos, a leitura e a interpretação
dos resultados apurados;
Aparecimento de diversos valores da variável com frequência nula;
Dificuldade de visualização do comportamento do fenómeno como um todo.
Usando os dados do exemplo 1, abaixo a distribuição dos mesmos em classes
Classes
Frequências
1 41 |------ 45 7
2 45 |------ 49 3
3 49 |------ 53 4
4 53 |------ 57 1
5 57 |------ 61 5
Total 20

Elementos de uma distribuição de frequência com classe


Classe: Intervalos nos quais os valores da variável analisada são agrupados. Cada classe é
simbolizada por (i) e o número total de classe é simbolizado por (k).
Ex: na tabela anterior k=5 e 49 |------- 53 é a 3ª classe, onde i=3.

Limites da classe: são extremos de cada classe. O menor número é o limite inferior de classe
e o maior número, o limite superior de classe .
Deste modo, o intervalo de classe quanto a sua natureza pode ser aberto, fechado ou misto.

Intervalos abertos – os limites da classe (inferior e superior) não pertencem a ela. Exemplo de
notação: 49 --- 53

Intervalos fechados – os limites de classe (superior e inferior) pertencem à classe em questão.


Exemplo de notação: 49 |-----|53

Intervalos mistos – um dos limites pertence à classe, e o outro, não. Exemplo de notação: 49 |-----
53 ou 49 ----|53.

Cálculo de número total de classes


Para montar uma distribuição de frequência é necessário que primeiro se determine o número de
classes (k) em que os dados serão agrupados.

11
Não existe regra fixa para se determinar o número de classes (k). Contudo, neste material são
apresentadas algumas:
Regra 1: Por questões de ordem prática e estética sugere-se utilizar de 5 a 20 classes;
Regra 2: o uso da fórmula de Sturges, que nos dá o número de classe em função do número de
valores da variável: onde n é o número de itens que compõe a amostra

Regra 3: Se onde n é o número total de observações


Nota: De um modo geral, na resolução dos exercícios iremos usar a regra 2 e/ou regra 3, para
determinar o número de classe em função do número de observações (n).
Exemplo 4: considerando os dados do exemplo 1 podemos obter o número total de classe:
Temos que n=20 então, pela regra 2, K=1+3.3*log20= 1+3.3*1.3= 5.29 5

Amplitude Total ou “Range” (At) é a diferença entre o maior e o menor número do rol. A
amplitude total pode ser denotada por:

Exemplo 5: o maior peso dos 20 estudantes é de 60 kg e o menor peso é de 41 kg, a amplitude total
será de 19 kg porque ( 60 kg - 41 kg= 19 kg).

Amplitude do intervalo de classe (c): é o valor que representa a quantidade de números que se
encontram entre o limite inferior e limite superior de uma classe, e é constante em todas as classes
de uma mesma distribuição de frequências.

A fórmula para o cálculo da c é:


Onde: c – é a amplitude de classe; At – é a amplitude total de classe e k – é o nº total de classes

Exemplo 6: o c para o exemplo em estudo é:

Ponto Médio de classe (PM): é o valor que se encontra no meio dos limites de cada classe

, onde Lsup= Limite superior da classe; Linf= Limite inferior da classe;


Assim, o limite inferior da primeira classe será:

, onde Xmin é o menor valor de todas as observações da amostra.


E os demais limites são obtidos somando-se c ao limite anterior.
Exemplo 7: Elaboração de uma distribuição de frequências com classes.
Os dados da tabela abaixo foram obtidos em uma pesquisa de mercado e correspondem ao tempo
(T) em minutos que consumidores (C) de uma determinada operadora de telefonia móvel
utilizariam em um mês. Elabore uma distribuição de frequências com classe.

12
C T C T C T C T C T
1 104 9 122 17 129 25 144 33 183
2 108 10 142 18 138 26 151 34 138
3 138 11 106 19 122 27 146 35 115
4 101 12 201 20 161 28 82 36 179
5 163 13 169 21 167 29 137 37 142
6 141 14 120 22 189 30 132 38 111
7 90 15 210 23 132 31 172 39 140
8 154 16 98 24 127 32 87 40 136

Resolução: Passos para elaboração de uma distribuição de frequências com classes.

Primeiro passo: Organizar os dados brutos em um ROL crescente:


82 111 132 142 167
87 115 136 142 169
90 120 137 144 172
98 122 138 146 179
101 122 138 151 183
104 127 138 154 189
106 129 140 161 201
108 132 141 163 210

Segundo passo: Calcular a amplitude total At:


; então

Terceiro passo: calcular o número total de classe (k)


O número de observações da amostra (n) é 40, então
ou pelo Sturges

Quarto passo: conhecido o número de classe, calcular a amplitude de cada classe:

Quinto passo: calcular o limite inferior da primeira classe:

13
Sexto passo: Determinar os intervalos de classes:
69.2|---94.8
94.8|---120.4
120.4|---146.0
146.0|---171.6
171.6|---197.2
197.2|---222.8

Apresentar a tabela com as classes e respectivas frequências


I Classe (consumidores) (proporção)
1 69.2|---94.8 3 3 0.075 0.075
2 94.8|---120.4 8 11 0.200 0.275

3 120.4|---146.0 16 27 0.400 0.675

4 146.0|---171.6 7 34 0.175 0.850

5 171.6|---197.2 4 38 0.100 0.950

6 197.2|---222.8 2 40 0.050 1.000

Total ------- 40 1.000

Medidas de Posição
Medidas de Tendência Central
Medidas de variabilidade

Medidas de Posição

14
As medidas de posição, mais concretamente as de Tendência Central ou promédias são assim
denominados pelo facto de haver uma tendência de os dados observados se agruparem em torno
dos valores centrais.

Dentro do grupo das medidas de tendência central temos a média, a moda, a mediana, que são
as 3 medidas de tendência central mais usadas para resumir o conjunto de valores
representativos do fenômeno que se deseja estudar e serão as abordadas ao longo da ficha.

3.1. Média
É a medida de tendência central mais usada para descrever resumidamente uma
distribuição de frequências. Esta medida dá-nos a informação de qual é o valor que
representa o ponto de equilíbrio de determinado conjunto de dados.
Apesar da existência de vários tipos de média como a aritmética, harmônica,
geométrica, quadrática e outros, nesta ficha iremos abordar somente como se calcula
e interpreta o valor da média aritmética.

3.1.1. Média Aritmética


Simbolo: (lê-se x barra)
A média aritmética de um conjunto de dados somente pode ser calculada para
variáveis quantitativas (tanto discretas quanto contínuas) e pode ser simples ou
ponderada.

a. Média aritmética simples


A média aritmética simples é aquela em que todos valores do conjunto de dados
apresentam igual peso.
O seu cálculo é igual ao quociente entre a soma dos valores do conjunto e o
número total de valores, isto é, é igual a soma de cada um dos valores pertencentes
ao conjunto de números, pelo número total de observações. Genericamente,
podemos escrever:

(1)

Onde xi: valor genérico da observação;


n : número total de observações;

15
Exemplo 1: Num escritório de advogacia há cinco advogados estagiários auferindo
um salário de USD 820, 810, 790, 800 e 780 cada um deles.
O salário médio mensal dos advogados estagiários, de acordo com a definição, será

de:

Inerpretação: o salário médio dos advogados estágiários do escritório de


advogados é de USD 800, ou, em média o salário mensal dos advogados estágiáros
é de USD 800.

Nota: A média aritmética simples será calculada sempre que os dados aparecerem
na forma de dados brutos.

b. Média aritmética ponderada


A média aritmética é considerada ponderada quando os valores do conjunto de
dados apresentarem pesos diferentes. Para o seu cálculo faz-se o quociente entre o
produto de cada valor do conjunto de dados pelo seu peso e a soma dos pesos.

onde wi representa o peso (2)

Exemplo 2: Nos cursos lecionados na Universidade XYZ a direcção académica


decretou que por semestre deviam ser realizados dois testes e dois mini-testes, cada
um deles com o seguinte peso, 0.40 para cada teste e 0.10 para cada mini-teste. Um
estudante que durante o semestre em determinada cadeira tiver tido 15 e 13 nos
testes e 17 e 15 nos mini-testes, a sua média de frequência para o exame será:

Interpretação: a média de frequência para o exame do estudante em causa será de


14 valores.

16
c. Média aritmética para dados agrupados em uma distribuição de frequência de
valores simples
Quando os dados estiverem agrupados numa distribuição de frequência de valores
simples, a média aritmética será o quociente entre o produto de cada valor do
conjunto de dados pela sua frequência e o número total de observações.

onde (3)

Exemplo 3: usando o enunciado do exercício 3 da aula prática 2, sobre o número de


irmãs de alguns estudantes do curso de Contabilidade e Auditoria da USTM,
podemos calcular a média do número de irmãs por estudantes com a fórmula 3,
visto que os dados estão apresentados por distribuição de frequências de valores
simples

Nº Nº de
de estudantes
irmãs

1 0 3 0
2 1 9 9
3 2 9 18
4 3 3 9
Total 24 36

Interpretação: os estudantes entrevistados do curso de Contabilidade e Auditoria


da USTM têm em média duas irmãs OU o número médio de irmãs dos estudantes
entrevistados do curso de Contabilidade e Auditoria da USTM é de duas irmãs.

d. Média aritmética para dados agrupados em uma distribuição de frequência por


classes
Quando os dados estiverem agrupados numa distribuição de frequência por classe,
a média aritmética será o quociente entre o produto do ponto médio de cada classe
pela sua frequência e o número total de observações.

17
A fórmula será igual a fórmula 3 apresentada:

Exemplo 4: considere o enunciado do exemplo 7 da ficha teórica 2, sobre o tempo


(T) em minutos que os consumidores (C) de determinada operadora utilizaraiam em
um mês.

Interpretação: O tempo médio que os consumidores (os entrevistados) de uma


determinada operadora de telefonia móvel usariam em um mês é de 137.68
minutos.

I Classe PM de xi (C)
1 69.2|---94.8 82 3 246
2 94.8|---120.4 107.6 8 860.8
3 120.4|---146.0 133.2 16 2131.2
4 146.0|---171.6 158.8 7 1111.6
5 171.6|---197.2 184.4 4 737.6
6 197.2|---222.8 210 2 420
Total ------- 40 5507.2

Propriedades da Média Aritmética


1. A soma algébrica dos desvios de um conjunto de números tomados em

relação à média aritmética é zero:

2. Somando-se (ou subtraindo-se) um valor constante e arbitrário (k) a cada um


dos elementos de um conjunto de números, a média aritmética fica somada
(ou subtraída) por essa constante. x

3. Multiplicando-se (ou dividindo-se) cada elemento de um conjunto de


números por um valor constante e arbitrário (k), a média aritmética fica
multiplicada (ou dividida) por essa constante: ou

18
Características da Média Aritmética
1. É muito influenciada pelos valores extremos da distribuição
2. Localiza-se em geral na classe de maior frequência
3. É única para um conjunto de dados

3.2. Moda
Símbolo: Mo ou
A Moda é uma medida de tendência central que nos dá a informação acerca do
valor que ocorre com maior frequência em um conjunto de dados. Quanto a
classificação da moda, um conjunto de dados pode apresentar uma distribuição:
Unimodal ou modal – quando possui um único valor de maior frequência
Exemplo 5: no seguinte conjunto de dados 3, 7, 8, 8, 11 possuimos somente um
valor que com maior frquência, que é o valor 8. Estamos perante uma distribuição
modal com Mo=8

Bimodal – quando possui dois valores com o maior e igual número de frequência
Exemplo 6: no seguinte conjunto de dados 3, 3, 7, 8, 8, 11 possuimos 2 valores com
igual valor de frequência que são o 3 e 8. Estamos perante uma distribuição bimodal
com Mo= 3 e 8

Amodal – quando não ocorre um valor de maior frequência


Exemplo 7: no seguinte conjunto de dados 3, 7, 8, 10, 11 não possuimos nenhum
valor de maior frequência que os outros, por isso, estamos perante uma distribuição
amodal.

A moda pode ser verificada em variáveis quantitativas (contínuas e discretas) e


variáveis qualitativas ordinais.

e. Cálculo da moda de valores não agrupados


Para os dados não agrupados em classe a determinação da moda é feita observando
qual é o valor que aparece mais vezes.
Vide os exemplos 5, 6 e 7

f. Cálculo da moda de dados agrupados em distribuição de frequências por valores


simples

19
Para este tipo de distribuição, a identificação da moda e feita pela observação do
elemento que apresenta maior frequência.
Exemplo 8: tomando os dados do exemplo 3, verificamos que estamos perante um
conjunto de dados que possue dois valores com igual e o maior número de
frequências, isto é, fi=9 então Mo=1 e 2. Estamos perante uma distribuição bimodal.
Interpretação: verifica-se que há maior frequência de estudantes com 1 e 2 irmãs.

g. Cálculo da moda de dados agrupados em distribuição de frequências por classes

Onde:
lmo – limite inferior da classe modal (é a classe que apresenta a maior frequência)
fpost – frequência absoluta simples posterior à classe modal
fant - frequência absoluta simples anterior à classe modal
c – amplitude do intervalo de classe

exemplo 9: usando os dados do exemplo 4, calcule a moda.


a maior frequência é igual a 16 e encontra-se na 3ª classe,logo, a classe modal é
120.4|---146.0. assim:
lmo= 120.4
fpost= 7
fant=8
c=25.6

Interpretação: o tempo em minutos mais observado no conjunto de dados é de


132,35minutos

3.3. Mediana
Símbolo: Md ou

A Mediana é o valor real que separa os dados em ROL em duas partes , deixando à
sua esquerda o mesmo número de elementos que à sua direita, isto é, é o valor que
divide a distribuição de dados de tal modo que 50% dos dados sejam superiores à
mediana e 50% sejam inferiores. Por isso é também chamada de separatriz.

20
A moda pode ser verificada em variáveis quantitativas (contínuas e discretas) e
variáveis qualitativas ordinais.

h. Cálculo da Mediana de valores não agrupados


Para o cálculo da Mediana de valores não agrupados, é essencial que os mesmos
estejam organizados em ROL.

O Nº de observações é impar
Quando o número total de observaçoes é ímpar, o valor mediano é o que se

encontra na posição encontrada por

Exemplo 10: considerando os dados em Rol, do exemplo 1, sobre o salário dos


advogados estagiários ndo escritório de advogados: 780, 790, 800, 810 e 820

verificamos que o valor mediano é o que se encontra na

posição, Md=800
Interpretação: 50% dos advogados estagiários do escritório de advogados auferem
um salário até 800 usd e os outros 50% auferem um salário acima de 800usd
i.
O Nº de observações é par
Para este caso são encontradas duas posições no rol de dados, atravês das

expressões: e . Após encontrada essas posições, a Mediana é

convencionada como sendo a média aritmética dos valores que ocupam essas
posições centrais.
Exemplo 11: Suponha que foi contratado mais um advogado estagiário para o
escritório de advogados, aumentando para 6 os advogados estagiários e que este
último aufere um salário de 700usd. Determine a mediana do conjunto de salários
dos estágiários.

700, 780, 790, 800, 810 e 820

Na 3ª e 4ª posição temos os valores 790 e 800. sendo assim

Interpretação: 50% dos advogados estagiários do referido escritório auferem um


salário igual ou inferior a 795usd.

21
j. Cálculo da Mediana de dados agrupados em uma distribuição de frequências por
valores simples

Para dados distribuidos em frequência por valores simples, primeiro deve-se


verificar se o valor da frequência total (nº total de valores observados) é impar ou
par, e dependendo do caso, aplicamos as fórmulas apresentadas para o cálculo de
Md de número ímpar e par
Exemplo 11: usando os dados do exemplo 3, verificamos que o número total de

observações é o 24, que é um número par. Entao temos: e

Para localizar os valores correspondetes a essas posições, construímos a tabela de


frequências acumuladas e facilmente conseguimos verificar que na 12ª posição
temos o valor 1 e na 13ª posição temos o valor 3, então

Interpretação: 50% dos estudantes de Contabilidade e Auditoria possuem mais que


duas irmãs e outros 50% possuem duas ou menos irmãs.

Nº de Nº de
irmãs estudantes

1 0 3 3
2 1 9 12
3 2 9 21
4 3 3 24
Total 24 36

k. Cálculo da Mediana de dados agrupados em uma distribuição de frequências por


classes

Procedimentos para o cálculo da Md


1. Calcular a posição do valor da Mediana:

22
2. Identificar a classe que contém o valor da mediana atravês da coluna
de frequência acumulada

3. Aplicar a fórmula

Onde:
– limite inferior da classe mediana
n – número total de observações
– frequência acumulada da classe anterior à classe mediana
– frequência absoluta simples da classe mediana
c – amplitude de itnervalo de classe

Usando os dados do exemplo 4, calcular o valor da Mediana

I Classe (C)
1 69.2|---94.8 3 3
2 94.8|---120.4 8 11
3 120.4|---146.0 16 27
4 146.0|---171.6 7 34
5 171.6|---197.2 4 38
6 197.2|---222.8 2 40
Total ------- 40

O vigésimo elemento está situado na 3ª classe (a 3ª classe engloba do 12º elemento


ao 27º elemento), por isso, a 3ª classe será a classe mediana. Então:
Dados:
=120.4
n=40
=11
=16
c=25.6

23
Interpretação: 50% dos inqueridos falariam acima de 134.8 minutos por mês e os
restantes 50% falariam até 134.8 minutos

Md=Q2=P50
Q1=P25
Q3=P75

Relação empírica entre Média, Moda e Mediana


Distribuição Relação
Simétrica
Assimétrica positiva (à direita)
Assimétrica negativa (à esquerda)

3.4. Quartis, Decis e Percentis (Centis)


Para além das medidas de tendência central já apresentadas, há outras que
individualmente não são medidas de tendência central, mas estão ligadas à
mediana, relativamente a sua característica como separatriz de determinado
conjunto de dados organizado em rol. Estamos a falar dos Quartis, Decis e
Percentis.

3.4.1. Quartis ( )
Os quartis dividem a distribuição de um conjunto de dados em 4 partes iguais,
sendo que existem 3 quartis:

O divide os dados em duas partes, sendo que 25% dos valores encontram-se
abaixo dele e 75% acima dele.
O divide os dados em duas partes iguais, pois coincide com a Mediana. Neste
caso, 50% dos valores encontram-se abaixo dele e 50% acima dele.
O divide os dados em duas partes, sendo que 75% dos valores encontram-se
abaixo dele e 25% acima dele.

Procedimentos para o cálculo dos Quartis


1. Calcular a posição do quartil: , onde i=1, 2 e 3
2. Identificar a classe que contém o valor do quartil calculado no ponto anterior,
através da coluna de frequência acumulada – classe
3. Calcular o valor do quartil com a fórmula:

24
(1)

Onde:
– Limite inferior da classe quartílica
n – Número total de observações
– Frequência acumulada da classe anterior à classe quartílica
– Frequência absoluta simples da classe quartílica
c – amplitude de intervalo de classe quartílica

Exemplo 1: com os dados da tabela abaixo, sobre o tempo em minutos que


consumidores entrevistados de determinada operadora de telefonia móvel iriam
falar durante um mês, calcule 1º quartil ( )

i Classe (C)
1 69.2|---94.8 3 3
2 94.8|---120.4 8 11
3 120.4|---146.0 16 27
4 146.0|---171.6 7 34
5 171.6|---197.2 4 38
6 197.2|---222.8 2 40
Total ------- 40

1.

2. A Classe Q1=10 é 69.2|---94.8

3.

Interpretação: 25% dos entrevistados iriam falar menos que 154.53 minutos
durante um mês, ou, 75% dos entrevistados iriam falar mais que 154.53 minutos
durante um mês.

25
Diagrama de extremos e quartis (Boxplot)

É um tipo de representação gráfica, em que se realçam algumas características da


amostra. O conjunto dos valores da amostra compreendidos entre o 1º e o 3º quartis, que
vamos representar por Q1 e Q3 é representado por um rectângulo (caixa) com a mediana
indicada por uma barra. A largura do rectângulo não dá qualquer informação, pelo que
pode ser qualquer. Consideram-se seguidamente duas linhas que unem os meios dos
lados do rectângulo com os extremos da amostra. Para obter esta representação, começa
por se recolher da amostra, informação sobre 5 números, que são: os 2 extremos (mínimo
e máximo), a mediana e o 1º e 3º quartis. A representação do diagrama de extremos e
quartis tem o seguinte aspecto:

O extremo inferior é o mínimo da amostra, enquanto que o extremo superior é o máximo


da amostra.
Qual a importância deste tipo de representação?
Realça informação importante sobre os dados, como sejam o centro da amostra
(mediana), variabilidade, simetria. 
Repare-se que da forma como o diagrama se constrói, se pode retirar imediatamente a
seguinte informação:

Como é que se pode reconhecer a simetria ou o


enviesamento dos dados, a partir do Diagrama de extremos e quartis?
Existem fundamentalmente 3 características, que nos dão ideia da simetria ou
enviesamento e da sua maior ou menor concentração:
- distância entre a linha indicadora da mediana e os lados do rectângulo
- comprimento das linhas que saem dos lados dos rectângulos
- comprimento da caixa.
Apresentamos seguidamente 3 exemplos de diagramas de extremos e quartis,
correspondentes a tipos diferentes de distribuição de dados.

A caixa de bigodes é um tipo de representação gráfica, em que se realçam algumas


características da amostra, nomeadamente a existência de "outliers" (valores que se
distinguem dos restantes, dando a  ideia de não pertencerem ao mesmo conjunto de
dados). O conjunto dos valores da amostra compreendidos entre o 1º e o 3º quartis, Q1 e

26
Q3 é representado por um rectângulo (caixa) com a mediana indicada por uma barra.
Considera-se seguidamente duas linhas que unem os lados dos rectângulos com os
chamados valores adjacentes, que definiremos a seguir.

3.4.2. Decis ( )
Os decis dividem a distribuição de um conjunto de dados em 10 partes iguais,
sendo que existem 9 decis.

Procedimentos para o cálculo dos Decis

1. Calcular a posição do decil: , onde i=1, 2, 3, …, 9


2. Identificar a classe que contém o valor do decil calculado no ponto anterior,
através da coluna de frequência acumulada – classe
3. Calcular o valor do decil com a fórmula:

(2)

Onde:
– Limite inferior da classe do decil
n – Número total de observações
– Frequência acumulada da classe anterior à classe do decil
– Frequência absoluta simples da classe do decil
c – amplitude de intervalo da classe do decil

Exemplo 2: usando os dados do exemplo 1, calcule o decil 7 ( )

1.

2. A Classe D7=28 é 120.4|---146.0

27
3.

Interpretação: 70% dos entrevistados iriam falar menos que 147.6 minutos
durante um mês, ou, 30% dos entrevistados iriam falar mais que 147.6 minutos
durante um mês.

3.4.3. Percentis ( )
Os percentis dividem a distribuição de um conjunto de dados em 100 partes
iguais, sendo que existem 99 centis:

Procedimentos para o cálculo dos Percentis

1. Calcular a posição do percentil: , onde i=1, 2, 3, …, 98,99


2. Identificar a classe que contém o valor do percentil calculado no ponto
anterior, através da coluna de frequência acumulada – classe
3. Calcular o valor do percentill com a fórmula:

(3)

Onde:
– Limite inferior da classe do percentil
n – Número total de observações
– Frequência acumulada da classe anterior à classe do percentil
– Frequência absoluta simples da classe do percentil
c – amplitude de intervalo da classe percentil

Exemplo 3: usando os dados do exemplo 1, calcule o percentil 30 ( )

1.

2. A Classe P30=12 é 94.8|---120.4

3.

28
Interpretação: 30% dos entrevistados iriam falar menos que 123.6 minutos
durante um mês, ou, 70% dos entrevistados iriam falar mais que 123.6 minutos
durante um mês.

Após o cálculo dos quartis, decis e percentis, podemos verificar que:

Md=Q2=P50
Q1=P25
Q3=P75

Medidas de Dispersão ou variabilidade

4. Introdução

Como foi visto anteriormente, podemos sintetizar um conjunto de observações em


alguns valores representativos como média, mediana, moda e quartis. No entanto, é
importante realçar que a análise completa dos dados não requer apenas sua
apresentação através de gráficos e tabelas ou o cálculo de medidas de posição. Por
exemplo, caracterizar um conjunto de valores apenas através da média é descreve-lo
inadequadamente, pois os dados diferem entre si em maior ou menor grau.

Suponhamos que aplicado o mesmo teste de estatística 1 a duas turmas do 2º ano de


gestão que tiveram as aulas com o mesmo docente, ambas tivessem tido média 14.
Baseando-nos nesse dado, diríamos que as duas turmas possuem o mesmo nível de
conhecimento, mas analisando atentamente as notas das duas turmas, poderia dar-se
o caso de os estudantes da turma 1 terem tido todos eles 14 revelando
homogeneidade de conhecimento, enquanto que, na turma 2 as notas variaram de 7 a
18, mostrando maior heterogeneidade de conhecimento onde os valores extremos
contribuíram muito para que a média da turma fosse boa.

Por causa de situações como as descritas acima, torna-se necessário visualizar como
os dados estão dispersos. Para tal, iremos fazer uso das chamadas medidas de
dispersão.

As medidas de dispersão são utilizadas para medir o grau de variabilidade, ou


dispersão dos valores em torno da média aritmética. Servem para medir a
representatividade da média e proporcionam conhecer o nível de homogeneidade ou
heterogeneidade dentro de cada grupo analisado, permitindo estabelecer
comparações entre fenómenos da mesma natureza e mostrando até que ponto os
valores se distribuem acima ou abaixo da média

29
As medidas de dispersão podem ser absolutas e relativas. A presente ficha irá
debruçar-se sobre o modo de cálculo e interpretação da Variância e Desvio padrão
(medidas de dispersão absolutas) e Coeficiente de variação (medida de dispersão
relativa) que são as mais comuns.

4.1. Variância

Símbolo: Variância populacional: ; Variância amostral:


A variância é a média aritmética dos quadrados dos desvios tomados em relação a
média aritmética de um conjunto de números.

4.1.1. Variância de dados não agrupados (Dados brutos)

Seja o seguinte conjunto de números: . A variância deste


conjunto será definida por:

(1) (2)

Variância populacional Variância amostral

4.1.2. Variância de dados agrupados (Dados tabulados)

Quando os dados estiverem agrupados numa distribuição de frequência simples,


usaremos a variância dos valores ponderados pelas respectivas
frequências absolutas ou então, quando os dados estiverem agrupados
numa distribuição de frequência por classes usaremos a variância dos pontos médios
de cada classe, ponderadas pelas frequências absolutas

(3) (4)

Variância populacional Variância amostral

4.2. Desvio padrão

Símbolo: Desvio padrão populacional ; Desvio padrão amostral

30
Como a variância é calculada a partir dos quadrados dos desvios, ela é um número que
apresenta a unidade elevada ao quadrado em relação à variável que não está elevada ao
quadrado; isto se torna um inconveniente em termos de interpretação do resultado. Por
isso, definiu-se uma nova medida com mais utilidade e interpretação prática, o desvio-
padrão.

O desvio padrão dá-nos a idéia de o quão os valores estão próximos ou dispersos do


valor da média, facilitando assim, a percepção da homogeniedade ou heterogeniedade
dos dados.

É definido como sendo a raiz quadrada da média aritmética dos quadrados dos
desvios em relação a média aritmética de um conjunto de números, isto é, é somar
cada diferença do valor do conjunto de dados pela média, elevada ao quadrado, e
dividi-la pelo número total de observações, isto é, o desvio padrão é a raiz quadrada da
variância.

(3)

Da mesma maneira quando os dados estiverem agrupados numa distribuição de


frequência usaremos a fórmula:

(4)

Observação:
Quando se trabalha com uma amostra e não com uma população, como acontece na
grande maioria das situações relacionadas com a inferência estatística, ou então
quando o número de observações não é grande , o denominador das
expressões (5) e (6) será igual a (n-1), desvio padrão, e não (n) para obter uma melhor
estimativa do parâmetro da população e o símbolo do desvio padrão será representado
por s e não .

(5) (6)

Para valores grandes de n não há grande diferença entre o resultado proporcionado


pela utilização de qualquer dos divisores, n ou n - 1.

Exemplo 1: considerando o exemplo 1 da aula teórica 4, sobre os salários que 5


advogados estagiários auferem, após termos calculado o salário médio, vamos
analisar, qual a variância e o desvio médio que os salários apresentam.

31
Resolução:

Primeiro: cálculo da média do conjunto de dados que é igual a 8002

Segundo: cálculo dos desvios quadráticos dos valores em relação a média

780 -20 400


790 -10 100
800 0 0
810 10 100
820 20 400
Total 1000

Pela fórmula calculemos a variância: De referir que o tamanho da amostra é 5,


portanto

Para calcular o desvio padrão basta tirar a raiz quadrada da variância:

Interpretação: o salário médio dos advogados estagiários apresenta um desvio médio de


15.81 usd, o que significa que os salários dos advogados estagiários podem ter uma
variação de até 15.81 usd acima ou abaixo da média, isto é, os salários podem rondar em
média entre 784.19 usd e 815.81 usd.

Exemplo 2: Calcular o desvio padrão da distribuição de frequências do consumo de


energia eléctrica (kwh)

Consumo Nº de usuários

5|---25 4 15 60 -64.5 4160.25 16641


25|---45 6 35 210 -44.5 1980.25 11881.5
45|---65 14 55 770 -24.5 600.25 8403.5
65|---85 26 75 1950 -4.5 20.25 526.5
85|---105 14 95 1330 15.5 240.25 3363.5
105|--- 8 115 920 35.5 1260.25 10082
125
125|--- 6 135 810 55.5 3080.25 18481.5
145

2
Resultado obtido no cálculo da média para dados brutos, na aula teórica 4

32
145|--- 2 155 310 75.5 5700.25 11400.5
165
80 6360 80780

Como n >30, então:

Para calcular o desvio padrão basta tirar a raiz quadrada da variância:

Interpretação: O desvio médio em relação a média de consumo da energia eléctrica é


de 31.7765 kwh, isto é, o consumo médio de energia eléctrica pode ter uma variação
de até 31.7765 Kw/h acima ou aaixo da média.

Condições para se usar o desvio-padrão ou variância para comparar variabilidade


entre grupos:
 Mesmo número de observações;
 Mesma unidade de medida; e
 Mesma média.

4.3. Coeficiente de variação

Como foi dito, a variância e o desvio padrão são medidas de dispersão absolutas, deste
modo só podem ser utilizadas para comparar a variabilidade de dois ou mais conjuntos
de dados quando estes apresentarem a mesma média, mesmo número de observações e
estiverem expressos nas mesmas unidades.

Para comparar dois ou mais conjuntos de valores, relativamente à sua dispersão ou


variabilidade, quando estão expressas em unidades de medida diferentes, podemos
usar a medida de dispersão relativa denominada coeficiente de variação, que é igual
ao quociente entre o desvio padrão e a média aritmética.

(7)
Muitas vezes a fórmula é expressa em percentagem:
(8)

33
Exemplo de uma aplicação do coeficiente de variação:
Considere uma distribuição com média/valor médio igual a 40 e um desvio padrão
igual a 4. Considere agora uma outra distribuição com média/valor médio igual a 5 e
um desvio padrão igual a 4.

Repare-se que o desvio padrão na segunda distribuição tem um peso muito mais
significativo do que na primeira, isto é, a dispersão na 2ª distribuição tem maior efeito
que na 1ª, e no entanto, este é igual em ambas. Ao se determinar o coeficiente de
variação é possível saber de que forma o desvio padrão está para a/o média/valor
médio.

Nos exemplos dados, o coeficiente de variação é respectivamente e


= 0,8 . Ao se interpretar estes valores pode-se afirmar que, na primeira distribuição,
em média, os desvios relativamente à média atingem 10% do valor desta. Na segunda
distribuição, porém, os desvios relativamente à média atingem, em média, 80% do
valor desta. As percentagens mostram o peso do desvio padrão sobre a distribuição.

Classificação da distribuição quanto à dispersão:

Dispersão baixa:
Dispersão média:
Dispersão alta:

Exemplo3: Numa empresa o salário médio dos funcionários de sexo masculino é de


4000 Mt com um desvio padrão de 1500 Mt, e o dos funcionários do sexo feminino é
em média de 3000 Mt, com um desvio padrão de 1200. Então:

Sexo masculino:

Sexo feminino:

Interpretação: Podemos concluir que o salário médio das mulheres apresenta maior
dispersão relativa (maior variabilidade) em relação a média dos salários, em relação ao
salário médio dos homens, podendo atingir uma dispersão de até 40%.
Quanto a dispersão podemos afirmar que ambos os sexos possuem uma dispersão alta
em relação aos seus valores médios, pois, os seus CV´s estão acima de 30%.

Exemplo 4: Um teste de estatística aplicado a dois grupos de estudantes sendo a


classificação de 0 a 10 valores, apresentou os seguintes resultados:

Grupo Médias das notas (de 0-10) Desvio padrão das notas
A 6 2

34
B 6.2 1.5

Observando estes dados, podemos constatar que as notas são expressas na mesma
unidade de medida, e suas médias são quase iguais ou muito próximas. Neste caso é
válido comparar os valores de s, não se obtendo informação adicional significativa
com o uso do CV. Por isso, não há necessidade de muito esforço de raciocínio para
concluir que o grupo B apresentou menos dispersão em relação ao grupo A, tanto em
termos absolutos como relativos.

35

También podría gustarte