Apostila IPE - 2005 PDF

Universidade Estadual do Norte Fluminense
Centro de Ciência e Tecnologia

UENF Laboratório de Engenharia de Produção
INTRODUÇÃO À PROBABILIDADE
E
ESTATÍSTICA
Notas de Aula
Prof. André Policani
2004
SUMÁRIO
CAPÍTULO 1: A NATUREZA DA ESTATÍSTICA

1.1 Introdução .............................................................................................................................. 1
1.2 Método Estatístico ................................................................................................................. 1
1.3 Conceitos Básicos da Estatística .......................................................................................... 2
1.4 Amostragem .......................................................................................................................... 3
1.5 Séries Estatísticas ................................................................................................................. 4
1.6 Interpretação de Tabelas ....................................................................................................... 6
1.7 Gráficos Estatísticos .............................................................................................................. 6
1.8 Arredondamento de Dados ................................................................................................... 9
CAPÍTULO 2: DISTRIBUIÇÃO DE FREQUÊNCIA

2.1 Tabela Primitiva ou Dados Brutos ....................................................................................... 10
2.2 Rol ....................................................................................................................................... 10
2.3 Distribuição de Freqüência .................................................................................................. 10
2.4 Elementos de Uma Distribuição de Freqüência .................................................................. 10
2.5 Distribuição de Frequência sem Intervalos de Classe ........................................................ 13
2.6 Representação Gráfica de Uma Distribuição ...................................................................... 13
2.7 A Curva de Frequência (Curva Polida) ................................................................................ 15
2.7.1 O Formato das Curvas de Frequência ............................................................................. 16
CAPÍTULO 3: MEDIDAS DE TENDÊNCIA CENTRAL

3.1 Introdução ............................................................................................................................ 18
3.2 Média Aritmética .................................................................................................................. 18
3.3 Desvio em Relação À Média ............................................................................................... 20
3.4 Propriedades da Média ....................................................................................................... 20
3.5 Outras Médias ..................................................................................................................... 21
3.6 Mediana (Md) ...................................................................................................................... 22
3.7 Moda .................................................................................................................................... 25
3.8 Considerações Sobre o Emprego da Média Aritmética, Mediana e Moda .......................... 26
3.9 Posição Relativa da Média, Mediana e Moda ..................................................................... 27
3.10 Separatrizes ...................................................................................................................... 27
CAPÍTULO 4: MEDIDAS DE DISPERSÃO OU VARIABILIDADE

4.1 Introdução ............................................................................................................................ 29
4.2 Amplitude Total .................................................................................................................... 29
4.3 Desvio Médio ....................................................................................................................... 30
4.4 Desvio Padrão (S) ............................................................................................................... 31
4.5 Variância (S2) ...................................................................................................................... 32
4.6 Coeficiente de Variação (Cv) ............................................................................................... 32
4.7 Exemplos ............................................................................................................................. 33
CAPÍTULO 5: MEDIDAS DE ASSIMETRIA E MEDIDAS DE CURTOSE

5.1 Assimetria ........................................................................................................................... 36
5.2 Curtose ............................................................................................................................... 37
5.3 Exemplos ............................................................................................................................. 38
CAPÍTULO 6: INTRODUÇÃO À PROBABILIDADE
6.1 Introdução ............................................................................................................................ 39
6.2 Conceitos Iniciais ................................................................................................................. 39
6.3 Probabilidades ..................................................................................................................... 41
6.4 Eventos Independentes ....................................................................................................... 43
6.5 Análise Combinatória .......................................................................................................... 43
6.6 Probabilidade Condicional ................................................................................................... 46
6.7 Partição de Um Espaço Amostral ........................................................................................ 47
6.8 Teorema de Bayes .............................................................................................................. 48
6.9 Distribuição de Probabilidade de Uma Variável Aleatória Discreta ..................................... 48
6.10 Modelos Probabilísticos para Variáveis Aleatórias Discretas ............................................ 53
6.11 Variáveis Aleatórias Multidimensionais ............................................................................. 61
CAPÍTULO 7: DISTRIBUIÇÕES DE PROBABILIDADE DE VARIÁVEIS ALEATÓRIAS CONTÍNUAS

7.1 Introdução ............................................................................................................................ 68
7.2 Função de Distribuição de Probabilidade ............................................................................ 69
7.3 Valor Esperado e a Variância de Uma V.A. Contínua ......................................................... 70
7.4 Modelos Probabilísticos para V.A. Contínuas ..................................................................... 71
7.5 Distribuição Conjunta de Variáveis Aleatórias Contínuas ................................................... 83
7.6 Funções Densidade Marginais de Variáveis Aleatórias Contínuas ..................................... 83
7.7 Distribuições Condicionais Contínuas ................................................................................. 84
7.8 Exercícios ............................................................................................................................ 84
CAPÍTULO 8: INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA

8.1 Introdução ........................................................................................................................... 86
8.2 Amostragem ........................................................................................................................ 87
8.3 Amostragem Casual Simples .............................................................................................. 88
8.4 Estatísticas e Parâmetros .................................................................................................... 89
8.5 Distribuições Amostrais ....................................................................................................... 90
8.6 Distribuição Amostral da Média ........................................................................................... 91
8.7 Teorema do Limite Central .................................................................................................. 91
8.8 Distribuição Amostral da Proporção .................................................................................... 94
CAPÍTULO 9: ESTIMAÇÃO DE PARÂMETROS

9.1 Introdução ............................................................................................................................ 96
9.2 Estimação Pontual ............................................................................................................... 96
9.3 Processos para Obter Estimadores ..................................................................................... 97
9.4 Estimação por Intervalos de Confiança ..............................................................................100
CAPÍTULO 10: TESTES DE HIPÓTESES

10.1 Introdução .........................................................................................................................106
10.2 Objetivo do Teste de Hipótese .........................................................................................106
10.3 Teste da Hipótese Nula ....................................................................................................107
10.4 Nível de Significância do Teste ........................................................................................107
10.5 Etapas para Construção de um Teste de Hipóteses ....................................................... 107
10.6 Testes de Hipótese Sobre a Média ................................................................................. 108
10.7 Testes de Hipótese para Proporções .............................................................................. 116
10.8 Teste de Hipótese para a Variância ................................................................................ 117
REFERÊNCIAS BIBLIOGRÁFICAS
EXERCÍCIOS RESOLVIDOS
EXERCÍCIOS PROPOSTOS
CAPÍTULO 1
A NATUREZA DA ESTATÍSTICA
1.1 INTRODUÇÃO
ESTATÍSTICA: é o ramo da matemática que trata da coleta, organização, resumo,

apresentação e análise dos dados, assim como obtenção de conclusões que auxiliam nos
processos de tomada da decisão.
A coleta, a organização ,a descrição dos dados, o cálculo e a interpretação de coeficientes

pertencem à ESTATÍSTICA DESCRITIVA, enquanto a análise e a interpretação dos dados,
associado a uma margem de incerteza, ficam a cargo da ESTATÍSTICA INDUTIVA ou
INFERENCIAL, também chamada como a medida da incerteza ou métodos que se
fundamentam na teoria da probabilidade.
Assim, a análise e a interpretação dos dados tornam possível o diagnóstico de uma empresa, o
conhecimento de seus problemas (condições de funcionamento, produtividade, etc.) a
formulação de soluções apropriadas e um planejamento objetivo de ação.
1.2 MÉTODO ESTATÍSTICO
Muitas dos conhecimentos atuais foram obtidos por acaso, por necessidades práticas, sem a
utilização de um método de pesquisa. Atualmente, quase todo acréscimo de conhecimento
resulta de observações e de estudo. Neste sentido, busca-se assegurar que todas as
conclusões obtidas sejam cientificamente comprovadas.
• Método: é um conjunto de meios (procedimentos) devidamente organizados para se atingir

um determinado objetivo. Dentre os métodos utilizados para fins científicos destacam-se o
método experimental e o método estatístico.
• Método Experimental: consiste em manter constante todas as causas, exceto uma, que
deverá ter variações, permitindo assim determinar os efeitos destas variações, caso
existam. Ex: Estudos da Química, Física, etc.
• Método Estatístico: diante da impossibilidade de manter as causas constantes (nas

ciências sociais), admitem todas essas causas presentes variando-as, registrando essas
variações e procurando determinar, no resultado final, que influências cabem a cada uma
delas. Ex: Quais as causas que definem o preço de uma mercadoria quando a sua oferta
diminui?
Ou seja: seria impossível, no momento da pesquisa, manter constantes a uniformidade dos
salários, o gosto dos consumidores, nível geral de preços de outros produtos, etc.
1.2.1 FASES DO MÉTODO ESTATÍSTICO
1º - DEFINIÇÃO DO PROBLEMA : nesta etapa deve-se definir exatamente o que se pretende

pesquisar/analisar e qual o objetivo da pesquisa.
Introdução à Probabilidade e Estatística - IPE 2
2º - PLANEJAMENTO : Como obter informações ? Que dados deverão ser obtidos ? Quais as
etapas da pesquisa (cronograma de atividades)? Quais os custos envolvidos ?, etc.
3º - COLETA DE DADOS : esta etapa consiste no registro sistemático de dados, com um

objetivo determinado. Deve ser precedida de um planejamento experimental adequado e de
uma técnica de amostragem conveniente. Os dados podem ser classificados em
• Dados primários: quando são publicados pela própria pessoa ou organização que os haja
recolhido. Ex: tabelas do censo demográfico do IBGE.
• Dados secundários: quando são publicados por outra organização. Ex: quando
determinado jornal publica estatísticas referentes ao censo demográfico extraídas do IBGE.
OBS: as fontes primárias são mais confiáveis. O uso da fonte secundária traz o grande risco de
erros de transcrição.
• Coleta Direta: quando é obtida diretamente da fonte. Ex: Empresa que realiza uma
pesquisa para saber a preferência dos consumidores pela sua marca.
A coleta direta pode ser: contínua (registros de nascimento, óbitos, casamentos, etc.),
periódica (recenseamento demográfico, censo industrial) e ocasional (registro de casos de
dengue).
• Coleta Indireta: É feita por deduções a partir dos elementos conseguidos pela coleta
direta, por analogia, por avaliação, indícios ou proporcionalização.
4º - APURAÇÃO DOS DADOS : Representa a soma e o processamento dos dados coletados e

a disposição (distribuição e agrupamento) mediante critérios de classificação.
5º - APRESENTAÇÃO DOS DADOS : Há duas formas usuais de apresentação, que não se

excluem mutuamente. A apresentação em tabelas ou quadros, ou seja é uma apresentação
numérica dos dados em linhas e colunas distribuídas de modo ordenado, segundo regras
práticas fixadas pelo Conselho Nacional de Estatística. A apresentação gráfica dos dados
constitui uma apresentação geométrica permitindo uma visão rápida e clara do fenômeno.
6º - ANÁLISE E INTERPRETAÇÃO DOS DADOS : A última fase do trabalho estatístico é a

mais importante e delicada. Está ligada essencialmente ao cálculo de medidas e coeficientes,
cuja finalidade principal é descrever o fenômeno (estatística descritiva). Na estatística indutiva
a interpretação dos dados se fundamentam na teoria da probabilidade.
1.3 CONCEITOS BÁSICOS DA ESTATÍSTICA
1.3.1 FENÔMENO ESTATÍSTICO: é qualquer evento que se pretenda analisar, cujo estudo
seja possível da aplicação do método estatístico. São divididos em três grupos:
• Fenômenos de massa ou coletivo: são aqueles que não podem ser definidos por uma
única observação. A estatística dedica-se ao estudo desses fenômenos. Ex: A taxa de
criminalidade no Rio de Janeiro, o preço médio do litro de gasolina em São Paulo, etc.
• Fenômenos individuais: são aqueles que irão compor os fenômenos de massa. Ex: cada
crime no Grande Rio, o preço da gasolina em cada posto de São Paulo, etc.
• Fenômenos de multidão: quando as características observadas para a massa não se

verificam para o fenômeno individual.
1.3.2 DADO ESTATÍSTICO: é uma característica observada ou medida de alguma forma.
1.3.3 VARIÁVEL: é, convencionalmente, o conjunto de resultados possíveis de um fenômeno.

As variáveis podem ser:
• Qualitativas: Quando seu valores são expressos por atributos: sexo, cor da pele, etc.
• Quantitativas: Quando os dados são de caráter nitidamente quantitativo, e o conjunto dos

resultados possui uma estrutura numérica, trata-se portanto da estatística de variável e se
subdividem em :
- Variável discreta ou descontínua: Seus valores são expressos geralmente através de

números inteiros não negativos. Resulta normalmente de contagens finitas.
Ex: Nº de alunos candidatos aprovados no vestibular 2002, por curso. Direito= 80,
Administração = 50; Medicina= 100, Engenharia= 35.
- Variável contínua: Resulta normalmente de uma mensuração, e a escala numérica de

seus possíveis valores corresponde ao conjunto R dos números Reais, ou seja, podem
assumir, teoricamente, qualquer valor entre dois limites.
Ex.: o tempo necessário para percorrer a ponte Rio-Niterói. Ao cronometrar o percurso,
o tempo necessário poderá ser qualquer valor dentro da escala de tempo utilizada.
1.3.4 POPULAÇÃO: é o conjunto total de elementos portadores de, pelo menos, uma
característica comum. A população pode ser finita (quando é possível enumerar os elementos)
e infinita (quando não é possível enumerar os elementos).
1.3.5 AMOSTRA: é uma parcela representativa e finita da população que é examinada com o
propósito de tirarmos conclusões sobre a essa população.
1.3.5 PARÂMETROS: São valores singulares que existem na população e que servem para
caracterizá-la. Para definirmos um parâmetro devemos examinar toda a população. Exemplo
de parâmetros média, mediana, desvio padrão, etc.
1.3.6 ESTIMATIVA: é um valor aproximado do parâmetro estudado e é calculado com o uso da

amostra. Isto porque muitas vezes os dados de toda a população não estão acessíveis
(população muito grande ou infinita, alto custo para obtenção e tratamento de todos os dados
da população, muito tempo para coletar e analisar todas os dados da população, etc.).
1.4 AMOSTRAGEM
Através do emprego de uma técnica conveniente de amostragem, busca-se assegurar que a

amostra coletada seja representativa da população, ou seja, a amostra deve possuir as
mesmas características básicas da população, no que diz respeito ao fenômeno que está
sendo investigado. Os tipos de amostragem mais comuns são:
• Amostragem aleatória simples: este tipo de amostragem é equivalente a um sorteio

lotérico, onde todos os elementos da população têm iguais chances de pertencer à
amostra. Para realizá-la basta identificar todos os elementos da população e sortear, por
um meio aleatório qualquer, os elementos que deverão pertencer à amostra.
• Amostragem estratificada: muitas vezes a população se divide em subpopulações

(estratos), sendo possível que a variável em estudo apresente, de estrato para estrato, um
comportamento heterogêneo e, dentro de cada estrato, um comportamento homogêneo.
Neste caso, é conveniente que o sorteio dos elementos da amostra considere tais estratos.
Ex: Em uma classe de 60 alunos, 38 são do sexo masculino e 22 do sexo feminino.

Deseja-se obter uma amostra estratificada correspondente a 10% dos alunos da turma
(população). Como são dois estratos (sexo masculino e sexo feminino), temos:
SEXO POPULAÇÃO 10% AMOSTRA

Masculino 38 3,8 4
Feminino 22 2,2 2
Total 60 6 6
Logo, deverão ser sorteados 4 alunos e 2 alunas para compor a amostra.
• Amostragem sistemática: é quando os elementos da população apresentam-se

ordenados e a retirada dos elementos da amostra é feita periodicamente. Por exemplo, em
uma linha de produção, a cada dez itens produzidos, pode-se retirar um para pertencer a
uma amostra da produção diária. Neste caso, o tamanho da amostra estaria fixado em 10%
da população.
1.5 SÉRIES ESTATÍSTICAS
Denomina-se série estatística qualquer tabela que apresenta a distribuição de um conjunto de

dados estatísticos em função da época, do local ou da espécie.
1.5.1 TABELA: É um quadro que resume um conjunto de dados dispostos segundo linhas e
colunas de maneira sistemática (a seguir apresenta-se um exemplo que contém os elementos
que compõem uma tabela). De acordo com a Resolução 886 do IBGE, nas casas ou células da
tabela deve-se colocar:
• um traço horizontal ( - ) quando o valor é zero;

• três pontos ( ... ) quando os dados não estão acessíveis;
• zero ( 0 ) quando o valor é muito pequeno para ser expresso pela unidade utilizada; se os
valores são expressos em numerais decimais, deve-se acrescentar à parte decimal um
número correspondente de zeros (0,0; 0,00; 0,000; ...).
• um ponto de interrogação (?) quando há dúvida quanto à exatidão de determinado valor.
Exemplo:
Título
Cabeçalho
Produção de Café (Brasil: 1991 – 1995)
ANOS PRODUÇÃO (1000 t)
1991 2535
1992 2700
1993 2200
1994 3570
1995 1950
Fonte: IBGE
Casa ou
célula
1.5.2 SÉRIE TEMPORAL, HISTÓRICA OU CRONOLÓGICA: descrevem os valores da variável,

em determinado local, discriminados segundo intervalos de tempo variáveis.
Produção de Televisores (Brasil: 1995 – 1999)

ANOS UNIDADES PRODUZIDAS (x 1000)
1995 125
1996 150
1997 138
1998 179
1999 213
Fonte: Eletroban
1.5.3 SÉRIE GEOGRÁFICA, ESPACIAL, TERRITORIAL OU DE LOCALIZAÇÃO: descrevem

os valores da variável em determinado instante, discriminados segundo regiões.
Vendas da Autocar Veículos Ltda em 1999.

DESTINO UNIDADES VENDIDAS
Cidade 140
Interior 50
Outra cidade 23
Fonte: Autocar Veículos Ltda
1.5.4 SÉRIE ESPECÍFICA OU CATEGÓRICA: descrevem os valores da variável, em

determinado tempo e local, discriminados segundo especificações ou categorias.
Itens vendidos em 1997

ARTIGO UNIDADES (x 1000)
Roupa feminina 82
Roupa masculina 60
Roupa infantil 53
brinquedos 20
Fonte: Casa do Povo
1.5.5 SÉRIES CONJUGADAS: Também chamadas de tabelas de dupla entrada. São

apropriadas à apresentação de duas ou mais séries de maneira conjugada, havendo duas
ordens de classificação: uma horizontal e outra vertical. O exemplo abaixo é de uma série
geográfica-temporal.
Terminais Telefônicos em Serviço (1991- 1993)

REGIÃO 1991 1992 1993
Norte 342.938 375.658 403.494
Nordeste 1.287.813 1.379.101 1.486.649
Sudeste 6.234.501 6.729.467 7.231.634
Sul 1.497.315 1.608.989 1.746.232
Centro-oeste 713.357 778.925 884.822
Fonte: Ministério das Comunicações
1.5.6 DISTRIBUIÇÕES DE FREQUÊNCIA: por serem de grande utilização na Estatística, este

conceito será tratado posteriormente em outro capítulo.
1.6 INTERPRETAÇÃO DE TABELAS
A interpretação de tabelas consiste fundamentalmente em tirar conclusões precisas a partir dos

dados contidos nas mesmas.
1.6.1 DADOS ABSOLUTOS: são os dados estatísticos resultantes da coleta direta da fonte,
sem outra manipulação, a não ser a contagem ou mensuração.
1.6.2 DADOS RELATIVOS: são o resultado de comparações por quociente (razões) que se
estabelecem entre dados absolutos e têm por finalidade realçar ou facilitar as comparações
entre quantidades. Os dados relativos geralmente são expressos em termos de percentagens,
índices, coeficientes e taxas.
1.6.2.1 PERCENTAGENS:
ALUNOS DO INSTITUTO QI APROVADOS NO CONCURSO DO TRT- 1997

TURMAS ALUNOS APROVADOS PERCENTUAL (%)
TURMA A 87 (87x100)/203 = 42, 9
TURMA B 62 (62x100)/203 = 30,5
TURMA C 54 (54x100)/203 = 26,6
TOTAL 203 100,0
1.6.2.2 ÍNDICES: são razões entre duas grandezas tais que uma não inclui a outra. Como
exemplo, citam-se os índices econômicos:
• renda per capita = renda / população

• receita per capita = receita / população
1.6.2.3 COEFICIENTES: são razões entre o número de ocorrências e o número total ( número
de ocorrências e número de não-ocorrências).
• Coef. de evasão escolar = n.o de alunos desistentes / n.o de matrículas

• Coef. de aprovação escolar = n.o de alunos aprovados / n.o de matrículas
1.6.2.4 TAXAS: são os coeficientes multiplicados por uma pot6encia de 10 (10, 100, 1000, etc.)
para facilitar o entendimento do resultado.
• Taxa de evasão escolar = Coef. de evasão escolar x 100

• Taxa de aprovação escolar = Coef. de aprovação escolar x 100
1.7 GRÁFICOS ESTATÍSTICOS
São representações visuais dos dados estatísticos contidos nas tabelas. Estas representações
são caracterizadas pelo uso de escalas de valor, sistema de coordenadas, veracidade sobre o
fenômeno em estudo, clareza e simplicidade na interpretação dos valores.
Os gráficos são classificados em: Diagramas, Pictogramas e Cartogramas.
1.7.1 DIAGRAMAS: São gráficos geométricos dispostos em duas dimensões. São os mais
usados na representação de séries estatísticas. Eles podem ser :
1.7.1.1 GRÁFICOS EM LINHAS OU EM CURVAS: são frequentemente usados para

representação de séries cronológicas com um grande número de períodos de tempo. As linhas
são mais eficientes do que as colunas em situações onde existem grandes flutuações nas
séries ou quando há necessidade de se representarem várias séries em um único gráfico.
De m an d a (Pr o d u to X e Y )
300
250
Milhares de unidades
200
150
100
50 X
Y
0
5
6
5
6
5
6
5
6
5
6
5
6
/7
/7
/7
/7
l /7
l /7
/7
/7
t/7
t/7
/7
/7
ai
ai
ar
ar
ov
ov
n
n
Ju
Ju
Se
Se
Ja
Ja
M
M
M
M
N
N
Fonte: Empresa ABC
1.7.1.2 GRÁFICOS EM COLUNAS OU EM BARRAS: uma série é representada por meio de

retângulos proporcionais, dispostos verticalmente (em colunas) ou horizontalmente (em barras).
• Se as informações a serem escritas forem extensas, é comum optar pelo gráfico de barras.
• A ordem a ser observada é a cronológica, se a série for histórica, e a decrescente, se for
geográfica ou categórica.
• Gráficos em colunas (ou em barras) superpostas e compostas são utilizados para
representação simultânea de dois ou mais fenômenos, com o propósito de comparação.
Investimentos no Setor Elétrico

13,3
14
12 11,1
10 9 9,1
US$(bilhões)
8,6
8 7,1
5,7 5,9 6
6 4,5 4,9
4
2
0
1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998
Fonte: Seminário (Coppe, 2001)
1.7.1.3 GRÁFICOS EM SETORES: são construídos com base em um círculo, e é empregado

sempre que deseja-se ressaltar a participação do dado no total.
• O total é representado pelo círculo, que é dividido em tantos setores quantas são as partes.
• Os setores são tais que suas áreas são respectivamente proporcionais aos dados da série.
O gráfico em setores só deve ser empregado quando há, no máximo, sete dados.
• Cada setor é obtido por meio de uma regra de três simples e direta, onde o valor total
corresponde a 360o. Ou seja: busca-se determinar quantos graus deve possuir cada setor.
• As séries temporais geralmente não são representadas por este tipo de gráfico.
Grau de Instrução na Em presa InfoMarketing
13%
fundamental
médio
superior
49%
38%
Fonte: InfoMarketing (2001)
1.7.2 CARTOGRAMAS: são representações relativas a cartas geográficas (mapas). O objetivo

desse gráfico é o de figurar os dados estatísticos diretamente relacionados com áreas
geográficas ou políticas.
Densidade Demográfica
MG
28 34
ES
60 69
SP
137 14
RJ
305 32
Fonte: IBGE (1996)
1.7.3 PICTOGRAMAS: são constituídos de elementos gráficos e de figuras representativas do

fenômeno em estudo. Devido a sua forma atraente e sugestiva, despertam a atenção do
público leigo.
Índice de Aprovação no Vestibular

(Pré Vestibular Isaac Newton)
100% 90%
73% 78%
80%
65%
60% 53%
40%
40%
20%
0%
1997 1998 1999 2000 2001 2002
Fonte: Pré Vestibular Isaac Newton (2002)

1.8 ARREDONDAMENTO DE DADOS
Frequentemente o pesquisador realiza mensurações em seus experimentos que resultam em

números decimais. Neste sentido, é conveniente estabelecer algumas regras de
arredondamento de dados, baseadas na resolução 886/66 do IBGE. Em suma, tais regras são:
1.8.1 quando o primeiro algarismo a ser abandonado é 0, 1, 2, 3, ou 4: fica inalterado o último

algarismo a permanecer.
Ex: 53,24 ⇒ 53,2 42,13 ⇒ 42,1
1.8.2 quando o primeiro algarismo a ser abandonado é 6, 7, 8 ou 9: aumenta-se de uma

unidade o último algarismo a permanecer.
Ex: 42,86 ⇒ 42,9 53,99 ⇒ 54,00 23,378 ⇒ 23, 38
1.8.3 quando o primeiro algarismo a ser abandonado é 5 existem duas possibilidades
a) se após o 5 seguir, em qualquer casa, um algarismo diferente de zero, aumenta-se uma

unidade do algarismo a permanecer.
Ex: 2, 352 ⇒ 2,4 76,2500001 ⇒ 76,3
b) se o 5 for o último algarismo ou se após o 5 somente existirem zeros, o último algarismo a

ser conservado somente será aumentado de uma unidade se for ímpar.
Ex: 24,75 ⇒ 24, 8 24,65 ⇒ 24,6 24,650000 ⇒ 24,6

CAPÍTULO 2
DISTRIBUIÇÃO DE FREQUÊNCIA
2.1 TABELA PRIMITIVA OU DADOS BRUTOS: é uma tabela ou relação de elementos que
não foram numericamente organizados. É difícil formar uma idéia exata do comportamento do
grupo como um todo, a partir de dados não ordenados.
Ex: Na tabela abaixo, cada valor representa a quantidade vendida (em milhares de unidades)
por cada um dos 36 representantes de uma determinada multinacional em 2001.
120 102 95 95 108 100 140 92 97

111 140 132 102 125 89 135 87 82
85 145 124 92 120 85 90 120 110
97 78 89 75 105 128 105 115 91
2.2 ROL: é uma tabela composta por dados ordenados (crescente ou decrescente). Ex: A
tabela (rol) abaixo apresenta o volume de vendas com os valores ordenados crescentemente.
75 85 90 95 100 105 115 124 135

78 87 91 95 102 108 120 125 140
82 89 92 97 102 110 120 128 140
85 89 92 97 105 111 120 132 145
2.3 DISTRIBUIÇÃO DE FREQUÊNCIA: é um tipo de tabela que condensa uma coleção de

dados conforme as frequências (repetições de seus valores). No exemplo acima, denomina-se
frequência o número de vendedores que está relacionado a um determinado valor de vendas.
Obs: Para um rol de tamanho relativamente razoável e com muitos valores distintos, é
conveniente agrupar os valores em intervalos de classe.
2.4 ELEMENTOS DE UMA DISTRIBUIÇÃO DE FREQUÊNCIA
2.4.1 AMPLITUDE AMOSTRAL (AA): é a diferença entre o valor máximo e o valor mínimo dos
dados disponíveis. Ou seja:
AA = xmáx - xmín
No exemplo, tem-se que: AA = 145 – 75 = 70.
2.4.2 CLASSES: são intervalos de variação da variável e é simbolizada por i, onde i = 1, 2, .., k.
(k é o número total de classes da distribuição).
• A regra de Sturges é uma das fórmulas mais empregadas para determinar o número de
classes (i) que deverá ter a distribuição em função do n.o de dados existentes (n). Ou seja:
i = 1 +3,3log (n)
No exemplo dado, tem-se seis classes pois: i = 1 + 3,3log(36) = 6,14 (6 classes).

• O uso da fórmula de Sturges não conduz uma decisão final. Na realidade busca-se definir
um número de classes que inclua todos os dados da distribuição, não permita a existência
de classes com frequência nula ou com frequência relativa muito elevada.
2.4.3 AMPLITUDE DOS INTERVALOS DE CLASSE: representa a medida do intervalo que

define uma classe. É calculada pela seguinte fórmula:
AA
h=
i
70
No exemplo, tem-se que: h = = 11,66 ≅ 12
6
2.4.4 LIMITES DE CLASSE: correspondem aos extremos de cada classe. Designa-se por li e
Li, respectivamente, o limite inferior e o limite superior da classe i.
Uma vez definidos o número de classes e a amplitude dos intervalos de classe, o próximo
passo consiste em determinar os limites de cada uma das classes. De acordo com o exemplo,
tem-se a seguinte tabela:
VENDAS (x 1000) APURAÇÃO FREQUÊNCIA (fi)

75 ⊢ 87
87 ⊢ 99
99 ⊢ 111
111 ⊢ 123
123 ⊢ 135
135 ⊢ 147
TOTAL
• Para definir a primeira classe, utilizou-se o menor nº da amostra e o intervalo de classe (h).
No exemplo, a primeira classe possui os seguintes valores: l1 = 75 e L1 = 75 + 12 = 87.
• Os intervalos de classe devem ser escritos de acordo com a Resolução 886/66 do IBGE.
Utiliza-se o símbolo ⊢ para indicar a inclusão de li e a exclusão de Li . Ou seja: o vendedor
que vendeu 99000 unidades estaria incluso na terceira classe (i = 3) e não na segunda.
2.4.5 FREQUÊNCIA SIMPLES OU ABSOLUTA: ou simplesmente frequência de uma classe

ou de um valor individual é o número de observações correspondentes a essa classe ou a esse
valor. Para determinar a frequência de cada classe, deve-se realizar a apuração dos dados
(observações). De acordo com os dados do exemplo, temos que:
VENDAS (x 1000) APURAÇÃO FREQUÊNCIA (fi)

75 ⊢ 87 ‫׀‬ 5
87 ⊢ 99 П 11
99 ⊢ 111 П 7
111 ⊢ 123 ‫׀‬ 5
123 ⊢ 135 4
135 ⊢ 147 4
k
TOTAL 36 ∑ f = 36
i =1
i
• A frequência da classe i é simbolizada por fi.

• A soma de todas as frequências (frequências de todas as classes) é representada pelo
k
símbolo de somatório: ∑ f = n.
i =1
i
2.4.6 PONTO MÉDIO DE UMA CLASSE: é o ponto que divide o intervalo de classe em duas
partes iguais. É o valor que representa cada classe. Calcula-se da seguinte forma:
li + Li
xi =
2
A tabela abaixo apresenta o ponto médio de cada classe para o exemplo em questão:
VENDAS (x 1000) APURAÇÃO FREQUÊNCIA (fi) P.M. (xi)

75 ⊢ 87 ‫׀‬ 5 81
87 ⊢ 99 П 11 93
99 ⊢ 111 П 7 105
111 ⊢ 123 ‫׀‬ 5 117
123 ⊢ 135 4 129
135 ⊢ 147 4 141
k
TOTAL 36 ∑ f = 36
i =1
i
2.4.7 OUTROS TIPOS DE FREQUÊNCIA:
2.4.7.1 FREQUÊNCIAS RELATIVAS (fri): são os valores das razões entre as frequências
simples e a frequência total. Ou seja:
fi
fri =
∑f i
2.4.7.2 FREQUÊNCIA ACUMULADA (FI): é o somatório das frequências de todas as classes

até a classe em questão, inclusive a própria. Ou seja:
Fk = f1 + f2 + .... + fk
A tabela abaixo apresenta o cálculo destas frequências para o exemplo dado:
VENDAS (x 1000) APURAÇÃO FREQUÊNCIA (fi) P.M. (xi) fri Fi

75 ⊢ 87 ‫׀‬ 5 81 5/36 5
87 ⊢ 99 П 11 93 11/36 16
99 ⊢ 111 П 7 105 7/36 23
111 ⊢ 123 ‫׀‬ 5 117 5/36 28
123 ⊢ 135 4 129 4/36 32
135 ⊢ 147 4 141 4/36 36
k k
TOTAL 36 ∑ fi = 36
i =1
∑ fr = 1
i=1
i
2.5 DISTRIBUIÇÃO DE FREQUÊNCIA SEM INTERVALOS DE CLASSE: é empregada

quando se trata de variável discreta de variação relativamente pequena, onde cada valor pode
ser considerado como um intervalo de classe.
Se a variável assume numerosos valores distintos, é comum tratá-la como uma variável
contínua, formando intervalos de classe diferente de um. Esse tratamento abrevia o trabalho,
mas ocasiona alguma perda de precisão. Uma distribuição sem intervalos de classe apresenta
a seguinte forma:
xi fi
x1 f1
x2 f2
M M
xn fn
n
∑ f =n
i =1
i
Exemplo: Considere a variável x como sendo “o número de filhos de 50 famílias entrevistadas”.

A tabela abaixo apresenta os outros tipos de frequências:
i xi fi fri Fi
1 0 7 0,14 7
2 1 8 0,16 15
3 2 15 0,30 30
4 3 8 0,16 38
5 4 7 0,14 45
6 5 4 0,08 49
7 Mais de 5 filhos 1 0,02 50
n n
∑ fi = 50
i =1
∑ fr 1,00
i =1
i
2.6 REPRESENTAÇÃO GRÁFICA DE UMA DISTRIBUIÇÃO
Todos os gráficos que representam uma distribuição de frequências utilizam o primeiro

quadrante do sistema de eixos coordenados cartesianos ortogonais. Na linha horizontal (eixo
das abscissas) colocam-se os valores da variável e na linha vertical (eixo das ordenadas), as
frequências. A seguir, apresentam-se os gráficos usualmente utilizados:
2.6.1 HISTOGRAMA: é formado por um conjunto de retângulos justapostos, cujas bases se

localizam sobre o eixo horizontal, de tal modo que seus pontos médios coincidam com os
pontos médios dos intervalos de classe.
As larguras dos retângulos são iguais às amplitudes dos intervalos de classe. As alturas dos
retângulos devem ser proporcionais às frequências de classe. A área de um histograma é
proporcional à soma das frequências simples ou absolutas.
f
VENDAS (x 1000) (fi) P.M. (xi)
75 ⊢ 87 5 81 12
11
11
87 ⊢ 99 11 93
10
99 ⊢ 111 7 105
5 117 8
111 ⊢ 123 7
123 ⊢ 135 4 129 6 5 5
135 ⊢ 147 4 141 4 4

4
k
TOTAL ∑ f = 36
i =1
i
2
0
75 87 99 111 123 135 147 x
2.6.2 POLÍGONO DE FREQUÊNCIA: é um gráfico em linha, sendo as frequências marcadas

sobre perpendiculares ao eixo hotizontal, levantadas pelos pontos médios dos intervalos de
classe. Para realmente obtermos um polígono (linha fechada), devemos completar a figura,
ligando os extremos da linha obtida aos pontos médios da classe anterior à primeira e da
posterior à última, da distribuição.
f
VENDAS (x 1000) (fi) P.M. (xi)
12
75 ⊢ 87 5 81
87 ⊢ 99 11 93 10
99 ⊢ 111 7 105
8
111 ⊢ 123 5 117
4 129 6
123 ⊢ 135
135 ⊢ 147 4 141 4
k
TOTAL ∑ f = 36
i =1
i
2
0
75 87 99 111 123 135 147 x
Obs: uma distribuição de frequência sem intervalos de classe é representada graficamente por
um diagrama onde cada valor da variável é representado por um segmento de reta vertical e de
comprimento proporcional à respectiva frequência. No exemplo abaixo, tem-se a seguinte
representação:
f
i xi fi
1 0 7 16
2 1 8 14
3 2 15 12
4 3 8 10
5 4 7 8
6 5 4 6
7 Mais de 5 filhos 1
4
n
∑ f = 50
i =1
i
2
0 1 2 3 4 5 mais de 5 x
2.6.3 POLÍGONO DE FREQUÊNCIA ACUMULADA: é traçado marcando-se as frequências

acumuladas sobre perpendiculares ao eixo horizontal, levantadas nos pontos correspondentes
aos limites superiores dos intervalos de classe.
VENDAS (x 1000) fi Fi
75 ⊢ 87 5 5 F
87 ⊢ 99 11 16
40
99 ⊢ 111 7 23
111 ⊢ 123 5 28 30
123 ⊢ 135 4 32
20
135 ⊢ 147 4 36
k 10
TOTAL ∑ fi = 36
i =1 0
75 87 99 111 123 135 147 x
Obs: No caso de uma distribuição de frequência sem intervalos de classe, o gráfico da

frequência acumulada se apresentará com pontos de descontinuidade nos valores observados
da variável. Por exemplo, tem-se a seguinte representação:
i xi fi Fi F
1 0 7 7 50
2 1 8 15 50 49
45
3 2 15 30
40 38
4 3 8 38
30
5 4 7 45 30
6 5 4 49
7 Mais de 5 filhos 1 50 20
6
15
n
∑ f = 50
i =1
i
10 7
0 1 2 3 4 5 mais de 5 x
2.7 A CURVA DE FREQUÊNCIA (CURVA POLIDA):
Enquanto o polígono de frequência fornece a imagem real do fenômeno estudado, a curva de

frequência fornece a imagem tendencial. O polimento (geometricamente, corresponde à
eliminação dos vértices da linha poligonal) de um polígono de frequência representa o que
seria tal polígono com um número maior de dados em amostras mais amplas. Isto pode ser
obtido através do emprego da seguinte fórmula:
fi−1 + 2fi + fi+1

fc i = onde:
4
• fci = frequência calculada da classe considerada (freq. polida)

• fi = frequência simples da classe considerada
• fi-1 = frequência simples da classe anterior à da classe considerada
• fi+1 = frequência simples da classe posterior à da classe considerada
.
fc i
VENDAS (x 1000) fi fci
5 5,3 12
75 ⊢ 87
87 ⊢ 99 11 8,5 10
99 ⊢ 111 7 7,5
8
111 ⊢ 123 5 5,3
123 ⊢ 135 4 4,3 6
135 ⊢ 147 4 3,0

4
k
TOTAL ∑ f = 36
i =1
i 2
0
75 87 99 111 123 135 147 x
2.7.1 O FORMATO DAS CURVAS DE FREQUÊNCIA
As curvas de frequência geralmente assumem as seguintes formas características:
2.7.1.1 CURVAS EM FORMA DE SINO: caracterizam-se por apresentarem um valor máximo

na região central. De acordo com os dados da distribuição, podem apresentar-se de forma
simétrica e assimétrica.
• Curva simétrica: caracteriza-se por apresentar o valor máximo no ponto central e os

pontos equidistantes deste ponto terem a mesma frequência.
• Curva assimétrica: na realidade não existem curvas perfeitamente simétricas. Deste

modo, as curvas correspondentes às distribuições apresentam uma cauda mais alongada
em um dos lados da curva. Se a cauda mais alongada fica à direita, a curva é chamada
assimétrica positiva ou enviesada à direita. Se a cauda se alonga à esquerda, a curva é
chamada assimétrica negativa ou assimétrica à esquerda.
2.7.1.2 CURVAS EM FORMA DE JOTA: representam distribuições fortemente assimétricas,

caracterizando-se por apresentarem o ponto de ordenada máxima em uma das extremidades.
2.7.1.3 CURVAS EM FORMA DE U: caracterizam-se por apresentarem ordenadas máximas

em ambas as extremidades.
2.7.1.3 DISTRIBUIÇÃO RETANGULAR: é uma distribuição muito rara. Apresenta todas as

classes com a mesma frequência. Representa-se através de um histograma em que todas as
colunas possuem a mesma altura ou por um polígono de frequência reduzido a um segmento
de reta horizontal.
CAPÍTULO 3
MEDIDAS DE TENDÊNCIA CENTRAL
3.1 INTRODUÇÃO
São medidas cujo valor numérico permite ter uma noção da localização do centro de uma
distribuição de frequência. Estas medidas permitem verificar a tendência dos dados
observados a se agruparem em torno dos valores centrais.
As medidas de tendência central mais utilizadas são: as médias (aritmética, harmônica,

geométrica, quadrática), a mediana e a moda.
3.2 MÉDIA ARITMÉTICA
Sejam x1, x2, x3, ...., xn os valores de um conjunto de observações e n a quantidade de

observações.
3.2.1 MÉDIA ARITMÉTICA SIMPLES (Dados não-agrupados)
Quando deseja-se conhecer a média dos dados não-agrupados em tabelas de frequências,

determinamos a média aritmética simples através da seguinte equação:
∑x i
x= i =1
n
Exemplo: Sabendo-se que a venda diária de arroz tipo A, durante uma semana, foi de 10, 14,
13, 15, 16, 18 e 12 toneladas, temos, para venda média diária na semana de:
10 + 14 + 13 + 15 + 16 + 18 + 12
x= = 14 toneladas
7
3.2.2 MÉDIA ARITMÉTICA PONDERADA (Dados agrupados)
Quando cada dado da distribuição está associado a um valor de frequência, diz-se que a média
é ponderada (possui peso). Lembre-se que frequência é o número de vezes que um dado se
repete.
3.2.2.1 Sem intervalos de classe: Neste caso a média aritmética ponderada é calculada pela
equação:
∑xf i i
x= i =1
n
Exemplo: Considere a variável x como sendo “o número de televisores de 50 famílias

entrevistadas”.
i xi fi fri Fi x i fi
1 0 3 0,06 3 0
Assim, tem-se que:
2 1 15 0,30 18 15
3 2 18 0,36 36 36 n
4
5
3
4
10
4
0,20
0,08
46
50
30
16
∑xf i i
97
n n n
x= i =1
= = 1,94
n 50
∑ f = 50 ∑ fr =1,00
i =1
i
i =1
i ∑ x f =97
i =1
i i
Obs: Como x (quantidade de televisores) é uma variável discreta, como interpretar o resultado
obtido? Afinal, não existem 1,94 televisores. O valor médio de 1,94 televisores identifica uma
tendência de que as famílias entrevistadas possuem, em média, dois televisores.
3.2.2.2 Com intervalos de classe: Neste caso, convenciona-se que todos os valores incluídos
em um determinado intervalo de classe são representados pelo seu ponto médio. Assim,
determina-se a média aritmética ponderada por meio da equação:
∑xf i i
x= i =1
k , onde:
∑f
i =1
i
• xi é o ponto médio da classe i.

• k é o número total de classes
Exemplo: Calcular a média de vendas dos 36 vendedores de uma empresa (vide capítulo 2).
Solução: Após estabelecer o rol para organizar os dados e distribuí-los em intervalos de

classes, têm-se a seguinte tabela:
VENDAS (x 1000) APURAÇÃO fi P.M. (xi) fri Fi xifi

75 ⊢ 87 ‫׀‬ 5 81 5/36 5 405
87 ⊢ 99 П 11 93 11/36 16 1023
99 ⊢ 111 П 7 105 7/36 23 735
111 ⊢ 123 ‫׀‬ 5 117 5/36 28 585
123 ⊢ 135 4 129 4/36 32 516
135 ⊢ 147 4 141 4/36 36 564
k k k
TOTAL 36 ∑ fi = 36
i =1
∑ fri = 1
i=1
∑ x f = 3828
i =1
i i
Assim, tem-se que:

k
∑xf i i
3828
x= i =1
k
= = 106,3
∑f
36
i
i =1
3.3 DESVIO EM RELAÇÃO À MÉDIA
Denomina-se desvio em relação à média a diferença entre cada elemento de um conjunto de

valores e a média aritmética. Sendo o desvio denotado por di, temos:
di = x i − x
Para o exemplo apresentado:

• venda diária de arroz tipo A, durante uma semana: 10, 14, 13, 15, 16, 18 e 12 toneladas;
• venda média diária na semana de: x = 14 ton
di = x i − x ⇒ d1 = 10 –14 = -4 d5 = x 5 − x ⇒ d5 = 16 –14 = 2
d2 = x 2 − x ⇒ d2 = 14 –14 = 0 d6 = x 6 − x ⇒ d6 = 18 –14 = 4
d3 = x 3 − x ⇒ d3 = 13 –14 = -1 d7 = x 7 − x ⇒ d7 = 12 –14 = -2
d4 = x 4 − x ⇒ d4 = 15 –14 = 1
3.4 PROPRIEDADES DA MÉDIA
k
3.4.1 A soma algébrica dos desvios tomados em relação à média é nula: ∑d
i =1
i =0
Conforme o exemplo anterior, temos:
∑ d = (− 4) + 0 + (− 1) + 1 + 2 + 4 + (− 2) = 0
i =1
i
3.4.2 Somando-se ou subtraindo-se uma constante (c) de todos os valores de uma variável, a
média do conjunto é aumentada (ou diminuída) desta constante:
yi = xi ± c ⇒ y = x ± c
Seja c=3. Somando 3 a cada um dos valores da variável x, temos que:
y1 = 13; y2 = 17; y3 = 16; y4 = 18; y5 = 19; y6 = 21; y7 = 15.
Donde:
7
∑y
i =1
i = 13 + 17 + 16 + 18 + 19 + 21 + 15 = 119
119
Sendo n = 7: y= = 17 ⇒ y = x + c = 14 + 3 = 17
7
3.4.3 Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante
(c), a média do conjunto é multiplicada (ou dividida) por essa constante:
xi x
yi = xi • c ⇒ y = x • c ou yi = ⇒y=
c c
Seja c=3. Multiplicando por 3 cada um dos valores da variável x, temos que:
y1 = 30; y2 = 42; y3 = 39; y4 = 45; y5 = 48; y6 = 54; y7 = 36.
Donde:
7
∑y
i=1
i = 30 + 42 + 39 + 45 + 48 + 54 + 36 = 294
294
Sendo n = 7: y= = 42 ⇒ y = x + c = 14 • 3 = 42
7
3.5 OUTRAS MÉDIAS
3.5.1 MÉDIA HARMÔNICA: é calculada pela equação:
−1
⎡ n −1 ⎤
⎢ ∑ x i .f i ⎥
MH = ⎢ i=1 n ⎥
⎢ fi ⎥⎥
⎢⎣ ∑ i=1 ⎦
Exemplo: Calcule a média harmônica para os seguintes dados:
a) xi =: 2, 4, 6, 8 fi = 1, i = 1, 2,...., n (média harmônica simples)
−1 −1
⎡ 1 1 1 1⎤ ⎡ 12 + 6 + 4 + 3 ⎤
⎢ + + + ⎥ ⎢ ⎥ ⎡ 25 ⎤
−1
96
MH = ⎢ 2 4 6 8 ⎥ =⎢ 24
⎥ =⎢ = = 3,84
⎢ 4 ⎥ ⎢ 4 ⎥ ⎣ 24 ⋅ 4 ⎥⎦ 25
⎣⎢ ⎦⎥ ⎣⎢ ⎦⎥
b) xi =: 2, 4, 6, 8 fi = 4, 3, 2, 1 (média harmônica ponderada)
−1
⎡⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞ ⎤ ⎡ 48 + 18 + 8 + 3 ⎤
−1
⎢ ⎜ 2 ⋅ 4 ⎟ + ⎜ 4 ⋅ 3 ⎟ + ⎜ 6 ⋅ 2 ⎟ + ⎜ 8 ⋅ 1⎟ ⎥ ⎢ ⎥ −1
⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎥ 24 ⎡ 77 ⎤ 240
MH= ⎢ =⎢ ⎥ =⎢ = = 3,12
⎢ 4 + 3 + 2 +1 ⎥ ⎢ 10 ⎥ ⎣ 240 ⎥⎦ 77
⎢ ⎥ ⎢⎣ ⎥⎦
⎣ ⎦
3.5.2 MÉDIA GEOMÉTRICA: é calculada pela equação:
MG = n
x 1f1 ⋅ x 2f 2 ⋅ L ⋅ x nf n
Exemplo: Calcule a média geométrica para os seguintes dados:
a) xi =: 2, 4, 6, 8 fi = 1, i = 1, 2,...., n (média geométrica simples)
MG = 4
21 ⋅ 41 ⋅ 61 ⋅ 81 = 4
384 = 4 , 43
b) xi =: 2, 4, 6, 8 fi = 4, 3, 2, 1 (média geométrica ponderada)
MG=
10
2 4 ⋅ 4 3 ⋅ 6 2 ⋅ 81 = 10
16 ⋅ 64 ⋅ 36 ⋅ 8 = 3 , 52
3.5.3 MÉDIA QUADRÁTICA: é calculada através da equação:
1
⎡ n 2 ⎤ 2 n
⎢ ∑ x i .f i ⎥ ∑x 2
i .f i
MQ = ⎢ i=1 n ⎥ = i=1
⎢ fi ⎥⎥
n
⎢⎣ ∑ i=1 ⎦
∑f i=1
i
Exemplo: Calcule a média quadrática para os seguintes dados:
a) xi =: 2, 4, 6, 8 fi = 1, i = 1, 2,...., n (média quadrática simples)
22 + 4 2 + 6 2 + 8 2 120
MQ = = = 5,48
1+ 1+ 1+ 1 4
b) xi =: 2, 4, 6, 8 fi = 4, 3, 2, 1 (média quadrática ponderada)
MQ= (2 2
) ( ) ( ) (
⋅ 4 + 42 ⋅ 3 + 62 ⋅ 2 + 82 ⋅1
=
) 200
= 4,47
4 + 3 + 2 +1 10
3.6 MEDIANA (Md)
A mediana é o número que se encontra no centro de uma série de números, estando estes
números ordenados de forma crescente ou decrescente. A mediana é o valor que separa o
conjunto de números em dois subconjuntos de mesmo número de elementos.
3.6.1 A MEDIANA EM DADOS NÃO AGRUPADOS
Para determinar a mediana em dados não agrupados, procede-se da seguinte forma:
a) ordenar os dados (de forma crescente ou decrescente);

b) determinar a posição (p) da mediana, através da equação:
N+1
p= , onde N é o número de elementos da série.
2
c) identificação da mediana: se o número de elementos (N) for ímpar, a mediana representa

exatamente o valor central dos dados, definido pela posição (p). Se o número de elementos
for par, a mediana corresponde a média dos dois valores centrais da série.
Exemplo A: Determine a mediana da seguinte série de valores: 1, 7, 5, 11, 9.
a) ordenação: 1, 5, 7, 9, 11.
5 +1
b) posição (p) da mediana: p = = 3 (a mediana é o 3.o elemento)
2
c) como o número de elementos da série é ímpar (5), o valor da mediana é Md = 7.
(1, 5, 7, 9, 11)
Exemplo B: Determine a mediana da seguinte série de valores: 1, 7, 5, 11, 50, 9.
a) ordenação: 1, 5, 7, 9, 11, 50.

6 +1
b) posição (p) da mediana: p = = 3,5 (a mediana está entre o 3.o e o 4.o elemento)
2
c) como o número de elementos da série é par (6), o valor da mediana é a média dos dois
valores centrais da série.
7+9
Sendo a série ordenada (1, 5, 7, 9, 11, 50), então: Md = =8
2
3.6.2 A MEDIANA EM DADOS AGRUPADOS
Assim como no estudo das médias, a mediana pode ser agrupada em frequências sem
intervalos de classe ou em uma distribuição de frequência.
3.6.2.1 SEM INTERVALOS DE CLASSE
Identifica-se a frequência acumulada imediatamente superior à metade da soma das

frequências. A mediana será o valor da variável que corresponde a tal frequência acumulada.
Exemplo: Seja x “o número de televisores de 50 famílias entrevistadas”.
i xi fi Fi
1 0 3 3
2 1 15 18
3 2 18 36
4 3 10 46
5 4 4 50
n
∑ f = 50
i =1
i
a) posição: p = 50 + 1 = 25 ,5 (a mediana é o 25,5.o elemento)

2
b) Md = 2 ( o 25,5.o elemento possui 2 televisores)

3.6.2.2 COM INTERVALOS DE CLASSE
Neste caso, deve-se realizar os seguintes passos:
a) calcular as frequências acumuladas;

b) calcular a posição da mediana: p = N
2
c) determinar a classe na qual se encontra a mediana: a classe mediana (a classe
correspondente à frequência acumulada imediatamente superior a p = N ).
2
d) determinar o limite inferior da classe mediana: Linf
e) determinar a amplitude do intervalo da classe mediana: h
f) determinar a frequência acumulada da classe anterior à da classe mediana: Fant
g) determinar a frequência da classe mediana: f *
h) Determinar o valor da mediana através da expressão:
⎛ p − Fant ⎞
Md = L inf + h ⋅ ⎜ ⎟
⎝ f* ⎠
Exemplo: Calcule a mediana para a distribuição abaixo.

75 ⊢ 87 ‫׀‬ 5 81 5/36 5 405
87 ⊢ 99 П 11 93 11/36 16 1023
99 ⊢ 111 П 7 105 7/36 23 735
111 ⊢ 123 ‫׀‬ 5 117 5/36 28 585
123 ⊢ 135 4 129 4/36 32 516
135 ⊢ 147 4 141 4/36 36 564
k k k
TOTAL 36 ∑ fi = 36
i =1
∑ fri = 1
i=1
∑ x f = 3828
i =1
i i
a) as frequências acumuladas estão ilustradas na sexta coluna;

36
b) a posição da mediana: p = N = = 18
2 2
c) a classe mediana: [99, 111[
d) o limite inferior da classe mediana: Linf = 99
e) a amplitude do intervalo da classe mediana: h = 12
f) a frequência acumulada da classe anterior à da classe mediana: Fant = 16
g) a frequência da classe mediana: f * = 7
h) o cálculo da mediana:
⎛ p − Fant ⎞ ⎛ 18 − 16 ⎞
Md = L inf + h ⋅ ⎜ ⎟ = 99 + 12 ⋅ ⎜ ⎟ = 102,43
⎝ f* ⎠ ⎝ 7 ⎠
3.7 MODA
A moda (Mo) é o valor que ocorre com maior frequência em uma série de valores. Assim, o
salário modal dos empregados de uma fábrica é o salário mais comum, isto é, o salário
recebido pelo maior número de empregados dessa fábrica.
3.7.1 A MODA EM DADOS NÃO AGRUPADOS
A moda é facilmente obtida, bastando somente encontrar o valor que mais se repete.
Exemplo A: Na série { 1, 2, 7, 8, 9, 10, 10, 10, 15 } a moda é igual a 10.
• Há séries nas quais não existe moda, isto é, não há um valor apareça mais vezes que
outros.
Exemplo B: A série { 2, 3, 5, 9, 10, 15 } não apresenta moda. A série é amodal.
• Em outros casos, pode haver dois ou mais valores de concentração. Diz-se, então, que a
série tem dois ou mais valores modais.
Exemplo C: { 2, 3, 5, 5, 5, 6, 6, 9, 9, 9, 11, 12 } apresenta duas modas: 5 e 9. A série é

bimodal.
3.7.2 A MODA EM DADOS AGRUPADOS
3.7.2.1 SEM INTERVALOS DE CLASSE
Uma vez agrupados os dados, determina-se imediatamente a moda encontrando o valor da

variável de maior frequência.
Exemplo: Seja x “o número de televisores”. Entrevistam-se 50 famílias para determinar

quantos televisores cada família possui. Qual a quantidade de televisores que a maioria das 50
famílias possui?
i xi fi Fi
1 0 3 3
2 1 15 18
3 2 18 36
4 3 10 46
5 4 4 50
n
∑ f = 50
i =1
i
De acordo com a tabela acima, Mo = 2 (a maioria das 50 famílias entrevistadas possui 2

televisores).
3.7.2.2 COM INTERVALOS DE CLASSE
A classe que apresenta a maior frequência é denominada classe modal. Pela definição,
podemos afirmar que a moda, neste caso, é o valor dominante que está compreendido entre os
limites da classe modal. Para calcular a moda é preciso determinar:
a) a classe modal
b) limite inferior da classe modal: Linf
c) a amplitude do intervalo da classe modal: h
d) a frequência da classe anterior à da classe modal: Fant
e) a frequência da classe posterior à da classe modal: Fpost
f) a frequência da classe modal: FMo
g) o cálculo da Moda:
⎛ FMo − Fant ⎞
Mo = Linf − h⋅ ⎜ ⎟
⎜F + F − 2F ⎟
⎝ post ant Mo ⎠
Exemplo: Calcule a moda para a distribuição abaixo.

75 ⊢ 87 ‫׀‬ 5 81 5/36 5 405
87 ⊢ 99 П 11 93 11/36 16 1023
99 ⊢ 111 П 7 105 7/36 23 735
111 ⊢ 123 ‫׀‬ 5 117 5/36 28 585
123 ⊢ 135 4 129 4/36 32 516
135 ⊢ 147 4 141 4/36 36 564
k k k
TOTAL 36 ∑ fi = 36
i =1
∑ fri = 1
i=1
∑ x f = 3828
i =1
i i
a) a classe modal: [87, 99[

b) limite inferior da classe modal: Linf = 87
c) a amplitude do intervalo da classe modal: h =12
d) a frequência da classe anterior à da classe modal: Fant = 5
e) a frequência da classe posterior à da classe modal: Fpost = 7
f) a frequência da classe modal: FMo = 11
g) o cálculo da Moda:
⎛ ⎞
Mo = Linf − h⋅ ⎜
FMo − Fant ⎟ = 87 − 12 ⋅ ⎛⎜ 11 − 5 ⎞
⎟⎟ = 94,2
⎜F + F − 2F ⎟ ⎜ + − ( )
⎝ post ant Mo ⎠ ⎝ 5 7 2 . 11 ⎠
3.8 CONSIDERAÇÕES SOBRE O EMPREGO DA MÉDIA ARITMÉTICA, MEDIANA E MODA
A média aritmética pode ser calculada a partir de dados brutos, sem a necessidade de
agrupamento ou ordenação dos valores originais, o que não ocorre com a mediana e com a
moda. A média aritmética é a medida de posição que possui a maior estabilidade.
A mediana é preferível à media aritmética quando:
a) deseja-se conhecer exatamente o ponto médio da distribuição: aquele valor que divide a
distribuição em duas partes iguais.
b) Quando há valores extremos que afetam de maneira acentuada a média aritmética.
A moda é utilizada quando deseja-se obter uma medida rápida e aproximada de posição
central ou quando a medida de posição deva ser o valor mais típico (comum) da distribuição.
3.9 POSIÇÃO RELATIVA DA MÉDIA, MEDIANA E MODA
De acordo com a curva da distribuição em forma de sino, tem-se que:
• Curva simétrica: x = Md = Mo
• Curva assimétrica positiva: Mo < Md < x
• Curva assimétrica negativa: x < Md < Mo
x = Md = Mo
Curva simétrica
Mo < Md < x x < Md < Mo

Curva assimétrica positiva Curva assimétrica negativa
3.10 SEPARATRIZES
Além das medidas de posição apresentadas, existem outras que consideradas isoladamente,
não são medidas de tendência central. Tais medidas – os quartis, os percentis e os decis –
assom como a mediana, são conhecidas por separatrizes.
3.10.1 QUARTIS: São os valores de uma série que dividem em quatro partes iguais. Existem,
portanto, três quartis.
• primeiro quartil (Q1): valor situado de tal modo na série que uma quarta parte (25%) dos
dados é menor que ele e as três quartas partes restantes (75%) são maiores.
• segundo quartil (Q2): coincide com a mediana (Q2 = Md).
• terceiro quartil (Q3): valor situado de tal modo que as três quartas partes (75%) dos dados
são menores que ele e uma quarta parte (25%) é maior.
Quando os dados estão agrupados, determinam-se os quartis a partir das equações:
⎛ ∑ fi ⎞ ⎛ 3∑ fi ⎞
⎜ − Fant ⎟ ⎜ − Fant ⎟
Q1 = Linf + h⋅ ⎜ 4 ⎟ e Q3 = Linf + h⋅ ⎜ 4 ⎟
⎜ f* ⎟ ⎜ f* ⎟
⎜ ⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠
3.10.2 PERCENTIS: são os noventa e nove valores que separam uma série em 100 partes
iguais. Indicamos estes valores por: P1, P2, ...., P99.
Pode-se notar que: P50 = Md, P25 = Q1 e P75 = Q3
O cálculo de um percentil é obtido pela fórmula:
⎛ k ∑ fi ⎞
⎜ − Fant ⎟
Pk = Linf + h⋅ ⎜ 100 ⎟
⎜ f* ⎟
⎜ ⎟
⎝ ⎠
Por exemplo, para o 32.o percentil temos:
⎛ 32∑ fi ⎞
⎜ − Fant ⎟
P32 = Linf + h⋅ ⎜ 100 ⎟
⎜ f* ⎟
⎜ ⎟
⎝ ⎠
CAPÍTULO 4
MEDIDAS DE DISPERSÃO OU VARIABILIDADE
4.1 INTRODUÇÃO
As medidas de dispersão servem para indicar o quanto os dados de uma distribuição

apresentam-se dispersos em torno de um valor de tendência central (média ou mediana)
tomado como ponto de comparação.
Exemplo intuitivo: Considere os seguintes conjuntos de valores das variáveis X, Y e Z:
X = {80, 80, 80, 80, 80} Y = {78, 79, 80, 81,82} Z = { 15, 25, 60, 130, 170 }
É possível observar que:

• os três conjuntos apresentam a mesma média aritmética = 400/5 = 80
• o conjunto X é mais homogêneo que Y e Z, já que todos os valores são iguais à média.
• O conjunto Y é mais homogêneo que o conjunto Z, pois há menor diversificação entre cada
um de seus valores e a média representativa.
Logo o conjunto X apresenta dispersão nula e o conjunto Y apresenta uma dispersão menor
que o conjunto Z. Apresentam-se a seguir as medidas de dispersão.
4.2 AMPLITUDE TOTAL
É a única medida de dispersão que não tem na média o ponto de referência. É a diferença
entre o maior e o menor valor observado: AT = Xmáx - Xmín.
4.2.1 DADOS NÃO AGRUPADOS
Exemplo: Considere os conjuntos X, Y e Z apresentados anteriormente. A amplitude total será:
ATX= 80 – 80 = 0 ATY= 82 – 78 = 4 ATZ= 170 – 15 = 155.
4.2.2 DADOS AGRUPADOS
4.2.2.1 SEM INTERVALOS DE CLASSE: neste caso ainda temos: AT = Xmáx - Xmín.
Exemplo: Considere a variável x como sendo “o número de TVs de 50 famílias entrevistadas”.
i xi fi fri Fi x i fi
1 0 3 0,06 3 0
Assim, temos que:
2 1 15 0,30 18 15
3 2 18 0,36 36 36
AT = 4 – 0 = 4
4 3 10 0,20 46 30
5 4 4 0,08 50 16
n n n
∑ f = 50 ∑ fr =1,00
i =1
i
i =1
i ∑ x f =97
i =1
i i
4.2.2.2 COM INTERVALOS DE CLASSE:
A amplitude total é a diferença entre o limite superior da última classe e o limite inferior da
primeira classe.
AT = Lmáx - lmín.
Exemplo: Considere a distribuição abaixo.
VENDAS (x 1000) fi
75 l⎯ 87 5
87 l⎯ 99 11
99 l⎯ 111 7 AT = 147 – 75 = 72.000 unidades
111 l⎯ 123 5
123 l⎯ 135 4
135 l⎯ 147 4
k
TOTAL ∑ f = 36
i
4.3 DESVIO MÉDIO
Desvio médio ou média dos desvios é igual a média aritmética dos valores absolutos dos
desvios tomados em relação à média ou à mediana. Apresentam-se a seguir as equações para
calcular o desvio médio em diferentes situações.
4.3.1 DESVIO MÉDIO EM RELAÇÃO À MÉDIA
a) para dados não agrupados:

n
∑ xi− x
Dx = i =1
b) para dados agrupados:

k
∑ x −x •f
i =1
i i
Dx = n
∑f
i =1
i
4.3.2 DESVIO MÉDIO EM RELAÇÃO À MEDIANA
a) para dados não agrupados:

k
∑ x i − Md
D Md = i=1
b) para dados agrupados:

k
∑ x i − Md • fi
D Md = i =1
k
∑f
i =1
i
4.4 DESVIO PADRÃO (S)
É a medida de dispersão mais utilizada na Estatística. Esta medida representa a raiz quadrada
da média aritmética dos quadrados dos desvios, sendo estes desvios tomados em relação à
média aritmética. As inferências estatísticas podem ser realizadas considerando-se toda a
população ou uma amostra desta (caso mais freqüente na estatística). Apresentam-se a seguir
as expressões para calcular o desvio padrão.
a) Desvio padrão populacional:

⎡ ⎞ ⎤
2
∑ (x )
n ⎛ n
⎜⎜ ∑ x i ⎟⎟ ⎥
2
i − x ⎢ n
∑ x i2 − ⎝ n ⎠ ⎥⎥
i=1 1⎢ i=1
S = =
n n ⎢ i=1
⎢ ⎥
⎢⎣ ⎥⎦
b) Desvio padrão amostral:

⎡ ⎞ ⎤
2
∑ (x )
n ⎛ n
⎜⎜ ∑ x i ⎟⎟ ⎥
2
i− x
⎢
1 ⎢ n 2 ⎝ i=1 ⎠ ⎥
S = i=1
n− 1
= ∑ xi −
n − 1 ⎢ i=1 n ⎥
⎢ ⎥
⎣⎢ ⎦⎥
a) Desvio padrão populacional:

⎡ 2
⎤
∑ (x − )
k ⎛ k ⎞
⎜ ∑ x i fi ⎟⎟
2
i x ⋅ fi ⎢ k ⎜ ⎥
∑ x i2 fi − ⎝ i = 1 n ⎠
1⎢ ⎥
S = i=1
=
n n ⎢ i=1 ⎥
⎢ ⎥
⎢⎣ ⎥⎦
b) Desvio padrão amostral:
⎡ 2
⎤
∑ (x − )
k ⎛ k ⎞
⎜ ∑ x i fi ⎟⎟
2
i x ⋅ fi ⎢ k ⎜ ⎥
∑ x i2 ⋅ fi − ⎝ i = 1 n ⎠
1 ⎢ ⎥
S = i=1
=
n− 1 n − 1 ⎢ i=1 ⎥
⎢ ⎥
⎢⎣ ⎥⎦
4.4.3 OBSERVAÇÕES
a) observe que quando a inferência abrange toda a população, o divisor nas expressões é n.
Caso seja considerada uma amostra da população, o divisor é n –1.
b) as expressões expandidas são mais práticas e frequentemente utilizadas para facilitar o

cálculo computacional.
c) Somando-se (ou subtraindo-se) uma constante k a (de) todos os valores de uma variável, o
desvio padrão não se altera:
yi = xi ± k ⇒ Sy = Sx
d) Multiplicando-se todos os valores de uma variável por uma constante k (k diferente de

zero), o desvio padrão é multiplicado por esta constante:
y i = k⋅ x i ⇒ k⋅ S x
4.5 VARIÂNCIA (S2)
Em termos práticos, a variância representa o quadrado do desvio padrão. Esta medida de

dispersão em geral tem pouca utilidade na Estatística Descritiva, mas é extremamente
importante para a Estatística Indutiva e em combinações de amostras.
Analogamente ao desvio padrão, a variância é calculada considerando-se o agrupamento de

dados (não agrupados ou agrupados) e os dados (populacional ou amostral).
a) Variância populacional:
⎡ 2
⎤
∑ (x − )
n ⎛ n ⎞
⎜ ∑ x i ⎟⎟
2
i x ⎢ n ⎜ ⎥
= ⎢ ∑ x i2 − ⎝ i = 1 ⎠ ⎥
1
S2 = i=1
n n ⎢ i=1 n ⎥
⎢ ⎥
⎢⎣ ⎥⎦
b) Variância amostral:
⎡ ⎞ ⎤
2
∑ (x − x )
n ⎛ n
⎜⎜ ∑ x i ⎟⎟ ⎥
2
i
⎢
1 ⎢ n 2 ⎝ i=1 ⎠ ⎥
S2 = i=1
n− 1
= ∑ xi −
n − 1 ⎢ i=1 n ⎥
⎢ ⎥
⎣⎢ ⎦⎥
a) Variância populacional:
⎡ ⎞ ⎤
2
∑ (x )
k ⎛ k
⎜⎜ ∑ x i f i
2
i − x ⋅ fi ⎢ ⎟⎟ ⎥
1⎢ k ⎝ i=1 ⎠ ⎥
S2 = i=1
= ⎢ ∑ x i2 f i − ⎥
n n i=1 n
⎢ ⎥
⎢⎣ ⎥⎦
b) Variância amostral:
⎡ ⎞ ⎤
2
∑ (x )
k ⎛ k
⎜⎜ ∑ x i f i
2
i − x ⋅ fi ⎢ ⎟⎟ ⎥
1 ⎢ k ⎝ i=1 ⎠ ⎥
S2 = i=1
n− 1
= ∑ x i2 f i −
n − 1 ⎢ i=1 n ⎥
⎢ ⎥
⎢⎣ ⎥⎦
4.6 COEFICIENTE DE VARIAÇÃO (CV)
É definido como o quociente entre o desvio padrão e a média aritmética. É frequentemente

expresso em porcentagem.
S(x )
CV =
x
Sua vantagem é caracterizar a dispersão dos dados em termos relativos ao seu valor médio.
Assim, uma pequena dispersão absoluta pode ser, na verdade, considerável quando
comparada com a ordem de grandeza dos valores da variável e vice-versa.
4.7 EXEMPLOS
Nos exemplos a seguir apresentam-se os cálculos das medidas de dispersão apresentadas

neste capítulo.
4.7.1 DADOS NÃO AGRUPADOS: Seja o conjunto de dados X = { 15, 25, 60, 130, 170 }
Para resolver este exemplo, elabora-se uma tabela que auxiliará o cálculo das medidas de
tendência central e das medidas de dispersão apresentadas nos capítulos 3 e 4,
respectivamente.
xi xi − x xi − x x i − Md x i − Md x i2
15 -65 65 -45 45 225
25 -55 55 -35 35 625
60 -20 20 0 0 3600
130 50 50 70 70 16900
170 90 90 110 110 28900
Σ = 400 Σ =280 Σ =260 Σ =50250
Medidas de tendência central (vide capítulo 3):

n
∑x
i =1
i
400
a) Média Aritmética: x = = = 80
n 5
b) Mediana: Md = 60 ( o valor central da distribuição)
Medidas de Dispersão: após o cálculo da média e da mediana, completam-se as colunas da

tabela acima convenientemente.
a) Amplitude Total: ATX = Xmáx –Xmin = 170 – 15 = 155

n
∑ xi− x
280
b) Desvio Médio em relação à média: D = i =1
= = 56,00
x
n 5
∑ x i − Md
260
c) Desvio Médio em relação à mediana: D Md = i=1
= = 52,00
n 5
⎡ ⎛ n ⎞ ⎤
2
⎢ ⎜⎜ ∑ x i ⎟⎟ ⎥
d) Desvio padrão: 1 ⎢ n 2 ⎝ i=1 ⎠ ⎥ = 1 ⎡ (400 )2 ⎤
S = ∑ xi −
n − 1 ⎢ i=1 ⎥ ⎢ 50250 −
4 ⎣⎢
⎥ = 67,55
⎢
n
⎥
5 ⎦⎥
⎢⎣ ⎥⎦
e) Variância: S = (67,55)2 = 4562,5
S(x ) 67,55
f) Coeficiente de Variação: CV = = * 100 = 84,44%
x 80
4.7.2 DADOS AGRUPADOS SEM INTERVALOS DE CLASSE
Seja x “o número de televisores de 50 famílias entrevistadas”.
i xi fi fri Fi xifi xi − x x i − x ⋅ fi x i − Md x i − Md ⋅ fi xi2 ⋅ fi

1 0 3 0,06 3 0 -1,94 5,82 -2 6 0
2 1 15 0,30 18 15 -0,94 14,10 -1 15 15
3 2 18 0,36 36 36 0,06 1,08 0 0 72
4 3 10 0,20 46 30 1,06 10,6 1 10 90
5 4 4 0,08 50 16 2,06 8,24 2 8 64
Σ = 50 Σ =1,00 Σ = 97 Σ=39,84 Σ=39,00 Σ=241
Medidas de Posição:
n
∑x f i i
a) Média: x = i =1 = 97 = 1,94
n 50
∑f
i =1
i
b) Mediana: p = 50 + 1 = 25 ,5 (a mediana é o 25,5.o elemento) Md = 2

2
Medidas de Dispersão:
a) Amplitude Total: AT = Xmáx –Xmin = 4 – 0 = 4
b) Desvio Médio em relação à média: D =

∑i =1
x i − x fi
39,84
x n
= = 0,80
50
∑f
i=1
i
c) Desvio Médio em relação à mediana: D

∑i =1
x i − Md ⋅ f i
39,00
Md = n
= = 0,78
50
∑f
i=1
i
⎡ ⎛ k ⎞ ⎤
2
⎢ k ⎜ ∑ x i ⋅ fi ⎟⎟ ⎥
⎜
d) Desvio padrão: 1 ⎡ (97 )2 ⎤ = 1,04
∑ x i2 ⋅ fi − ⎝ i = 1 n ⎠ ⎥⎥ =
1 ⎢
S = ⎢ 241 − ⎥
n − 1 ⎢ i=1 49 ⎣⎢ 50 ⎥⎦
⎢ ⎥
⎢⎣ ⎥⎦
e) Variância: S = (1,04)2 = 1,08
S(x ) 1,04
x 1,94
Observação: Embora o emprego do Coeficiente de Variação aparentemente seja mais

atraente para avaliar a dispersão de uma distribuição, é conveniente ressaltar novamente que a
o desvio padrão e a variância são de grande utilização na Estatística Indutiva.
4.7.3 DADOS AGRUPADOS EM INTERVALOS DE CLASSE
Considere a distribuição de frequências apresentada nos Capítulos 2 e 3.
VENDAS (x Apuração fi PM fri Fi xifi xi − x x i − x ⋅ fi x i − Md x i − Md ⋅ fi xi2 ⋅ fi

1000) (xi)
75 I⎯ 87 ‫׀‬ 5 81 5/36 5 405 -25,3 126,50 -21,43 107,15 32.805
87 l⎯ 99 П 11 93 11/36 16 1023 -13,3 146,30 -9,43 103,73 95.139
99 I⎯ 111 П 7 105 7/36 23 735 -1,3 9,10 2,57 17,99 77.175
111I⎯ 123 ‫׀‬ 5 117 5/36 28 585 10,7 53,50 14,57 72,85 68.445
123 I⎯ 135 4 129 4/36 32 516 22,7 90,80 26,57 106,28 66.564
135 I⎯ 147 4 141 4/36 36 564 34,7 138,80 38,57 154,28 79.524
Σ 36 36 1 3828 565,0 562,28 419652
Medidas de tendência central:
∑xf i i
3828
a) Média: x = i =1
k
= = 106,30
∑f
36
i
i =1
⎛ p − Fant ⎞ ⎛ 18 − 16 ⎞
b) Mediana: Md = L inf + h ⋅ ⎜ ⎟ = 99 + 12 ⋅ ⎜ ⎟ = 102,43
⎝ f* ⎠ ⎝ 7 ⎠
Medidas de Dispersão:
a) Amplitude Total: AT = 147.000 – 75.000 = 72.000 unidades
b) Desvio Médio em relação à média: D =

∑i =1
x i − x fi
565,0
x n
= = 15,69
36
∑f
i=1
i
c) Desvio Médio em relação à mediana: D

∑i =1
x i − Md ⋅ f i
562,28
Md = n
= = 15,62
36
∑f
i =1
i
⎡ ⎛ k ⎞ ⎤
2
⎢ ⎜⎜ ∑ x i ⋅ f i ⎟⎟ ⎥
d) Desvio padrão: 1⎢ k 2 ⎝ i=1 ⎠ ⎥ = 1 ⎡ (3828 )2 ⎤
S = ∑ x i ⋅ fi −
n ⎢ i=1 n ⎥ 36
⎢ 419652
⎢⎣
−
36
⎥ = 18,71
⎥⎦
⎢ ⎥
⎣⎢ ⎦⎥
e) Variância: S = (18,71)2 = 350,06
S(x ) 18,71
x 106,30
CAPÍTULO 5
MEDIDAS DE ASSIMETRIA E MEDIDAS DE CURTOSE
5.1 ASSIMETRIA
Conforme visto no Capítulo 3, a assimetria de uma distribuição pode ser verificada ao

compararmos os valores das medidas de tendência central: média, mediana e moda. Ou seja,
de acordo com a curva da distribuição em forma de sino, tem-se que:
• Curva simétrica: x = Md = Mo
• Curva assimétrica positiva: Mo < Md < x
• Curva assimétrica negativa: x < Md < Mo
x = Md = Mo
Curva simétrica
Mo < Md < x x < Md < Mo

Curva assimétrica positiva Curva assimétrica negativa
5.1.1 COEFICIENTE DE ASSIMETRIA
Uma das formas mais usuais de avaliar a assimetria dos dados de uma distribuição é através
do coeficiente de assimetria de Pearson, dado por:
As =
(
3 x − Md), onde:
S
• Md é a mediana, e
• S é desvio padrão.
Convencionalmente afirma-se que se:

• As < 0,15 , a assimetria é considerada pequena
• 0,15 < As < 1, a assimetria é considerada moderada
• As > 1, a assimetria é forte.
Obs: Se o valor de As é positivo, a assimetria é positiva. A assimetria será negativa, caso

contrário.
5.2 CURTOSE
A curtose representa o grau de achatamento de uma distribuição em relação a uma distribuição

padrão, denominada curva normal (curva correspondente a uma distribuição teórica de
probabilidade). Existem três tipos de curvas, segundo o grau de achatamento:
• curva leptocúrtica: quando a distribuição apresenta uma curva de frequência mais

fechada que a curva normal (ou mais aguda na parte superior).
• curva platicúrtica: quando a distribuição apresenta uma curva de frequência mais aberta
que a curva normal (ou mais achatada na parte superior).
• curva mesocúrtica: é a distribuição normal propriamente dita.
leptocúrtica platicúrtica mesocúrtica
5.2 COEFICIENTE DE CURTOSE
Uma fórmula para medida da curtose é:
∑ (x − x )
n ou k
4
i ⋅ fi
i=1
n ou k
∑f i
K= i=1
4
S
Convenciona-se que:
• K = 3 ⇒ curva mesocúrtica
• K > 3 ⇒ curva leptocúrtica
• K < 3 ⇒ curva platicúrtica
5.3 EXEMPLOS
5.3.1 EXEMPLO A: Seja x “o número de televisores de 50 famílias entrevistadas”.
i Xi fi fri Fi xifi xi − x x i − x ⋅ fi x i − Md x i − Md ⋅ fi xi2 ⋅ fi (x − x )

i
4
fi
1 0 3 0,06 3 0 -1,94 5,82 -2 6 0 42,49
2 1 15 0,30 18 15 -0,94 14,10 -1 15 15 11,71
3 2 18 0,36 36 36 0,06 1,08 0 0 72 0,00
4 3 10 0,20 46 30 1,06 10,6 1 10 90 12,62
5 4 4 0,08 50 16 2,06 8,24 2 8 64 72,03
Σ = 50 Σ =1,00 Σ = 97 Σ=39,84 Σ=39,00 Σ=241 Σ= 138,86
Conforme visto anteriormente: x = 1,94 Md = 2 S=1,04
a) Coeficiente de Assimetria: As =
( =
)
3 x − Md 3(1,94 − 2,00 )
= -0,17 (moderada negativa)
S 1,04
b) Coeficiente de Curtose:
∑ (x − x )
n ou k 4
i ⋅ fi
i=1
n ou k
∑f i
138,86
K= i=1
= 50 4 = 2,37 Curva platicúrtica
S 4
(1,04 )
5.3.2 EXEMPLO B: Considere a distribuição de frequências apresentada nos Capítulos 2 e 3.
VENDAS
(x 1000)
fi PM
(xi)
Fi xifi xi − x x i − x ⋅ fi x i − Md x i − Md ⋅ fi xi2 ⋅ fi (x − x ) f
i
4
i
75 I⎯ 87 5 81 5 405 -25,3 126,50 -21,43 107,15 32.805 2048576,04

87 l⎯ 99 11 93 16 1023 -13,3 146,30 -9,43 103,73 95.139 344190,793
99 I⎯ 111 7 105 23 735 -1,3 9,10 2,57 17,99 77.175 19,99
111I⎯ 123 5 117 28 585 10,7 53,50 14,57 72,85 68.445 65539,80
123 I⎯ 135 4 129 32 516 22,7 90,80 26,57 106,28 66.564 1062095,14
135 I⎯ 147 4 141 36 564 34,7 138,80 38,57 154,28 79.524 5799330,91
Σ 36 3828 565,0 562,28 419652 9319752,68
Conforme visto anteriormente: x = 106,30 Md= 102,43 S= 18,71
a) Coef. de Assimetria: As =
( =
)
3 x − Md 3(106,30 − 102,43 )
= 0,62 (moderada positiva)
S 18,71
b) Coeficiente de Curtose:
∑ (x − x ) ⋅ f
n ou k 4
i i
i=1
n ou k
∑f i
9319752,68
36
K= i=1
= =2,11 Curva platicúrtica
S4 (18,71 )4
CAPÍTULO 6
INTRODUÇÃO À PROBABILIDADE
6.1 INTRODUÇÃO
A Probabilidade é o campo da Matemática que trata do estudo dos fenômenos aleatórios. Este
estudo é de grande importância, pois a maioria dos fenômenos de que trata a Estatística são
de natureza aleatória ou probabilística. O conhecimento dos aspectos fundamentais do cálculo
da probabilidades é uma necessidade essencial para o estudo da Estatística Indutiva ou
Inferencial.
6.2 CONCEITOS INICIAIS
6.2.1 EXPERIMENTO ALEATÓRIO
São fenômenos que, mesmo repetido várias vezes sob condições semelhantes, apresentam
resultados imprevisíveis. O resultado final depende do acaso.
Exemplo: Considere o lançamento de uma moeda e observação da sua face superior. Este
experimento pode ser caracterizado por:
• Poder ser realizado inúmeras vezes sob condições essencialmente iguais

• O resultado do experimento não é conhecido “a priori”, mas todos os resultados possíveis
podem ser conhecidos: Cara ou coroa.
• Regularidade estatística: quando a quantidade de experimentos realizados é grande, a
frequência de ocorrência de um resultado particular se aproxima de um valor constante.
Assim, a regularidade estatística mostrará que a frequência de ocorrência do resultado
“cara” se aproxima de 0,5.
6.2.2 ESPAÇO AMOSTRAL
É o conjunto de todos os resultados possíveis de um experimento aleatório. No experimento

aleatório "lançamento de uma moeda” existem dois resultados possíveis: S= {cara, coroa}.
No experimento “lançamento de um dado” existem seis resultados possíveis: S={1, 2, 3, 4, 5, 6}
6.2.3 EVENTO
É qualquer subconjunto do espaço amostral de um experimento aleatório. Em geral é indicado

por uma letra (A, B, C,... ou A1, A2, ...., Ai). Diz-se que um evento A ocorreu se, realizado o
experimento, o resultado obtido pertence a A.
Exemplo: Lançamento de um dado. S = {1, 2, 3, 4, 5, 6}
Evento A1: ocorrência de n.o par: A1 = {2, 4, 6}

Evento A2: ocorrência de n.o ímpar A2 = {1, 3, 5}
Evento A3: ocorrência de n.o menor que 4: A3 = {1, 2, 3}
6.2.4 TIPOS DE EVENTOS
Seja E um evento qualquer, tal que E ⊂ S (E está contido em S), então E é um evento de S.
EVENTO CERTO: E = S, E é um evento certo.
EVENTO IMPOSSÍVEL: um evento impossível é designado por φ (é um conjunto vazio). Por

exemplo, no lançamento de um dado, ocorrer uma face maior que 6. E = φ.
EVENTO ELEMENTAR: evento que só contém um elemento. Por exemplo, no lançamento de

um dado ocorrer a face 3: E = {3}.
EVENTO UNIÃO: A ∪ B ocorre, se ocorre um evento elementar de A ou um evento elementar

de B ou ambos.
A
B
EVENTO INTERSEÇÃO: A ∩ B é um evento que ocorre se A e B ocorrem simultaneamente.
A
B
EVENTOS MUTUAMENTE EXCLUSIVOS: Se A ∩ B = φ
A B
EVENTO COMPLEMENTAR: O evento complementar de A, denotado A , é um evento que

ocorre se e somente se A não ocorrer: ( A = S – A).
A
OBSERVAÇÃO: São válidas as leis e propriedades da teoria dos conjuntos.
A ∪ B = B∪ A ⎫
⎬ propriedad e comutativa
A ∩ B = B∩ A ⎭
A ∪ (B ∪ C) = (A ∪ B) ∪ C = A ∪ B∪ C ⎫
⎬ propriedad e associativ a
A ∩ (B ∩ C) = (A ∩ B) ∩ C = A ∩ B∩ C ⎭
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)⎫
⎬ propriedad e distributi va
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)⎭
A∪ φ = A A∪ S = S A∩ φ = φ
A∩ S = A A∪ A = S A∩ A = φ
S = φ (A ∪ B ) = A ∩B (A ∩ B ) = A ∪B
Exemplo: seja o experimento lançamento de um dado.
S= {1, 2, 3, 4, 5, 6} n(S) = 6
A (ocorrer n.o par): A= {2, 4, 6} n(A) = 3
B (ocorrer n.o ≥ 4): B= {4, 5, 6} n(B) = 3
C (ocorrer n.o ímpar): C= {1, 3, 5} n(C) = 3
A ∪ B ( n.o par ou n.o ≥ 4) A ∪ B = {2, 4, 5, 6} n(A ∪ B) = 4
A ∩ C ( n.o par e n.o ímpar) A ∩ C = { φ} n(A ∩ C) = { φ}
A ∩ B ( n.o par e n.o ≥ 4) A ∩ B = { 4, 6} n(A ∩ B) = 2
A ( n.o não par) A = {1, 3, 5}
C ( n.o não ímpar) C = {2, 4, 6}
B ( n.o < 4) B = {1, 2, 3}
6.3 PROBABILIDADES
Considere um espaço amostral S finito, com todos seus elementos igualmente possíveis de
acontecer. Seja um evento A ( A ⊂ S). A probabilidade do evento A ocorrer é dada por:
n(A) • n(A) é o número de elementos de A

P(A) = • n(S) é o número de elementos de S.
n(S)
PROPRIEDADES:
n( φ) n(S)
a) P( φ) = =0 b) P(S) = =1
n(S) n(S)
n(A)
c) 0 ≤ n(A) ≤ n(S), A ⊂ S ⇒ 0 ≤ ≤ 1 ⇒ 0 ≤ P(A) ≤ 1
n(S)
d) Sejam dois eventos A e B. Então:
n(A ∪ B) n(A) + n(B) − n(A ∩ B) n(A) n(B) n(A ∩ B)

P(A ∪ B) = = = + − = P(A) + P(B) − P(A ∩ B)
n(S) n(S) n(S) n(S) n(S)
Considerando três eventos:
P(A ∪ B∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B∩ C) + P(A ∩ B∩ C)
e) Sejam A e B eventos mutuamente exclusivos (A ∩ B = φ). Então:
n(A ∪ B) n(A) + n(B) − n(A ∩ B) n(A) n(B) n(A ∩ B)

P(A ∪ B) = = = + − = P(A) + P(B)
n(S) n(S) n(S) n(S) n(S)
Obs: De forma mais sucinta, diz-se que dois ou mais eventos são mutuamente exclusivos
quando a realização de um exclui a realização do(s) outro(s). Assim, no lançamento de uma
moeda, o evento "tirar cara" e o evento "tirar coroa" são mutuamente exclusivos, já que, ao se
realizar um deles, o outro não se realiza.
Exemplo: Considere os alunos formandos em um determinado semestre. Um aluno é escolhido

ao acaso. Qual a probabilidade dele:
a) estudar Engenharia c) estudar Matemática ou ser mulher

b) estudar Química e ser homem d) estudar Engenharia ou Química
Homens (H) Mulheres (F) Totais

Matemática (M) 70 40 110
Engenharia (E) 15 15 30
Química (Q) 10 20 30
Informática 20 10 30
Totais 115 85 200
n(E) 30 n(Q∩ H) 10
a) P(E) = = b) P(Q ∩ H) = =
n(S) 200 n(S) 200
110 85 40 155
c) P(M ∪ F) = P(M) + P(F) – P(M ∩ F) = + − =
200 200 200 200
30 30 60
d) P(E ∪ Q) = P(E) + P(Q) = + = (eventos mutuamente exclusivos )
200 200 200
Exemplo: Em um grupo de 500 estudantes, 80 estudam Engenharia, 150 Administração, e 10

Engenharia e Administração. Um aluno é escolhido ao acaso. Qual a probabilidade de que ele
estude:
a) somente Engenharia d) Engenharia ou Administração

b) somente Administração e) Nenhum dos dois cursos
c) Engenharia e Administração
S
70 140 E
a) P(E) = b) P(A) = A
500 500 10
70 140
10
c) P(E∩ A) =
500
d) P(E∪ A) = 80 + 150 − 10 = 220 500 − 220 280

e) P = =
500 500 500 500 500 500
6.4 EVENTOS INDEPENDENTES
Diz-se que dois eventos são independentes quando a realização ou não realização de um dos
eventos não afeta a probabilidade da realização do outro e vice-versa.
Seja P(A) a probabilidade de realização do primeiro evento e seja P(B) a probabilidade de

realização do segundo evento. A probabilidade de que eles se realizem simultaneamente é
igual ao produto das probabilidades de realização dos dois eventos. Ou seja:
P(A ∩ B) = P(A) ⋅ P(B)
Exemplo: Seja o lançamento de dois dados:

1
• a probabilidade de “sair” a face 1 no primeiro dado é P(A) =
6
1
• a probabilidade de “sair” a face 3 no segundo dado é P(B) = .
6
• a probabilidade de “sair” simultaneamente 1 no primeiro dado e 3 no segundo é:
1 1 1
P(A ∩ B) = × =
6 6 36
6.5 ANÁLISE COMBINATÓRIA
Para se determinar o número de resultados possíveis de um experimento, utilizam-se técnicas

de contagem da Análise Combinatória. A Análise Combinatória visa desenvolver métodos que
permitam contar o número de elementos de um conjunto, sendo estes elementos
agrupamentos formados sob certas condições.
6.5.1 O PRINCÍPIO FUNDAMENTAL DA CONTAGEM
Seja E um evento composto da ocorrência de um evento elementar A, seguido da ocorrência

de um evento elementar B. Considerando-se que A pode ocorrer de n(A) formas e B de n(B)
formas, o número n(E) em que E pode ocorrer é dado por:
n(E) = n(A) ⋅ n(B)
Exemplo: Existem 3 estradas ligando as cidades A e B e 4 estradas ligando as cidades B e C.

De quantas formas pode-se ir de A até C, passando por B?
A n( A → B → C ) = n(A → B) ⋅ n(B → C )
C
B n( A → B → C ) = 3 ⋅ 4 = 12
6.5.2 ARRANJOS SIMPLES
Dado um conjunto E de n elementos (a1, a2, ..., an), denominam-se Arranjos Simples dos n
elementos de E, tomados p a p, as sequências formadas de p elementos distintos escolhidos
dentre os n elementos disponíveis.
Neste sentido, a1 a2 a3 e a1 a3 a2 são arranjos diferentes com 3 elementos ( a ordem de

colocação dos p elementos que entram em cada agrupamento é importante).
n!
O cálculo dos Arranjos Simples é dado por: A n,p = A pn =
(n− p)!
Exemplo: Quantos arranjos com duas letras podem ser formados, a partir das letras a, b, c, d?
n! 4!
A n,p = A pn = = = 12 Estes são: {ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc}
(n− p)! ( 4 − 2)!
6.5.3 ARRANJOS COM REPETIÇÃO
São arranjos em que se admite a repetição de cada um dos n elementos até p vezes. São
calculados pela expressão:
ARn,p = ARpn = np
Exemplo: Deseja-se conhecer os números de 3 algarismos (distintos ou não) que podem ser
formados a partir dos algarismos 1, 5, 7, 9.
ARn,p = ARpn = np = 43 = 64
Estes arranjos poderiam ser: 115, 151, 111, 755, 577, 777, ...
6.5.4 PERMUTAÇÕES SIMPLES
Dado um conjunto E de n elementos, chamam-se permutações dos n elementos de E as

sequências formadas com todos os elementos de E, usando cada elemento uma só vez em
cada sequência. Para distinguir dois agrupamentos consideram-se apenas a ordem em que os
elementos estão dispostos. O número de permutações de n elementos é dada por:
Pn = n!
Exemplo: considere E = {a, b, c}, com a, b e c distintos. O número de permutações destes três
elementos são as seis sequências :
Pn = n! ⇒ P3 = 3! = 6 (a, b, c), (a, c, b), (b, a, c), (b, c, a), (c, a, b), (c, b, a)
Observe que (a, b, c) ≠ (a, c, b), ou seja, são agrupamentos distintos (a ordem dos elementos
importa).
6.5.5 PERMUTAÇÕES COM ELEMENTOS REPETIDOS
São permutações com n elementos, com n1 elementos iguais a a1, n2 elementos iguais a a2, ....,
nk elementos iguais a ak. São obtidas pela expressão:
n!
Pnn1 ,n 2 ,...,nk =
n1! n2!.... nk !
Exemplo: Quantas são as permutações distintas da palavra ARARA?
n= 5 n! 5!
n1 = 3 (n.o de repetições da letra A) Pnn1 ,n 2 ,...,nk = = P53,2 = = 10
n1! n2!.... nk ! 3!⋅2!
n2 = 2 (n.o de repetições da letra R)
6.5.6 COMBINAÇÕES SIMPLES
Dado um conjunto E de n elementos, chamam-se combinações simples dos n elementos,

tomados p a p, os subconjuntos não ordenados de E com p elementos. São obtidas pela
expressão:
⎛n⎞ n!
Cn,p = Cpn = ⎜⎜ ⎟⎟ =
⎝ p ⎠ p! (n− p)!
Exemplo: Quantas são as combinações possíveis de duas letras distintas a partir das letras a,
b, c e d?
⎛n⎞ n! ⎛ 4⎞ 4!
Cn,p = Cpn = ⎜⎜ ⎟⎟ = ⇒ C4,2 = C24 = ⎜⎜ ⎟⎟ = =6
⎝ p ⎠ p! (n− p)! ⎝ 2 ⎠ 2! (4 − 2)!
Estas combinações são: (a, b), (a, c), (a, d), (b, c), (b, d), (c, d).
6.5.7 COMBINAÇÕES COM REPETIÇÕES
Combinações com repetições de n elementos, tomados p a p, são todas as combinações em

que os elementos que dela participam surgem repetidos em cada agrupamento até p vezes.
n⋅ (n+ 1) ⋅ (n+ 2) ⋅ ... ⋅ (n+ p− 1)

(CR)n,p =
p!
Exemplo: Determine as combinações com repetição das letras a, b, c , d, tomadas 2 a 2.
n⋅ (n+ 1) ⋅ (n+ 2) ⋅ ... ⋅ (n+ p− 1) 4 ⋅ (4 + 1)

(CR)n,p = ⇒ (CR)4,2 = = 10
p! 2!
As combinações são: (a, a), (a, b), (a, c), (a, d), (b, b), (b, c), (b, d), (c, c), (c, d), (d, d).
6.6 PROBABILIDADE CONDICIONAL
A probabilidade de ocorrência de um evento A, dado que um evento B já ocorreu, é

denominada Probabilidade Condicional de A dado B. Denota-se por: P(A / B).
Ao estabelecer P(A / B), desejamos relacionar A com B, ou seja, queremos saber a proporção
de A a respeito de B. Então o espaço amostral de A / B deverá ser B.
S n(A ∩ B) n(A ∩ B) /n(S)

P(A / B) = =
n(B) n(B) /n(S)
A
B
P(A ∩ B)
P(A / B) =
P(B)
Equivalentemente: P(A ∩ B) = P(B) ⋅ P(A / B) (Teorema da Multiplicação)
Observação 1: Se A e B são independentes, temos:
P(A ∩ B) P(A) ⋅ P(B)

P(A / B) = = = P(A) Analogamente: P(B / A) = P(B)
P(B) P(B)
Observação 2: Extensão do Teorema da Multiplicação para 3 eventos:
P(A ∩ B∩ C) = P(A) ⋅ P(B / A) ⋅ P(C / A ∩ B)
Exemplo: Uma urna U1 contém duas bolas vermelhas e 3 bolas brancas; a urna U2 contém 4
bolas vermelhas e 5 brancas. Uma urna é escolhida ao acaso e dela é extraída uma bola. Qual
a probabilidade de termos urna U1 e bola vermelha?
P(U1∩ V) 1 2 1
P(V / U1 ) = ∴ P(U1∩ V) = P(U1 ) ⋅ P(V / U1 ) = ⋅ =
P(U1 ) 2 5 5
Visualização pelo Diagrama de Árvore:
V
2/5 1 3 3
P(U1∩ B) = ⋅ =
2 5 10
U1 3/5
B
1/2 1 4 2
P(U2 ∩ V) = ⋅ =
2 9 9
4/9 V
1/2 U2 1 5 5
5/9 P(U2 ∩ B) = ⋅ =
2 9 18
B
6.7 PARTIÇÃO DE UM ESPAÇO AMOSTRAL
Seja um experimento aleatório E em que A1, A2, ..., An são os n eventos do espaço amostral S.
Os eventos A1, A2, ..., An constituem uma partição do espaço amostral S se:
a) P (A1), P(A2), ..., P(An) > 0;

b) A1∩ A2, A1 ∩ A3, ...., A1 ∩ An, ..., Ai ∩ Aj ≠ 0, ∀ i ≠ j (eventos mutuamente exclusivos 2 a 2)
c) A1∪ A2, ∪ A3 ∪ An = S
Seja B um evento qualquer, sendo que B ⊂ S. Então é válida a relação:
B = (A1∩ B) ∪ (A2 ∩ B) ∪ .... ∪ ( An ∩ B)
Como os eventos (A1 ∩ B), (A2 ∩ B), .... , ( An ∩ B) também são mutuamente exclusivos 2 a 2:
P(B) = P(A1∩ B) + P(A2 ∩ B) + .... + P( An ∩ B) (Teorema da Probabilidade Total)
Exemplo: A urna U1 tem duas bolas vermelhas e três brancas. A urna U2 tem 3 bolas
vermelhas e uma branca. A urna U3 tem quatro bolas vermelhas e e duas brancas. Uma urna é
escolhida ao acaso e dela é extraída uma bola. Qual a probabilidade da bola ser vermelha?
V
2/5
U1 3/5
B
P(V) = P(U1∩ V) + P(U2 ∩ V) + P( U3 ∩ V)
1/3
V ⎛ 1 2 ⎞ ⎛ 1 3 ⎞ ⎛ 1 4 ⎞ 109
3/4 P(V) = ⎜ ⋅ ⎟+⎜ ⋅ ⎟+⎜ ⋅ ⎟ =
1/3 ⎝ 3 5 ⎠ ⎝ 3 4 ⎠ ⎝ 3 6 ⎠ 180
U2
1/4 B
1/3
4/6 V
U3
2/6
B
6.8 TEOREMA DE BAYES
É uma consequência do teorema da probabilidade total e do conceito da probabilidade

condicional. Se A1, A2, ..., An constituem uma partição de um espaço amostral S e sabendo-se
da ocorrência de um evento B qualquer, a probabilidade de que um evento Ai tenha sido a
causa deste evento é dado por:
P(A i ∩ B)
P(A i / B) = , donde: P(B) = P(A1∩ B) + P(A2 ∩ B) + .... + P( An ∩ B)
P(B)
Exemplo: Uma urna U1 tem 3 bolas vermelhas e 4 brancas. Uma urna U2 tem 6 bolas
vermelhas e 2 brancas. Uma urna é escolhida ao acaso e dela é extraída uma bola. Qual a
probabilidade de:
a) urna U1 e bola vermelha;

b) bola vermelha;
c) se a bola é vermelha, qual a probabilidade dela ter sido extraída da urna U2 ?
V
3/7 1 3 3
P(U1∩ V) = P(U1 ) ⋅ P(V/U1 ) = ⋅ =
2 7 14
U1 4/7
B
1/2
1 3 1 6 33
P(V) = P(U1∩ V) + P(U2 ∩ V) = ⋅ + ⋅ =
2 7 2 8 56
6/8 V
1/2 U2
2/8 1 6
⋅
P(U2 ∩ V) 2 8 7
B P(U2 / V) = = =
P(V) 33 11
56
6.9 DISTRIBUIÇÃO DE PROBABILIDADE DE UMA VARIÁVEL ALEATÓRIA DISCRETA
Seja E um experimento aleatório e S o espaço amostral associado a este evento. Seja X uma
variável aleatória discreta com contradomínio Rx = {x1, x2, ..., xn}, isto é, X só pode assumir os
valores x1, x2, ...., xn.
A função que associa a cada elemento xi a probabilidade P(xi) = P(X = xi) é denominada função
de probabilidade da variável aleatória X, observando-se que:
a) P(x i ) ≥ 0, ∀ i
n
b) ∑ P(x ) = 1
i =1
i
Esta função é uma função de probabilidade no ponto e indica a probabilidade de uma variável
aleatória assumir um dos valores de X.
Exemplo: seja o lançamento de uma moeda 3 vezes consecutivas. O espaço amostral S é

composto das seguintes sequências possíveis de caras (k) e coroas (c):
Diagrama de árvore: k
1/2
1/2
k c
1/2
1/2 k
k 1/2
c
1/2 1/2
c
1/2 k
1/2 k
1/2 1/2
c c
1/2
1/2
c k
1/2
c
Seja X uma variável aleatória que representa o número de caras. Os diagramas e a tabela
ilustram os eventos que compõem o espaço amostral e as probabilidades de ocorrência da
variável aleatória X.
S
Evento X = n.o de caras P(X = xi)
kkk Rx kkk 3 1/8

kck kkc 2
kkc 3 kck 2 3/8
ckk 2 ckk 2
cck kcc 1
1
ckc ckc 1 3/8
0
cck 1
kcc
ccc 0 1/8
ccc
P(xi)
Graficamente temos: 3/8
1/8
xi
0 1 2 3
A função que associa a cada número real xi a probabilidade P (X≤ xi) é denominada Função
de Distribuição de Probabilidade (acumulada) da variável aleatória X, simbolizada por F(X):
F(X) = P (X≤ xi)
Exemplo: No lançamento de uma moeda 3 vezes consecutivas, a probabilidade de que ocorra

no máximo uma coroa é dada por:
1 3 1
P(X≤ 1) = P(X = 0) + P(X = 1) ⇒ P(X≤ 1) = + =
8 8 2
6.9.1 VALOR ESPERADO DE UMA VARIÁVEL ALEATÓRIA DISCRETA
Seja X uma variável aleatória discreta com valores possíveis x1, x2, ..., xn. Seja a sua função
probabilidade P(xi) = P(X = xi); i = 1, 2, ...., n, ....
Então o valor esperado de X (também denominado esperança matemática de X ou valor médio

de X), denotado por E(X), é definido como:
∞
E(X) = µ (X)= ∑ x P(x )
i =1
i i
Em suma: Um experimento que tem n eventos aos quais se associam os resultados x1, x2, ...,
xn, cujas probabilidades são respectivamente p1, p2, ..., pn, o valor esperado é dado por:
∑ x P(x ) = x P(x ) + x P(x

i =1
i i 1 1 2 2 ) + .... + xnP(xn )
Se E(X) = 2, significa que se considerarmos um grande número de determinações de X (x1, x2,

..., xn) e calcularmos a média destes valores de X, esta média estará próxima de 2.
Exemplo 1: Considere um seguro para roubo de carro. O valor do carro é $50.000,00. O

prêmio anual a ser pago para segurar o carro é de $4.000,00. A probabilidade do carro ser
roubado é de 2%. O contrato é justo?
∞
E(X)= ∑ x P(x ) = 50.000 x 0,02 + (-4.000) x 0,98= -$2.920,00
i =1
i i (desfavorável para o segurado)
Exemplo 2: Seja X a quantidade de um produto da marca A vendida em uma semana, cuja

distribuição de probabilidades está representada na tabela abaixo:
xi 0 1 2 3 4 5
P(X=xi) 0,1 0,1 0,2 0,3 0,2 0,1
a) Esperança de venda semanal: E(X) = (1 ⋅ 0,1) + (2 ⋅ 0,2) + (3 ⋅ 0,3 ) + (4 ⋅ 0,2) + (5 ⋅ 0,1) = 2,7
b) se para cada produto vendido lucra-se $50,00 e os custos fixos semanais é de $20,00, qual
o lucro líquido esperado?
Lucro bruto = 50x Lucro líquido = 50x –20

E(50x – 20) = 50E(X) – 20 = (50 x 2,7) – 20 = $115,00
6.9.1.2 PROPRIEDADES DO VALOR ESPERADO
Sejam a e b duas constantes e X e Y duas variáveis aleatórias. Valem as propriedades:
E(a) = a E(a+bX) = a + bE(X)

E(aX) = aE(X) E(X ± Y) = E(X) ± E(Y)
E(a+X) = E(X) +a E(X.Y) = E(X) . E(Y), X e Y são v. a. independentes
6.9.2 VARIÂNCIA DE UMA VARIÁVEL ALEATÓRIA DISCRETA
Seja X uma variável aleatória discreta. Define-se a vari6ancia de X, denotada por Var(X) ou σ 2x
da seguinte forma:
∑ [x − E(x )]
2
Var(X) = σ 2x = i ⋅ Pi ,
i =1
que é a média dos quadrados dos desvios em relação à média.

Uma fórmula que é muito utilizada por facilitar os cálculos numéricos é dada por:
Var(X) = E(X2 ) − [E(X)]2 = ∑x 2

i ⋅ P(xi ) − [∑ x ⋅ P(x )]
i i
2
6.9.2.1 PROPRIEDADES DA VARIÂNCIA
Sejam X e Y duas variáveis aleatórias, e a uma constante. Valem as propriedades:
Var(a) = a Var(a+X) = Var(X)

Var(a.X) = a2 Var(X) Var(X ± Y) = Var(X) ± Var(Y), X e Y são v. a. independentes
Exemplo: Um empresário pretende estabelecer uma firma para a montagem de um produto

composto de um cilindro (produzido pela fábrica A) e uma esfera (produzido pela fábrica B). A
montagem consiste em juntar as duas partes e pintá-las. O produto acabado deve ter o
comprimento (definido pelo cilindro) e a espessura (definido pela esfera) dentro de certos
limites, o que somente poderá ser verificado após a montagem.
Para estudar a viabilidade de seu negócio, o empresário quer ter uma idéia da distribuição do
lucro da peça montada. Cada componente pode ser classificado como bom, longo ou curto,
conforme sua medida esteja dentro da especificação, maior ou menor respectivamente. Foram
obtidos dos fabricantes o preço de cada componente ($5,00) e as probabilidades de cada
componente com as características bom .longo e curto (veja tabela abaixo).
Produto Fábrica A (cilindro) Fábrica B (esfera)

Dentro das especificações: bom (B) 0,80 0,70
Maior que as especificações: longo (L) 0,10 0,20
Menor que as especificações: curto (C) 0,10 0,10
Distribuição da produção das fábricas A e B, de acordo com as medidas das peças
Se o produto final apresentar algum componente com a característica C, ele será irrecuperável
e o conjunto será vendido como sucata ao preço de $5,00. Cada componente longo poderá ser
recuperado a um custo adicional de $5,00. Se o preço da venda de cada unidade for de
$25,00, como será a frequência de distribuição da variável X: lucro por conjunto
montado?
Solução: como os componentes vêm de fábricas diferentes, vamos supor que a classificação
das esferas e dos cilindros são eventos independentes. Temos o seguinte diagrama de árvore:
Diagrama de árvore:
Cilindro Esfera
0,70 B
0,20
B L
0,10
0,80 C
0,70 B
0,10 0,20
L L
0,10
C
0,10
0,70 B
0,20
C L
0,10
C
A tabela abaixo apresenta o espaço amostral e a probabilidade de ocorrênciade cada evento. A

última coluna foi elaborada combase nas informações sobre preços. Por exemplo, uma
montagem LB (cilindro longo e esfera boa), do preço de venda deve-se descontar: $10,00
(custos dos componentes) e $5,00 (recuperação do cilindro longo). Então, o lucro x deste
conjunto será $10,00.
Produto Probabilidade Lucro por montagem (X)

BB 0,56 15
BL 0,16 10
BC 0,08 -5
LB 0,07 10
LL 0,02 5
LC 0,01 -5
CB 0,07 -5
CL 0,02 -5
CC 0,01 -5
Distribuição de probabilidade das possíveis composições de montagem
A partir da tabela acima, verifica-se que X pode assumir um dos seguintes valores:
• 15, se ocorrer o evento A1 = {BB}

• 10, se ocorrer o evento A2 = {BL, LB}
• 5, se ocorrer o evento A3 = {LL}
• -5, se ocorrer o evento A4 = {BC, LC, CB, CL, CC}
A construção da tabela abaixo nos auxiliará na determinação da Variância e do Desvio padrão

da distribuição.
xi (xi)2 P(xi) xi.P(xi) (xi.)2.P(xi)

15 225 0,56 8,4 126
10 100 0,23 2,3 23
5 25 0,02 0,1 0,5
-5 25 0,19 -0,95 4,75
Σ 375 1,00 9,85 154,25
n
a) Valor Médio: E(X) = µ (X)= ∑ x P(x ) = 9,85
i=1
i i
Ou seja: Sabendo-se que 56% das montagens deve produzir um lucro de $15,00, 23% um
lucro de $10,00 e assim por diante, o lucro médio por conjunto montado é 9,85 (caso as
informações consideradas estejam corretas).
b) Variância: Var(X) = ∑x 2
i ⋅ P(x i ) − [∑ x ⋅ P(x )] = 154, 25 – (9,85)
i i
2 2
= 57,23
c) Desvio Padrão: S(X) = 7,57
d) Gráfico de P(X):
P(X)
0,60
0,50
0,40
0,30
0,20
0,10
-5 xi
0 5 10 15
6.10 MODELOS PROBABILÍSTICOS PARA VARIÁVEIS ALEATÓRIAS DISCRETAS
Um estudo aprofundado das variáveis aleatórias é de grande importância para construção de

modelos probabilísticos para situações reais e consequentemente para a estimação de seus
parâmetros. Para algumas destas distribuições existem tabelas que facilitam o cálculo das
probabilidades, em função dos seus parâmetros. Apresentaremos as seguintes distribuições:
Uniforme, Bernoulli, Binomial, Poisson, Hipergeométrica, Geométrica para tempo de espera e
distribuição conjunta de variáveis aleatórias discretas.
6.10.1 DISTRIBUIÇÃO UNIFORME DISCRETA
É o caso mais simples de v.a. discreta, em que cada valor possível ocorre com a mesma
probabilidade. Ou seja: a v.a. discreta X, assumindo os valores x1, x2, ...., xn tem distribuição
uniforme se e somente se:
1
P(x = x i ) = P(x i ) = , para todo i = 1, 2, ..., n.
n
É possível verificar que:

1 n
E(X) = ∑ x i e
1⎡
Var(X) = ⎢∑ x i2 −
(∑ xi ) 2
⎤
⎥
n i =1 n⎢ n ⎥⎦
⎣
A função de distribuição acumulada é dada por:
1 n(X)
F(X) = ∑
(x i ≤ x) n
=
n
, onde n(X) é o número de xi ≤ X.
P(X) Função de Probabilidade F(X) Função de Distribuição
1,0
2/n
1/n 1/n
xi xi
x1 x2 x3 xn x1 x2 x3 xn
Exemplo: seja X a v.a. que indica o número de pontos marcados na face superior de um dado,
quando ele é lançado. A tabela abaixo apresenta os valores de X:
xi 1 2 3 4 5 6 Total
P(X=xi) 1/6 1/6 1/6 1/6 1/6 1/6 1,0
Então temos que:
1 n 1 21
E(X) = ∑ xi = [1 + 2 + 3 + 4 + 5 + 6] = = 3,5
n i =1 6 6
1⎡
Var(X) = ⎢∑ x i2 −
(∑ xi ) 2
⎤ 1⎡
⎥ = ⎢(1 + 4 + ... + 36 ) −
(21) ⎤ 35
2
⎥= = 2,9
n⎢
⎣
n ⎥⎦ 6 ⎣⎢ 6 ⎦⎥ 12
Função de Probabilidade F(X) Função de Distribuição

P(X)
6/6
3/6
2/6
1/6
1/6
xi xi
1 2 3 4 5 6 1 2 3 4 5 6
6.10.2 DISTRIBUIÇÃO DE BERNOULLI
Em muitos casos interessa-se em experimentos que caracterizam a ocorrência de sucesso ou

fracasso. Por exemplo:
a) lançamento de uma moeda: o resultado ou é cara, ou é coroa;

b) lançamento de um dado: ou ocorre a face 3, ou ocorre uma outra face (1, 2, 4, 5 ou 6);
c) uma peça é escolhida num lote de 500 peças: a peça é perfeita ou defeituosa.
Convenciona-se dizer que sucesso representa a ocorrência do resultado desejado. Nos

exemplos acima, a ocorrência de sucesso poderia ser (cara, face 3, peça perfeita) e fracasso
(coroa, face diferente de 3, peça defeituosa).
Define-se a variável aleatória X, que assume apenas dois valores: 1 (se ocorrer sucesso) e 0
(se ocorrer fracasso). Denota-se por p a probabilidade de sucesso, ou seja: P(sucesso) = p.
Assim temos que:
P (X =0) = 1 – p P (X =1) = p
É possível concluir que: E(X) = p Var(X) = p – p2 = p(1 - p)
⎧0, se x < 0
⎪
E também: F(X) = ⎨1 − p, se 0 ≤ x < 1
⎪1 se x ≥ 1
⎩
P(X) Função de Probabilidade F(X) Função de Distribuição
1,0
1-p 1- p
xi xi
0 1 0 1
6.10.3 DISTRIBUIÇÃO BINOMIAL
Chama-se de experimento binomial ao experimento:
a) que consiste de n ensaios de Bernoulli;

b) cujos ensaios são independentes; e
c) para o qual a probabilidade de sucesso em cada ensaio é sempre igual a p, 0 < p <1.
A variável aleatória X, correspondente ao número de sucessos num experimento binomial, tem

distribuição binomial b (n, p), com função de probabilidade:
⎛n⎞
b (k; n,p) = P(X=k, n, p) = ⎜⎜ ⎟⎟ ⋅ pk ⋅ qn −k , k = 0, 1, ...., n.
k ⎝ ⎠
Nesta função, a probabilidade de sucesso é representada por p e a probabilidade de fracasso é

representada por q.
A média e a variância de uma v.a. binomial , com parâmetros n e p são dadas, respectivamente
por:
E(X) = np Var (X) = npq
Exemplo: Seja o lançamento de uma moeda não tendenciosa quatro vezes consecutivas.
Considere X a v. a. que represente o sucesso (cara) por S. Temos então o seguinte quadro:
FFFF SFFF SSFF SSSF SSSS

FSFF SFSF SSFS
FFSF SFFS SFSS
FFFS FSSF FSSS
FSFS
FFSS
X 0 1 2 3 4
prob. de cada seq. q4 pq3 p2q2 p3q p4
n.o de sequências ⎛ 4⎞ ⎛ 4⎞ ⎛ 4⎞ ⎛ 4⎞ ⎛ 4⎞
1 = ⎜⎜ ⎟⎟ 4 = ⎜⎜ ⎟⎟ 6 = ⎜⎜ ⎟⎟ 4 = ⎜⎜ ⎟⎟ 1 = ⎜⎜ ⎟⎟
0
⎝ ⎠ 1
⎝ ⎠ 2
⎝ ⎠ 3
⎝ ⎠ 4
⎝ ⎠
P (X) ⎛ 4⎞ 0 4 ⎛ 4⎞ 3 ⎛ 4⎞ 2 2 ⎛ 4⎞ 3 ⎛ 4⎞ 4 0
⎜⎜ ⎟⎟ p q ⎜⎜ ⎟⎟ pq ⎜⎜ ⎟⎟ p q ⎜⎜ ⎟⎟ p q ⎜⎜ ⎟⎟ p q
⎝0⎠ ⎝ 1⎠ ⎝ 2⎠ ⎝3⎠ ⎝ 4⎠
Existem tabelas que visam facilitar o cálculo das probabilidades de uma distribuição binomial.
Em geral, essas tabelas fornecem as probabilidades: P (X = k) ou P (X ≤ k) ou P (X ≥ k).
Outros valores podem ser obtidos através das leis das probabilidades:
P (X = k) = P (X ≤ k) – P (X ≤ k -1)
P (a ≤ X ≤ b) = P (X ≤ b) – P (X ≤ a - 1)
P (X > k) = 1 - P(X ≤ k)
Exemplo: Uma urna contém 4 bolas vermelhas e 6 brancas. Uma bola é extraída ao acaso,
observada sua cor e posta novamente na urna. O experimento é repetido 5 vezes. Qual a
probabilidade de observarmos?
a) exatamente 3 bolas vermelhas;

b) pelo menos uma bola vermelha.
4 2 3
• Sucesso: bola vermelha p = = • Fracasso: bola branca q=
10 5 5
3 2
⎛n⎞ ⎛5⎞ ⎛ 5 ⎞⎛ 2 ⎞ ⎛ 3 ⎞
a) P (X = k= 3) = ⎜⎜ ⎟⎟ ⋅ pk ⋅ qn −k = ⎜⎜ ⎟⎟ ⋅ p3 ⋅ q5 − 3 = ⎜⎜ ⎟⎟⎜ ⎟ ⎜ ⎟ = 0,2304
⎝k ⎠ ⎝3⎠ ⎝ 3 ⎠⎝ 5 ⎠ ⎝ 5 ⎠
b) P (X = k ≥ 1) = P (X=k = 1) + P (X=k = 2) + P (X=k = 3) + P (X=k = 4) + P (X=k = 5)
0 5
⎛ 5 ⎞⎛ 2 ⎞ ⎛ 3 ⎞
P (X = k ≥ 1) = 1 – P (X = k = 0) = 1 - ⎜⎜ ⎟⎟⎜ ⎟ ⎜ ⎟ = 1 – 0, 0081 = 0, 9224
⎝ 0 ⎠⎝ 5 ⎠ ⎝ 5 ⎠
Exemplo: Da produção mensal de uma máquina foi retirada uma amostra de 5 peças. Sabe-
se que esta máquina apresenta um percentual de peças defeituosas constante ao longo do
tempo e igual a 15%. Qual a probabilidade de que:
a) exatamente duas peças sejam defeituosas

b) mais de duas sejam defeituosas.
2 3
⎛n⎞ ⎛5⎞ ⎛ 5 ⎞⎛ 15 ⎞ ⎛ 85 ⎞
a) P (X = k= 2) = ⎜⎜ ⎟⎟ ⋅ pk ⋅ qn −k = ⎜⎜ ⎟⎟ ⋅ p 2 ⋅ q5 − 2 = ⎜⎜ ⎟⎟⎜ ⎟ ⎜ ⎟ = 0,1388
⎝k ⎠ ⎝ 2⎠ ⎝ 2 ⎠⎝ 100 ⎠ ⎝ 100 ⎠
b) P(X > 2)= 1 - P (X=k=0) + P (X=k= 1) + P (X=k= 2) = 1 – 0,4437 – 0,3915 – 0,1382= 0,0266
6.10.4 DISTRIBUIÇÃO HIPERGEOMÉTRICA
Esta distribuição é adequada quando consideramos extrações casuais feitas sem reposição
de uma população dividida segundo dois atributos.
Seja uma população de N objetos, r dos quais têm o atributo A e N-r dos objetos têm o atributo
B. Uma amostra de n elementos é escolhida ao acaso, sem reposição. Seja X a v.a. que indica
o número de elementos da amostra que possui o atributo A. Deseja-se calcular a probabilidade
de que a amostra contenha k elementos com o atributo A. Essa probabilidade é dada por:
⎛ r ⎞ ⎛ N− r ⎞
⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎟
⎝ k ⎠ ⎝ n− k ⎟⎠
P(X = k) =
⎛N⎞
⎜⎜ ⎟⎟
⎝n⎠
N− n
Além disso: E(X) = np Var (X) = np(1 − p)
N− 1
Se N é muito grande comparado com n, extrações com ou sem reposição serão praticamente
equivalentes, de modo que as probabilidades obtidas pela distribuição binomial serão
praticamente iguais às probabilidades obtidas pela distribuição hipergeométrica.
Exemplo: Considere em lote de N = 100 peças, onde r = 10 são defeituosas. Escolhendo 5

peças sem reposição, a probabilidade de não se obter peças defeituosas é:
⎛10 ⎞ ⎛ 90 ⎞
⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎟⎟
0 5
P(X = k = 0) = ⎝ ⎠ ⎝ ⎠ = 0,584
⎛100 ⎞
⎜⎜ ⎟⎟
⎝ 5 ⎠
6.10.5 DISTRIBUIÇÃO GEOMÉTRICA PARA TEMPO DE ESPERA
No experimento de Bernoulli os ensaios se repetem n vezes, com n pré-estabelecido.

Suponhamos que o número de ensaios não é fixado e que estes se repetem até ocorrer o
primeiro sucesso. Seja X o número de ensaios requerido para produzir um sucesso. Assim
temos:
⎛ ⎞
P (X = k) = P (F... FS) ⎜⎜ F
12 F S ⎟⎟ = qk −1⋅ p
...3
⎝ k −1 ⎠
Além disso: E(X) =

1
Var (X) =
(1− p)
p p2
Observação: A distribuição geométrica é utilizada frequentemente em estudos de populações

com características raras (incidência de uma doença sanguínea rara). Nesse caso pode-se
optar por examinar n indivíduos (binomial) e correr o risco de não ter a informação, ou continuar
examinando até ocorrer o primeiro sucesso (geométrica).
Exemplo: Um biólogo quer pesquisar a incidência de uma certa doença numa determinada
localidade, sendo p a fração da população infectada. Os indivíduos serão escolhidos
aleatoriamente e examinados até encontrar o primeiro infectado. Quantas pessoas espera-se
observar?
Se a população é grande, pode-se assumir que a fração p é praticamente constante de ensaio

para ensaio. Portanto, as condições de Bernoulli se satisfazem aproximadamente. Então, da
média da distribuição geométrica:
1
E(X) =
p
p 0,01 0,03 0,05 0,10 0,20 0,30 0,50

E(X) 100 33,3 20 10 5 3,33 2
6.10.6 DISTRIBUIÇÃO DE POISSON
Seja X uma v.a. discreta. Diz-se que X tem uma distribuição de Poisson com parâmetro λ > 0,
se:
e− λλ k
P(X = k) = , k = 0, 1, 2, ..., n.
k!
Para esta distribuição, temos: E(X) = µ = λ Var (X) = λ
6.10.6.1 DISTRIBUIÇÃO DE POISSON: APROXIMAÇÃO DA DISTRIBUIÇÃO BINOMIAL
Quando o número (n) de experimentos necessários para a modelagem de um fenômeno é

grande e a probabilidade de sucesso (p) é muito pequena, os valores da distribuição binomial
podem ser aproximados pela distribuição de Poisson (na realidade, essa aproximação visa
principalmente facilitar os cálculos). Neste caso, temos a seguinte fórmula:
e − np (np )
k
P(x = k) = , onde:
k!
• Esta equação representa a probabilidade de que exatamente k sucessos ocorram num

determinado período
• λ = np é o número médio de sucessos que ocorre num dado intervalo. É a taxa de
acontecimentos de sucesso.
• n é o número de experimentos (tentativas)
• p é a probabilidade de sucesso
6.10.6.2 DISTRIBUIÇÃO DE POISSON: MODELO PARA FENÔMENOS TÍPICOS
A distribuição de Poisson é frequentemente utilizada em situações onde somente é conhecido

o número médio de ocorrências (np) de um experimento de Bernoulli.
Para um evento ocorrendo no tempo, cada instante pode ser considerado como um
experimento, no qual o evento sucesso pode ou não ocorrer. Em uma unidade de tempo, há
virtualmente um número infinito de experimentos, com a suposição de que poucas ocorrências
de sucesso acontecem. Nesta situação necessita-se de um modelo que envolva a taxa média
de ocorrências (np), mas não necessite de n e p especificamente. São exemplos destes
fenômenos:
• número de chamadas telefônicas em um certo período de tempo;

• número de falhas de um computador em um dia de operação;
• número de terremotos em um período de tempo; e
• número de acidentes de trânsito por semana num cruzamento perigoso.
Exemplo: Em um cruzamento de tráfego intenso, a probabilidade p de um carro sofrer um

acidente é de 0,0001. No período de 14 às 16 horas, cerca de 1000 carros passam no
cruzamento. Nestas condições, qual a probabilidade de que dois ou mais acidentes ocorram
neste período?
Observe que:
• sucesso é ocorrer acidente, com probabilidade p.

• fracasso é não ocorrer acidente, com probabilidade 1- p.
• a probabilidade de sucesso é muito pequena, p = 0,0001
• o número de experimentos ou tentativas é grande: n = 1000.
Nestas condições é possível utilizar a distribuição de Poisson como aproximação da

distribuição binomial, tal que:
λ = np = 1000 x 0,0001 = 0,1
P (X≥ 2) = 1 – P (X = k =0) – P(X = k =1)
e − 0,1(0,1) e − 0,1(0,1)
0 1
P(x = k = 0) = = 0,9048 P(x = k = 1) = = 0,09048

0! 1!
logo: P (X≥ 2) = 1 – P (X = k =0) – P(X = k =1) = 1 – 0,9048 – 0,0905 = 0,0047
Exemplo: Uma loja verifica que a demanda de Tvs 14” é 3%. Se são vendidas 50 Tvs por dia,
determine a probabilidade de que sejam vendidas:
a) exatamente duas tvs 14”; b) mais de três tvs 14”.
• λ é a taxa de ocorrência de sucessos (venda de tvs 14”) – representa a média das vendas
de tvs 14”em um dia.
• λ = np = 50 x 0,03 = 1,5
Utilizando a distribuição de Poisson:
e −1,5 (1,5)2
a) P(x = k = 2) = = 0,2510
2!
b) P (X>3) = 1 – P(X ≤ 3) = 1 – (P (X = k =0) + P(X = k =1) + P (X = k =2) + P(X = k =3))
⎛ (1,5)0 (1,5)1 (1,5)2 (1,5)3 ⎞

P (X>3) = 1 - e −1,5 ⎜⎜ + + + ⎟ = 1 − 0,2230 x(4,1875) = 0,0656
⎝ 0! 1! 2! 3! ⎟⎠
Observação importante: utilize a planilha Excel para verificar os resultados dos exemplos
apresentados nesta apostila. Acesse a categoria Estatística e utilize:
• a função DISTRBINOM, para calcular a distribuição binomial,

• a função POISSON, para calcular a distribuição de Poisson,
• a função DISTHIPERGEOM, para calcular a distribuição Hipergeométrica.
6.11 VARIÁVEIS ALEATÓRIAS MULTIDIMENSIONAIS
6.11.1 DISTRIBUIÇÃO CONJUNTA
Ao descrevermos os resultados de um experimento, muitas vezes atribuímos a um mesmo

ponto amostral os valores de duas ou mais variáveis aleatórias.
Exemplo: Seja a composição de famílias de três crianças quanto ao sexo. Definamos:
X = número de meninos
⎧1, se o primeiro filho for homem

Y= ⎨
⎩0, se o primeiro filho for mulher
Z = número de vezes que houve variação de sexo entre um nascimento e outro, dentro da
mesma família.
Com essas informações, e supondo que as possíveis combinações tenham a mesma

probabilidade, obtém-se a tabela abaixo. Nesta tabela, por exemplo, o evento HMH indica que
o primeiro filho é homem, o segundo é mulher, e o terceiro é homem.
Eventos Probabilidade X Y Z
HHH 1/8 3 1 0
HHM 1/8 2 1 1
HMH 1/8 2 1 2
MHH 1/8 2 0 1
HMM 1/8 1 1 1
MHM 1/8 1 0 2
MMH 1/8 1 0 1
MMM 1/8 0 0 0
As distribuições de probabilidade das variáveis aleatórias X, Y e Z podem ser obtidas desta

tabela e estão ilustradas nas tabelas apresentadas a seguir:
X 0 1 2 3 Y 0 1 Z 0 1 2
P(X) 1/8 3/8 3/8 1/8 P(Y) 1/2 1/2 P(Z) 1/4 1/2 1/4
As probabilidades associadas aos pares de valores nas variáveis X e Y estão ilustradas na

tabela abaixo. Nesta tabela, obtida a partir da tabela inicial, P (X, Y) = P (X = xi, Y = yj) denota
a probabilidade do evento {X = xi e Y = yj} = = {X = xi} ∩ (Y = yj}. Essa tabela é denominada
distribuição conjunta de X e Y (distribuição bidimensional da v.a. (X, Y)).
(X, Y) P(X, Y) Eventos

(0, 0) 1/8 MMM
(1, 0) 2/8 MHM, MMH
(1, 1) 1/8 HMM
(2, 0) 1/8 MHH
(2, 1) 2/8 HHM, HMH
(3, 1) 1/8 HHH
A partir da tabela inicial também é possível formar as distribuições conjuntas das variáveis X e
Z, de Y e Z, assim como a distribuição conjunta de X, Y e Z, que encontra-se na tabela abaixo.
Nesta última distribuição, P (X, Y, Z) = P (X = xi, Y = yj, Z = zk):
(X, Y, Z) P (X, Y, Z) Eventos

(0, 0, 0) 1/8 MMM
(1, 0, 1) 1/8 MMH
(1, 0, 2) 1/8 MHM
(1, 1, 1) 1/8 HMM
(2, 0, 1) 1/8 MHH
(2, 1, 1) 1/8 HHM
(2, 1, 2) 1/8 HMH
(3, 1, 0) 1/8 HHH
Uma maneira mais cômoda de representar a distribuição conjunta é por meio de tabelas de
dupla entrada, conforme representada abaixo:
x 0 1 2 3 P(Y)
y
0 1/8 2/8 1/8 0 1/2
1 0 1/8 2/8 1/8 1/2
P(X) 1/8 3/8 3/8 1/8 1
A primeira e a última coluna desta tabela dão a distribuição de Y, (Y, P(Y)), enquanto que a
primeira e última linha da mesma tabela dão a distribuição de X, (X, P(X)). Essas distribuições
são chamadas distribuições marginais. Por exemplo:
P(X = 1) = P (X = 1, Y = 0) + P (X = 1, Y = 1) = 2/8 +1/8 = 3/8.
P(Y=0) = P(X =0, Y= 0) + P( X= 1, Y=0) + P(X=2, Y=0) + P(X=3, Y=0) = 1/8 + 2/8 + 1/8 +0 = 1/2
A representação gráfica das variáveis aleatórias bidimensionais (X, Y) exige gráficos com três
eixos: um para a v.a. X, outro para a v.a. Y e um terceiro eixo z para a probabilidade conjunta
P(X, Y). A figura abaixo apresenta a distribuição conjunta apresentada na tabela acima. A
dificuldade de desenhar e interpretar estes gráficos muitas vezes impossibilita a utilização
deste recurso.
z
0,375
0,250
0,125
1 2 3
x
1
y
6.11.2 DISTRIBUIÇÃO CONDICIONAL
Seja xi, um valor de X, tal que P(X = xi)= P(xi)>0. A probabilidade condicional de Y =yj, dado
que X = xi é dada por:
P(X = x i, Y = y j )
P(Y = y j /X = xi ) = , j = 1, 2, ...., m.
P(X = xi )
A esperança condicional de X, dado que Y = yj, é definida por:
n
E(X/Y = y j ) = ∑ xiP(X = x i /Y = y j )
i =1
Exemplo: Calcular a probabilidade P(X = 2 /Y = 1) . Considerando a distribuição conjunta e a

definição de probabilidade condicional temos que:
P(X = 2, Y = 1) 2 / 8
P(X = 2 /Y = 1) = = = 1/ 2
P(Y = 1) 1/ 2
Da mesma forma calculam-se as demais probabilidades e a distribuição condicional de X, dado

que Y = 1. A tabela abaixo ilustra estes valores.
xi 1 2 3
P(X = x i /Y = 1) 1/4 1/2 1/4
A esperança condicional de de X, dado que Y = 1 é dada por:
n
⎛ 1⎞ ⎛ 1⎞ ⎛ 1⎞
E(x/y = 1) = ∑ x iP(x = x i /y = 1) = ⎜1 x ⎟ + ⎜ 2 x ⎟ + ⎜ 3 x ⎟ = 2
i=1 ⎝ 4⎠ ⎝ 2⎠ ⎝ 4⎠
De maneira análoga podemos obter a distribuição condicional de Y, dado que X = 2.
yi 0 1
P(Y = yi /X = 2) 1/3 2/3
A esperança condicional neste caso é dada por:
m
⎛ 1⎞ ⎛ 2⎞ 2
E(Y/X = 2) = ∑ y jP(Y = y j /X = 2) = ⎜ 0 ⋅ ⎟ + ⎜1⋅ ⎟ =
j =1 ⎝ 3⎠ ⎝ 3⎠ 3
6.11.3 INDEPENDÊNCIA
As variáveis aleatórias X e Y, assumindo os valores x1, x2, ... e y1, y2, ...., respectivamente, são
independentes se e somente se , para todo par de valores (xi, yj) de X e Y, tivermos que:
P(X = xi , Y = y j ) = P(X = x i ) ⋅ P(Y = y j )

Basta que a condição não se verifique para um par (xi, yj) para que X e Y sejam dependentes.
6.11.4 FUNÇÕES DE VARIÁVEIS ALEATÓRIAS
Considere a tabela da distribuição conjunta das v.a. X e Y. Podemos então considerar a v.a.
X+Y, ou a v.a. XY. A soma X +Y é definida naturalmente: a cada resultado do experimento, ela
associa a soma dos valores X e Y, ou seja:
(X + Y)(w) = X(w) + Y(w)
Do mesmo modo: (XY)(w) = X(w) Y(w)
Obtemos, então a seguinte tabela:
(X, Y) (X + Y) XY P(xi, yj)

(0, 0) 0 0 1/8
(0, 1) 1 0 0
(1, 0) 1 0 2/8
(1, 1) 2 1 1/8
(2, 0) 2 0 1/8
(2, 1) 3 2 2/8
(3, 0) 3 0 0
(3, 1) 4 3 1/8
A partir desta tabela, obtemos as distribuições de X + Y e XY, respectivamente:
X+Y 0 1 2 3 4 XY 0 1 2 3
P(X+Y) 1/8 2/8 2/8 2/8 1/8 P(XY) 4/8 1/8 2/8 1/8
Seja X uma v.a. com valores x1, ..., xn e probabilidades P(x1), ..., P(xn). Seja Y uma v.a. com
valores y1, ..., ym e probabilidades P(y1), ..., P(ym). Seja P(x i , y j ) = P(X = x i, Y = y j ) , i = 1,..., n;
j = 1,..., m. Se g(xi, yj) for uma função de X e Y, então:
n m
E[g(X, Y)] = ∑∑ g(x , y )P(x , y )
i=1 j =1
i j i j
• Se Z = g(xi, yj) = X + Y, então:
n m n m n m
E(Z) = E(X + Y) = ∑ ∑ (x + y ) P(x , y ) = ∑ ∑ (x ) P(x , y ) + ∑ ∑ (y ) P(x , y )
i =1 j = 1
i j i j
i =1 j = 1
i i j
i =1 j = 1
j i j
n m
Para um i fixo, ∑ P(x , y ) = P(x ) e para um j fixo, ∑ P(x , y ) = P(y ) , então:
i =1
i j i
j =1
i j i
n m
E(Z) = E(X + Y) = ∑ xi P(xi ) +
i =1
∑ y P(y ) =
j =1
j i E(X) + E (Y)
• Seja W = g(xi, yj) = XY. Se X e Y são variáveis aleatórias independentes, então:
E(XY) = E(X) E (Y)
n m n m
Prova: E(W) = E(XY) = ∑ ∑ (xi y j ) P(xi, y j ) = ∑ ∑ (xi y j ) P(xi ) P(y j )
i =1 j = 1 i =1 j = 1
n m
Logo, E(XY) = ∑ x P(x ) ∑ y P(y ) = E(X) E(Y)
i =1
i i
j =1
j i
• A recíproca não é verdadeira: podemos ter E(XY) = E(X) E(Y), e X e Y serem dependentes.
Para o exemplo dado, temos que:
⎛ 1⎞ ⎛ 2⎞ ⎛ 2⎞ ⎛ 2⎞ ⎛ 1⎞
E (X + Y) = ⎜ 0 x ⎟ + ⎜1 x ⎟ + ⎜ 2 x ⎟ + ⎜ 3 x ⎟ + ⎜ 4 x ⎟ = 2
⎝ 8⎠ ⎝ 8⎠ ⎝ 8⎠ ⎝ 8⎠ ⎝ 8⎠
⎛ 4 ⎞ ⎛ 1⎞ ⎛ 2⎞ ⎛ 1⎞
E(XY) = ⎜ 0 x ⎟ + ⎜1 x ⎟ + ⎜ 2 x ⎟ + ⎜ 3 x ⎟ = 1
⎝ 8⎠ ⎝ 8⎠ ⎝ 8⎠ ⎝ 8⎠
6.11.5 COVARIÂNCIA ENTRE DUAS VARIÁVEIS ALEATÓRIAS
Se X e Y são duas v. a, a covariância é o valor médio do produto dos desvios de X e Y em

relação às suas respectivas médias, e é definida por:
Cov(X, Y) = E[(X – E(X)) (Y – E(Y))]
Supondo que X assuma os valores x1, ..., xn e Y os valores y1, ..., ym e que
P(xi , y j ) = P(X = x i, Y = y j ) , então a covariância pode ser escrita na forma:
Cov(X, Y) = E[(X – E(X)) (Y – E(Y))] = E[XY - XE(Y) – YE(X) + E(X)E(Y)]
Cov(X, Y) = E(XY) –E(X)E(Y) – E(Y)E(X) +E(X)E(Y) =
Cov(X, Y) = E(XY) – E(X)E(Y)
OBSERVAÇÕES:
• quando Cov(X, Y) = 0, diz-se que as v.a. X e Y são não correlacionadas
• Var (X + Y) = Var (X) + Var (Y) + 2 Cov(X, Y)
• Se X e Y forem independentes: Cov(X, Y) = 0 , então: Var (X + Y) = Var (X) + Var (Y)

6.11.6 CORRELAÇÃO ENTRE DUAS VARIÁVEIS ALEATÓRIAS
O coeficiente de correlação é uma medida da relação linear entre as variáveis X e Y. Este

coeficiente é definido por:
Cov(X, Y)
ρ(X, Y) = , -1 ≤ ρ(XY) ≤ 1,
σ(X) σ(Y)
onde σ(X) e σ(Y) são os desvios padrão de X e Y, respectivamente.
O grau de associação linear entre X e Y varia à medida que ρ(X, Y) varia entre –1 e 1. Quando
ρ(X, Y) = ± 1, existe uma correlação linear perfeita entre X e Y, pois Y= aX +b. Isto é: se ρ(X,
Y)=1, a > 0, e se ρ(X, Y) = -1, a < 0.
Define-se o Coeficiente de correlação amostral por:
1 n
∑ (x i − x )(y i − y )
n− 1 i =1
r= , onde:
SxSy
x e y são as médias amostrais e Sx e Sy são os desvios padrão amostrais.
Exemplo: seja a distribuição conjunta das v. a. X e Y. Então podemos calcular:
x 0 1 2 P(Y)
y
1 3/20 3/20 2/20 8/20
2 1/20 1/20 2/20 4/20
3 4/20 1/20 3/20 8/20
P(X) 8/20 5/20 7/20 1,00
n
E(X) = µ (X)= ∑ x P(x ) = ⎛⎜⎝ 0 × 20
i=1
i i
8 ⎞ ⎛
⎟ + ⎜ 1×
5 ⎞ ⎛
⎠ ⎝ 20 ⎠ ⎝
⎟ + ⎜2×
7 ⎞ 19
⎟=
20 ⎠ 20
n
E(Y) = µ (Y)=
i=1
i
8 ⎞ ⎛
∑ y P(y ) = ⎛⎜⎝1× 20
i ⎟ + ⎜2 ×
⎠ ⎝
4 ⎞ ⎛
⎟ + ⎜3 ×
20 ⎠ ⎝
8 ⎞ 40
⎟=
20 ⎠ 20
=2
⎛ 3 ⎞ ⎛ 3 ⎞ ⎛ 2 ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 2 ⎞ ⎛ 4 ⎞ ⎛ 1 ⎞ ⎛ 3 ⎞ 38
E(XY)= ⎜ 0 ⋅ ⎟ + ⎜1⋅ ⎟ + ⎜ 2 ⋅ ⎟ + ⎜ 0 ⋅ ⎟ + ⎜ 2 ⋅ ⎟ + ⎜ 4 ⋅ ⎟ + ⎜ 0 ⋅ ⎟ + ⎜ 3 ⋅ ⎟ + ⎜ 6 ⋅ ⎟ =
⎝ 20 ⎠ ⎝ 20 ⎠ ⎝ 20 ⎠ ⎝ 20 ⎠ ⎝ 20 ⎠ ⎝ 20 ⎠ ⎝ 20 ⎠ ⎝ 20 ⎠ ⎝ 20 ⎠ 20
38 ⎛ 19 ⎞
Cov(X, Y) = E(XY) – E(X)E(Y) = − ⎜2× ⎟=0
20 ⎝ 20 ⎠
Ou seja: as variáveis X e Y são não correlacionadas.

Exemplo: Considere a distribuição conjunta de probabilidades de X e Y dada pela tabela
y 0 1 2 P(X)
x
0 0,10 0,30 0,20 0,60
1 0,10 0,20 0,10 0,40
P(Y) 0,20 0,50 0,30 1,00
A partir da distribuição conjunta podemos elaborar as seguintes tabelas:
X 0 1 Total Y 0 1 2 Total
P(X) 0,60 0,40 1,00 P(Y) 0,20 0,50 0,30 1,00
XP(X) 0 0,40 0,40 YP(Y) 0 0,50 0,60 1,10
X2P(X) 0 0,40 0,40 Y2P(Y) 0 0,50 1,20 1,70
Conforme visto anteriormente, podemos calcular a covariância e a correlação

n n
E(X) = µ (X)= ∑ x P(x ) = 0,40
i=1
i i E(Y) = µ (Y)= ∑ y P(y ) = 1,10
i =1
i i
E(XY)= (0 ⋅ 0 ⋅ 0,10) + (0 ⋅ 1⋅ 0,30) + (0 ⋅ 2 ⋅ 0,20) + (1⋅ 0 ⋅ 0,10) + (1⋅ 1⋅ 0,20) + (1⋅ 2 ⋅ 0,20) = 0,40
σ 2x = = ∑x 2
i ⋅ P(x i ) − [∑ x ⋅ P(x )] = (0,40) – (0,40) = 0,24
i i
2 2
⇒ ρx= 0,49
σ 2y = = ∑ y 2j ⋅ P(y j ) − [∑ y ⋅ P(y )] = (1,70) – (1,10) = 0,49

j j
2 2
⇒ ρx= 0,70
Cov(X, Y) = E(XY) – E(X)E(Y) = 0,40 − 0,40 × 1,10 = −0,04 ( )

Cov(x, y) − 0,04
ρ(x, y) = = = −0,117
σ(x) σ(y) 0,49 ⋅ 0,70
Ou seja: existe uma pequena correlação entre as variáveis X e Y.

CAPÍTULO 7
DISTRIBUIÇÕES DE PROBABILIDADE DE VARIÁVEIS ALEATÓRIAS CONTÍNUAS
7.1 INTRODUÇÃO
Uma função X, definida sobre o espaço amostral S e assumindo valores num intervalo de
números reais, é chamada variável aleatória contínua. A distribuição de probabilidade de
uma variável aleatória contínua pode ser visualizada como uma forma suavizada de um
histograma de frequências relativas (h.f.r.) baseado em um grande número de observações.
Exemplo: Seja a estatura de 100 crianças do colégio A. Estes valores são registrados em cm,
com aproximações a inteiros e representados num histograma de frequências relativas com
intervalos de classe de amplitude igual a 4 cm. A figura 7.1 ilustra este h.f.r.
Suponha que o número de medidas é aumentado para 1000 e que o intervalo de classe é
diminuído para 1 cm. A figura 7.2 representa o histograma resultante – este histograma
constitui um refinamento do primeiro histograma.
Procedendo desta forma, aumentando cada vez mais o refinamento dos h.f.r. (maior número de
observações e intervalos de classe cada vez menores), sob determinadas condições, a borda
superior do h.f.r. vai se aproximando de uma curva suave, conforme a figura 7.3.
Assim, mediante este processo, obtém-se uma curva que representa a forma em que a
probabilidade total é distribuída sobre todos os valores possíveis da variável aleatória X. A
função f(X) cujo gráfico determina a curva descrita, é chamada função densidade de
probabilidade (f.d.p.) da v. a. contínua X.
30
25
20
15
10
0
148 152 156 160 164 168 172
Figura 7.1
80
70
60
50
40
30
20
10
0
148 152 156 160 164 168 172
Figura 7.2
80
70
60
50
40
30
20
10
0
148 152 156 160 164 168 172
Figura 7.3
7.2 FUNÇÃO DE DISTRIBUIÇÃO DE PROBABILIDADE
Seja X uma v. a. contínua. A função densidade de probabilidade f(X) descreve a distribuição de

probabilidade de X se:
a) f(X) ≥ 0, ∀X
∞
b) a área total sob f(X) é 1, ou seja:
−∞
∫ f(x) dx = 1
b
c) P(a ≤ X ≤ b) é a área sob f(X) entre a e b, ou seja: ∫ f(x) dx

a
Observação: diferentemente do caso da distribuição de probabilidade de variáveis aleatórias

discretas, a f.d.p. da variável aleatória contínua X não representa P (X = a). Em vez disso, f(X)
representa a probabilidade no intervalo [a, b], ou seja: a área compreendida neste intervalo e
sob a curva f(X). Neste sentido, conclui-se que:
a
∫ f(x) dx = 0
a
Portanto, conhecida a f.d.p. f(X), o problema de calcular a probabilidade de um certo intervalo é

equivalente a calcular a área sob a curva f(X) compreendida neste intervalo. Estes cálculos
envolvem o Cálculo Integral mas, para alguns casos especiais, estas áreas estão tabeladas.
Para uma variável aleatória contínua, em termos das áreas acima descritas, temos que:
P(a ≤ X ≤ b) = P(a < X ≤ b) = P(a ≤ X < b) = P(a < X < b)
Na maioria das tabelas existentes, os valores dados correspondem à Função de Distribuição

Acumulada, de tal forma que:
b
F(X = b) = P(X ≤ b) = ∫ f(x) dx
−∞
Assim: P(a ≤ X ≤ b) = F(b) – F(a)
P (X > b) = 1 – F(b)
P(a < x < b) 1-P(x<b)
a Figura 7.4 b
Exemplo: Verifique se a função f(X) =

3
56
(
5 x− x 2 ) é uma função de distribuição de
probabilidade no intervalo [0, 4].
4
Solução: se f(X) é uma f.d.p., deve atender a condição: I =∫
3
56
( )
5 x − x 2 dx = 1
0
Resolvendo:
4
3 ⎡5 x2 x3 ⎤
I= ⎢ − ⎥ =1
56 ⎣ 2 3 ⎦0
Neste caso, também f(X) ≥ 0 para todo X em [0, 4]. Logo, f(X) é uma f.d.p.
Exemplo: Seja X uma variável aleatória contínua tal que:
⎧kx, se x ∈ (0,1)
f(X) = ⎨ , Calcule o valor da constante k para que f(X) seja uma f.d.p.
⎩ 0, se x ∉ (0,1)
Solução: para que f(X) seja uma f.d.p. existem duas condições
a) f(X) ≥ 0, que para o intervalo (0, 1) está satisfeita.

b
b) f(x) dx = 1
∫ a
1
1 ⎡ kx 2 ⎤
⇒ ⎢ ⇒k=2
∫
Então: kxdx = 1
0 ⎣ 2 ⎦0
⎥ =1
⎧2 x, se x ∈ (0,1)
Assim: f(X) = ⎨
⎩ 0, se x ∉ (0,1)
7.3 VALOR ESPERADO E A VARIÂNCIA DE UMA V.A. CONTÍNUA
Para uma variável aleatória contínua X, com função de densidade f(X), define-se o valor
Esperado como:
∞
E(X) = µ x = ∫ x . f(x) dx
−∞
E a variância de X é definida por:
[ ]
∞
Var(X) = S = E (X− µ ) = ∫ (x − µ ) . f(x) dx
2 2 2
x
−∞
Exemplo: A função de densidade de uma v.a. contínua é dada por:
⎧1
f(X) = ⎪⎨ 2 x, se 0 < x < 2
⎪⎩0, caso contrário
∞ 2
1 ⎡ x3 ⎤
2
4
E(x) = ∫ x . f(x) dx = ∫ x . ⋅ xdx = ⎢ ⎥ =
−∞ 0
2 ⎣ 6 ⎦0 3
∞ 2 2
⎛ 4⎞ 1
2
⎡x4 4 4 ⎤ 2
σ = ∫ (x − µ ) . f(x) dx = ∫ ⎜ x − ⎟ . ⋅ xdx = ⎢ − ⋅ x 3 + ⋅ x 2 ⎥ =
2 2
−∞ 0⎝
3⎠ 2 ⎣8 9 9 ⎦0 9
7.3.1 PROPRIEDADES
Seja X uma variável aleatória contínua:
∞ ∞
a) se X = k (constante) ⇒ E(k) = ∫ k . f(x) dx = k ∫ . f(x) dx = k
−∞ −∞
∞
b) E[g(X)] =
−∞
∫ g(x). f(x) dx
c) σ x = E(x
2 2
) − [E(x) ]2
d) σ kx = k ⋅ σ x
2 2 2
e) σ
2
k±x =σ 2
x
7.4 MODELOS PROBABILÍSTICOS PARA V.A. CONTÍNUAS
De modo geral, as v.a. cujos valores resultam de algum processo de mensuração são v.a.
contínuas. Por exemplo, temos:
a) o peso ou a altura das pessoas de uma cidade;

b) a demanda diária de arroz em um supermercado;
c) o tempo de vida de uma lâmpada;
d) o diâmetro de rolamentos de esferas; e
e) erros de medidas em geral, resultantes de experimentos em laboratórios.
Em geral, a construção de uma f.d.p. é uma tarefa difícil e tediosa e frequentemente depende
da natureza do problema. Entretanto, existem modelos que são muito utilizados para
representar a f.d.p. de v.a. contínuas, ajustando-se a grande parte dos experimentos aleatórios.
Neste trabalho serão apresentados os seguintes modelos
• Uniforme • Student
• Exponencial • Qui-quadrado
• Normal • Weibull
7.4.1 MODELO UNIFORME
A v.a. X tem distribuição uniforme no intervalo [a, b] se sua f.d.p. é dada por:
⎧ 1
f(X; a, b) = ⎪⎨ b − a , se a ≤ x ≤ b
⎪⎩ 0, caso contrário
Graficamente, tem-se a seguinte representação:
f(X)
1/(b-a)
a 0 b x
Figura 7.5
A média e a variância são, respectivamente:
1 1
⋅ (a + b ) ⋅ (b − a )
2
E(X) = Var (X) =
2 12
A função de distribuição acumulada é dada por:
⎧0, se x < a
x
⎪ x− a
F(xi ) = P(X ≤ xi ) = ∫ f(x) dx = ⎨ , se a ≤ x < b , cujo gráfico é:
−∞ ⎪ b − a
⎩1, se x ≥ b
F(X)
a 0 b x
Figura 7.6
Exemplo: verifique se a f.d.p. uniforme satisfaz às propriedades de uma função densidade:
b b b
1 ⎡ x ⎤ b− a
a) ∫ f(x) dx = ∫ dx = ⎢ ⎥ = =1
a a
b− a ⎣ b− a ⎦ a b− a
1
b) como b > a, f(X) = > 0, para todo a ≤ X < b.
b− a
Exemplo: Trens saem de um terminal a cada 40 minutos. Qual a probabilidade de que um

passageiro chegando ao terminal tenha que esperar por mais de 10 minutos?
Solução: seja T uma variável aleatória contínua que representa o tempo de espera e assuma
que o tempo é uniformemente distribuído no intervalo 0 ≤ T ≤ 40 (já que a cada 40 minutos sai
um trem, o tempo de espera máximo é 40 min). Deseja-se calcular P(T ≥ 10). Então:
⎧ 1
f(T) = ⎪⎨ 40 − 0 , se 0 ≤ t ≤ 40
⎪⎩ 0, caso contrário
40 40 40
1 ⎡ t ⎤ 40 − 10 3
P(T ≥ 10) = ∫ f(t) dt = ∫
10 10
40
dt = ⎢ ⎥ =
⎣ 40 ⎦ 10 40
=
4
7.4.2 O MODELO EXPONENCIAL
Uma v.a. contínua T tem distribuição exponencial com parâmetro λ> 0 se sua f.d.p tem a forma:
⎧λ ⋅ e − λt , se t ≥ 0
f(t) = ⎨ , onde λ representa a taxa de acontecimentos sucessivos
⎩0, se t < 0
A função de distribuição acumulada (f.d.a.) tem a forma:
⎧1 - e − λt , se t ≥ 0
F(t) = ⎨
⎩0, se t < 0
A figura abaixo ilustra respectivamente a f.d.p. e a f.d.a da distribuição exponencial.
f(t) F(t)
λ 1
0 t 0 t
Figura 7.7
Usando a integração por partes, pode-se demonstrar que:
1 1
E(T) = Var (T) =
λ λ2
Algumas situações conduzem ao uso da f.d.p. exponencial, como por exemplo:
a) duração da vida de componentes e sistema com desgaste desprezível, onde t é a vida do

componente.
b) tempo ente chegada de clientes numa estação de serviço, onde t é este tempo.
Para o cálculo de probabilidades, temos que:

f(t)
∞ λ
• P (T > t0) = ∫ λ ⋅ e dt = e 0
−λt −λt
e − λt 0
t0
0 t0 t
f(t)
t0 λ 1 − e −λ t 0
• ∫
P (T ≤ t0) = λ ⋅ e −λt
dt = 1 − e −λt 0
0 t0 t
Observação importante: existem trabalhos que utilizam o parâmetro β ao invés do parâmetro λ,

que foi utilizado neste trabalho. Sem nenhuma perda de contexto ou generalidade, estes
parâmetros guardam a seguinte relação:
1
λ =
β
Exemplo: Aviões chegam a um aeroporto segundo uma f.d.p. exponencial, com 15 chegadas
por hora. Determine a probabilidade de chegada no período de 6 minutos.
Solução: Seja T uma v.a. que representa o tempo entre chegadas. Deseja-se saber qual a
probabilidade de t ≤ 0,1 (6 minutos = 0,1hora). Então:
t0 0,1
P (T ≤ t0) = ∫ λ ⋅ e dt = 1 − e 0 ∴ P (T ≤ 0,1) = ∫ 15 ⋅ e
−λ t −λ t −15 t
dt = 1 − e −15×0,1 = 1 - 0,2231 = 0,7769
0 0
Exemplo: Uma fábrica produz lâmpadas com uma duração de vida que pode ser considerada
com uma distribuição exponencial com média 200 horas. Determine:
a) a probabilidade de uma lâmpada queimar antes de 20 horas de uso;

b) a probabilidade de queimar entre 100 e 120 horas de uso; e,
c) das lâmpadas que duram mais de 100 hs, qual o percentual que queima entre 100 e 120 hs
Solução: seja t a vida (em horas) de uma lâmpada. Neste caso, a vida média µ = β = 200.
1 1
Então: λ = = (1/200 queimas por hora)
β 200
f(t)
t0
∫λ ⋅ e dt = 1 − e −λ t 0
−λ t
a) P (T < t0) =
0
λ 1 − e −λ t 0
20 1 1
1 − t − ×20
P(T< 20)= ∫
200 0
e 200 dt = 1 − e 200 = 1 - 0,9048 = 0,0952
0 20 t
b) P (100 < t0 < 120) = área até 120 – a área até 100
f(t)
1
− ×100
P(T< 100)= 1 − e 200
= 1 – e-0,5 λ
1
− ×120
P(T < 120)= 1 − e 200
= 1 – e-0,6
0 t1 t2 t
P (100 < t0 < 120) = 1 – e-0,6 –(1 – e-0,5) = 0,6065 – 0,5488 = 0,0577
− λt 1
Ou seja, na distribuição exponencial: P (t1 < t < t2) = e − e − λt 2
1
− ×100
c) P (T > 100) = e 200
= e −0,5 = 0,6065 P(100 < t0 < 120)= 0,6065 – 0,5488 = 0,0577
100 < T < 120 ⎞ 0,0577

Então: P⎛⎜ ⎟= = 0,0952
⎝ T > 100 ⎠ 0,6065
OBSERVAÇÃO IMPORTANTE: A igualdade dos resultados dos itens a e c decorre da

característica da distribuição exponencial “não ter memória”. Deste modo, a probabilidade de
uma lâmpada sem uso queimar antes das 20 primeiras horas é a mesma de uma lâmpada que
já tenha 100 horas de uso queimar antes das próximas 20 horas de uso.
7.4.3 O MODELO NORMAL
Este modelo é fundamental em probabilidades e inferência estatística. Suas origens remontam

a Gauss em seus trabalhos sobre erros de observações astronômicas, por volta de 1810,
donde o nome de distribuição gaussiana para tal modelo. A distribuição normal tem a forma
de um sino e depende de dois parâmetros: a média µ e o desvio padrão σ.
Diz-se que a variável aleatória X tem distribuição normal com parâmetros µ (média) e σ
(desvio-padrão), cuja notação é X ∼ N (µ, σ), se sua função densidade é dada por:
1
⋅ e − (x −µ )
2
2σ 2
f(x; µ, σ) = , −∞ < X <∞
σ 2π
Graficamente temos:
f(X)
µ - 3σ µ - 2σ µ - σ µ µ+σ µ + 2σ µ + 3σ x
Figura 7.8
7.4.3.1 PROPRIEDADES DA DISTRIBUIÇÃO NORMAL
• E(X) = µ Var(X) = σ2
• A curva é simétrica em relação a µ
• A variância σ2 determina a forma da curva; um valor maior da variância significa maior
dispersão da curva. A figura 7.4 ilustra esta propriedade.
µ x
Figura 7.9
7.4.3.2 DETERMINAÇÃO DE PROBABILIDADES
Considerando a distribuição normal N (µ, σ), temos que:
• P[µ − σ < X < µ + σ ] = 0,683
• P[µ − 2 σ < X < µ + 2 σ ] = 0,954
• P[µ − 3 σ < X < µ + 3 σ ] = 0,997
Ou seja: a região entre µ - σ e µ + σ representa 68,3% da distribuição, e assim por diante.

Entretanto, para uma região compreendida entre a e b (figura 7.5), o cálculo de P[a < X < b] é:
b b
1
P[a < X < b] = ∫ f(x) dx = ∫σ ⋅ e − (x −µ )
2
2σ 2
dx
a a 2π
Esta integral não pode ser calculada analiticamente, e portanto a probabilidade indicada
somente poderá ser obtida, aproximadamente, por meio de integração numérica. A
determinação desta probabilidade é facilitada pela utilização da distribuição normal padrão.
f(X)
0 a b x
Figura 7.10
7.4.3.3 DISTRIBUIÇÃO NORMAL PADRONIZADA
Uma distribuição normal com média µ = 0 e desvio padrão σ = 1 é denominada distribuição

normal padrão ou distribuição normal reduzida, que é denotada por N (0, 1). A sua função
densidade é dada por:
1 −z2
f(Z) = ⋅e 2
2π
Se X é uma v.a. com média µ e desvio padrão σ, pode-se definir uma variável aleatória
padronizada, associada à variável X, que é dada por:
X− µ
Z=
σ
A v.a. Z possui média zero e variância 1, ou seja: E(Z) = 0 e Var (Z) = 1. Além disso, Z é uma
quantidade adimensional, isto é, não tem escala de medida, embora X possua.
Na determinação de probabilidades (área sob a curva) pode-se estabelecer as seguintes

comparações entre as funções f(X) e f(Z):
f(x) f(z)
0 µ - 3σ µ - 2σ µ - σ µ µ +σ µ + 2σ µ + 3σ x -3 -2 -1 0 1 2 3 z
Figura 7.11
A grande vantagem da curva normal padronizada é que qualquer distribuição normal pode ser
padronizada através da transformação dos valores de X em Z, desde que se conheçam os
parâmetros µ e σ.
Mediante a transformação dos valores de X para Z e como as áreas sob a curva normal
padronizada estão tabeladas, é possível determinar as probabilidades da v.a. X, com
distribuição N(µ, σ), estar situada entre dois valores quaisquer.
Exemplo: determine as áreas sob a curva normal padronizada entre:
a) z = 0 e z= 1,2
P[0 ≤ z ≤ 1,2] = 0,3849

0 12 z
b) z = - ,68 e z= 0
P[-0,68 ≤ z ≤ 0] = 0,2517(simetria)
-0,68 0 z
c) z = -0,46 e z= 2,21
P[-0,46 ≤ z ≤ 0] = 0,1772
P[0 ≤ z ≤ 2,21] = 0,4864
P[-0,46 ≤ z ≤ 2,21] = 0,4864 + 0,1772 = 0,6636 -0,46 0 2,21 z
d) z = 0,81 e z= 1,94
P[0 ≤ z ≤ 0,81] = 0,2910

P[0 ≤ z ≤ 1,94] = 0,4738
P[0,81 ≤ z ≤ 1,94] = 0,4738 - 0,2910 = 0,1828
0 0,81 1,94 z
e) à direita de z = -1,28
P[-1,28 ≤ z ≤ 0] = 0,3997
P[0 ≤ z ≤ ∞] = 0,5000
P[z > -1,28] = 0,3997 + 0,5000 = 0,8997
-1,28 0 z
Exemplo: A distribuição dos diâmetros de uma peça segue uma distribuição normal com
µ = 100 mm e σ = 0,3 mm. Determine:
a) o percentual das peças que se encontra fora da especificação 100,1 ± 0,7.

b) o valor do diâmetro para que somente 10% das peças ultrapassem este valor
c) o percentual das peças cujos diâmetros se encontrem fora do intervalo µ ± 3σ.
Solução: de acordo com a especificação, determinam-se as regiões de aceitação e de rejeição.
Utilizando a distribuição normal padronizada: Z = X− µ

σ
99,4 − 100 100,8 − 100

z (99,4 ) = = −2,0 z (100,8 ) = = 2,67
0,3 0,3
Graficamente, temos:
f(x) f(z)
Aceitação Aceitação
99,4 100 100,8 -2,0 0 2,67 z
a) P[-2,0 ≤ z ≤ 0] = 0,4772 P[x ≤ 99,4 ou x ≥ 100,8] = P[z ≤ -2,0 ou z ≥ 2,67]

P[0 ≤ z ≤ 2,67] = 0,4962 = 1 – (0,4772 +0,4962) = 0,0266
Ou seja: somente 2,66% das peças estarão fora da especificação.

b)
f(x) Para a área de 0,4 ⇒ z = 1,28
0,40
0,10
x − 100
1,28 = = ∴ x = 100,4 mm
0,3
0 x
c) µ - 3σ = 100 – 3(0,3) = 99,1 µ + 3σ = 100 + 3(0,3) = 100,9
f(x) f(z)
0,4987 0,4987 0,4987 0,4987
99,1 100 100,9 -3 0 0 3,00
P[-3,0 ≤ z ≤ 0] = 0,4987 P[x ≤ 99,1 ou x ≥ 100,9] = P[z ≤ -3,0 ou z ≥ 3,0]

P[0 ≤ z ≤ 3,0] = 0,4987 = 1 – (0,4987 + 0,4987) = 0,0026
Ou seja: 0,26 das peças estão fora do referido intervalo.
7.4.3.4 APROXIMAÇÃO NORMAL À BINOMIAL
Conforme visto anteriormente (seção 6.10.3), a distribuição binomial b(n, p) expressa o número
de sucessos X em n ensaios independentes de um experimento que tem probabilidade de
sucesso p e probabilidade de fracasso q em cada ensaio (p + q =1).
Se X é uma v.a. com distribuição binomial b (n, p), a média, a variância e o desvio padrão são
dados respectivamente por:
E(X) = µ = np Var (X) = σ2 = npq σ= n⋅ p⋅ (1 − p)
A aproximação Normal é usada quando n é grande e p não muito próximo de 0 ou1. Isto
permite tratar a binomial b (n, p) como se fosse uma normal N (np, n⋅ p⋅ (1 − p) ).
Neste caso, para calcular a probabilidade de X assumir valores inteiros no intervalo [a, b]
procede-se como se estivéssemos calculando a probabilidade da normal neste intervalo, isto é:
b
⎛n⎞
Seja P(a ≤ X ≤ b) = ∑ ⎜⎜ k ⎟⎟ ⋅ p k
⋅ (1 − p) n −k . Então:
k =a ⎝ ⎠
X − np X− µ
a) padroniza-se a variável, utilizando: Z = =
np(1 − p) σ
⎡ a− np b− np ⎤
b) calcula-se na tabela da normal: P(a ≤ X ≤ b) ≈ P ⎢ ≤Z≤ ⎥
⎣⎢ np(1 − p) np(1 − p) ⎦⎥
Exemplo: suponha que a v.a. X tenha distribuição binomial com parâmetros n = 10 e p = ½ e

queiramos calcular P [X ≥ 7].
A figura abaixo mostra que P[X = 7] é igual à área do retângulo de base unitária e altura igual a
P[X = 7], similarmente para P[X = 8], etc. Logo, P[X ≥ 7] é igual à soma das áreas dos
retângulos hachurados. O objetivo é aproximar tal área pela área sob a curva normal N (np,
np(1 − p) ), à direita de 6,5.
0 1 2 3 4 5 6 7 8 9 10
Figura 7.12
1 1 1
Então: E(X) = µ = np = 10 × =5 σ2 = npq = 10 × × = 2,5 σ= 2,5
2 2 2
Considerando X uma variável com distribuição normal:
⎡ 6,5 − 5 ⎤
P [X ≥ 7] ≈ P [X ≥ 6,5] = P ⎢z ≥ ⎥ = P[z ≥ 0,94 ] = 0,1736
⎢⎣ 2,5 ⎥⎦
Ao passo que a probabilidade verdadeira é 0,172.
Exemplo: calcular a P (3 < X ≤ 6) = P (X = 4) + P (X = 5) + P (X = 6)
0 1 2 3 4 5 6 7 8 9 10
Figura 7.13
⎡ 3,5 − 5 6,5 − 5 ⎤
Então: P(3 < X ≤ 6) ≈ P(3,5 <X ≤ 6,5) = P ⎢ ≤Z≤ = P[− 0,94 ≤ Z ≤ 0,94] = 0,6528
⎣ 1,58 1,58 ⎥⎦
Ao passo que a probabilidade verdadeira é 0,656.

Dado que estamos aproximando uma distribuição discreta por uma distribuição contínua, este
ajuste é denominado correção por continuidade. Em geral, se X é uma v.a. de distribuição
b(n, p), com n grande e p afastado de 0 ou 1:
X − np X− µ
Z= =
np(1 − p) σ
⎡ a− 0,5 − np b+ 0,5 − np ⎤
P(a ≤ X ≤ b) ≈ P ⎢ ≤z≤ ⎥
⎢⎣ np(1 − p) np(1 − p) ⎥⎦
7.4.4 OUTROS MODELOS IMPORTANTES
Além do modelo normal, existem outros modelos que têm grande aplicação prática. As
variáveis aleatórias destes modelos na maioria dos casos assumem valores positivos e tendem
a ter distribuições assimétricas à direita.
7.4.4.1 A DISTRIBUIÇÃO QUI-QUADRADO χ 2
Uma v.a. contínua Y, com valores positivos, tem uma distribuição Qui-quadrado com r graus de
liberdade (denotada por χ 2 (r) ), se sua função densidade é dada por:
⎧ 1
r
−1
⎪ ⋅ y 2
⋅ e − y/ 2 , y > 0
f(y; r) = ⎨Γ(r/ 2)2 r/ 2
⎪0, y<0
⎩
A média e a variância da distribuição Qui-quadrado são dadas respectivamente por:
E (Y) = r Var (Y) = 2 r
Assim como no caso da distribuição normal, existem tabelas para obter probabilidades. Em
geral, estas tabelas fornecem valores de Y0, tal que P(y > y 0 ) = p , para alguns valores de p e
de r. Vide figura 7.14.
f(y)
y0 y
Figura 7.14
Observação: se r >30, é possível usar uma aproximação normal à distribuição Qui-quadrado.

Ou seja: se a v.a. Y tiver distribuição Qui-quadrado, com r graus de liberdade, então a v.a.
z = 2 y − 2 r − 1 ~ N(0,1)
Exemplo: Seja Y0 = 40,256 e r = 30
Pela tabela da Qui-quadrado: P(y > 40,256 ) = 0,10
Pela aproximação normal: z = 2 × 40,256 − 59 = 1,292 ∴ P(z > 1,292) = 0,099
Observa-se uma boa aproximação.
7.4.4.2 A DISTRIBUIÇÃO t DE STUDENT
Uma variável aleatória T é dita ter uma distribuição t de Student com r graus de liberdade se
sua função densidade é dada por:
− (r +1) / 2
1 Γ((r + 1) / 2) ⎛ t 2 ⎞
fr (t) = ⎜1 + ⎟⎟ , para todo X real.
r π Γ(r/ 2) ⎜⎝ r ⎠
A distribuição de Student é simétrica em torno de t = 0 e, para valores grandes de r, esta

distribuição tende a se aproximar da distribuição normal padrão N (0, 1).
N(0, 1)
Figura 7.15
Propriedades:
• Para r = 1, t não possui valor esperado; para r >1, E(t) = 0.

• Para r = 1 e r = 2, não há variância; para r > 2, Var (t) = r/(r-2)
• A distribuição de Student é muito empregada em amostragem pequena de uma população
normal.
• Existem tabelas que fornecem valores críticos tα de uma v. a. t, definida por P(t > tα) = α,
com r graus de liberdade.
fr(t) α
0
tα t
Figura 7.16
7.4.4.3 A DISTRIBUIÇÃO WEIBULL
Um modelo que tem muitas aplicações na teoria da Confiabilidade é o modelo de Weibull, cuja
f.d.p é dada por:
⎧βx β −1e − βx , x ≥ 0
f(x) = ⎨
⎩0, x<0
onde β é uma constante positiva. A variável aleatória X pode representar, por exemplo, o tempo
de vida de um componente de um sistema. Observa-se também que se β = 1, a f.d.p.
resultante é a da distribuição exponencial.
7.5 DISTRIBUIÇÃO CONJUNTA DE VARIÁVEIS ALEATÓRIAS CONTÍNUAS
Todas as definições, conceitos e propriedades apresentados no estudo de distribuição conjunta

de variáveis aleatórias discretas podem ser aplicados, sem perda de generalidade, ao caso
contínuo.
Sejam X e Y duas variáveis aleatórias contínuas. Nesse casso, a distribuição conjunta das
duas variáveis é caracterizada por uma função f(X, Y), chamada de função de densidade de
probabilidade conjunta de X e Y, satisfazendo:
a) f(X, Y) ≥ 0 , para todo par (X, Y);

∞ ∞
b) ∫ ∫ f(x, y) dxdy = 1;
−∞−∞
b d
c) P(a ≤ X ≤ b, c ≤ Y ≤ d) = ∫ ∫ f(x, y) dxdy
a c
7.6 FUNÇÕES DENSIDADE MARGINAIS DE VARIÁVEIS ALEATÓRIAS CONTÍNUAS
Dada a v.a. bidimensional z = (X, Y), com função densidade de probabilidade conjunta f (X,Y),
define-se as densidades marginais de X e Y respectivamente por:
∞ ∞
fx (X) = ∫ f(x, y) dy
−∞
fy (Y) = ∫ f(x, y) dx
−∞
Obs:
• as variáveis aleatórias X e Y, com densidade conjunta f (X,Y) e marginais fx(X) e fY(Y),

respectivamente, são independentes se:
f(X, Y) = fx(X) fy(Y), para todo par (X, Y).
• as definições de covariância, coeficiente de correlação, etc. continuam a valer para v.a.

bidimensionais contínuas. Portanto, se X e Y são independentes, o coeficiente de
correlação entre elas é zero.
7.7 DISTRIBUIÇÕES CONDICIONAIS CONTÍNUAS
Nesta seção busca-se obter a distribuição condicional de uma variável, dado que a outra
variável assume um valor particular. Então:
A função densidade condicional de X, dado que Y = yi é definida por:
f(X, Y)
fx y ( X Y ) = , fy (Y) > 0
fy (Y)
A função densidade condicional de Y, dado que X = xi é definida por:
f(X, Y)
fy x ( Y X ) = , fx (X) > 0
fx (X)
7.8 EXERCÍCIOS
7.8.1 Suponha que f(X, Y) = 4XY, 0 ≤ X ≤ 1 e 0 ≤ Y ≤ 1. Então:
a) Mostre que f é uma função de densidade conjunta de X e Y.

b) Calcule a probabilidade P (X ≤ ½, Y ≤ ½)
c) Calcule as densidades marginais de X e Y
d) As variáveis X e Y são independentes? Comprove.
Solução:
∞ ∞ 1 1
1 1 1
⎡ x2 ⎤ ⎡ y2 ⎤
1
a) ∫ ∫ f(x, y) dxdy = ∫ ∫ 4 xydxdy = 4 ∫ xdx ∫ ydy = 4 ⎢ ⎥ ⎢ ⎥ = 1
−∞−∞ 0 0 0 0 ⎣ 2 ⎦0 ⎣ 2 ⎦0
além disso, f(X, Y) ≥ 0 , para todo par (X, Y).
1/ 2 1/ 2
1/ 2 1/ 2
⎡ x2 ⎤ ⎡ y2 ⎤
b) P (X ≤ ½, Y ≤ ½) = P (0 ≤ X ≤ ½, 0 ≤ Y ≤ ½) = ∫ ∫
0 0
4 xydxdy = 4 ⎢ ⎥ ⎢ ⎥ = 1/ 16
⎣ 2 ⎦0 ⎣ 2 ⎦0
∞ 1 1
1
⎡y2 ⎤ 1
⎡ x2 ⎤
c) fx (X) = ∫ f(x, y) dy = ∫ 4 xydy = 4 x ⎢ ⎥ = 2 x fy (Y) = ∫ 4 xydx = 4 y ⎢ ⎥ = 2 y
−∞ 0 ⎣ 2 ⎦0 0 ⎣ 2 ⎦0
d) A condição de independência é tal que: f(X, Y) = fx(X) fy(Y), para todo par (X, Y). Ou seja: o
produto das densidades marginais é igual à densidade conjunta para todo par (X, Y) do
domínio.
Então: f(X, Y) = 2X 2Y = 4XY, o que comprova que X e Y são variáveis aleatórias

independentes.
7.8.2 Seja f(X, Y) = X + Y, 0 < X < 1, 0 < Y < 1. Calcule o coeficiente de correlação entre X e Y.
Solução:
• Distribuições marginais:
1 1
fx (X) = ∫ (x + y) dy = x + 1 / 2 , 0 < X < 1 fy (Y) = ∫ (x + y) dx = y + 1 / 2 , 0 < Y <1
0 0
1 1
• Médias: E(X) = ∫ x(x + 1 / 2) dx = 7 / 12 ∫
E(Y) = y(y + 1 / 2) dy = 7 / 12
0 0
1 1
∫ x (x + 1 / 2) dx = 5 / 12 ∫ y (y + 1 / 2) dy = 5 / 12
2 2
E(X2) = E(Y2) =
0 0
• Variâncias: Var (X) = Var (Y) = 5/12 – 49/144 = 11/144
11
• Desvios-padrão: σ (X) = σ (Y) =
12
1 1
• E(XY) = ∫ ∫ xy(x+ y) dxdy = 1 / 3
0 0
• Covariância: Cov (X, Y) = E(X, Y) – E(X)E(Y) = 1/3 – (7/12)(7/12) = -1/144
Cov(X, Y) − 1 / 144
• Coeficiente de correlação: ρ(X, Y) = = = −1 / 11
σ(X) σ(Y) ( 11 / 12)( 11 / 12)
7.8.3 Dado que a densidade de (X, Y) é f (X, Y) = 6 (1 – X – Y), 0, < X < 1-Y, 0 < Y < 1 – X,
determine as densidades marginais e densidades condicionais.
• Densidades marginais:
∞ 1− x
fx (X) = ∫ f(x, y) dy = ∫ 6(1 − x − y) dy = 3(x − 1) , 0 < x <1
2
−∞ 0
∞ 1− y
fy (Y) = ∫ f(x, y) dx = ∫ 6(1 − x − y) dx = 3(y− 1) , 0 < y < 1

2
−∞ 0
• densidades condicionais:
f(X, Y) 6(1 − x − y) 2(1 − x − y)
fx y ( X Y ) = = =
fy (Y) 3(y − 1)2 (y − 1)2
f(X, Y) 6(1 − x − y) 2(1 − x − y)

fy x ( Y X ) = = =
fx (X) 3(x − 1)2 (x − 1)2
CAPÍTULO 8
INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA
8.1 INTRODUÇÃO
Nos capítulos 6 e 7 foram apresentados alguns modelos probabilísticos que procuram medir a
variabilidade de fenômenos aleatórios (casuais) de acordo com suas ocorrências: as
distribuições de probabilidade de variáveis aleatórias discretas e as funções de densidade de
probabilidade (f.d.p.) de variáveis aleatórias contínuas. Entretanto, frequentemente o
pesquisador tem alguma idéia sobre a forma da distribuição, mas não dos valores exatos dos
parâmetros que a especificam.
Entretanto, parece ser razoável supor que a distribuição das alturas dos brasileiros adultos
possa ser representada pelo modelo normal. Entretanto, esta afirmação não é suficiente para
determinar qual a distribuição normal correspondente: seria preciso conhecer os parâmetros
média (µ) e desvio padrão (σ) para caracterizar adequadamente esta normal. O Objetivo do
pesquisador é, então, determinar (estimar) os parâmetros para sua posterior utilização.
Se fosse possível medir as alturas de todos os brasileiros adultos, teríamos meios de obter a
sua distribuição exata e, daí, produzir os respectivos parâmetros. Mas, neste caso não seria
necessária a Inferência Estatística!!!
A Inferência Estatística é realizada porque raramente é possível obter a distribuição exata de

alguma variável, ou porque é muito dispendioso, ou muito demorado ou às vezes porque
consiste num processo destrutivo (por exemplo, se fosse desejado estudar a durabilidade de
lâmpadas e todas fossem testadas até queimarem, não restaria nenhuma para ser vendida).
Então, a Estatística Inferencial busca selecionar parte dos elementos (amostra) de um todo
(população), analisá-la e inferir propriedades para a população. Conforme visto no Capítulo 1:
• População: é o conjunto de todos os elementos ou resultados sob investigação.

• Amostra: é qualquer subconjunto da população.
A natureza da Inferência depende do objetivo da pesquisa. Os dois tipos mais importância de

inferência são: a Estimação e os Testes de Hipóteses Estatísticas.
Exemplo 1: Deseja-se estudar a proporção de pessoas na cidade A que são favoráveis a um

certo projeto governamental. Uma amostra de 200 pessoas é coletada e a opinião de cada uma
é registrada. Neste caso, pode-se estabelecer:
• População: todos os moradores da cidade.
• Amostra: 200 pessoas selecionadas a partir da população.
• variável de interesse: é a resposta de cada pessoa (a favor ou contra ao projeto). No
Capítulo 6, definiu-se a variável x, que pode assumir dois valores possíveis:
- 1, se sua resposta for favorável ao projeto (“sucesso”)

- 0, se sua resposta for desfavorável ao projeto (“fracasso”)
Desta forma, a população será reduzida à distribuição de x, e a amostra será constituída de

uma seqüência de 200 valores 0 e 1.
Exemplo 2: Seja uma pesquisa para estudar os salários dos 500 funcionários de uma
empresa. Seleciona-se uma amostra de 36 indivíduos, e registram-se os seus salários. Neste
caso:
• População: os 500 salários correspondentes aos 500 funcionários.

• Amostra: salários dos 36 indivíduos selecionados
• Variável de interesse: salário
Pode-se estudar a distribuição dos salários na amostra, e esperar que esta reflita a distribuição
de todos os salários da empresa, desde que esta tenha sido estabelecida com cuidado.
Exemplo 3: Em alguns casos, suposições mais precisas sobre a população (ou sobre a
variável definida para os elementos da população) podem ser feitas. Suponha que x represente
o peso real de pacotes de café, enchidos automaticamente. Sabe-se que a distribuição de x
pode ser representada por uma normal (µ, σ) desconhecida. Sorteia-se 100 pacotes e mede-se
os seus pesos. Neste caso:
• População: o conjunto de todos os pacotes enchidos ou que virão ser enchidos em um

certo período (dia, semana, etc), e que pode ser suposta como normal.
• Amostra: os pesos dos 100 pacotes selecionados
• Variável de interesse: peso dos pacotes
8.2 AMOSTRAGEM
A forma mais adequada de se obter uma amostra é tão importante, e existem tantos modos de
fazê-lo que estes procedimentos constituem uma especialidade dentro da Estatística,
denominada Amostragem.
A Amostragem pode ser definida como o conjunto de técnicas e procedimentos utilizados para
se obter uma amostra. Estes procedimentos podem ser subdivididos em dois subgrupos:
• Amostragem probabilística: são as técnicas que utilizam mecanismos aleatórios de

seleção dos elementos de uma amostra, atribuindo a cada um deles uma probabilidade,
conhecida a priori, de pertencer à amostra. Algumas técnicas são:
- amostragem sistemática: quando os elementos da população encontram-se ordenados e

a retirada dos elementos da amostra é feita periodicamente. Por exemplo, em uma linha de
produção, podemos, a cada 100 itens produzidos, retirar um para pertencer a uma amostra
da produção diária.
- Amostragem estratificada: muitas vezes a população se divide em subpopulações ou

estratos, seno razoável supor que, de estrato para estrato, a variável de interesse
apresente um comportamento substancialmente diverso, tendo, entretanto, comportamento
razoavelmente homogêneo dentro de cada estrato.
Se a existência destes estratos não for considerada, a amostragem pode ser influenciada
pela característica da variável nos estratos mais favorecidos no sorteio. Então, a
amostragem estratificada consiste em especificar quantos elementos da amostra serão
retirados em cada estrato.
- amostragem múltipla: a amostra é retirada em várias etapas sucessivas. Dependendo dos

resultados observados, etapas suplementares podem ser dispensadas. Destina-se a
diminuir o número médio de itens inspecionados a longo prazo, reduzindo os custos de
inspeção.
- amostragem casual simples: também chamada de simples ao acaso, aleatória, casual,

elementar, randômica, etc., é equivalente a um sorteio lotérico. É o caso mais elementar da
amostragem probabilística e será abordado neste trabalho.
• Amostragem não probabilística: ocorre quando os elementos da população não têm a

probabilidade conhecida (de diferente de zero) de pertencer à amostra. São empregados
em casos em que:
- há a inacessibilidade de toda a população;
- amostragem a esmo ou sem norma: por simplificação, o amostrador procura ser

aleatório, sem no entanto, escolher os elementos que irão pertencer à amostra através
de um dispositivo aleatório confiável;
- a população é formada por material contínuo: neste caso é impossível realizar uma
amostragem probabilística, devido à impraticabilidade de uma escolha rigorosa. Se a
população for líquida ou gasosa, o que costuma-se fazer (com resultados satisfatórios) é
homogeneizá-la e retirar uma amostra a esmo.
- amostragem intencional: são os casos onde o amostrador escolhe deliberadamente

certos elementos para pertencer à amostra, por julgar tais elementos bem
representativos da população. Existe o perigo do equívoco no julgamento do
amostrador.
A grande vantagem da amostragem probabilística é medir a precisão da amostra obtida, a

partir dos resultados contidos na própria amostra.
8.3 AMOSTRAGEM CASUAL SIMPLES.
Uma amostra casual simples de tamanho n de uma variável aleatória x, com uma dada
distribuição, é o conjunto de n variáveis aleatórias independentes x1, x2, ..., xn, cada qual com a
mesma distribuição de x. Ou seja: a amostra será a n-tupla ordenada (x1, x2, ..., xn), onde xi
indica a observação do i-ésimo elemento sorteado. Todos os elementos da população têm
igual probabilidade de serem selecionados.
Procedimento de amostragem: enumeram-se todos os N elementos da população, de 1 a N.

A amostra será escolhida elemento a elemento: os n números (que representarão os n
elementos que formarão a amostra), serão obtidos através de sorteio ou através do emprego
de uma tabela de números aleatórios. Essa amostragem pode ser feita de duas formas:
• Com reposição: quando o elemento selecionado retorna à população, podendo ser

sorteado novamente.
• Sem reposição: quando o elemento sorteado é removido da população.
Do ponto de vista da quantidade de informação contida na amostra, amostrar sem reposição é

mais adequado. Entretanto, a amostragem com reposição conduz a um tratamento teórico mais
simples, pois ela implica que existe independência entre as unidades selecionadas. Essa
independência facilita o desenvolvimento das propriedades dos estimadores que serão
estudados. Nesse trabalho aborda-se a amostragem aleatória simples, com reposição.
Exemplo 4: Numa urna têm-se cinco tiras de papel numeradas: 1, 3, 5, 5, 7. Uma tira é
sorteada e recolocada na urna; então, uma segunda tira é sorteada. Sejam x1 e x2 o primeiro e
o segundo números sorteados. Seja a variável x o valor assumido pelo elemento na população.
Então a distribuição de x é dada pela tabela:
xk 1 3 5 7
P(x = xk) 1/5 1/5 2/5 1/5
Tabela 8.1
Então, a distribuição conjunta das probabilidades das possíveis amostras de tamanho 2 que
podem ser selecionadas com reposição da população {1, 3, 5, 5, 7} é dada pela tabela 8.3:
xi 1 3 5 7 P (x2 = xj)
xj
1 1/25 1/25 2/25 1/25 1/5
3 1/25 1/25 2/25 1/25 1/5
5 2/25 2/25 4/25 2/25 2/5
7 1/25 1/25 2/25 1/25 1/5
P (x1 = xi) 1/5 1/5 2/5 1/5 1
Tabela 8.2
Note que as distribuições marginais de x1 e x2 são independentes e iguais à distribuição de x.

Desta forma, cada uma das 25 amostras de tamanho 2 possíveis de serem extraídas
corresponde a observar uma particular realização da variável aleatória (x1, x2), com x1 e x2
independentes, tais que:
P (x1 = xk) = P (x2 = xk) = P (x = xk), para todo xk.
8.4 ESTATÍSTICAS E PARÂMETROS
Obtida uma amostra, muitas vezes é desejável usá-la para produzir alguma característica
específica. Por exemplo, se desejarmos calcular a média da amostra (x1, x2, ..., xn), esta será:
1
x= ⋅ (x1 + x 2 + L + x n )
n
É possível provar que x também é uma variável aleatória. Qualquer outra característica da
amostra, que seja de interesse, também será uma função do vetor aleatório (x1, x2, ..., xn).
8.4.1 ESTATÍSTICA: é uma característica da amostra, ou seja, uma estatística T é uma função
de (x1, x2, ..., xn): T = f (x1, x2, ..., xn). A tabela 8.1 apresenta as estatísticas mais comuns:
n
∑xf i i
Média da amostra x= i =1
∑ (x − )
n 2
i x
Variância da amostra S2 = i=1
n− 1
∑ (x − )
n 2
i x
Desvio Padrão da amostra S = i=1
n− 1
Menor valor da amostra xmín ou x(1) = min (x1, x2, ..., xn)
Maior valor da amostra xmáx ou x(n) = max (x1, x2, ..., xn)
Amplitude da amostra AA = xmáx - xmín ou W = x(n) – x(1)
Tabela 8.3
8.4.2 PARÂMETRO: é uma medida para descrever uma característica da população. Assim, na
coleta de amostras de uma população, identificada pela variável aleatória x, seriam parâmetros
a média E(x) e sua variância Var(x).
A tabela 8.4 apresenta os símbolos mais comuns:
Denominação População Amostra

Média µ = E(x) x
Variância 2
σ = Var(x) S2
Desvio-padrão σ S
n.o de elementos N n
proporção p p̂
Tabela 8.4
8.5 DISTRIBUIÇÕES AMOSTRAIS
O problema da Inferência Estatística é fazer uma afirmação sobre um parâmetro θ da

população (por exemplo, a média, a variância, etc), a partir de uma amostra de n elementos
coletada desta população. A análise será baseada na estatística T, que será função da amostra
(x1, x2, ..., xn), ou seja, T = f(x1, x2, ..., xn). Colhida esta amostra, observa-se um valor particular
de T, por exemplo t0, e baseados nesse valor é que pode-se fazer a afirmação sobre θ, o
parâmetro populacional. A figura 8.1 ilustra este procedimento.
Amostra População
(x1, x2, ...., xn) x ∼ f(x; θ)

t0
Figura 8. 1
Esta análise seria mais precisa e melhor compreendida se fosse possível determinar o
comportamento da estatística T, quando todas as amostras são retiradas de uma população
(segundo um procedimento de amostragem) – isto é, a distribuição de T quando (x1, ..., xn)
assume todos os valores possíveis. Essa distribuição é chamada distribuição amostral da
estatística T. Este procedimento consiste basicamente das seguintes etapas, que estão
ilustradas na figura 8.2 onde temos:
a) uma população x, com determinado parâmetro de interesse θ;

b) todas as amostras da população, de acordo com certo procedimento;
c) para cada amostra, calcula-se o valor t da estatística T; e
d) os valores t formam uma população, cuja distribuição chama-se distribuição amostral de T.
População População das estatísticas

t1
t1, t2, …, tk,…
x ∼ f(x; θ)
t2
M
tk θ T
θ M T ∼ g(t; θ)
Figura 8.2
8.6 DISTRIBUIÇÃO AMOSTRAL DA MÉDIA
Seja x uma variável aleatória com média µ e desvio padrão σ, e seja (x1, x2, ..., xn) uma amostra
casual simples de x. Então:
1 1 1 nµ
E(x) = ⋅ E(x 1 + L + x n ) = [E(x 1 ) + L + E(x n )] = [µ + µ + L + µ] = =µ
n n n n
σ 2x =
1
⋅ σ 2
(x 1 + L + x n ) =[ 1 2
σ x1 + L + σ 2
xn ]
= [
1 2
σ + L + ]
σ 2
=
nσ 2 σ 2
=
n2 n2 n2 n2 n
Ou seja: a média produz uma estatística que é menos variável e na medida que o tamanho da
amostra cresce, a distribuição amostral da média x aproxima-se de uma distribuição normal,
com média µ e desvio padrão σ/ n . Esse resultado, fundamental na teoria da Inferência
Estatística, é conhecido como Teorema Limite Central. A demonstração completa deste
teorema foge ao escopo deste trabalho. Entretanto, podemos enunciá-lo da seguinte forma:
8.7 TEOREMA LIMITE CENTRAL
Se (x1, x2, ..., xn) for uma amostra casual simples de uma população x, com média µ e desvio
padrão σ, a distribuição da média amostral x quando n é grande se aproxima de uma
distribuição normal ou seja:
x− µ
z= ~ N(0,1)
σ/ n
Observa-se que empregou-se a transformação usual de reduzir a distribuição de x a uma

normal padrão. Este teorema afirma que x aproxima-se de uma normal N(µ, σ/ n ) quando n
tende ao infinito, e a rapidez desta convergência depende da distribuição da população da qual
a amostra é retirada. Se a população original tem uma distribuição próxima da normal, a
convergência é rápida; se a população original afasta-se muito da normal, a convergência é
mais lenta, ou seja, é necessário uma amostra maior para que x tenha uma distribuição
aproximadamente normal. Para amostras da ordem de 30 elementos ou mais, a aproximação
pode ser considerada boa.
Exemplo 5: Seja o exemplo no qual retiraram-se todas as amostras de tamanho 2, com

reposição, da população {1, 3, 5, 5, 7}. A distribuição de x e a distribuição conjunta da variável
bidimensional (x1, x2) foram apresentadas nas tabelas 8.1 e 8.2, respectivamente. Deseja-se
determinar a distribuição de x , ou seja, a distribuição da média amostral, dada por:
x1 + x 2
x=
2
Essa distribuição é obtida através da tabela 8.2 da seguinte forma: se a amostra selecionada é
o par (1, 1), a média será 1; então, tem-se que P( x = 1) = 1/25. A média será 3 quando ocorrer
2 1 2 1
o evento A = {(1, 5), (3, 3), (5, 1)}. Logo: P ( x = 3) = + + = . Procedendo-se de
25 25 25 5
maneira análoga para os demais valores que x pode assumir, obtém-se a tabela 8.3:
x 1 2 3 4 5 6 7 Total
P ( x = xi ) 1/25 2/25 5/25 6/25 6/25 4/25 1/25 1,00
Tabela 8.3
1 2 5 6 6 4 1
Neste caso: E( x ) = ∑xp
i
i i = 1×
25
+ 2×
25
+3×
25
+ 4×
25
+5×
25
+ 6×
25
+7×
25
= 4,2
⎡ 1 2 5 6 6 4 1⎤
+ 49 × ⎥ − [4,2] = 2,08
2
Var(x) = E(x 2 ) − [E(x)] 2 = ⎢1× + 4× + 9× + 16 × + 25 × + 36 ×
⎣ 25 25 25 25 25 25 25 ⎦
Para ilustrar as conclusões do teorema do Limite Central, apresentam-se os histogramas das

distribuições de x para n = 1, 2, e 3.
• Para n = 1, a distribuição de x coincide com a distribuição de x: E( x ) = E(x) = 4,2 e

Var( x )= Var(x) = 4,16.
• Para n = 2, baseando-se na tabela 8.3, a distribuição de x tem E( x ) = 4,2 e Var( x ) = 2,08.
• Para n = 3, baseando-se na tabela 8.4, a distribuição de x tem E( x ) = 4,2 e Var( x ) = 1,39.
x 1 1,67 2,33 3,00 3,67 4,33 5,00 5,67 6,33 7,00

P ( x = xi ) 1/125 3/125 9/125 16/125 24/125 27/125 23/125 15/125 6/125 1/125
Tabela 8.4
E( x ) 2/5
n=1
1/5 1/5 1/5
1 3 5 7 x
E( x )
6/25 6/25
1/5
4/25
n=2
2/25
1/25 1/25
1 2 3 4 5 6 7 x
E( x )
n=3
1 3 5 7 x
Exemplo 6: obter as distribuições amostrais da amplitude total W e variância S2, para n = 2.
a) distribuição amostral da Amplitude Total W, onde W = x(n) – x(1). Então:
1 1 4 1 7
• W = 0 para os pares (1, 1), (3, 3), (5, 5), (7, 7), e P (W = 0) = + + + =
25 25 25 25 25
• W = 2: (1, 3), (3, 5), (5, 7), (7, 5), (5, 3), (3, 1), e P(W = 2)= 1 + 2 + 2 + 1 + 2 + 2 = 10
25 25 25 25 25 25 25
Analogamente obtém-se os demais valores para esta distribuição (vide tabela 8.5):
wk 0 2 4 6
P(w = wk) 7/25 10/25 6/25 2/25
Tabela 8.5
∑ (x )
n 2
i −x
b) distribuição amostral da variância s2, onde s2 = i=1
n− 1
• s2 = 0, se (1, 1), (3, 3), (5, 5), (7, 7), então P(s2 = 0) = 7/25
• s2 = 2, se (1, 3), (3, 1), (3, 5), (5, 3), (3, 7), (7, 3), então P(s2 = 2) = 10/25
• s2 = 8, se (1, 5), (5, 1), (3, 7), (7, 3), então P(s2 = 8) = 6/25
• s2 = 18, se (1, 7), (7, 1), então P(s2 = 18) = 2/25
A tabela 8.6 apresenta a distribuição amostral da variância, para n = 2:
s k2 0 2 8 18
P(s2 = s k2 ) 7/25 10/25 6/25 2/25

Tabela 8.6
Exemplo 7: Uma máquina enche pacotes cujo peso obedece uma distribuição N(500, 10).
Coleta-se uma amostra de 100 pacotes, pesando-os em seguida. A máquina é considerada
regulada quando o peso médio dos pacotes variam em menos de 2 gramas. Qual a
probabilidade da máquina estar regulada?
A probabilidade da máquina estar regulada é dada por (utilizando o teorema do Limite Central):
P( x − 500 < 2) = P(498 < x < 502) = P( −2 < z < 2) = 0,9544 ≈ 95,4%
x− µ 498 − 500 502 − 500

z= ~ N(0,1) : z 498 = = −2,00 e z 502 = = 2,00
σ/ n 10 / 100 10 / 100
f(x) f(z)
0,4772 0,4772 0,4772 0,4772
498 500 502 -2,0 0 2,0
P[-2,0< z < 0] = P[0 < z < 2,0] = 0,4772 então P[-2,0 < z < 2,0] = 0,9544
8.8 DISTRIBUIÇÃO AMOSTRAL DE UMA PROPORÇÃO
Considere um ensaio de Bernoulli, onde a proporção de elementos portadores de uma certa

característica em uma população é dado por p (p é a probabilidade de sucesso). Então pode-se
definir uma variável aleatória x do seguinte modo:
⎧1, se o indivíduo possuir a característica

x=⎨ ,
⎩0, se o indivíduo não possuir a característica
logo: E(x) = p Var(x) = p(1-p) σ= p(1− p)
Retirada uma amostra casual simples (com reposição) dessa população, e indicando por yn o
número total de indivíduos portadores da característica na amostra, tem-se que:
yn ~ b(n, p)
yn
Define-se por pˆ a proporção de indivíduos portadores da característica na amostra: p̂ =
n
Então: P(yn = k) = P (yn/n = k/n) = P( p̂ =k/n) – a distribuição amostral de pˆ é obtida da
distribuição de yn.
Apresentamos no capítulo 7 que a distribuição binomial pode ser aproximada pela distribuição
normal (quando n é grande e p não muito próximo de 0 ou1). A justificativa deste fato
fundamenta-se no teorema do Limite Central:
Seja yn = x1 + x2 + ...+ xn, onde cada xi tem distribuição de Bernoulli, com média µ = p e desvio-
padrão σ = p(1− p) , e são duas a duas independentes. Assim, temos que:
yn = n x
Pelo teorema do Limite Central, x terá distribuição aproximadamente normal, com média µ = p
p(1 − p)
e desvio padrão σ = , ou seja,
n
⎛ p(1 − p) ⎞⎟
x ~ N⎜⎜ p, ⎟
⎝ n ⎠
Logo, a transformação yn = n x terá a distribuição yn ~ N(np, np(1− p) ), que foi a

aproximação apresentada no capítulo 7.
Observe que x na expressão acima é a própria variável pˆ . Desta forma, para n grande, pode-
se considerar a distribuição amostral de p como aproximadamente normal:
⎛ p(1 − p) ⎞⎟
p̂ ~ N⎜⎜ p, ⎟
⎝ n ⎠
Consequentemente: p̂− p ~ N(0, 1)

z=
p(1 − p)
n
Exemplo 8: suponha que 30% dos estudantes de uma escola seja mulheres. Coleta-se uma
amostra casual simples de n = 10 estudantes e determina-se a proporção de mulheres na
amostra. Qual a probabilidade de que a proporção da amostra difira da proporção da
população em menos de 0,01?
Solução:
• variável de interesse: número de estudantes do sexo feminino em uma escola (sucesso).

• Proporção da população com a característica: p = 0,30
• Proporção da amostra com a característica: pˆ = ?
P( p̂− p < 0,01) = P( −0,01 < p̂− p < 0,01)
Pelo TLC, sabe-se que: p̂− p

z=
p(1 − p)
n
⎛ ⎞
⎜ ⎟
A probabilidade desejada é: P⎜ − 0,01 0,01 ⎟ = P( −0,07 < z < 0,07) = 0,056
<z<
⎜ 0,3(1 − 0,3) 0,3(1 − 0,3) ⎟
⎜ ⎟
⎝ 10 10 ⎠
Exemplo 9: de uma população normal de média µ = 100 e desvio-padrão σ = 10 será retirada

uma amostra de 31 elementos. Se os elementos acima de 105 são considerados defeituosos,
qual a probabilidade de itens defeituosos na amostra ser maior que 20%?
Solução: considerando a probabilidade de um item ser defeituoso como sendo a probabilidade

de sucesso p, tem-se que:
P(x > 105) = P(z > 0,5) = 0,5000 – P(0 < z < 0,5) = 0, 5000 – 0,1915 = 0,3085
x − µ 105 − 100
z= = = 0,5
σ 10
0,1915
100 105 x 0 0,5 z
Sendo p = 0, 3085, deseja-se calcular a probabilidade de que a proporção de que itens

defeituosos na amostra seja maior que 20%. Ou seja:
p̂− p 0,20 − 0,3085 − 0,1085

z= = = ≅ −1,31
p(1 − p) 0,3085(1 − 0,3085 ) 0,083
n 31
P( p̂ > 0,2) = P(z > -1,31) = 0,4049 + 0,5000 = 0,9049

CAPÍTULO 9
ESTIMAÇÃO DE PARAMETROS
9.1 INTRODUÇÃO
O objetivo da Teoria da Estimação é, detectado o interesse em determinado parâmetro de uma

população, extrair-se uma amostra dessa população, estudar seus elementos e procurar
estimar o parâmetro populacional através da análise estatística. A estimação de um parâmetro
populacional pode ser classificado em:
• Estimação pontual: procura fixar um único valor numérico que esteja satisfatoriamente
próximo do verdadeiro valor do parâmetro.
• Estimação por intervalos: procura determinar intervalos com limites aleatórios, que
contenham o valor do parâmetro populacional, com uma margem de confiança prefixada.
9.2 ESTIMAÇÃO PONTUAL
Seja uma amostra (x1, x2, ..., xn) de uma variável aleatória que descreve uma característica de
interesse de uma população. Seja θ um parâmetro que deseja-se estimar (por exemplo, a
média µ = E(x), a variância σ2 = Var(x), etc.). Apresentam-se as seguintes definições:
9.2.1 ESTIMADOR: um estimador T do parâmetro θ é qualquer função das observações da

amostra, ou seja: T = g(x1, x2, ..., xn). Observe que por essa definição, um estimador é o que
anteriormente foi chamado de estatística. Estimativa é o valor assumido pelo estimador em
uma amostra particular.
Logo, o problema da estimação é determinar uma função T = g(x1, x2, ..., xn) que seja próxima
de θ, segundo algum critério. O primeiro critério a ser abordado é dado a seguir.
9.2.2 ESTIMADOR NÃO-VIESADO: o estimador T é dito não-viesado de θ se E(T) = θ, para

todo θ. Observe que a esperança de T é calculada sobre a distribuição amostral de T, conforme
tratado anteriormente.
Exemplo 1: Mostre que a média amostral x é um estimador não-viesado de µ = E(x).

Solução:
x 1 + x 2 + ... + x n
E(x) =
[E(x1 ) + E(x 2 ) + .... + E(x n )] = n µ = µ
x= e
n n n
Exemplo 2: Seja uma população com N elementos e a variância populacional

1 n 1 n
σ 2 = ∑ (xi − µ )2 , onde µ = ∑ x i é a média populacional. Um possível estimador para σ ,
2
N i =1 N i=1
baseado numa amostragem aleatória simples de n elementos, extraída desta população é dada
n
por σ̂ 2 = 1 ∑ (x i − x ) 2 . Mostre que este estimador é viesado.
n i=1
Solução: Podemos escrever que:

n n n n n
∑ (x i − x ) =∑ (x i − µ+ µ− x ) =∑ (x i − µ) − 2∑ (x i − µ)(x − µ) + ∑ (x − µ)
2 2 2 2
i=1 i =1 i =1 i =1 i=1
n n n
Como x− µ é uma constante, e ∑ (x i − µ) = n(x − µ) , temos que: ∑ (x i − x ) = ∑ (x i − µ) − n(x − µ)2
2 2
i=1 i=1 i=1
Segue que: E(σ̂ 2 ) = 1 ⎡⎢∑ E(x i − µ)2 − nE(x − µ)2 ⎤⎥ = 1 ⎡⎢∑ Var(x i ) − nVar(x)⎤⎥ = 1 ⎡⎢nσ 2 − n σ ⎤⎥ = n− 1 σ 2 ,
n n 2
n ⎣ i=1 ⎦ n ⎣ i=1 ⎦ n⎣ n ⎦ n
σ2
já que: E(x i − µ) 2 = Var(x i ) = σ 2 E(x − µ) 2 = Var(x) =
n
Como E( σ̂ 2 ) ≠ σ2 mostra-se que σ̂ 2 é viesado para σ2, e o viés é dado por:
σ2
V( σ̂ 2 ) = E( σ̂ 2 ) - σ2 = −
n
Definindo S 2 = 1
n
∑ (x − x)
i
2 , então S2 é um estimador não viesado para σ2, pois E(S2) = σ2.
n− 1 i =1
9.2.3 ESTIMADOR CONSISTENTE: uma seqüência de estimadores {Tn} de θ é consistente se:
lim E(Tn ) = θ e lim Var(Tn ) = 0

n→ ∞ n→ ∞
9.2.4 ESTIMADOR MAIS EFICIENTE: Se T e T’ são dois estimadores não-viesados de um

mesmo parâmetro θ, e ainda Var (T) < Var(T’), então diz-se que T é mais eficiente do que T’.
9.2.5 ERRO AMOSTRAL: Define-se por e = T - θ, o erro amostral que é cometido ao estimar-
se o parâmetro θ da distribuição da variável aleatória x pelo estimador T = g(x1, x2, ..., xn),
baseado na amostra (x1, x2, ..., xn).
9.2.6 ERRO QUADRÁTICO MÉDIO (EQM): chama-se o erro quadrático médio do estimador T
ao valor:
EQM(T; θ) = E(e2) = E(T - θ)2, donde:
E(T - θ)2 = E(T – E(T) + E(T) - θ)2 =

E(T – E(T))2 + 2E[(T – E(T))(E(T) - θ)] + E(E(T) - θ)2 = E(T - θ)2 = E(T – E(T))2 + E(E(T) - θ)2
Já que (E(T) - θ) é uma constante e E(T – E(T)) = 0, temos que:
EQM(T; θ) = = E(T - θ)2 = Var (T) + B2, onde:
B = V(T) = (E(T) - θ) indica o viés de T (a diferença entre a média do estimador e o parâmetro

que se quer estimar).
9.3 PROCESSOS PARA OBTER ESTIMADORES
Até o momento, tem-se utilizado certos estimadores de parâmetros populacionais (como a

média e a variância), simplesmente tentando “imitar” na amostra o que acontece na população.
Desta forma foram considerados x e s 2 .
Entretanto, existem métodos para obter estimadores, como por exemplo: o método dos
momentos, o método da máxima verossimilhança e o método dos quadrados mínimos. Neste
trabalho abordaremos apenas o método dos quadrados mínimos.
9.3.1 ESTIMADORES DE MÍNIMOS QUADRADOS
Um dos procedimentos mais usados para obter estimadores é aquele que se baseia no
princípio dos mínimos quadrados, introduzido por Gauss em 1794. Apresentaremos este
procedimento através de um exemplo:
Exemplo 3: Um engenheiro está estudando a resistência y de uma fibra em função de seu

diâmetro x e notou que as variáveis são aproximadamente proporcionais, isto é, elas
obedecem à relação
y ≈ θ x,
onde θ é o coeficiente de proporcionalidade entre as variáveis x e y. Seu objetivo é estimar o

parâmetro θ, baseando numa amostra de cinco unidades, que submetidas a mensuração e
testes, produziram os resultados:
x: 1,2 1,5 1,7 2,0 2,6 x = 1,8

y: 3,9 4,7 5,6 5,8 7,0 y = 5,4
Observando os resultados, conclui-se que θˆ = 3 parece ser um valor razoável. Utilizaremos o

modelo ŷ = 3 x e veremos como este prevê os valores de y, para os dados valores de x, e
como são as discrepâncias entre os valores observados e os estimados pelo modelo. A tabela
9.xx apresenta a análise.
x y 3x y - 3x (y – 3x)2
1,2 3,9 3,6 0,3 0,09
1,5 4,7 4,5 0,2 0,04
1,7 5,6 5,1 0,5 0,25
2,0 5,8 6,0 -0,2 0,04
2,6 7,0 7,8 -0,8 0,64
Total 0 1,06
Tabela 9.1
Os valores da coluna (y – 3x) medem a inadequação do modelo para cada observação da

∑
5
amostra, enquanto o valor i=1
(y i − 3 x i ) 2 = 1,06 é uma tentativa de medir “o erro quadrático
total da amostra”. Quanto menor for o erro quadrático total, melhor será a estimativa, o que nos
sugere procurar a estimativa que torne mínima essa soma de quadrados. Matematicamente, o
problema passa a ser o de encontrar o valor de θ que minimize a função:
5
S(θ( = ∑ (y i − θx i ) 2
i=1
O valor mínimo da função é obtido derivando-a em relação a θ e igualando o resultado a zero,
o que resulta:
∑
5 5
dS xiyi
= ∑ (y i − θ̂x i )( −2 x i ) = 0 , donde obtemos: θ̂ MQ = i =1
dθ ∑
5
i =1
i=1
x i2
Utilizando os dados do problema, obtemos θˆ MQ = 2,94 , que conduz a um valor mínimo para
S(θ)= 0,94. Note que este valor é realmente menor do que o observado para θˆ =3, isto é, 1,06.
Observações:
a) Conforme esperado, não existe uma relação perfeita entre as duas variáveis, já que o
diâmetro da fibra não é o único responsável pela resistência – outros fatores não controlados
afetam o resultado.
b) Deste modo, duas amostras com o mesmo diâmetro x não teriam obrigatoriamente que
apresentar o mesmo resultado y, mas valores em torno do valor esperado θ x. Supõe-se então
que, para um dado valor da variável explicativa x, os valores da variável resposta y seguem
uma distribuição de probabilidade f y (y) , centrada em θ x. Isso equivale a afirmar que, para
cada x, o desvio ε = y - θx segue uma distribuição centrada em zero. Assim, podemos escrever:
E(y x i ) = θx i , para todo valor xi
É comum supor que ε tem a mesma distribuição, para todo valor xi da variável explicativa x.
Deste modo, escreve-se:
y = θx + ε
c) como ilustração, poderíamos supor que ε ~ N(0, σ), para todo xi. Quanto menor for a
variância, melhor será a “previsão” de y como função de xi. Assim, parece razoável escolher θ
que torna mínima a soma dos quadrados dos erros:
5 5
∑ε i2 = ∑ (y i − θx i )
2
i =1 i =1
Este modelo pode ser generalizado, de modo a envolver outras funções do parâmetro θ,
resultando no modelo:
y = g(x ; θ) + ε
n n
deve-se procurar o valor de θ que minimize a função S(θ( = ∑ε i2 = ∑ (y i − g(x i ;θ) )2
i=1 i=1
A solução θˆ MQ é chamada de estimador de mínimos quadrados (EMQ) de θ.
Exemplo 4: Suponha o modelo yt = f(t) + ε, onde f(t) = α + βt (a função determinística é uma

reta). Este modelo é conhecido como modelo de regressão linear simples. Neste caso, a soma
dos quadrados dos erros é:
S( α,β) = ∑ (y t − α − βt )
2
Derivando-a em relação a α e β e igualando as derivadas parciais a zero, tem-se:
dS dS
= ∑ (y t − αˆ − βˆ t)( −2) = 0 e = ∑ (y t − αˆ − βˆ t)( −2 t) = 0
dα dβ
ˆ e βˆ satisfazem a:
Donde os estimadores α
∑y t = n αˆ + βˆ ∑ t e ∑ ty t = αˆ ∑ t + βˆ ∑ t 2
resolvendo este sistema, obtém-se os estimadores de mínimos quadrados α̂ e β̂ dos

parâmetros α e β.
Exemplo 5: Os dados abaixo são estimados pelo modelo f(t) = α + βt. Determine os
estimadores de mínimos quadrados de α e β.
t 1 2 3 4 5 6
xt 1,5 1,8 1,6 2,5 4,0 3,8
yt 66,8 67,0 66,9 67,6 68,9 68,7
Solução:
Estendendo o sistema apresentado anteriormente:
n αˆ + βˆ ∑ x t = ∑ y t
αˆ ∑ x t + βˆ ∑ x 2t = ∑ x t y t
Tem-se para n = 6:
6αˆ + 15,2βˆ = 405,9

15,2 α̂+ 44,74 β̂ = 1428,6 então: α̂ = 65,53 e βˆ = 0,837.
Assim, o modelo com estimadores de mínimos quadrados (que é um modelo de regressão

linear) é dado por:
ŷ = 65,53 + 0,837 x
9.4 ESTIMAÇÃO POR INTERVALOS DE CONFIANÇA
Os estimadores apresentados até o momento foram pontuais, isto é, especificam um único

valor para o estimador. Esse procedimento não permite julgar qual a possível magnitude de
erro que se está cometendo. Então surge a idéia de construir intervalos de confiança, que são
baseados na distribuição amostral do estimador pontual.
Basicamente, uma estimativa por intervalo para um parâmetro é um intervalo determinado por
dois valores, obtidos de observações da amostra, no qual se espera que o mesmo contenha o
valor do parâmetro.
A estimativa por intervalo geralmente é feita de forma que a probabilidade de qie o intervalo
contenha o parâmetro possa ser especificada e assim mostrar qual a precisão com que se está
estimando o parâmetro.
9.4.1 INTERVALO DE CONFIANÇA: seja uma amostra aleatória x1, x2, ..., xn de uma certa
[população com parâmetro de interesse θ (desconhecido), e sejam L e U estatísticas. Então,
um intervalo de confiança de nível 100(1 - α)% para o parâmetro θ é o intervalo [L, U] tal que:
P(L < θ < U) = 1 - α, onde:
• (1 - α) é o nível (coeficiente) de confiança, ou seja, é a probabilidade de que o parâmetro de

interesse esteja contido no intervalo [L, U].
• α é a probabilidade de erro na estimação por intervalo.
Usualmente os valores típicos para (1 - α) são 0,90; 0,95; ou 0,99. Então, dado um nível de
confiança (1 - α), procuram-se estatísticas L e U tais que P(L < θ < U) = 1 - α.
9.4.2 ESTIMAÇÃO DE INTEVALO DE CONFIANÇA PARA A MÉDIA µ COM σ CONHECIDO.
Consideremos o caso de determinar um intervalo de confiança para a média populacional µ, a

partir de uma amostra aleatória de tamanho n – suporemos que o desvio padrão populacional σ
é conhecido.
Um estimador não viesado para µ é a média amostral x . Pelo TLC temos que:
x− µ
z= ~ N(0,1)
σ/ n
para determinar o intervalo de confiança deve-se consultar a tabela da normal reduzida e achar
o valor de z tal que:
P(-zc < z <zc) = 1 - α
Como a normal reduzida é simétrica em relação a µ (µ = 0), pode-se concluir que zc = zα/2. A
figura abaixo ilustra este fato.
f(z)
(1 - α)
α/2 α/2
- zα/2 0 zα/2
Reescrevendo as igualdades, temos que: P(-zc < z <zc) = P(-zα/2 < z < zα/2) = 1 - α
⎛ x− µ ⎞
E ainda: P⎜⎜ − z α / 2 < < z α / 2 ⎟⎟ = 1 - α
⎝ σ/ n ⎠
⎛ σ σ ⎞
Então temos que: P⎜⎜ x − z α / 2 < µ < x+ z α / 2 ⎟⎟ = 1 - α
⎝ n n ⎠
⎛ σ σ ⎞
Finalmente: [L, U] = ⎜⎜ x − z α / 2 ; x+ z α / 2 ⎟⎟
⎝ n n ⎠
Exemplo 6: Uma máquina enche pacotes de café com desvio padrão igual a 10g. Ela estava
regulada para encher os pacotes com 500g em média. No momento ela está desregulada. Uma
amostra de 25 pacotes apresentou uma média de 485g. Determine um intervalo de confiança
com 95% de confiança para a média µ atual.
Solução: 1 - α = 0,95 ⇒ α = 0,05 α/2 = 0,025
Consultando a tabela normal padronizada: zα/2 = Z0,025 = 1,96
⎛ σ σ ⎞ ⎛ 10 10 ⎞
[L, U] = ⎜⎜ x − zα/ 2 ; x + z α/ 2 ⎟⎟ = ⎜⎜ 485 − 1,96; x + 1,96 ⎟⎟ = (481;489 )
⎝ n n ⎠ ⎝ 25 25 ⎠
Observação: µ não é uma variável aleatória, mas sim um parâmetro. Este resultado pode ser
interpretado da seguinte forma: se pudéssemos construir uma grande quantidade de intervalos
aleatórios [L, U] a partir de amostras de tamanho n = 25, 95% deles conteriam o parâmetro µ.
9.4.3 ESTIMAÇÃO DE INTEVALO DE CONFIANÇA PARA µ COM σ DESCONHECIDO
Quando a amostra é grande e o desvio padrão populacional σ é desconhecido, pode-se

substituir σ por seu estimador s (desvio padrão amostral). Neste caso, o intervalo de confiança
será dado por:
⎛ S S ⎞
[L, U] = ⎜⎜ x − z α / 2 ; x+ z α / 2 ⎟⎟
⎝ n n ⎠
9.4.4 ESTIMAÇÃO DE INTEVALO DE CONFIANÇA PARA PROPORÇÕES
Dada uma população com distribuição binomial, da qual tem-se uma amostra grande de
tamanho n, com proporção amostral pˆ , sabe-se que:
⎛ p(1 − p) ⎞⎟
p̂ ~ N⎜⎜ p, ⎟ , onde:
⎝ n ⎠
p é a proporção populacional com determinada característica e p = 1 – q.
Pelo TLC temos que: p̂− p ~ N(0, 1)

z=
p(1 − p)
n
Então: P(-zc < z <zc) = P(-zα/2 < z < zα/2) = 1 - α
⎛ ⎞
⎜ ⎟
E ainda: P⎜ − z p̂− p
⎜ α/2 < < z α / 2 ⎟⎟ = 1 - α
p(1 − p)
⎜⎜ ⎟⎟
⎝ n ⎠
⎛ p(1 − p) p(1 − p) ⎞
Então temos que: P⎜ p̂− z α / 2 < p < p̂+ z α / 2 ⎟⎟ = 1 - α
⎜ n n
⎝ ⎠
Como não conhecemos p, existem dois procedimentos possíveis de serem tomados:
pq 1
a) usar o fato de que pq ≤ 1/ 4 , de modo que: ≤ , obtendo:
n 4n
⎛ z z ⎞
⎜⎜ p̂− α / 2 ≤ p ≤ p̂+ α / 2 ⎟⎟
⎝ 4n 4n ⎠
⎛ z z ⎞
Logo, um intervalo com (1 - α)% de confiança é dado por: [L, U] = ⎜⎜ p̂− α / 2 ; p̂+ α / 2 ⎟⎟
⎝ 4n 4n ⎠
Este intervalo é conservador, pois se p não for igual a ½ e estiver próximo de zero ou de um,
então ele fornece um intervalo desnecessariamente maior (porque substituímos pq pelo seu
valor máximo, ¼)
b) substituir pq por p̂q̂ . Então o intervalo de confiança é dado por:

⎛ ⎞
⎜ p̂− p̂(1 − p̂) z α / 2 < p < p̂+ p̂(1 − p̂) z α / 2 ⎟
⎜ n n ⎟
⎝ ⎠
Exemplo 7: Numa pesquisa de mercado, 400 pessoas foram entrevistadas sobre determinado
produto, e 60% dessas pessoas preferiram a marca A. Determine um intervalo de confiança
para p (populacional) com coeficiente de confiança de 95%.
Solução: 1 - α = 0,95 ⇒ α = 0,05 α/2 = 0,025 n = 400 p̂ = 0,60
⎛ z z ⎞ ⎛ 1,96 1,96 ⎞
Então: [L, U] = ⎜⎜ p̂− α / 2 ; p̂+ α / 2 ⎟⎟ = ⎜⎜ 0,60 − ;0,60 + ⎟⎟ = (0,551; 0,649)
⎝ 4n 4n ⎠ ⎝ 1600 1600 ⎠
Obs: use o procedimento b) para calcular o intervalo de confiança e compare os resultados.
Exemplo 8: para estimar a renda média semanal dos camelôs da cidade, um pesquisador
levantou os dados sobre receitas semanais de uma amostra aleatória de 75 vendedores. A
média e o desvio-padrão resultaram em R$ 127 e R$ 15, respectivamente. Determine um
intervalo de 90% de confiança para a renda média semanal.
Solução: 1 - α = 0,90 ⇒ α = 0,10 α/2 = 0,050 n = 75 x = 127 s = 15
Como a amostra é grande (n > 30) e σ (desvio padrão populacional) é desconhecido, o

intervalo de confiança é dado por:
⎛ S S ⎞ ⎛ 15 15 ⎞
[L, U] = ⎜⎜ x − z α / 2 ; x+ z α / 2 ⎟⎟ = ⎜⎜127 − 1,64;127 + 1,64 ⎟⎟ ≅ (124,130 )
⎝ n n ⎠ ⎝ 75 75 ⎠
9.4.5 ESTIMAÇÃO DE INTERVALO DE CONFIANÇA PARA µ (AMOSTRA PEQUENA)
Quando o tamanho da amostra é pequeno (na prática, n <30), a aproximação da distribuição da

média amostral x por uma normal N (µ, σ/ n ) pode ser ruim, se a distribuição da população
estiver muito afastada de uma normal N (µ, σ).
Então, quando n é pequeno e o desvio padrão populacional σ é desconhecido, utiliza-se a

variável t, definida por:
x− µ
t=
S/ n
onde a variável t é conhecida como “t de Student”, com (n – 1) graus de liberdade. Para esta
distribuição, o valor esperado E(t) e a variância Var(t) são dados respectivamente por:
E(t) = 0 Var (t) = r/(r – 2)
Ressalta-se que o número de graus de liberdade é importante, pois para cada n existe uma
distribuição diferente. O valor de r está relacionado com quantos dados independentes
precisam ser conhecidos para determinar o valor do estimador s (desvio padrão amostral) do
parâmetro σ (desvio padrão populacional). Isto é, s precisa somente de ( n – 1) dados (xi - x ).
Conforme relatado no capítulo 7 (pág. 82), a distribuição de Student possui o seguinte aspecto:
fr(t) α
0
tα t
Devido a sua importância, a distribuição de Student é tabelada para diferentes valores de α e

para diferentes graus de liberdade. O intervalo de confiança com 100(1 - α)% de confiança é:
⎛ S S ⎞
[L, U] = ⎜⎜ x − t α / 2 ; x+ t α / 2 ⎟⎟
⎝ n n ⎠
Este intervalo é tal que: ⎛ S S ⎞

P⎜ x − tα / 2 < µ < x+ tα / 2 ⎟ = 1 − α
⎝ n n ⎠
Obs: Existem tabelas para a distribuição de Student em que os valores encontrados

correspondem a: t1-α/2 ou tα/2 ou tα. Ou seja: é preciso atenção ao consultar uma tabela.
Exemplo 9: Uma nova liga para concreto foi descoberta. Em 15 c.d.p. de concreto com esta
nova liga, mediu-se a resistência à compressão. A média e o desvio padrão foram 39,6 e 2,6,
respectivamente. Calcule um IC com 90% de confiança para a média da resistência desta liga.
Solução: 1 - α = 0,90 ⇒ α = 0,10 α/2 = 0,050 n = 15 x = 39,6 s = 2,6
Amostra pequena e σ desconhecido: [L, U] = ⎛⎜ 39,6 − 2,6 1,761;39,6 + 2,6 1,761⎞⎟ = (38,12; 40,48)
⎝ 15 15 ⎠
ESTIMAÇÃO DE INTERVALO DE CONFIANÇA PARA A VARIÂNCIA
Em muitos processos de produção industrial, a uniformidade de certas características

mensuráveis é um critério utilizado no controle de qualidade do produto. Assim, o engenheiro
de controle de qualidade deve assegurar que a variabilidade de medidas não exceda o limite
especificado.
Considerando, como hipótese, que a população tem distribuição normal N (µ, σ), com variância
desconhecida, sabe-se que a estatística s2 é um estimador não tendencioso do parâmetro σ2.
A distribuição amostral do estimador s2 é denotada por χ2, e é chamada de distribuição Qui-
quadrado com r = n-1 graus de liberdade.
Conforme visto no capítulo 7, sua função densidade é dada por:
⎧ 1
r
−1
⎪ ⋅ y 2
⋅ e − y/ 2 , y > 0
f(y; r) = ⎨Γ(r/ 2)2 r/ 2
⎪0, y<0
⎩
A média e a variância da distribuição Qui-quadrado são dadas respectivamente por:
E (y) = r Var (y) = 2 r
Na determinação de um intervalo de 100(1 - α)% de confiança para a variância σ2 de uma

(n− 1) s 2
população normal será utilizada a estatística x = 2
que tem distribuição Qui-
σ2
quadrado com n-1 graus de liberdade.
Se χ 2α / 2 e χ 12− α / 2 são valores da distribuição Qui-quadrado que fornecem áreas de 1 - α/2 e

α/2, respectivamente, tem-se:
⎛ 2
P⎜⎜ χ α / 2 <
(n− 1) s 2 ⎞
< χ 12− α / 2 ⎟⎟ = 1 − α
⎝ σ 2
⎠
⎛ (n− 1) s 2 (n− 1) s 2 ⎞
donde temos que: ⎜
P⎜ <σ < 2
2
⎟ = 1− α
⎟
⎝ χα / 2 χ 1− α / 2
2
⎠
Então, um intervalo com 100(1 - α)% de confiança para a variância de uma população normal é
dado por:
⎛ (n− 1) s 2 (n− 1) s 2 ⎞
[L, U] = ⎜⎜ ; ⎟
⎟
⎝ χ 2
α/2 χ 12− α / 2 ⎠
Exemplo 10: uma amostra de tamanho 15 de uma população normal tem média x = 26 e
desvio padrão s = 3,32. Determine um intervalo de 95% de confiança para σ2.
Solução: 1 - α = 0,95 ⇒ α = 0,05 α/2 = 0,025 n - 1= 14
Então, o intervalo é dado por:
⎛ (n− 1) s 2 (n− 1) s 2 ⎞ ⎛ (14 )(3,32)2 (14 )(3,32)2 ⎞

[L, U] = ⎜⎜ ; ⎟ =⎜ ⎟ = [5,908; 27,414]
χ 2
χ 12− α / 2 ⎟ ⎜ 26,119 ; 5,629 ⎟
⎝ α/2 ⎠ ⎝ ⎠
Exemplo 11: Têm-se os seguintes pesos, em gramas, de 10 pacotes postais remetidos por
certa empresa.
46,4 46,1 45,8 47,0 46,1 45,9 45,8 46,9 45,2 46
Admitindo-se normal a distribuição dos pesos, determine um intervalo de 95% de confiança

para a variância de todos os pesos dos pacotes (população) expedidos pela empresa.
Solução: 1 - α = 0,95 ⇒ α = 0,05 α/2 = 0,025 n - 1= 9 x =46,12 s2=0,286
Então, o intervalo é dado por:
⎛ (n− 1) s 2 (n− 1) s 2 ⎞ ⎛ (9 )(0,286 ) (9 )(0,286 ) ⎞

[L, U] = ⎜⎜ ; ⎟ =⎜ ⎟ = [0,135; 0,953]
⎟ ⎜ 19,0228 ; ⎟
⎝ χα / 2 χ 12− α / 2
2
⎠ ⎝ 2,7004 ⎠
CAPÍTULO 10
TESTES DE HIPÓTESES
10.1 INTRODUÇÃO
Conforme comentado anteriormente, um dos problemas a serem tratados pela Inferência

Estatística é o de testar uma hipótese. Ou seja: feita uma determinada afirmação sobre uma
população (geralmente sobre um parâmetro desta), deseja-se saber se os resultados
experimentais provenientes de uma amostra contrariam ou não tal afirmação.
10.2 OBJETIVO DO TESTE DE HIPÓTESE
Um teste de hipóteses, para um parâmetro populacional, pode ser definido da seguinte forma:
existe uma variável x associada a dada população e tem-se uma hipótese sobre determinado
parâmetro θ desta população (por exemplo, afirma-se que o verdadeiro valor de θ é θ0 ). A
hipótese que interessa verificar em cada situação surge ao se especificar o problema e a
população associada. A viabilidade da hipótese é analisada com base nos dados de uma
amostra (x1, x2, ..., xn) extraída da população, através de uma regra de decisão sintetizada em
uma estatística de teste.
Neste sentido, o objetivo do teste estatístico de hipóteses é fornecer uma metodologia que
permita verificar se os dados amostrais trazem evidências que apóiem ou não uma hipótese
estatística formulada.
10.2.1 HIPÓTESES
• Hipótese Estatística (H): é qualquer afirmação sobre a população em estudo.

• Hipótese Nula (H0): é a hipótese que se está colocando à prova.
• Hipótese Alternativa (H1): é uma hipótese considerada aceitável, caso H0 seja rejeitada. A
sua caracterização depende do grau de conhecimento que se tem do problema estudado.
10.2.2 ERROS
Qualquer que seja a decisão a ser tomada, sujeita-se a cometer erros. Em testes de hipóteses,
consideram-se dois tipos de erros:
Erro de Tipo I: rejeitar a hipótese nula H0 quando esta é verdadeira. Chama-se α a

probabilidade de cometer esse erro, ou seja:
α = P (erro do tipo I) = P (rejeitar H0 \ H0 é verdadeira)
Erro de Tipo II: não rejeitar a hipótese nula H0 quando esta é falsa. Chama-se β a
probabilidade de cometer esse erro, ou seja:
β = P (erro do tipo II) = P (não rejeitar H0 \ H0 é falsa)
Conclusão do Teste H0 verdadeira H0 falsa

Não rejeitar H0 Correto Erro Tipo II
Rejeitar H0 Erro Tipo I Correto
10.3 TESTE DA HIPÓTESE NULA
O objetivo do teste de hipóteses é dizer, usando uma estatística θ̂ , se a hipótese H0 é ou não

aceitável (daí o nome teste da hipótese nula). Operacionalmente, essa decisão é tomada
através da consideração de uma região critica (ou região de rejeição) RC.
Caso o valor observado da estatística pertença a região RC, rejeitamos H0; caso contrário, não
rejeitamos H0. Esta região é construída sob a hipótese de H0 ser verdadeira, e a probabilidade
de ocorrência é igual a α, fixado a priori. Então:
P( θˆ ∈ RC \ H0 é verdadeira) = α
Na teoria do teste de hipóteses, a alternativa nula H0 somente é rejeitada se houver clara

evidência contra ela, ou seja, H0 é a hipótese preferencial. Uma analogia que ajuda a
compreender esta idéia é o júri popular. O acusado é considerado inocente até que se prove o
contrário. Não havendo evidência suficiente, o acusado é considerado inocente. Esta atitude é
justificada porque se considera erro mais grave prender um inocente do que soltar um culpado.
Como em testes de hipóteses não se pode controlar os dois tipos de erros, opta-se por
controlar o erro tipo I, o qual deve ser o mais sério. Esta é a razão porque se fala em “rejeição
de H0” e nunca em “aceitação de H1” – simplesmente porque não se pode precisar a
probabilidade de erro na segunda decisão.
10.4 NÍVEL DE SIGNIFICÂNCIA DO TESTE
A probabilidade α de se cometer o erro tipo I é um valor arbitrário e recebe o nome de nível de

significância do teste. O resultado da amostra é tão mais significante para rejeitar H0 quanto
menor for este nível α. Ou seja, quanto menor for α, menor a probabilidade de se obter uma
amostra com estatística pertencente à região crítica, sendo pouco verossímil a obtenção de
uma amostra da população para a qual H0 seja verdadeira. Geralmente, o valor de α é fixado
em 5%, 1% ou 0,1%.
10.5 ETAPAS PARA CONSTRUÇÃO DE UM TESTE DE HIPÓTESES
Apresentamos anteriormente conceitos utilizados nos testes de hipóteses. Nesta seção,

apresentam-se as etapas que podem ser utilizadas para construir qualquer tipo de teste de
hipóteses.
1. Fixe qual a hipótese H0 a ser testada e a hipótese alternativa H1.

2. Use a teoria estatística e as informações disponíveis para decidir qual estatística
(estimador) será usada para testar a hipótese H0. Obter as propriedades desta estatística
(distribuição, média, desvio padrão).
3. Fixe a probabilidade α de cometer erro de Tipo I e use este valor para construir a região
crítica (regra de decisão). Esta região é construída para a estatística definida na etapa 2,
usando os valores hipotetizados por H0.
4. Use as observações da amostra para calcular o valor da estatística do teste.
5. Se o valor da estatística calculado com os dados da amostra não pertencer à região crítica,
não rejeite H0; caso contrário, rejeite H0.
É importante tentar distinguir bem cada uma destas etapas. Nas etapas seguintes apresentam-
se alguns tipos de testes de hipóteses usuais e exemplos ilustrativos.
10.6 TESTES DE HIPÓTESES SOBRE A MÉDIA
A média de uma população é uma de suas características mais importantes e, frequentemente,

decisões a seu respeito têm que ser tomadas. Apresentam-se a seguir os testes a serem
usados para as seguintes hipóteses:
a) H0: µ ≤ µ0 ou µ = µ0 H1: µ > µ0
b) H0: µ ≥ µ0 ou µ = µ0 H1: µ < µ0
c) H0: µ = µ0 H1: µ ≠ µ0
As situações (a) e (b) são os chamados testes de hipóteses unilaterais, porque a região de
rejeição está somente em uma das caudas da distribuição. A situação (c) define os testes
bilaterais, porque a região de rejeição se distribui igualmente em ambas as caudas da
distribuição.
10.6.1 TESTE SOBRE A MÉDIA DE UMA POPULAÇÃO COM VARIÂNCIA CONHECIDA.
Assim como no caso da construção de intervalos de confiança, este caso serve apenas para
que se entenda o processo, do que para uso prático, já que a suposição do conhecimento
prévio da variância populacional é bastante artificial.
Caso (a): H0: µ ≤ µ0 ou µ = µ0 H1: µ > µ0
O teste a ser usado é: “rejeitar H0 se x > c”
µ0 c z
⎡ (x − µ 0 ) (c − µ 0 )⎤
Para um nível de significância α, tem-se: P(x > c) = α ou P⎢ > ⎥=α
⎣ σ/ n σ/ n ⎦
⎡ (c − µ 0 )⎤
Consequentemente: P ⎢z > ⎥=α
⎣ σ/ n ⎦
Considerando as características da normal, tem-se que:
c− µ 0 σ
z 1− α = c = µ0 + z 1− α , onde z1-α é obtido na tabela da normal
σ/ n n
σ x− µ 0
O teste consiste em: “rejeitar H0 se x > c = µ 0 + z 1− α ” ou ainda, se z 1− α <
n σ/ n
Caso (b): H0: µ ≥ µ0 ou µ = µ0 H1: µ < µ0
O procedimento é análogo ao anterior. O teste a ser usado é: “rejeitar H0 se x < c”
c µ0 z
⎡ (x − µ 0 ) (c − µ 0 )⎤
Para um nível de significância α, tem-se: P(x < c) = α ou P⎢ < ⎥=α
⎣σ/ n σ/ n ⎦
⎡ (c − µ 0 )⎤
Consequentemente: P ⎢z < ⎥=α
⎣ σ/ n ⎦
Considerando as características da normal, tem-se que:
c− µ 0 σ
− z 1− α = c = µ0 − z 1− α
σ/ n n
σ x− µ 0
O teste consiste em: “rejeitar H0 se x < c = µ 0 − z 1− α ” ou ainda, se − z 1−α >
n σ/ n
Caso (c): H0: µ = µ0 H1: µ ≠ µ0
O teste a ser usado é: “rejeitar H0 se x < c1 ou se x > c2”
Então procura-se zα/2 tal que:
⎡⎛ ⎞ ⎛ ⎞⎤
⎢⎜ x − µ ⎟ ⎜
c 1 − µ 0 ⎟ ⎜ x − µ 0 c 2 − µ 0 ⎟⎥
⎟
P⎢ ⎜ 0
< ∪ > ⎥=α
⎢⎜ 1 σ2
/ 3
n 1 σ2 / 3 n ⎟ ⎜1 σ4
/ 2n431σ /
424 n
3⎟
⎟⎥
⎢⎣⎜⎝ z ⎟ ⎜
−zα / 2 ⎠ ⎝ z zα / 2 ⎠⎥⎦
α/2 α/2
x c1 µ0
x c2
σ σ
O teste consiste em: “rejeitar H0 se x < c 1 = µ 0 − z 1−α / 2 ” ou se x > c 2 = µ 0 + z 1−α / 2 ”
n n
x− µ 0
Ou ainda se: z 1− α / 2 < ”
σ/ n
Exemplo 1: Uma máquina automática para encher pacotes de café enche-os segundo uma
distribuição normal, com média µ e desvio padrão sempre igual a 20 g. A máquina foi regulada
para µ = 500 g. Deseja-se, periodicamente coletar uma amostra de 16 pacotes e verificar se a
produção está sob controle, isto é, se µ = 500 g ou não. Se uma das amostras apresentasse
uma média x = 492 g, você pararia ou não a produção para regular a máquina?
Solução: seja x o peso de cada pacote; então x ~ N(µ, 20)
Etapa 1: H0: µ = 500 g H1: µ ≠ 500 g
Etapa 2: pelo problema, σ = 20. Então para todo µ, a média de 16 pacotes terá distribuição
⎛ σ ⎞
N ⎜⎜ µ, ⎟⎟ . Isto é x ~ N(500,5) .
⎝ n⎠
Etapa 3: fixar α = 1%. Pela hipótese alternativa, vemos que H0 deve ser rejeitada quando x for
muito menor que o aceitável ou muito maior que o aceitável (temos um teste bilateral). A região
de rejeição está hachurada na figura abaixo:
α/2 = 0,5% α/2 = 0,5%
500
x c1 x c2
Da tabela da curva normal padronizada obtemos z1-0,005 = 2,58. Então temos que:
x c1 − µ x c2 − µ
z1 = -2,58 = ⇒ x c1 = 487,1 e z2 = 2,58 = ⇒ x c 2 = 512,9
σx σx
A região crítica é: RC = { x ∈ ℜ / x ≤ 487,1 ou x ≥ 512,9}
Etapa 4: a informação pertinente da amostra é sua média, que particularmente é x 0 = 492.
Etapa 5: como x 0 não pertence à região de rejeição, conclui-se que não devemos rejeitar H0.
Ou seja, o desvio da média da amostra para a média proposta por H0 pode ser considerado
como devido apenas ao sorteio aleatório dos pacotes.
Exemplo 2: Um fabricante de fio de arame alega que seu produto tem uma resistência média à
ruptura de 10 kg, com desvio padrão de 0,5 kg. Um consumidor resolve testar esta afirmativa.
Extrai uma amostra de 50 peças de arame, a qual acusou a resistência média de 9,6 kg. É
válida a alegação do fabricante?
Solução: até que haja evidência em contrário, o consumidor supõe que a resistência média
seja inferior a 10 kg.
Etapa 1: H0: µ < 10 kg H1: µ = 10 kg
Etapa 2: pelo problema, σ = 0,5. Então para todo µ, a média de 50 peças do arame terá
⎛ σ ⎞
distribuição N ⎜⎜ µ, ⎟⎟ . Isto é x ~ N(10; 0,07) .
⎝ n⎠
Etapa 3: fixar α = 5%. Logo, o teste consiste em:

σ x− µ 0
“Rejeitar H0 se x > c = µ 0 + z 1− α ” ou ainda, se z 1− α <
n σ/ n
Região de rejeição
α
µ0 c z
Da tabela da curva normal padronizada obtemos z0,95 = 1,645.
σ 0,5
RC = { x ∈ ℜ / x > c = µ 0 + z 1− α } RC = { x ∈ ℜ / x > 10 + 1,645 }
n 50
x− µ 0 9,6 − 10
Alternativamente: z 1− α < 1,645 <
σ/ n 0,5 / 50
Etapa 4: a informação pertinente da amostra é sua média, que particularmente é x = 9,6.
Etapa 5: como x não pertence à região de rejeição, conclui-se que não devemos rejeitar H0.
Ou seja, não há evidência de que a resistência média seja igual a 10 kg, como alegado pelo
fabricante.
Exemplo 3: Um engenheiro apresenta uma tabela com os seguintes dados numéricos:
0,464 0,367 2,455 -0,323 -0,068

0,06 -2,526 -0,531 -0,194 -0,243
0,906 -0,513 0,525 0,595 -0,883
Ele afirma que os dados foram extraídos de uma população N (µ, 1). Teste ao nível de
significância de 5% a hipótese: H0: µ = 0 e H1: µ ≠ 0
Solução: x = 0,091
Etapa 1: H0: µ = 0 H1: µ ≠ 0
Etapa 2: supondo H0 verdadeira, a média µ da população é zero. Então, a média da amostra

⎛ σ ⎞ ⎛ ⎞
terá distribuição N ⎜⎜ µ, ⎟⎟ . Isto é x ~ N⎜⎜ 0, 1 ⎟⎟ .
⎝ n⎠ ⎝ 15 ⎠
Etapa 3: fixar α = 5%. Observamos que H0 deve ser rejeitada quando x for menor que o
aceitável ou maior que o aceitável (teste bilateral). A figura abaixo mostra a região de rejeição:
α/2 = 2,5% α/2 = 2,5%
x c1 0 x c2
Da tabela da curva normal padronizada obtemos z1-0,025 = 1,96. Então temos que:
x c1 − µ x c2 − µ
z1 = -1,96 = ⇒ x c1 = -0,51 e z2 = 1,96 = ⇒ x c 2 = 0,51
σx σx
A região crítica é: RC = { x ∈ ℜ / x < -0,51 ou x > 0,51}
Etapa 4: a informação pertinente da amostra é sua média, que particularmente é x 0 = 0,091.
Etapa 5: como x 0 não pertence à região de rejeição, conclui-se que não devemos rejeitar H0.
Ou seja, o desvio da média da amostra para a média proposta por H0 pode ser considerado
como devido apenas ao sorteio aleatório dos pacotes.
10.6.2 TESTE SOBRE A MÉDIA DE UMA POPULAÇÃO COM VARIÂNCIA DESCONHECIDA
Este caso é muito semelhante ao anterior. Como a variância populacional não é conhecida,
utiliza-se o valor do seu estimador (variância amostral). Assim como na construção dos
intervalos de confiança, a estatística recomendada é:
t=
(x − µ0 ) , que tem distribuição t de Student com n – 1 graus de liberdade.
S/ n
Neste sentido, têm-se os seguintes testes:
a) H0: µ ≤ µ0 ou µ = µ0 H1: µ > µ0
b) H0: µ ≥ µ0 ou µ = µ0 H1: µ < µ0
c) H0: µ = µ0 H1: µ ≠ µ0
Por ser um teste unilateral, devemos procurar um valor tc tal que: P [ t > tc] = α
fr(t) α
0
t c = tα t
Neste caso, o teste consiste em:
“Rejeitar H0 se t > tα”, (ou “Rejeitar H0 se t > t1 - α”, se a tabela contiver valores acumulados)
Trata-se de um teste unilateral, em que devemos procurar um valor tc tal que: P [ t < tc] = α
fr(t)
α
-tc = -tα 0
t
Neste caso, o teste consiste em:
“Rejeitar H0 se t < -tα”, (ou “Rejeitar H0 se t < -t1 - α”, se a tabela contiver valores acumulados)
Caso (c): H0: µ = µ0 H1: µ ≠ µ0
Trata-se de um teste bilateral, em que devemos procurar um valor tc tal que: P [ -tc< t < tc] = α
fr(t)
α/2 α/2
-tc = -tα 0
tc =tα t
Neste caso o teste consiste em:
“Rejeitar H0 se |t| > t α/2” (ou Rejeitar H0 se |t| > t1 - α/2, se a tabela contiver valores acumulados)
Exemplo 4: Um teste de resistência à ruptura feito em 6 cordas acusou resistência média de

3530 kg, com desvio padrão de 66 kg. O fabricante afirma que seu produto tem resistência
média de 3650 kg. Pode-se justificar a alegação do fabricante, ao nível de significância de (a)
5%, (b) 1%?
Etapa 1: Hipóteses: H0: µ = 3650 H1: µ < 3650
Etapa 2: sendo que x, a resistência à ruptura de uma corda, tenha distribuição N(µ, σ), temos
a estatística t n – 1 graus de liberdade, onde n – 1 = 5:
Etapa 3: trata-se de um teste unilateral, devemos procurar o valor tc tal que: P(t < -tc) = α
α fr(t)
-tc = -tα 0
t
a) Para α = 5%: Da tabela da distribuição de Student, temos que -tc = -tα = -t0,05 = -2,015
A região crítica é tal que t < -tα (t < -2,015).
b) Para α = 1%: Da tabela da distribuição de Student, temos que -tc = -tα = -t0,01 = -3,365
A região crítica é tal que t < -tα (t < -3,365).
Etapa 4: o valor observado da estatística t é: t =

(x − µ0 ) = (3530 − 3650 ) = −4,45
S/ n 66 / 6
Etapa 5: -t 0,05 = -2,015. como –4,45 < -2,015, H0 será rejeitada.
-t 0,01 = -3,365. como –4,45 < -3,365, H0 será rejeitada.
Nos dois casos H0 será rejeitada, é muito improvável que a alegação do fabricante seja válida.
Exemplo 5: Um fabricante afirma que seus cigarros contêm não mais do que 30 mg de
nicotina. Uma amostra de 25 cigarros fornece média de 31,5 mg e desvio padrão de 3 mg. Ao
nível de 5% de significância, os dados refutam ou não a afirmação do fabricante?
Solução:
Etapa 1: Hipóteses: H0: µ = 30 H1: µ > 30
Etapa 2: supondo que x, a quantidade de nicotina por cigarro, tenha distribuição N(µ, σ), temos
a estatística t com n – 1 graus de liberdade. (n – 1) = 24
Etapa 3: por ser um teste unilateral, devemos procurar o valor tc tal que: P(t > tc) = 0,05
fr(t) α
0
t c = tα t
Da tabela da distribuição de Student, temos que tc = tα = 0,05 = 1,711.
A região crítica é tal que t > tα (t > 1,711).
Etapa 4: o valor observado da estatística t é: t =

(x − µ 0 ) (31,5 − 30 )
= = 2,5
S/ n 3 / 25
Etapa 5: como t pertence à região crítica, rejeita-se H0, ou seja, há evidência de que os
cigarros contenham mais de 30 mg de nicotina.
10.6.3 POPULAÇÃO NÃO NORMAL, GRANDES AMOSTRAS
Neste caso, pelo Teorema do Limite Central (TLC), a média da amostra tem distribuição
aproximadamente normal. Utilizam-se os seguintes testes:
x− µ 0
Teste: “Rejeitar H0 se z 1− α < ”
S/ n
x− µ 0
Teste: “Rejeitar H0 se − z 1− α > ”
S/ n
Caso (c): H0: µ = µ0 H1: µ ≠ µ0
x− µ 0
Teste: “Rejeitar H0 se z 1−α / 2 < ”
S/ n
Exemplo 6: Um laboratório farmacêutico introduz no mercado um novo comprimido para dor de

cabeça, retirando de circulação o antigo, com a justificativa de que o início do efeito do novo
produto é menor. O remédio que está no mercado (antigo) tem um tempo médio de 37 minutos
para início do efeito. Em uma amostra de 30 pessoas que tomaram o novo comprimido, obteve-
se um tempo médio de 36 minutos, com desvio padrão de 4 minutos. Ao nível de significância
de 5% é possível afirmar que o início do efeito do novo comprimido é menor?
Etapa 1: H0: µ = 37 ( o novo comprimido não é melhor que o antigo)

H1: µ < 37 ( o novo comprimido é melhor que o antigo)
Etapa 2: Neste caso, o tamanho da amostra pode ser considerado grande e a média amostral
pode ser considerada aproximadamente normal.
Etapa 3: Da tabela da normal reduzida, tem-se z0,95 = 1,645. A região crítica é: z < -1,645
x− µ 0 36 − 37
Etapa 4: A estatística de teste será: z = = = −1,369
S/ n 4 / 30
Etapa 5: Como o valor de z, calculado na amostra, é –1,369 (> -1,645), não rejeita-se H0 e
conclui-se que o tempo médio de ação do novo comprimido não é inferior ao tempo médio de
ação do comprimido em uso.
10.7 TESTE DE HIPÓTESES PARA PROPORÇÕES
Para testar hipóteses sobre proporções, utilizam-se as informações abordadas na estimação de

proporções (tanto pontual quanto por intervalos). Dada uma população com distribuição
binomial, da qual tem-se uma amostra grande de tamanho n, com proporção amostral p̂ , sabe-
se que:
⎛ p(1 − p) ⎞⎟
p̂ ~ N⎜⎜ p, ⎟
⎝ n ⎠
Pelo TLC temos que: p̂− p ~ N(0, 1), onde:

z=
p(1 − p)
n
• p é a proporção populacional com determinada característica (p = 1 – q).

p(1 − p) pq
• σ= = é o desvio padrão populacional
n n
p̂q̂
• como geralmente não conhecemos p e q, utilizamos o estimador σ
ˆ = .
n
Analogamente apresentam-se as hipóteses possíveis e as respectivas regras de decisão:
As hipóteses possíveis são:
Caso (a): H0: p ≤ p0 ou p = p0 H1: p > p0
p̂− p 0
Teste: H0 será rejeitada se z 1− α <
p̂q̂
n
Caso (b): H0: p ≥ p0 ou p = p0 H1: p < p0
p̂− p 0
Teste: H0 será rejeitada se − z 1− α >
p̂q̂
n
Caso (c): H0: p = p0 H1: p ≠ p0
p̂− p 0
Teste: H0 será rejeitada se z 1− α / 2 <
p̂q̂
n
Exemplo 7: Um jornal alega que 25% dos seus leitores pertencem à classe A. Que regra de
decisão deveria ser adotada para testar esta hipótese, contra a alternativa de que a
porcentagem verdadeira não é de 25%, para um nível de significância de 5%? Se em uma
amostra de 740 leitores, encontram-se 156 de classe A, qual a decisão a respeito da
veracidade da alegação veiculada pelo jornal?
Solução:
Etapa 1: H0: p = p0 H1: p ≠ p0
Etapa 2: temos um teste bilateral onde:
n = 740 p0 = 0,25 p̂ = 156/740 = 0,21 q̂ = 1 – 0,21 = 0,79
Etapa 3: Consultando a tabela normal reduzida tem-se que: z1 - α/2 = z0,975 = 1,96.
p̂− p 0
A região crítica será tal que: z 1− α / 2 <
p̂q̂
n
p̂− p 0 0,21 − 0,25

Etapa 4: A estatística do teste será z = = = 2,67
p̂q̂ 0,21× 0,79
n 740
Etapa 5: Como 1,96 < 2,67, H0 será rejeitada e conclui-se que a proporção de leitores de
classe A é diferente de 25%.
10.8 TESTE DE HIPÓTESE PARA VARIÂNCIA
Neste caso, as hipóteses possíveis são:
Caso (a): H0: σ2 = σ 02 H1: σ2 > σ 02
(n− 1) S 2
Teste: H0 será rejeitada se χ α2 ≤
σ 02
Caso (b): H0: σ2 = σ 02 H1: σ2 < σ 02
(n− 1) S 2
Teste: H0 será rejeitada se χ 12− α ≥
σ 02
Caso (c): H0: σ2 = σ 02 H1: σ2 ≠ σ 02
(n− 1) S 2 (n− 1) S 2
Teste: H0 será rejeitada se χ 12− α / 2 ≥ ou χ 2
α/2 ≤
σ 02 σ 02
Exemplo 8: uma das maneiras de manter sob controle a qualidade de um produto é controlar
sua variabilidade. Uma máquina de encher pacotes de café está regulada para enche-los com
média de 500 g e desvio padrão de 10g. O peso de cada pacote x segue uma distribuição N(µ,
σ). Colheu-se uma amostra de 16 pacotes e observou-se uma variância de 169 g2. Com esse
resultado é possível dizer que a máquina está desregulada em relação à variância?
Solução:
H0: σ2 = 100 H1: σ2 ≠ 100
Fixado o nível de significância α = 5%, a região crítica será tal que: P(χ 2 ∈ RC/H0 ) = α
Como temos um teste bilateral: P(χ2 < χ12 ou χ2 > χ22 ) = α
α/2 α/2
χ 12 χ 22 χ2
Consultando a tabela da Qui-quadrado para n – 1 graus de liberdade, temos que:
χ 12− α / 2 = χ 02,975 = 6,262 e χ 2α / 2 = χ 02,025 = 27,488
A região de rejeição será: RC = { χ2 ≤ 6,262 ou χ2 ≥ 27,488 }
(n− 1) S 2 15 × 169
O valor observado da estatística é: χ 02 = = = 25,35
σ 02 100
Como χ 02 não pertence à região de rejeição, não rejeita-se H0. Ou seja: a máquina está sob
controle quanto à variância.
OBSERVAÇÕES ADICIONAIS
1) Sabe-se que a eficácia de certa vacina após um ano é de 25%, isto é, o teste imunológico se
prolonga por mais de um ano em apenas 25% das pessoas que a tomaram. Desenvolve-se
uma nova vacina (mais cara), com a mesma finalidade. Pretende-se testar se a nova vacina é
realmente melhor.
a) Neste caso, trata-se de um teste de hipóteses para proporções, onde p é a proporção de

pessoas imunizadas com a nova vacina.
b) As hipóteses são: H0: p = 0,25 (a nova vacina não tem efeito melhor do que a em uso)
H1:p > 0,25 (a nova vacina torna mais pessoas imunes que a atual)
c) o erro tipo I consiste em aprovar a nova vacina quando, na realidade, ela não tem nenhum
efeito superior ao da vacina em uso. O erro tipo II consiste em rejeitar a nova vacina
quando ela é, de fato, melhor do que a vacina em uso. Por implicações sociais e
econômicas, o erro tipo I é considerado mais sério do que o erro tipo II.
2) Suponha que a nova vacina seja aplicada em 20 pessoas e que H0 seja rejeitada (conclui-se
que a nova vacina é melhor) se a vacina per durar por mais de um ano em a) menos de 8
pessoas; b) menos de 9 pessoas. Determine α e β para os dois casos.
Seja x o número de pessoas, dentre as 20 submetidas ao teste, em que o efeito da nova vacina
se prolonga por mais de um ano.
a) o teste será: Rejeitar H0 se x ≥ 8.

Como x tem distribuição binomial b(20; 0,25), da tabela da binomial temos que:
P(Erro tipo I) = P(x ≥ 8 ⎜ p = 0,25) = α

= 1 - P(x < 8 ⎜ p = 0,25) = 1 – 0,898 = 0,102 (10,2%)
Para se determinar β (a probabilidade de erro Tipo II), deve-se ter uma hipótese alternativa
bastante específica, por exemplo, H1: p = 0,50. Para esta situação, tem-se b(20; 0,50):
P(Erro tipo II) = P(x < 8 ⎜ p = 0,50) = β

= P(x ≤ 7 ⎜ p = 0,50) = 0,132 (13,2%)
b) o teste será: Rejeitar H0 se x ≥ 9.
P(Erro tipo I) = P(x ≥ 9 ⎜ p = 0,25) = α

= 1 - P(x ≤ 8 ⎜ p = 0,25) = 1 – 0,959 = 0,041 (4,1%)
P(Erro tipo II) = P(x < 9 ⎜ p = 0,50) = β

= P(x ≤ 8 ⎜ p = 0,50) = 0,252 (25,2%)
Observa-se que a uma redução de α de 10,2% para 4,1% corresponde a um aumento de β de

13,2% para 25,2%. Ou seja: para determinado tamanho de amostra, a redução de um tipo de
erro corresponde ao aumento do outro. Somente é possível reduzir o tamanho dos erros
simultaneamente quando aumenta-se o tamanho da amostra.
3) Suponha que uma amostra de 100 pessoas foi submetida à vacina. Calcular α e β .
a) As hipóteses são: H0: p = 0,25 H1:p > 0,25
b) teste a ser aplicado é: rejeitar H0 se x ≥ 40
c) sob H0, x (n.o de pessoas nas quais a vacina tem efeito por mais de um ano) tem distribuição
b (100, 0,25). Como n é grande, usa-se a aproximação N (np; npq). Assim x ~ N(25; 37,5)
d) Fazendo a correção de continuidade: P(Erro tipo I) = P(x > 39,5 ⎜ H0 verdadeira) = α
Logo, P(Erro tipo I) = P(x > 39,5) = P(z > 3,349) = 1- P(z < 3,349) = 1 – 0,9996 = 0,0004
Se H0 é falsa e p = 0,50, então a aproximação segue a N(50, 25)
então: P(Erro tipo II) = P(x < 39,5 ⎜ H1 verdadeira) = β
Logo, P(Erro tipo II) = P(x < 39,5) = P(z < -2,1) = 0,0179. (onde z = (39,5 –50)/5)
e) observa-se que quando o experimento envolve uma amostra de tamanho 100 (amostra
suficientemente grande), a probabilidade de erros (Tipos I e II) é muito pequena.
f) dentre vários testes com nível de tolerância menor que um nível pré-determinado (α < α0),
escolhe-se aquele com menor valor de β.
REFERÊNCIAS:
- BUSSAB, W. O. e MORETTIN, P. A. Estatística Básica. Ed. Saraiva. 5.a edição. São Paulo,
2002.
- CRESPO, A. A. Estatística Fácil. Ed. Saraiva, São Paulo, 1999, 224p.
- ALLEN, A. O. Probability, Statistics, and Queueing Theory. Academic Press, 1978.
- DOWNING,D.; CLARK,J. Estatística Aplicada. Ed. Saraiva. São Paulo, 2000.
- SPIEGEL, M.R., Estatística. Makron Books do Brasil. São Paulo, 1996,243p.
APÊNDICE
EXERCÍCIOS RESOLVIDOS
1) Tem-se três urnas iguais, cada uma com seis bolas. A urna U1 tem 3 bolas brancas. A urna
U2 tem 2 brancas e a urna U3 tem seis bolas brancas. Uma urna é escolhida ao acaso e dela é
extraída uma bola. Qual a probabilidade da urna ser U3, dado que a bola sorteada é branca?
Solução: seja B o evento “bola branca” e O, o evento “outra cor”. Deseja-se calcular P(U3/B)
B
3/6 A Probabilidade Total de sair “bola branca”:
U1 3/6
O P(B) = P(U1∩ B) + P(U2 ∩ B) + P( U3 ∩ B)
1/3 ⎛ 1 3 ⎞ ⎛ 1 2 ⎞ ⎛ 1 ⎞ 11
B P(B) = ⎜ ⋅ ⎟ + ⎜ ⋅ ⎟ + ⎜ ⋅ 1⎟ =
2/6 ⎝ 3 6 ⎠ ⎝ 3 6 ⎠ ⎝ 3 ⎠ 18
1/3
U2
4/6 O
Pelo Teorema de Bayes, temos que:
1/3
6/6 B 1
U3 ⋅1
P(U3 ∩ B) 3 6
P(U3 / B) = = =
0/6 P(B) 11 11
O
18
2) Um grupo de 50 moças é classificado de acordo com a cor dos cabelos e dos olhos:
Olhos
Cabelos Azuis (A) Castanhos (C)
Loira (L) 17 9
Morena (M) 4 14
Ruiva (R) 3 3
a) você marca um encontro com uma dessas garotas ao acaso, qual a probabilidade dela ser
a1) loura a2) morena de olhos azuis a3) morena ou ter olhos azuis
b) está chovendo quando você encontra a garota. Seus cabelos estão completamente
cobertos, mas você percebe que tem olhos castanhos. Qual a probabilidade de ser morena?
Solução: utilizando a definição de probabilidade:
n(L) 26 n(M∩ A) 4
a1) P(L)= = a2) P(M∩A)= =
n(S) 50 n(S) 50
18 24 4 38
a3) P(M∪A)= P(M) + P(A) − P(M∩ A) = + − =
50 50 50 50
n(M∩ C) 14
P(M∩ C) n(S) 14
b) P(M/ C) = = = 50 =
P(C) n(C) 26 26
n(S) 50
3) Uma urna I tem 2 bolas vermelhas e 3 amarelas. Uma urna II tem 4 bolas vermelhas, 5
amarelas e 2 brancas. Uma bola é extraída ao acaso da urna I e colocada na urna II e, em
seguida, é extraída uma bola da urna II. Qual a probabilidade da 2a bola ser:
a) vermelha b) amarela
V2
5/12
U2 5/12
A2
2/12
V1
2/5 B2
U1
3/5 V2
A1 4/12
U2 6/12
A2
2/12
B2
⎛ 2 5 ⎞ ⎛ 3 4 ⎞ 11 ⎛2 5 ⎞ ⎛3 6 ⎞ 7
a) P (V2) = ⎜ × ⎟+⎜ × ⎟ = b) P (A2) = ⎜ × ⎟+⎜ × ⎟ =
⎝ 5 12 ⎠ ⎝ 5 12 ⎠ 30 ⎝ 5 12 ⎠ ⎝ 5 12 ⎠ 15
4) Luiz tem probabilidade 1/4 de convidar Alice para um passeio num Domingo. A probabilidade
de que César a convide é 2/5 e a de Olavo é ½. Qual a probabilidade de que:
a) os três a convidem b) ao menos um a convide c) ninguém convide
Considerando os eventos independentes: P (Luiz) = P(L), P(César) = P(C) e P(Olavo) = P(O)
1 2 1 1
a) P(L ∩ C ∩ O) = P(L) P(C) P(O) = × × =
4 5 2 20
b) P(L ∪ C ∪ O) = P(L) + P(C) + P(O) - P(L ∩ C) - P(L ∩ O) - P(C ∩ O) + P(L ∩ C ∩ O)

= + + − ⎛⎜ × ⎞⎟ − ⎛⎜ × ⎞⎟ − ⎛⎜ × ⎞⎟ +
1 2 1 1 2 1 1 2 1 1 31
=
4 5 2 ⎝ 4 5 ⎠ ⎝ 4 2 ⎠ ⎝ 5 2 ⎠ 20 40
⎛ 1⎞ ⎛ 2⎞ ⎛ 1⎞ 9
c) P(L ∩ C ∩ O) = ⎜1 − ⎟ × ⎜1 − ⎟ × ⎜1 − ⎟ =
⎝ 4 ⎠ ⎝ 5 ⎠ ⎝ 2 ⎠ 40
5) A probabilidade de uma pessoa ter reação negativa a certa injeção é de 0,001. Determinar a
probabilidade de que, de 2000 pessoas injetadas, (a) exatamente três, (b) mais de quatro
tenham reação negativa.
Solução: utiliza-se distribuição de Poisson, pois:
• n = 2000 (grande)
• probabilidade de sucesso = probabilidade de reação negativa: p = 0,001 (muito pequena)
• λ = np = 2000 x 0,001 = 2
e− λλ k e −2 ( 2 ) 3
a) P(x = k) = P(x = k = 3) = = 0,1804
k! 3!
b) P (x>4) = 1 – {(P (x = k =0) + P(x = k =1) + P (x = k =2) + P(x = k =3) + P(x = k =4)}
⎛ (2)0 (2)1 (2)2 (2)3 (2)4 ⎞

P (x>4) = 1 - e − 2 ⎜
⎜ 0! + 1! + 2! + 3! + 4! ⎟⎟ = 0,055
⎝ ⎠
6) Em uma experiência de laboratório passam por um contador, em média, quatro partículas

radioativas por milisegundo. Qual a probabilidade de entrarem no contador seis partículas em
determinado milisegundo?
Solução: trata-se de uma distribuição de probabilidade de Poisson, onde:
• λ = np = 1 x 4 = 4
e− λλ k e −4 ( 4 ) 6
P(x = k) = P(x = k = 6) = = 0,1042
k! 6!
7) Chegam em média 10 navios-tanque por dia a um movimentado porto, que tem capacidade
para 15 navios. Qual a probabilidade de que um dia, um ou mais navios tenham que esperar
por uma vaga?
Solução: haverá espera quando o número de navios superar a capacidade do porto (15 navios)
λ = np = 1 x 10 = 10
⎡10 15 10 14 10 13 10 2 10 1 10 0 ⎤
P(x > 15) = 1 − P(x ≤ 15) = 1 − e −10 ⎢ + + +L+ + + ⎥ = 0,048 6
⎣ 15! 14! 13! 2! 1 0! ⎦
8) O número médio de bactérias por litro de água de uma certa fonte é 2. Qual a probabilidade
de serem encontradas 5 ou mais bactérias em três litros de água?
Solução:
λ = np = 3 x 2 = 6
⎡ 6 4 63 62 61 60 ⎤
P(x ≥ 5) = 1 − P(x < 5) = 1 − e − 6 ⎢ + + + + ⎥ = 0,7149
⎣ 4! 3! 2! 1 0! ⎦
9) Joga-se um dado equilibrado até que apareça “um quatro”. Determinar P(x) e F(x),
respectivamente as funções de distribuição de probabilidade simples e acumulada.
1 5
Solução: antes da x-ésima jogada, antecederão x-1 “não quatro”. Assim, p= eq=
6 6
A distribuição geométrica para tempo de espera é dada por:
P (x = k) = qk-1 p F(x) = p Σ (qk-1)

P(x = 1) = 1/6 = 0,1667 F(1) = P(x = 1) = 0,1667
P(x = 2) = 5/36 = 0,1389 F(2) = P(x = 1) + P(x = 2) = 0,3056
P(x = 3) = 25/216 = 0,1157 F(3) = P(x = 1) + P(x = 2) + P(x = 3) = 0,4213
F(∞) = (1/6)[1 + (5/6) + (5/6)2 + ....] =1
10) Deseja-se formar um comitê de 4 pessoas escolhidas aleatoriamente entre 3 químicos e 5

físicos. Determinar a distribuição de probabilidade do número de químicos no comitê.
Solução: seja x a variável aleatória que representa o número de químicos no comitê.
Interessa-se apenas pelo número de químicos que pertencem ao comitê, não importando a
ordem em que estes são convocados. Assim, as probabilidades são calculadas através de
combinações. Nestas condições, pode-se afirmar que:
• x pode assumir os valores: 0, 1, 2 ou 3. Logo:
C3,0C5,4 C3,1C5,3
P(x = 0) = = 0,0714 P(x = 1) = = 0,4286
C8,4 C8,4
C3,2C5,2 C3,3C5,1
P(x = 2) = = 0,4286 P(x = 3) = = 0,0714
C8,4 C8,4
• y pode assumir os valores: 1, 2, 3 ou 4. Logo:
C3,3C5,1 C3,2C5,2
P(y = 1) = = 0,0714 P(y = 2) = = 0,4286
C8,4 C8,4
C3,1C5,3 C3,0C5,4
P(y = 3) = = 0,4286 P(y = 4) = = 0,0714
C8,4 C8,4
Eventos x y Probabilidade
FFFF 0 4 0,0714
FFFQ 1 3 0,4286
FFQQ 2 2 0,4286
FQQQ 3 1 0,0714
É possível então construir a distribuição conjunta das variáveis aleatórias x e y.
y\x 0 1 2 3 P(y)
1 - - - 0,0714 0,0714
2 - - 0,4286 - 0,4286
3 - 0,4286 - - 0,4286
4 0,0714 - - - 0,0714
P(x) 0,0714 0,4286 0,4286 0,0714 1,00
11) Uma fábrica opera em dois turnos: dia e noite. Em um estudo de faltas dos operários ao
trabalho, denota-se por x o número de faltas no turno do dia e por y, o número de faltas no
turno da noite. Considerando a tabela abaixo, determine o coeficiente de correlação entre x e y.
y 0 1 2 3 P(x)
x
0 0,05 0,05 0,10 0 0,20
1 0,05 0,10 0,25 0,10 0,50
2 0 0,15 0,10 0,05 0,30
P(y) 0,10 0,30 0,45 0,15 1,00
A partir da distribuição conjunta podemos elaborar as seguintes tabelas:
x 0 1 2 Total y 0 1 2 3 Total
P(x) 0,20 0,50 0,30 1,00 P(y) 0,10 0,30 0,45 0,15 1,00
xP(x) 0 0,50 0,60 1,10 yP(y) 0 0,30 0,90 0,45 1,65
x2P(x) 0 0,50 1,20 1,70 y2P(y) 0 0,30 1,80 1,35 3,45
Calculando a partir das tabelas acima:

n n
E(x) = µ (x)= ∑ x i P(x i ) = 1,10
i=1
E(y) = µ (y)= ∑ y P(y ) = 1,65
i =1
i i
E(xy)= (1⋅ 1⋅ 0,10 ) + (1⋅ 2 ⋅ 0,25 ) + (1⋅ 3 ⋅ 0,10 ) + ( 2 ⋅ 1⋅ 0,15 ) + ( 2 ⋅ 2 ⋅ 0,10 ) + ( 2 ⋅ 3 ⋅ 0,05 ) = 1,90
σ 2x = = ∑ x i2 ⋅ P(x i ) − [∑ x ⋅ P(x )] = (1,70) – (1,10) = 0,49

i i
2 2
⇒ ρx= 0,70
σ 2y = = ∑ y 2j ⋅ P(y j ) − [∑ y j ⋅ P(y j )] = (3,45) – (1,65)2= 0,73 ⇒ ρy= 0,85

2
Cov(x, y) = E(xy) – E(x)E(y) = 1,90 − (1,10 × 1,65 ) = 0,085
Cov(x, y) 0,0 85
ρ(x, y) = = = 0,1 43
σ(x) σ(y) 0,70 ⋅ 0,85
12) Em um lote de 10 carros novos, 5 estão em boas condições (B), 2 têm defeito de
transmissão (DT) e os outros três têm defeitos de direção (DD). Dois carros são escolhidos ao
acaso. Considerando x como o número de carros com defeito de transmissão, e y como o
número de carros com defeito de direção, determine:
a) a distribuição conjunta de x e y;
b) a distribuição de probabilidade que representa o número de carros com defeito
c) a probabilidade de haver dois carros com defeito
d) E(xy)
Ao tomarmos uma amostra com dois carros, as variáveis x e y podem assumir os valores 0, 1 e
2. Assim:
n! 10!
O número total de resultados é: Cn,p = ⇒ C10,2 = = 45
p! (n− p)! 2! (10 − 2)!
C5,2 10 C2,1C5,1 10
P(0, 0) = P(x=0, y = 0) = = P(1, 0) = P(x=1, y = 0) = =
C10,2 45 C10,2 45
C3,1C5,1 15 C2,2 1
P(0, 1) = P(x=0, y = 1) = = P(2, 0) = P(x=2, y = 0) = =
C10,2 45 C10,2 45
C3,2 3 C2,1C3,1 6
P(0, 2) = P(x=0, y = 2) = = P(1, 1) = P(x=1, y = 1) = =
C10,2 45 C10,2 45
a) O quadro abaixo representa a distribuição conjunta das variáveis x e y:
y 0 1 2 P(x)
x
0 10/45 15/45 3/45 28/45
1 10/45 6/45 0 16/45
2 1/45 0 0 1/45
P(y) 21/45 21/45 3/45 1,00
b) Considerando a variável z = x + y como sendo o número total de carros com defeitos, a sua
distribuição de probabilidade é dada por:
z 0 1 2 Total
P(z) 10/45 25/45 10/45 1,00
c) A probabilidade de haver dois carros com defeito, ou seja: P(x + y = 2).
P(x + y = 2) = P(x=0, y = 2) + P(x=2, y = 0) + P(x=1, y = 1) = 3/45 + 1/45 + 6/45 = 10/45
6 6
d) E(xy) = (1⋅ 1⋅ ) + (1⋅ 2 ⋅ 0) + (2 ⋅ 1⋅ 0) + (2 ⋅ 1⋅ 0) =
45 45
13) Duas linhas de produção fabricam um certo tipo de peça. As capacidades de produção são
de 5 peças para a linha 1 e de 3 peças para a linha 2. O número real de peças produzidas é a
variável representada pelo vetor (x, y), o qual fornece o número de peças nas linhas 1 e 2,
respectivamente, segundo a seguinte distribuição:
x 0 1 2 3 4 5 P(y)
y
0 0 0,01 0,03 0,05 0,07 0,09 0,25
1 0,01 0,02 0,04 0,05 0,06 0,08 0,26
2 0,01 0,03 0,05 0,05 0,05 0,05 0,24
3 0,01 0,02 0,04 0,06 0,06 0,06 0,25
P(x) 0,03 0,08 0,16 0,21 0,24 0,28 1,00
Determine:
a) a probabilidade de que sejam produzidas mais peças pela linha 1 do que pela linha 2.
b) a probabilidade da linha 1 produzir 3 peças se a linha 2 produz 2 peças.
a) seja B o evento “mais peças produzidas pela linha 1 do que pela linha 2”. Então:
P(B) = P(x=1, y=0) + P(x=2, y=0) + P(x=3, y=0) + P(x=4, y=0) + P(x=5, y=0) + P(x=2, y=1) +
P(x=3, y=1) + P(x=4, y=1) + P(x=5, y=1) + P(x=3, y=2) + P(x=4, y=2) + P(x=5, y=2) +
P(x=4,y=3) + P(x=5, y=3) = 0,01 + 0,03 +0,05 + 0,07 + 0,09 + 0,04 + 0,05 + 0,06 + 0,08 +
0,05 + 0,05 + 0,05 + 0,06 + 0,06= 0,75.
b) P(x = 3 /y = 2) = P(x = 3, y = 2) = 0,05 = 0,20

P(y = 2) 0,25
14) Foram coletadas as notas em Português e Educação Física de 11 alunos selecionados

aleatoriamente entre todos os alunos da oitava série de um colégio. Considerando x e y as
variáveis aleatórias que representem as notas em Português e Educação Física,
respectivamente, calcular o coeficiente de correlação entre x e y.
Português (x) 67 81 65 42 53 40 71 64 60 68 49
Ed. Física (y) 92 65 81 75 85 78 77 79 81 82 85
Solução: os 11 alunos são uma amostra da população de alunos da 8.a série.
• Calculando a média amostral para as duas variáveis:

n n
∑x i
660 ∑y i
880
x= i =1
= = 60 y= i =1
= = 80
n 11 n 11
A construção da tabela abaixo visa auxiliar os cálculos:
xi − x 7 21 5 -18 -7 -20 11 4 0 8 -11

yi − y 12 -15 1 -5 5 -2 -3 -1 1 2 5
( xi − x )( y i − y ) 84 -315 5 90 -35 40 -33 -4 0 16 -55 Σ= -207
( xi − x ) 2 49 441 25 324 49 400 121 16 0 64 121 Σ= 1610
( y i − y )2 144 225 1 25 25 4 9 1 1 4 25 Σ= 464
• Calculando a variância e o desvio padrão amostral:
∑ (x − x) i
2
1610
S2x = i =1
= = 161 S x = 161 = 12,69
n− 1 10
n
∑ (y − y ) i
2
464
S = 2
y
i =1
= = 46,4 S y = 46,4 = 6,81
n− 1 10
• Finalmente calcula-se o coeficiente de correlação amostral:
⎛ 1 ⎞⎛⎜ n ⎞ ⎛ 1⎞
⎜ ⎟⎜ ∑ (xi − x )(y j − y ) ⎟⎟ ⎜ ⎟(− 207 )
⎝ n − 1 ⎠⎝ i = j =1 ⎠ 10
r= = ⎝ ⎠ = −0,24
S xS y (12,69)(6,81)
15) Determinar a probabilidade de se obter um único “6”em 4 jogadas de um dado equilibrado.
1 5
Solução: seja x a v.a. que representa o n.o de vezes que sai “6”. Sabe-se que: p= eq= .
6 6
1 3
⎛n⎞ ⎛ 4⎞ ⎛ 1⎞ ⎛ 5⎞
Então: P(x = k =1) = ⎜⎜ ⎟⎟ ⋅ pk ⋅ qn −k = ⎜⎜ ⎟⎟ ⋅ p1⋅ q4 −1 = (4 )⎜ ⎟ ⎜ ⎟ = 0,3858
⎝k ⎠ ⎝ 1⎠ ⎝6⎠ ⎝6⎠
16) Qual a probabilidade de acertar “no chute” ao menos sete questões em 10, do tipo “certo-
errado”.
Solução: distribuição binomial, onde: n = 10 p = 0,50.
P(x ≥ 7) = P(x = 7) + P(x = 8) + P(x = 9) + P(x = 10) =
= C10, 7 (0,50)7 (0,50)3 + C10, 8 (0,50)8 (0,50)2 + C10, 9 (0,50)9 (0,50)1 + C10, 10 (0,50)10 = 0,1719
Introdução à Probabilidade e Estatística - IPE
LISTA DE EXERCÍCIOS I
1) Uma amostra de 80 peças retiradas de um grande lote forneceu a seguinte distribuição de
comprimentos:
Classes Freqüência (fi)

50 ⊢ 60 1
60 ⊢ 70 3
70 ⊢ 80 6
80 ⊢ 90 15
90 ⊢ 100 25
100 ⊢ 110 20
110 ⊢ 120 7
120 ⊢ 130 3
A especificação para este tipo de material exige que o comprimento médio das peças esteja
compreendido entre 92 e 96 mm, que o coeficiente de variação seja inferior a 20% e que a distribuição
dos comprimentos seja simétrica. Quais destas exigências não satisfazem neste caso?
2) Uma empresa possui dois serventes recebendo salário de $ 250,00 cada, quatro digitadores
recebendo $ 354,00 cada um, um gerente recebendo $ 1.250,00 e dois vendedores recebendo, em
média, $ 850,00 de comissão. Calcule o salário médio da empresa. Este valor é representativo?
3) Para a série 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 8, 8, 8, 9, 9, 10, 11, 11.
a) construir a distribuição de freqüência d) calcular a variância populacional e

b) calcular a amplitude total amostral
c) determinar o desvio médio e) calcular a média, a mediana e a moda.
4) A distribuição abaixo é leptocúrtica?

3⊢ 8 5
8 ⊢ 13 15
13 ⊢ 18 22
18 ⊢ 23 10
5) Encontrar as freqüências correspondentes a primeira e a terceira classe da distribuição a seguir,

sabendo-se que a média é igual a 11,50 e a variância amostral é 29,21.
Xi Freqüência (fi)
5 F1
8 5
13 F3
18 3
25 1
6) Num final de semana de verão um supermercado vendeu as seguintes quantidades de carne:
Tipo de Carne Preço/kg Quantidade (kg)

Boi 12,43 1100
Porco 12,5 443
Frango 7,85 650
Peru 18,94 210
Peixe 20,5 120
Qual o valor médio por quilograma vendido?
7) Dada a distribuição abaixo, calcular o 1.o quartil e o 7.o decil.

0⊢ 1 10
1⊢ 2 12
2⊢ 3 12
3⊢ 4 10
4⊢ 5 6
8) Distribua os elementos do conjunto A = {17, 18, 19, 20, 21, 22, 23}, em uma tabela de frequências e
determine:
a) média aritmética: (20,00) g) desvio-médio (mediana): (1,71)

b) média geométrica: (19,90) h) desvio-padrão: (2,16)
c) média harmônica: (19,80) i) variância: (4,67)
d) mediana: (20,00) j) coef. de variação: (10,8%)
e) moda: (n.t) k) histograma
f) desvio-médio (média): (1,71)
i Xi Apuraçã
o
fi Fi xifi xi − x x i − x ⋅ fi x i − Md x i − Md ⋅ fi xi2 ⋅ fi (x − x )
i
4
fi
9) Temos a seguir as notas médias obtidas por oitenta candidatos a um exame vestibular. Construa
uma tabela de intervalos de classes de frequência e determine: (sugestão: para determinar o número
de classes, utilize a regra de Sturges).
64 73 44 10 43 31 51 4 25 53
51 36 47 45 65 79 58 45 54 73
28 38 42 49 19 49 65 32 33 11
57 25 39 2 40 22 5 60 44 3
8 3 65 50 38 9 56 21 9 57
15 28 48 47 68 6 34 12 65 28
59 8 54 84 45 39 41 43 41 38
52 63 40 16 52 44 46 59 22 15
a) média aritmética: (40,10) g) variância: (403,84)

b) mediana: (43,00) h) coef. de variação: (50,12%)
c) moda: (45,68) i) coef. se assimetria:
d) desvio-médio (média): (16,58) j) coef. de curtose:
e) desvio-médio (mediana): (15,85) k) histograma
f) desvio-padrão: (20,10)
Classes Apur. fi PM
(xi)
i
4
i
3) A tabela abaixo representa as notas de Estatística de trinta alunos. Construa uma tabela de intervalos
de classes de frequência e determine: (sugestão: para determinar o número de classes, utilize a regra de
Sturges).
5,50 3,00 4,00 4,50 7,00

6,50 3,50 4,50 3,00 7,50
4,50 0,00 4,50 3,50 4,50
7,00 9,00 6,00 4,00 5,00
8,00 9,50 4,50 4,50 4,50
2,50 2,00 5,00 6,00 4,50
a) média aritmética: (4,85) g) variância: (4,19)

b) mediana: (4,43) h) coef. de variação: (42,3%)
c) moda: (4,05) i) coef. de assimetria:
d) desvio-médio (média): (1,66) j) coef. de curtose:
e) desvio-médio (mediana): (1,58) k) histograma
f) desvio-padrão: (2,05)
Classes Apur. fi PM
(xi)
i
4
i
Σ
LISTA DE EXERCÍCIOS II
1) Dois dados são lançados. Define-se os eventos: A = soma dos pontos obtidos igual a 9, e B = o
ponto do primeiro dado é maior ou igual a 4. Determine os eventos A e B e ainda os eventos A ∪ B,
A ∩ B e A.
2) Uma urna contém 12 moedas não tendenciosas, sendo 7 douradas e 5 prateadas. O experimento
consiste me retirar, sem reposição e ao acaso, duas moedas desta urna. Calcular a probabilidade de
que saiam:
(2.1) uma moeda dourada e uma prateada, nesta ordem. 35/132
(2.2) uma moeda dourada e uma prateada. 70/132
(2.3) duas moedas douradas. 42/132
(2.4) duas moedas de mesma cor. 62/132
3) Sejam P(A) = 0,3, P(B) = 0,8 e P(A∩B) = 0,15.
(3.1) A e B são mutuamente exclusivos? Justifique. Não.

(3.2) Calcule P( B ) 0,20
(3.3) determine: a) P(A∪B) b) P(A∩ B ) c) P( A ∩ B ) d) P( A ∩B) 0,95/0,15/0,85/0,65
4) Suponha que A e B sejam eventos tais que P(A) = x, P(B) = y e P(A∩B) = z. exprima cada uma das
seguintes probabilidades em termos de x, y e z.
(4.1) P(A∪B) (4.2) P( A ) (4.3) P( B ) (4.4) P(A/B) (4.5) P( A ∪ B

(4.6) P( A ∪B) (4.7) P( A ∩B) (4.8) P(A∩ B ) (4.9) P( A ∩ B ) (4.10) P( A / B )
x + y - z; 1-x; 1 - y; z/y; 1 - z; 1- x + z; y – z; x – z; 1 – x – y + z; (1 – x – y + z)/(1 – y)
5) Uma firma de processamento de dados avalia seu pessoal de digitação em termos do número de
erros cometidos em 1000 toques (no teclado). Para um deles, a probabilidade de cometer no máximo
cinco erros (por 1000 toques) é 0,62 e a probabilidade de cometer de 6 a 10 erros (por 1000 toques)
é 0,28. determine a probabilidade de que nos próximos 1000 toques, o digitador cometa: a) ao
menos 6 erros; b) ao menos 11 erros; c) no máximo 10 erros. 0,38; 0,10, 0,90
6) Um atirador A tem probabilidade de ¼ de acertar um alvo. Já um atirador B tem probabilidade de 2/5

de acertar o mesmo alvo. Se ambos atirarem simultaneamente e independentemente, calcule a
probabilidade de que:
(6.1) ao menos um deles acerte o alvo 11/20 (6.2) ambos acertem o alvo 2/20
7) Uma caixa contém 4 válvulas defeituosas e 6 perfeitas. Duas válvulas são extraídas juntas. Uma
delas é ensaiada e se verifica ser perfeita. Qual a probabilidade de que a outra válvula também seja
perfeita? 5/9
8) Considere uma urna contendo 3 bolas vermelhas e 5 pretas. Retiram-se 3 bolas, sem reposição.
Define-se a variável aleatória X = número de bolas pretas retiradas. Determine a distribuição de X.
x 0 1 2 3
P(x) 1/56 15/56 30/56 10/56
9) Um dado é jogado 3 vezes. Seja x o número de pontos “um” que aparece. Estabeleça a distribuição
de probabilidade de X.
x 0 1 2 3
P(x) 125/215 75/216 125/216 1/216
10) A probabilidade de um estudante de uma faculdade de Ohio adquirir um computador portátil é 0,65. a
probabilidade de suas notas melhorarem, se ele comprar o computador é 0,80. Qual a probabilidade
de um aluno dessa faculdade adquirir um computador pessoal e obter melhora em suas notas? 0,52
11) O tempo t, em minutos, para que um operário processe certa peça é uma VAD com distribuição dada
na tabela abaixo:
t 2 3 4 5 6 7
f(t) 0,10 0,10 0,30 0,20 0,20 0,10
(11.1) calcule o tempo médio de processamento 4,60

(11.2) para cada peça processada o operário ganha um fixo de R$ 2,00, mas se ele processa a peça em
menos de 6 min, ganha R$ 0,50 por poupado. Por exemplo, se ele processa a peça em 4 minutos,
recebe a quantia de R$1,00. Encontre a média e a variância de G, G = quantia ganha por peça. 0,4125
LISTA DE EXERCÍCIOS II
12) O conjunto de resultados igualmente possíveis de uma variável aleatória X é X(S) = {0, 1, 2, 3, 4}.
Represente em uma tabela a distribuição de X e calcule a expectância e a variância de X. 2,0/2,0
13) Pilhas de uma certa marca são acondicionadas de modo casual em embalagens de quatro pilhas. O
produtor desta marca opera com probabilidade de 0,04 de uma pilha ser defeituosa.
(13.1) calcule a probabilidade de que uma embalagem tomada ao acaso contenha:

a) exatamente uma pilha defeituosa 0,1416 c) no máximo duas pilhas defeituosas 0,9997
b) somente pilhas perfeitas 0,8493
(13.2) quantas defeituosas deve-se esperar que existam, em média, por embalagem? 0,16
14) Qual a probabilidade de obtermos exatamente duas caras em 8 lançamentos de uma moeda
equilibrada? 0,1092
15) Qual a probabilidade de se obter duas ou menos faces “2” em 7 lançamentos de um dado
equilibrado? 0,9042
16) Em uma urna existem 18 bolas brancas e duas pretas. Calcule as probabilidades de, retiradas sete
bolas, sair apenas uma bola preta nos seguintes casos:
(16.1) as bolas são repostas na urna após serem retiradas. 0,3720
(16.2) as bolas não são repostas na urna após serem retiradas. 0,4789
17) Uma empresa de seguros descobriu que somente cerca de 0,1% da população está incluída em
certo tipo de acidente por ano. Se seus 10.000 segurados são escolhidos ao acaso da população,
qual a probabilidade de que não mais de 5 de seus clientes venha a estar incluídos em tal acidente
no próximo ano? 0,0671
18) Os registros de uma loja de vendas de computadores indicam que 70% de todos os compradores de
computadores novos exigem um modem moderno. Determine as probabilidades de que, dentre 10
compradores de computadores novos, 0, 1, 2, ..., 9 ou 10 exijam um modem moderno.
19) Um certo fabricante de computador estima em 0,1 a probabilidade de um Winchester falhar em uma
operação de gravação. Cinqüenta operações de gravação foram observadas durante duas horas.
Determine a probabilidade de que:
a) 10 gravações falharem 0,081 c) até 5 operações falharem. 0,6160

b) 3 ou mais gravações falharem 0,8753
20) Suponha que X e Y sejam variáveis aleatórias com Var (X) =1 e, Var (Y) = 4 e ρ(X,Y) = ½. Determine
Var (X - 2Y). 13
21) Considere o experimento de lançar uma moeda 3 vezes e as seguintes variáveis aleatórias: X =
número de caras observadas no primeiro lançamento e Y = número de coroas observadas no
primeiro e no terceiro lançamento. Pede-se:
(21.1) Construir o quadro d distribuição conjunta das variáveis X e Y.

(21.2) Calcular E(X), Var (X), E(Y) e Var(Y) 1/2; 1/4; 1; 1/2
(21.3) Calcular Cov(X,Y). As variáveis X e Y são independentes? -1/4; Não
(21.4) Calcular Var(Z), sendo Z = X+Y 1/4
LISTA DE EXERCÍCIOS III
1) Uma variável aleatória contínua tem a seguinte função densidade de probabilidade:
⎧3x 2 , se 0 < x < 1

f(x)= ⎨
⎩0, caso contrário
Calcular a probabilidade dessa variável assumir um valor maior ou igual a 1/3.
2) Sendo f(x) = kx3 a densidade de uma variável aleatória contínua no intervalo 0< x <1, determine o
valor de “k”.
3) Uma variável aleatória contínua X é definida pela fdp f ( x ) = 3 (x − 1)2 ,0 ≤ x < 2 . Determine:
2
(3.1) a média (3.2) a variância
⎧2kx, se 0 ≤ x < 3
4) Uma variável aleatória contínua tem a seguinte fdp: f ( x ) = ⎪
⎨kx, se 3 ≤ x < 5
⎪0, caso contrário
⎩
Determine o valor de k, a média e a variância da variável aleatória.
5) Uma variável X é uniformemente distribuída no intervalo [10, 20]. Determine a expectância e a

variância de X e calcule ainda P (12,31 < X< 16,50).
6) Suponha que X seja uniformemente distribuída entre [-α, α], onde α >0. Determinar o valor de α de
modo que as seguintes relações sejam satisfeitas:
(6.1) P (X>1) = 1/3 (6.2) P (X< 1/2) = 0
7) Suponha que um mecanismo eletrônico tenha um tempo de vida de X (em unidades de 1000 horas)
que é considerado uma variável aleatória com fdp dada por:
⎧e − x , x > 0
f(x)= ⎨
Suponha ainda que o custo de fabricação de um item seja 2,00um e o preço de venda seja 5,00 um. O
fabricante garante total devolução se x ≤ 0,8. Qual o lucro esperado por item?
8) Uma lâmpada tem duração de acordo com a seguinte função densidade de probabilidade:
⎧0,001e −0 ,001t , t > 0

f(t)= ⎨ determinar:
(8.1) a probabilidade de que uma lâmpada dure mais do que 1200 horas.
(8.2) a probabilidade de que uma lâmpada dure menos do que sua duração média.
9) Se X: N(10, 2), calcule:

(9.1) P (8 < X < 10) (9.2) P( 9 ≤ X ≤ 12) (9.3) P(X > 10)
10) Na distribuição N (µ, σ), encontre:
(10.1) P (X < µ + 2σ) (10.2) P(⏐X - µ⏐≤ σ)

(10.3) o valor de “a” tal que P(µ - aσ < X < µ + aσ) = 0,90 (10.4) o valor de “a” tal que P(X>a)= 0,95
11) As alturas de 10.000 alunos de um colégio têm distribuição aproximadamente normal, com média de
170 cm e desvio padrão de 5 cm.
(11.1) Qual o número esperado de alunos com altura superior a 165 cm?
(11.2) Qual o intervalo simétrico em torno da média, que conterá 75% das alturas dos alunos?
12) As vendas de determinado produto têm distribuição aproximadamente normal, com média de 500 e
desvio padrão de 50. Se a empresa decide fabricar 600 unidades no mês em estudo, qual é a
probabilidade de que não possa atender a todos os pedidos desse mês por estar com a produção
esgotada?
13) O número de pedidos de compra de certo produto que uma empresa recebe por semana distribui-se
normalmente, com média 125 e desvio padrão de 25. Se em uma dada semana o estoque disponível
é de 150 unidades, qual é a probabilidade de que todos os pedidos sejam atendidos? Qual deveria
ser o estoque para se ter 99% de probabilidade de que todos os pedidos sejam atendidos?
14) Uma enchedora automática de garrafas de refrigerantes está regulada para que o volume médio de
líquido em cada garrafa seja de 1000 cm3, com desvio padrão de 10 cm3. Pode-se admitir que a
distribuição da variável seja normal.
(14.1) qual a percentagem de garrafas em que o volume de líquido é menor que 990 cm3?
(14.2) qual a percentagem de garrafas em que o volume de líquido na se desvia da média em mais do
que dois desvios padrões?
(14.3) o que acontecerá com a percentagem do item (14.2) se a máquina for regulada de forma que a
média seja 1200 cm3 e o desvio padrão 20 cm3?
15) O diâmetro de certo tipo de anel industrial é uma variável aleatória com distribuição normal de média
0,10 cm e desvio padrão de 0,02 cm. Se o diâmetro do anel diferir da média mais do que 0,03 cm,
ele é vendido por R$ 5,00, caso contrário, é vendido por R$ 10,00. Qual o preço médio de venda de
cada anel?
16) Utilize os valores da amostra tabelada ao lado, extraída aleatoriamente e sem reposição, de uma
população para estimar:
X fi
(16.1) a média da população 0⊢ 2 27
(16.2) a variância da população 2⊢ 4 51
(16.3) o percentual de elementos menores que 6. 49
4⊢ 6
6⊢ 8 48
8 ⊢ 10 25
17) De uma distribuição normal com variância 2,25, obteve-se a seguinte amostra:
27,5; 25,6; 28,2; 26,1 e 25,0
Determine um intervalo de confiança para a média desta população com confianças de (17.1) 95% e
(17.2) 99%.
18) Através de uma amostra de 145 profissionais de certa região, verificou-se que o salário médio é de 8
salários mínimos (s.m), com desvio padrão de 1,8 s.m. A amostra também forneceu a informação de
que 70% dos profissionais eram casados.
(18.1) determine e interprete o intervalo de confiança de 95% para o salário médio de todos os
profissionais desta região.
(18.2) determine e interprete o intervalo de confiança de 99% para a proporção de profissionais casados
desta região.
19) A tabela ao lado apresenta os valores da variável “tamanho da família” coletadaos através de uma
amostra em uma vila popular.
(19.1) determine e interprete o intervalo de confiança de 95% X fi
para o parâmetro tamanho familiar médio por domicílio da vila. 3 10
4 14
(19.2) determine e interprete o intervalo de confiança de 90% 5 19
para o parâmetro proporção de domicílios da vila com tamanho 6 15
igual ou superior a cinco. 7 7
20) De uma população normalmente distribuída foi extraída uma amostra de 10 elementos que
apresentou os valores abaixo:
4 8 12 5 7 9 10 11 6 8
(20.1) determine uma estimativa da variância populacional

(20.2) determine uma estimativa da média populacional
(20.3) determine um intervalo de confiança de 95% para a média desta população.
21) A tabela apresenta os valores de uma amostra retirada de uma população normal detemine:
(21.1) um intervalo de confiança de 95% para a média desta X fi

população. 8
4⊢ 8
8 ⊢ 12 8
(22.2) um intervalo de confiança de 99% para a média desta
população. 12 ⊢ 16 6
16 ⊢ 20 4
22) Sabe-se que o consumo mensal per capita de determinado produto tem distribuição normal, com
desvio padrão de 2kg. A diretoria da empresa que fabrica esse produto resolveu que retiraria o
produto da linha de produção se a média do consumo per capita fosse menor que 8kg, caso
contrário, continuaria a fabricá-lo. Foi realizada uma pesquisa de mercado, tomando-se uma amostra
aleatória de 25 pessoas e verificou-se um consumo total de 180 kg do produto.
(22.1) construa um teste de hipóteses adequado para verificar a hipótese acima a um nível de
significância de 5% e diga qual deve ser a decisão a ser adotada pela empresa.
(22.2) se a diretoria tivesse fixado uma significância de 1% a decisão seria a mesma?
(22.3) se o desvio padrão populacional fosse de 4 kg, qual seria a decisão a ser tomada com base na
amostra utilizada?
23) A associação dos proprietários de indústrias metalúrgicas está preocupada com o tempo perdido
com acidentes de trabalho, cuja média, nos últimos tempos, tem sido da ordem de 60 homens/hora
por ano, com desvio padrão de 20 homens/hora. Tentou-se um programa de prevenção de acidentes
e, após o mesmo, tomou-se uma amostra aleatória de 16 indústrias e verificou-se que o tempo
perdido baixou para 40 homens/hora ano. Você diria que, ao nível de 10% de significância, o
programa surtiu efeito? E com 5% de significância?
24) Desconfia-se que a média das receitas municipais per capita das cidades pequenas (menos de 20
mil habitantes) é maior que a média da receita estadual que é de 1229 unidades monetárias. Para
testar a hipótese foi realizada uma amostragem com 10 pequenas cidades que forneceu os
seguintes resultados (em termos de receitas médias):
1230 582 576 2093 2621 1045 1439 717 1838 1359
Verifique se não é possível rejeitar a hipótese de que as receitas municipais são maiores do que as do
estado, aos níveis de significância usuais. Como isto se justifica, já que a média da amostra obtida é
bem maior que a média do estado?
25) Medidos os diâmetros de 31 eixos de um lote aleatório produzido por uma certa empresa, obteve-se
a distribuição abaixo:
Diâmetros (mm) 56,5 56,6 56,7 56,8 56,9 57,0 57,1 57,2 57,3
N.o de eixos 1 2 2 4 10 5 4 2 1
Ao nível de significância de 5%, há evidência de que o diâmetro médio dos eixos esteja fora da
especificação de uma média de 57 mm?
26) Um fabricante afirma que 90% das peças que fornece a um cliente estão de acordo com as
especificações exigidas. O exame de uma amostra aleatória de 200 destas peças revelou 25 fora
das especificações. Verifique se aos níveis de 1% e 5% de significância há exagero na afirmativa do
fabricante.
27) Suponha que a experiência tenha mostrado que dos alunos submetidos a determinado tipo de prova,
20% são reprovados. Se de uma determinada turma de 100 alunos são reprovados apenas 13,
pode-se concluir, ao nível de significância de 5%, que estes alunos são melhores?
28) Um exame é composto de 100 testes do tipo certo-errado. Determine o mínimo de testes que um
aluno deve acertar para que se possa, ao nível de significância de 5%, rejeitar a hipótese de que o
aluno nada sabe sobre a matéria e responda em favor da hipótese de que os alunos sabiam alguma
coisa sobre a matéria. Qual seria este mínimo, se fosse adotado o nível de significância de 1%?
29) O rótulo de uma caixa de sementes informa que a taxa de germinação é de 90. Entretanto, como a
data de validade está vencida, acredita-se que a taxa de germinação seja inferior a este número.
Faz-se um experimento e de 400 sementes, tomadas ao acaso, 350 germinam. Qual a conclusão ao
nível de 5% de significância?
30) Observou-se a produção mensal de uma indústria durante alguns anos e verificou-se que ela
obedecia a uma distribuição normal com variância igual a 300 u2. foi adotada então uma nova
técnica de produção e durante um período de 24 meses observou-se a produção mensal. Após este
período, constatou-se que a variância foi de 400 u2. Há motivos para se acreditar que houve
alteração na variância ao nível de 10%?
31) Numa linha de produção é importante que o tempo gasto numa determinada operação não varie
muito de empregado para empregado. Em operários bem treinados a variabilidade fica em 100 u2. a
empresa colocou 11 novos funcionários para trabalhar na linha de produção, supostamente bem
treinados, e observou os seguintes valores, em segundos:
125 135 115 120 150 130 125 145 125 140 130
Testar se o tempo despendido por estes funcionários pode ser considerado mais variável do que os
demais funcionários. Utiliza 5% de significância.

Apostila IPE - 2005 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apostila IPE - 2005 PDF

Cargado por

Copyright:

Formatos disponibles

Universidade Estadual do Norte Fluminense

Centro de Ciência e Tecnologia

Prof. André Policani

CAPÍTULO 1: A NATUREZA DA ESTATÍSTICA

CAPÍTULO 2: DISTRIBUIÇÃO DE FREQUÊNCIA

CAPÍTULO 3: MEDIDAS DE TENDÊNCIA CENTRAL

CAPÍTULO 4: MEDIDAS DE DISPERSÃO OU VARIABILIDADE

CAPÍTULO 5: MEDIDAS DE ASSIMETRIA E MEDIDAS DE CURTOSE

CAPÍTULO 7: DISTRIBUIÇÕES DE PROBABILIDADE DE VARIÁVEIS ALEATÓRIAS CONTÍNUAS

CAPÍTULO 8: INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA

CAPÍTULO 9: ESTIMAÇÃO DE PARÂMETROS

CAPÍTULO 10: TESTES DE HIPÓTESES

ESTATÍSTICA: é o ramo da matemática que trata da coleta, organização, resumo,

A coleta, a organização ,a descrição dos dados, o cálculo e a interpretação de coeficientes

1.2 MÉTODO ESTATÍSTICO

• Método: é um conjunto de meios (procedimentos) devidamente organizados para se atingir

• Método Estatístico: diante da impossibilidade de manter as causas constantes (nas

1.2.1 FASES DO MÉTODO ESTATÍSTICO

1º - DEFINIÇÃO DO PROBLEMA : nesta etapa deve-se definir exatamente o que se pretende

3º - COLETA DE DADOS : esta etapa consiste no registro sistemático de dados, com um

4º - APURAÇÃO DOS DADOS : Representa a soma e o processamento dos dados coletados e

5º - APRESENTAÇÃO DOS DADOS : Há duas formas usuais de apresentação, que não se

6º - ANÁLISE E INTERPRETAÇÃO DOS DADOS : A última fase do trabalho estatístico é a

1.3 CONCEITOS BÁSICOS DA ESTATÍSTICA

• Fenômenos de multidão: quando as características observadas para a massa não se

1.3.2 DADO ESTATÍSTICO: é uma característica observada ou medida de alguma forma.

1.3.3 VARIÁVEL: é, convencionalmente, o conjunto de resultados possíveis de um fenômeno.

• Quantitativas: Quando os dados são de caráter nitidamente quantitativo, e o conjunto dos

- Variável discreta ou descontínua: Seus valores são expressos geralmente através de

- Variável contínua: Resulta normalmente de uma mensuração, e a escala numérica de

1.3.6 ESTIMATIVA: é um valor aproximado do parâmetro estudado e é calculado com o uso da

Através do emprego de uma técnica conveniente de amostragem, busca-se assegurar que a

• Amostragem aleatória simples: este tipo de amostragem é equivalente a um sorteio

• Amostragem estratificada: muitas vezes a população se divide em subpopulações

Ex: Em uma classe de 60 alunos, 38 são do sexo masculino e 22 do sexo feminino.

SEXO POPULAÇÃO 10% AMOSTRA

Logo, deverão ser sorteados 4 alunos e 2 alunas para compor a amostra.

• Amostragem sistemática: é quando os elementos da população apresentam-se

1.5 SÉRIES ESTATÍSTICAS

Denomina-se série estatística qualquer tabela que apresenta a distribuição de um conjunto de

• um traço horizontal ( - ) quando o valor é zero;

1.5.2 SÉRIE TEMPORAL, HISTÓRICA OU CRONOLÓGICA: descrevem os valores da variável,

Produção de Televisores (Brasil: 1995 – 1999)

1.5.3 SÉRIE GEOGRÁFICA, ESPACIAL, TERRITORIAL OU DE LOCALIZAÇÃO: descrevem

Vendas da Autocar Veículos Ltda em 1999.

1.5.4 SÉRIE ESPECÍFICA OU CATEGÓRICA: descrevem os valores da variável, em

Itens vendidos em 1997

1.5.5 SÉRIES CONJUGADAS: Também chamadas de tabelas de dupla entrada. São

Terminais Telefônicos em Serviço (1991- 1993)

1.5.6 DISTRIBUIÇÕES DE FREQUÊNCIA: por serem de grande utilização na Estatística, este

1.6 INTERPRETAÇÃO DE TABELAS

A interpretação de tabelas consiste fundamentalmente em tirar conclusões precisas a partir dos

ALUNOS DO INSTITUTO QI APROVADOS NO CONCURSO DO TRT- 1997

• renda per capita = renda / população

• Coef. de evasão escolar = n.o de alunos desistentes / n.o de matrículas

• Taxa de evasão escolar = Coef. de evasão escolar x 100

1.7 GRÁFICOS ESTATÍSTICOS

1.7.1.1 GRÁFICOS EM LINHAS OU EM CURVAS: são frequentemente usados para

1.7.1.2 GRÁFICOS EM COLUNAS OU EM BARRAS: uma série é representada por meio de

Investimentos no Setor Elétrico

Fonte: Seminário (Coppe, 2001)

1.7.1.3 GRÁFICOS EM SETORES: são construídos com base em um círculo, e é empregado

Grau de Instrução na Em presa InfoMarketing