Documentos de Académico
Documentos de Profesional
Documentos de Cultura
INTRODUÇÃO À PROBABILIDADE
E
ESTATÍSTICA
Notas de Aula
2004
SUMÁRIO
REFERÊNCIAS BIBLIOGRÁFICAS
EXERCÍCIOS RESOLVIDOS
EXERCÍCIOS PROPOSTOS
CAPÍTULO 1
A NATUREZA DA ESTATÍSTICA
1.1 INTRODUÇÃO
Assim, a análise e a interpretação dos dados tornam possível o diagnóstico de uma empresa, o
conhecimento de seus problemas (condições de funcionamento, produtividade, etc.) a
formulação de soluções apropriadas e um planejamento objetivo de ação.
Muitas dos conhecimentos atuais foram obtidos por acaso, por necessidades práticas, sem a
utilização de um método de pesquisa. Atualmente, quase todo acréscimo de conhecimento
resulta de observações e de estudo. Neste sentido, busca-se assegurar que todas as
conclusões obtidas sejam cientificamente comprovadas.
• Método Experimental: consiste em manter constante todas as causas, exceto uma, que
deverá ter variações, permitindo assim determinar os efeitos destas variações, caso
existam. Ex: Estudos da Química, Física, etc.
2º - PLANEJAMENTO : Como obter informações ? Que dados deverão ser obtidos ? Quais as
etapas da pesquisa (cronograma de atividades)? Quais os custos envolvidos ?, etc.
• Dados primários: quando são publicados pela própria pessoa ou organização que os haja
recolhido. Ex: tabelas do censo demográfico do IBGE.
• Dados secundários: quando são publicados por outra organização. Ex: quando
determinado jornal publica estatísticas referentes ao censo demográfico extraídas do IBGE.
OBS: as fontes primárias são mais confiáveis. O uso da fonte secundária traz o grande risco de
erros de transcrição.
• Coleta Direta: quando é obtida diretamente da fonte. Ex: Empresa que realiza uma
pesquisa para saber a preferência dos consumidores pela sua marca.
A coleta direta pode ser: contínua (registros de nascimento, óbitos, casamentos, etc.),
periódica (recenseamento demográfico, censo industrial) e ocasional (registro de casos de
dengue).
• Coleta Indireta: É feita por deduções a partir dos elementos conseguidos pela coleta
direta, por analogia, por avaliação, indícios ou proporcionalização.
1.3.1 FENÔMENO ESTATÍSTICO: é qualquer evento que se pretenda analisar, cujo estudo
seja possível da aplicação do método estatístico. São divididos em três grupos:
• Fenômenos de massa ou coletivo: são aqueles que não podem ser definidos por uma
única observação. A estatística dedica-se ao estudo desses fenômenos. Ex: A taxa de
criminalidade no Rio de Janeiro, o preço médio do litro de gasolina em São Paulo, etc.
• Fenômenos individuais: são aqueles que irão compor os fenômenos de massa. Ex: cada
crime no Grande Rio, o preço da gasolina em cada posto de São Paulo, etc.
• Qualitativas: Quando seu valores são expressos por atributos: sexo, cor da pele, etc.
1.3.4 POPULAÇÃO: é o conjunto total de elementos portadores de, pelo menos, uma
característica comum. A população pode ser finita (quando é possível enumerar os elementos)
e infinita (quando não é possível enumerar os elementos).
1.3.5 AMOSTRA: é uma parcela representativa e finita da população que é examinada com o
propósito de tirarmos conclusões sobre a essa população.
1.3.5 PARÂMETROS: São valores singulares que existem na população e que servem para
caracterizá-la. Para definirmos um parâmetro devemos examinar toda a população. Exemplo
de parâmetros média, mediana, desvio padrão, etc.
1.4 AMOSTRAGEM
1.5.1 TABELA: É um quadro que resume um conjunto de dados dispostos segundo linhas e
colunas de maneira sistemática (a seguir apresenta-se um exemplo que contém os elementos
que compõem uma tabela). De acordo com a Resolução 886 do IBGE, nas casas ou células da
tabela deve-se colocar:
Exemplo:
Título
Cabeçalho
Produção de Café (Brasil: 1991 – 1995)
ANOS PRODUÇÃO (1000 t)
1991 2535
1992 2700
1993 2200
1994 3570
1995 1950
Fonte: IBGE
Casa ou
célula
Introdução à Probabilidade e Estatística - IPE 5
Prof. André Policani
1.6.1 DADOS ABSOLUTOS: são os dados estatísticos resultantes da coleta direta da fonte,
sem outra manipulação, a não ser a contagem ou mensuração.
1.6.2 DADOS RELATIVOS: são o resultado de comparações por quociente (razões) que se
estabelecem entre dados absolutos e têm por finalidade realçar ou facilitar as comparações
entre quantidades. Os dados relativos geralmente são expressos em termos de percentagens,
índices, coeficientes e taxas.
1.6.2.1 PERCENTAGENS:
1.6.2.2 ÍNDICES: são razões entre duas grandezas tais que uma não inclui a outra. Como
exemplo, citam-se os índices econômicos:
1.6.2.3 COEFICIENTES: são razões entre o número de ocorrências e o número total ( número
de ocorrências e número de não-ocorrências).
1.6.2.4 TAXAS: são os coeficientes multiplicados por uma pot6encia de 10 (10, 100, 1000, etc.)
para facilitar o entendimento do resultado.
São representações visuais dos dados estatísticos contidos nas tabelas. Estas representações
são caracterizadas pelo uso de escalas de valor, sistema de coordenadas, veracidade sobre o
fenômeno em estudo, clareza e simplicidade na interpretação dos valores.
Os gráficos são classificados em: Diagramas, Pictogramas e Cartogramas.
1.7.1 DIAGRAMAS: São gráficos geométricos dispostos em duas dimensões. São os mais
usados na representação de séries estatísticas. Eles podem ser :
Introdução à Probabilidade e Estatística - IPE 7
Prof. André Policani
De m an d a (Pr o d u to X e Y )
300
250
Milhares de unidades
200
150
100
50 X
Y
0
5
6
5
6
5
6
5
6
5
6
5
6
/7
/7
/7
/7
l /7
l /7
/7
/7
t/7
t/7
/7
/7
ai
ai
ar
ar
ov
ov
n
n
Ju
Ju
Se
Se
Ja
Ja
M
M
M
M
N
N
Fonte: Empresa ABC
• Se as informações a serem escritas forem extensas, é comum optar pelo gráfico de barras.
• A ordem a ser observada é a cronológica, se a série for histórica, e a decrescente, se for
geográfica ou categórica.
• Gráficos em colunas (ou em barras) superpostas e compostas são utilizados para
representação simultânea de dois ou mais fenômenos, com o propósito de comparação.
10 9 9,1
US$(bilhões)
8,6
8 7,1
5,7 5,9 6
6 4,5 4,9
4
2
0
1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998
13%
fundamental
médio
superior
49%
38%
Densidade Demográfica
MG
28 34
ES
60 69
SP
137 14
RJ
305 32
20%
0%
1997 1998 1999 2000 2001 2002
2.1 TABELA PRIMITIVA OU DADOS BRUTOS: é uma tabela ou relação de elementos que
não foram numericamente organizados. É difícil formar uma idéia exata do comportamento do
grupo como um todo, a partir de dados não ordenados.
Ex: Na tabela abaixo, cada valor representa a quantidade vendida (em milhares de unidades)
por cada um dos 36 representantes de uma determinada multinacional em 2001.
2.2 ROL: é uma tabela composta por dados ordenados (crescente ou decrescente). Ex: A
tabela (rol) abaixo apresenta o volume de vendas com os valores ordenados crescentemente.
Obs: Para um rol de tamanho relativamente razoável e com muitos valores distintos, é
conveniente agrupar os valores em intervalos de classe.
2.4.1 AMPLITUDE AMOSTRAL (AA): é a diferença entre o valor máximo e o valor mínimo dos
dados disponíveis. Ou seja:
AA = xmáx - xmín
2.4.2 CLASSES: são intervalos de variação da variável e é simbolizada por i, onde i = 1, 2, .., k.
(k é o número total de classes da distribuição).
• A regra de Sturges é uma das fórmulas mais empregadas para determinar o número de
classes (i) que deverá ter a distribuição em função do n.o de dados existentes (n). Ou seja:
i = 1 +3,3log (n)
• O uso da fórmula de Sturges não conduz uma decisão final. Na realidade busca-se definir
um número de classes que inclua todos os dados da distribuição, não permita a existência
de classes com frequência nula ou com frequência relativa muito elevada.
AA
h=
i
70
No exemplo, tem-se que: h = = 11,66 ≅ 12
6
2.4.4 LIMITES DE CLASSE: correspondem aos extremos de cada classe. Designa-se por li e
Li, respectivamente, o limite inferior e o limite superior da classe i.
Uma vez definidos o número de classes e a amplitude dos intervalos de classe, o próximo
passo consiste em determinar os limites de cada uma das classes. De acordo com o exemplo,
tem-se a seguinte tabela:
• Para definir a primeira classe, utilizou-se o menor nº da amostra e o intervalo de classe (h).
No exemplo, a primeira classe possui os seguintes valores: l1 = 75 e L1 = 75 + 12 = 87.
• Os intervalos de classe devem ser escritos de acordo com a Resolução 886/66 do IBGE.
Utiliza-se o símbolo ⊢ para indicar a inclusão de li e a exclusão de Li . Ou seja: o vendedor
que vendeu 99000 unidades estaria incluso na terceira classe (i = 3) e não na segunda.
2.4.6 PONTO MÉDIO DE UMA CLASSE: é o ponto que divide o intervalo de classe em duas
partes iguais. É o valor que representa cada classe. Calcula-se da seguinte forma:
li + Li
xi =
2
A tabela abaixo apresenta o ponto médio de cada classe para o exemplo em questão:
2.4.7.1 FREQUÊNCIAS RELATIVAS (fri): são os valores das razões entre as frequências
simples e a frequência total. Ou seja:
fi
fri =
∑f i
Fk = f1 + f2 + .... + fk
Se a variável assume numerosos valores distintos, é comum tratá-la como uma variável
contínua, formando intervalos de classe diferente de um. Esse tratamento abrevia o trabalho,
mas ocasiona alguma perda de precisão. Uma distribuição sem intervalos de classe apresenta
a seguinte forma:
xi fi
x1 f1
x2 f2
M M
xn fn
n
∑ f =n
i =1
i
i xi fi fri Fi
1 0 7 0,14 7
2 1 8 0,16 15
3 2 15 0,30 30
4 3 8 0,16 38
5 4 7 0,14 45
6 5 4 0,08 49
7 Mais de 5 filhos 1 0,02 50
n n
∑ fi = 50
i =1
∑ fr 1,00
i =1
i
As larguras dos retângulos são iguais às amplitudes dos intervalos de classe. As alturas dos
retângulos devem ser proporcionais às frequências de classe. A área de um histograma é
proporcional à soma das frequências simples ou absolutas.
Introdução à Probabilidade e Estatística - IPE 13
Prof. André Policani
f
VENDAS (x 1000) (fi) P.M. (xi)
75 ⊢ 87 5 81 12
11
11
87 ⊢ 99 11 93
10
99 ⊢ 111 7 105
5 117 8
111 ⊢ 123 7
123 ⊢ 135 4 129 6 5 5
0
75 87 99 111 123 135 147 x
99 ⊢ 111 7 105
8
111 ⊢ 123 5 117
4 129 6
123 ⊢ 135
135 ⊢ 147 4 141 4
k
TOTAL ∑ f = 36
i =1
i
2
0
75 87 99 111 123 135 147 x
Obs: uma distribuição de frequência sem intervalos de classe é representada graficamente por
um diagrama onde cada valor da variável é representado por um segmento de reta vertical e de
comprimento proporcional à respectiva frequência. No exemplo abaixo, tem-se a seguinte
representação:
f
i xi fi
1 0 7 16
2 1 8 14
3 2 15 12
4 3 8 10
5 4 7 8
6 5 4 6
7 Mais de 5 filhos 1
4
n
∑ f = 50
i =1
i
2
0 1 2 3 4 5 mais de 5 x
Introdução à Probabilidade e Estatística - IPE 14
Prof. André Policani
VENDAS (x 1000) fi Fi
75 ⊢ 87 5 5 F
87 ⊢ 99 11 16
40
99 ⊢ 111 7 23
111 ⊢ 123 5 28 30
123 ⊢ 135 4 32
20
135 ⊢ 147 4 36
k 10
TOTAL ∑ fi = 36
i =1 0
75 87 99 111 123 135 147 x
i xi fi Fi F
1 0 7 7 50
2 1 8 15 50 49
45
3 2 15 30
40 38
4 3 8 38
30
5 4 7 45 30
6 5 4 49
7 Mais de 5 filhos 1 50 20
6
15
n
∑ f = 50
i =1
i
10 7
0 1 2 3 4 5 mais de 5 x
.
Introdução à Probabilidade e Estatística - IPE 15
Prof. André Policani
fc i
VENDAS (x 1000) fi fci
5 5,3 12
75 ⊢ 87
87 ⊢ 99 11 8,5 10
99 ⊢ 111 7 7,5
8
111 ⊢ 123 5 5,3
123 ⊢ 135 4 4,3 6
0
75 87 99 111 123 135 147 x
3.1 INTRODUÇÃO
São medidas cujo valor numérico permite ter uma noção da localização do centro de uma
distribuição de frequência. Estas medidas permitem verificar a tendência dos dados
observados a se agruparem em torno dos valores centrais.
∑x i
x= i =1
n
Exemplo: Sabendo-se que a venda diária de arroz tipo A, durante uma semana, foi de 10, 14,
13, 15, 16, 18 e 12 toneladas, temos, para venda média diária na semana de:
10 + 14 + 13 + 15 + 16 + 18 + 12
x= = 14 toneladas
7
Quando cada dado da distribuição está associado a um valor de frequência, diz-se que a média
é ponderada (possui peso). Lembre-se que frequência é o número de vezes que um dado se
repete.
3.2.2.1 Sem intervalos de classe: Neste caso a média aritmética ponderada é calculada pela
equação:
∑xf i i
x= i =1
n
Introdução à Probabilidade e Estatística - IPE 19
Prof. André Policani
i xi fi fri Fi x i fi
1 0 3 0,06 3 0
Assim, tem-se que:
2 1 15 0,30 18 15
3 2 18 0,36 36 36 n
4
5
3
4
10
4
0,20
0,08
46
50
30
16
∑xf i i
97
n n n
x= i =1
= = 1,94
n 50
∑ f = 50 ∑ fr =1,00
i =1
i
i =1
i ∑ x f =97
i =1
i i
Obs: Como x (quantidade de televisores) é uma variável discreta, como interpretar o resultado
obtido? Afinal, não existem 1,94 televisores. O valor médio de 1,94 televisores identifica uma
tendência de que as famílias entrevistadas possuem, em média, dois televisores.
3.2.2.2 Com intervalos de classe: Neste caso, convenciona-se que todos os valores incluídos
em um determinado intervalo de classe são representados pelo seu ponto médio. Assim,
determina-se a média aritmética ponderada por meio da equação:
∑xf i i
x= i =1
k , onde:
∑f
i =1
i
Exemplo: Calcular a média de vendas dos 36 vendedores de uma empresa (vide capítulo 2).
∑xf i i
3828
x= i =1
k
= = 106,3
∑f
36
i
i =1
Introdução à Probabilidade e Estatística - IPE 20
Prof. André Policani
di = x i − x
di = x i − x ⇒ d1 = 10 –14 = -4 d5 = x 5 − x ⇒ d5 = 16 –14 = 2
d2 = x 2 − x ⇒ d2 = 14 –14 = 0 d6 = x 6 − x ⇒ d6 = 18 –14 = 4
d3 = x 3 − x ⇒ d3 = 13 –14 = -1 d7 = x 7 − x ⇒ d7 = 12 –14 = -2
d4 = x 4 − x ⇒ d4 = 15 –14 = 1
k
3.4.1 A soma algébrica dos desvios tomados em relação à média é nula: ∑d
i =1
i =0
∑ d = (− 4) + 0 + (− 1) + 1 + 2 + 4 + (− 2) = 0
i =1
i
3.4.2 Somando-se ou subtraindo-se uma constante (c) de todos os valores de uma variável, a
média do conjunto é aumentada (ou diminuída) desta constante:
yi = xi ± c ⇒ y = x ± c
Donde:
7
∑y
i =1
i = 13 + 17 + 16 + 18 + 19 + 21 + 15 = 119
119
Sendo n = 7: y= = 17 ⇒ y = x + c = 14 + 3 = 17
7
3.4.3 Multiplicando-se (ou dividindo-se) todos os valores de uma variável por uma constante
(c), a média do conjunto é multiplicada (ou dividida) por essa constante:
xi x
yi = xi • c ⇒ y = x • c ou yi = ⇒y=
c c
Introdução à Probabilidade e Estatística - IPE 21
Prof. André Policani
Seja c=3. Multiplicando por 3 cada um dos valores da variável x, temos que:
Donde:
7
∑y
i=1
i = 30 + 42 + 39 + 45 + 48 + 54 + 36 = 294
294
Sendo n = 7: y= = 42 ⇒ y = x + c = 14 • 3 = 42
7
−1
⎡ n −1 ⎤
⎢ ∑ x i .f i ⎥
MH = ⎢ i=1 n ⎥
⎢ fi ⎥⎥
⎢⎣ ∑ i=1 ⎦
−1 −1
⎡ 1 1 1 1⎤ ⎡ 12 + 6 + 4 + 3 ⎤
⎢ + + + ⎥ ⎢ ⎥ ⎡ 25 ⎤
−1
96
MH = ⎢ 2 4 6 8 ⎥ =⎢ 24
⎥ =⎢ = = 3,84
⎢ 4 ⎥ ⎢ 4 ⎥ ⎣ 24 ⋅ 4 ⎥⎦ 25
⎣⎢ ⎦⎥ ⎣⎢ ⎦⎥
−1
⎡⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞ ⎤ ⎡ 48 + 18 + 8 + 3 ⎤
−1
⎢ ⎜ 2 ⋅ 4 ⎟ + ⎜ 4 ⋅ 3 ⎟ + ⎜ 6 ⋅ 2 ⎟ + ⎜ 8 ⋅ 1⎟ ⎥ ⎢ ⎥ −1
⎝ ⎠ ⎝ ⎠ ⎝ ⎠ ⎝ ⎠⎥ 24 ⎡ 77 ⎤ 240
MH= ⎢ =⎢ ⎥ =⎢ = = 3,12
⎢ 4 + 3 + 2 +1 ⎥ ⎢ 10 ⎥ ⎣ 240 ⎥⎦ 77
⎢ ⎥ ⎢⎣ ⎥⎦
⎣ ⎦
MG = n
x 1f1 ⋅ x 2f 2 ⋅ L ⋅ x nf n
Introdução à Probabilidade e Estatística - IPE 22
Prof. André Policani
MG = 4
21 ⋅ 41 ⋅ 61 ⋅ 81 = 4
384 = 4 , 43
MG=
10
2 4 ⋅ 4 3 ⋅ 6 2 ⋅ 81 = 10
16 ⋅ 64 ⋅ 36 ⋅ 8 = 3 , 52
1
⎡ n 2 ⎤ 2 n
⎢ ∑ x i .f i ⎥ ∑x 2
i .f i
MQ = ⎢ i=1 n ⎥ = i=1
⎢ fi ⎥⎥
n
⎢⎣ ∑ i=1 ⎦
∑f i=1
i
22 + 4 2 + 6 2 + 8 2 120
MQ = = = 5,48
1+ 1+ 1+ 1 4
MQ= (2 2
) ( ) ( ) (
⋅ 4 + 42 ⋅ 3 + 62 ⋅ 2 + 82 ⋅1
=
) 200
= 4,47
4 + 3 + 2 +1 10
A mediana é o número que se encontra no centro de uma série de números, estando estes
números ordenados de forma crescente ou decrescente. A mediana é o valor que separa o
conjunto de números em dois subconjuntos de mesmo número de elementos.
N+1
p= , onde N é o número de elementos da série.
2
Introdução à Probabilidade e Estatística - IPE 23
Prof. André Policani
a) ordenação: 1, 5, 7, 9, 11.
5 +1
b) posição (p) da mediana: p = = 3 (a mediana é o 3.o elemento)
2
c) como o número de elementos da série é ímpar (5), o valor da mediana é Md = 7.
(1, 5, 7, 9, 11)
Assim como no estudo das médias, a mediana pode ser agrupada em frequências sem
intervalos de classe ou em uma distribuição de frequência.
i xi fi Fi
1 0 3 3
2 1 15 18
3 2 18 36
4 3 10 46
5 4 4 50
n
∑ f = 50
i =1
i
⎛ p − Fant ⎞
Md = L inf + h ⋅ ⎜ ⎟
⎝ f* ⎠
⎛ p − Fant ⎞ ⎛ 18 − 16 ⎞
Md = L inf + h ⋅ ⎜ ⎟ = 99 + 12 ⋅ ⎜ ⎟ = 102,43
⎝ f* ⎠ ⎝ 7 ⎠
Introdução à Probabilidade e Estatística - IPE 25
Prof. André Policani
3.7 MODA
A moda (Mo) é o valor que ocorre com maior frequência em uma série de valores. Assim, o
salário modal dos empregados de uma fábrica é o salário mais comum, isto é, o salário
recebido pelo maior número de empregados dessa fábrica.
A moda é facilmente obtida, bastando somente encontrar o valor que mais se repete.
• Há séries nas quais não existe moda, isto é, não há um valor apareça mais vezes que
outros.
• Em outros casos, pode haver dois ou mais valores de concentração. Diz-se, então, que a
série tem dois ou mais valores modais.
i xi fi Fi
1 0 3 3
2 1 15 18
3 2 18 36
4 3 10 46
5 4 4 50
n
∑ f = 50
i =1
i
A classe que apresenta a maior frequência é denominada classe modal. Pela definição,
podemos afirmar que a moda, neste caso, é o valor dominante que está compreendido entre os
limites da classe modal. Para calcular a moda é preciso determinar:
a) a classe modal
b) limite inferior da classe modal: Linf
c) a amplitude do intervalo da classe modal: h
d) a frequência da classe anterior à da classe modal: Fant
e) a frequência da classe posterior à da classe modal: Fpost
f) a frequência da classe modal: FMo
g) o cálculo da Moda:
⎛ FMo − Fant ⎞
Mo = Linf − h⋅ ⎜ ⎟
⎜F + F − 2F ⎟
⎝ post ant Mo ⎠
⎛ ⎞
Mo = Linf − h⋅ ⎜
FMo − Fant ⎟ = 87 − 12 ⋅ ⎛⎜ 11 − 5 ⎞
⎟⎟ = 94,2
⎜F + F − 2F ⎟ ⎜ + − ( )
⎝ post ant Mo ⎠ ⎝ 5 7 2 . 11 ⎠
A média aritmética pode ser calculada a partir de dados brutos, sem a necessidade de
agrupamento ou ordenação dos valores originais, o que não ocorre com a mediana e com a
moda. A média aritmética é a medida de posição que possui a maior estabilidade.
Introdução à Probabilidade e Estatística - IPE 27
Prof. André Policani
a) deseja-se conhecer exatamente o ponto médio da distribuição: aquele valor que divide a
distribuição em duas partes iguais.
b) Quando há valores extremos que afetam de maneira acentuada a média aritmética.
A moda é utilizada quando deseja-se obter uma medida rápida e aproximada de posição
central ou quando a medida de posição deva ser o valor mais típico (comum) da distribuição.
• Curva simétrica: x = Md = Mo
• Curva assimétrica positiva: Mo < Md < x
• Curva assimétrica negativa: x < Md < Mo
x = Md = Mo
Curva simétrica
3.10 SEPARATRIZES
Além das medidas de posição apresentadas, existem outras que consideradas isoladamente,
não são medidas de tendência central. Tais medidas – os quartis, os percentis e os decis –
assom como a mediana, são conhecidas por separatrizes.
3.10.1 QUARTIS: São os valores de uma série que dividem em quatro partes iguais. Existem,
portanto, três quartis.
Introdução à Probabilidade e Estatística - IPE 28
Prof. André Policani
• primeiro quartil (Q1): valor situado de tal modo na série que uma quarta parte (25%) dos
dados é menor que ele e as três quartas partes restantes (75%) são maiores.
• segundo quartil (Q2): coincide com a mediana (Q2 = Md).
• terceiro quartil (Q3): valor situado de tal modo que as três quartas partes (75%) dos dados
são menores que ele e uma quarta parte (25%) é maior.
⎛ ∑ fi ⎞ ⎛ 3∑ fi ⎞
⎜ − Fant ⎟ ⎜ − Fant ⎟
Q1 = Linf + h⋅ ⎜ 4 ⎟ e Q3 = Linf + h⋅ ⎜ 4 ⎟
⎜ f* ⎟ ⎜ f* ⎟
⎜ ⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠
3.10.2 PERCENTIS: são os noventa e nove valores que separam uma série em 100 partes
iguais. Indicamos estes valores por: P1, P2, ...., P99.
⎛ k ∑ fi ⎞
⎜ − Fant ⎟
Pk = Linf + h⋅ ⎜ 100 ⎟
⎜ f* ⎟
⎜ ⎟
⎝ ⎠
⎛ 32∑ fi ⎞
⎜ − Fant ⎟
P32 = Linf + h⋅ ⎜ 100 ⎟
⎜ f* ⎟
⎜ ⎟
⎝ ⎠
CAPÍTULO 4
MEDIDAS DE DISPERSÃO OU VARIABILIDADE
4.1 INTRODUÇÃO
X = {80, 80, 80, 80, 80} Y = {78, 79, 80, 81,82} Z = { 15, 25, 60, 130, 170 }
Logo o conjunto X apresenta dispersão nula e o conjunto Y apresenta uma dispersão menor
que o conjunto Z. Apresentam-se a seguir as medidas de dispersão.
É a única medida de dispersão que não tem na média o ponto de referência. É a diferença
entre o maior e o menor valor observado: AT = Xmáx - Xmín.
4.2.2.1 SEM INTERVALOS DE CLASSE: neste caso ainda temos: AT = Xmáx - Xmín.
i xi fi fri Fi x i fi
1 0 3 0,06 3 0
Assim, temos que:
2 1 15 0,30 18 15
3 2 18 0,36 36 36
AT = 4 – 0 = 4
4 3 10 0,20 46 30
5 4 4 0,08 50 16
n n n
∑ f = 50 ∑ fr =1,00
i =1
i
i =1
i ∑ x f =97
i =1
i i
Introdução à Probabilidade e Estatística - IPE 30
Prof. André Policani
A amplitude total é a diferença entre o limite superior da última classe e o limite inferior da
primeira classe.
AT = Lmáx - lmín.
VENDAS (x 1000) fi
75 l⎯ 87 5
87 l⎯ 99 11
99 l⎯ 111 7 AT = 147 – 75 = 72.000 unidades
111 l⎯ 123 5
123 l⎯ 135 4
135 l⎯ 147 4
k
TOTAL ∑ f = 36
i
Desvio médio ou média dos desvios é igual a média aritmética dos valores absolutos dos
desvios tomados em relação à média ou à mediana. Apresentam-se a seguir as equações para
calcular o desvio médio em diferentes situações.
∑ xi− x
Dx = i =1
∑ x −x •f
i =1
i i
Dx = n
∑f
i =1
i
∑ x i − Md
D Md = i=1
∑ x i − Md • fi
D Md = i =1
k
∑f
i =1
i
Introdução à Probabilidade e Estatística - IPE 31
Prof. André Policani
É a medida de dispersão mais utilizada na Estatística. Esta medida representa a raiz quadrada
da média aritmética dos quadrados dos desvios, sendo estes desvios tomados em relação à
média aritmética. As inferências estatísticas podem ser realizadas considerando-se toda a
população ou uma amostra desta (caso mais freqüente na estatística). Apresentam-se a seguir
as expressões para calcular o desvio padrão.
∑ (x )
n ⎛ n
⎜⎜ ∑ x i ⎟⎟ ⎥
2
i − x ⎢ n
∑ x i2 − ⎝ n ⎠ ⎥⎥
i=1 1⎢ i=1
S = =
n n ⎢ i=1
⎢ ⎥
⎢⎣ ⎥⎦
∑ (x )
n ⎛ n
⎜⎜ ∑ x i ⎟⎟ ⎥
2
i− x
⎢
1 ⎢ n 2 ⎝ i=1 ⎠ ⎥
S = i=1
n− 1
= ∑ xi −
n − 1 ⎢ i=1 n ⎥
⎢ ⎥
⎣⎢ ⎦⎥
4.4.3 OBSERVAÇÕES
a) observe que quando a inferência abrange toda a população, o divisor nas expressões é n.
Caso seja considerada uma amostra da população, o divisor é n –1.
c) Somando-se (ou subtraindo-se) uma constante k a (de) todos os valores de uma variável, o
desvio padrão não se altera:
yi = xi ± k ⇒ Sy = Sx
y i = k⋅ x i ⇒ k⋅ S x
Introdução à Probabilidade e Estatística - IPE 32
Prof. André Policani
a) Variância populacional:
⎡ 2
⎤
∑ (x − )
n ⎛ n ⎞
⎜ ∑ x i ⎟⎟
2
i x ⎢ n ⎜ ⎥
= ⎢ ∑ x i2 − ⎝ i = 1 ⎠ ⎥
1
S2 = i=1
n n ⎢ i=1 n ⎥
⎢ ⎥
⎢⎣ ⎥⎦
b) Variância amostral:
⎡ ⎞ ⎤
2
∑ (x − x )
n ⎛ n
⎜⎜ ∑ x i ⎟⎟ ⎥
2
i
⎢
1 ⎢ n 2 ⎝ i=1 ⎠ ⎥
S2 = i=1
n− 1
= ∑ xi −
n − 1 ⎢ i=1 n ⎥
⎢ ⎥
⎣⎢ ⎦⎥
a) Variância populacional:
⎡ ⎞ ⎤
2
∑ (x )
k ⎛ k
⎜⎜ ∑ x i f i
2
i − x ⋅ fi ⎢ ⎟⎟ ⎥
1⎢ k ⎝ i=1 ⎠ ⎥
S2 = i=1
= ⎢ ∑ x i2 f i − ⎥
n n i=1 n
⎢ ⎥
⎢⎣ ⎥⎦
b) Variância amostral:
⎡ ⎞ ⎤
2
∑ (x )
k ⎛ k
⎜⎜ ∑ x i f i
2
i − x ⋅ fi ⎢ ⎟⎟ ⎥
1 ⎢ k ⎝ i=1 ⎠ ⎥
S2 = i=1
n− 1
= ∑ x i2 f i −
n − 1 ⎢ i=1 n ⎥
⎢ ⎥
⎢⎣ ⎥⎦
Sua vantagem é caracterizar a dispersão dos dados em termos relativos ao seu valor médio.
Assim, uma pequena dispersão absoluta pode ser, na verdade, considerável quando
comparada com a ordem de grandeza dos valores da variável e vice-versa.
Introdução à Probabilidade e Estatística - IPE 33
Prof. André Policani
4.7 EXEMPLOS
4.7.1 DADOS NÃO AGRUPADOS: Seja o conjunto de dados X = { 15, 25, 60, 130, 170 }
Para resolver este exemplo, elabora-se uma tabela que auxiliará o cálculo das medidas de
tendência central e das medidas de dispersão apresentadas nos capítulos 3 e 4,
respectivamente.
xi xi − x xi − x x i − Md x i − Md x i2
15 -65 65 -45 45 225
25 -55 55 -35 35 625
60 -20 20 0 0 3600
130 50 50 70 70 16900
170 90 90 110 110 28900
Σ = 400 Σ =280 Σ =260 Σ =50250
∑x
i =1
i
400
a) Média Aritmética: x = = = 80
n 5
∑ xi− x
280
b) Desvio Médio em relação à média: D = i =1
= = 56,00
x
n 5
∑ x i − Md
260
c) Desvio Médio em relação à mediana: D Md = i=1
= = 52,00
n 5
⎡ ⎛ n ⎞ ⎤
2
⎢ ⎜⎜ ∑ x i ⎟⎟ ⎥
d) Desvio padrão: 1 ⎢ n 2 ⎝ i=1 ⎠ ⎥ = 1 ⎡ (400 )2 ⎤
S = ∑ xi −
n − 1 ⎢ i=1 ⎥ ⎢ 50250 −
4 ⎣⎢
⎥ = 67,55
⎢
n
⎥
5 ⎦⎥
⎢⎣ ⎥⎦
S(x ) 67,55
f) Coeficiente de Variação: CV = = * 100 = 84,44%
x 80
Introdução à Probabilidade e Estatística - IPE 34
Prof. André Policani
Medidas de Posição:
n
∑x f i i
a) Média: x = i =1 = 97 = 1,94
n 50
∑f
i =1
i
Medidas de Dispersão:
⎡ ⎛ k ⎞ ⎤
2
⎢ k ⎜ ∑ x i ⋅ fi ⎟⎟ ⎥
⎜
d) Desvio padrão: 1 ⎡ (97 )2 ⎤ = 1,04
∑ x i2 ⋅ fi − ⎝ i = 1 n ⎠ ⎥⎥ =
1 ⎢
S = ⎢ 241 − ⎥
n − 1 ⎢ i=1 49 ⎣⎢ 50 ⎥⎦
⎢ ⎥
⎢⎣ ⎥⎦
S(x ) 1,04
f) Coeficiente de Variação: CV = = * 100 = 53,61%
x 1,94
∑xf i i
3828
a) Média: x = i =1
k
= = 106,30
∑f
36
i
i =1
⎛ p − Fant ⎞ ⎛ 18 − 16 ⎞
b) Mediana: Md = L inf + h ⋅ ⎜ ⎟ = 99 + 12 ⋅ ⎜ ⎟ = 102,43
⎝ f* ⎠ ⎝ 7 ⎠
Medidas de Dispersão:
⎡ ⎛ k ⎞ ⎤
2
⎢ ⎜⎜ ∑ x i ⋅ f i ⎟⎟ ⎥
d) Desvio padrão: 1⎢ k 2 ⎝ i=1 ⎠ ⎥ = 1 ⎡ (3828 )2 ⎤
S = ∑ x i ⋅ fi −
n ⎢ i=1 n ⎥ 36
⎢ 419652
⎢⎣
−
36
⎥ = 18,71
⎥⎦
⎢ ⎥
⎣⎢ ⎦⎥
S(x ) 18,71
f) Coeficiente de Variação: CV = = * 100 = 17,60%
x 106,30
CAPÍTULO 5
MEDIDAS DE ASSIMETRIA E MEDIDAS DE CURTOSE
5.1 ASSIMETRIA
x = Md = Mo
Curva simétrica
Uma das formas mais usuais de avaliar a assimetria dos dados de uma distribuição é através
do coeficiente de assimetria de Pearson, dado por:
As =
(
3 x − Md), onde:
S
• Md é a mediana, e
• S é desvio padrão.
Introdução à Probabilidade e Estatística - IPE 37
Prof. André Policani
5.2 CURTOSE
∑ (x − x )
n ou k
4
i ⋅ fi
i=1
n ou k
∑f i
K= i=1
4
S
Convenciona-se que:
• K = 3 ⇒ curva mesocúrtica
• K > 3 ⇒ curva leptocúrtica
• K < 3 ⇒ curva platicúrtica
Introdução à Probabilidade e Estatística - IPE 38
Prof. André Policani
5.3 EXEMPLOS
a) Coeficiente de Assimetria: As =
( =
)
3 x − Md 3(1,94 − 2,00 )
= -0,17 (moderada negativa)
S 1,04
b) Coeficiente de Curtose:
∑ (x − x )
n ou k 4
i ⋅ fi
i=1
n ou k
∑f i
138,86
K= i=1
= 50 4 = 2,37 Curva platicúrtica
S 4
(1,04 )
VENDAS
(x 1000)
fi PM
(xi)
Fi xifi xi − x x i − x ⋅ fi x i − Md x i − Md ⋅ fi xi2 ⋅ fi (x − x ) f
i
4
i
a) Coef. de Assimetria: As =
( =
)
3 x − Md 3(106,30 − 102,43 )
= 0,62 (moderada positiva)
S 18,71
b) Coeficiente de Curtose:
∑ (x − x ) ⋅ f
n ou k 4
i i
i=1
n ou k
∑f i
9319752,68
36
K= i=1
= =2,11 Curva platicúrtica
S4 (18,71 )4
CAPÍTULO 6
INTRODUÇÃO À PROBABILIDADE
6.1 INTRODUÇÃO
A Probabilidade é o campo da Matemática que trata do estudo dos fenômenos aleatórios. Este
estudo é de grande importância, pois a maioria dos fenômenos de que trata a Estatística são
de natureza aleatória ou probabilística. O conhecimento dos aspectos fundamentais do cálculo
da probabilidades é uma necessidade essencial para o estudo da Estatística Indutiva ou
Inferencial.
São fenômenos que, mesmo repetido várias vezes sob condições semelhantes, apresentam
resultados imprevisíveis. O resultado final depende do acaso.
Exemplo: Considere o lançamento de uma moeda e observação da sua face superior. Este
experimento pode ser caracterizado por:
6.2.3 EVENTO
Seja E um evento qualquer, tal que E ⊂ S (E está contido em S), então E é um evento de S.
A
B
A
B
A B
A
Introdução à Probabilidade e Estatística - IPE 41
Prof. André Policani
A ∪ B = B∪ A ⎫
⎬ propriedad e comutativa
A ∩ B = B∩ A ⎭
A ∪ (B ∪ C) = (A ∪ B) ∪ C = A ∪ B∪ C ⎫
⎬ propriedad e associativ a
A ∩ (B ∩ C) = (A ∩ B) ∩ C = A ∩ B∩ C ⎭
A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)⎫
⎬ propriedad e distributi va
A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)⎭
A∪ φ = A A∪ S = S A∩ φ = φ
A∩ S = A A∪ A = S A∩ A = φ
S = φ (A ∪ B ) = A ∩B (A ∩ B ) = A ∪B
S= {1, 2, 3, 4, 5, 6} n(S) = 6
6.3 PROBABILIDADES
Considere um espaço amostral S finito, com todos seus elementos igualmente possíveis de
acontecer. Seja um evento A ( A ⊂ S). A probabilidade do evento A ocorrer é dada por:
PROPRIEDADES:
n( φ) n(S)
a) P( φ) = =0 b) P(S) = =1
n(S) n(S)
n(A)
c) 0 ≤ n(A) ≤ n(S), A ⊂ S ⇒ 0 ≤ ≤ 1 ⇒ 0 ≤ P(A) ≤ 1
n(S)
Obs: De forma mais sucinta, diz-se que dois ou mais eventos são mutuamente exclusivos
quando a realização de um exclui a realização do(s) outro(s). Assim, no lançamento de uma
moeda, o evento "tirar cara" e o evento "tirar coroa" são mutuamente exclusivos, já que, ao se
realizar um deles, o outro não se realiza.
n(E) 30 n(Q∩ H) 10
a) P(E) = = b) P(Q ∩ H) = =
n(S) 200 n(S) 200
110 85 40 155
c) P(M ∪ F) = P(M) + P(F) – P(M ∩ F) = + − =
200 200 200 200
30 30 60
d) P(E ∪ Q) = P(E) + P(Q) = + = (eventos mutuamente exclusivos )
200 200 200
Introdução à Probabilidade e Estatística - IPE 43
Prof. André Policani
S
70 140 E
a) P(E) = b) P(A) = A
500 500 10
70 140
10
c) P(E∩ A) =
500
Diz-se que dois eventos são independentes quando a realização ou não realização de um dos
eventos não afeta a probabilidade da realização do outro e vice-versa.
1 1 1
P(A ∩ B) = × =
6 6 36
A n( A → B → C ) = n(A → B) ⋅ n(B → C )
C
B n( A → B → C ) = 3 ⋅ 4 = 12
Dado um conjunto E de n elementos (a1, a2, ..., an), denominam-se Arranjos Simples dos n
elementos de E, tomados p a p, as sequências formadas de p elementos distintos escolhidos
dentre os n elementos disponíveis.
n!
O cálculo dos Arranjos Simples é dado por: A n,p = A pn =
(n− p)!
Exemplo: Quantos arranjos com duas letras podem ser formados, a partir das letras a, b, c, d?
n! 4!
A n,p = A pn = = = 12 Estes são: {ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc}
(n− p)! ( 4 − 2)!
São arranjos em que se admite a repetição de cada um dos n elementos até p vezes. São
calculados pela expressão:
ARn,p = ARpn = np
Exemplo: Deseja-se conhecer os números de 3 algarismos (distintos ou não) que podem ser
formados a partir dos algarismos 1, 5, 7, 9.
ARn,p = ARpn = np = 43 = 64
Estes arranjos poderiam ser: 115, 151, 111, 755, 577, 777, ...
Introdução à Probabilidade e Estatística - IPE 45
Prof. André Policani
Pn = n!
Exemplo: considere E = {a, b, c}, com a, b e c distintos. O número de permutações destes três
elementos são as seis sequências :
Pn = n! ⇒ P3 = 3! = 6 (a, b, c), (a, c, b), (b, a, c), (b, c, a), (c, a, b), (c, b, a)
Observe que (a, b, c) ≠ (a, c, b), ou seja, são agrupamentos distintos (a ordem dos elementos
importa).
São permutações com n elementos, com n1 elementos iguais a a1, n2 elementos iguais a a2, ....,
nk elementos iguais a ak. São obtidas pela expressão:
n!
Pnn1 ,n 2 ,...,nk =
n1! n2!.... nk !
n= 5 n! 5!
n1 = 3 (n.o de repetições da letra A) Pnn1 ,n 2 ,...,nk = = P53,2 = = 10
n1! n2!.... nk ! 3!⋅2!
n2 = 2 (n.o de repetições da letra R)
⎛n⎞ n!
Cn,p = Cpn = ⎜⎜ ⎟⎟ =
⎝ p ⎠ p! (n− p)!
Exemplo: Quantas são as combinações possíveis de duas letras distintas a partir das letras a,
b, c e d?
⎛n⎞ n! ⎛ 4⎞ 4!
Cn,p = Cpn = ⎜⎜ ⎟⎟ = ⇒ C4,2 = C24 = ⎜⎜ ⎟⎟ = =6
⎝ p ⎠ p! (n− p)! ⎝ 2 ⎠ 2! (4 − 2)!
Estas combinações são: (a, b), (a, c), (a, d), (b, c), (b, d), (c, d).
Introdução à Probabilidade e Estatística - IPE 46
Prof. André Policani
As combinações são: (a, a), (a, b), (a, c), (a, d), (b, b), (b, c), (b, d), (c, c), (c, d), (d, d).
Ao estabelecer P(A / B), desejamos relacionar A com B, ou seja, queremos saber a proporção
de A a respeito de B. Então o espaço amostral de A / B deverá ser B.
Exemplo: Uma urna U1 contém duas bolas vermelhas e 3 bolas brancas; a urna U2 contém 4
bolas vermelhas e 5 brancas. Uma urna é escolhida ao acaso e dela é extraída uma bola. Qual
a probabilidade de termos urna U1 e bola vermelha?
P(U1∩ V) 1 2 1
P(V / U1 ) = ∴ P(U1∩ V) = P(U1 ) ⋅ P(V / U1 ) = ⋅ =
P(U1 ) 2 5 5
Introdução à Probabilidade e Estatística - IPE 47
Prof. André Policani
V
2/5 1 3 3
P(U1∩ B) = ⋅ =
2 5 10
U1 3/5
B
1/2 1 4 2
P(U2 ∩ V) = ⋅ =
2 9 9
4/9 V
1/2 U2 1 5 5
5/9 P(U2 ∩ B) = ⋅ =
2 9 18
B
Seja um experimento aleatório E em que A1, A2, ..., An são os n eventos do espaço amostral S.
Os eventos A1, A2, ..., An constituem uma partição do espaço amostral S se:
Como os eventos (A1 ∩ B), (A2 ∩ B), .... , ( An ∩ B) também são mutuamente exclusivos 2 a 2:
Exemplo: A urna U1 tem duas bolas vermelhas e três brancas. A urna U2 tem 3 bolas
vermelhas e uma branca. A urna U3 tem quatro bolas vermelhas e e duas brancas. Uma urna é
escolhida ao acaso e dela é extraída uma bola. Qual a probabilidade da bola ser vermelha?
V
2/5
U1 3/5
B
P(V) = P(U1∩ V) + P(U2 ∩ V) + P( U3 ∩ V)
1/3
V ⎛ 1 2 ⎞ ⎛ 1 3 ⎞ ⎛ 1 4 ⎞ 109
3/4 P(V) = ⎜ ⋅ ⎟+⎜ ⋅ ⎟+⎜ ⋅ ⎟ =
1/3 ⎝ 3 5 ⎠ ⎝ 3 4 ⎠ ⎝ 3 6 ⎠ 180
U2
1/4 B
1/3
4/6 V
U3
2/6
B
Introdução à Probabilidade e Estatística - IPE 48
Prof. André Policani
P(A i ∩ B)
P(A i / B) = , donde: P(B) = P(A1∩ B) + P(A2 ∩ B) + .... + P( An ∩ B)
P(B)
Exemplo: Uma urna U1 tem 3 bolas vermelhas e 4 brancas. Uma urna U2 tem 6 bolas
vermelhas e 2 brancas. Uma urna é escolhida ao acaso e dela é extraída uma bola. Qual a
probabilidade de:
V
3/7 1 3 3
P(U1∩ V) = P(U1 ) ⋅ P(V/U1 ) = ⋅ =
2 7 14
U1 4/7
B
1/2
1 3 1 6 33
P(V) = P(U1∩ V) + P(U2 ∩ V) = ⋅ + ⋅ =
2 7 2 8 56
6/8 V
1/2 U2
2/8 1 6
⋅
P(U2 ∩ V) 2 8 7
B P(U2 / V) = = =
P(V) 33 11
56
Seja E um experimento aleatório e S o espaço amostral associado a este evento. Seja X uma
variável aleatória discreta com contradomínio Rx = {x1, x2, ..., xn}, isto é, X só pode assumir os
valores x1, x2, ...., xn.
A função que associa a cada elemento xi a probabilidade P(xi) = P(X = xi) é denominada função
de probabilidade da variável aleatória X, observando-se que:
a) P(x i ) ≥ 0, ∀ i
n
b) ∑ P(x ) = 1
i =1
i
Esta função é uma função de probabilidade no ponto e indica a probabilidade de uma variável
aleatória assumir um dos valores de X.
Introdução à Probabilidade e Estatística - IPE 49
Prof. André Policani
1/2 k
1/2 k
1/2 1/2
c c
1/2
1/2
c k
1/2
c
Seja X uma variável aleatória que representa o número de caras. Os diagramas e a tabela
ilustram os eventos que compõem o espaço amostral e as probabilidades de ocorrência da
variável aleatória X.
S
ckk 2 ckk 2
cck kcc 1
1
ckc ckc 1 3/8
0
cck 1
kcc
ccc 0 1/8
ccc
P(xi)
1/8
xi
0 1 2 3
Introdução à Probabilidade e Estatística - IPE 50
Prof. André Policani
A função que associa a cada número real xi a probabilidade P (X≤ xi) é denominada Função
de Distribuição de Probabilidade (acumulada) da variável aleatória X, simbolizada por F(X):
1 3 1
P(X≤ 1) = P(X = 0) + P(X = 1) ⇒ P(X≤ 1) = + =
8 8 2
Seja X uma variável aleatória discreta com valores possíveis x1, x2, ..., xn. Seja a sua função
probabilidade P(xi) = P(X = xi); i = 1, 2, ...., n, ....
∞
E(X) = µ (X)= ∑ x P(x )
i =1
i i
Em suma: Um experimento que tem n eventos aos quais se associam os resultados x1, x2, ...,
xn, cujas probabilidades são respectivamente p1, p2, ..., pn, o valor esperado é dado por:
∞
E(X)= ∑ x P(x ) = 50.000 x 0,02 + (-4.000) x 0,98= -$2.920,00
i =1
i i (desfavorável para o segurado)
xi 0 1 2 3 4 5
P(X=xi) 0,1 0,1 0,2 0,3 0,2 0,1
a) Esperança de venda semanal: E(X) = (1 ⋅ 0,1) + (2 ⋅ 0,2) + (3 ⋅ 0,3 ) + (4 ⋅ 0,2) + (5 ⋅ 0,1) = 2,7
b) se para cada produto vendido lucra-se $50,00 e os custos fixos semanais é de $20,00, qual
o lucro líquido esperado?
Seja X uma variável aleatória discreta. Define-se a vari6ancia de X, denotada por Var(X) ou σ 2x
da seguinte forma:
∑ [x − E(x )]
2
Var(X) = σ 2x = i ⋅ Pi ,
i =1
Para estudar a viabilidade de seu negócio, o empresário quer ter uma idéia da distribuição do
lucro da peça montada. Cada componente pode ser classificado como bom, longo ou curto,
conforme sua medida esteja dentro da especificação, maior ou menor respectivamente. Foram
obtidos dos fabricantes o preço de cada componente ($5,00) e as probabilidades de cada
componente com as características bom .longo e curto (veja tabela abaixo).
Se o produto final apresentar algum componente com a característica C, ele será irrecuperável
e o conjunto será vendido como sucata ao preço de $5,00. Cada componente longo poderá ser
recuperado a um custo adicional de $5,00. Se o preço da venda de cada unidade for de
$25,00, como será a frequência de distribuição da variável X: lucro por conjunto
montado?
Solução: como os componentes vêm de fábricas diferentes, vamos supor que a classificação
das esferas e dos cilindros são eventos independentes. Temos o seguinte diagrama de árvore:
Diagrama de árvore:
Cilindro Esfera
0,70 B
0,20
B L
0,10
0,80 C
0,70 B
0,10 0,20
L L
0,10
C
0,10
0,70 B
0,20
C L
0,10
C
A partir da tabela acima, verifica-se que X pode assumir um dos seguintes valores:
n
a) Valor Médio: E(X) = µ (X)= ∑ x P(x ) = 9,85
i=1
i i
Ou seja: Sabendo-se que 56% das montagens deve produzir um lucro de $15,00, 23% um
lucro de $10,00 e assim por diante, o lucro médio por conjunto montado é 9,85 (caso as
informações consideradas estejam corretas).
b) Variância: Var(X) = ∑x 2
i ⋅ P(x i ) − [∑ x ⋅ P(x )] = 154, 25 – (9,85)
i i
2 2
= 57,23
c) Desvio Padrão: S(X) = 7,57
d) Gráfico de P(X):
P(X)
0,60
0,50
0,40
0,30
0,20
0,10
-5 xi
0 5 10 15
É o caso mais simples de v.a. discreta, em que cada valor possível ocorre com a mesma
probabilidade. Ou seja: a v.a. discreta X, assumindo os valores x1, x2, ...., xn tem distribuição
uniforme se e somente se:
1
P(x = x i ) = P(x i ) = , para todo i = 1, 2, ..., n.
n
1 n(X)
F(X) = ∑
(x i ≤ x) n
=
n
, onde n(X) é o número de xi ≤ X.
1,0
2/n
1/n 1/n
xi xi
x1 x2 x3 xn x1 x2 x3 xn
Exemplo: seja X a v.a. que indica o número de pontos marcados na face superior de um dado,
quando ele é lançado. A tabela abaixo apresenta os valores de X:
xi 1 2 3 4 5 6 Total
P(X=xi) 1/6 1/6 1/6 1/6 1/6 1/6 1,0
1 n 1 21
E(X) = ∑ xi = [1 + 2 + 3 + 4 + 5 + 6] = = 3,5
n i =1 6 6
1⎡
Var(X) = ⎢∑ x i2 −
(∑ xi ) 2
⎤ 1⎡
⎥ = ⎢(1 + 4 + ... + 36 ) −
(21) ⎤ 35
2
⎥= = 2,9
n⎢
⎣
n ⎥⎦ 6 ⎣⎢ 6 ⎦⎥ 12
Introdução à Probabilidade e Estatística - IPE 55
Prof. André Policani
3/6
2/6
1/6
1/6
xi xi
1 2 3 4 5 6 1 2 3 4 5 6
Define-se a variável aleatória X, que assume apenas dois valores: 1 (se ocorrer sucesso) e 0
(se ocorrer fracasso). Denota-se por p a probabilidade de sucesso, ou seja: P(sucesso) = p.
Assim temos que:
P (X =0) = 1 – p P (X =1) = p
⎧0, se x < 0
⎪
E também: F(X) = ⎨1 − p, se 0 ≤ x < 1
⎪1 se x ≥ 1
⎩
1,0
1-p 1- p
xi xi
0 1 0 1
Introdução à Probabilidade e Estatística - IPE 56
Prof. André Policani
⎛n⎞
b (k; n,p) = P(X=k, n, p) = ⎜⎜ ⎟⎟ ⋅ pk ⋅ qn −k , k = 0, 1, ...., n.
k ⎝ ⎠
A média e a variância de uma v.a. binomial , com parâmetros n e p são dadas, respectivamente
por:
Exemplo: Seja o lançamento de uma moeda não tendenciosa quatro vezes consecutivas.
Considere X a v. a. que represente o sucesso (cara) por S. Temos então o seguinte quadro:
Existem tabelas que visam facilitar o cálculo das probabilidades de uma distribuição binomial.
Em geral, essas tabelas fornecem as probabilidades: P (X = k) ou P (X ≤ k) ou P (X ≥ k).
Outros valores podem ser obtidos através das leis das probabilidades:
P (X = k) = P (X ≤ k) – P (X ≤ k -1)
P (a ≤ X ≤ b) = P (X ≤ b) – P (X ≤ a - 1)
P (X > k) = 1 - P(X ≤ k)
Introdução à Probabilidade e Estatística - IPE 57
Prof. André Policani
Exemplo: Uma urna contém 4 bolas vermelhas e 6 brancas. Uma bola é extraída ao acaso,
observada sua cor e posta novamente na urna. O experimento é repetido 5 vezes. Qual a
probabilidade de observarmos?
4 2 3
• Sucesso: bola vermelha p = = • Fracasso: bola branca q=
10 5 5
3 2
⎛n⎞ ⎛5⎞ ⎛ 5 ⎞⎛ 2 ⎞ ⎛ 3 ⎞
a) P (X = k= 3) = ⎜⎜ ⎟⎟ ⋅ pk ⋅ qn −k = ⎜⎜ ⎟⎟ ⋅ p3 ⋅ q5 − 3 = ⎜⎜ ⎟⎟⎜ ⎟ ⎜ ⎟ = 0,2304
⎝k ⎠ ⎝3⎠ ⎝ 3 ⎠⎝ 5 ⎠ ⎝ 5 ⎠
0 5
⎛ 5 ⎞⎛ 2 ⎞ ⎛ 3 ⎞
P (X = k ≥ 1) = 1 – P (X = k = 0) = 1 - ⎜⎜ ⎟⎟⎜ ⎟ ⎜ ⎟ = 1 – 0, 0081 = 0, 9224
⎝ 0 ⎠⎝ 5 ⎠ ⎝ 5 ⎠
Exemplo: Da produção mensal de uma máquina foi retirada uma amostra de 5 peças. Sabe-
se que esta máquina apresenta um percentual de peças defeituosas constante ao longo do
tempo e igual a 15%. Qual a probabilidade de que:
2 3
⎛n⎞ ⎛5⎞ ⎛ 5 ⎞⎛ 15 ⎞ ⎛ 85 ⎞
a) P (X = k= 2) = ⎜⎜ ⎟⎟ ⋅ pk ⋅ qn −k = ⎜⎜ ⎟⎟ ⋅ p 2 ⋅ q5 − 2 = ⎜⎜ ⎟⎟⎜ ⎟ ⎜ ⎟ = 0,1388
⎝k ⎠ ⎝ 2⎠ ⎝ 2 ⎠⎝ 100 ⎠ ⎝ 100 ⎠
b) P(X > 2)= 1 - P (X=k=0) + P (X=k= 1) + P (X=k= 2) = 1 – 0,4437 – 0,3915 – 0,1382= 0,0266
Esta distribuição é adequada quando consideramos extrações casuais feitas sem reposição
de uma população dividida segundo dois atributos.
Seja uma população de N objetos, r dos quais têm o atributo A e N-r dos objetos têm o atributo
B. Uma amostra de n elementos é escolhida ao acaso, sem reposição. Seja X a v.a. que indica
o número de elementos da amostra que possui o atributo A. Deseja-se calcular a probabilidade
de que a amostra contenha k elementos com o atributo A. Essa probabilidade é dada por:
⎛ r ⎞ ⎛ N− r ⎞
⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎟
⎝ k ⎠ ⎝ n− k ⎟⎠
P(X = k) =
⎛N⎞
⎜⎜ ⎟⎟
⎝n⎠
N− n
Além disso: E(X) = np Var (X) = np(1 − p)
N− 1
Introdução à Probabilidade e Estatística - IPE 58
Prof. André Policani
Se N é muito grande comparado com n, extrações com ou sem reposição serão praticamente
equivalentes, de modo que as probabilidades obtidas pela distribuição binomial serão
praticamente iguais às probabilidades obtidas pela distribuição hipergeométrica.
⎛10 ⎞ ⎛ 90 ⎞
⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎟⎟
0 5
P(X = k = 0) = ⎝ ⎠ ⎝ ⎠ = 0,584
⎛100 ⎞
⎜⎜ ⎟⎟
⎝ 5 ⎠
⎛ ⎞
P (X = k) = P (F... FS) ⎜⎜ F
12 F S ⎟⎟ = qk −1⋅ p
...3
⎝ k −1 ⎠
Exemplo: Um biólogo quer pesquisar a incidência de uma certa doença numa determinada
localidade, sendo p a fração da população infectada. Os indivíduos serão escolhidos
aleatoriamente e examinados até encontrar o primeiro infectado. Quantas pessoas espera-se
observar?
1
E(X) =
p
Seja X uma v.a. discreta. Diz-se que X tem uma distribuição de Poisson com parâmetro λ > 0,
se:
e− λλ k
P(X = k) = , k = 0, 1, 2, ..., n.
k!
e − np (np )
k
P(x = k) = , onde:
k!
Para um evento ocorrendo no tempo, cada instante pode ser considerado como um
experimento, no qual o evento sucesso pode ou não ocorrer. Em uma unidade de tempo, há
virtualmente um número infinito de experimentos, com a suposição de que poucas ocorrências
de sucesso acontecem. Nesta situação necessita-se de um modelo que envolva a taxa média
de ocorrências (np), mas não necessite de n e p especificamente. São exemplos destes
fenômenos:
Observe que:
e − 0,1(0,1) e − 0,1(0,1)
0 1
Exemplo: Uma loja verifica que a demanda de Tvs 14” é 3%. Se são vendidas 50 Tvs por dia,
determine a probabilidade de que sejam vendidas:
• λ é a taxa de ocorrência de sucessos (venda de tvs 14”) – representa a média das vendas
de tvs 14”em um dia.
• λ = np = 50 x 0,03 = 1,5
e −1,5 (1,5)2
a) P(x = k = 2) = = 0,2510
2!
Observação importante: utilize a planilha Excel para verificar os resultados dos exemplos
apresentados nesta apostila. Acesse a categoria Estatística e utilize:
X = número de meninos
Z = número de vezes que houve variação de sexo entre um nascimento e outro, dentro da
mesma família.
Eventos Probabilidade X Y Z
HHH 1/8 3 1 0
HHM 1/8 2 1 1
HMH 1/8 2 1 2
MHH 1/8 2 0 1
HMM 1/8 1 1 1
MHM 1/8 1 0 2
MMH 1/8 1 0 1
MMM 1/8 0 0 0
X 0 1 2 3 Y 0 1 Z 0 1 2
P(X) 1/8 3/8 3/8 1/8 P(Y) 1/2 1/2 P(Z) 1/4 1/2 1/4
A partir da tabela inicial também é possível formar as distribuições conjuntas das variáveis X e
Z, de Y e Z, assim como a distribuição conjunta de X, Y e Z, que encontra-se na tabela abaixo.
Nesta última distribuição, P (X, Y, Z) = P (X = xi, Y = yj, Z = zk):
Uma maneira mais cômoda de representar a distribuição conjunta é por meio de tabelas de
dupla entrada, conforme representada abaixo:
x 0 1 2 3 P(Y)
y
0 1/8 2/8 1/8 0 1/2
1 0 1/8 2/8 1/8 1/2
P(X) 1/8 3/8 3/8 1/8 1
A primeira e a última coluna desta tabela dão a distribuição de Y, (Y, P(Y)), enquanto que a
primeira e última linha da mesma tabela dão a distribuição de X, (X, P(X)). Essas distribuições
são chamadas distribuições marginais. Por exemplo:
P(Y=0) = P(X =0, Y= 0) + P( X= 1, Y=0) + P(X=2, Y=0) + P(X=3, Y=0) = 1/8 + 2/8 + 1/8 +0 = 1/2
A representação gráfica das variáveis aleatórias bidimensionais (X, Y) exige gráficos com três
eixos: um para a v.a. X, outro para a v.a. Y e um terceiro eixo z para a probabilidade conjunta
P(X, Y). A figura abaixo apresenta a distribuição conjunta apresentada na tabela acima. A
dificuldade de desenhar e interpretar estes gráficos muitas vezes impossibilita a utilização
deste recurso.
z
0,375
0,250
0,125
1 2 3
x
1
y
Introdução à Probabilidade e Estatística - IPE 63
Prof. André Policani
Seja xi, um valor de X, tal que P(X = xi)= P(xi)>0. A probabilidade condicional de Y =yj, dado
que X = xi é dada por:
P(X = x i, Y = y j )
P(Y = y j /X = xi ) = , j = 1, 2, ...., m.
P(X = xi )
n
E(X/Y = y j ) = ∑ xiP(X = x i /Y = y j )
i =1
P(X = 2, Y = 1) 2 / 8
P(X = 2 /Y = 1) = = = 1/ 2
P(Y = 1) 1/ 2
xi 1 2 3
P(X = x i /Y = 1) 1/4 1/2 1/4
n
⎛ 1⎞ ⎛ 1⎞ ⎛ 1⎞
E(x/y = 1) = ∑ x iP(x = x i /y = 1) = ⎜1 x ⎟ + ⎜ 2 x ⎟ + ⎜ 3 x ⎟ = 2
i=1 ⎝ 4⎠ ⎝ 2⎠ ⎝ 4⎠
yi 0 1
P(Y = yi /X = 2) 1/3 2/3
m
⎛ 1⎞ ⎛ 2⎞ 2
E(Y/X = 2) = ∑ y jP(Y = y j /X = 2) = ⎜ 0 ⋅ ⎟ + ⎜1⋅ ⎟ =
j =1 ⎝ 3⎠ ⎝ 3⎠ 3
6.11.3 INDEPENDÊNCIA
As variáveis aleatórias X e Y, assumindo os valores x1, x2, ... e y1, y2, ...., respectivamente, são
independentes se e somente se , para todo par de valores (xi, yj) de X e Y, tivermos que:
Considere a tabela da distribuição conjunta das v.a. X e Y. Podemos então considerar a v.a.
X+Y, ou a v.a. XY. A soma X +Y é definida naturalmente: a cada resultado do experimento, ela
associa a soma dos valores X e Y, ou seja:
X+Y 0 1 2 3 4 XY 0 1 2 3
P(X+Y) 1/8 2/8 2/8 2/8 1/8 P(XY) 4/8 1/8 2/8 1/8
Seja X uma v.a. com valores x1, ..., xn e probabilidades P(x1), ..., P(xn). Seja Y uma v.a. com
valores y1, ..., ym e probabilidades P(y1), ..., P(ym). Seja P(x i , y j ) = P(X = x i, Y = y j ) , i = 1,..., n;
j = 1,..., m. Se g(xi, yj) for uma função de X e Y, então:
n m
E[g(X, Y)] = ∑∑ g(x , y )P(x , y )
i=1 j =1
i j i j
n m n m n m
E(Z) = E(X + Y) = ∑ ∑ (x + y ) P(x , y ) = ∑ ∑ (x ) P(x , y ) + ∑ ∑ (y ) P(x , y )
i =1 j = 1
i j i j
i =1 j = 1
i i j
i =1 j = 1
j i j
n m
Para um i fixo, ∑ P(x , y ) = P(x ) e para um j fixo, ∑ P(x , y ) = P(y ) , então:
i =1
i j i
j =1
i j i
n m
E(Z) = E(X + Y) = ∑ xi P(xi ) +
i =1
∑ y P(y ) =
j =1
j i E(X) + E (Y)
Introdução à Probabilidade e Estatística - IPE 65
Prof. André Policani
n m n m
Prova: E(W) = E(XY) = ∑ ∑ (xi y j ) P(xi, y j ) = ∑ ∑ (xi y j ) P(xi ) P(y j )
i =1 j = 1 i =1 j = 1
n m
Logo, E(XY) = ∑ x P(x ) ∑ y P(y ) = E(X) E(Y)
i =1
i i
j =1
j i
• A recíproca não é verdadeira: podemos ter E(XY) = E(X) E(Y), e X e Y serem dependentes.
⎛ 1⎞ ⎛ 2⎞ ⎛ 2⎞ ⎛ 2⎞ ⎛ 1⎞
E (X + Y) = ⎜ 0 x ⎟ + ⎜1 x ⎟ + ⎜ 2 x ⎟ + ⎜ 3 x ⎟ + ⎜ 4 x ⎟ = 2
⎝ 8⎠ ⎝ 8⎠ ⎝ 8⎠ ⎝ 8⎠ ⎝ 8⎠
⎛ 4 ⎞ ⎛ 1⎞ ⎛ 2⎞ ⎛ 1⎞
E(XY) = ⎜ 0 x ⎟ + ⎜1 x ⎟ + ⎜ 2 x ⎟ + ⎜ 3 x ⎟ = 1
⎝ 8⎠ ⎝ 8⎠ ⎝ 8⎠ ⎝ 8⎠
Supondo que X assuma os valores x1, ..., xn e Y os valores y1, ..., ym e que
P(xi , y j ) = P(X = x i, Y = y j ) , então a covariância pode ser escrita na forma:
OBSERVAÇÕES:
Cov(X, Y)
ρ(X, Y) = , -1 ≤ ρ(XY) ≤ 1,
σ(X) σ(Y)
O grau de associação linear entre X e Y varia à medida que ρ(X, Y) varia entre –1 e 1. Quando
ρ(X, Y) = ± 1, existe uma correlação linear perfeita entre X e Y, pois Y= aX +b. Isto é: se ρ(X,
Y)=1, a > 0, e se ρ(X, Y) = -1, a < 0.
1 n
∑ (x i − x )(y i − y )
n− 1 i =1
r= , onde:
SxSy
x 0 1 2 P(Y)
y
1 3/20 3/20 2/20 8/20
2 1/20 1/20 2/20 4/20
3 4/20 1/20 3/20 8/20
P(X) 8/20 5/20 7/20 1,00
n
E(X) = µ (X)= ∑ x P(x ) = ⎛⎜⎝ 0 × 20
i=1
i i
8 ⎞ ⎛
⎟ + ⎜ 1×
5 ⎞ ⎛
⎠ ⎝ 20 ⎠ ⎝
⎟ + ⎜2×
7 ⎞ 19
⎟=
20 ⎠ 20
n
E(Y) = µ (Y)=
i=1
i
8 ⎞ ⎛
∑ y P(y ) = ⎛⎜⎝1× 20
i ⎟ + ⎜2 ×
⎠ ⎝
4 ⎞ ⎛
⎟ + ⎜3 ×
20 ⎠ ⎝
8 ⎞ 40
⎟=
20 ⎠ 20
=2
⎛ 3 ⎞ ⎛ 3 ⎞ ⎛ 2 ⎞ ⎛ 1 ⎞ ⎛ 1 ⎞ ⎛ 2 ⎞ ⎛ 4 ⎞ ⎛ 1 ⎞ ⎛ 3 ⎞ 38
E(XY)= ⎜ 0 ⋅ ⎟ + ⎜1⋅ ⎟ + ⎜ 2 ⋅ ⎟ + ⎜ 0 ⋅ ⎟ + ⎜ 2 ⋅ ⎟ + ⎜ 4 ⋅ ⎟ + ⎜ 0 ⋅ ⎟ + ⎜ 3 ⋅ ⎟ + ⎜ 6 ⋅ ⎟ =
⎝ 20 ⎠ ⎝ 20 ⎠ ⎝ 20 ⎠ ⎝ 20 ⎠ ⎝ 20 ⎠ ⎝ 20 ⎠ ⎝ 20 ⎠ ⎝ 20 ⎠ ⎝ 20 ⎠ 20
38 ⎛ 19 ⎞
Cov(X, Y) = E(XY) – E(X)E(Y) = − ⎜2× ⎟=0
20 ⎝ 20 ⎠
y 0 1 2 P(X)
x
0 0,10 0,30 0,20 0,60
1 0,10 0,20 0,10 0,40
P(Y) 0,20 0,50 0,30 1,00
X 0 1 Total Y 0 1 2 Total
P(X) 0,60 0,40 1,00 P(Y) 0,20 0,50 0,30 1,00
XP(X) 0 0,40 0,40 YP(Y) 0 0,50 0,60 1,10
X2P(X) 0 0,40 0,40 Y2P(Y) 0 0,50 1,20 1,70
E(XY)= (0 ⋅ 0 ⋅ 0,10) + (0 ⋅ 1⋅ 0,30) + (0 ⋅ 2 ⋅ 0,20) + (1⋅ 0 ⋅ 0,10) + (1⋅ 1⋅ 0,20) + (1⋅ 2 ⋅ 0,20) = 0,40
σ 2x = = ∑x 2
i ⋅ P(x i ) − [∑ x ⋅ P(x )] = (0,40) – (0,40) = 0,24
i i
2 2
⇒ ρx= 0,49
7.1 INTRODUÇÃO
Uma função X, definida sobre o espaço amostral S e assumindo valores num intervalo de
números reais, é chamada variável aleatória contínua. A distribuição de probabilidade de
uma variável aleatória contínua pode ser visualizada como uma forma suavizada de um
histograma de frequências relativas (h.f.r.) baseado em um grande número de observações.
Exemplo: Seja a estatura de 100 crianças do colégio A. Estes valores são registrados em cm,
com aproximações a inteiros e representados num histograma de frequências relativas com
intervalos de classe de amplitude igual a 4 cm. A figura 7.1 ilustra este h.f.r.
Suponha que o número de medidas é aumentado para 1000 e que o intervalo de classe é
diminuído para 1 cm. A figura 7.2 representa o histograma resultante – este histograma
constitui um refinamento do primeiro histograma.
Procedendo desta forma, aumentando cada vez mais o refinamento dos h.f.r. (maior número de
observações e intervalos de classe cada vez menores), sob determinadas condições, a borda
superior do h.f.r. vai se aproximando de uma curva suave, conforme a figura 7.3.
Assim, mediante este processo, obtém-se uma curva que representa a forma em que a
probabilidade total é distribuída sobre todos os valores possíveis da variável aleatória X. A
função f(X) cujo gráfico determina a curva descrita, é chamada função densidade de
probabilidade (f.d.p.) da v. a. contínua X.
30
25
20
15
10
0
148 152 156 160 164 168 172
Figura 7.1
80
70
60
50
40
30
20
10
0
148 152 156 160 164 168 172
Figura 7.2
Introdução à Probabilidade e Estatística - IPE 69
Prof. André Policani
80
70
60
50
40
30
20
10
0
148 152 156 160 164 168 172
Figura 7.3
a) f(X) ≥ 0, ∀X
∞
b) a área total sob f(X) é 1, ou seja:
−∞
∫ f(x) dx = 1
b
∫ f(x) dx = 0
a
P (X > b) = 1 – F(b)
a Figura 7.4 b
Introdução à Probabilidade e Estatística - IPE 70
Prof. André Policani
4
Solução: se f(X) é uma f.d.p., deve atender a condição: I =∫
3
56
( )
5 x − x 2 dx = 1
0
Resolvendo:
4
3 ⎡5 x2 x3 ⎤
I= ⎢ − ⎥ =1
56 ⎣ 2 3 ⎦0
Neste caso, também f(X) ≥ 0 para todo X em [0, 4]. Logo, f(X) é uma f.d.p.
⎧kx, se x ∈ (0,1)
f(X) = ⎨ , Calcule o valor da constante k para que f(X) seja uma f.d.p.
⎩ 0, se x ∉ (0,1)
Solução: para que f(X) seja uma f.d.p. existem duas condições
1
1 ⎡ kx 2 ⎤
⇒ ⎢ ⇒k=2
∫
Então: kxdx = 1
0 ⎣ 2 ⎦0
⎥ =1
⎧2 x, se x ∈ (0,1)
Assim: f(X) = ⎨
⎩ 0, se x ∉ (0,1)
Para uma variável aleatória contínua X, com função de densidade f(X), define-se o valor
Esperado como:
∞
E(X) = µ x = ∫ x . f(x) dx
−∞
[ ]
∞
Var(X) = S = E (X− µ ) = ∫ (x − µ ) . f(x) dx
2 2 2
x
−∞
Introdução à Probabilidade e Estatística - IPE 71
Prof. André Policani
⎧1
f(X) = ⎪⎨ 2 x, se 0 < x < 2
⎪⎩0, caso contrário
∞ 2
1 ⎡ x3 ⎤
2
4
E(x) = ∫ x . f(x) dx = ∫ x . ⋅ xdx = ⎢ ⎥ =
−∞ 0
2 ⎣ 6 ⎦0 3
∞ 2 2
⎛ 4⎞ 1
2
⎡x4 4 4 ⎤ 2
σ = ∫ (x − µ ) . f(x) dx = ∫ ⎜ x − ⎟ . ⋅ xdx = ⎢ − ⋅ x 3 + ⋅ x 2 ⎥ =
2 2
−∞ 0⎝
3⎠ 2 ⎣8 9 9 ⎦0 9
7.3.1 PROPRIEDADES
∞ ∞
a) se X = k (constante) ⇒ E(k) = ∫ k . f(x) dx = k ∫ . f(x) dx = k
−∞ −∞
∞
b) E[g(X)] =
−∞
∫ g(x). f(x) dx
c) σ x = E(x
2 2
) − [E(x) ]2
d) σ kx = k ⋅ σ x
2 2 2
e) σ
2
k±x =σ 2
x
De modo geral, as v.a. cujos valores resultam de algum processo de mensuração são v.a.
contínuas. Por exemplo, temos:
Em geral, a construção de uma f.d.p. é uma tarefa difícil e tediosa e frequentemente depende
da natureza do problema. Entretanto, existem modelos que são muito utilizados para
representar a f.d.p. de v.a. contínuas, ajustando-se a grande parte dos experimentos aleatórios.
Neste trabalho serão apresentados os seguintes modelos
• Uniforme • Student
• Exponencial • Qui-quadrado
• Normal • Weibull
Introdução à Probabilidade e Estatística - IPE 72
Prof. André Policani
A v.a. X tem distribuição uniforme no intervalo [a, b] se sua f.d.p. é dada por:
⎧ 1
f(X; a, b) = ⎪⎨ b − a , se a ≤ x ≤ b
⎪⎩ 0, caso contrário
f(X)
1/(b-a)
a 0 b x
Figura 7.5
1 1
⋅ (a + b ) ⋅ (b − a )
2
E(X) = Var (X) =
2 12
⎧0, se x < a
x
⎪ x− a
F(xi ) = P(X ≤ xi ) = ∫ f(x) dx = ⎨ , se a ≤ x < b , cujo gráfico é:
−∞ ⎪ b − a
⎩1, se x ≥ b
F(X)
a 0 b x
Figura 7.6
b b b
1 ⎡ x ⎤ b− a
a) ∫ f(x) dx = ∫ dx = ⎢ ⎥ = =1
a a
b− a ⎣ b− a ⎦ a b− a
1
b) como b > a, f(X) = > 0, para todo a ≤ X < b.
b− a
Introdução à Probabilidade e Estatística - IPE 73
Prof. André Policani
Solução: seja T uma variável aleatória contínua que representa o tempo de espera e assuma
que o tempo é uniformemente distribuído no intervalo 0 ≤ T ≤ 40 (já que a cada 40 minutos sai
um trem, o tempo de espera máximo é 40 min). Deseja-se calcular P(T ≥ 10). Então:
⎧ 1
f(T) = ⎪⎨ 40 − 0 , se 0 ≤ t ≤ 40
⎪⎩ 0, caso contrário
40 40 40
1 ⎡ t ⎤ 40 − 10 3
P(T ≥ 10) = ∫ f(t) dt = ∫
10 10
40
dt = ⎢ ⎥ =
⎣ 40 ⎦ 10 40
=
4
Uma v.a. contínua T tem distribuição exponencial com parâmetro λ> 0 se sua f.d.p tem a forma:
⎧λ ⋅ e − λt , se t ≥ 0
f(t) = ⎨ , onde λ representa a taxa de acontecimentos sucessivos
⎩0, se t < 0
⎧1 - e − λt , se t ≥ 0
F(t) = ⎨
⎩0, se t < 0
f(t) F(t)
λ 1
0 t 0 t
Figura 7.7
1 1
E(T) = Var (T) =
λ λ2
∞ λ
• P (T > t0) = ∫ λ ⋅ e dt = e 0
−λt −λt
e − λt 0
t0
0 t0 t
f(t)
t0 λ 1 − e −λ t 0
• ∫
P (T ≤ t0) = λ ⋅ e −λt
dt = 1 − e −λt 0
0 t0 t
Exemplo: Aviões chegam a um aeroporto segundo uma f.d.p. exponencial, com 15 chegadas
por hora. Determine a probabilidade de chegada no período de 6 minutos.
Solução: Seja T uma v.a. que representa o tempo entre chegadas. Deseja-se saber qual a
probabilidade de t ≤ 0,1 (6 minutos = 0,1hora). Então:
t0 0,1
P (T ≤ t0) = ∫ λ ⋅ e dt = 1 − e 0 ∴ P (T ≤ 0,1) = ∫ 15 ⋅ e
−λ t −λ t −15 t
dt = 1 − e −15×0,1 = 1 - 0,2231 = 0,7769
0 0
Exemplo: Uma fábrica produz lâmpadas com uma duração de vida que pode ser considerada
com uma distribuição exponencial com média 200 horas. Determine:
Solução: seja t a vida (em horas) de uma lâmpada. Neste caso, a vida média µ = β = 200.
1 1
Então: λ = = (1/200 queimas por hora)
β 200
f(t)
t0
∫λ ⋅ e dt = 1 − e −λ t 0
−λ t
a) P (T < t0) =
0
λ 1 − e −λ t 0
20 1 1
1 − t − ×20
P(T< 20)= ∫
200 0
e 200 dt = 1 − e 200 = 1 - 0,9048 = 0,0952
0 20 t
Introdução à Probabilidade e Estatística - IPE 75
Prof. André Policani
b) P (100 < t0 < 120) = área até 120 – a área até 100
f(t)
1
− ×100
P(T< 100)= 1 − e 200
= 1 – e-0,5 λ
1
− ×120
P(T < 120)= 1 − e 200
= 1 – e-0,6
0 t1 t2 t
P (100 < t0 < 120) = 1 – e-0,6 –(1 – e-0,5) = 0,6065 – 0,5488 = 0,0577
− λt 1
Ou seja, na distribuição exponencial: P (t1 < t < t2) = e − e − λt 2
1
− ×100
c) P (T > 100) = e 200
= e −0,5 = 0,6065 P(100 < t0 < 120)= 0,6065 – 0,5488 = 0,0577
Diz-se que a variável aleatória X tem distribuição normal com parâmetros µ (média) e σ
(desvio-padrão), cuja notação é X ∼ N (µ, σ), se sua função densidade é dada por:
1
⋅ e − (x −µ )
2
2σ 2
f(x; µ, σ) = , −∞ < X <∞
σ 2π
Graficamente temos:
f(X)
µ - 3σ µ - 2σ µ - σ µ µ+σ µ + 2σ µ + 3σ x
Figura 7.8
Introdução à Probabilidade e Estatística - IPE 76
Prof. André Policani
• E(X) = µ Var(X) = σ2
• A curva é simétrica em relação a µ
• A variância σ2 determina a forma da curva; um valor maior da variância significa maior
dispersão da curva. A figura 7.4 ilustra esta propriedade.
µ x
Figura 7.9
b b
1
P[a < X < b] = ∫ f(x) dx = ∫σ ⋅ e − (x −µ )
2
2σ 2
dx
a a 2π
Esta integral não pode ser calculada analiticamente, e portanto a probabilidade indicada
somente poderá ser obtida, aproximadamente, por meio de integração numérica. A
determinação desta probabilidade é facilitada pela utilização da distribuição normal padrão.
f(X)
0 a b x
Figura 7.10
Introdução à Probabilidade e Estatística - IPE 77
Prof. André Policani
1 −z2
f(Z) = ⋅e 2
2π
Se X é uma v.a. com média µ e desvio padrão σ, pode-se definir uma variável aleatória
padronizada, associada à variável X, que é dada por:
X− µ
Z=
σ
A v.a. Z possui média zero e variância 1, ou seja: E(Z) = 0 e Var (Z) = 1. Além disso, Z é uma
quantidade adimensional, isto é, não tem escala de medida, embora X possua.
f(x) f(z)
0 µ - 3σ µ - 2σ µ - σ µ µ +σ µ + 2σ µ + 3σ x -3 -2 -1 0 1 2 3 z
Figura 7.11
A grande vantagem da curva normal padronizada é que qualquer distribuição normal pode ser
padronizada através da transformação dos valores de X em Z, desde que se conheçam os
parâmetros µ e σ.
Mediante a transformação dos valores de X para Z e como as áreas sob a curva normal
padronizada estão tabeladas, é possível determinar as probabilidades da v.a. X, com
distribuição N(µ, σ), estar situada entre dois valores quaisquer.
a) z = 0 e z= 1,2
b) z = - ,68 e z= 0
P[-0,68 ≤ z ≤ 0] = 0,2517(simetria)
-0,68 0 z
Introdução à Probabilidade e Estatística - IPE 78
Prof. André Policani
c) z = -0,46 e z= 2,21
P[-0,46 ≤ z ≤ 0] = 0,1772
P[0 ≤ z ≤ 2,21] = 0,4864
P[-0,46 ≤ z ≤ 2,21] = 0,4864 + 0,1772 = 0,6636 -0,46 0 2,21 z
d) z = 0,81 e z= 1,94
e) à direita de z = -1,28
P[-1,28 ≤ z ≤ 0] = 0,3997
P[0 ≤ z ≤ ∞] = 0,5000
P[z > -1,28] = 0,3997 + 0,5000 = 0,8997
-1,28 0 z
Exemplo: A distribuição dos diâmetros de uma peça segue uma distribuição normal com
µ = 100 mm e σ = 0,3 mm. Determine:
Graficamente, temos:
f(x) f(z)
Aceitação Aceitação
b)
f(x) Para a área de 0,4 ⇒ z = 1,28
0,40
0,10
x − 100
1,28 = = ∴ x = 100,4 mm
0,3
0 x
f(x) f(z)
0,4987 0,4987 0,4987 0,4987
Conforme visto anteriormente (seção 6.10.3), a distribuição binomial b(n, p) expressa o número
de sucessos X em n ensaios independentes de um experimento que tem probabilidade de
sucesso p e probabilidade de fracasso q em cada ensaio (p + q =1).
Se X é uma v.a. com distribuição binomial b (n, p), a média, a variância e o desvio padrão são
dados respectivamente por:
A aproximação Normal é usada quando n é grande e p não muito próximo de 0 ou1. Isto
permite tratar a binomial b (n, p) como se fosse uma normal N (np, n⋅ p⋅ (1 − p) ).
Neste caso, para calcular a probabilidade de X assumir valores inteiros no intervalo [a, b]
procede-se como se estivéssemos calculando a probabilidade da normal neste intervalo, isto é:
b
⎛n⎞
Seja P(a ≤ X ≤ b) = ∑ ⎜⎜ k ⎟⎟ ⋅ p k
⋅ (1 − p) n −k . Então:
k =a ⎝ ⎠
X − np X− µ
a) padroniza-se a variável, utilizando: Z = =
np(1 − p) σ
⎡ a− np b− np ⎤
b) calcula-se na tabela da normal: P(a ≤ X ≤ b) ≈ P ⎢ ≤Z≤ ⎥
⎣⎢ np(1 − p) np(1 − p) ⎦⎥
Introdução à Probabilidade e Estatística - IPE 80
Prof. André Policani
A figura abaixo mostra que P[X = 7] é igual à área do retângulo de base unitária e altura igual a
P[X = 7], similarmente para P[X = 8], etc. Logo, P[X ≥ 7] é igual à soma das áreas dos
retângulos hachurados. O objetivo é aproximar tal área pela área sob a curva normal N (np,
np(1 − p) ), à direita de 6,5.
0 1 2 3 4 5 6 7 8 9 10
Figura 7.12
1 1 1
Então: E(X) = µ = np = 10 × =5 σ2 = npq = 10 × × = 2,5 σ= 2,5
2 2 2
⎡ 6,5 − 5 ⎤
P [X ≥ 7] ≈ P [X ≥ 6,5] = P ⎢z ≥ ⎥ = P[z ≥ 0,94 ] = 0,1736
⎢⎣ 2,5 ⎥⎦
0 1 2 3 4 5 6 7 8 9 10
Figura 7.13
⎡ 3,5 − 5 6,5 − 5 ⎤
Então: P(3 < X ≤ 6) ≈ P(3,5 <X ≤ 6,5) = P ⎢ ≤Z≤ = P[− 0,94 ≤ Z ≤ 0,94] = 0,6528
⎣ 1,58 1,58 ⎥⎦
Dado que estamos aproximando uma distribuição discreta por uma distribuição contínua, este
ajuste é denominado correção por continuidade. Em geral, se X é uma v.a. de distribuição
b(n, p), com n grande e p afastado de 0 ou 1:
X − np X− µ
Z= =
np(1 − p) σ
⎡ a− 0,5 − np b+ 0,5 − np ⎤
P(a ≤ X ≤ b) ≈ P ⎢ ≤z≤ ⎥
⎢⎣ np(1 − p) np(1 − p) ⎥⎦
Além do modelo normal, existem outros modelos que têm grande aplicação prática. As
variáveis aleatórias destes modelos na maioria dos casos assumem valores positivos e tendem
a ter distribuições assimétricas à direita.
Uma v.a. contínua Y, com valores positivos, tem uma distribuição Qui-quadrado com r graus de
liberdade (denotada por χ 2 (r) ), se sua função densidade é dada por:
⎧ 1
r
−1
⎪ ⋅ y 2
⋅ e − y/ 2 , y > 0
f(y; r) = ⎨Γ(r/ 2)2 r/ 2
⎪0, y<0
⎩
Assim como no caso da distribuição normal, existem tabelas para obter probabilidades. Em
geral, estas tabelas fornecem valores de Y0, tal que P(y > y 0 ) = p , para alguns valores de p e
de r. Vide figura 7.14.
f(y)
y0 y
Figura 7.14
z = 2 y − 2 r − 1 ~ N(0,1)
Introdução à Probabilidade e Estatística - IPE 82
Prof. André Policani
Uma variável aleatória T é dita ter uma distribuição t de Student com r graus de liberdade se
sua função densidade é dada por:
− (r +1) / 2
1 Γ((r + 1) / 2) ⎛ t 2 ⎞
fr (t) = ⎜1 + ⎟⎟ , para todo X real.
r π Γ(r/ 2) ⎜⎝ r ⎠
N(0, 1)
Figura 7.15
Propriedades:
fr(t) α
0
tα t
Figura 7.16
Introdução à Probabilidade e Estatística - IPE 83
Prof. André Policani
Um modelo que tem muitas aplicações na teoria da Confiabilidade é o modelo de Weibull, cuja
f.d.p é dada por:
⎧βx β −1e − βx , x ≥ 0
f(x) = ⎨
⎩0, x<0
onde β é uma constante positiva. A variável aleatória X pode representar, por exemplo, o tempo
de vida de um componente de um sistema. Observa-se também que se β = 1, a f.d.p.
resultante é a da distribuição exponencial.
Sejam X e Y duas variáveis aleatórias contínuas. Nesse casso, a distribuição conjunta das
duas variáveis é caracterizada por uma função f(X, Y), chamada de função de densidade de
probabilidade conjunta de X e Y, satisfazendo:
b) ∫ ∫ f(x, y) dxdy = 1;
−∞−∞
b d
c) P(a ≤ X ≤ b, c ≤ Y ≤ d) = ∫ ∫ f(x, y) dxdy
a c
Dada a v.a. bidimensional z = (X, Y), com função densidade de probabilidade conjunta f (X,Y),
define-se as densidades marginais de X e Y respectivamente por:
∞ ∞
fx (X) = ∫ f(x, y) dy
−∞
fy (Y) = ∫ f(x, y) dx
−∞
Obs:
Nesta seção busca-se obter a distribuição condicional de uma variável, dado que a outra
variável assume um valor particular. Então:
f(X, Y)
fx y ( X Y ) = , fy (Y) > 0
fy (Y)
f(X, Y)
fy x ( Y X ) = , fx (X) > 0
fx (X)
7.8 EXERCÍCIOS
Solução:
∞ ∞ 1 1
1 1 1
⎡ x2 ⎤ ⎡ y2 ⎤
1
a) ∫ ∫ f(x, y) dxdy = ∫ ∫ 4 xydxdy = 4 ∫ xdx ∫ ydy = 4 ⎢ ⎥ ⎢ ⎥ = 1
−∞−∞ 0 0 0 0 ⎣ 2 ⎦0 ⎣ 2 ⎦0
1/ 2 1/ 2
1/ 2 1/ 2
⎡ x2 ⎤ ⎡ y2 ⎤
b) P (X ≤ ½, Y ≤ ½) = P (0 ≤ X ≤ ½, 0 ≤ Y ≤ ½) = ∫ ∫
0 0
4 xydxdy = 4 ⎢ ⎥ ⎢ ⎥ = 1/ 16
⎣ 2 ⎦0 ⎣ 2 ⎦0
∞ 1 1
1
⎡y2 ⎤ 1
⎡ x2 ⎤
c) fx (X) = ∫ f(x, y) dy = ∫ 4 xydy = 4 x ⎢ ⎥ = 2 x fy (Y) = ∫ 4 xydx = 4 y ⎢ ⎥ = 2 y
−∞ 0 ⎣ 2 ⎦0 0 ⎣ 2 ⎦0
d) A condição de independência é tal que: f(X, Y) = fx(X) fy(Y), para todo par (X, Y). Ou seja: o
produto das densidades marginais é igual à densidade conjunta para todo par (X, Y) do
domínio.
7.8.2 Seja f(X, Y) = X + Y, 0 < X < 1, 0 < Y < 1. Calcule o coeficiente de correlação entre X e Y.
Solução:
• Distribuições marginais:
1 1
fx (X) = ∫ (x + y) dy = x + 1 / 2 , 0 < X < 1 fy (Y) = ∫ (x + y) dx = y + 1 / 2 , 0 < Y <1
0 0
1 1
• Médias: E(X) = ∫ x(x + 1 / 2) dx = 7 / 12 ∫
E(Y) = y(y + 1 / 2) dy = 7 / 12
0 0
1 1
∫ x (x + 1 / 2) dx = 5 / 12 ∫ y (y + 1 / 2) dy = 5 / 12
2 2
E(X2) = E(Y2) =
0 0
11
• Desvios-padrão: σ (X) = σ (Y) =
12
1 1
• E(XY) = ∫ ∫ xy(x+ y) dxdy = 1 / 3
0 0
Cov(X, Y) − 1 / 144
• Coeficiente de correlação: ρ(X, Y) = = = −1 / 11
σ(X) σ(Y) ( 11 / 12)( 11 / 12)
7.8.3 Dado que a densidade de (X, Y) é f (X, Y) = 6 (1 – X – Y), 0, < X < 1-Y, 0 < Y < 1 – X,
determine as densidades marginais e densidades condicionais.
• Densidades marginais:
∞ 1− x
fx (X) = ∫ f(x, y) dy = ∫ 6(1 − x − y) dy = 3(x − 1) , 0 < x <1
2
−∞ 0
∞ 1− y
−∞ 0
• densidades condicionais:
f(X, Y) 6(1 − x − y) 2(1 − x − y)
fx y ( X Y ) = = =
fy (Y) 3(y − 1)2 (y − 1)2
8.1 INTRODUÇÃO
Nos capítulos 6 e 7 foram apresentados alguns modelos probabilísticos que procuram medir a
variabilidade de fenômenos aleatórios (casuais) de acordo com suas ocorrências: as
distribuições de probabilidade de variáveis aleatórias discretas e as funções de densidade de
probabilidade (f.d.p.) de variáveis aleatórias contínuas. Entretanto, frequentemente o
pesquisador tem alguma idéia sobre a forma da distribuição, mas não dos valores exatos dos
parâmetros que a especificam.
Entretanto, parece ser razoável supor que a distribuição das alturas dos brasileiros adultos
possa ser representada pelo modelo normal. Entretanto, esta afirmação não é suficiente para
determinar qual a distribuição normal correspondente: seria preciso conhecer os parâmetros
média (µ) e desvio padrão (σ) para caracterizar adequadamente esta normal. O Objetivo do
pesquisador é, então, determinar (estimar) os parâmetros para sua posterior utilização.
Se fosse possível medir as alturas de todos os brasileiros adultos, teríamos meios de obter a
sua distribuição exata e, daí, produzir os respectivos parâmetros. Mas, neste caso não seria
necessária a Inferência Estatística!!!
Então, a Estatística Inferencial busca selecionar parte dos elementos (amostra) de um todo
(população), analisá-la e inferir propriedades para a população. Conforme visto no Capítulo 1:
Exemplo 2: Seja uma pesquisa para estudar os salários dos 500 funcionários de uma
empresa. Seleciona-se uma amostra de 36 indivíduos, e registram-se os seus salários. Neste
caso:
Pode-se estudar a distribuição dos salários na amostra, e esperar que esta reflita a distribuição
de todos os salários da empresa, desde que esta tenha sido estabelecida com cuidado.
Exemplo 3: Em alguns casos, suposições mais precisas sobre a população (ou sobre a
variável definida para os elementos da população) podem ser feitas. Suponha que x represente
o peso real de pacotes de café, enchidos automaticamente. Sabe-se que a distribuição de x
pode ser representada por uma normal (µ, σ) desconhecida. Sorteia-se 100 pacotes e mede-se
os seus pesos. Neste caso:
8.2 AMOSTRAGEM
A forma mais adequada de se obter uma amostra é tão importante, e existem tantos modos de
fazê-lo que estes procedimentos constituem uma especialidade dentro da Estatística,
denominada Amostragem.
A Amostragem pode ser definida como o conjunto de técnicas e procedimentos utilizados para
se obter uma amostra. Estes procedimentos podem ser subdivididos em dois subgrupos:
Se a existência destes estratos não for considerada, a amostragem pode ser influenciada
pela característica da variável nos estratos mais favorecidos no sorteio. Então, a
amostragem estratificada consiste em especificar quantos elementos da amostra serão
retirados em cada estrato.
- a população é formada por material contínuo: neste caso é impossível realizar uma
amostragem probabilística, devido à impraticabilidade de uma escolha rigorosa. Se a
população for líquida ou gasosa, o que costuma-se fazer (com resultados satisfatórios) é
homogeneizá-la e retirar uma amostra a esmo.
Uma amostra casual simples de tamanho n de uma variável aleatória x, com uma dada
distribuição, é o conjunto de n variáveis aleatórias independentes x1, x2, ..., xn, cada qual com a
mesma distribuição de x. Ou seja: a amostra será a n-tupla ordenada (x1, x2, ..., xn), onde xi
indica a observação do i-ésimo elemento sorteado. Todos os elementos da população têm
igual probabilidade de serem selecionados.
Exemplo 4: Numa urna têm-se cinco tiras de papel numeradas: 1, 3, 5, 5, 7. Uma tira é
sorteada e recolocada na urna; então, uma segunda tira é sorteada. Sejam x1 e x2 o primeiro e
o segundo números sorteados. Seja a variável x o valor assumido pelo elemento na população.
Introdução à Probabilidade e Estatística - IPE 89
Prof. André Policani
xk 1 3 5 7
P(x = xk) 1/5 1/5 2/5 1/5
Tabela 8.1
Então, a distribuição conjunta das probabilidades das possíveis amostras de tamanho 2 que
podem ser selecionadas com reposição da população {1, 3, 5, 5, 7} é dada pela tabela 8.3:
xi 1 3 5 7 P (x2 = xj)
xj
1 1/25 1/25 2/25 1/25 1/5
3 1/25 1/25 2/25 1/25 1/5
5 2/25 2/25 4/25 2/25 2/5
7 1/25 1/25 2/25 1/25 1/5
P (x1 = xi) 1/5 1/5 2/5 1/5 1
Tabela 8.2
Obtida uma amostra, muitas vezes é desejável usá-la para produzir alguma característica
específica. Por exemplo, se desejarmos calcular a média da amostra (x1, x2, ..., xn), esta será:
1
x= ⋅ (x1 + x 2 + L + x n )
n
É possível provar que x também é uma variável aleatória. Qualquer outra característica da
amostra, que seja de interesse, também será uma função do vetor aleatório (x1, x2, ..., xn).
8.4.1 ESTATÍSTICA: é uma característica da amostra, ou seja, uma estatística T é uma função
de (x1, x2, ..., xn): T = f (x1, x2, ..., xn). A tabela 8.1 apresenta as estatísticas mais comuns:
n
∑xf i i
Média da amostra x= i =1
∑ (x − )
n 2
i x
Variância da amostra S2 = i=1
n− 1
∑ (x − )
n 2
i x
Desvio Padrão da amostra S = i=1
n− 1
Menor valor da amostra xmín ou x(1) = min (x1, x2, ..., xn)
Maior valor da amostra xmáx ou x(n) = max (x1, x2, ..., xn)
Amplitude da amostra AA = xmáx - xmín ou W = x(n) – x(1)
Tabela 8.3
Introdução à Probabilidade e Estatística - IPE 90
Prof. André Policani
8.4.2 PARÂMETRO: é uma medida para descrever uma característica da população. Assim, na
coleta de amostras de uma população, identificada pela variável aleatória x, seriam parâmetros
a média E(x) e sua variância Var(x).
Amostra População
Figura 8. 1
Esta análise seria mais precisa e melhor compreendida se fosse possível determinar o
comportamento da estatística T, quando todas as amostras são retiradas de uma população
(segundo um procedimento de amostragem) – isto é, a distribuição de T quando (x1, ..., xn)
assume todos os valores possíveis. Essa distribuição é chamada distribuição amostral da
estatística T. Este procedimento consiste basicamente das seguintes etapas, que estão
ilustradas na figura 8.2 onde temos:
Figura 8.2
Introdução à Probabilidade e Estatística - IPE 91
Prof. André Policani
Seja x uma variável aleatória com média µ e desvio padrão σ, e seja (x1, x2, ..., xn) uma amostra
casual simples de x. Então:
1 1 1 nµ
E(x) = ⋅ E(x 1 + L + x n ) = [E(x 1 ) + L + E(x n )] = [µ + µ + L + µ] = =µ
n n n n
σ 2x =
1
⋅ σ 2
(x 1 + L + x n ) =[ 1 2
σ x1 + L + σ 2
xn ]
= [
1 2
σ + L + ]
σ 2
=
nσ 2 σ 2
=
n2 n2 n2 n2 n
Ou seja: a média produz uma estatística que é menos variável e na medida que o tamanho da
amostra cresce, a distribuição amostral da média x aproxima-se de uma distribuição normal,
com média µ e desvio padrão σ/ n . Esse resultado, fundamental na teoria da Inferência
Estatística, é conhecido como Teorema Limite Central. A demonstração completa deste
teorema foge ao escopo deste trabalho. Entretanto, podemos enunciá-lo da seguinte forma:
Se (x1, x2, ..., xn) for uma amostra casual simples de uma população x, com média µ e desvio
padrão σ, a distribuição da média amostral x quando n é grande se aproxima de uma
distribuição normal ou seja:
x− µ
z= ~ N(0,1)
σ/ n
x1 + x 2
x=
2
Essa distribuição é obtida através da tabela 8.2 da seguinte forma: se a amostra selecionada é
o par (1, 1), a média será 1; então, tem-se que P( x = 1) = 1/25. A média será 3 quando ocorrer
2 1 2 1
o evento A = {(1, 5), (3, 3), (5, 1)}. Logo: P ( x = 3) = + + = . Procedendo-se de
25 25 25 5
maneira análoga para os demais valores que x pode assumir, obtém-se a tabela 8.3:
Introdução à Probabilidade e Estatística - IPE 92
Prof. André Policani
x 1 2 3 4 5 6 7 Total
P ( x = xi ) 1/25 2/25 5/25 6/25 6/25 4/25 1/25 1,00
Tabela 8.3
1 2 5 6 6 4 1
Neste caso: E( x ) = ∑xp
i
i i = 1×
25
+ 2×
25
+3×
25
+ 4×
25
+5×
25
+ 6×
25
+7×
25
= 4,2
⎡ 1 2 5 6 6 4 1⎤
+ 49 × ⎥ − [4,2] = 2,08
2
Var(x) = E(x 2 ) − [E(x)] 2 = ⎢1× + 4× + 9× + 16 × + 25 × + 36 ×
⎣ 25 25 25 25 25 25 25 ⎦
E( x ) 2/5
n=1
1/5 1/5 1/5
1 3 5 7 x
E( x )
6/25 6/25
1/5
4/25
n=2
2/25
1/25 1/25
1 2 3 4 5 6 7 x
E( x )
n=3
1 3 5 7 x
Introdução à Probabilidade e Estatística - IPE 93
Prof. André Policani
1 1 4 1 7
• W = 0 para os pares (1, 1), (3, 3), (5, 5), (7, 7), e P (W = 0) = + + + =
25 25 25 25 25
• W = 2: (1, 3), (3, 5), (5, 7), (7, 5), (5, 3), (3, 1), e P(W = 2)= 1 + 2 + 2 + 1 + 2 + 2 = 10
25 25 25 25 25 25 25
Analogamente obtém-se os demais valores para esta distribuição (vide tabela 8.5):
wk 0 2 4 6
P(w = wk) 7/25 10/25 6/25 2/25
Tabela 8.5
∑ (x )
n 2
i −x
b) distribuição amostral da variância s2, onde s2 = i=1
n− 1
• s2 = 0, se (1, 1), (3, 3), (5, 5), (7, 7), então P(s2 = 0) = 7/25
• s2 = 2, se (1, 3), (3, 1), (3, 5), (5, 3), (3, 7), (7, 3), então P(s2 = 2) = 10/25
• s2 = 8, se (1, 5), (5, 1), (3, 7), (7, 3), então P(s2 = 8) = 6/25
• s2 = 18, se (1, 7), (7, 1), então P(s2 = 18) = 2/25
s k2 0 2 8 18
Exemplo 7: Uma máquina enche pacotes cujo peso obedece uma distribuição N(500, 10).
Coleta-se uma amostra de 100 pacotes, pesando-os em seguida. A máquina é considerada
regulada quando o peso médio dos pacotes variam em menos de 2 gramas. Qual a
probabilidade da máquina estar regulada?
A probabilidade da máquina estar regulada é dada por (utilizando o teorema do Limite Central):
P( x − 500 < 2) = P(498 < x < 502) = P( −2 < z < 2) = 0,9544 ≈ 95,4%
P[-2,0< z < 0] = P[0 < z < 2,0] = 0,4772 então P[-2,0 < z < 2,0] = 0,9544
Introdução à Probabilidade e Estatística - IPE 94
Prof. André Policani
Retirada uma amostra casual simples (com reposição) dessa população, e indicando por yn o
número total de indivíduos portadores da característica na amostra, tem-se que:
yn ~ b(n, p)
yn
Define-se por pˆ a proporção de indivíduos portadores da característica na amostra: p̂ =
n
Então: P(yn = k) = P (yn/n = k/n) = P( p̂ =k/n) – a distribuição amostral de pˆ é obtida da
distribuição de yn.
Apresentamos no capítulo 7 que a distribuição binomial pode ser aproximada pela distribuição
normal (quando n é grande e p não muito próximo de 0 ou1). A justificativa deste fato
fundamenta-se no teorema do Limite Central:
Seja yn = x1 + x2 + ...+ xn, onde cada xi tem distribuição de Bernoulli, com média µ = p e desvio-
padrão σ = p(1− p) , e são duas a duas independentes. Assim, temos que:
yn = n x
Pelo teorema do Limite Central, x terá distribuição aproximadamente normal, com média µ = p
p(1 − p)
e desvio padrão σ = , ou seja,
n
⎛ p(1 − p) ⎞⎟
x ~ N⎜⎜ p, ⎟
⎝ n ⎠
Observe que x na expressão acima é a própria variável pˆ . Desta forma, para n grande, pode-
se considerar a distribuição amostral de p como aproximadamente normal:
⎛ p(1 − p) ⎞⎟
p̂ ~ N⎜⎜ p, ⎟
⎝ n ⎠
Exemplo 8: suponha que 30% dos estudantes de uma escola seja mulheres. Coleta-se uma
amostra casual simples de n = 10 estudantes e determina-se a proporção de mulheres na
amostra. Qual a probabilidade de que a proporção da amostra difira da proporção da
população em menos de 0,01?
Solução:
⎛ ⎞
⎜ ⎟
A probabilidade desejada é: P⎜ − 0,01 0,01 ⎟ = P( −0,07 < z < 0,07) = 0,056
<z<
⎜ 0,3(1 − 0,3) 0,3(1 − 0,3) ⎟
⎜ ⎟
⎝ 10 10 ⎠
P(x > 105) = P(z > 0,5) = 0,5000 – P(0 < z < 0,5) = 0, 5000 – 0,1915 = 0,3085
x − µ 105 − 100
z= = = 0,5
σ 10
0,1915
9.1 INTRODUÇÃO
• Estimação pontual: procura fixar um único valor numérico que esteja satisfatoriamente
próximo do verdadeiro valor do parâmetro.
• Estimação por intervalos: procura determinar intervalos com limites aleatórios, que
contenham o valor do parâmetro populacional, com uma margem de confiança prefixada.
Seja uma amostra (x1, x2, ..., xn) de uma variável aleatória que descreve uma característica de
interesse de uma população. Seja θ um parâmetro que deseja-se estimar (por exemplo, a
média µ = E(x), a variância σ2 = Var(x), etc.). Apresentam-se as seguintes definições:
Logo, o problema da estimação é determinar uma função T = g(x1, x2, ..., xn) que seja próxima
de θ, segundo algum critério. O primeiro critério a ser abordado é dado a seguir.
x 1 + x 2 + ... + x n
E(x) =
[E(x1 ) + E(x 2 ) + .... + E(x n )] = n µ = µ
x= e
n n n
N i =1 N i=1
baseado numa amostragem aleatória simples de n elementos, extraída desta população é dada
n
por σ̂ 2 = 1 ∑ (x i − x ) 2 . Mostre que este estimador é viesado.
n i=1
Introdução à Probabilidade e Estatística - IPE 97
Prof. André Policani
∑ (x i − x ) =∑ (x i − µ+ µ− x ) =∑ (x i − µ) − 2∑ (x i − µ)(x − µ) + ∑ (x − µ)
2 2 2 2
i=1 i =1 i =1 i =1 i=1
n n n
Como x− µ é uma constante, e ∑ (x i − µ) = n(x − µ) , temos que: ∑ (x i − x ) = ∑ (x i − µ) − n(x − µ)2
2 2
Segue que: E(σ̂ 2 ) = 1 ⎡⎢∑ E(x i − µ)2 − nE(x − µ)2 ⎤⎥ = 1 ⎡⎢∑ Var(x i ) − nVar(x)⎤⎥ = 1 ⎡⎢nσ 2 − n σ ⎤⎥ = n− 1 σ 2 ,
n n 2
n ⎣ i=1 ⎦ n ⎣ i=1 ⎦ n⎣ n ⎦ n
σ2
já que: E(x i − µ) 2 = Var(x i ) = σ 2 E(x − µ) 2 = Var(x) =
n
σ2
V( σ̂ 2 ) = E( σ̂ 2 ) - σ2 = −
n
Definindo S 2 = 1
n
∑ (x − x)
i
2 , então S2 é um estimador não viesado para σ2, pois E(S2) = σ2.
n− 1 i =1
9.2.5 ERRO AMOSTRAL: Define-se por e = T - θ, o erro amostral que é cometido ao estimar-
se o parâmetro θ da distribuição da variável aleatória x pelo estimador T = g(x1, x2, ..., xn),
baseado na amostra (x1, x2, ..., xn).
9.2.6 ERRO QUADRÁTICO MÉDIO (EQM): chama-se o erro quadrático médio do estimador T
ao valor:
EQM(T; θ) = E(e2) = E(T - θ)2, donde:
Entretanto, existem métodos para obter estimadores, como por exemplo: o método dos
momentos, o método da máxima verossimilhança e o método dos quadrados mínimos. Neste
trabalho abordaremos apenas o método dos quadrados mínimos.
Um dos procedimentos mais usados para obter estimadores é aquele que se baseia no
princípio dos mínimos quadrados, introduzido por Gauss em 1794. Apresentaremos este
procedimento através de um exemplo:
x y 3x y - 3x (y – 3x)2
1,2 3,9 3,6 0,3 0,09
1,5 4,7 4,5 0,2 0,04
1,7 5,6 5,1 0,5 0,25
2,0 5,8 6,0 -0,2 0,04
2,6 7,0 7,8 -0,8 0,64
Total 0 1,06
Tabela 9.1
∑
5 5
dS xiyi
= ∑ (y i − θ̂x i )( −2 x i ) = 0 , donde obtemos: θ̂ MQ = i =1
dθ ∑
5
i =1
i=1
x i2
Utilizando os dados do problema, obtemos θˆ MQ = 2,94 , que conduz a um valor mínimo para
S(θ)= 0,94. Note que este valor é realmente menor do que o observado para θˆ =3, isto é, 1,06.
Introdução à Probabilidade e Estatística - IPE 99
Prof. André Policani
Observações:
a) Conforme esperado, não existe uma relação perfeita entre as duas variáveis, já que o
diâmetro da fibra não é o único responsável pela resistência – outros fatores não controlados
afetam o resultado.
b) Deste modo, duas amostras com o mesmo diâmetro x não teriam obrigatoriamente que
apresentar o mesmo resultado y, mas valores em torno do valor esperado θ x. Supõe-se então
que, para um dado valor da variável explicativa x, os valores da variável resposta y seguem
uma distribuição de probabilidade f y (y) , centrada em θ x. Isso equivale a afirmar que, para
cada x, o desvio ε = y - θx segue uma distribuição centrada em zero. Assim, podemos escrever:
É comum supor que ε tem a mesma distribuição, para todo valor xi da variável explicativa x.
Deste modo, escreve-se:
y = θx + ε
c) como ilustração, poderíamos supor que ε ~ N(0, σ), para todo xi. Quanto menor for a
variância, melhor será a “previsão” de y como função de xi. Assim, parece razoável escolher θ
que torna mínima a soma dos quadrados dos erros:
5 5
∑ε i2 = ∑ (y i − θx i )
2
i =1 i =1
Este modelo pode ser generalizado, de modo a envolver outras funções do parâmetro θ,
resultando no modelo:
y = g(x ; θ) + ε
n n
deve-se procurar o valor de θ que minimize a função S(θ( = ∑ε i2 = ∑ (y i − g(x i ;θ) )2
i=1 i=1
S( α,β) = ∑ (y t − α − βt )
2
dS dS
= ∑ (y t − αˆ − βˆ t)( −2) = 0 e = ∑ (y t − αˆ − βˆ t)( −2 t) = 0
dα dβ
ˆ e βˆ satisfazem a:
Donde os estimadores α
∑y t = n αˆ + βˆ ∑ t e ∑ ty t = αˆ ∑ t + βˆ ∑ t 2
Exemplo 5: Os dados abaixo são estimados pelo modelo f(t) = α + βt. Determine os
estimadores de mínimos quadrados de α e β.
t 1 2 3 4 5 6
xt 1,5 1,8 1,6 2,5 4,0 3,8
yt 66,8 67,0 66,9 67,6 68,9 68,7
Solução:
n αˆ + βˆ ∑ x t = ∑ y t
αˆ ∑ x t + βˆ ∑ x 2t = ∑ x t y t
Tem-se para n = 6:
ŷ = 65,53 + 0,837 x
Basicamente, uma estimativa por intervalo para um parâmetro é um intervalo determinado por
dois valores, obtidos de observações da amostra, no qual se espera que o mesmo contenha o
valor do parâmetro.
A estimativa por intervalo geralmente é feita de forma que a probabilidade de qie o intervalo
contenha o parâmetro possa ser especificada e assim mostrar qual a precisão com que se está
estimando o parâmetro.
9.4.1 INTERVALO DE CONFIANÇA: seja uma amostra aleatória x1, x2, ..., xn de uma certa
[população com parâmetro de interesse θ (desconhecido), e sejam L e U estatísticas. Então,
um intervalo de confiança de nível 100(1 - α)% para o parâmetro θ é o intervalo [L, U] tal que:
Usualmente os valores típicos para (1 - α) são 0,90; 0,95; ou 0,99. Então, dado um nível de
confiança (1 - α), procuram-se estatísticas L e U tais que P(L < θ < U) = 1 - α.
Introdução à Probabilidade e Estatística - IPE 101
Prof. André Policani
Um estimador não viesado para µ é a média amostral x . Pelo TLC temos que:
x− µ
z= ~ N(0,1)
σ/ n
para determinar o intervalo de confiança deve-se consultar a tabela da normal reduzida e achar
o valor de z tal que:
P(-zc < z <zc) = 1 - α
Como a normal reduzida é simétrica em relação a µ (µ = 0), pode-se concluir que zc = zα/2. A
figura abaixo ilustra este fato.
f(z)
(1 - α)
α/2 α/2
- zα/2 0 zα/2
Reescrevendo as igualdades, temos que: P(-zc < z <zc) = P(-zα/2 < z < zα/2) = 1 - α
⎛ x− µ ⎞
E ainda: P⎜⎜ − z α / 2 < < z α / 2 ⎟⎟ = 1 - α
⎝ σ/ n ⎠
⎛ σ σ ⎞
Então temos que: P⎜⎜ x − z α / 2 < µ < x+ z α / 2 ⎟⎟ = 1 - α
⎝ n n ⎠
⎛ σ σ ⎞
Finalmente: [L, U] = ⎜⎜ x − z α / 2 ; x+ z α / 2 ⎟⎟
⎝ n n ⎠
Exemplo 6: Uma máquina enche pacotes de café com desvio padrão igual a 10g. Ela estava
regulada para encher os pacotes com 500g em média. No momento ela está desregulada. Uma
amostra de 25 pacotes apresentou uma média de 485g. Determine um intervalo de confiança
com 95% de confiança para a média µ atual.
⎛ σ σ ⎞ ⎛ 10 10 ⎞
[L, U] = ⎜⎜ x − zα/ 2 ; x + z α/ 2 ⎟⎟ = ⎜⎜ 485 − 1,96; x + 1,96 ⎟⎟ = (481;489 )
⎝ n n ⎠ ⎝ 25 25 ⎠
Observação: µ não é uma variável aleatória, mas sim um parâmetro. Este resultado pode ser
interpretado da seguinte forma: se pudéssemos construir uma grande quantidade de intervalos
aleatórios [L, U] a partir de amostras de tamanho n = 25, 95% deles conteriam o parâmetro µ.
Introdução à Probabilidade e Estatística - IPE 102
Prof. André Policani
⎛ S S ⎞
[L, U] = ⎜⎜ x − z α / 2 ; x+ z α / 2 ⎟⎟
⎝ n n ⎠
Dada uma população com distribuição binomial, da qual tem-se uma amostra grande de
tamanho n, com proporção amostral pˆ , sabe-se que:
⎛ p(1 − p) ⎞⎟
p̂ ~ N⎜⎜ p, ⎟ , onde:
⎝ n ⎠
p é a proporção populacional com determinada característica e p = 1 – q.
⎛ ⎞
⎜ ⎟
E ainda: P⎜ − z p̂− p
⎜ α/2 < < z α / 2 ⎟⎟ = 1 - α
p(1 − p)
⎜⎜ ⎟⎟
⎝ n ⎠
⎛ p(1 − p) p(1 − p) ⎞
Então temos que: P⎜ p̂− z α / 2 < p < p̂+ z α / 2 ⎟⎟ = 1 - α
⎜ n n
⎝ ⎠
pq 1
a) usar o fato de que pq ≤ 1/ 4 , de modo que: ≤ , obtendo:
n 4n
⎛ z z ⎞
⎜⎜ p̂− α / 2 ≤ p ≤ p̂+ α / 2 ⎟⎟
⎝ 4n 4n ⎠
⎛ z z ⎞
Logo, um intervalo com (1 - α)% de confiança é dado por: [L, U] = ⎜⎜ p̂− α / 2 ; p̂+ α / 2 ⎟⎟
⎝ 4n 4n ⎠
Este intervalo é conservador, pois se p não for igual a ½ e estiver próximo de zero ou de um,
então ele fornece um intervalo desnecessariamente maior (porque substituímos pq pelo seu
valor máximo, ¼)
Exemplo 7: Numa pesquisa de mercado, 400 pessoas foram entrevistadas sobre determinado
produto, e 60% dessas pessoas preferiram a marca A. Determine um intervalo de confiança
para p (populacional) com coeficiente de confiança de 95%.
⎛ z z ⎞ ⎛ 1,96 1,96 ⎞
Então: [L, U] = ⎜⎜ p̂− α / 2 ; p̂+ α / 2 ⎟⎟ = ⎜⎜ 0,60 − ;0,60 + ⎟⎟ = (0,551; 0,649)
⎝ 4n 4n ⎠ ⎝ 1600 1600 ⎠
Exemplo 8: para estimar a renda média semanal dos camelôs da cidade, um pesquisador
levantou os dados sobre receitas semanais de uma amostra aleatória de 75 vendedores. A
média e o desvio-padrão resultaram em R$ 127 e R$ 15, respectivamente. Determine um
intervalo de 90% de confiança para a renda média semanal.
⎛ S S ⎞ ⎛ 15 15 ⎞
[L, U] = ⎜⎜ x − z α / 2 ; x+ z α / 2 ⎟⎟ = ⎜⎜127 − 1,64;127 + 1,64 ⎟⎟ ≅ (124,130 )
⎝ n n ⎠ ⎝ 75 75 ⎠
onde a variável t é conhecida como “t de Student”, com (n – 1) graus de liberdade. Para esta
distribuição, o valor esperado E(t) e a variância Var(t) são dados respectivamente por:
Ressalta-se que o número de graus de liberdade é importante, pois para cada n existe uma
distribuição diferente. O valor de r está relacionado com quantos dados independentes
precisam ser conhecidos para determinar o valor do estimador s (desvio padrão amostral) do
parâmetro σ (desvio padrão populacional). Isto é, s precisa somente de ( n – 1) dados (xi - x ).
Conforme relatado no capítulo 7 (pág. 82), a distribuição de Student possui o seguinte aspecto:
Introdução à Probabilidade e Estatística - IPE 104
Prof. André Policani
fr(t) α
0
tα t
⎛ S S ⎞
[L, U] = ⎜⎜ x − t α / 2 ; x+ t α / 2 ⎟⎟
⎝ n n ⎠
Exemplo 9: Uma nova liga para concreto foi descoberta. Em 15 c.d.p. de concreto com esta
nova liga, mediu-se a resistência à compressão. A média e o desvio padrão foram 39,6 e 2,6,
respectivamente. Calcule um IC com 90% de confiança para a média da resistência desta liga.
Amostra pequena e σ desconhecido: [L, U] = ⎛⎜ 39,6 − 2,6 1,761;39,6 + 2,6 1,761⎞⎟ = (38,12; 40,48)
⎝ 15 15 ⎠
Considerando, como hipótese, que a população tem distribuição normal N (µ, σ), com variância
desconhecida, sabe-se que a estatística s2 é um estimador não tendencioso do parâmetro σ2.
A distribuição amostral do estimador s2 é denotada por χ2, e é chamada de distribuição Qui-
quadrado com r = n-1 graus de liberdade.
⎧ 1
r
−1
⎪ ⋅ y 2
⋅ e − y/ 2 , y > 0
f(y; r) = ⎨Γ(r/ 2)2 r/ 2
⎪0, y<0
⎩
Introdução à Probabilidade e Estatística - IPE 105
Prof. André Policani
⎛ 2
P⎜⎜ χ α / 2 <
(n− 1) s 2 ⎞
< χ 12− α / 2 ⎟⎟ = 1 − α
⎝ σ 2
⎠
⎛ (n− 1) s 2 (n− 1) s 2 ⎞
donde temos que: ⎜
P⎜ <σ < 2
2
⎟ = 1− α
⎟
⎝ χα / 2 χ 1− α / 2
2
⎠
Então, um intervalo com 100(1 - α)% de confiança para a variância de uma população normal é
dado por:
⎛ (n− 1) s 2 (n− 1) s 2 ⎞
[L, U] = ⎜⎜ ; ⎟
⎟
⎝ χ 2
α/2 χ 12− α / 2 ⎠
Exemplo 10: uma amostra de tamanho 15 de uma população normal tem média x = 26 e
desvio padrão s = 3,32. Determine um intervalo de 95% de confiança para σ2.
Exemplo 11: Têm-se os seguintes pesos, em gramas, de 10 pacotes postais remetidos por
certa empresa.
10.1 INTRODUÇÃO
Um teste de hipóteses, para um parâmetro populacional, pode ser definido da seguinte forma:
existe uma variável x associada a dada população e tem-se uma hipótese sobre determinado
parâmetro θ desta população (por exemplo, afirma-se que o verdadeiro valor de θ é θ0 ). A
hipótese que interessa verificar em cada situação surge ao se especificar o problema e a
população associada. A viabilidade da hipótese é analisada com base nos dados de uma
amostra (x1, x2, ..., xn) extraída da população, através de uma regra de decisão sintetizada em
uma estatística de teste.
Neste sentido, o objetivo do teste estatístico de hipóteses é fornecer uma metodologia que
permita verificar se os dados amostrais trazem evidências que apóiem ou não uma hipótese
estatística formulada.
10.2.1 HIPÓTESES
10.2.2 ERROS
Qualquer que seja a decisão a ser tomada, sujeita-se a cometer erros. Em testes de hipóteses,
consideram-se dois tipos de erros:
Erro de Tipo II: não rejeitar a hipótese nula H0 quando esta é falsa. Chama-se β a
probabilidade de cometer esse erro, ou seja:
Caso o valor observado da estatística pertença a região RC, rejeitamos H0; caso contrário, não
rejeitamos H0. Esta região é construída sob a hipótese de H0 ser verdadeira, e a probabilidade
de ocorrência é igual a α, fixado a priori. Então:
P( θˆ ∈ RC \ H0 é verdadeira) = α
Como em testes de hipóteses não se pode controlar os dois tipos de erros, opta-se por
controlar o erro tipo I, o qual deve ser o mais sério. Esta é a razão porque se fala em “rejeição
de H0” e nunca em “aceitação de H1” – simplesmente porque não se pode precisar a
probabilidade de erro na segunda decisão.
É importante tentar distinguir bem cada uma destas etapas. Nas etapas seguintes apresentam-
se alguns tipos de testes de hipóteses usuais e exemplos ilustrativos.
Introdução à Probabilidade e Estatística - IPE 108
Prof. André Policani
c) H0: µ = µ0 H1: µ ≠ µ0
As situações (a) e (b) são os chamados testes de hipóteses unilaterais, porque a região de
rejeição está somente em uma das caudas da distribuição. A situação (c) define os testes
bilaterais, porque a região de rejeição se distribui igualmente em ambas as caudas da
distribuição.
Assim como no caso da construção de intervalos de confiança, este caso serve apenas para
que se entenda o processo, do que para uso prático, já que a suposição do conhecimento
prévio da variância populacional é bastante artificial.
µ0 c z
⎡ (x − µ 0 ) (c − µ 0 )⎤
Para um nível de significância α, tem-se: P(x > c) = α ou P⎢ > ⎥=α
⎣ σ/ n σ/ n ⎦
⎡ (c − µ 0 )⎤
Consequentemente: P ⎢z > ⎥=α
⎣ σ/ n ⎦
c− µ 0 σ
z 1− α = c = µ0 + z 1− α , onde z1-α é obtido na tabela da normal
σ/ n n
σ x− µ 0
O teste consiste em: “rejeitar H0 se x > c = µ 0 + z 1− α ” ou ainda, se z 1− α <
n σ/ n
Introdução à Probabilidade e Estatística - IPE 109
Prof. André Policani
c µ0 z
⎡ (x − µ 0 ) (c − µ 0 )⎤
Para um nível de significância α, tem-se: P(x < c) = α ou P⎢ < ⎥=α
⎣σ/ n σ/ n ⎦
⎡ (c − µ 0 )⎤
Consequentemente: P ⎢z < ⎥=α
⎣ σ/ n ⎦
c− µ 0 σ
− z 1− α = c = µ0 − z 1− α
σ/ n n
σ x− µ 0
O teste consiste em: “rejeitar H0 se x < c = µ 0 − z 1− α ” ou ainda, se − z 1−α >
n σ/ n
⎡⎛ ⎞ ⎛ ⎞⎤
⎢⎜ x − µ ⎟ ⎜
c 1 − µ 0 ⎟ ⎜ x − µ 0 c 2 − µ 0 ⎟⎥
⎟
P⎢ ⎜ 0
< ∪ > ⎥=α
⎢⎜ 1 σ2
/ 3
n 1 σ2 / 3 n ⎟ ⎜1 σ4
/ 2n431σ /
424 n
3⎟
⎟⎥
⎢⎣⎜⎝ z ⎟ ⎜
−zα / 2 ⎠ ⎝ z zα / 2 ⎠⎥⎦
α/2 α/2
x c1 µ0
x c2
σ σ
O teste consiste em: “rejeitar H0 se x < c 1 = µ 0 − z 1−α / 2 ” ou se x > c 2 = µ 0 + z 1−α / 2 ”
n n
x− µ 0
Ou ainda se: z 1− α / 2 < ”
σ/ n
Introdução à Probabilidade e Estatística - IPE 110
Prof. André Policani
Exemplo 1: Uma máquina automática para encher pacotes de café enche-os segundo uma
distribuição normal, com média µ e desvio padrão sempre igual a 20 g. A máquina foi regulada
para µ = 500 g. Deseja-se, periodicamente coletar uma amostra de 16 pacotes e verificar se a
produção está sob controle, isto é, se µ = 500 g ou não. Se uma das amostras apresentasse
uma média x = 492 g, você pararia ou não a produção para regular a máquina?
Etapa 2: pelo problema, σ = 20. Então para todo µ, a média de 16 pacotes terá distribuição
⎛ σ ⎞
N ⎜⎜ µ, ⎟⎟ . Isto é x ~ N(500,5) .
⎝ n⎠
Etapa 3: fixar α = 1%. Pela hipótese alternativa, vemos que H0 deve ser rejeitada quando x for
muito menor que o aceitável ou muito maior que o aceitável (temos um teste bilateral). A região
de rejeição está hachurada na figura abaixo:
500
x c1 x c2
Da tabela da curva normal padronizada obtemos z1-0,005 = 2,58. Então temos que:
x c1 − µ x c2 − µ
z1 = -2,58 = ⇒ x c1 = 487,1 e z2 = 2,58 = ⇒ x c 2 = 512,9
σx σx
Etapa 5: como x 0 não pertence à região de rejeição, conclui-se que não devemos rejeitar H0.
Ou seja, o desvio da média da amostra para a média proposta por H0 pode ser considerado
como devido apenas ao sorteio aleatório dos pacotes.
Exemplo 2: Um fabricante de fio de arame alega que seu produto tem uma resistência média à
ruptura de 10 kg, com desvio padrão de 0,5 kg. Um consumidor resolve testar esta afirmativa.
Extrai uma amostra de 50 peças de arame, a qual acusou a resistência média de 9,6 kg. É
válida a alegação do fabricante?
Solução: até que haja evidência em contrário, o consumidor supõe que a resistência média
seja inferior a 10 kg.
Etapa 2: pelo problema, σ = 0,5. Então para todo µ, a média de 50 peças do arame terá
⎛ σ ⎞
distribuição N ⎜⎜ µ, ⎟⎟ . Isto é x ~ N(10; 0,07) .
⎝ n⎠
Introdução à Probabilidade e Estatística - IPE 111
Prof. André Policani
Região de rejeição
α
µ0 c z
σ 0,5
RC = { x ∈ ℜ / x > c = µ 0 + z 1− α } RC = { x ∈ ℜ / x > 10 + 1,645 }
n 50
x− µ 0 9,6 − 10
Alternativamente: z 1− α < 1,645 <
σ/ n 0,5 / 50
Etapa 5: como x não pertence à região de rejeição, conclui-se que não devemos rejeitar H0.
Ou seja, não há evidência de que a resistência média seja igual a 10 kg, como alegado pelo
fabricante.
Ele afirma que os dados foram extraídos de uma população N (µ, 1). Teste ao nível de
significância de 5% a hipótese: H0: µ = 0 e H1: µ ≠ 0
Solução: x = 0,091
Etapa 3: fixar α = 5%. Observamos que H0 deve ser rejeitada quando x for menor que o
aceitável ou maior que o aceitável (teste bilateral). A figura abaixo mostra a região de rejeição:
x c1 0 x c2
Introdução à Probabilidade e Estatística - IPE 112
Prof. André Policani
Da tabela da curva normal padronizada obtemos z1-0,025 = 1,96. Então temos que:
x c1 − µ x c2 − µ
z1 = -1,96 = ⇒ x c1 = -0,51 e z2 = 1,96 = ⇒ x c 2 = 0,51
σx σx
Etapa 5: como x 0 não pertence à região de rejeição, conclui-se que não devemos rejeitar H0.
Ou seja, o desvio da média da amostra para a média proposta por H0 pode ser considerado
como devido apenas ao sorteio aleatório dos pacotes.
Este caso é muito semelhante ao anterior. Como a variância populacional não é conhecida,
utiliza-se o valor do seu estimador (variância amostral). Assim como na construção dos
intervalos de confiança, a estatística recomendada é:
t=
(x − µ0 ) , que tem distribuição t de Student com n – 1 graus de liberdade.
S/ n
c) H0: µ = µ0 H1: µ ≠ µ0
Por ser um teste unilateral, devemos procurar um valor tc tal que: P [ t > tc] = α
fr(t) α
0
t c = tα t
“Rejeitar H0 se t > tα”, (ou “Rejeitar H0 se t > t1 - α”, se a tabela contiver valores acumulados)
Introdução à Probabilidade e Estatística - IPE 113
Prof. André Policani
Trata-se de um teste unilateral, em que devemos procurar um valor tc tal que: P [ t < tc] = α
fr(t)
α
-tc = -tα 0
t
“Rejeitar H0 se t < -tα”, (ou “Rejeitar H0 se t < -t1 - α”, se a tabela contiver valores acumulados)
Trata-se de um teste bilateral, em que devemos procurar um valor tc tal que: P [ -tc< t < tc] = α
fr(t)
α/2 α/2
-tc = -tα 0
tc =tα t
“Rejeitar H0 se |t| > t α/2” (ou Rejeitar H0 se |t| > t1 - α/2, se a tabela contiver valores acumulados)
Etapa 2: sendo que x, a resistência à ruptura de uma corda, tenha distribuição N(µ, σ), temos
a estatística t n – 1 graus de liberdade, onde n – 1 = 5:
Etapa 3: trata-se de um teste unilateral, devemos procurar o valor tc tal que: P(t < -tc) = α
Introdução à Probabilidade e Estatística - IPE 114
Prof. André Policani
α fr(t)
-tc = -tα 0
t
a) Para α = 5%: Da tabela da distribuição de Student, temos que -tc = -tα = -t0,05 = -2,015
b) Para α = 1%: Da tabela da distribuição de Student, temos que -tc = -tα = -t0,01 = -3,365
Nos dois casos H0 será rejeitada, é muito improvável que a alegação do fabricante seja válida.
Exemplo 5: Um fabricante afirma que seus cigarros contêm não mais do que 30 mg de
nicotina. Uma amostra de 25 cigarros fornece média de 31,5 mg e desvio padrão de 3 mg. Ao
nível de 5% de significância, os dados refutam ou não a afirmação do fabricante?
Solução:
Etapa 2: supondo que x, a quantidade de nicotina por cigarro, tenha distribuição N(µ, σ), temos
a estatística t com n – 1 graus de liberdade. (n – 1) = 24
Etapa 3: por ser um teste unilateral, devemos procurar o valor tc tal que: P(t > tc) = 0,05
fr(t) α
0
t c = tα t
Introdução à Probabilidade e Estatística - IPE 115
Prof. André Policani
Etapa 5: como t pertence à região crítica, rejeita-se H0, ou seja, há evidência de que os
cigarros contenham mais de 30 mg de nicotina.
Neste caso, pelo Teorema do Limite Central (TLC), a média da amostra tem distribuição
aproximadamente normal. Utilizam-se os seguintes testes:
x− µ 0
Teste: “Rejeitar H0 se z 1− α < ”
S/ n
x− µ 0
Teste: “Rejeitar H0 se − z 1− α > ”
S/ n
x− µ 0
Teste: “Rejeitar H0 se z 1−α / 2 < ”
S/ n
Etapa 2: Neste caso, o tamanho da amostra pode ser considerado grande e a média amostral
pode ser considerada aproximadamente normal.
Etapa 3: Da tabela da normal reduzida, tem-se z0,95 = 1,645. A região crítica é: z < -1,645
x− µ 0 36 − 37
Etapa 4: A estatística de teste será: z = = = −1,369
S/ n 4 / 30
Etapa 5: Como o valor de z, calculado na amostra, é –1,369 (> -1,645), não rejeita-se H0 e
conclui-se que o tempo médio de ação do novo comprimido não é inferior ao tempo médio de
ação do comprimido em uso.
Introdução à Probabilidade e Estatística - IPE 116
Prof. André Policani
p̂− p 0
Teste: H0 será rejeitada se z 1− α <
p̂q̂
n
p̂− p 0
Teste: H0 será rejeitada se − z 1− α >
p̂q̂
n
p̂− p 0
Teste: H0 será rejeitada se z 1− α / 2 <
p̂q̂
n
Exemplo 7: Um jornal alega que 25% dos seus leitores pertencem à classe A. Que regra de
decisão deveria ser adotada para testar esta hipótese, contra a alternativa de que a
porcentagem verdadeira não é de 25%, para um nível de significância de 5%? Se em uma
amostra de 740 leitores, encontram-se 156 de classe A, qual a decisão a respeito da
veracidade da alegação veiculada pelo jornal?
Introdução à Probabilidade e Estatística - IPE 117
Prof. André Policani
Solução:
Etapa 3: Consultando a tabela normal reduzida tem-se que: z1 - α/2 = z0,975 = 1,96.
p̂− p 0
A região crítica será tal que: z 1− α / 2 <
p̂q̂
n
Etapa 5: Como 1,96 < 2,67, H0 será rejeitada e conclui-se que a proporção de leitores de
classe A é diferente de 25%.
(n− 1) S 2
Teste: H0 será rejeitada se χ α2 ≤
σ 02
(n− 1) S 2
Teste: H0 será rejeitada se χ 12− α ≥
σ 02
(n− 1) S 2 (n− 1) S 2
Teste: H0 será rejeitada se χ 12− α / 2 ≥ ou χ 2
α/2 ≤
σ 02 σ 02
Exemplo 8: uma das maneiras de manter sob controle a qualidade de um produto é controlar
sua variabilidade. Uma máquina de encher pacotes de café está regulada para enche-los com
média de 500 g e desvio padrão de 10g. O peso de cada pacote x segue uma distribuição N(µ,
σ). Colheu-se uma amostra de 16 pacotes e observou-se uma variância de 169 g2. Com esse
resultado é possível dizer que a máquina está desregulada em relação à variância?
Introdução à Probabilidade e Estatística - IPE 118
Prof. André Policani
Solução:
Fixado o nível de significância α = 5%, a região crítica será tal que: P(χ 2 ∈ RC/H0 ) = α
α/2 α/2
χ 12 χ 22 χ2
(n− 1) S 2 15 × 169
O valor observado da estatística é: χ 02 = = = 25,35
σ 02 100
Como χ 02 não pertence à região de rejeição, não rejeita-se H0. Ou seja: a máquina está sob
controle quanto à variância.
OBSERVAÇÕES ADICIONAIS
1) Sabe-se que a eficácia de certa vacina após um ano é de 25%, isto é, o teste imunológico se
prolonga por mais de um ano em apenas 25% das pessoas que a tomaram. Desenvolve-se
uma nova vacina (mais cara), com a mesma finalidade. Pretende-se testar se a nova vacina é
realmente melhor.
b) As hipóteses são: H0: p = 0,25 (a nova vacina não tem efeito melhor do que a em uso)
H1:p > 0,25 (a nova vacina torna mais pessoas imunes que a atual)
c) o erro tipo I consiste em aprovar a nova vacina quando, na realidade, ela não tem nenhum
efeito superior ao da vacina em uso. O erro tipo II consiste em rejeitar a nova vacina
quando ela é, de fato, melhor do que a vacina em uso. Por implicações sociais e
econômicas, o erro tipo I é considerado mais sério do que o erro tipo II.
Introdução à Probabilidade e Estatística - IPE 119
Prof. André Policani
2) Suponha que a nova vacina seja aplicada em 20 pessoas e que H0 seja rejeitada (conclui-se
que a nova vacina é melhor) se a vacina per durar por mais de um ano em a) menos de 8
pessoas; b) menos de 9 pessoas. Determine α e β para os dois casos.
Seja x o número de pessoas, dentre as 20 submetidas ao teste, em que o efeito da nova vacina
se prolonga por mais de um ano.
Para se determinar β (a probabilidade de erro Tipo II), deve-se ter uma hipótese alternativa
bastante específica, por exemplo, H1: p = 0,50. Para esta situação, tem-se b(20; 0,50):
3) Suponha que uma amostra de 100 pessoas foi submetida à vacina. Calcular α e β .
c) sob H0, x (n.o de pessoas nas quais a vacina tem efeito por mais de um ano) tem distribuição
b (100, 0,25). Como n é grande, usa-se a aproximação N (np; npq). Assim x ~ N(25; 37,5)
Logo, P(Erro tipo I) = P(x > 39,5) = P(z > 3,349) = 1- P(z < 3,349) = 1 – 0,9996 = 0,0004
Logo, P(Erro tipo II) = P(x < 39,5) = P(z < -2,1) = 0,0179. (onde z = (39,5 –50)/5)
e) observa-se que quando o experimento envolve uma amostra de tamanho 100 (amostra
suficientemente grande), a probabilidade de erros (Tipos I e II) é muito pequena.
f) dentre vários testes com nível de tolerância menor que um nível pré-determinado (α < α0),
escolhe-se aquele com menor valor de β.
REFERÊNCIAS:
- BUSSAB, W. O. e MORETTIN, P. A. Estatística Básica. Ed. Saraiva. 5.a edição. São Paulo,
2002.
- CRESPO, A. A. Estatística Fácil. Ed. Saraiva, São Paulo, 1999, 224p.
- ALLEN, A. O. Probability, Statistics, and Queueing Theory. Academic Press, 1978.
- DOWNING,D.; CLARK,J. Estatística Aplicada. Ed. Saraiva. São Paulo, 2000.
- SPIEGEL, M.R., Estatística. Makron Books do Brasil. São Paulo, 1996,243p.
APÊNDICE
EXERCÍCIOS RESOLVIDOS
1) Tem-se três urnas iguais, cada uma com seis bolas. A urna U1 tem 3 bolas brancas. A urna
U2 tem 2 brancas e a urna U3 tem seis bolas brancas. Uma urna é escolhida ao acaso e dela é
extraída uma bola. Qual a probabilidade da urna ser U3, dado que a bola sorteada é branca?
Solução: seja B o evento “bola branca” e O, o evento “outra cor”. Deseja-se calcular P(U3/B)
B
3/6 A Probabilidade Total de sair “bola branca”:
U1 3/6
O P(B) = P(U1∩ B) + P(U2 ∩ B) + P( U3 ∩ B)
1/3 ⎛ 1 3 ⎞ ⎛ 1 2 ⎞ ⎛ 1 ⎞ 11
B P(B) = ⎜ ⋅ ⎟ + ⎜ ⋅ ⎟ + ⎜ ⋅ 1⎟ =
2/6 ⎝ 3 6 ⎠ ⎝ 3 6 ⎠ ⎝ 3 ⎠ 18
1/3
U2
4/6 O
Pelo Teorema de Bayes, temos que:
1/3
6/6 B 1
U3 ⋅1
P(U3 ∩ B) 3 6
P(U3 / B) = = =
0/6 P(B) 11 11
O
18
2) Um grupo de 50 moças é classificado de acordo com a cor dos cabelos e dos olhos:
Olhos
Cabelos Azuis (A) Castanhos (C)
Loira (L) 17 9
Morena (M) 4 14
Ruiva (R) 3 3
a) você marca um encontro com uma dessas garotas ao acaso, qual a probabilidade dela ser
a1) loura a2) morena de olhos azuis a3) morena ou ter olhos azuis
b) está chovendo quando você encontra a garota. Seus cabelos estão completamente
cobertos, mas você percebe que tem olhos castanhos. Qual a probabilidade de ser morena?
n(L) 26 n(M∩ A) 4
a1) P(L)= = a2) P(M∩A)= =
n(S) 50 n(S) 50
18 24 4 38
a3) P(M∪A)= P(M) + P(A) − P(M∩ A) = + − =
50 50 50 50
Introdução à Probabilidade e Estatística - IPE 2
Prof. André Policani
n(M∩ C) 14
P(M∩ C) n(S) 14
b) P(M/ C) = = = 50 =
P(C) n(C) 26 26
n(S) 50
3) Uma urna I tem 2 bolas vermelhas e 3 amarelas. Uma urna II tem 4 bolas vermelhas, 5
amarelas e 2 brancas. Uma bola é extraída ao acaso da urna I e colocada na urna II e, em
seguida, é extraída uma bola da urna II. Qual a probabilidade da 2a bola ser:
a) vermelha b) amarela
V2
5/12
U2 5/12
A2
2/12
V1
2/5 B2
U1
3/5 V2
A1 4/12
U2 6/12
A2
2/12
B2
⎛ 2 5 ⎞ ⎛ 3 4 ⎞ 11 ⎛2 5 ⎞ ⎛3 6 ⎞ 7
a) P (V2) = ⎜ × ⎟+⎜ × ⎟ = b) P (A2) = ⎜ × ⎟+⎜ × ⎟ =
⎝ 5 12 ⎠ ⎝ 5 12 ⎠ 30 ⎝ 5 12 ⎠ ⎝ 5 12 ⎠ 15
4) Luiz tem probabilidade 1/4 de convidar Alice para um passeio num Domingo. A probabilidade
de que César a convide é 2/5 e a de Olavo é ½. Qual a probabilidade de que:
1 2 1 1
a) P(L ∩ C ∩ O) = P(L) P(C) P(O) = × × =
4 5 2 20
⎛ 1⎞ ⎛ 2⎞ ⎛ 1⎞ 9
c) P(L ∩ C ∩ O) = ⎜1 − ⎟ × ⎜1 − ⎟ × ⎜1 − ⎟ =
⎝ 4 ⎠ ⎝ 5 ⎠ ⎝ 2 ⎠ 40
Introdução à Probabilidade e Estatística - IPE 3
Prof. André Policani
5) A probabilidade de uma pessoa ter reação negativa a certa injeção é de 0,001. Determinar a
probabilidade de que, de 2000 pessoas injetadas, (a) exatamente três, (b) mais de quatro
tenham reação negativa.
Solução: utiliza-se distribuição de Poisson, pois:
• n = 2000 (grande)
• probabilidade de sucesso = probabilidade de reação negativa: p = 0,001 (muito pequena)
• λ = np = 2000 x 0,001 = 2
e− λλ k e −2 ( 2 ) 3
a) P(x = k) = P(x = k = 3) = = 0,1804
k! 3!
b) P (x>4) = 1 – {(P (x = k =0) + P(x = k =1) + P (x = k =2) + P(x = k =3) + P(x = k =4)}
• λ = np = 1 x 4 = 4
e− λλ k e −4 ( 4 ) 6
P(x = k) = P(x = k = 6) = = 0,1042
k! 6!
7) Chegam em média 10 navios-tanque por dia a um movimentado porto, que tem capacidade
para 15 navios. Qual a probabilidade de que um dia, um ou mais navios tenham que esperar
por uma vaga?
Solução: haverá espera quando o número de navios superar a capacidade do porto (15 navios)
λ = np = 1 x 10 = 10
⎡10 15 10 14 10 13 10 2 10 1 10 0 ⎤
P(x > 15) = 1 − P(x ≤ 15) = 1 − e −10 ⎢ + + +L+ + + ⎥ = 0,048 6
⎣ 15! 14! 13! 2! 1 0! ⎦
8) O número médio de bactérias por litro de água de uma certa fonte é 2. Qual a probabilidade
de serem encontradas 5 ou mais bactérias em três litros de água?
Solução:
λ = np = 3 x 2 = 6
⎡ 6 4 63 62 61 60 ⎤
P(x ≥ 5) = 1 − P(x < 5) = 1 − e − 6 ⎢ + + + + ⎥ = 0,7149
⎣ 4! 3! 2! 1 0! ⎦
9) Joga-se um dado equilibrado até que apareça “um quatro”. Determinar P(x) e F(x),
respectivamente as funções de distribuição de probabilidade simples e acumulada.
Introdução à Probabilidade e Estatística - IPE 4
Prof. André Policani
1 5
Solução: antes da x-ésima jogada, antecederão x-1 “não quatro”. Assim, p= eq=
6 6
Interessa-se apenas pelo número de químicos que pertencem ao comitê, não importando a
ordem em que estes são convocados. Assim, as probabilidades são calculadas através de
combinações. Nestas condições, pode-se afirmar que:
C3,0C5,4 C3,1C5,3
P(x = 0) = = 0,0714 P(x = 1) = = 0,4286
C8,4 C8,4
C3,2C5,2 C3,3C5,1
P(x = 2) = = 0,4286 P(x = 3) = = 0,0714
C8,4 C8,4
C3,3C5,1 C3,2C5,2
P(y = 1) = = 0,0714 P(y = 2) = = 0,4286
C8,4 C8,4
C3,1C5,3 C3,0C5,4
P(y = 3) = = 0,4286 P(y = 4) = = 0,0714
C8,4 C8,4
Eventos x y Probabilidade
FFFF 0 4 0,0714
FFFQ 1 3 0,4286
FFQQ 2 2 0,4286
FQQQ 3 1 0,0714
y\x 0 1 2 3 P(y)
1 - - - 0,0714 0,0714
2 - - 0,4286 - 0,4286
3 - 0,4286 - - 0,4286
4 0,0714 - - - 0,0714
P(x) 0,0714 0,4286 0,4286 0,0714 1,00
Introdução à Probabilidade e Estatística - IPE 5
Prof. André Policani
11) Uma fábrica opera em dois turnos: dia e noite. Em um estudo de faltas dos operários ao
trabalho, denota-se por x o número de faltas no turno do dia e por y, o número de faltas no
turno da noite. Considerando a tabela abaixo, determine o coeficiente de correlação entre x e y.
y 0 1 2 3 P(x)
x
0 0,05 0,05 0,10 0 0,20
1 0,05 0,10 0,25 0,10 0,50
2 0 0,15 0,10 0,05 0,30
P(y) 0,10 0,30 0,45 0,15 1,00
x 0 1 2 Total y 0 1 2 3 Total
P(x) 0,20 0,50 0,30 1,00 P(y) 0,10 0,30 0,45 0,15 1,00
xP(x) 0 0,50 0,60 1,10 yP(y) 0 0,30 0,90 0,45 1,65
x2P(x) 0 0,50 1,20 1,70 y2P(y) 0 0,30 1,80 1,35 3,45
E(xy)= (1⋅ 1⋅ 0,10 ) + (1⋅ 2 ⋅ 0,25 ) + (1⋅ 3 ⋅ 0,10 ) + ( 2 ⋅ 1⋅ 0,15 ) + ( 2 ⋅ 2 ⋅ 0,10 ) + ( 2 ⋅ 3 ⋅ 0,05 ) = 1,90
Cov(x, y) 0,0 85
ρ(x, y) = = = 0,1 43
σ(x) σ(y) 0,70 ⋅ 0,85
12) Em um lote de 10 carros novos, 5 estão em boas condições (B), 2 têm defeito de
transmissão (DT) e os outros três têm defeitos de direção (DD). Dois carros são escolhidos ao
acaso. Considerando x como o número de carros com defeito de transmissão, e y como o
número de carros com defeito de direção, determine:
a) a distribuição conjunta de x e y;
b) a distribuição de probabilidade que representa o número de carros com defeito
c) a probabilidade de haver dois carros com defeito
d) E(xy)
Ao tomarmos uma amostra com dois carros, as variáveis x e y podem assumir os valores 0, 1 e
2. Assim:
n! 10!
O número total de resultados é: Cn,p = ⇒ C10,2 = = 45
p! (n− p)! 2! (10 − 2)!
Introdução à Probabilidade e Estatística - IPE 6
Prof. André Policani
C5,2 10 C2,1C5,1 10
P(0, 0) = P(x=0, y = 0) = = P(1, 0) = P(x=1, y = 0) = =
C10,2 45 C10,2 45
C3,1C5,1 15 C2,2 1
P(0, 1) = P(x=0, y = 1) = = P(2, 0) = P(x=2, y = 0) = =
C10,2 45 C10,2 45
C3,2 3 C2,1C3,1 6
P(0, 2) = P(x=0, y = 2) = = P(1, 1) = P(x=1, y = 1) = =
C10,2 45 C10,2 45
y 0 1 2 P(x)
x
0 10/45 15/45 3/45 28/45
1 10/45 6/45 0 16/45
2 1/45 0 0 1/45
P(y) 21/45 21/45 3/45 1,00
b) Considerando a variável z = x + y como sendo o número total de carros com defeitos, a sua
distribuição de probabilidade é dada por:
z 0 1 2 Total
P(z) 10/45 25/45 10/45 1,00
6 6
d) E(xy) = (1⋅ 1⋅ ) + (1⋅ 2 ⋅ 0) + (2 ⋅ 1⋅ 0) + (2 ⋅ 1⋅ 0) =
45 45
13) Duas linhas de produção fabricam um certo tipo de peça. As capacidades de produção são
de 5 peças para a linha 1 e de 3 peças para a linha 2. O número real de peças produzidas é a
variável representada pelo vetor (x, y), o qual fornece o número de peças nas linhas 1 e 2,
respectivamente, segundo a seguinte distribuição:
x 0 1 2 3 4 5 P(y)
y
0 0 0,01 0,03 0,05 0,07 0,09 0,25
1 0,01 0,02 0,04 0,05 0,06 0,08 0,26
2 0,01 0,03 0,05 0,05 0,05 0,05 0,24
3 0,01 0,02 0,04 0,06 0,06 0,06 0,25
P(x) 0,03 0,08 0,16 0,21 0,24 0,28 1,00
Determine:
a) a probabilidade de que sejam produzidas mais peças pela linha 1 do que pela linha 2.
b) a probabilidade da linha 1 produzir 3 peças se a linha 2 produz 2 peças.
Introdução à Probabilidade e Estatística - IPE 7
Prof. André Policani
a) seja B o evento “mais peças produzidas pela linha 1 do que pela linha 2”. Então:
P(B) = P(x=1, y=0) + P(x=2, y=0) + P(x=3, y=0) + P(x=4, y=0) + P(x=5, y=0) + P(x=2, y=1) +
P(x=3, y=1) + P(x=4, y=1) + P(x=5, y=1) + P(x=3, y=2) + P(x=4, y=2) + P(x=5, y=2) +
P(x=4,y=3) + P(x=5, y=3) = 0,01 + 0,03 +0,05 + 0,07 + 0,09 + 0,04 + 0,05 + 0,06 + 0,08 +
0,05 + 0,05 + 0,05 + 0,06 + 0,06= 0,75.
Português (x) 67 81 65 42 53 40 71 64 60 68 49
Ed. Física (y) 92 65 81 75 85 78 77 79 81 82 85
∑ (x − x) i
2
1610
S2x = i =1
= = 161 S x = 161 = 12,69
n− 1 10
n
∑ (y − y ) i
2
464
S = 2
y
i =1
= = 46,4 S y = 46,4 = 6,81
n− 1 10
⎛ 1 ⎞⎛⎜ n ⎞ ⎛ 1⎞
⎜ ⎟⎜ ∑ (xi − x )(y j − y ) ⎟⎟ ⎜ ⎟(− 207 )
⎝ n − 1 ⎠⎝ i = j =1 ⎠ 10
r= = ⎝ ⎠ = −0,24
S xS y (12,69)(6,81)
Introdução à Probabilidade e Estatística - IPE 8
Prof. André Policani
1 5
Solução: seja x a v.a. que representa o n.o de vezes que sai “6”. Sabe-se que: p= eq= .
6 6
1 3
⎛n⎞ ⎛ 4⎞ ⎛ 1⎞ ⎛ 5⎞
Então: P(x = k =1) = ⎜⎜ ⎟⎟ ⋅ pk ⋅ qn −k = ⎜⎜ ⎟⎟ ⋅ p1⋅ q4 −1 = (4 )⎜ ⎟ ⎜ ⎟ = 0,3858
⎝k ⎠ ⎝ 1⎠ ⎝6⎠ ⎝6⎠
16) Qual a probabilidade de acertar “no chute” ao menos sete questões em 10, do tipo “certo-
errado”.
= C10, 7 (0,50)7 (0,50)3 + C10, 8 (0,50)8 (0,50)2 + C10, 9 (0,50)9 (0,50)1 + C10, 10 (0,50)10 = 0,1719
Introdução à Probabilidade e Estatística - IPE
Prof. André Policani
LISTA DE EXERCÍCIOS I
1) Uma amostra de 80 peças retiradas de um grande lote forneceu a seguinte distribuição de
comprimentos:
A especificação para este tipo de material exige que o comprimento médio das peças esteja
compreendido entre 92 e 96 mm, que o coeficiente de variação seja inferior a 20% e que a distribuição
dos comprimentos seja simétrica. Quais destas exigências não satisfazem neste caso?
2) Uma empresa possui dois serventes recebendo salário de $ 250,00 cada, quatro digitadores
recebendo $ 354,00 cada um, um gerente recebendo $ 1.250,00 e dois vendedores recebendo, em
média, $ 850,00 de comissão. Calcule o salário médio da empresa. Este valor é representativo?
Xi Freqüência (fi)
5 F1
8 5
13 F3
18 3
25 1
8) Distribua os elementos do conjunto A = {17, 18, 19, 20, 21, 22, 23}, em uma tabela de frequências e
determine:
i Xi Apuraçã
o
fi Fi xifi xi − x x i − x ⋅ fi x i − Md x i − Md ⋅ fi xi2 ⋅ fi (x − x )
i
4
fi
9) Temos a seguir as notas médias obtidas por oitenta candidatos a um exame vestibular. Construa
uma tabela de intervalos de classes de frequência e determine: (sugestão: para determinar o número
de classes, utilize a regra de Sturges).
64 73 44 10 43 31 51 4 25 53
51 36 47 45 65 79 58 45 54 73
28 38 42 49 19 49 65 32 33 11
57 25 39 2 40 22 5 60 44 3
8 3 65 50 38 9 56 21 9 57
15 28 48 47 68 6 34 12 65 28
59 8 54 84 45 39 41 43 41 38
52 63 40 16 52 44 46 59 22 15
Classes Apur. fi PM
(xi)
Fi xifi xi − x x i − x ⋅ fi x i − Md x i − Md ⋅ fi xi2 ⋅ fi (x − x ) f
i
4
i
3) A tabela abaixo representa as notas de Estatística de trinta alunos. Construa uma tabela de intervalos
de classes de frequência e determine: (sugestão: para determinar o número de classes, utilize a regra de
Sturges).
Classes Apur. fi PM
(xi)
Fi xifi xi − x x i − x ⋅ fi x i − Md x i − Md ⋅ fi xi2 ⋅ fi (x − x ) f
i
4
i
Σ
Introdução à Probabilidade e Estatística - IPE
Prof. André Policani
LISTA DE EXERCÍCIOS II
1) Dois dados são lançados. Define-se os eventos: A = soma dos pontos obtidos igual a 9, e B = o
ponto do primeiro dado é maior ou igual a 4. Determine os eventos A e B e ainda os eventos A ∪ B,
A ∩ B e A.
2) Uma urna contém 12 moedas não tendenciosas, sendo 7 douradas e 5 prateadas. O experimento
consiste me retirar, sem reposição e ao acaso, duas moedas desta urna. Calcular a probabilidade de
que saiam:
(2.1) uma moeda dourada e uma prateada, nesta ordem. 35/132
(2.2) uma moeda dourada e uma prateada. 70/132
(2.3) duas moedas douradas. 42/132
(2.4) duas moedas de mesma cor. 62/132
4) Suponha que A e B sejam eventos tais que P(A) = x, P(B) = y e P(A∩B) = z. exprima cada uma das
seguintes probabilidades em termos de x, y e z.
5) Uma firma de processamento de dados avalia seu pessoal de digitação em termos do número de
erros cometidos em 1000 toques (no teclado). Para um deles, a probabilidade de cometer no máximo
cinco erros (por 1000 toques) é 0,62 e a probabilidade de cometer de 6 a 10 erros (por 1000 toques)
é 0,28. determine a probabilidade de que nos próximos 1000 toques, o digitador cometa: a) ao
menos 6 erros; b) ao menos 11 erros; c) no máximo 10 erros. 0,38; 0,10, 0,90
7) Uma caixa contém 4 válvulas defeituosas e 6 perfeitas. Duas válvulas são extraídas juntas. Uma
delas é ensaiada e se verifica ser perfeita. Qual a probabilidade de que a outra válvula também seja
perfeita? 5/9
8) Considere uma urna contendo 3 bolas vermelhas e 5 pretas. Retiram-se 3 bolas, sem reposição.
Define-se a variável aleatória X = número de bolas pretas retiradas. Determine a distribuição de X.
x 0 1 2 3
P(x) 1/56 15/56 30/56 10/56
9) Um dado é jogado 3 vezes. Seja x o número de pontos “um” que aparece. Estabeleça a distribuição
de probabilidade de X.
x 0 1 2 3
P(x) 125/215 75/216 125/216 1/216
10) A probabilidade de um estudante de uma faculdade de Ohio adquirir um computador portátil é 0,65. a
probabilidade de suas notas melhorarem, se ele comprar o computador é 0,80. Qual a probabilidade
de um aluno dessa faculdade adquirir um computador pessoal e obter melhora em suas notas? 0,52
11) O tempo t, em minutos, para que um operário processe certa peça é uma VAD com distribuição dada
na tabela abaixo:
t 2 3 4 5 6 7
f(t) 0,10 0,10 0,30 0,20 0,20 0,10
12) O conjunto de resultados igualmente possíveis de uma variável aleatória X é X(S) = {0, 1, 2, 3, 4}.
Represente em uma tabela a distribuição de X e calcule a expectância e a variância de X. 2,0/2,0
13) Pilhas de uma certa marca são acondicionadas de modo casual em embalagens de quatro pilhas. O
produtor desta marca opera com probabilidade de 0,04 de uma pilha ser defeituosa.
(13.2) quantas defeituosas deve-se esperar que existam, em média, por embalagem? 0,16
14) Qual a probabilidade de obtermos exatamente duas caras em 8 lançamentos de uma moeda
equilibrada? 0,1092
15) Qual a probabilidade de se obter duas ou menos faces “2” em 7 lançamentos de um dado
equilibrado? 0,9042
16) Em uma urna existem 18 bolas brancas e duas pretas. Calcule as probabilidades de, retiradas sete
bolas, sair apenas uma bola preta nos seguintes casos:
(16.1) as bolas são repostas na urna após serem retiradas. 0,3720
(16.2) as bolas não são repostas na urna após serem retiradas. 0,4789
17) Uma empresa de seguros descobriu que somente cerca de 0,1% da população está incluída em
certo tipo de acidente por ano. Se seus 10.000 segurados são escolhidos ao acaso da população,
qual a probabilidade de que não mais de 5 de seus clientes venha a estar incluídos em tal acidente
no próximo ano? 0,0671
18) Os registros de uma loja de vendas de computadores indicam que 70% de todos os compradores de
computadores novos exigem um modem moderno. Determine as probabilidades de que, dentre 10
compradores de computadores novos, 0, 1, 2, ..., 9 ou 10 exijam um modem moderno.
19) Um certo fabricante de computador estima em 0,1 a probabilidade de um Winchester falhar em uma
operação de gravação. Cinqüenta operações de gravação foram observadas durante duas horas.
Determine a probabilidade de que:
20) Suponha que X e Y sejam variáveis aleatórias com Var (X) =1 e, Var (Y) = 4 e ρ(X,Y) = ½. Determine
Var (X - 2Y). 13
21) Considere o experimento de lançar uma moeda 3 vezes e as seguintes variáveis aleatórias: X =
número de caras observadas no primeiro lançamento e Y = número de coroas observadas no
primeiro e no terceiro lançamento. Pede-se:
2) Sendo f(x) = kx3 a densidade de uma variável aleatória contínua no intervalo 0< x <1, determine o
valor de “k”.
3) Uma variável aleatória contínua X é definida pela fdp f ( x ) = 3 (x − 1)2 ,0 ≤ x < 2 . Determine:
2
(3.1) a média (3.2) a variância
⎧2kx, se 0 ≤ x < 3
4) Uma variável aleatória contínua tem a seguinte fdp: f ( x ) = ⎪
⎨kx, se 3 ≤ x < 5
⎪0, caso contrário
⎩
6) Suponha que X seja uniformemente distribuída entre [-α, α], onde α >0. Determinar o valor de α de
modo que as seguintes relações sejam satisfeitas:
7) Suponha que um mecanismo eletrônico tenha um tempo de vida de X (em unidades de 1000 horas)
que é considerado uma variável aleatória com fdp dada por:
⎧e − x , x > 0
f(x)= ⎨
⎩0, caso contrário
Suponha ainda que o custo de fabricação de um item seja 2,00um e o preço de venda seja 5,00 um. O
fabricante garante total devolução se x ≤ 0,8. Qual o lucro esperado por item?
8) Uma lâmpada tem duração de acordo com a seguinte função densidade de probabilidade:
(8.1) a probabilidade de que uma lâmpada dure mais do que 1200 horas.
(8.2) a probabilidade de que uma lâmpada dure menos do que sua duração média.
11) As alturas de 10.000 alunos de um colégio têm distribuição aproximadamente normal, com média de
170 cm e desvio padrão de 5 cm.
(11.1) Qual o número esperado de alunos com altura superior a 165 cm?
(11.2) Qual o intervalo simétrico em torno da média, que conterá 75% das alturas dos alunos?
12) As vendas de determinado produto têm distribuição aproximadamente normal, com média de 500 e
desvio padrão de 50. Se a empresa decide fabricar 600 unidades no mês em estudo, qual é a
probabilidade de que não possa atender a todos os pedidos desse mês por estar com a produção
esgotada?
13) O número de pedidos de compra de certo produto que uma empresa recebe por semana distribui-se
normalmente, com média 125 e desvio padrão de 25. Se em uma dada semana o estoque disponível
é de 150 unidades, qual é a probabilidade de que todos os pedidos sejam atendidos? Qual deveria
ser o estoque para se ter 99% de probabilidade de que todos os pedidos sejam atendidos?
14) Uma enchedora automática de garrafas de refrigerantes está regulada para que o volume médio de
líquido em cada garrafa seja de 1000 cm3, com desvio padrão de 10 cm3. Pode-se admitir que a
distribuição da variável seja normal.
(14.1) qual a percentagem de garrafas em que o volume de líquido é menor que 990 cm3?
(14.2) qual a percentagem de garrafas em que o volume de líquido na se desvia da média em mais do
que dois desvios padrões?
(14.3) o que acontecerá com a percentagem do item (14.2) se a máquina for regulada de forma que a
média seja 1200 cm3 e o desvio padrão 20 cm3?
15) O diâmetro de certo tipo de anel industrial é uma variável aleatória com distribuição normal de média
0,10 cm e desvio padrão de 0,02 cm. Se o diâmetro do anel diferir da média mais do que 0,03 cm,
ele é vendido por R$ 5,00, caso contrário, é vendido por R$ 10,00. Qual o preço médio de venda de
cada anel?
16) Utilize os valores da amostra tabelada ao lado, extraída aleatoriamente e sem reposição, de uma
população para estimar:
X fi
(16.1) a média da população 0⊢ 2 27
(16.2) a variância da população 2⊢ 4 51
(16.3) o percentual de elementos menores que 6. 49
4⊢ 6
6⊢ 8 48
8 ⊢ 10 25
17) De uma distribuição normal com variância 2,25, obteve-se a seguinte amostra:
Determine um intervalo de confiança para a média desta população com confianças de (17.1) 95% e
(17.2) 99%.
18) Através de uma amostra de 145 profissionais de certa região, verificou-se que o salário médio é de 8
salários mínimos (s.m), com desvio padrão de 1,8 s.m. A amostra também forneceu a informação de
que 70% dos profissionais eram casados.
(18.1) determine e interprete o intervalo de confiança de 95% para o salário médio de todos os
profissionais desta região.
(18.2) determine e interprete o intervalo de confiança de 99% para a proporção de profissionais casados
desta região.
19) A tabela ao lado apresenta os valores da variável “tamanho da família” coletadaos através de uma
amostra em uma vila popular.
Introdução à Probabilidade e Estatística - IPE 3
Prof. André Policani
LISTA DE EXERCÍCIOS III
(19.1) determine e interprete o intervalo de confiança de 95% X fi
para o parâmetro tamanho familiar médio por domicílio da vila. 3 10
4 14
(19.2) determine e interprete o intervalo de confiança de 90% 5 19
para o parâmetro proporção de domicílios da vila com tamanho 6 15
igual ou superior a cinco. 7 7
20) De uma população normalmente distribuída foi extraída uma amostra de 10 elementos que
apresentou os valores abaixo:
4 8 12 5 7 9 10 11 6 8
21) A tabela apresenta os valores de uma amostra retirada de uma população normal detemine:
22) Sabe-se que o consumo mensal per capita de determinado produto tem distribuição normal, com
desvio padrão de 2kg. A diretoria da empresa que fabrica esse produto resolveu que retiraria o
produto da linha de produção se a média do consumo per capita fosse menor que 8kg, caso
contrário, continuaria a fabricá-lo. Foi realizada uma pesquisa de mercado, tomando-se uma amostra
aleatória de 25 pessoas e verificou-se um consumo total de 180 kg do produto.
(22.1) construa um teste de hipóteses adequado para verificar a hipótese acima a um nível de
significância de 5% e diga qual deve ser a decisão a ser adotada pela empresa.
(22.2) se a diretoria tivesse fixado uma significância de 1% a decisão seria a mesma?
(22.3) se o desvio padrão populacional fosse de 4 kg, qual seria a decisão a ser tomada com base na
amostra utilizada?
23) A associação dos proprietários de indústrias metalúrgicas está preocupada com o tempo perdido
com acidentes de trabalho, cuja média, nos últimos tempos, tem sido da ordem de 60 homens/hora
por ano, com desvio padrão de 20 homens/hora. Tentou-se um programa de prevenção de acidentes
e, após o mesmo, tomou-se uma amostra aleatória de 16 indústrias e verificou-se que o tempo
perdido baixou para 40 homens/hora ano. Você diria que, ao nível de 10% de significância, o
programa surtiu efeito? E com 5% de significância?
24) Desconfia-se que a média das receitas municipais per capita das cidades pequenas (menos de 20
mil habitantes) é maior que a média da receita estadual que é de 1229 unidades monetárias. Para
testar a hipótese foi realizada uma amostragem com 10 pequenas cidades que forneceu os
seguintes resultados (em termos de receitas médias):
1230 582 576 2093 2621 1045 1439 717 1838 1359
Verifique se não é possível rejeitar a hipótese de que as receitas municipais são maiores do que as do
estado, aos níveis de significância usuais. Como isto se justifica, já que a média da amostra obtida é
bem maior que a média do estado?
Introdução à Probabilidade e Estatística - IPE 4
Prof. André Policani
LISTA DE EXERCÍCIOS III
25) Medidos os diâmetros de 31 eixos de um lote aleatório produzido por uma certa empresa, obteve-se
a distribuição abaixo:
Diâmetros (mm) 56,5 56,6 56,7 56,8 56,9 57,0 57,1 57,2 57,3
N.o de eixos 1 2 2 4 10 5 4 2 1
Ao nível de significância de 5%, há evidência de que o diâmetro médio dos eixos esteja fora da
especificação de uma média de 57 mm?
26) Um fabricante afirma que 90% das peças que fornece a um cliente estão de acordo com as
especificações exigidas. O exame de uma amostra aleatória de 200 destas peças revelou 25 fora
das especificações. Verifique se aos níveis de 1% e 5% de significância há exagero na afirmativa do
fabricante.
27) Suponha que a experiência tenha mostrado que dos alunos submetidos a determinado tipo de prova,
20% são reprovados. Se de uma determinada turma de 100 alunos são reprovados apenas 13,
pode-se concluir, ao nível de significância de 5%, que estes alunos são melhores?
28) Um exame é composto de 100 testes do tipo certo-errado. Determine o mínimo de testes que um
aluno deve acertar para que se possa, ao nível de significância de 5%, rejeitar a hipótese de que o
aluno nada sabe sobre a matéria e responda em favor da hipótese de que os alunos sabiam alguma
coisa sobre a matéria. Qual seria este mínimo, se fosse adotado o nível de significância de 1%?
29) O rótulo de uma caixa de sementes informa que a taxa de germinação é de 90. Entretanto, como a
data de validade está vencida, acredita-se que a taxa de germinação seja inferior a este número.
Faz-se um experimento e de 400 sementes, tomadas ao acaso, 350 germinam. Qual a conclusão ao
nível de 5% de significância?
30) Observou-se a produção mensal de uma indústria durante alguns anos e verificou-se que ela
obedecia a uma distribuição normal com variância igual a 300 u2. foi adotada então uma nova
técnica de produção e durante um período de 24 meses observou-se a produção mensal. Após este
período, constatou-se que a variância foi de 400 u2. Há motivos para se acreditar que houve
alteração na variância ao nível de 10%?
31) Numa linha de produção é importante que o tempo gasto numa determinada operação não varie
muito de empregado para empregado. Em operários bem treinados a variabilidade fica em 100 u2. a
empresa colocou 11 novos funcionários para trabalhar na linha de produção, supostamente bem
treinados, e observou os seguintes valores, em segundos:
125 135 115 120 150 130 125 145 125 140 130
Testar se o tempo despendido por estes funcionários pode ser considerado mais variável do que os
demais funcionários. Utiliza 5% de significância.