Está en la página 1de 15

TÓPICOS ESPECIAIS: Ferramentas

Computacionais para Economia

MANIPULAÇÃO DOS MICRODADOS DA PNAD


NO SOFTWARE STATA

I
Ricardo Bruno N. dos Santos
Professor Adjunto da Faculdade de Economia
e do PPGE (Economia) UFPA
Conceitos Básicos
1) Amostragem
Amostragem surge da necessidade de obter
informações sobre a população, que mesmo sendo finita,
pressupõe elevado custo para coleta de todas as
observações. O objetivo é, através de uma parte da
população (denominada de amostra), se fazer inferência a
respeito de toda a população. Esta amostra deve ser
representativa da população e, para isso, deve ser
selecionada de forma aleatória e probabilística. A forma
como o processo de seleção da amostra é executado
denomina-se plano amostral ou desenho amostral.
Conceitos Básicos
1) Amostragem
O plano amostral mais simples é a amostragem
aleatória simples (AAS), na qual todos os elementos
possuem a mesma probabilidade de serem escolhidos.
Este processo de seleção pode ser feito com reposição
(AASC) ou sem reposição (AASS). No caso da AASC, as
observações obtidas são tratadas como IID
(independentes e identicamente distribuídas). Na prática,
contudo o processo de seleção amostral é mais
“complexo” do que a AAS.
Conceitos Básicos
1) Amostragem
Os seguintes aspectos definem um plano amostral
complexo: estratificação das unidades de amostragem,
conglomeração (seleção da amostra em vários estágios),
probabilidades desiguais de seleção em um ou mais
estágios, e ajustes dos pesos amostrais para calibração
com totais populacionais conhecidos. Consequentemente,
dados obtidos de amostras complexas não podem ser
considerados IID.
Qualquer processo de amostragem que não seja AASC
possui design complexo e requer considerações especiais
na análise, para não se obter resultados viesados ou
calculados erroneamente.
Conceitos Básicos
2) Classificação dos Planos Amostrais
Um plano amostral é denominado informativo quando
o mecanismo de seleção das unidades amostrais pode
depender dos valores das variáveis de pesquisa, como nos
estudos de caso-controle e das “variáveis auxiliares”.
Esta situação se refere ao caso em que na amostra
existem casos (unidades que atendem a determinada
condição) e controle (unidades sem essa condição). Por
outro lado, um plano amostral é não-informativo, quando
independe dos valores das variáveis da pesquisa, podendo
depender apenas das variáveis auxiliares.
Conceitos Básicos
2) Classificação dos Planos Amostrais
Entre os planos amostrais não-informativos, pode-se
fazer uma subdivisão entre ignorável, no caso em que o
plano amostral é AASC, e não-ignorável, como os
oriundos de desenho amostral complexo. É possível
demonstrar que nos planos amostrais não-ignoráveis,
estimativas que não consideram o desenho amostral são
viesadas.
Conceitos Básicos
3) Diferenças nos resultados das estimações com e sem
considerar o plano amostral

Existem alguns métodos para avaliar o impacto da


incorporação do plano amostral, denominado de EPA
(Efeito do Plano Amostral). O primeiro a ser desenvolvido
foi o DEFF (design-effect) (Kish, 1965), definido como a
razão entre a estimativa da variância do parâmetro obtida
considerando o plano amostral e a estimativa da variância
do parâmetro, considerando que os dados fossem obtidos
como AAS. Posteriormente, é criado um conceito ampliado
de DEFF e bem mais simples de calcular, denominado
MEFF (misspecification effect).
Conceitos Básicos
3) Diferenças nos resultados das estimações com e sem
considerar o plano amostral

O MEFF compara a estimativa da variância do


parâmetro obtida considerando o plano amostral com outra
estimativa, do mesmo modelo, só que desconsiderando
peso, conglomerado e estratificação. Quanto mais o valor
calculado do MEFF for afastado de 1, mais incorreta será
considerada a especificação do plano amostral ou do
modelo. Se MEFF > 1, desconsiderar o plano amostral
subestima a variância verdadeira. Se MEFF < 1, não
considerar o desenho amostral superestima (inflaciona) a
variância verdadeira.
Conceitos Básicos
4) Problemas com a variância

Uma questão de grande relevância é que os dados não


podem ter estratos com PSU (unidade primária amostral)
único. Com PSU único não se tem como calcular variância. É
necessário ter variabilidade para se poder calcular variância. Em
algumas situações, além de PSU único deve-se observar a
existência também de PSU com observação única. Em algumas
situações é possível calcular variância com PSU com
observação única e outras vezes não é possível. Para
solucionar o problema de PSU único, pode-se agregar as
observações de estratos com PSU único em estrato na mesma
UF com maior número de observações (usando o ssc idonepsu),
por exemplo. Já com relação a questão do PSU com
observação única, não se pode fazer esta agregação e, por
enquanto, a alternativa é excluir esta observação única.
Múltiplos Estágios
svyset psu [weight], options || ssu, options...

Conceitos Básicos
5) Comandos SVY do Stata

Opções
strata(varname) - variável identificando os estratos
fpc(varname) - fator de correção para população finita.
vce(linearized) estimação de variância por Linearização de Taylor
(default)
vce(brr) estimação de variância por BRR
vce(jacknife) estimação de variância por Jacknife
singleunit (method) estratos com uma unidade amostral: métodos:
missing (default), certainty, scaled ou centered.

Pode-se usar ssu _n para indicar que os indivíduos foram selecionados


aleatoriamente dentro do último estágio amostral.
Múltiplos Estágios
svyset psu [weight], options || ssu, options...

Conceitos Básicos
5) Comandos SVY do Stata

5.2) svydes

svydes [varlist], options

Opções
single demonstra apenas os estratos com PSU único
finalstage quando especificado, uma linha é produzida para cada
unidade amostral. Cada linha contém o número de observações para a
respectiva unidade amostral.

5.3) estat effects cria uma tabela com os valores de DEFF,


DEFT, MEFF ou MEFT. É necessário uma estimativa anterior (média,
por ex., diferença de médias, etc.)
Múltiplos Estágios
svyset psu [weight], options || ssu, options...

Conceitos Básicos
5) Comandos SVY do Stata

5.4) svy estimation

Para estatística descritiva, o prefixo svy suporta: mean, proportion,


ratio e total. Alguns modelos de regressão aceitos: regress, tobit,
biprobit, logit, probit, clogit, mlogit/probit, ologit/probit, poisson,
ivregress, heckman. Exemplos:
svy: regress [varlist]
svy: mean [varname]
svy: heckman [varlist]

5.5) svy postestimation


Pode ser utilizado depois de estimações com svy, dentre outros, mfx
(efeitos marginais/elasticidades), predict, estimates, test.
Extração dos dados da PNAD

Antes de começarmos nosso exemplo, vamos instalar no


Stata o comando idonepsu, como ele é um comando não
oficial, temos que instalá-lo pelo comando findit:

Outra forma é inserir o arquivo idonepsu diretamente na


pasta ado

Vamos agora ver um exemplo de do-file, e vamos passo


a passo, para tanto, tudo que for organizado será inserido
na pasta projetos, o primeiro do-file organizado será o
dados_PNAD2005.do.
Verificação e correção de variáveis

O próximo passo é verificar se os dados foram extraídos


corretamente. Para isto, usa-se o comando assert.
assert é o comando do Stata mais útil para
verificação/checagem de dados, para verificar isso vamos
utilizar o do-file verifica.do, nele foi inserida uma
verificação sobre algumas variáveis, quando erro aparecer
vamos utilizar em seguida uma outra rotina.
Para verificarmos o problema é só dá um summarize na
variável que apresentou contradição:
Para corrigir os eventuais problemas da amostra, vamos
rodar o arquivo correção.do
Aplicando o modelo logit e comparando a
amostra complexa
Finalmente, visto que a base de dados não apresenta
mais problemas, será rodado o modelo logit, no entanto, o
modelo logit será rodado como amostra complexa, em
seguida será utilizada a opção MEF para verificar a
diferença entre as variáveis considerando a amostra como
complexa, e caso a mesma amostra não seja considerada
complexa. Finalmente será estimado o modelo logit sem
considerá-lo amostra complexa para termos comparativos.