Está en la página 1de 7

Avaliao Psicolgica, 2005, 4(2), pp.

141-153

141

IMPACTO DO TAMANHO DA AMOSTRA NA CALIBRAO DE ITENS E


ESTIMATIVA DE ESCORES POR TEORIA DE RESPOSTA AO ITEM
Carlos Henrique Sancineto da Silva Nunes - Universidade Federal do Rio Grande do Sul Instituto de
Psicologia / Laboratrio de Mensurao
1
Ricardo Primi - Programa de Ps Graduao Stricto Sensu em Psicologia,
Universidade So Francisco
RESUMO
A teoria da resposta ao item (TRI) tem sido considerada um grande marco para a psicometria moderna, pois apresenta
importantes vantagens em relao TCT, como a virtual invarincia dos parmetros dos itens em relao amostra,
estimao mais precisa e interpretvel do nvel de habilidade dos indivduos e procedimentos de equalizao de testes
mais eficientes. Contudo, tem sido discutido o tamanho mnimo da amostra para a utilizao da TRI. O objetivo do
presente estudo foi verificar o impacto do tamanho da amostra sobre a calibrao de itens por TRI, bem como na
estimativa da habilidade dos testandos. Para tanto, 9 amostras de diferentes tamanhos foram montadas a partir de um
banco de dados com as respostas de 44 mil estudantes do Estado da Bahia a um exame educacional de matemtica. Os
resultados indicaram que os parmetros dos itens e a habilidade dos avaliados podem ser estimados adequadamente para
amostras a partir de 200 participantes, sendo que amostras menores geram estimativas instveis.
Palavras-chave: Teoria de resposta ao item, Tamanho da amostra, Estatstica e Metodologia

IMPACT OF THE SAMPLE SIZE IN THE ITEM AND SUBJECT`S PARAMETERS ESTIMATES
UNDER ITEM RESPONSE THEORY
Abstract
Item Response Theory (IRT) has been considered an important development for the modern psychometrics because of its
several advantages compared to Classic Test Theory (CTT), such as: the virtual invariance of item parameters in respect
to the sample used in their estimation, more reliable and interpretable identification of person`s ability and more efficient
procedures for test equating. Nevertheless, there are discussions in respect to the minimal number of subjects in studies
using IRT. The aim of the study was to investigate the effect of sample size in the fluctuations of item and person
parameters. Nine samples with different sizes were assembled from a database of 44.000 answers from students of Bahia
State to an educational exam in mathematics. Results indicated that item and person parameters can be adequately
estimated from samples starting form 200 subjects. Smaller sample size produces greater instability with the threeparameter model.
Keywords: Item Response Theory, Sample Size, Statistics and Methodology

INTRODUO1
Freqentemente os profissionais e/ou
organizaes precisam tomar decises importantes
baseadas na mensurao de variveis mais

Correspondncias devem ser enviadas para:


Ricardo Primi, Universidade So Francisco, Laboratrio de Avaliao
Psicolgica e Educacional (LabAPE), Mestrado em Psicologia, Rua
Alexandre Rodrigues Barbosa, 45, CEP 13251-900, Itatiba, So Paulo,
Fone
(0XX11)
45348118,
correio
eletrnico:
ricardo.primi@saofrancisco.edu.br ou rprimi@uol.com.br.
As atividades de pesquisa do primeiro autor que deram origem a esse
artigo foram financiadas pelo Governo do Estado da Bahia. O segundo
autor recebe financiamentos do CNPq e FAPESP.

subjetivas. Por exemplo, na seleo de pessoal


preciso decidir quais candidatos possuem um perfil
pr-definido de caractersticas pessoais, com base
no resultado de testes medindo tais construtos. Na
certificao ocupacional preciso decidir se um
candidato apresenta as competncias mnimas
necessrias para desempenhar as tarefas centrais da
sua ocupao. Para isso, avalia-se um conjunto de
competncias definidas como fundamentais para
uma determinada rea profissional e verifica-se se o
candidato apresenta um desempenho maior do que
um padro de mrito previamente definido (Carter,
2005; Naquin, & Wilson, 2002). No contexto da
educao, essencial identificar o impacto de
programas e variveis contextuais sobre o
desempenho dos alunos, promovendo, com base
nessas informaes, capacitaes em reas
estratgicas para professores e diretores escolares,

142

Carlos Henrique Sancineto da Silva Nunes & Ricardo Primi

bem como dar condies s escolas a auto-gesto


da qualidade do ensino oferecido aos alunos.
Situaes desse tipo nos levam ao problema
da preciso das medidas, isto , quo estvel ou
livre de erros uma determinada medida . Erros
nessa situao podem produzir uma instabilidade ou
incertezas no processo de tomada de deciso e,
portanto, precisam ser previamente estimados para
que possam ser considerados nesse processo.
Geralmente antes de efetivamente se utilizar os
testes nas situaes de deciso, eles so pr testados
para se investigar os parmetros psicomtricos de
preciso e validade (AERA, NCME & APA, 1999).
Os resultados dessa fase so fundamentais para
garantir a legitimidade das decises ulteriores que
sero tomadas com base nos testes.
Uma questo muito freqente que os
psicometristas se defrontam quando delineiam os
estudos de pr-teste de instrumentos que sero
usados em avaliao de larga escala : Qual o
tamanho da amostra, no pr-teste, para garantir a
estabilidade mnima das estimativas dos parmetros
psicomtricos? Os estudos de pr-teste trabalham
com uma pequena amostra do grupo de pessoas que
potencialmente sero objeto de avaliao e que
sero afetadas pela deciso tomada com base no
teste. Por razes evidentes no possvel realizar o
pr-teste com todos esses sujeitos. O custo
financeiro de um estudo desse tipo inviabilizaria a
criao do instrumento e, alm disso, h o problema
do sigilo das questes, j que as pessoas passariam
a conhecer os itens antes de se submeterem
efetivamente prova. Ento quanto menor a
amostra de pr-testagem menor o custo e o risco.
Por outro lado quanto menor a amostra, maior a
chance de que ela seja menos representativa e, por
conseguinte, maior a incerteza em relao aos
valores dos parmetros psicomtricos estimados.
Assim incorre-se em uma questo tica de incerteza
quanto generalidade dos argumentos favorveis
validade da prova que so baseados nos parmetros
estimados na pr testagem. Portanto a questo
nesses casos passa a ser, quo pequena a amostra de
pr teste pode ser sem comprometer as estimativas
dos parmetros, isto , sem que eles passem de um
limite tolervel de incerteza?
Na construo de instrumentos para
avaliao em larga escala geralmente so
empregados os mtodos da psicometria moderna
chamada Teoria de Resposta ao Item (TRI). Tal
mtodo passou a ser conhecido, principalmente, a
partir do ano de 1968 com o trabalho de Lord e
Novick intitulado Statistical Theories of Mental
Avaliao Psicolgica, 2005, 4(2), pp. 141-153

Tests Scores (Muiz, 1994). Na literatura


especializada esta nova abordagem aparece
intitulada como: modelos de traos latentes [em
ingls: Latent Trait Models, LTM] ou modelos de
curvas caractersticas dos itens [em ingls: Item
Characteristic Curve Model, ICC], e mais
recentemente teoria de resposta ao item [em ingls:
Item Response Theory, IRT] (Hambleton &
Swaminatham 1985; Muiz (1990).
Inmeras aplicaes da TRI tm sido
exploradas nas ltimas trs dcadas tais como:
criao de bancos de itens, avaliao adaptativa
computadorizada, equalizao de provas, avaliao
de mudana cognitiva. Um detalhamento das
principais aplicaes encontrado, por exemplo,
em Lord (1980); Whiely (1980) e Wainer (1989).
Alguns exemplos de avaliao em larga escala que
utilizam a TRI so o teste TOEFL [em ingls Test
of English as a Foreign Language]; o teste GRE
[em ingls: Graduate Record Examinations], que
vem
sendo
aplicado
oficialmente
via
microcomputador usando avaliao adaptativa
baseada na TRI (Educational Testing Service, 1995,
1996).
Embora a TRI no entre em contradio
com os princpios da psicometria clssica, traz uma
nova proposta de anlise centrada nos itens que
supera as limitaes principais da teoria clssica
(Muniz, 1994, Hambleton, Swaminatham, Cook,
Eignor & Gifford 1978), alm de apresentar novos
recursos tecnolgicos para a avaliao. A TRI tem
como unidade de anlise o item e formaliza a
relao que existe entre a probabilidade de acertar o
item e a capacidade latente requerida na sua
resoluo. Quanto maior a capacidade de um
sujeito, chamado de trao latente, maior ser a
probabilidade de que este sujeito acerte um
determinado item que mea este construto. Portanto
possvel construir uma funo que expresse a
relao entre a probabilidade de acerto, dados os
valores do trao latente ( P() ).
Na literatura dois tipos de funes
matemticas tm sido utilizadas para modelar esta
relao: funes de distribuio normal acumulada
(ogivas normais) e funes de distribuio logstica
acumulada. Estas funes tomam a forma geral
exemplificada na Figura 1. Como se pode observar,
o valor de theta, ou da varivel latente, dado em
escore padro z. Observa-se que na medida em que
o escore na varivel latente aumenta, aumenta
tambm a probabilidade de se acertar o item. Um
segundo fato importante que a relao pode tomar
diferentes formas, dependendo das propriedades

Impacto do Tamanho da Amostra na Calibrao de Itens e Estimativa de Escores por Teoria de Resposta ao Item

dos itens, nomeadamente: (a) a dificuldade, (b) o


poder discriminativo, e (c) a probabilidade de
acertar o item ao acaso. Essas informaes podem

143

estar presentes nas equaes, possibilitando uma


maior caracterizao do item.

144

Carlos Henrique Sancineto da Silva Nunes & Ricardo Primi

e D ( bi )
1+ e D ( bi )
e Dai ( bi )
Pi ( )=
1+ e Dai ( bi )

Um parmetro

Pi ( )=

Dois parmetros

1,2
Trs parmetros

Pi ( )= ci +(1 ci )

1
Onde:
=
bi =

0,8
0,6

ai =
ci =
e =
D=

0,4
0,2

e Dai ( bi )
1+ e Dai ( bi )

valor da varivel latente


ndice de dificuldade
ndice de discriminao
probabilidade de acerto ao acaso
2,72
1,7

Figura 2. Funes logsticas de um, dois e trs parmetros da curva caracterstica do item.

0
-4

-3,2

-2,4

-1,6

-0,8

0,8

1,6

2,4

3,2

theta
Item 1

Item

Modelo usado

Item 1
Item 2
Item 3
Item 4

Um parmetro
Dois parmetros
Dois parmetros
Trs parmetros

Item 2

Item 3

Item 4

bi

ai

ci

0
0
1,6
-1,6

1
0,5
0,8
1,2

0
0
0
0,2

Figura 1. Exemplo de quatro curvas caractersticas de itens com parmetros distintos.


So chamados modelos de um parmetro
aqueles que incluem na funo somente a
informao sobre a dificuldade dos itens; modelos
de dois parmetros aqueles que incluem, alm da
dificuldade, o poder discriminativo, e modelos de
trs parmetros os que incluem alm da dificuldade,
o poder discriminativo e a probabilidade de acertar
o item por acaso. Portanto podem existir funes
baseadas nos modelos normais de um, dois e trs
parmetros e modelos logsticos de um, dois ou trs
parmetros. Atualmente as funes logsticas so as
mais utilizadas, dado que as funes normais
envolvem clculos mais complexos (Baker, 1992).
Na Figura 2 so apresentadas as funes logsticas
para os modelos de um, dois e trs parmetros.
Como pode ser notado nas equaes, a
probabilidade de acertar um item est em funo do
valor da varivel latente. Como o resultado dado
em probabilidades, P() pode assumir valores de 0
a 1. O caso mais geral o modelo de trs
parmetros, o que foi usado nesse estudo. Na Figura

1 as curvas de quatro itens diferentes foram


apresentadas. O modelo utilizado e os valores dos
parmetros foram apresentados em seguida. Nota-se
que para os quatro itens o aumento do valor de theta
corresponde a um aumento na probabilidade de
acerto. Contudo essas curvas tm formas diferentes
dependendo da caracterstica do item.
ndice de dificuldade (b)
Este ndice, que usualmente tem a notao
b, um parmetro do item que diz respeito ao valor
de theta (varivel latente) em que a probabilidade
de acerto 0,50. Portanto nos Itens 1 e 2, b = 0, j
que este valor da varivel latente corresponde a
probabilidade de 0,50. No Item 3, b = 1,6 e no Item
4, b = -1,6. Observa-se que a nica exceo a essa
regra o Item 4. Nesse caso o ndice de dificuldade
corresponde ao valor da varivel latente em que a
probabilidade de acerto for igual a (1 + ci ) 2 ,
portanto 0,50 se ci = 0 .

Nota-se que esse ndice no tem o mesmo


significado do ndice de dificuldade na psicometria
clssica. Ele no representa uma estimativa geral da
probabilidade de acerto de um determinado item
(ou seja, o ID da psicometria clssica). Aqui a
probabilidade de acerto fixada em 0,50, e
avaliado o valor de theta relacionado a esta
probabilidade. Avalia-se para cada item qual o
valor de theta exigido para a obteno de 50% de
acertos. Dentre os quatro itens apresentados na
Figura 1 o Item 3 o mais difcil, j que o valor de
theta para uma probabilidade de acerto 0,50 1,6,
maior do que todos os outros. J o Item 4 o mais
fcil. Pode ser demonstrado matematicamente que o
valor de b o ponto onde a curva caracterstica do
item tem sua maior inclinao, a partir do qual h
inflexo, ou seja, onde a curva passa a diminuir sua
inclinao. Por isso este o ponto onde h
discriminao mxima.
ndice de discriminao (a)
O valor do ndice de discriminao que
usualmente tem a notao a refere-se a inclinao
da curva. Quanto maior for a inclinao da curva
maior ser o valor deste ndice. Pode-se demonstrar
que ele proporcional ao coeficiente angular da
reta tangente ao ponto de mxima inclinao (ou
seja onde P = 0,50). Nota-se que quanto maior a
inclinao da curva maior a possibilidade de
discriminao da escala de habilidade, ou seja, para
uma mesma variao do theta, quanto maior for a
variao de P, mais intensa a discriminao entre
estes nveis de theta, porque mais diferentes so as
probabilidades. Dentre os itens da Figura 7 o Item 4
o mais discriminativo e o Item 2 o menos

Avaliao Psicolgica, 2005, 4(2), pp. 141-153


Avaliao Psicolgica, 2005, 4(2), pp. 141-153

discriminativo. No Item 1 o valor de a = 1 assim


como todas as curvas dadas pelo modelo de um
parmetro. Nota-se que o item no discrimina
igualmente em toda a escala de theta. Isto um
ponto importante a ser ressaltado e tratado em
mais detalhes quando se criam as funes de
informao do item que informam qual a preciso
do item para os diferentes nveis de theta. Em
termos psicolgicos, se uma escala avalia, por
exemplo, raciocnio verbal, um item com maior
valor de a capaz de diferenciar pessoas com
nveis distintos nesse construto das demais. No
entanto, vale salientar que a capacidade de
discriminao dos itens varia de acordo com o nvel
de habilidade avaliado (ou theta).
Probabilidade de acertar o item ao acaso (c)
Esse
parmetro
corresponde
a
probabilidade de acertar o item quando a habilidade
tende a . Assim este valor representa a
probabilidade de acerto quando a habilidade
muito baixa, ou seja, a probabilidade de acerto no
dependente da habilidade; relacionando-se portanto
aos acertos ao acaso. Na Figura 1 o valor deste
parmetro 0,20 para o Item 4 e 0 para os itens
restantes.
A aplicao da TRI envolve inicialmente a
estimao dos parmetros para os itens. Uma vez
calibrados pode-se usar o instrumento para se obter
medidas dos sujeitos que respondem aos itens. Mais
uma vez as medidas para os sujeitos so estimadas a
partir dos padres de resposta aos itens
considerando os parmetros desses itens. Com base
nessas informaes os procedimentos de clculo
elaboram uma funo que relacionam os valores
possveis da medida com a probabilidade de terem

Impacto do Tamanho da Amostra na Calibrao de Itens e Estimativa de Escores por Teoria de Resposta ao Item

produzido aquele padro especfico de respostas


para aquele dado conjunto de itens. H diferentes
mtodos em funo da informao disponvel.
Geralmente nas estimaes iniciais preciso
estimar as medidas dos sujeitos e os parmetros dos
itens simultaneamente. Portanto os mtodos tm
que lidar com o problema de no ter informaes
nem dos parmetros dos itens e nem dos sujeitos. J
quando se tem os parmetros dos itens estimados os
clculos das capacidades dos sujeitos mais facil.
Uma discusso mais detalhada desses mtodos pode
ser encontrada em Embretson & Reise (2000).
Como qualquer estimativa estatstica estas
produzem um valor mais prximo possvel do valor
verdadeiro juntamente com um erro de amostragem.
Assim a quantidade de sujeitos na amostra utilizada
na estimao, isto , sua representatividade,
influencia
diretamente
a
magnitude
da
confiabilidade das estimativas (ou o erro amostral).
A questo que nos propomos estudar nesse artigo
refere-se ao impacto que diferentes amostras com
nmeros cada vez mais reduzidos de sujeitos teriam
na estimao dos parmetros dos itens e dos
sujeitos. Esse estudo muito til para se perceber
qual o tamanho mnimo da amostra sem que haja
perdas muito grandes em termos de aumento do
erro das estimativas.
Embretson e Reise (2000) indicam que
possvel a estimao dos parmetros dos itens por
TRI com amostras de 250 participantes, em dados
gerados por simulao Monte Carlo. No entanto, os

145

autores indicam a necessidade de realizao de


estudos com dados reais, a partir de instrumentos
que efetivamente avaliam construtos psicolgicos.
De uma forma geral, os autores indicam que a
avaliao de amostras pequenas deve ser cuidadosa
e essencial a heterogeneidade dos mesmos para o
construto avaliado. Justificam que, principalmente
em escalas politnicas so prejudicadas caso
algumas categorias apresentem poucos casos.
Sendo assim, o objetivo desse estudo foi
verificar o efeito do tamanho da amostra na
confiabilidade das estimativas dos parmetros dos
itens e das habilidades dos avaliados. Foi
empregado o modelo de trs parmetros,
frequentemente utilizado na avaliao psicolgica,
educacional, certificao ocupacional, entre outros.
MTODO
Participantes
Para a realizao do estudo, foi utilizada
uma base de dados cedida pelo Projeto de
Avaliao Externa ISP / UFBA FAPEX,
contendo as respostas obtidas em uma prova de
Avaliao de Desempenho aplicada no ano de
2002. A base de dados inclui respostas de 44.636
estudantes de 4 srie do ensino bsico na disciplina
de matemtica. Foram criadas, a partir da base de
dados original, 9 bases parciais, com cdigos e
caractersticas descritas na Tabela 1.

Tabela 1. Descrio das amostras utilizadas no presente estudo.


Cdigo
T40K

Nmero de
estudantes
44.635

T20Ka
T20Kb
T1000
T500
T200
T100
T52
T30C

22.317
22.318
1.000
500
200
100
52
30

T27

27

Descrio
Composta por todos os estudantes que responderam prova de matemtica, forma A
de 4a srie, de Avaliao de Desempenho no ano de 2002.
Composta pela primeira metade de T40K
Composta pela segunda metade de T40K
Composta pelos 1000 primeiros estudantes de T20Ka
Composta pelos 500 primeiros estudantes de T1000
Composta pelos 200 primeiros estudantes de T500
Composta pelos 100 primeiros estudantes de T100
Composta pelos 52 primeiros estudantes de T100
Composta por 30 estudantes com thetas variados, escolhidos de T200: 10 acima de 1;
10 abaixo de -1 e 10 entre esses valores
Composta pelos 27 primeiros estudantes de T52

Instrumentos
O instrumento utilizado foi a prova de
matemtica para Avaliao de Desempenho,
composto por 25 itens de mltiplas escolhas, com
quatro alternativas. A prova foi elaborada pelo
ncleo de contedo do Projeto de Avaliao

Externa, a partir de matrizes de contedos que


foram validadas por especialistas em educao,
diretores e professores do Estado da Bahia, bem
como pela comunidade geral. A prova era composta
por itens que nos estudos de pr-testagem haviam
atendido s especificaes mnimas indicadas pelo
Avaliao Psicolgica, 2005, 4(2), pp. 141-153

146

Carlos Henrique Sancineto da Silva Nunes & Ricardo Primi

Tambm foram montadas planilhas com os


resultados das anlises dos parmetros a
(discriminao dos itens) e b (nvel de
dificuldade) para os itens da prova.

setor de psicometria do Projeto de Avaliao


Externa.
Procedimentos
Os dados foram analisados com a utilizao
do Software XCalibre, especfico para a estimao
dos parmetros psicomtricos de itens dicotmicos,
por TRI, nos modelos de dois e trs parmetros. O
programa tambm permite a equalizao de teste a
partir da fixao dos parmetros de itens comuns
entre eles.
Inicialmente, os parmetros dos itens foram
estimados em todas as amostras, exceto para T30C.
Em seguida, foi feito o clculo de theta dos
participantes para as amostras estudadas e foram
escolhidos, da amostra composta por 200 pessoas,
10 estudantes para cada faixa de desempenho: 10
com thetas acima de 1; 10 com thetas abaixo de -1 e
10 com escores intermedirios (entre -1 e 1).
Com o auxlio de um software para
montagem de bases de dados, os thetas estimados
para os estudantes em todas as amostras foram
agrupados considerando-se o seu cdigo individual.

RESULTADOS E DISCUSSO
Para verificar o impacto do tamanho da
amostra na estimativa do nvel de dificuldade dos
itens, foi calculada a dificuldade da prova a partir
da mdia dos b de todos os seus itens. Em
seguida, foi calculada a diferena dos valores
encontrados nas amostras parciais em relao
amostra completa (com 44 mil estudantes).
Tambm foram calculadas as correlaes dos b
dos itens entre as amostras parciais e a amostra
completa. A Tabela 2 apresenta as informaes
citadas e a Figura 3 (anexo 1) apresenta os nveis de
dificuldade (parmetro b) para os 5 primeiros itens
da prova, na parte A, e nas partes B e C os
diagramas de disperso dos bs sempre em
comparao com a amostra completa.

Tabela 2. Dificuldade dos itens nas amostras utilizadas.


ITEM
item17
item12
item24
item03
item20
item23
item18
item16
item10
item06
item13
item21
item08
item07
item02
item14
item25
item04
item19
item22
item05
item09
item11
item15
item01

T27
-0,03
0,19
0,18
-0,13
-0,54
0,15
-0,33
0,16
-0,07
0,10
-0,15
-0,31
-0,35
-1,55
-0,17
-0,14
-1,07
-1,74
-0,88
-0,86
-0,89
-1,23
-1,27
-1,78
-2,05

T30C
1,12
1,56
1,74
1,11
0,91
1,10
1,42
0,67
1,10
1,30
0,05
0,80
0,48
0,53
1,35
0,44
0,05
0,34
-0,73
-0,02
-0,16
-0,05
-0,08
-1,05
-1,87

T52
0,05
0,42
0,45
0,16
-0,10
0,51
0,04
0,13
-0,19
0,38
-0,04
0,16
0,24
-0,75
-0,23
0,22
-1,02
-0,82
-0,83
-0,95
-0,76
-1,07
-1,20
-1,29
-1,97

T100
0,64
0,95
1,31
0,73
0,72
0,83
0,62
0,44
0,20
0,60
0,36
0,78
0,90
0,29
0,35
0,74
-0,18
-0,05
-0,50
-0,36
-0,51
-0,19
-0,64
-0,77
-1,56

T200
1,04
1,57
1,72
1,46
1,27
1,16
1,15
0,69
0,65
0,89
0,78
1,10
1,00
0,52
0,81
0,75
-0,18
0,33
-0,52
-0,09
-0,69
-0,42
-0,43
-1,00
-1,85

T500
1,36
1,57
1,76
1,55
1,17
1,14
1,19
0,84
0,71
0,61
0,73
1,09
0,88
0,87
0,64
0,60
-0,17
0,15
-0,61
-0,29
-0,70
-0,66
-0,35
-1,11
-2,15

T1000
1,48
1,61
1,54
1,57
0,98
1,12
0,81
0,87
0,81
0,76
0,69
0,77
0,80
0,59
0,68
0,65
-0,13
0,08
-0,62
-0,36
-0,75
-0,59
-0,48
-1,04
-1,95

T20Ka
1,73
1,60
1,51
1,39
1,04
0,95
1,04
0,80
0,79
0,74
0,75
0,87
0,73
0,80
0,75
0,57
-0,36
-0,31
-0,64
-0,78
-0,87
-0,76
-0,99
-1,12
-2,48

T20Kb
2,02
1,66
1,42
1,40
1,00
1,07
0,86
0,97
0,93
0,89
0,87
0,75
0,82
0,73
0,59
0,68
-0,19
-0,20
-0,42
-0,67
-0,64
-0,65
-0,67
-1,06
-2,26

T40K
1,85
1,64
1,46
1,39
1,02
1,02
0,94
0,90
0,87
0,83
0,83
0,81
0,78
0,76
0,69
0,63
-0,25
-0,32
-0,54
-0,73
-0,75
-0,75
-0,87
-1,13
-2,39

Correlao
Diferena

0,84
0,97

0,90
0,39

0,92
0,72

0,94
0,38

0,96
0,25

0,98
0,19

0,99
0,14

1,00
0,07

1,00
0,07

1,00
0,00

Avaliao Psicolgica, 2005, 4(2), pp. 141-153

Impacto do Tamanho da Amostra na Calibrao de Itens e Estimativa de Escores por Teoria de Resposta ao Item

147

148

Carlos Henrique Sancineto da Silva Nunes & Ricardo Primi

segmentos da escala de theta criados para


estimao dos parmetros o que faz com que as
estimativas das probabilidades de acerto sejam

mais estveis sendo possvel revelar com mais


clareza a os casos de maior ou menor
inclinao da curva caracterstica do item.

1,20

Tabela 3. Discriminao dos itens nas amostras estudadas.

1,00
0,80
0,60
0,40
0,20
0,00
T27

T30C

T52

T100

T200

T500

T1000

T20Ka

T20Kb

Amostra

Figura 4. Diferena entre a mdia de dificuldade da prova nas amostras.


A Figura 4 apresenta graficamente os dados
das diferenas em relao amostra completa entre
as mdias dos bs para as diferentes amostras.
possvel verificar-se que os valores
variam muito nas amostras com at 100 pessoas,
tornando-se razoavelmente estveis com as
amostras compostas por 200 estudantes. Vale notar
que esse perfil tende a repetir-se com todos os itens
da prova. Se considerarmos a relao custo
benefcio, possvel verificar que os parmetros de
dificuldade so praticamente os mesmos se usarmos
amostras com 200 sujeitos ao invs de 44 mil.

Para verificar o impacto do tamanho da


amostra na estimativa da capacidade de
discriminao dos itens (parmetro a na
TRI), este parmetro foi calculado em todas as
amostras estudadas, bem como a diferena
entre a mdia de discriminao para cada
amostra parcial e a amostra completa e a sua
correlao. A Tabela 3 apresenta o resultado
dessa anlise, que pode ser visualizada para 5
itens na parte A da Figura 5 (anexo 2). Nas
partes B e C so apresentados os diagramas de
disperso dos valores dos ndices de
discriminao estimados pelas amostras
parciais e completa.
Essa anlise trz alguns pontos bem
interessantes. Em primeiro lugar os resultados
das amostras com at 100 estudantes indicaram
parmetros virtualmente iguais para todos os

itens avaliados prximos a 0,80. Tambm


importante notar que esse valor exatamente o
valor do parmetro a definido a priori no
processo de calibrao dos itens. Portanto em
amostras pequenas o valor de discriminao
varia muito pouco. Em segundo lugar,
verificando-se a correlao entre os ndices de
discriminao dos itens das amostras parciais
em comparao com a amostra completa, notase que a mesma moderada para os grupos
pequenos e considerada alta com grupos a
partir de 200 pessoas (nessa amostra a
correlao atinge 0,87). A partir desse tamanho
os parmetros mantm a posio relativa.
Entretanto a disperso dos valores da
discriminao baixa.
A Figura 6 apresenta a diferena entre a
mdia da discriminao dos itens das amostras
parciais em relao amostra total. possvel
verificar-se que essas diferenas no so muito
acentuadas, mesmo para as amostras pequenas.
A partir de 500 sujeitos as estimativas so bem
mais prximas e com a amostra de 20.000
sujeitos, praticamente idnticas s estimativas
derivadas da amostra completa.
Em sntese a disperso dos ndices de
discriminao aumenta com o aumento da
amostra. Isso pode ser decorrncia de uma
maior quantidade de sujeitos nos vrios

ITEM
item10
item16
item24
item23
item20
item06
item08
item13
item21
item14
item07
item18
item02
item05
item12
item03
item19
item15
item09
item01
item25
item22
item11
item17
item04

T27
0,81
0,82
0,78
0,78
0,82
0,79
0,77
0,82
0,77
0,79
0,82
0,78
0,76
0,77
0,78
0,72
0,70
0,81
0,75
0,79
0,73
0,72
0,73
0,75
0,77

T30C
0,81
0,87
0,82
0,85
0,81
0,79
0,85
0,87
0,81
0,78
0,77
0,82
0,79
0,86
0,80
0,82
0,81
0,82
0,78
0,82
0,84
0,81
0,82
0,80
0,76

T52
0,85
0,88
0,79
0,86
0,82
0,83
0,86
0,83
0,85
0,81
0,81
0,83
0,83
0,82
0,80
0,80
0,75
0,87
0,80
0,86
0,77
0,76
0,77
0,75
0,76

T100
1,01
1,04
0,93
0,95
0,98
0,92
1,01
0,92
0,98
0,99
0,98
0,93
0,94
0,87
0,93
0,97
0,86
0,94
0,89
0,91
0,96
0,91
0,85
0,82
0,78

T200
0,99
1,02
0,88
0,90
0,94
0,81
0,93
0,82
0,91
0,87
0,90
0,86
0,84
0,75
0,84
0,94
0,76
0,78
0,76
0,77
0,77
0,71
0,72
0,69
0,64

T500
1,25
1,15
0,93
1,08
1,11
0,95
1,13
0,84
0,94
0,93
0,83
0,90
0,83
0,73
0,82
0,96
0,75
0,74
0,72
0,75
0,68
0,62
0,64
0,62
0,53

T1000
1,39
1,16
0,94
1,08
1,08
0,92
1,20
0,94
0,90
0,94
0,93
0,93
0,86
0,77
0,86
1,05
0,72
0,73
0,68
0,76
0,65
0,61
0,56
0,58
0,42

T20Ka
1,49
1,26
1,22
1,16
1,22
1,16
1,10
1,05
1,05
0,94
0,94
0,92
0,81
0,82
0,78
0,80
0,72
0,70
0,65
0,61
0,55
0,48
0,40
0,30
0,28

T20Kb
1,54
1,29
1,28
1,31
1,19
1,09
1,14
1,10
1,14
0,98
0,94
0,92
0,86
0,85
0,80
0,81
0,74
0,73
0,68
0,61
0,62
0,48
0,44
0,37
0,31

T40K
1,54
1,29
1,27
1,25
1,21
1,15
1,12
1,11
1,10
0,97
0,94
0,91
0,85
0,83
0,81
0,80
0,72
0,71
0,66
0,61
0,59
0,48
0,41
0,31
0,29

Correlao
Diferena

0,60
0,26

0,34
0,26

0,66
0,25

0,76
0,24

0,87
0,20

0,92
0,14

0,92
0,12

1,00
0,02

1,00
0,02

1,00
0,00

0,30
0,25
0,20
0,15
0,10
0,05
0,00
T27

T30C

T100

T200

T500

T1000

T20Ka

T20Kb

T40K

Amostra

Figura 6. Diferenas entre o ndice de discriminao mdio das provas nas amostras.
Avaliao Psicolgica, 2005, 4(2), pp. 141-153

Avaliao Psicolgica, 2005, 4(2), pp. 141-153

T52

Impacto do Tamanho da Amostra na Calibrao de Itens e Estimativa de Escores por Teoria de Resposta ao Item

149

No entanto, observando-se os valores


absolutos dos escores dos participantes, foi possvel
verificar-se que estes apresentavam algumas
discrepncias significativas, principalmente entre a
amostra completa (com 44 mil participantes) e as
menores amostras. Para verificar-se a magnitude
dessas diferenas, foram realizadas regresses
lineares nas quais o theta da amostra completa foi
considerado como varivel dependente e o theta das
amostras parciais como independentes.
importante salientar que as regresses foram
realizadas independentemente para cada amostra
parcial. A idia bsica na realizao dessa anlise
que se no houvesse diferenas significativas entre
os escores estimados nas amostras, o valor da
constante estimada pela regresso linear deveria
estar prximo de zero enquanto que o valor de B
deveria ficar prximo de 1.

Para verificar-se o impacto do tamanho da


amostra na estimativa de habilidade dos
participantes (Theta), estes foram calculados a
partir do mtodo da Mxima Verossimilhana
(Maximum Likelihood) em todas as amostras. Como
cada estudante avaliado apresentava um cdigo
especfico, foi possvel realizar a comparao dos
thetas dos mesmos gerados nas amostras com
diferentes tamanhos. Para verificar-se a eficcia da
equalizao por parmetros fixados, foram
calculados os escores dos estudantes na amostra de
50 pessoas com os parmetros estimados na
amostra completa (com 44 mil estudantes). Os
resultados so descritos na varivel theta50E.
A Tabela 4 apresenta a correlao entre os
thetas dos participantes em todas as amostras
estudadas. possvel verificar-se que os escores
estimados, independentemente do tamanho da
amostra, apresentam uma associao extremamente
forte.

Tabela 4. Correlao entre os Thetas estimados nas amostras.


theta40k
theta20ka
theta1k
theta500
theta200
theta100
theta50
theta50E

theta20ka
1,00

theta20kb
1,00

theta1k
1,00
1,00

theta500
0,99
0,98
0,98

A tabela 5 apresenta o valor da constante e


de B nas regresses calculadas. possvel notar que
o valor da constante relativamente pequeno com
amostras a partir de 200 pessoas, sendo que o valor
de B nesta amostra est bem prximo ao esperado

theta200
0,97
0,96
0,96
0,99

theta100
0,99
0,99
0,99
0,99
0,98

theta50
0,99
0,99
0,99
0,98
0,96
1,00

theta50E
0,98
0,99
0,99
0,98
0,97
0,98
0,98

theta25
0,99
0,99
0,99
1,00
1,00
1,00
1,00
0,98

(1). Pode-se tambm verificar que o valore


encontrado na amostra de 50 pessoas aps a sua
equalizao (theta50E) apresenta-se muito mais
prximo do esperado do que quando no feita a
equalizao (theta 50).

Tabela 5. Regresso entre o theta das amostras parciais comparados amostra completa.
constante
B

theta25
1,06
0,85

theta50
0,79
0,97

theta50E
0,13
0,85

theta100
0,18
1,06

Esse resultado indica que o principal erro


ao estimar o theta de pessoas em grupos pequenos a
partir da TRI encontra-se na perda de referncia da
habilidade mdia (estimada como 0 na TRI). No
entanto, a partir do procedimento de equalizao,
esse efeito pode ser minimizado e, mesmo quando
so avaliados pequenos grupos, a TRI pode ser
utilizada desde que os parmetros dos itens sejam
antecipadamente estimados em amostras maiores.

theta200
0,09
0,93

theta500
0,04
0,94

Theta1000
-0,01
1,03

theta20kA
-0,02
1,00

theta20kB
0,03
0,98

CONSIDERAES FINAIS
Esse estudo objetivou verificar o efeito do
tamanho da amostra na confiabilidade das
estimativas dos parmetros dos itens e das
capacidades dos sujeitos. De forma geral pode-se
Avaliao Psicolgica,
4(2), pp.
141-153
concluir que amostras
com 5002005,
sujeitos
trazem
resultados muito prximos aos estimados com
amostras maiores. Amostras com 200 sujeitos
Avaliao Psicolgica, 2005, 4(2), pp. 141-153

150

Carlos Henrique Sancineto da Silva Nunes & Ricardo

tambm geram resultados bastante aproximados


principalmente quanto aos parmetros de
dificuldade e de capacidade dos sujeitos. Essa
aproximao no to eficaz quando se considera
os parmetros de discriminao. Vale salientar, no
entanto, que mesmo para o parmetro a, a posio
relativa dos itens foi estimada, ou seja, os itens que
apresentaram maior capacidade de discriminao na
amostra com 200 participantes foram os mesmos
em amostras maiores.
Tais resultados corroboram os dados
apresentados na literatura especializada gerados, na
sua maioria, a partir de dados simulados
(Embretson & Reise, 2000; Hambleton &
Swaminatham, 1985 e Muiz 1990). Tal
informao pode ser til nas decises sobre a
definio da amostra em estudos de pr-testagem
uma vez que demonstra que com amostras muito
mais reduzidas (200 ou 500 em relao a 40000)
podemos obter praticamente os mesmos resultados
que obteramos se analisssemos amostras muito
maiores.
Algumas
limitaes
precisam
ser
consideradas quanto a generalizao das
recomendaes sugeridas nesse estudo. Os dados
podem variar se estivssemos analisando dados de
outro construto (conhecimento em geografia, por
exemplo) ou de outras amostras com distribuies
mais assimtricas ou, por outro lado, at mesmo
prximas das condies ideais. Em tais casos o
nmero mnimo de sujeitos recomendado para se
recuperar os valores verdadeiros dos parmetros
pode variar. Mas considerando a concordncia com
os dados da literatura as sugestes sugeridas aqui
so seguras para uma grande variedade de
situaes.
REFERNCIAS
American Educational Research Association,
American
Psychological
Association,
Nacional Concil on Measurement in
Education (1999). Standards for Educational
and Psychological Testing. Washington, DC:
American Educational Research Association
Baker, F. B. (1992). Item response theory
parameter estimation techniques. New York:
Marcel Dekker Inc.
Carter, S. D. (2005). The Growth of Supply and
Demand of Occupational-Based Training and
Certification in the United States, 1990-2003.

Avaliao Psicolgica, 2005, 4(2), pp. 141-153

Human Resource Development Quarterly, 16,


33-54.
Educational Testing Service (1996). GRE 1996/97
Information
&
Registration
Bulletin.
Princeton: Educational Testing Service.
Educational Testing Service (1995) TOEFL
Practice Tests. Princeton: Educational
Testing Service.
Embretson, S., & Reise, S. (2000). Item Response
Theory for Psychologists. Mahwah, New
Jersey: Lawrence Erlbaum Associates.
Hambleton, H. K., Swaminatham, H. & Rogers, H.
J. (1991). Fundamentals of item response
theory.
Newbury
park,
CA:
Sage
Publications.
Hambleton, R. K. & Rovinelli R. J. (1986).
Assessing the dimensionality of a set of test
items. Applied Psychological Measurement,
10(3), pag. 287-302.
Hambleton, H. K. & Swaminatham, H. (1985). Item
response theory: principles and applications.
Boston: Kluwer.
Hambleton, H. K., Swaminatham, H., Cook, L. L.,
Eignor, D. R. & Gifford, J. A. (1978).
Developments in latent trait theory: models,
technical issues, and applications. Review of
Educational Research, 48(4), 467-510.
Hutchinson, L.; Aitken, P.; Hayes, T. (2002). Are
medical postgraduate certification processes
valid? A systematic review of the published
evidence. Medical Education, 36, 73-91.
Lord, F. M. (1980). Aplications of item response
theory to practical testing problems. New
Jersey: Lawrence Erlbaum Associates.
Lord, F. M. & Novick, N. R. (1968). Statistical
Theories of mental test scores. Reading Mass:
Addison - Weslley.
Muiz, J. (1994). Teora clsica de los tests.
Madrid: Ediciones Pirmide, S.A.
Muiz, J. (1990). Teora de respuesta a los tems:
un nuevo enfoque en la evolucin psicolgica
y educativa. Madrid: Ediciones Pirmide,
S.A.
Naquin, S. S.; Wilson, J. (2002). Creating
competency standards, assessments, and
certification. Advances in Developing Human
Resources, 4, 180-187.
Wainer, H. (1989). The future of item analysis.
Journal of Educational Measurement, 26(2),
191-208.
Recebido em Fevereiro de 2006
Aprovado em Maro de 2006

Impacto do Tamanho da Amostra na Calibrao de Itens e Estimativa de Escores por Teoria de Resposta ao Item

151

152

Carlos Henrique Sancineto da Silva Nunes & Ricardo Primi

ANEXO 1
Sobre os autores:
Carlos Henrique Sancineto da Silva Nunes:
Psiclogo,
Doutor
em
Psicologia
do
Desenvolvimento pela Universidade Federal do Rio
Grande do Sul e pesquisador do Laboratrio de
Mensurao da UFRGS.
Ricardo Primi: Psiclogo, Doutor em Psicologia
Escolar e do Desenvolvimento Humano pela
Universidade de So Paulo e docente na graduao
e Ps Graduao Stricto Sensu em Psicologia da
Universidade So Francisco.

T40K
T27

3,00

T40K
T200

3,00

T40K
T30C
T40K
T52

2,00

T40K
T500
T40K
T1000

2,00

T40K
T100

T40K
T20Ka
T40K
T20Kb

1,00

1,00

0,00

0,00

-1,00

-1,00

-2,00

-2,00

-3,00

-3,00
-3,00

-2,00

-1,00

0,00

1,00

2,00

3,00

-3,00

-2,00

-1,00

0,00

1,00

2,00

3,00

Figura 3. Comparao dos ndices de dificuldade dos itens nas amostras estudadas.

Avaliao Psicolgica, 2005, 4(2), pp. 141-153


Avaliao Psicolgica, 2005, 4(2), pp. 141-153

Impacto do Tamanho da Amostra na Calibrao de Itens e Estimativa de Escores por Teoria de Resposta ao Item

153

ANEXO 2

T40K
T27

1,60

T40K
T200

1,60

T40K
T500

T40K
T30C
T40K
T52

1,40

T40K
T1000

1,40

T40K
T20Ka

T40K
T100

T40K
T20Kb

1,20

1,20

1,00

1,00

0,80

0,80

0,60

0,60
0,40

0,40
0,20

0,20
0,20

0,20

0,40

0,60

0,80

1,00

1,20

1,40

0,40

0,60

0,80

1,00

1,20

1,40

1,60

1,60

C
B
Figura 5. ndice de discriminao dos itens nas amostras estudadas.

Avaliao Psicolgica, 2005, 4(2), pp. 141-153

También podría gustarte