Guía Prueba Numero 2

Gua prueba numero 2
CONSTRUCCIN DE TESTS
La primera tarea y una de las ms importantes a la hora de construir un
test es la eleccin de los tems, previo acorde de los supuestos tericos que
deben definir el rasgo que el test pretenda medir.
El concepto "Anlisis de items" hace referencia al conjunto de aquellos
procedimientos formales que se llevan a cabo para seleccionar aquellos items
que finalmente formarn el test. La informacin que se considera ms
relevante respecto a los items es:
a) Dificultad del tem , porcentaje de individuos que lo aciertan.
b) Discriminacin, correlacin de cada tem con la puntuacin

total sobre el test.
c) Distractores o anlisis de error, su influencia es relevante,

afecta a la dificultad del item y hace que se subestimen los valores
de discriminacin.
A la hora de establecer indicadores de los distintos ndices suele usarse

unos estadsticos o ndices, siendo los siguientes los ms utilizados:
ndice de dificultad
ndice de discriminacin
ndice de fiabilidad
ndice de validez
Conocidos los ndices que hay que tener en cuenta para la seleccin de los
items que formarn el test, vamos a ver qu pasos son necesarios para
la construccin de un test:
1) Especificacin del problema.
2) Enunciar un amplio conjunto de tems y depurarlos.
3) Eleccin del modelo (va a depender de los objetivos que persiga el test, de
las caractersticas y calidad de los datos, y de aquellos recursos de que se
dispone).
4) Probar los tems preseleccionados.
5) Seleccionar los tems idneos.
6) Estudiar las cualidades del test

7) Establecer las norma de interpretacin del test final obtenido.
.
Cuando se elige un modelo ya vienen dadas las condiciones tericas en las que
se puede aplicar, no obstante sus virtudes hay que analizarlas en cada caso y
circunstancias concretas. Las propiedades atribuibles a aquellos modelos que
integran la Teora de la Respuesta al Item (TRI), pueden verse afectadas por:
la dimensionalidad de la prueba
la escasa disponibilidad de muestra
falta de recursos informticos
Proceso de operalizacion
Es un proceso que se inicia con la definicin de las variables en funcin de
factores estrictamente medibles a los que se les llama indicadores.
El proceso obliga a realizar una definicin conceptual de la variables
para romper el concepto difuso que ella engloba y as darle sentido
concreto dentro de la investigacin, luego en funcin de ello se
procese a realizar la definicin operacional de la misma para
identificar los indicadores que permitirn realizar su medicin de
forma emprica y cuantitativa, al igual que cualitativamente llegado el
caso.
Es necesario determinar los parmetros de medicin a partir de los cuales
se establecer la relacin de variables enunciadas por la hiptesis (o idea a
defender)
Variable
constitutiva: constructo que
se define a travs de otros
constructos e, se denomina tambin definicin Conceptual
La validez de una variable depende sistemticamente del marco terico
que fundamenta el problema y del cual se ha desprendido, y de su relacin
directa con la hiptesis (o idea a defender) que la respalda.
Operalizacion (test)
Variable operacional: procedimiento que se debe seguirse para medir (con
un numero o no) y/o manipular una variable
lo fundamentaldefinir el constructo ( proceso de valides del contenido: si
miden lo que yo quiero que mida, anlisis de los tems.)
Variable dicotmica: que poseen dos categoras ( ej. hombre y mujer)
Recordatorio:
Variable Independiente:
-
Explica, condiciona, o determina el cambio en los valores de la

variable dependiente.
Acta como factor condicionante de la variable dependiente
Se le llama tambin causal o experimental porque es manipulada

por el investigador.
Variable dependiente:
-
Es el fenmeno o situacin explicado Es la variable que es

afectada por la presencia o accin de la variable independiente.
se llama tambin de efecto o accin condicionada
Conceptualizacin y elaboracin de reactivos

-
revisin de literatura sobre pruebas ya existentes para medir el

constructo
fenmeno social o patrn de conducta nuevo un dominio o habilidad
especifica.
etc
Construccin de tems
Clasificacin de los tipos de test
Un test psicolgico constituye esencialmente una medida objetiva y
tipificada de una muestra de conducta. Podemos afirmar entonces que
proporciona una medida objetiva, de lo que se intenta medir, cuando:
-
Existe uniformidad de criterios, a ejecutar por todos los examinadores,

en el proceso de aplicacin del test en lo referente a consigna,
condiciones generales de aplicacin, como son: iluminacin, ventilacin,
preparacin de los materiales necesarios, la forma de responder a las
preguntas de las personas examinadas, y todos los detalles de la
situacin de examen. Esto se conoce como tipificacin en el proceso
de aplicacin de un test determinado. La tipificacin incluye
adems, la velocidad con que se habla, las inflexiones de la voz, las
pautas, la expresin facial, etc.
Se mantiene el procedimiento tipificado de calificacin, es decir,

se otorgan las puntuaciones tal como est pautado para dicho
test.
La interpretacin de las puntuaciones son objetivas en cuanto son

independientes del juicio subjetivo del examinador en particular. Es
decir, el proceso de interpretacin esta igualmente tipificado
para las diferentes puntuaciones del test, en relacin a la
muestra de conducta que el test mide. En ocasiones la tipificacin
interpretativa de la puntuacin incluye la consideracin de algunas
variables como la edad, el sexo, etc., ya que estas variables pueden
introducir diferencias significativas para la muestra de conducta
que se estudia.
Existen normas tipificadas de la conducta que el test intenta

medir para la poblacin en la cual se aplica el test, lo que
permite la interpretacin de los resultados obtenidos por ese
instrumento.
La norma: es la actuacin media o normal del comportamiento en la

poblacin, de la variable o variables que el test mide. Sin normas, no es
posible interpretar las puntuaciones del test. La puntuacin de un
individuo slo puede valorarse comparndola con las obtenidas por
otros. Por
Ejemplo:
Si los nios normales de 8 aos ejecutan correctamente 12 de los 50 tems
de un determinado test de razonamiento aritmtico, entonces la norma en este
test, para los nios de 8 aos de edad, corresponde a una puntuacin de 12.
La puntuacin que obtiene una persona en un test no tiene ninguna
significacin hasta que se valora en funcin de un adecuado conjunto de
normas.
Para que un test sea considerado como objetivo; este procedimiento
est basado en el grado de dificultad que alcanzan los tems del test o el test
completo, es lo que se conoce como Medida objetiva de dificultad ,
y en base a esta medida de dificultad es que se puede realizar el
trabajo de diferenciacin de unas personas en relacin a otras y su
ubicacin, de acuerdo a la distribucin en una curva de normalidad,
del rasgo que se mide con dicho test.
Formato de las respuestas:
Rendimiento ptimo (pruebas de rendimiento y de inteligencia)
- eleccin binaria
- eleccin mltiple
- emparejamiento
- redaccin de los tems
Rendimiento tpico (comportamiento ordinario de las personas)

-
opcin binaria(acuerdo/desacuerdo) ( forzar a la persona a responder)

categoras ordenadas (5 a 7 cat) ( escalas de liker)
adjetivos bipolares (alegra___triste)
Siempre hay que pensar que es lo ms adecuado por el sujeto al momento de

contestar la prueba.
Reactivos en base a rendimiento optimo (pruebas referidas a normas)
Buen reactivo:
- aquel que es acertado por quienes obtienen puntuaciones altas en la
prueba.
- quienes obtienen puntaciones bajas , tienden a responderlo
incorrectamente.
Reactivos en base a rendimiento tpico (pruebas referidas a un
criterio)
-
el sentido es discriminar si se tiene o no el criterio ( experto en

computacin , etc.), por lo tanto la discriminacin tiene otra
interpretacin
implica un estudio con al menos 2 grupos en que se puede discriminar

el criterio ( saber programar dos o no) y esto determina cuales son los
reactivos apropiados
Estudio piloto
-
investigacin preliminar que rodea la creacin de una prueba

se intenta determinar cmo medir el constructo de la mejor forma
det. caractersticas de quienes poseen distintos niveles del atributo
verificacin por medios indirectos de caractersticas tiene los sujetos.
Construccin de la prueba
unidad de medicin)
-
(formato de respuesta es lo que da la
las escalas son reglas de medicin que aplicamos

la elaboracin de escalas implica reglas para la asignacin numrica
diseo y calibracin del instrumento, y la forma en que se asigna
( niveles de medida)
Escalas
instrumento utilizados para medir un rasgo caracterstica o atributos

las escalas son mtodos de medicin , sean estas nominales , ordinales,
de intervalo o de razn
dependen del ob. de la escala: generalmente representa mayor o menor
cantidad de un atributo, en funcin de la puntuacin en la prueba.
Escala de tems tipo likert

la escala de likert nos permite hacer una exploracin y conocer las
diferencias de un polo a otro, las likert son ordinarias, pero para nosotros es
una medicin de intervalos, ya que nos permite sumarlas, promediarlas de
sacar de ms a menos.
Escala de estimacin
1
Nunca
Rara vez
A veces
Casi siempre
Siempre
Podemos utilizar el tem Likert para medir diferentes actitudes de un

encuestado. Por ejemplo, podemos emplearlo para descubrir:
El nivel de acuerdo con una afirmacin.
La frecuencia con la que se realiza cierta actividad.
El nivel de importancia que se atribuye a un determinado factor.
La valoracin de un servicio, producto, o empresa.
La probabilidad de realizar una accin futura.
el tem ms utilizado sea el de 5 niveles, pero tambin se utilizan de 4, 7,

o 10. Lo que sabemos es que aadir niveles redunda en la obtencin de unas
valoraciones ms diversas. Por ejemplo, en un tem de solo 5 puntos, los
encuestados suelen evitar las 2 opciones extremas, obteniendo muy poca
variacin (es el conocido como central tendency bias).
Una vez terminado el cuestionario, cada tem puede ser analizado
separadamente o bien, en determinados casos, las respuestas de un conjunto
de tems Likert pueden sumarse y obtener un valor total. El valor asignado a
cada posicin es arbitrario y lo determinar el propio investigador/diseador de
la encuesta. Dado este valor, podremos calcular la media, la mediana, o la
moda. La mediana y la moda son las mtricas ms interesantes, dado que
hacer una interpretacin de la media numrica si manejamos categoras como
de acuerdo o en desacuerdo, no nos aportar mucha informacin.
Ventajas del tem Likert
Desde el punto de vista del diseo del cuestionario, es una
escala fcil de construir.

Desde el punto de vista del encuestado, le ofrecemos la facilidad
de poder graduar su opinin ante afirmaciones complejas.
En Internet funciona especialmente bien: es muy visual, el encuestado

puede realizar comparaciones entre tems, as como modificar y
ajustar su respuesta fcilmente.
Inconvenientes del tem Likert
Por un lado, dos personas pueden obtener el mismo valor en la

escala Likert, habiendo realizado elecciones diferentes.
Es difcil tratar las respuestas neutras, del tipo ni de acuerdo ni

en desacuerdo.
Los encuestados tienden a estar de acuerdo con las afirmaciones

presentadas.
Una buena escala de Likert debe ser simtrica, es decir, debe tener el mismo
nmero de categoras positivas y negativas.
tipos de escalas
Escala nominal
Se utiliza en todas aquellas modalidades o caractersticas en las que la nica
comprobacin emprica que puede hacerse es la de igualdad o
desigualdad.
Escala ordinal
Los objetos pueden manifestar determinada caracterstica en mayor grado unos que otros. Ej. La dureza de
los minerales.
Escala de intervalos
Permite establecer la igualdad o desigualdad de las diferencias enre las magnitudes de los objetods medidos.
Ej. Termmetro, calendario.
Escalas de razn
Las escalas de intervalo sirven para medir caractersticas en las que el valor cero no significa ausencia de
dicha caracterstica.
Los valores en una escala de razn tienen un valor absoluto, no arbitrario, o valor cero absoluto que s
significa ausencia de caracterstica.
Redaccin de tems
Rendimiento optimo:
-
la idea principal del tem debe estar en el enunciado ( constructo,

habilidad debe estar contenida en este punto)
simplicidad del enunciado
evitar los conocimiento excesivamente triviales o excesivamente

rebuscados
evitar dar informacin irrelevantes en el enunciado
evitar dar inicios sobre la solucin
evitar cuestiones de opinin
no encadenar unos tems de otros
anticipar la dif. e incluir preg. de todo rango de dif.
la dif. no debe estar en la comprensin del tem
mini. tiempo de lec.
evitar el uso de : neg. y errores gramaticales y ortogrficos.
Pruebas de rendimiento tpico

-
utiliza el tiempo presente

relevantes al rasgo evaluado
contenido claro y simple
evitar generalizacin : que todo o nadie asume el contenido

buscar actitudes , evitar hechos
alterna punto. tems (ordenes respuesta inversas )
evitar dobles negaciones ( no , ninguno, nunca ) y universal ( todo,
siempre , nada )
minimizar la posibilidad de la deseabilidad social ( tems que presente
imagen positiva solamente
evitar exceder 5 cat. : suficiente variabilidad
Confiabilidad: la medicin concuerde consigo mismo, logro medir

controlar
-
preciso
que se puede predecir cmo va a responder ante las situaciones
estabilidad
fiabilidad
predictible
falta de distorsin
Puntuacin verdadero: la persona es reactiva ante el reactivo, y no por

factores externos que pasan a ser varianza a de error, siendo que este valor se
a mayor, y el segundo sea de 0, como ideal siendo lo ms pequeo posible, y
que el sujeto no conteste con estados alterados, ya que este solo debe
contestar lo que est en el sujeto.
Calificacin e interpretacin
-
el calificado puede ser fuente de varianza de error, al obtener

calificaciones subjetivas inconsistentes entre los distintos evaluadores.
esto va relacionado tambin con quien califica, ya que debe ser

conocedor del tema, si la persona es experta del tema se puede creas
en el criterio.
Estabilidad de la confiabilidad temporal

Pre
y
post.
prueba(test retest):
cuando aplico un test
en un tiempo uno y
despus en un tempo
2 mida lo que mida,
siendo este estable, y
despus
esas
dos
correlaciono
estas
dos, en base a la
mismas ( correlacin
de
Pearson)(
8
semanas
como
mnimo el efecto de
arrastre) dificultades,
es
la
poblacin
cautiva.
Cuando
se
esta
midiendo un rastro
hay
que
esta
conciente que es un
estado
que
varie,
pero
debe
estar
consistente
Confiabilidad
Formas alternas o
equivalentes : del
mismo
instrumento
obtengo dos formas,
lo que se busca esque
exista una correlacin
entre ambas.
Consistencia
interna
divisin
mitades:
es
por
la
versin
econmica,
el
cuestionario que
divido lo parto
por
la
mitad,
buscando
que
exista una alta
correlacin entre
estos.
-
homogeneidad:
evala como el
tem aporta a
medir
el
constructo,
la
relacion del tem
con
el
constructo,
correlacion tem
total.
KR-20 ( cuando
el formato de
respuesta
es
dicotmico)/Alf
a( escalas de
medida
de
intervalos
de
razn, escalas
de likert): son
los
indicadores
por
excelencia
para
la
evaluacin de la
consistencia
interna; calcular
todas las posibles
correlaciones
entre sus tems,
y sus totales,
adems
de
obtener el error
de estos y en
base
a
ello,
estima el puntaje
verdadero
sujeto
del
el kr-20 se tiene que sacar a mano, ya que en el spss no lo contempla;

pero el alfa lo vamos a utilizar como suplente.
Valides y Confiabilidad
VALIDEZ: se refiere al grado en que el test mide lo que pretende medir. De
igual forma existen varios procedimientos para determinar la validez de un
test:
los tres tipos de valides comunes :
1). Validez de contenido: Verifica que el test mide correctamente
el constructo o la dimensin que tiene por objetivo medir. Se refiere al
examen sistemtico del contenido del test para determinar si comprende una
muestra representativa de la forma de conducta que ha de medirse.
Tambin nos permite identificar si el instrumento es una copia adecuada y
representativa de los contenidos que se pretenden evaluar con l, al igual que
no indica hasta qu punto los tems del instrumento representan todas las
facetas de un concepto determinado
Se demuestra mediante expertos que los tems preguntan sobre
todos los aspectos relevantes que se quiere evaluar.
2). Valides criterial: examina la correlacin entre el rendimiento en los
resultados del test y un criterio de rendimiento externo
Se obtiene la correlacin entre el test y las valoraciones sobre
habilidad verbal realizado por unos profesores.
3). Valides de constructo: En qu grado la escala mide el constructo
inobservable que pretende medir: El instrumento debe medir constructo
completo y nada ms que ese constructo
Se aplica anlisis factorial para determinar el agrupamiento de los
tems.
Otras valideces implcitas en la construccin de un test o cuestionario:
Valides conceptual o terica: todo instrumento de medicin se fundamenta

en un concepto o modelo terico, que se comprueba para que los resultados se
atengan al modelo.
Validez predictiva: Indica la efectividad o el grado del test en la prediccin
de algn resultado futuro.
Validez concurrente. La relacin entre las puntuaciones del test y los ndices
de status del criterio obtenido, aproximadamente al mismo tiempo, se conoce
como validez concurrente.
Validez de elaboracin o de hiptesis de trabajo: La validez de
elaboracin de un test es el grado en que este mide una elaboracin terica o
rasgo.
Valides de instrumento: se refiere al grado en que el instrumento mide
aquello que pretende medir.
CONFIABILIDAD: significa la estabilidad o consistencia de la
puntuacin, obtenida por una persona, en diferentes momentos en
que se le aplique el mismo test.
Tambin se refiere al grado en que el instrumento arroja los mismos
datos (resultados) cuando se vuelve a medir la caracterstica en
situaciones similares, dando por hecho que el evento medido no ha
cambiado
La confiabilidad se refiere a la exactitud de la medicin. La confiabilidad como
unidad de probabilidad se expresa en unidades que varan de cero a uno, en
ningn caso podr ser negativa. Entre ms se aproxime a uno es ms confiable
el instrumento, es decir es ms preciso en la medicin de lo que se quiere
medir
-
La estabilidad temporal (confiabilidad test retest) : indica el

grado en que las puntuaciones de un test quedan afectadas por las
fluctuaciones diarias que se producen en el sujeto o en el ambiente en
que se aplica el test. La estabilidad temporal de un test depende
parcialmente de la longitud del intervalo sobre el que se mide.
Algunos tests muestran elevada fiabilidad tras perodos cortos, pero
cuando el intervalo de aplicacin se extiende en el tiempo se observa
una falta casi absoluta de correspondencia entre las puntuaciones
obtenidas en los dos momentos diferentes .En intervalos de tiempo
largos es muy posible que las condiciones de vida en las cuales
se desempea un sujeto cambien, al punto tal que su
rendimiento en los test puede mejorar o empeorar, en relacin a
l mismo o en comparacin con sujetos de su misma edad, a
causa de circunstancias como pueden ser: desarrollo de
habilidades por algn oficio, condiciones de su hogar o
comunidad o por otras razones como una enfermedad o
trastorno emocional. Factores de este tipo hacen necesario
realizar nuevas evaluaciones

evaluadas con anterioridad.
-
en
personas
que
ya
fueron
Confiabilidad de la consistencia interna del instrumento: que

indica en qu medida los tems miden la misma dimensin, se puede
estimar con el alfa de Cronbach y kr 20.
Confiabilidad del examinador para la aplicacin y la calificacin. En

este sentido casi todos los tests proporcionan procedimientos tipificados para
su aplicacin y puntuacin que permiten pensar que la fiabilidad del
examinador para la aplicacin y calificacin es alta a los fines prcticos. Lo
nico a vigilar es asegurarse de que se sigue con cuidado los procedimientos
prescritos. El problema reside en el control emprico de las condiciones bajo las
cuales el test debe ser aplicado
Sensibilidad: hace referencia al poder de discriminacin del test, o a la
capacidad de distincin entre unos individuos y otros.
La deseabilidad social: La deseabilidad social es una tendencia que aparece
en las evaluaciones y que refleja la predisposicin de una persona a responder
de forma que sea vista de manera favorable por el resto.
Los test se someten a un anlisis de la sensibilidad de los tems para
comprobar que el nivel de deseabilidad social es el mismo para cada una de las
dimensiones que se evalan. Los tems de un test deben pasar un examen para
garantizar que no son sensibles a la deseabilidad social.
Construccin de los tems
La construccin de los tems depende ms del ingenio e inspiracin del
constructor que de la aplicacin sistemtica de una tecnologa, confindolo
todo a que los anlisis estadsticos a posteriori permitan detectar los tems
inapropiado Afortunadamente esta filosofa ha ido cambiando y en la
actualidad disponemos de trabajos y programas de investigacin centrados en
la construccin rigurosa de los tems, varias son las razones que han originado
este cambio:
a) el predominio que han tenido en los ltimos aos los modelos de
Teora de Respuesta a los tems, colocando todo lo relacionado con el tem
como unidad bsica de medida en el centro del escenario psicomtrico
b) la aparicin de los Tests Adaptativos Informatizados, que exigen la
elaboracin continua de tems para reponer
c) el gran desarrollo de las tcnicas para detectar el funcionamiento
diferencial de los tems , que obliga a indagar con rigor qu hace que
un tem funcione de diferente modo para distintas poblaciones.
d) la interaccin entre los modelos psicomtricos y la psicologa

cognitiva, que lleva a construir con precisin los distintos componentes de los
tems para poder analizar los procesos psicolgicos implicados en su
resolucin.
e) la irrupcin de modelos de evaluacin alternativos a los
convencionales, tales como la denominada evaluacin autntica , que
ha obligado a mejorar y justificar los tems de los tests convencionales.
Adems de estas razones, la combinacin del ordenador con otros
medios audiovisuales, realidad virtual e internet est abriendo
posibilidades insospechadas en la confeccin de los tems.
Formatos para los tems
Preguntas abiertas: en las que el sujeto debe elaborar totalmente lo que se
le plantea
Eleccin de alternativas: si presenta slo dos opciones de respuesta, o de
verdadero-falso si son esas las opciones ofrecidas.
Eleccin mltiple: consistente en un enunciado o pregunta que se completa
con varias opciones de respuesta entre las que el sujeto debe identificar la
nica correcta.
Los tems de eleccin mltiple exigen a quien los elabora un mayor
esfuerzo y pericia que aquellos ms abiertos que slo plantean la pregunta,
aunque hoy por hoy tienen la ventaja de una evaluacin ms fiable. Por ello,
los de eleccin mltiple son un recurso muy adecuado para estudiar
amplias poblaciones de sujetos. A pesar de tales ventajas, estos tems
son vistos con reticencia por cuanto slo seran adecuados para
evaluar tareas sencillas y resultados de procesos ms que estos.
Aunque tales carencias pueden estar presentes en muchos tems de
este tipo, no son inherentes a ellos; con tems de eleccin mltiple
adecuadamente
construidos
resulta
posible
evaluar
tareas
cognitivamente complejas, as como todos los pasos que deseen
evaluarse de un proceso, como se pone de manifiesto ampliamente en la
prctica de la evaluacin
Directrices para la construccin de tems de eleccin mltiple
las directrices procedimentales aconsejan un uso correcto de la gramtica, una
cantidad no excesiva de material a leer en el tem, la colocacin vertical de las
opciones y que haya solo una correcta, as como evitar el formato de eleccin
mltiple complejo
Referidas al contenido
Sealan el nivel y tipo de pensamiento que puede requerir el tem,
mientras que los dos grupos restantes recogen directrices especficas para
cada una de las partes del tem, enunciado y opciones
1. Cada tem debera reflejar un contenido especfico y una nica conducta

mental especfica,
tal como sea requerido en las especificaciones del test (tabla de doble entrada,
proyecto del test)
02. Base cada tem en un contenido importante para el aprendizaje; evite
contenidos triviales
03. Use material novedoso para evaluar el aprendizaje de alto nivel. Cuando los
utilice en un tem, parafrasee el lenguaje de los libros de texto, o el lenguaje
utilizado durante la instruccin, para as evitar evaluar el mero recuerdo
04. Mantenga el contenido de cada tem independiente del contenido de otros
tems del test
05. Al escribir tems de eleccin mltiple, evite contenidos muy especficos o
muy generales
06. Evite tems basados en opiniones
07. Evite tems con trampas
08. Use un vocabulario sencillo para el grupo de estudiantes que estn siendo
evaluados
Referidas al formato
09. Del formato convencional de eleccin mltiple utilice la interrogacin,
completar frases, la mejor respuesta, eleccin alternativa, verdadero-falso,
verdadero-falso mltiple, emparejamiento, los conjuntos de tems y los
dependientes de contexto; sin embargo, evite el formato de eleccin mltiple
complejo (el tipo K)
10. Construya el tem de forma vertical, no horizontal Referidas al estilo
11. Corrija y pruebe los tems
12. Utilice una gramtica, puntuacin, maysculas y minsculas y deletreo
correctos
13. Minimice la cantidad de lectura en cada tem
Redaccin del enunciado
14. Asegrese de que el sentido del enunciado resulta muy claro
15. Incluya la idea central en el enunciado y no en las opciones
16. Evite adornar el texto en exceso (palabrera excesiva)
17. Exprese el enunciado de manera afirmativa, evitando trminos negativos

tales como NO o EXCEPTO. Si usa trminos negativos, hgalo con sumo
cuidado y asegrese que aparecen en maysculas o negritas
Redaccin de las opciones
18. Escriba tantas opciones como pueda, si bien la investigacin sugiere que
con tres es suficiente
19. Asegrese que slo una de esas opciones es la respuesta correcta
20. Vare la colocacin de la respuesta correcta segn el nmero de opciones
21. Coloque las opciones en un orden lgico o numrico
22. Construya las opciones independientes entre s, no deben solaparse
23. Mantenga a las opciones homogneas en contenido y estructura gramatical
24. Escriba las opciones con una longitud aproximadamente igual
25. La opcin Ninguna de las anteriores debe usarse con mucho cuidado
26. Evite la opcin Todas las anteriores
27. Escriba las opciones de forma afirmativa, evite trminos negativos tales
como NO
28. Evite dar pistas sobre la respuesta correcta, tales como:
a. Determinantes especficos como siempre, nunca, completamente y
absolutamente
b. Asociaciones por sonido similar y opciones idnticas o parecidas a
trminos del enunciado
c. Inconsistencias gramaticales que indiquen al sujeto la eleccin correcta
d. Opcin correcta destacada
e. . Pares o tros de opciones que indiquen al sujeto la opcin correcta
f. Opciones claramente absurdas o ridculas
29. Haga plausibles todos los distractores
30. Use errores usuales de los estudiantes para escribir los distractores
31. Use el humor si es compatible con el profesor y con el ambiente de
aprendizaje
Nuevas directrices para la construccin de tems de eleccin mltiple

A. Eleccin del contenido que se desea evaluar
1.Debe ser una muestra representativa del contenido recogido en una
tabla de especificacin, evitando tems triviales
1.
2.La representatividad deber marcar lo sencillo o complejo, concreto o
abstracto, memorstico o de razonamiento que deba ser el tem, as como el
modo de expresarlo
2.
B. Expresin del contenido en el tem
3. Lo central debe expresarse en el enunciado. Cada opcin es un
complemento que debe concordar gramaticalmente con el enunciado
3.
4. La sintaxis o estructura gramatical debe ser correcta. Evitar tems
demasiado escuetos o profusos, ambiguos o confusos, cuidando adems las
expresiones negativas
4.
5.La semntica debe estar ajustada al contenido y a las personas evaluadas
C. Construccin de las opciones
6.La opcin correcta debe ser slo una, acompaada por distractoras plausibles
7. La opcin correcta debe estar repartida entre las distintas ubicaciones
8. Las opciones deben ser preferiblemente tres
9. Las opciones deben presentarse usualmente en vertical
10. El conjunto de opciones de cada tem debe aparecer estructurado
11. Las opciones deben ser autnomas entre s, sin solaparse ni referirse unas
a otras. Por ello, deben evitarse las opciones Todas las anteriores y Ninguna
de las anteriores
12. Ninguna opcin debe destacar del resto ni en contenido ni en apariencia
Importancia de las directrices
La reorganizacin de directrices llevada a cabo puede constituir

una herramienta til para el profesional que desee construir tems de
eleccin mltiple o tenga que analizar los ya existentes.
Facilitar adems la investigacin emprica sobre los distintos
aspectos de los tems de eleccin mltiple, algo muy conveniente
dada la insuficiencia de datos existentes para muchas de las
directrices, apoyadas en su defecto en la prctica acumulada con la
construccin
de tems
La directrices tambin pueden resultar de gran utilidad a la hora
de estudiar de forma rigurosa la validez de contenido de una prueba,
pues no conviene olvidar que en el complejo proceso de validacin de
los tests el anlisis de los contenidos constituye una fase esencial
Directrices para la traduccin y adaptacin de los test.
El objetivo de las directrices es que el producto final del proceso de adaptacin
consiga con respecto a la prueba original el mximo nivel de equivalencia
lingstica, cultural, conceptual y mtrica posible, y para ello son concebidas
como un patrn que gua a los investigadores y profesionales en las pautas a
seguir.
El proceso es global en naturaleza y abarca la totalidad de fases y cuestiones
a considerar durante el proceso de traduccin, desde cuestiones legales
relacionadas con los derechos de la propiedad intelectual del test a adaptar,
hasta aspectos formales que ataen a la redaccin del manual que documenta
los cambios introducidos. Todos ellos son importantes, y a todos ellos se habr
de prestar atencin.
Directrices previas
-
Comprobar sobre quin recae el derecho de la propiedad

intelectual del instrumento y en su caso obtener los permisos
legales permitir garantizar la autenticidad del producto final y proteger
el trabajo de adaptaciones no autorizadas.
El estudio de las caractersticas del constructo a medir ya que

alerta sobre las consecuencias de asumir sin ms la universalidad de los
constructos entre culturas, y aconseja evaluar el grado o nivel de
solapamiento entre el constructo en la poblacin origen y en la
poblacin diana como nico medio para delimitar y definir el nivel de
equivalencia deseado
Directrices sobre el desarrollo del test

Guan durante el proceso de adaptacin y desarrollo del test, y ofrecen pautas
para superar algunos de los malentendidos ms comunes relacionados con el
uso de la traduccin literal como garanta de equivalencia, o el excesivo peso

otorgado a la traduccin inversa (back-translation) como procedimiento de
verificacin de la calidad de la adaptacin.
Es habitual considerar que en una buena traduccin la equivalencia entre la
versin original y la versin retrotraducida generada por un traductor
independiente es muy alta. Esta consideracin, sin embargo, no es garanta
de validez de la versin diana, es ms, en una mala traduccin el grado de
equivalencia entre la versin original y la versin retro-traducida puede ser
muy alta. La esto se debe aque las malas traducciones se apoyan en
traducciones literales en lugar de en una esmerada adaptacin de
significados.
Para considerar los factores lingsticos y culturales a tener en cuenta durante
la adaptacin se aconseja la implementacin de un procedimiento interactivo
de depuracin que se inicia con varias traducciones independientes hacia
adelante, que luego sern revisadas por un comit mixto en el que conviene
incluir, adems de traductores con conocimientos de los idiomas y culturas, a
especialistas en el campo de evaluacin que analicen la adecuacin de la
versin adaptada. Correccin lingstica y adecuacin prctica son conceptos
complementarios que es necesario compatibilizar.
*Pruebas piloto: permiten:
a) recoger in situ las reacciones de las personas que realizan la prueba
b) asegurarse
comprendidos
de
que
los
tems
instrucciones
son
correctamente
c) registrar el tiempo necesario para la ejecucin del cuestionario

d) recoger informacin sobre posibles errores de contenido o formato que se
pueden corregir antes de pasar a la fase operacional
e) obtener datos que permitirn llevar a cabo un primer anlisis de tems que
indiquen la direccin y sentido de los ndices psicomtricos ms relevantes.
Directrices de confirmacin
Hacen referencia a aspectos tcnicos relacionados con las
propiedades psicomtricas del test adaptado y a su equivalencia con
respecto al test original. Proponen llevar a cabo estudios de equivalencia
mtrica entre las versiones original y adaptada que determinarn el grado
de relacin entre cada uno de los tems que componen la prueba y la
dimensin que representan.
Si la relacin funcional no es equivalente entre las versiones original/adaptada
la comparabilidad entre escalas se ver amenazada.
Directrices sobre aplicacin
La forma en la que se aplica un test influye en las propiedades

psicomtricas de las puntuaciones obtenidas, tales como su fiabilidad
y validez. los aplicadores:
a) deben ser elegidos entre personas de la poblacin a la que se aplica el test
b) estar familiarizados con los distintos matices de la cultura de que se trate
c) tener experiencia y aptitudes para la aplicacin de tests
d) conocer la importancia de seguir al pie de la letra los procedimientos
reglados para la aplicacin de los tests. Deben de programarse sesiones de
entrenamiento riguroso para los aplicadores.
Directrices sobre puntuacin e interpretacin
Alertan sobre los riesgos derivados de la tentacin de comparar
directamente puntuaciones obtenidas en contextos culturales o
lingsticos diferentes por medio de escalas adaptadas.
Si no puede demostrarse la existencia de equivalencia mtrica entre todos los
tems que componen las escalas original y adaptada, las puntuaciones
obtenidas no podrn compararse directamente. El problema de la comparacin
entre puntuaciones se agrava con su interpretacin.
Los estudios comparativos deberan de usarse para comprender
las semejanzas y diferencias entre los grupos analizados, pero nunca
para establecer comparaciones sin ms. Y no es adecuado establecerlas
porque raramente encontraremos dos comunidades que sean equiparables
completamente en aspectos tan influyentes como motivacin a la hora de
hacer las pruebas, curriculas escolares, valores culturales, nivel de vida,
polticas educativas, oportunidades de acceso a la educacin, etc.
Directrices sobre documentacin
Finalmente, para interpretar las puntuaciones el psiclogo debe de
disponer de una documentacin exhaustiva acerca de cmo se llev a cabo el
proceso de adaptacin.
Las directrices de la ITC an en un documento sencillo las pautas a seguir para
asegurar el mximo nivel de equivalencia entre las versiones original y
adaptada de un test, que podran resumirse en:
a) consideraciones legales previas que afectan a la propiedad intelectual
b) valoracin del constructo en la poblacin diana
c) diseos de adaptacin que tengan en cuenta las caractersticas lingsticas,

psicolgicas y culturales del texto adaptado, as como su adecuacin prctica
d) la importancia de las pruebas piloto
e) la seleccin cualitativa y cuantitativa adecuada de la muestra de
adaptacin
f) la importancia de los estudios de equivalencia
g) la delimitacin del grado de comparabilidad entre puntuaciones
h) la importancia de unas correctas condiciones de aplicacin e interpretacin
i)la informacin exhaustiva sobre los cambios llevados a cabo en el test
adaptado. Estas directrices constituyen una actualizacin y reorganizacin de
las publicadas originalmente, tratando de aprovechar la experiencia recogida
desde la publicacin de la primera edicin.
Segn Hambleton (2004, 2006), seis grandes reas atraern la atencin de
investigadores y profesionales en los prximos aos.
1. el uso internacional de los tests, debido a la globalizacin creciente y a
las facilidades de comunicacin, lo cual plantea todo un conjunto de
problemas de adaptacin de los tests de unos pases a otros.
2. el uso de nuevos modelos psicomtricos y tecnologas para generar y
analizar los tests.
3. aparicin de nuevos formatos de tems derivados de los grandes
avances informticos y multimedia
4. todo lo relacionado con los tests informatizados y sus relaciones con
Internet.
5. los sistemas a utilizar para dar retroalimentacin (feedback) de los
resultados a los usuarios y partes legtimamente implicadas.
6. haya una gran demanda de formacin por parte de distintos
profesionales relacionados con la evaluacin
Alfa de Cronbach (tems likert)
Permite estimar la fiabilidad de un instrumento de medida a travs de un
conjunto de tems que se espera que midan el mismo constructo o dimensin
terica.
La medida de la fiabilidad mediante el alfa de Cronbach asume que los

tems (medidos en escala tipo Likert) miden un mismo constructo y que estn
altamente correlacionados
Cuanto ms cerca se encuentre el valor del alfa a 1 mayor es la
consistencia interna de los tems analizados. La fiabilidad de la escala debe
obtenerse siempre con los datos de cada muestra para garantizar la medida
fiable del constructo en la muestra concreta de investigacin.
Coeficiente 1.
Coeficiente 0.6
Coeficiente0.5
Coeficiente 0.4 0.35
Coeficiente 0.31
Coeficiente 0.3- 0.29
Correlacin alfa de Cronbach

Perfecta relacin ( se acepta el tems)
Alta relacin
Mediana relacin
Baja relacin
Relacin cuestionada ( se verifica la
relevancia de este dependiendo lo
que aborda, si no se elimina)
Se rechaza
KR20 (dicotmicas)
Relacionado con CONSISTENCIA INTERNA
El KR20 es un indicador de la fidelidad (consistencia interna). Los mtodos
basados (Rulon, Alfa de Cronbach, Spearman, Brown) en la divisin en dos
porciones
(presumiblemente
iguales)
da desventaja
de
ser
relacionado con las opciones de la particin (vase la mitad igualdadimpar, de la primera y segunda parte, al azar).
En los mtodos de particin en dos, (conocido tambin como biseccin) supone
para cada parte ser equivalente ( las formas paralelas ).
Para el KR20, la misma lgica se adopta en el nivel de los tems. Es lo que uno
llama unidimensional.
El KR20 se aplica en la caja dicotmica de items.
Uno calcula el KR20 como sigue:
= variacin de las cuentas de la prueba.

N = a un nmero total de tems en la prueba
pi = es la proporcin de respuestas correctas al tem I.
QI = proporcin de incidente para cada pregunta.
pIQI = variacin de cada pregunta.
Uno puede mostrar que el KR20 es el promedio de los ndices de la fidelidad el
cul se obtendr si se calcula la fidelidad para todas las particiones posibles en
dos.
Hay una conexin simple entre el KR20 y el alfa de Cronbach. Esta ltima es
una generalizacin. Cronbach substituye el p IQI por la variacin de cada tem
calculado segn la frmula tradicional. Este frmula se explica con cualquier
escala mtrica.
Tcnica Test Retest:
-
Se aplica el instrumento al mismo grupo 2 veces.
Se recomienda que el grupo no sea parte de la muestra.
El grupo debe tener caractersticas similares a la muestra.
Calcular la correlacin entre ambas aplicaciones usando el coeficiente de

Pearson
Tcnica de la divisin por mitades:
-
De un mismo instrumento, se obtienen 2 dividindolo por la mitad.
Se forma un test con las preguntas pares y otro con los impares.
Esta tcnica es ms efectiva a medida que el instrumento es ms

homogneo.
Como el instrumento real es el doble que los usados en la prueba, el

coeficiente de Pearson se corrige aplicando la frmula de Spearman
Brown:
rttn
2 rtt
1 rtt
Diferencias psicomtricas entre rasgo y estado

Rasgo: que permanece en el tiempo y es la caracterstica del constructo o
variable a investigar o medir.
Estado: que se presenta en un tiempo o situacion concreta, de carcter
estable.

Guía Prueba Numero 2

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Guía Prueba Numero 2

Cargado por

Copyright:

Formatos disponibles

Gua prueba numero 2

a) Dificultad del tem , porcentaje de individuos que lo aciertan.

b) Discriminacin, correlacin de cada tem con la puntuacin

c) Distractores o anlisis de error, su influencia es relevante,

A la hora de establecer indicadores de los distintos ndices suele usarse

6) Estudiar las cualidades del test

la escasa disponibilidad de muestra

falta de recursos informticos

Variable dicotmica: que poseen dos categoras ( ej. hombre y mujer)

Explica, condiciona, o determina el cambio en los valores de la

Acta como factor condicionante de la variable dependiente

Se le llama tambin causal o experimental porque es manipulada

Es el fenmeno o situacin explicado Es la variable que es

se llama tambin de efecto o accin condicionada

Conceptualizacin y elaboracin de reactivos

revisin de literatura sobre pruebas ya existentes para medir el

Existe uniformidad de criterios, a ejecutar por todos los examinadores,

Se mantiene el procedimiento tipificado de calificacin, es decir,

La interpretacin de las puntuaciones son objetivas en cuanto son

Existen normas tipificadas de la conducta que el test intenta

La norma: es la actuacin media o normal del comportamiento en la

Rendimiento tpico (comportamiento ordinario de las personas)

opcin binaria(acuerdo/desacuerdo) ( forzar a la persona a responder)

Siempre hay que pensar que es lo ms adecuado por el sujeto al momento de

el sentido es discriminar si se tiene o no el criterio ( experto en

implica un estudio con al menos 2 grupos en que se puede discriminar

investigacin preliminar que rodea la creacin de una prueba

(formato de respuesta es lo que da la

las escalas son reglas de medicin que aplicamos

instrumento utilizados para medir un rasgo caracterstica o atributos

Escala de tems tipo likert

Podemos utilizar el tem Likert para medir diferentes actitudes de un

El nivel de acuerdo con una afirmacin.

La frecuencia con la que se realiza cierta actividad.

El nivel de importancia que se atribuye a un determinado factor.

La valoracin de un servicio, producto, o empresa.

La probabilidad de realizar una accin futura.

el tem ms utilizado sea el de 5 niveles, pero tambin se utilizan de 4, 7,

Ventajas del tem Likert

Desde el punto de vista del diseo del cuestionario, es una

escala fcil de construir.

En Internet funciona especialmente bien: es muy visual, el encuestado

Inconvenientes del tem Likert

Por un lado, dos personas pueden obtener el mismo valor en la

Es difcil tratar las respuestas neutras, del tipo ni de acuerdo ni

Los encuestados tienden a estar de acuerdo con las afirmaciones

la idea principal del tem debe estar en el enunciado ( constructo,

simplicidad del enunciado

evitar los conocimiento excesivamente triviales o excesivamente

evitar dar informacin irrelevantes en el enunciado

evitar dar inicios sobre la solucin

evitar cuestiones de opinin

no encadenar unos tems de otros

anticipar la dif. e incluir preg. de todo rango de dif.

la dif. no debe estar en la comprensin del tem

mini. tiempo de lec.

evitar el uso de : neg. y errores gramaticales y ortogrficos.

Pruebas de rendimiento tpico

utiliza el tiempo presente

evitar generalizacin : que todo o nadie asume el contenido

Confiabilidad: la medicin concuerde consigo mismo, logro medir

Puntuacin verdadero: la persona es reactiva ante el reactivo, y no por

el calificado puede ser fuente de varianza de error, al obtener