Test Construction

TEST CONSTRUCTION
TEORIA CLASICA DE LOS TEST
Las respuestas dadas por una persona en un test son comparadas a través de métodos estadísticos o cualitativos
con las respuestas de otros individuos que complementaron el mismo test. Ello permite realizar una clasificación.El
psicólogo, como cualquier otro profesional, tiene que asegurarse de que el instrumento que utiliza mide con
precisión, con poco error.
Spearman propone un modelo muy simple para las puntuaciones de las personas en los test: El modelo lineal clásico.
Este modelo consiste en asumir que la puntuación que una persona obtiene en un test, que denominamos su
puntuación empírica,y que suele designarse con la letra X, está formada por dos componentes. El primero, es la
puntuación verdadera (V) y el segundo el error (e).
X = V + e
LA DIFICULTAD DE LOS ÍTEMS
Se refiere a la probabilidad de que los examinados obtengan el ítem correcto para las evaluaciones ,
respondan en la dirección clave con evaluaciones psicológicas o encuestas.La dificultad es importante para
evaluar las características de un ítem y si debe continuar siendo parte de la evaluación; en muchos casos, los
elementos se eliminan si son demasiado fáciles o demasiado difíciles. También nos permite comprender mejor
cómo los elementos y la prueba en su conjunto funcionan como un instrumento de medición y qué pueden
decirnos sobre los examinados.
El valor P es un concepto inverso: un valor bajo indica dificultad alta y viceversa.
Para calcular la dificultad de los ítems clásicos se cuenta el número de examinados que respondieron
correctamente y se divide por el número de encuestados. Esto le da una proporción , que es como un
porcentaje, pero está en la escala de 0 a 1 en lugar de 0 a 100. Por lo tanto, el rango posible que verá
informado es de 0 a 1.
Este valor de P NO debe confundirse con el valor de p del mundo de las pruebas de hipótesis. Tienen el mismo
nombre, pero por lo demás no tienen ninguna relación. Por esta razón, algunos psicometristas lo llaman P +.
Para las evaluaciones educativas / cognitivas, la dificultad se refiere a la probabilidad de que los examinados
obtengan el elemento correcto. Si más examinados obtienen el elemento correcto, tiene poca dificultad. Para
los datos de tipo psicológico / de encuesta, la dificultad se refiere a la probabilidad de responder en la
dirección tecleada.
Es decir, si está evaluando la extraversión y el ítem es "Me gusta ir a fiestas", entonces está evaluando
cuántos examinados estuvieron de acuerdo con la declaración. Lo que es único con los datos del tipo de
encuesta es que a menudo incluyen codificación inversa; la misma evaluación también podría tener un ítem
que sea “Prefiero pasar tiempo con libros en lugar de personas” y un examinado que no esté de acuerdo con
esa afirmación cuenta como un punto para la puntuación total.

DISCRIMINACIÓN DEL ÍTEM
Se define como la capacidad del ítem para distinguir a los sujetos de alta, media y baja puntuación en un
criterio. El criterio puede ser:
INTERNO (el test y el ítem miden el mismo constructo) (el índice de discriminación se puede interpretar
como Índice de Homogeneidad).
EXTERNO (la puntuación en otro test) (el índice de discriminación es una medida del grado de validez del
ítem).
EL ÍNDICE DE DISCRIMINACIÓN: Se basa en la información que proporciona la comparación del rendimiento
de dos grupos extremos (bajo y alto) en las puntuaciones en el test. Se toma el 27 % de los sujetos de más
baja puntuación y el 27 % de más alta puntuación en el test.
D = 0 refleja que el ítem no discrimina adecuadamente.
D > 0.40 refleja que el ítem tiene gran poder discriminativo.
Un valor negativo en D indicaría una disminución en la precisión del instrumento de medida.

TEORÍA DE RESPUESTA AL ÍTEM
La TRI afirma que si una persona tiene un nivel n de conocimiento
sobre geografía, por ejemplo, tendrá asociado a dicho valor una
probabilidad de que conteste correctamente a una pregunta de
geografía. Expresado a la inversa, si una persona que responde
correctamente a un ítem, es posible suponer que esta persona
posee un determinado nivel de conocimiento.
Para cada nivel de conocimiento, aptitud, habilidad o rasgo existe
una probabilidad asociada de contestar correctamente al ítem.
Esta probabilidad es pequeña para sujetos con bajo nivel de
rasgo, y alta para sujetos con altos niveles de rasgo. La relación
entre el nivel de aptitud y la probabilidad de respuesta correcta al
ítem se representa con la curva características del ítem (CCI). En
la práctica la CCI se suele representar en una escala situada entre
–3 y +3 puntos de habilidad. En el eje x se sitúan los valores de la
habilidad y en el eje y las probabilidades asociadas.

Parámetros del ítem
Como se ha indicado, los parámetros son tres: dificultad, discriminación y pseudo-azar. El índice de
dificultad se suele indicar con la letra “b” y se define como el punto de la escala de habilidad donde
la probabilidad de responder correctamente el ítem es igual a 0,5. Es decir, que coincide con el
grado de habilidad donde la curva “señala” una probabilidad de 0,5. Dicho de otra forma, con ese
nivel de habilidad, la persona tienen una probabilidad del 50% de contestar correctamente al ítem.
El índice de discriminación indica hasta que punto la pregunta puede discriminar entre sujetos que
tienen un nivel alto de habilidad de aquellos que tienen un nivel bajo. El índice de discriminación se
suele representar con la letra “a”. Esta propiedad se refleja en la pendiente de la curva, así, una
mayor pendiente indicará una mayor discriminación y viceversa.
El coeficiente de azar o pseudoazar, se representa con la letra “c” e indica la probabilidad de

contestar correctamente un ítem sin tener el nivel de habilidad exigido. Este parámetro trata de
representar el efecto del azar.

Los test son instrumentos sofisticados de medida que, en muchos casos, constituyen una ayuda de
incalculable valor en el contexto de una evaluación psicológica. Para que esto sea así el test
debe cumplir unos mínimos psicométricos y el especialista que lo pasa debe conocer el protocolo
de administración y respetarlo.Por otro lado, las teorías de los test nos hablan de cómo podemos
evaluar la calidad de un test y también, en muchos casos, de cómo podemos depurar el
instrumento para reducir el error al mínimo. En este sentido, quizás los dos conceptos más
importantes dentro de la teoría clásica de los test son los de fiabilidad y validez.
La fiabilidad se entiende como la consistencia o estabilidad de las medidas cuando el proceso
de medición se repite. La fiabilidad de un test es el grado o la precisión con que el test mide un
determinado rasgo psicológico, independientemente del hecho de si es capaz o no de
medirlo (validez). Es decir, se dice que un test es fiable cuando "mide bien aquello que
está midiendo".
METODOS DE ESTIMACIÓN PARA LA FIABILIDAD
La fiabilidad tiene dos grandes componentes:
La consistencia interna: se refiere al grado en que los distintos ítems, partes o piezas de un test miden la
misma cosa. Significa la constancia de los ítems para operar sobre un mismo constructo psicológico de un
modo análogo.
La estabilidad temporal: se refiere al grado en que un instrumento de medida arrojará el mismo resultado
en diversas mediciones concretas midiendo un objeto o sujeto que ha permanecido invariable.
Método test-retest
Está indicado para estimar la fiabilidad de un test del que sólo disponemos una forma. Consistiría en:
1. Administrar el mismo test en dos ocasiones diferentes separadas por cierto lapso temporal a una misma
muestra de sujetos.
2. Calcular el coeficiente de correlación entre las puntuaciones obtenidas por los sujetos en las dos ocasiones.
El método evalúa la estabilidad de los resultados a través de cierto tiempo. Por ello, al coeficiente de
fiabilidad que obtiene se le denomina coeficiente de estabilidad temporal.

Respecto al tiempo que debe transcurrir:
A menor tiempo mayor efecto de la memoria de las respuestas dadas, del aprendizaje debido al propio
test y de la fatiga producida por el propio test (si la segunda medición sucede de un modo más o menos
inmediato).
A mayor tiempo, mayor posibilidad de que los sujetos hayan cambiado realmente en la variable de interés
debido a múltiples factores permanentes o circunstanciales: aprendizaje, cambios evolutivos, experiencias
emocionales, enfermedad, condiciones ambientales y sociales, etc.
Por todo esto, las estimaciones por el método test-retest son más apropiadas para tests que miden rasgos
poco afectables por los efectos de la práctica y que son estables a lo largo del intervalo de tiempo
transcurrido, como son los tests de rapidez perceptiva, discriminación sensorial, verificación rápida de cálculos
numéricos, etc.
Consistencia interna de un test
En muchas situaciones no es posible llevar a cabo dos aplicaciones del test. El objetivo aquí, es establecer
hasta qué punto se puede generalizar del conjunto específico de ítems al dominio o universo de contenidos.
Una forma de llevar a cabo esta estimación es valorando el grado de consistencia con el que los examinados
responden los ítems o subconjuntos de ítems del test, en una única aplicación del mismo. Cuando los sujetos
tienen un rendimiento consistente en los distintos ítems, decimos que el test tiene homogeneidad de ítems.
Para que un grupo de ítems sea homogéneo debe medir el mismo constructo o el mismo dominio de
contenidos.
Métodos de las dos mitades, Mediante la fórmula de corrección de Spearman-Brown
Administrar el test a una muestra de sujetos una sola vez.
Descomponer el test en dos partes de modo que tengan el mismo número de ítems y que puedan ser
consideradas paralelas. Calcular la puntuación total en cada una de estas partes. (Es común comparar la
primera mitad del test con la segunda, o comparar los ítems pares con los impares).
Obtener la correlación entre las partes. Esa correlación, si las formas son paralelas, podría considerarse la
fiabilidad de un test con la mitad de ítems.
Aplicar sobre esa correlación la corrección de Spearman-Brown para longitud doble:
Esta corrección estima la correlación que se hubiera obtenido entre las partes si hubiesen tenido el mismo
número de ítems que el test completo.
En el caso de que estemos trabajando con ítems valorados dicotómicamente seutilizarán las fórmulas de
Kuder-Richardson (KR –20 y KR -21). Cuando los ítems tienen diferentes índices de dificultad se utiliza la
fórmula KR –20. En el caso de que elíndice de dificultad sea igual, utilizaremos KR –21.
Fiabilidad entre calificadores o evaluadores

En los tests no estructurados, aunque no exclusivamente en ellos, es necesario determinar si dos o más
resultados obtenidos por dos o más evaluadores distintos o por el mismo evaluador en momentos diferentes
son coincidentes. En estos casos estaremos hablando de Fiabilidad intrajuez o Fiabilidad interjueces.
Se calcula a través de un índice de concordancia entre evaluadores, siendo la fórmula más utilizada el índice
Kappa:
Acuerdo porcentual
Se calcula como el número de veces que un conjunto de calificaciones concuerda, dividido por el número total
de unidades de observación que están calificadas, multiplicado por 100. Los beneficios del acuerdo porcentual
son que es simple de calcular y se puede usar con cualquier tipo de escala de medida.
FACTORES QUE AFECTAN LA FIABILIDAD
Longitud del test

Si el número de ítems es pequeño, la interpretación que hagamos de las puntuaciones tiene un valor limitado.
Si el propósito que se persigue es el poder establecer el grado de maestría de un sujeto, la determinación de
la longitud del test está directamente relacionada con el número de errores de clasificación tolerables.
Cuando el número de elementos del test es elevado, se pueden asegurar valores de probabilidad de
clasificación incorrecta mínimos.Se pueden considerar dos maneras de reducir el número de errores que se
pueden cometer sin tener que aumentar la longitud del test: la utilización de modelos bayesianos y los
métodos basados en tests computerizados.

Error estándar de medición (SEm): El error estándar de medición (SEm) es una medida de cuánto se
distribuyen las puntuaciones de las pruebas medidas alrededor de una puntuación "verdadera". El SEm es
especialmente significativo para quien rinde el examen porque se aplica a un solo puntaje y usa las mismas
unidades que el examen.

Intervalos de confianza: El SEm suele ir acompañado de un intervalo de confianza , o un rango alrededor de
la puntuación "verdadera" estimada. La unidad de medida es la misma que la de las puntuaciones originales.
Por ejemplo, si está midiendo en puntos, el SEm estará en puntos y si está midiendo en porcentajes, el SEm
estará en porcentajes. Intervalos de confianza SEm comunes y sus fórmulas:
68% CI = Puntuación ± SEM

95% CI = Puntuación ± (1,96 * SEM)
99% CI = Puntuación ± (2,58 * SEM)
Ejemplo : una persona obtiene 100 en una prueba con un SEm de 2. ¿Cuál es el intervalo de confianza del 68%
para la distribución de las puntuaciones?
Solución: Un SEm de 2 sería un SEM a cada lado de la puntuación real (es decir, entre -1 y 1 SEm). Usando
La fórmula: 68% CI = Puntaje ± SEM(100 - 2) = 98(100 + 2) = 102.
El puntaje real de la persona se encuentra entre 98 y 102.
¿Cuál es el intervalo de confianza del 95% para los mismos datos?

El uso de la fórmula para el IC del 95% da un rango de 96,08 a 103,92:
IC del 95% = Puntuación ± (1,96 * SEM) = 100 ± (1,96 * 2) = 96,08 / 103,92.

VALIDEZ
Se acepta que el término validez hace referencia al grado en el que el test mide aquello que pretende
medir. El concepto de validez hace referencia al grado de relación entre el test y el constructo que se
pretende medir.
El objetivo es analizar hasta qué punto los ítems que componen el test son una muestra relevante y
representativa del constructo sobre el que se van a realizar las inferencias. No existen procedimientos
estadísticos apropiados.
La forma típica de llevar a cabo un estudio de validación de contenido es utilizando un grupo de expertos
que serán los encargados de analizar dos aspectos fundamentales:
Que el test no incluya aspectos irrelevantes del dominio de interés,
Que incluya todos los elementos importantes que definen el dominio.
Se trata de un análisis racional del contenido del test y, por lo tanto, los resultados del estudio estarán
basados en los juicios subjetivos emitidos por los expertos. Un tipo especial de validez de contenido es la
Validez aparente, que se refiere a la necesidad de que el test parezca, dé la impresión a los que se aplica,
de que es adecuado para medir lo que se pretende. Puede tener su importancia de cara a la motivación y
actitud de los sujetos.

VALIDEZ DE CONSTRUCTO
Se refiere al grado en que el instrumento de medidacumple con las hipótesis que cabría esperar para un
instrumento de medida diseñado para medir precisamente aquello que deseaba medir. Se puede considerar
un concepto general que abarcaría los otros tipos de validez.
La Matriz Multirrasgo-MultimétodoSe evalúa a partir de una matriz de correlaciones, donde aparecen varios
rasgos psicológicos (constructos) medidos por varios métodos.
Hay Validez Convergente si son elevadas las correlaciones entre las medidas de un rasgo por distintos
métodos.
Hay Validez Discriminante si son bajas las correlaciones entre las medidas de distintos rasgos obtenidos
por el mismo método.
Hay Validez de Constructo si la Validez Discriminante es menor que la Validez Convergente.

El Análisis Factorial
El Análisis Factorial va a permitir determinar la estructura que subyace a las puntuaciones obtenidas por los
sujetos en los distintos ítems del test o en un conjunto de tests. Incluye una serie de técnicas estadísticas que
tienen por objetivo representar y explicar un conjunto de variables observables mediante un menor número de
variables latentes o inobservables, llamadas latentes:
Cuando en un mismo factor se agrupan múltiples indicadores del constructo, se obtiene evidencia de la
validez convergente.
Cuando en el análisis se han obtenido medidas de otros constructos y éstas aparecen agrupadas en
distintos factores, se obtiene evidencia de la validez discriminante.
Carga de factores: La carga defactores es básicamente el coeficiente de correlación para la variable y el
factor. La carga de factores muestra la varianza explicada por la variable en ese factor en particular. En el
enfoque SEM, como regla general, una carga factorial de 0,7 o más representa que el factor extrae suficiente
varianza de esa variable.

Método de rotación: el método de rotación hace que sea más confiable comprender la salida. Los valores
propios no afectan el método de rotación, pero el método de rotación afecta los valores propios o el
porcentaje de varianza extraído. Hay varios métodos de rotación disponibles: (1) Sin método de rotación,
(2) Método de rotación Varimax, (3) Método de rotación Quartimax, (4) Método de rotación oblimin directo
y (5) Método de rotación Promax. Cada uno de estos se puede seleccionar fácilmente en SPSS , y podemos
comparar nuestra varianza explicada por esos métodos particulares.

COMUNALIDAD
En análisis factorial , la comunalidad de una variable es una medida útil para predecir el valor de la variable .
Más específicamente, le dice qué proporción de la varianza de la variable es el resultado de:Los componentes
principales oLas correlaciones entre cada variable y factores individuales (Vogt, 1999).En el análisis factorial, la
comunalidad se puede denotar como h"2.
La comunalidad de una variable varía de 0 a 1.
En general, una forma de pensar en la comunalidad es como la proporción de varianza común encontrada en
una variable en particular. Una variable que no tiene ninguna varianza única (es decir, una con varianza
explicada que es 100% resultado de otras variables) tiene una comunalidad de 1.
Una variable con varianza que es completamente inexplicable por cualquier otra variable tiene una
comunalidad de cero (Field, 2013).

RELACIÓN CON EL ERROR Y LA VARIANZA ESPECÍFICA
La comunalidad (también conocida como variación común) está entrelazada con una variación única. Los dos
tipos de varianza constituyen el 100% de la varianza de la variable. La varianza única se compone a su vez de
varianza específica y varianza de error . La varianza específica tiene algo específico que ver con su modelo /
encuesta.
Por ejemplo, si estuviera realizando un análisis factorial de los resultados de un cuestionario para evaluar la
depresión, un divorcio reciente sin duda explicaría alguna variación. Algo que no tiene nada que ver (como
que el sujeto no durmió nada la noche anterior a la prueba porque estaban viendo Friends en exceso ) sería la
variación del error.
La relación entre todos estos diferentes tipos de varianza se explica mejor con una imagen:
Validación referida al criterio
Se trata de obtener evidencia acerca del grado en que las puntuaciones obtenidas en el test pueden utilizarse
eficazmente para hacer inferencias acerca del comportamiento real de los sujetos en un criterio que no puede
ser medido directamente.
El objetivo principal es evaluar la hipótesis de relación entre test y criterio.Se suelen utilizar dos tipos de
índices:
Medidas correlacionales (rxy, CD, CA, CPV),
Medidas de error en la predicción (errores de estimación)
Este tipo de estudios se suelen realizar desde dos perspectivas diferentes:
Cuando los tests se van a utilizar para la selección o clasificación de personas (validez pronosticada),
Cuando se utilizan para hacer un diagnóstico (validez concurrente).
Según el diseño utilizado para calcular el coeficiente de validez se distingue entre:
Validez predictiva: la medida del criterio se obtiene con posterioridad a la del test
Validez concurrente: la media del criterio se obtiene al mismo tiempo que la del test.
La validación del criterio es un proceso en el que la teoría no juega un papel principal.
Representa el grado de inseguridad,
de azar, que afecta a los pronósticos Equivale al coeficiente de
en el criterio
validez al cuadrado.
Indica la proporción de desviación Representa la proporción de varianza de las

típica de las puntuaciones en el puntuaciones de los sujetos en el criterio que
criterio que no es explicada por el Coeficiente de Coeficiente de se puede explicar, que está asociada, por la
test. varianza de las puntuaciones en el test.
Alienación determinación
Es directamente proporcional al
Es inversamente proporcional al
coeficiente de validez
coeficiente de validez.
Es inversamente proporcional al Es menor que el coeficiente

coeficiente de determinación. de validez.
Es menor que el error típico de

estimación INTERPRETACIÓN DEL
COEFICIENTE DE VALIDEZ
Representa el grado de seguridad

con que se efectúan los pronósticos
en el criterio.
Es directamente proporcional al
coeficiente de validez. Coeficiente de
Es el complemento del coeficiente Valor Predictivo
de alienación. (CVP = 1 – CA)
Error estándar de estimación (SEE)
Una regresión lineal nos da una línea de mejor ajuste para un diagrama de
dispersión de datos. El error estándar de estimación (SEE) es una de las métricas
que nos informa sobre el ajuste de la línea a los datos. El SEE es la desviación
estándar de los errores (o residuales).
Cuanto menor sea el valor de un error estándar de estimación, más cerca estarán
los puntos de la línea de regresión y mejor será la estimación basada en la
ecuación de la línea.
Si el error estándar es cero, entonces no hay variación correspondiente a la línea
calculada y la correlación será perfecta. Por tanto, el error estándar de
estimación mide la precisión de las cifras estimadas, es decir, es posible
determinar la bondad y representatividad de la línea de regresión como
descripción de la relación media entre las dos series.
Ejemplo: Los gráficos siguientes muestran dos ejemplos de regresión.Puede ver
que en el gráfico A, los puntos están más cerca de la línea que en el gráfico B.Por
lo tanto, las predicciones del Gráfico A son más precisas que las del Gráfico B.
La validez incremental
La validez incremental se refiere al beneficio adicional que tiene una variable predictora particular sobre otros
predictores.
Ejemplo
digamos que es más probable que un médico diagnostique correctamente una infección renal si se solicita un
análisis de orina, en lugar de depender únicamente de un examen físico y la discusión de los síntomas.
Podemos decir que la prueba de orina tiene validez incremental. Si realizar un análisis de sangre además del
análisis de orina le da al médico una ventaja adicional, el análisis de sangre también tendrá validez
incremental. Pero si la combinación de análisis de sangre, análisis de orina y examen físico / entrevista no
tiene mayor poder predictivo que el análisis de orina y el examen físico / entrevista, diríamos que el análisis de
sangre no tiene validez incremental en esa situación.
Tenga en cuenta que este tipo de validez depende no solo de la variable en cuestión, sino también de los
predictores que componen el conjunto base. Tanto la situación como los predictores en el conjunto base
deben estar bien definidos para que la validez incremental sea un concepto significativo.
Estimación de la validez incremental
La regresión múltiple jerárquica es la técnica más utilizada para evaluar la cantidad de variabilidad que
explica un predictor. Esto a menudo se hace ajustando un modelo a los datos sin la variable de interés, y luego
agregando la variable focal y ajustando un nuevo modelo. Se comparan los dos modelos (calculando el
estadístico R-cuadrados ); y se entiende que un cambio significativo significa que la nueva variable sí tiene
una validez incremental significativa o un poder predictivo adicional.

Precisión de clasificación
La precisión de la clasificación es simplemente la tasa de
clasificaciones correctas, ya sea para un conjunto de
prueba independiente o usando alguna variación de la idea
de validación cruzada.
La sensibilidad nos indica la capacidad de nuestro
estimador para dar como casos positivos (Fig. → círculo
grande) los casos realmente enfermos (Fig. → punto);
proporción de enfermos correctamente identificados. Es
decir, la sensibilidad caracteriza la capacidad de la prueba
para detectar la enfermedad en sujetos enfermos.
La especificidad nos indica la capacidad de nuestro
estimador para dar como casos negativos (Fig. → rectángulo
grande) los casos realmente sanos (Fig. → aro); proporción
de sanos correctamente identificados. Es decir, la
especificidad caracteriza la capacidad de la prueba para
detectar la ausencia de la enfermedad en sujetos sanos.

El valor predictivo positivo es la probabilidad de que los sujetos con una prueba de detección positiva
realmente tengan la enfermedad.
El valor predictivo negativo es la probabilidad de que los sujetos con una prueba de detección negativa
realmente no tengan la enfermedad.
razón de verosimilitud, el likelihood ratio (LR) se define como la razón entre la posibilidad de observar un
resultado en los pacientes con la enfermedad en cuestión versus la posibilidad de ese resultado en
pacientes sin la patología
.El uso del LR constituye una herramienta de gran utilidad para la toma de decisiones clínicas frente a la
solicitud de algún test diagnóstico, porque son valores inherentes a este e independientes de la prevalencia
de la enfermedad. Si bien su cálculo deriva de probabilidades condicionadas en base al teorema de Bayes,
se puede estimar en base a parámetros de sensibilidad y especificidad de la siguiente manera:Esto refleja la
capacidad de un test diagnóstico para cambiar una probabilidad pretest a una nueva probabilidad postest.
La aplicabilidad del LR es múltiple en la práctica radiológica, ya que es posible utilizarlo al analizar pruebas
diagnósticas con resultados dicotómicos, en los que solo es posible determinar presencia o ausencia de
enfermedad (negativo o positivo), o bien con resultados categóricos, por ejemplo mediante exámenes que
tienen categorías de severidad (leve, moderada o severa).

El impacto de los valores del LR positivo y negativo se refleja en la tabla 1. Como término general, hay que
recordar que un LR positivo mayor de 10 y un LR negativo menor de 0,1 indica un cambio relevante en la
probabilidad pretest, lo cual determina con alta certeza un cambio de conducta clínica.
Coeficientes de correlación corregidos por atenuación
corrección por atenuación en los análisis que estiman la relación entre dos variables, un ajuste por error
introducido durante el proceso de obtención de las medidas, donde dicho error sirve para subestimar el
efecto medido.
La correlación calculada entre dos variables queda siempre disminuida, atenuada, por culpa de los errores
de medición, es decir, por su no perfecta fiabilidad. La verdadera relación es la que tendríamos si nuestros
instrumentos midieran sin error. Esta correlación corregida por atenuación es la que hubiéramos obtenido si
hubiésemos podido suprimir los errores de medición en las dos variables (o al menos en una de las dos; no
siempre conocemos la fiabilidad de las dos variables).
criterio de contaminación
una situación en la que una medida de respuesta (el criterio) está influenciada por factores que no están
relacionados con el concepto que se está midiendo. La evidencia de esto puede observarse a través de
correlaciones de la medida de respuesta con variables que son conceptualmente distintas de esa medida.
Por ejemplo, las discrepancias de desempeño (en dólares vendidos) entre los agentes de seguros pueden
surgir no de diferencias reales en la capacidad, sino más bien de diferencias socioeconómicas en los
territorios asignados a los vendedores.

La validación cruzada o cross-validation es una técnica utilizada para evaluar los resultados de un análisis
estadístico y garantizar que son independientes de la partición entre datos de entrenamiento y prueba.
Consiste en repetir y calcular la media aritmética obtenida de las medidas de evaluación sobre diferentes
particiones. Se utiliza en entornos donde el objetivo principal es la predicción y se quiere estimar la precisión
de un modelo que se llevará a cabo a la práctica.1 Es una técnica muy utilizada en proyectos de inteligencia
artificial para validar modelos generados

PRUEBAS ESTANDARIZADAS
Los test psicológicos son instrumentos estandarizados utilizados para medir de forma rápida una o más
características que forman parte de la psique humana como personalidad, inteligencia, atención.
Existen diversos tipos como verbales, gráficos, manchas y son utilizados en diversos contextos (laboral,
jurídicos).
Algunos pueden aplicarse a toda la población y otros solo a niños, adolescentes o adultos. Actualmente los
test psicológicos, también conocidos como pruebas psicológicas, son utilizados en diversos contextos, tal
vez, el más conocido sea el proceso de selección de personal para un puesto específico en una empresa.
Sin embargo, los test psicológicos también pueden ayudar a una persona a elegir una carrera o profesión a
través de un test de orientación vocacional, o brindar un apto psicológico para obtener la licencia de
conducir.
PRUEBAS ESTANDARIZADAS
P untuaciones percentiles
Sirven para ordenar a los sujetos e indican el porcentaje del grupo que se deja por debajo. Ej: un sujeto con
un percentil 80 significa que obtiene puntuaciones superiores al 80% de los sujetos de su grupo de
referencia, o que tiene puntuaciones inferiores al 20% restante. A pesar de que son fáciles de calcular, no
permiten explicarlas diferencias entre percentiles ni permite comparara los percentiles obtenidos por un
sujeto en distintos instrumentos de evaluación. Se trata de puntuaciones de orden, que en ningún caso
ponen de manifiesto la diferencia cuantitativa que existe entre los individuos al no operar con unidades
constantes. Son muy útiles en pruebas de rendimiento tanto a nivel educativo como empresarial.
Rango percentil
Un rango de percentiles es la diferencia entre dos percentiles especificados. En teoría, estos podrían ser dos
percentiles cualesquiera, pero el rango de percentiles 10-90 es el más común. Para encontrar el rango de
percentiles 10-90:Calcule el percentil 10 utilizando los pasos anteriores.Calcule el percentil 90 utilizando los
pasos anteriores.Reste el Paso 1 (el percentil 10) del Paso 2 (el percentil 90).
La puntuación estándar es el número de desviaciones estándar por las que el valor de una puntuación
bruta (es decir, un valor observado o un punto de datos) está por encima o por debajo del valor medio de lo
que se está observando o midiendo. Los puntajes brutos por encima de la media tienen puntajes estándar
positivos, mientras que los que están por debajo de la media tienen puntajes estándar negativos.
Se calcula restando la media de la población de una puntuación bruta individual y luego dividiendo la
diferencia por la desviación estándar de la población . Este proceso de convertir una puntuación bruta en
una puntuación estándar se denomina estandarización o normalización (sin embargo, "normalizar" puede
referirse a muchos tipos de proporciones; consulte normalización para obtener más información).
Compara los distintos métodos de clasificación en una distribución normal. Incluye: desviaciones estándar,
porcentajes acumulados, equivalentes de percentiles, puntajes Z, puntajes T

UN PUNTAJE Z (TAMBIÉN LLAMADO PUNTAJE ESTÁNDAR )
le da una idea de qué tan lejos de la media está un punto de datos. Pero más técnicamente es una medida
de cuántas desviaciones estándar por debajo o por encima de la población significan una puntuación bruta
.Se puede colocar una puntuación z en una curva de distribución normal .
Las puntuaciones Z van desde -3 desviaciones estándar (que caerían en el extremo izquierdo de la curva de
distribución normal) hasta +3 desviaciones estándar (que caerían en el extremo derecho de la curva de
distribución normal). Para utilizar una puntuación z, debe conocer la media μ y también la desviación
estándar de la población σ.
Las puntuaciones Z son una forma de comparar los resultados con una población "normal". Los resultados de
las pruebas o encuestas tienen miles de posibles resultados y unidades; esos resultados a menudo pueden
parecer insignificantes. Por ejemplo, saber que el peso de una persona es de 150 libras puede ser una buena
información, pero si desea compararlo con el peso " promedio " de la persona, mirar una amplia tabla de
datos puede ser abrumador (especialmente si algunos pesos se registran en kilogramos). . Una puntuación z
puede decirle dónde se compara el peso de esa persona con el peso medio de la población promedio.
Los puntajes T
son puntajes estandarizados en cada dimensión para cada tipo. Una puntuación de 50 representa la media.
Una diferencia de 10 de la media indica una diferencia de una desviación estándar. Por lo tanto, una
puntuación de 60 es una desviación estándar por encima de la media, mientras que una puntuación de 30 es
dos desviaciones estándar por debajo de la media.
IQ de desviación
Tipo de puntuación estándar distribuida normalmente (con una media de 100 y una desviación estándar de
15) que representa el nivel de desempeño en las pruebas de capacidad cognitiva.
Una stanine es un tipo de puntuación estandarizada que se utiliza para comparar la posición de una única
puntuación con una distribución de puntuaciones, en una escala del 1 al 9. Como otros puntajes
estandarizados, como percentiles, puntajes T y puntajes z , los stanines se derivan de una transformación de
puntajes brutos basados en una suposición de datos distribuidos normalmente. Stanine es una abreviatura
de "estándar nueve" y se obtiene dividiendo una distribución normal en nueve intervalos, con una media de
cinco y una desviación estándar de dos. Esta escala da como resultado nueve segmentos de intervalos
iguales, cada uno de los cuales tiene la mitad de una desviación estándar de ancho, excepto en cada
extremo de la distribución. La media y la mediana de la distribución estándar se encuentran en el centro de
la estanina 5.
Las pruebas y evaluaciones basadas en criterios están diseñadas para medir el desempeño de los
estudiantes contra un conjunto fijo de criterios o estándares de aprendizaje predeterminados , es decir,
descripciones escritas y concisas de lo que se espera que los estudiantes sepan y puedan hacer en una
etapa específica de su educación.
En la educación primaria y secundaria, las pruebas basadas en criterios se utilizan para evaluar si los
estudiantes han aprendido un cuerpo específico de conocimientos o adquirido un conjunto de habilidades
específicas. Por ejemplo, el plan de estudios que se enseña en un curso, programa académico o área de
contenido.
Si los estudiantes se desempeñan en o por encima de las expectativas establecidas, por ejemplo,
respondiendo un cierto porcentaje de preguntas correctamente, pasarán la prueba, cumplirán con los
estándares esperados o se considerarán " competentes ". En una prueba basada en criterios, todos los
estudiantes que realicen el examen podrían reprobar teóricamente si no cumplen con el estándar esperado;
alternativamente, cada estudiante podría obtener la puntuación más alta posible.
En las pruebas basadas en criterios, no solo es posible, sino deseable, que todos los estudiantes aprueben la
prueba o obtengan una puntuación perfecta. Las pruebas con criterios de referencia se han comparado con
los exámenes de licencia de conducir, que requieren que los aspirantes a conductores logren un puntaje
mínimo de aprobación para obtener una licencia.

Test Construction

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Test Construction

Cargado por

Copyright:

Formatos disponibles

TEST CONSTRUCTION

TEORIA CLASICA DE LOS TEST

precisión, con poco error.

puntuación verdadera (V) y el segundo el error (e).

decirnos sobre los examinados.

El valor P es un concepto inverso: un valor bajo indica dificultad alta y viceversa.

los datos de tipo psicológico / de encuesta, la dificultad se refiere a la probabilidad de responder en la

esa afirmación cuenta como un punto para la puntuación total.

criterio. El criterio puede ser:

como Índice de Homogeneidad).

EL ÍNDICE DE DISCRIMINACIÓN: Se basa en la información que proporciona la comparación del rendimiento

baja puntuación y el 27 % de más alta puntuación en el test.

D = 0 refleja que el ítem no discrimina adecuadamente.

D > 0.40 refleja que el ítem tiene gran poder discriminativo.

Un valor negativo en D indicaría una disminución en la precisión del instrumento de medida.

La TRI afirma que si una persona tiene un nivel n de conocimiento

sobre geografía, por ejemplo, tendrá asociado a dicho valor una

probabilidad de que conteste correctamente a una pregunta de

geografía. Expresado a la inversa, si una persona que responde

correctamente a un ítem, es posible suponer que esta persona

posee un determinado nivel de conocimiento.

Para cada nivel de conocimiento, aptitud, habilidad o rasgo existe

una probabilidad asociada de contestar correctamente al ítem.

Esta probabilidad es pequeña para sujetos con bajo nivel de

rasgo, y alta para sujetos con altos niveles de rasgo. La relación

entre el nivel de aptitud y la probabilidad de respuesta correcta al

ítem se representa con la curva características del ítem (CCI). En

la práctica la CCI se suele representar en una escala situada entre

–3 y +3 puntos de habilidad. En el eje x se sitúan los valores de la

habilidad y en el eje y las probabilidades asociadas.

mayor pendiente indicará una mayor discriminación y viceversa.

El coeficiente de azar o pseudoazar, se representa con la letra “c” e indica la probabilidad de

representar el efecto del azar.

evaluar la calidad de un test y también, en muchos casos, de cómo podemos depurar el

La fiabilidad se entiende como la consistencia o estabilidad de las medidas cuando el proceso

determinado rasgo psicológico, independientemente del hecho de si es capaz o no de

La fiabilidad tiene dos grandes componentes:

en diversas mediciones concretas midiendo un objeto o sujeto que ha permanecido invariable.

fiabilidad que obtiene se le denomina coeficiente de estabilidad temporal.

Respecto al tiempo que debe transcurrir:

debido a múltiples factores permanentes o circunstanciales: aprendizaje, cambios evolutivos, experiencias

emocionales, enfermedad, condiciones ambientales y sociales, etc.

Consistencia interna de un test

Métodos de las dos mitades, Mediante la fórmula de corrección de Spearman-Brown

Administrar el test a una muestra de sujetos una sola vez.

fiabilidad de un test con la mitad de ítems.

Aplicar sobre esa correlación la corrección de Spearman-Brown para longitud doble:

número de ítems que el test completo.

Fiabilidad entre calificadores o evaluadores

FACTORES QUE AFECTAN LA FIABILIDAD

Longitud del test

Si el propósito que se persigue es el poder establecer el grado de maestría de un sujeto, la determinación de

métodos basados en tests computerizados.

unidades que el examen.

estará en porcentajes. Intervalos de confianza SEm comunes y sus fórmulas:

68% CI = Puntuación ± SEM

99% CI = Puntuación ± (2,58 * SEM)

La fórmula: 68% CI = Puntaje ± SEM(100 - 2) = 98(100 + 2) = 102.

El puntaje real de la persona se encuentra entre 98 y 102.

¿Cuál es el intervalo de confianza del 95% para los mismos datos?

IC del 95% = Puntuación ± (1,96 * SEM) = 100 ± (1,96 * 2) = 96,08 / 103,92.

que serán los encargados de analizar dos aspectos fundamentales:

Que el test no incluya aspectos irrelevantes del dominio de interés,