Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Test Construction
Test Construction
Las respuestas dadas por una persona en un test son comparadas a través de métodos estadísticos o cualitativos
con las respuestas de otros individuos que complementaron el mismo test. Ello permite realizar una clasificación.El
psicólogo, como cualquier otro profesional, tiene que asegurarse de que el instrumento que utiliza mide con
Spearman propone un modelo muy simple para las puntuaciones de las personas en los test: El modelo lineal clásico.
Este modelo consiste en asumir que la puntuación que una persona obtiene en un test, que denominamos su
puntuación empírica,y que suele designarse con la letra X, está formada por dos componentes. El primero, es la
X = V + e
LA DIFICULTAD DE LOS ÍTEMS
Se refiere a la probabilidad de que los examinados obtengan el ítem correcto para las evaluaciones ,
respondan en la dirección clave con evaluaciones psicológicas o encuestas.La dificultad es importante para
evaluar las características de un ítem y si debe continuar siendo parte de la evaluación; en muchos casos, los
elementos se eliminan si son demasiado fáciles o demasiado difíciles. También nos permite comprender mejor
cómo los elementos y la prueba en su conjunto funcionan como un instrumento de medición y qué pueden
Para calcular la dificultad de los ítems clásicos se cuenta el número de examinados que respondieron
correctamente y se divide por el número de encuestados. Esto le da una proporción , que es como un
porcentaje, pero está en la escala de 0 a 1 en lugar de 0 a 100. Por lo tanto, el rango posible que verá
informado es de 0 a 1.
Este valor de P NO debe confundirse con el valor de p del mundo de las pruebas de hipótesis. Tienen el mismo
nombre, pero por lo demás no tienen ninguna relación. Por esta razón, algunos psicometristas lo llaman P +.
Para las evaluaciones educativas / cognitivas, la dificultad se refiere a la probabilidad de que los examinados
obtengan el elemento correcto. Si más examinados obtienen el elemento correcto, tiene poca dificultad. Para
dirección tecleada.
Es decir, si está evaluando la extraversión y el ítem es "Me gusta ir a fiestas", entonces está evaluando
cuántos examinados estuvieron de acuerdo con la declaración. Lo que es único con los datos del tipo de
encuesta es que a menudo incluyen codificación inversa; la misma evaluación también podría tener un ítem
que sea “Prefiero pasar tiempo con libros en lugar de personas” y un examinado que no esté de acuerdo con
Se define como la capacidad del ítem para distinguir a los sujetos de alta, media y baja puntuación en un
INTERNO (el test y el ítem miden el mismo constructo) (el índice de discriminación se puede interpretar
EXTERNO (la puntuación en otro test) (el índice de discriminación es una medida del grado de validez del
ítem).
de dos grupos extremos (bajo y alto) en las puntuaciones en el test. Se toma el 27 % de los sujetos de más
grado de habilidad donde la curva “señala” una probabilidad de 0,5. Dicho de otra forma, con ese
nivel de habilidad, la persona tienen una probabilidad del 50% de contestar correctamente al ítem.
El índice de discriminación indica hasta que punto la pregunta puede discriminar entre sujetos que
tienen un nivel alto de habilidad de aquellos que tienen un nivel bajo. El índice de discriminación se
suele representar con la letra “a”. Esta propiedad se refleja en la pendiente de la curva, así, una
incalculable valor en el contexto de una evaluación psicológica. Para que esto sea así el test
debe cumplir unos mínimos psicométricos y el especialista que lo pasa debe conocer el protocolo
de administración y respetarlo.Por otro lado, las teorías de los test nos hablan de cómo podemos
instrumento para reducir el error al mínimo. En este sentido, quizás los dos conceptos más
importantes dentro de la teoría clásica de los test son los de fiabilidad y validez.
de medición se repite. La fiabilidad de un test es el grado o la precisión con que el test mide un
medirlo (validez). Es decir, se dice que un test es fiable cuando "mide bien aquello que
está midiendo".
METODOS DE ESTIMACIÓN PARA LA FIABILIDAD
La consistencia interna: se refiere al grado en que los distintos ítems, partes o piezas de un test miden la
misma cosa. Significa la constancia de los ítems para operar sobre un mismo constructo psicológico de un
modo análogo.
La estabilidad temporal: se refiere al grado en que un instrumento de medida arrojará el mismo resultado
Método test-retest
Está indicado para estimar la fiabilidad de un test del que sólo disponemos una forma. Consistiría en:
1. Administrar el mismo test en dos ocasiones diferentes separadas por cierto lapso temporal a una misma
muestra de sujetos.
2. Calcular el coeficiente de correlación entre las puntuaciones obtenidas por los sujetos en las dos ocasiones.
El método evalúa la estabilidad de los resultados a través de cierto tiempo. Por ello, al coeficiente de
A menor tiempo mayor efecto de la memoria de las respuestas dadas, del aprendizaje debido al propio
test y de la fatiga producida por el propio test (si la segunda medición sucede de un modo más o menos
inmediato).
A mayor tiempo, mayor posibilidad de que los sujetos hayan cambiado realmente en la variable de interés
Por todo esto, las estimaciones por el método test-retest son más apropiadas para tests que miden rasgos
poco afectables por los efectos de la práctica y que son estables a lo largo del intervalo de tiempo
transcurrido, como son los tests de rapidez perceptiva, discriminación sensorial, verificación rápida de cálculos
numéricos, etc.
METODOS DE ESTIMACIÓN PARA LA FIABILIDAD
En muchas situaciones no es posible llevar a cabo dos aplicaciones del test. El objetivo aquí, es establecer
hasta qué punto se puede generalizar del conjunto específico de ítems al dominio o universo de contenidos.
Una forma de llevar a cabo esta estimación es valorando el grado de consistencia con el que los examinados
responden los ítems o subconjuntos de ítems del test, en una única aplicación del mismo. Cuando los sujetos
tienen un rendimiento consistente en los distintos ítems, decimos que el test tiene homogeneidad de ítems.
Para que un grupo de ítems sea homogéneo debe medir el mismo constructo o el mismo dominio de
contenidos.
Descomponer el test en dos partes de modo que tengan el mismo número de ítems y que puedan ser
consideradas paralelas. Calcular la puntuación total en cada una de estas partes. (Es común comparar la
primera mitad del test con la segunda, o comparar los ítems pares con los impares).
METODOS DE ESTIMACIÓN PARA LA FIABILIDAD
Obtener la correlación entre las partes. Esa correlación, si las formas son paralelas, podría considerarse la
Esta corrección estima la correlación que se hubiera obtenido entre las partes si hubiesen tenido el mismo
En el caso de que estemos trabajando con ítems valorados dicotómicamente seutilizarán las fórmulas de
Kuder-Richardson (KR –20 y KR -21). Cuando los ítems tienen diferentes índices de dificultad se utiliza la
fórmula KR –20. En el caso de que elíndice de dificultad sea igual, utilizaremos KR –21.
METODOS DE ESTIMACIÓN PARA LA FIABILIDAD
resultados obtenidos por dos o más evaluadores distintos o por el mismo evaluador en momentos diferentes
son coincidentes. En estos casos estaremos hablando de Fiabilidad intrajuez o Fiabilidad interjueces.
Se calcula a través de un índice de concordancia entre evaluadores, siendo la fórmula más utilizada el índice
Kappa:
METODOS DE ESTIMACIÓN PARA LA FIABILIDAD
Acuerdo porcentual
Se calcula como el número de veces que un conjunto de calificaciones concuerda, dividido por el número total
de unidades de observación que están calificadas, multiplicado por 100. Los beneficios del acuerdo porcentual
son que es simple de calcular y se puede usar con cualquier tipo de escala de medida.
la longitud del test está directamente relacionada con el número de errores de clasificación tolerables.
Cuando el número de elementos del test es elevado, se pueden asegurar valores de probabilidad de
clasificación incorrecta mínimos.Se pueden considerar dos maneras de reducir el número de errores que se
pueden cometer sin tener que aumentar la longitud del test: la utilización de modelos bayesianos y los
distribuyen las puntuaciones de las pruebas medidas alrededor de una puntuación "verdadera". El SEm es
especialmente significativo para quien rinde el examen porque se aplica a un solo puntaje y usa las mismas
la puntuación "verdadera" estimada. La unidad de medida es la misma que la de las puntuaciones originales.
Por ejemplo, si está midiendo en puntos, el SEm estará en puntos y si está midiendo en porcentajes, el SEm
Ejemplo : una persona obtiene 100 en una prueba con un SEm de 2. ¿Cuál es el intervalo de confianza del 68%
para la distribución de las puntuaciones?
Solución: Un SEm de 2 sería un SEM a cada lado de la puntuación real (es decir, entre -1 y 1 SEm). Usando
Se acepta que el término validez hace referencia al grado en el que el test mide aquello que pretende
medir. El concepto de validez hace referencia al grado de relación entre el test y el constructo que se
pretende medir.
El objetivo es analizar hasta qué punto los ítems que componen el test son una muestra relevante y
representativa del constructo sobre el que se van a realizar las inferencias. No existen procedimientos
estadísticos apropiados.
La forma típica de llevar a cabo un estudio de validación de contenido es utilizando un grupo de expertos
Se trata de un análisis racional del contenido del test y, por lo tanto, los resultados del estudio estarán
basados en los juicios subjetivos emitidos por los expertos. Un tipo especial de validez de contenido es la
Validez aparente, que se refiere a la necesidad de que el test parezca, dé la impresión a los que se aplica,
de que es adecuado para medir lo que se pretende. Puede tener su importancia de cara a la motivación y
Se refiere al grado en que el instrumento de medidacumple con las hipótesis que cabría esperar para un
instrumento de medida diseñado para medir precisamente aquello que deseaba medir. Se puede considerar
La Matriz Multirrasgo-MultimétodoSe evalúa a partir de una matriz de correlaciones, donde aparecen varios
Hay Validez Convergente si son elevadas las correlaciones entre las medidas de un rasgo por distintos
métodos.
Hay Validez Discriminante si son bajas las correlaciones entre las medidas de distintos rasgos obtenidos
El Análisis Factorial
El Análisis Factorial va a permitir determinar la estructura que subyace a las puntuaciones obtenidas por los
sujetos en los distintos ítems del test o en un conjunto de tests. Incluye una serie de técnicas estadísticas que
tienen por objetivo representar y explicar un conjunto de variables observables mediante un menor número de
Cuando en un mismo factor se agrupan múltiples indicadores del constructo, se obtiene evidencia de la
validez convergente.
Cuando en el análisis se han obtenido medidas de otros constructos y éstas aparecen agrupadas en
factor. La carga de factores muestra la varianza explicada por la variable en ese factor en particular. En el
enfoque SEM, como regla general, una carga factorial de 0,7 o más representa que el factor extrae suficiente
Método de rotación: el método de rotación hace que sea más confiable comprender la salida. Los valores
propios no afectan el método de rotación, pero el método de rotación afecta los valores propios o el
porcentaje de varianza extraído. Hay varios métodos de rotación disponibles: (1) Sin método de rotación,
(2) Método de rotación Varimax, (3) Método de rotación Quartimax, (4) Método de rotación oblimin directo
y (5) Método de rotación Promax. Cada uno de estos se puede seleccionar fácilmente en SPSS , y podemos
COMUNALIDAD
En análisis factorial , la comunalidad de una variable es una medida útil para predecir el valor de la variable .
Más específicamente, le dice qué proporción de la varianza de la variable es el resultado de:Los componentes
principales oLas correlaciones entre cada variable y factores individuales (Vogt, 1999).En el análisis factorial, la
En general, una forma de pensar en la comunalidad es como la proporción de varianza común encontrada en
una variable en particular. Una variable que no tiene ninguna varianza única (es decir, una con varianza
Una variable con varianza que es completamente inexplicable por cualquier otra variable tiene una
tipos de varianza constituyen el 100% de la varianza de la variable. La varianza única se compone a su vez de
varianza específica y varianza de error . La varianza específica tiene algo específico que ver con su modelo /
encuesta.
Por ejemplo, si estuviera realizando un análisis factorial de los resultados de un cuestionario para evaluar la
depresión, un divorcio reciente sin duda explicaría alguna variación. Algo que no tiene nada que ver (como
que el sujeto no durmió nada la noche anterior a la prueba porque estaban viendo Friends en exceso ) sería la
La relación entre todos estos diferentes tipos de varianza se explica mejor con una imagen:
Validación referida al criterio
Se trata de obtener evidencia acerca del grado en que las puntuaciones obtenidas en el test pueden utilizarse
eficazmente para hacer inferencias acerca del comportamiento real de los sujetos en un criterio que no puede
El objetivo principal es evaluar la hipótesis de relación entre test y criterio.Se suelen utilizar dos tipos de
índices:
Cuando los tests se van a utilizar para la selección o clasificación de personas (validez pronosticada),
Validez predictiva: la medida del criterio se obtiene con posterioridad a la del test
Validez concurrente: la media del criterio se obtiene al mismo tiempo que la del test.
La validación del criterio es un proceso en el que la teoría no juega un papel principal.
Representa el grado de inseguridad,
de azar, que afecta a los pronósticos Equivale al coeficiente de
en el criterio
validez al cuadrado.
Es directamente proporcional al
coeficiente de validez. Coeficiente de
Es el complemento del coeficiente Valor Predictivo
de alienación. (CVP = 1 – CA)
Error estándar de estimación (SEE)
Una regresión lineal nos da una línea de mejor ajuste para un diagrama de
que nos informa sobre el ajuste de la línea a los datos. El SEE es la desviación
Cuanto menor sea el valor de un error estándar de estimación, más cerca estarán
ecuación de la línea.
que en el gráfico A, los puntos están más cerca de la línea que en el gráfico B.Por
lo tanto, las predicciones del Gráfico A son más precisas que las del Gráfico B.
La validez incremental
La validez incremental se refiere al beneficio adicional que tiene una variable predictora particular sobre otros
predictores.
Ejemplo
digamos que es más probable que un médico diagnostique correctamente una infección renal si se solicita un
análisis de orina, en lugar de depender únicamente de un examen físico y la discusión de los síntomas.
Podemos decir que la prueba de orina tiene validez incremental. Si realizar un análisis de sangre además del
análisis de orina le da al médico una ventaja adicional, el análisis de sangre también tendrá validez
incremental. Pero si la combinación de análisis de sangre, análisis de orina y examen físico / entrevista no
tiene mayor poder predictivo que el análisis de orina y el examen físico / entrevista, diríamos que el análisis de
Tenga en cuenta que este tipo de validez depende no solo de la variable en cuestión, sino también de los
predictores que componen el conjunto base. Tanto la situación como los predictores en el conjunto base
deben estar bien definidos para que la validez incremental sea un concepto significativo.
Estimación de la validez incremental
La regresión múltiple jerárquica es la técnica más utilizada para evaluar la cantidad de variabilidad que
explica un predictor. Esto a menudo se hace ajustando un modelo a los datos sin la variable de interés, y luego
agregando la variable focal y ajustando un nuevo modelo. Se comparan los dos modelos (calculando el
estadístico R-cuadrados ); y se entiende que un cambio significativo significa que la nueva variable sí tiene
de validación cruzada.
El valor predictivo negativo es la probabilidad de que los sujetos con una prueba de detección negativa
razón de verosimilitud, el likelihood ratio (LR) se define como la razón entre la posibilidad de observar un
resultado en los pacientes con la enfermedad en cuestión versus la posibilidad de ese resultado en
.El uso del LR constituye una herramienta de gran utilidad para la toma de decisiones clínicas frente a la
solicitud de algún test diagnóstico, porque son valores inherentes a este e independientes de la prevalencia
capacidad de un test diagnóstico para cambiar una probabilidad pretest a una nueva probabilidad postest.
La aplicabilidad del LR es múltiple en la práctica radiológica, ya que es posible utilizarlo al analizar pruebas
diagnósticas con resultados dicotómicos, en los que solo es posible determinar presencia o ausencia de
enfermedad (negativo o positivo), o bien con resultados categóricos, por ejemplo mediante exámenes que
recordar que un LR positivo mayor de 10 y un LR negativo menor de 0,1 indica un cambio relevante en la
probabilidad pretest, lo cual determina con alta certeza un cambio de conducta clínica.
Coeficientes de correlación corregidos por atenuación
corrección por atenuación en los análisis que estiman la relación entre dos variables, un ajuste por error
introducido durante el proceso de obtención de las medidas, donde dicho error sirve para subestimar el
efecto medido.
La correlación calculada entre dos variables queda siempre disminuida, atenuada, por culpa de los errores
de medición, es decir, por su no perfecta fiabilidad. La verdadera relación es la que tendríamos si nuestros
instrumentos midieran sin error. Esta correlación corregida por atenuación es la que hubiéramos obtenido si
hubiésemos podido suprimir los errores de medición en las dos variables (o al menos en una de las dos; no
criterio de contaminación
una situación en la que una medida de respuesta (el criterio) está influenciada por factores que no están
relacionados con el concepto que se está midiendo. La evidencia de esto puede observarse a través de
correlaciones de la medida de respuesta con variables que son conceptualmente distintas de esa medida.
Por ejemplo, las discrepancias de desempeño (en dólares vendidos) entre los agentes de seguros pueden
surgir no de diferencias reales en la capacidad, sino más bien de diferencias socioeconómicas en los
estadístico y garantizar que son independientes de la partición entre datos de entrenamiento y prueba.
Consiste en repetir y calcular la media aritmética obtenida de las medidas de evaluación sobre diferentes
particiones. Se utiliza en entornos donde el objetivo principal es la predicción y se quiere estimar la precisión
de un modelo que se llevará a cabo a la práctica.1 Es una técnica muy utilizada en proyectos de inteligencia
Los test psicológicos son instrumentos estandarizados utilizados para medir de forma rápida una o más
características que forman parte de la psique humana como personalidad, inteligencia, atención.
Existen diversos tipos como verbales, gráficos, manchas y son utilizados en diversos contextos (laboral,
jurídicos).
Algunos pueden aplicarse a toda la población y otros solo a niños, adolescentes o adultos. Actualmente los
test psicológicos, también conocidos como pruebas psicológicas, son utilizados en diversos contextos, tal
vez, el más conocido sea el proceso de selección de personal para un puesto específico en una empresa.
Sin embargo, los test psicológicos también pueden ayudar a una persona a elegir una carrera o profesión a
través de un test de orientación vocacional, o brindar un apto psicológico para obtener la licencia de
conducir.
PRUEBAS ESTANDARIZADAS
P untuaciones percentiles
Sirven para ordenar a los sujetos e indican el porcentaje del grupo que se deja por debajo. Ej: un sujeto con
un percentil 80 significa que obtiene puntuaciones superiores al 80% de los sujetos de su grupo de
referencia, o que tiene puntuaciones inferiores al 20% restante. A pesar de que son fáciles de calcular, no
permiten explicarlas diferencias entre percentiles ni permite comparara los percentiles obtenidos por un
sujeto en distintos instrumentos de evaluación. Se trata de puntuaciones de orden, que en ningún caso
ponen de manifiesto la diferencia cuantitativa que existe entre los individuos al no operar con unidades
constantes. Son muy útiles en pruebas de rendimiento tanto a nivel educativo como empresarial.
Rango percentil
Un rango de percentiles es la diferencia entre dos percentiles especificados. En teoría, estos podrían ser dos
percentiles cualesquiera, pero el rango de percentiles 10-90 es el más común. Para encontrar el rango de
percentiles 10-90:Calcule el percentil 10 utilizando los pasos anteriores.Calcule el percentil 90 utilizando los
pasos anteriores.Reste el Paso 1 (el percentil 10) del Paso 2 (el percentil 90).
La puntuación estándar es el número de desviaciones estándar por las que el valor de una puntuación
bruta (es decir, un valor observado o un punto de datos) está por encima o por debajo del valor medio de lo
que se está observando o midiendo. Los puntajes brutos por encima de la media tienen puntajes estándar
positivos, mientras que los que están por debajo de la media tienen puntajes estándar negativos.
Se calcula restando la media de la población de una puntuación bruta individual y luego dividiendo la
diferencia por la desviación estándar de la población . Este proceso de convertir una puntuación bruta en
una puntuación estándar se denomina estandarización o normalización (sin embargo, "normalizar" puede
referirse a muchos tipos de proporciones; consulte normalización para obtener más información).
Compara los distintos métodos de clasificación en una distribución normal. Incluye: desviaciones estándar,
le da una idea de qué tan lejos de la media está un punto de datos. Pero más técnicamente es una medida
de cuántas desviaciones estándar por debajo o por encima de la población significan una puntuación bruta
Las puntuaciones Z van desde -3 desviaciones estándar (que caerían en el extremo izquierdo de la curva de
distribución normal) hasta +3 desviaciones estándar (que caerían en el extremo derecho de la curva de
distribución normal). Para utilizar una puntuación z, debe conocer la media μ y también la desviación
estándar de la población σ.
Las puntuaciones Z son una forma de comparar los resultados con una población "normal". Los resultados de
las pruebas o encuestas tienen miles de posibles resultados y unidades; esos resultados a menudo pueden
parecer insignificantes. Por ejemplo, saber que el peso de una persona es de 150 libras puede ser una buena
información, pero si desea compararlo con el peso " promedio " de la persona, mirar una amplia tabla de
datos puede ser abrumador (especialmente si algunos pesos se registran en kilogramos). . Una puntuación z
puede decirle dónde se compara el peso de esa persona con el peso medio de la población promedio.
Los puntajes T
son puntajes estandarizados en cada dimensión para cada tipo. Una puntuación de 50 representa la media.
Una diferencia de 10 de la media indica una diferencia de una desviación estándar. Por lo tanto, una
puntuación de 60 es una desviación estándar por encima de la media, mientras que una puntuación de 30 es
IQ de desviación
Tipo de puntuación estándar distribuida normalmente (con una media de 100 y una desviación estándar de
Una stanine es un tipo de puntuación estandarizada que se utiliza para comparar la posición de una única
puntuación con una distribución de puntuaciones, en una escala del 1 al 9. Como otros puntajes
estandarizados, como percentiles, puntajes T y puntajes z , los stanines se derivan de una transformación de
puntajes brutos basados en una suposición de datos distribuidos normalmente. Stanine es una abreviatura
de "estándar nueve" y se obtiene dividiendo una distribución normal en nueve intervalos, con una media de
cinco y una desviación estándar de dos. Esta escala da como resultado nueve segmentos de intervalos
iguales, cada uno de los cuales tiene la mitad de una desviación estándar de ancho, excepto en cada
la estanina 5.
Las pruebas y evaluaciones basadas en criterios están diseñadas para medir el desempeño de los
descripciones escritas y concisas de lo que se espera que los estudiantes sepan y puedan hacer en una
En la educación primaria y secundaria, las pruebas basadas en criterios se utilizan para evaluar si los
específicas. Por ejemplo, el plan de estudios que se enseña en un curso, programa académico o área de
contenido.
Si los estudiantes se desempeñan en o por encima de las expectativas establecidas, por ejemplo,
respondiendo un cierto porcentaje de preguntas correctamente, pasarán la prueba, cumplirán con los
estándares esperados o se considerarán " competentes ". En una prueba basada en criterios, todos los
estudiantes que realicen el examen podrían reprobar teóricamente si no cumplen con el estándar esperado;
En las pruebas basadas en criterios, no solo es posible, sino deseable, que todos los estudiantes aprueben la
prueba o obtengan una puntuación perfecta. Las pruebas con criterios de referencia se han comparado con
los exámenes de licencia de conducir, que requieren que los aspirantes a conductores logren un puntaje