Está en la página 1de 40

TEST CONSTRUCTION

TEORIA CLASICA DE LOS TEST

Las respuestas dadas por una persona en un test son comparadas a través de métodos estadísticos o cualitativos

con las respuestas de otros individuos que complementaron el mismo test. Ello permite realizar una clasificación.El

psicólogo, como cualquier otro profesional, tiene que asegurarse de que el instrumento que utiliza mide con

precisión, con poco error.

Spearman propone un modelo muy simple para las puntuaciones de las personas en los test: El modelo lineal clásico.

Este modelo consiste en asumir que la puntuación que una persona obtiene en un test, que denominamos su

puntuación empírica,y que suele designarse con la letra X, está formada por dos componentes. El primero, es la

puntuación verdadera (V) y el segundo el error (e).

X = V + e
LA DIFICULTAD DE LOS ÍTEMS

Se refiere a la probabilidad de que los examinados obtengan el ítem correcto para las evaluaciones ,

respondan en la dirección clave con evaluaciones psicológicas o encuestas.La dificultad es importante para

evaluar las características de un ítem y si debe continuar siendo parte de la evaluación; en muchos casos, los

elementos se eliminan si son demasiado fáciles o demasiado difíciles. También nos permite comprender mejor

cómo los elementos y la prueba en su conjunto funcionan como un instrumento de medición y qué pueden

decirnos sobre los examinados.

El valor P es un concepto inverso: un valor bajo indica dificultad alta y viceversa.

Para calcular la dificultad de los ítems clásicos se cuenta el número de examinados que respondieron

correctamente y se divide por el número de encuestados. Esto le da una proporción , que es como un

porcentaje, pero está en la escala de 0 a 1 en lugar de 0 a 100. Por lo tanto, el rango posible que verá

informado es de 0 a 1.
Este valor de P NO debe confundirse con el valor de p del mundo de las pruebas de hipótesis. Tienen el mismo

nombre, pero por lo demás no tienen ninguna relación. Por esta razón, algunos psicometristas lo llaman P +.

Para las evaluaciones educativas / cognitivas, la dificultad se refiere a la probabilidad de que los examinados

obtengan el elemento correcto. Si más examinados obtienen el elemento correcto, tiene poca dificultad. Para

los datos de tipo psicológico / de encuesta, la dificultad se refiere a la probabilidad de responder en la

dirección tecleada.
Es decir, si está evaluando la extraversión y el ítem es "Me gusta ir a fiestas", entonces está evaluando

cuántos examinados estuvieron de acuerdo con la declaración. Lo que es único con los datos del tipo de

encuesta es que a menudo incluyen codificación inversa; la misma evaluación también podría tener un ítem

que sea “Prefiero pasar tiempo con libros en lugar de personas” y un examinado que no esté de acuerdo con

esa afirmación cuenta como un punto para la puntuación total.


DISCRIMINACIÓN DEL ÍTEM

Se define como la capacidad del ítem para distinguir a los sujetos de alta, media y baja puntuación en un

criterio. El criterio puede ser:

INTERNO (el test y el ítem miden el mismo constructo) (el índice de discriminación se puede interpretar

como Índice de Homogeneidad).

EXTERNO (la puntuación en otro test) (el índice de discriminación es una medida del grado de validez del

ítem).

EL ÍNDICE DE DISCRIMINACIÓN: Se basa en la información que proporciona la comparación del rendimiento

de dos grupos extremos (bajo y alto) en las puntuaciones en el test. Se toma el 27 % de los sujetos de más

baja puntuación y el 27 % de más alta puntuación en el test.

D = 0 refleja que el ítem no discrimina adecuadamente.

D > 0.40 refleja que el ítem tiene gran poder discriminativo.

Un valor negativo en D indicaría una disminución en la precisión del instrumento de medida.


TEORÍA DE RESPUESTA AL ÍTEM

La TRI afirma que si una persona tiene un nivel n de conocimiento

sobre geografía, por ejemplo, tendrá asociado a dicho valor una

probabilidad de que conteste correctamente a una pregunta de

geografía. Expresado a la inversa, si una persona que responde

correctamente a un ítem, es posible suponer que esta persona

posee un determinado nivel de conocimiento.

Para cada nivel de conocimiento, aptitud, habilidad o rasgo existe

una probabilidad asociada de contestar correctamente al ítem.

Esta probabilidad es pequeña para sujetos con bajo nivel de

rasgo, y alta para sujetos con altos niveles de rasgo. La relación

entre el nivel de aptitud y la probabilidad de respuesta correcta al

ítem se representa con la curva características del ítem (CCI). En

la práctica la CCI se suele representar en una escala situada entre

–3 y +3 puntos de habilidad. En el eje x se sitúan los valores de la

habilidad y en el eje y las probabilidades asociadas.


Parámetros del ítem
Como se ha indicado, los parámetros son tres: dificultad, discriminación y pseudo-azar. El índice de
dificultad se suele indicar con la letra “b” y se define como el punto de la escala de habilidad donde
la probabilidad de responder correctamente el ítem es igual a 0,5. Es decir, que coincide con el

grado de habilidad donde la curva “señala” una probabilidad de 0,5. Dicho de otra forma, con ese

nivel de habilidad, la persona tienen una probabilidad del 50% de contestar correctamente al ítem.

El índice de discriminación indica hasta que punto la pregunta puede discriminar entre sujetos que
tienen un nivel alto de habilidad de aquellos que tienen un nivel bajo. El índice de discriminación se

suele representar con la letra “a”. Esta propiedad se refleja en la pendiente de la curva, así, una

mayor pendiente indicará una mayor discriminación y viceversa.

El coeficiente de azar o pseudoazar, se representa con la letra “c” e indica la probabilidad de


contestar correctamente un ítem sin tener el nivel de habilidad exigido. Este parámetro trata de

representar el efecto del azar.


Los test son instrumentos sofisticados de medida que, en muchos casos, constituyen una ayuda de

incalculable valor en el contexto de una evaluación psicológica. Para que esto sea así el test

debe cumplir unos mínimos psicométricos y el especialista que lo pasa debe conocer el protocolo

de administración y respetarlo.Por otro lado, las teorías de los test nos hablan de cómo podemos

evaluar la calidad de un test y también, en muchos casos, de cómo podemos depurar el

instrumento para reducir el error al mínimo. En este sentido, quizás los dos conceptos más

importantes dentro de la teoría clásica de los test son los de fiabilidad y validez.

La fiabilidad se entiende como la consistencia o estabilidad de las medidas cuando el proceso

de medición se repite. La fiabilidad de un test es el grado o la precisión con que el test mide un

determinado rasgo psicológico, independientemente del hecho de si es capaz o no de

medirlo (validez). Es decir, se dice que un test es fiable cuando "mide bien aquello que

está midiendo".
METODOS DE ESTIMACIÓN PARA LA FIABILIDAD

La fiabilidad tiene dos grandes componentes:

La consistencia interna: se refiere al grado en que los distintos ítems, partes o piezas de un test miden la

misma cosa. Significa la constancia de los ítems para operar sobre un mismo constructo psicológico de un

modo análogo.

La estabilidad temporal: se refiere al grado en que un instrumento de medida arrojará el mismo resultado

en diversas mediciones concretas midiendo un objeto o sujeto que ha permanecido invariable.

Método test-retest
Está indicado para estimar la fiabilidad de un test del que sólo disponemos una forma. Consistiría en:

1. Administrar el mismo test en dos ocasiones diferentes separadas por cierto lapso temporal a una misma

muestra de sujetos.

2. Calcular el coeficiente de correlación entre las puntuaciones obtenidas por los sujetos en las dos ocasiones.

El método evalúa la estabilidad de los resultados a través de cierto tiempo. Por ello, al coeficiente de

fiabilidad que obtiene se le denomina coeficiente de estabilidad temporal.


METODOS DE ESTIMACIÓN PARA LA FIABILIDAD

Respecto al tiempo que debe transcurrir:

A menor tiempo mayor efecto de la memoria de las respuestas dadas, del aprendizaje debido al propio

test y de la fatiga producida por el propio test (si la segunda medición sucede de un modo más o menos

inmediato).

A mayor tiempo, mayor posibilidad de que los sujetos hayan cambiado realmente en la variable de interés

debido a múltiples factores permanentes o circunstanciales: aprendizaje, cambios evolutivos, experiencias

emocionales, enfermedad, condiciones ambientales y sociales, etc.

Por todo esto, las estimaciones por el método test-retest son más apropiadas para tests que miden rasgos

poco afectables por los efectos de la práctica y que son estables a lo largo del intervalo de tiempo

transcurrido, como son los tests de rapidez perceptiva, discriminación sensorial, verificación rápida de cálculos

numéricos, etc.
METODOS DE ESTIMACIÓN PARA LA FIABILIDAD

Consistencia interna de un test

En muchas situaciones no es posible llevar a cabo dos aplicaciones del test. El objetivo aquí, es establecer

hasta qué punto se puede generalizar del conjunto específico de ítems al dominio o universo de contenidos.

Una forma de llevar a cabo esta estimación es valorando el grado de consistencia con el que los examinados

responden los ítems o subconjuntos de ítems del test, en una única aplicación del mismo. Cuando los sujetos

tienen un rendimiento consistente en los distintos ítems, decimos que el test tiene homogeneidad de ítems.

Para que un grupo de ítems sea homogéneo debe medir el mismo constructo o el mismo dominio de

contenidos.

Métodos de las dos mitades, Mediante la fórmula de corrección de Spearman-Brown

Administrar el test a una muestra de sujetos una sola vez.

Descomponer el test en dos partes de modo que tengan el mismo número de ítems y que puedan ser

consideradas paralelas. Calcular la puntuación total en cada una de estas partes. (Es común comparar la

primera mitad del test con la segunda, o comparar los ítems pares con los impares).
METODOS DE ESTIMACIÓN PARA LA FIABILIDAD

Obtener la correlación entre las partes. Esa correlación, si las formas son paralelas, podría considerarse la

fiabilidad de un test con la mitad de ítems.

Aplicar sobre esa correlación la corrección de Spearman-Brown para longitud doble:

Esta corrección estima la correlación que se hubiera obtenido entre las partes si hubiesen tenido el mismo

número de ítems que el test completo.

En el caso de que estemos trabajando con ítems valorados dicotómicamente seutilizarán las fórmulas de

Kuder-Richardson (KR –20 y KR -21). Cuando los ítems tienen diferentes índices de dificultad se utiliza la

fórmula KR –20. En el caso de que elíndice de dificultad sea igual, utilizaremos KR –21.
METODOS DE ESTIMACIÓN PARA LA FIABILIDAD

Fiabilidad entre calificadores o evaluadores


En los tests no estructurados, aunque no exclusivamente en ellos, es necesario determinar si dos o más

resultados obtenidos por dos o más evaluadores distintos o por el mismo evaluador en momentos diferentes

son coincidentes. En estos casos estaremos hablando de Fiabilidad intrajuez o Fiabilidad interjueces.

Se calcula a través de un índice de concordancia entre evaluadores, siendo la fórmula más utilizada el índice

Kappa:
METODOS DE ESTIMACIÓN PARA LA FIABILIDAD

Acuerdo porcentual
Se calcula como el número de veces que un conjunto de calificaciones concuerda, dividido por el número total

de unidades de observación que están calificadas, multiplicado por 100. Los beneficios del acuerdo porcentual

son que es simple de calcular y se puede usar con cualquier tipo de escala de medida.

FACTORES QUE AFECTAN LA FIABILIDAD

Longitud del test


Si el número de ítems es pequeño, la interpretación que hagamos de las puntuaciones tiene un valor limitado.

Si el propósito que se persigue es el poder establecer el grado de maestría de un sujeto, la determinación de

la longitud del test está directamente relacionada con el número de errores de clasificación tolerables.

Cuando el número de elementos del test es elevado, se pueden asegurar valores de probabilidad de

clasificación incorrecta mínimos.Se pueden considerar dos maneras de reducir el número de errores que se

pueden cometer sin tener que aumentar la longitud del test: la utilización de modelos bayesianos y los

métodos basados en tests computerizados.


Error estándar de medición (SEm): El error estándar de medición (SEm) es una medida de cuánto se

distribuyen las puntuaciones de las pruebas medidas alrededor de una puntuación "verdadera". El SEm es

especialmente significativo para quien rinde el examen porque se aplica a un solo puntaje y usa las mismas

unidades que el examen.


Intervalos de confianza: El SEm suele ir acompañado de un intervalo de confianza , o un rango alrededor de

la puntuación "verdadera" estimada. La unidad de medida es la misma que la de las puntuaciones originales.

Por ejemplo, si está midiendo en puntos, el SEm estará en puntos y si está midiendo en porcentajes, el SEm

estará en porcentajes. Intervalos de confianza SEm comunes y sus fórmulas:

68% CI = Puntuación ± SEM


95% CI = Puntuación ± (1,96 * SEM)

99% CI = Puntuación ± (2,58 * SEM)

Ejemplo : una persona obtiene 100 en una prueba con un SEm de 2. ¿Cuál es el intervalo de confianza del 68%
para la distribución de las puntuaciones?

Solución: Un SEm de 2 sería un SEM a cada lado de la puntuación real (es decir, entre -1 y 1 SEm). Usando

La fórmula: 68% CI = Puntaje ± SEM(100 - 2) = 98(100 + 2) = 102.

El puntaje real de la persona se encuentra entre 98 y 102.

¿Cuál es el intervalo de confianza del 95% para los mismos datos?


El uso de la fórmula para el IC del 95% da un rango de 96,08 a 103,92:

IC del 95% = Puntuación ± (1,96 * SEM) = 100 ± (1,96 * 2) = 96,08 / 103,92.


VALIDEZ

Se acepta que el término validez hace referencia al grado en el que el test mide aquello que pretende

medir. El concepto de validez hace referencia al grado de relación entre el test y el constructo que se

pretende medir.

El objetivo es analizar hasta qué punto los ítems que componen el test son una muestra relevante y

representativa del constructo sobre el que se van a realizar las inferencias. No existen procedimientos

estadísticos apropiados.

La forma típica de llevar a cabo un estudio de validación de contenido es utilizando un grupo de expertos

que serán los encargados de analizar dos aspectos fundamentales:

Que el test no incluya aspectos irrelevantes del dominio de interés,

Que incluya todos los elementos importantes que definen el dominio.

Se trata de un análisis racional del contenido del test y, por lo tanto, los resultados del estudio estarán

basados en los juicios subjetivos emitidos por los expertos. Un tipo especial de validez de contenido es la

Validez aparente, que se refiere a la necesidad de que el test parezca, dé la impresión a los que se aplica,

de que es adecuado para medir lo que se pretende. Puede tener su importancia de cara a la motivación y

actitud de los sujetos.


VALIDEZ DE CONSTRUCTO

Se refiere al grado en que el instrumento de medidacumple con las hipótesis que cabría esperar para un

instrumento de medida diseñado para medir precisamente aquello que deseaba medir. Se puede considerar

un concepto general que abarcaría los otros tipos de validez.

La Matriz Multirrasgo-MultimétodoSe evalúa a partir de una matriz de correlaciones, donde aparecen varios

rasgos psicológicos (constructos) medidos por varios métodos.

Hay Validez Convergente si son elevadas las correlaciones entre las medidas de un rasgo por distintos

métodos.

Hay Validez Discriminante si son bajas las correlaciones entre las medidas de distintos rasgos obtenidos

por el mismo método.

Hay Validez de Constructo si la Validez Discriminante es menor que la Validez Convergente.


VALIDEZ DE CONSTRUCTO

El Análisis Factorial

El Análisis Factorial va a permitir determinar la estructura que subyace a las puntuaciones obtenidas por los

sujetos en los distintos ítems del test o en un conjunto de tests. Incluye una serie de técnicas estadísticas que

tienen por objetivo representar y explicar un conjunto de variables observables mediante un menor número de

variables latentes o inobservables, llamadas latentes:

Cuando en un mismo factor se agrupan múltiples indicadores del constructo, se obtiene evidencia de la

validez convergente.

Cuando en el análisis se han obtenido medidas de otros constructos y éstas aparecen agrupadas en

distintos factores, se obtiene evidencia de la validez discriminante.

Carga de factores: La carga defactores es básicamente el coeficiente de correlación para la variable y el

factor. La carga de factores muestra la varianza explicada por la variable en ese factor en particular. En el

enfoque SEM, como regla general, una carga factorial de 0,7 o más representa que el factor extrae suficiente

varianza de esa variable.


VALIDEZ DE CONSTRUCTO

Método de rotación: el método de rotación hace que sea más confiable comprender la salida. Los valores

propios no afectan el método de rotación, pero el método de rotación afecta los valores propios o el

porcentaje de varianza extraído. Hay varios métodos de rotación disponibles: (1) Sin método de rotación,

(2) Método de rotación Varimax, (3) Método de rotación Quartimax, (4) Método de rotación oblimin directo

y (5) Método de rotación Promax. Cada uno de estos se puede seleccionar fácilmente en SPSS , y podemos

comparar nuestra varianza explicada por esos métodos particulares.


VALIDEZ DE CONSTRUCTO

COMUNALIDAD

En análisis factorial , la comunalidad de una variable es una medida útil para predecir el valor de la variable .

Más específicamente, le dice qué proporción de la varianza de la variable es el resultado de:Los componentes

principales oLas correlaciones entre cada variable y factores individuales (Vogt, 1999).En el análisis factorial, la

comunalidad se puede denotar como h"2.

La comunalidad de una variable varía de 0 a 1.

En general, una forma de pensar en la comunalidad es como la proporción de varianza común encontrada en

una variable en particular. Una variable que no tiene ninguna varianza única (es decir, una con varianza

explicada que es 100% resultado de otras variables) tiene una comunalidad de 1.

Una variable con varianza que es completamente inexplicable por cualquier otra variable tiene una

comunalidad de cero (Field, 2013).


RELACIÓN CON EL ERROR Y LA VARIANZA ESPECÍFICA
La comunalidad (también conocida como variación común) está entrelazada con una variación única. Los dos

tipos de varianza constituyen el 100% de la varianza de la variable. La varianza única se compone a su vez de

varianza específica y varianza de error . La varianza específica tiene algo específico que ver con su modelo /

encuesta.

Por ejemplo, si estuviera realizando un análisis factorial de los resultados de un cuestionario para evaluar la

depresión, un divorcio reciente sin duda explicaría alguna variación. Algo que no tiene nada que ver (como

que el sujeto no durmió nada la noche anterior a la prueba porque estaban viendo Friends en exceso ) sería la

variación del error.

La relación entre todos estos diferentes tipos de varianza se explica mejor con una imagen:
Validación referida al criterio

Se trata de obtener evidencia acerca del grado en que las puntuaciones obtenidas en el test pueden utilizarse

eficazmente para hacer inferencias acerca del comportamiento real de los sujetos en un criterio que no puede

ser medido directamente.

El objetivo principal es evaluar la hipótesis de relación entre test y criterio.Se suelen utilizar dos tipos de

índices:

Medidas correlacionales (rxy, CD, CA, CPV),

Medidas de error en la predicción (errores de estimación)

Este tipo de estudios se suelen realizar desde dos perspectivas diferentes:

Cuando los tests se van a utilizar para la selección o clasificación de personas (validez pronosticada),

Cuando se utilizan para hacer un diagnóstico (validez concurrente).

Según el diseño utilizado para calcular el coeficiente de validez se distingue entre:

Validez predictiva: la medida del criterio se obtiene con posterioridad a la del test
Validez concurrente: la media del criterio se obtiene al mismo tiempo que la del test.
La validación del criterio es un proceso en el que la teoría no juega un papel principal.
Representa el grado de inseguridad,
de azar, que afecta a los pronósticos Equivale al coeficiente de
en el criterio
validez al cuadrado.

Indica la proporción de desviación Representa la proporción de varianza de las


típica de las puntuaciones en el puntuaciones de los sujetos en el criterio que
criterio que no es explicada por el Coeficiente de Coeficiente de se puede explicar, que está asociada, por la
test. varianza de las puntuaciones en el test.
Alienación determinación
Es directamente proporcional al
Es inversamente proporcional al
coeficiente de validez
coeficiente de validez.

Es inversamente proporcional al Es menor que el coeficiente


coeficiente de determinación. de validez.

Es menor que el error típico de


estimación INTERPRETACIÓN DEL
COEFICIENTE DE VALIDEZ

Representa el grado de seguridad


con que se efectúan los pronósticos
en el criterio.

Es directamente proporcional al
coeficiente de validez. Coeficiente de
Es el complemento del coeficiente Valor Predictivo
de alienación. (CVP = 1 – CA)
Error estándar de estimación (SEE)

Una regresión lineal nos da una línea de mejor ajuste para un diagrama de

dispersión de datos. El error estándar de estimación (SEE) es una de las métricas

que nos informa sobre el ajuste de la línea a los datos. El SEE es la desviación

estándar de los errores (o residuales).

Cuanto menor sea el valor de un error estándar de estimación, más cerca estarán

los puntos de la línea de regresión y mejor será la estimación basada en la

ecuación de la línea.

Si el error estándar es cero, entonces no hay variación correspondiente a la línea

calculada y la correlación será perfecta. Por tanto, el error estándar de

estimación mide la precisión de las cifras estimadas, es decir, es posible

determinar la bondad y representatividad de la línea de regresión como

descripción de la relación media entre las dos series.

Ejemplo: Los gráficos siguientes muestran dos ejemplos de regresión.Puede ver

que en el gráfico A, los puntos están más cerca de la línea que en el gráfico B.Por

lo tanto, las predicciones del Gráfico A son más precisas que las del Gráfico B.
La validez incremental

La validez incremental se refiere al beneficio adicional que tiene una variable predictora particular sobre otros

predictores.

Ejemplo

digamos que es más probable que un médico diagnostique correctamente una infección renal si se solicita un

análisis de orina, en lugar de depender únicamente de un examen físico y la discusión de los síntomas.

Podemos decir que la prueba de orina tiene validez incremental. Si realizar un análisis de sangre además del

análisis de orina le da al médico una ventaja adicional, el análisis de sangre también tendrá validez

incremental. Pero si la combinación de análisis de sangre, análisis de orina y examen físico / entrevista no

tiene mayor poder predictivo que el análisis de orina y el examen físico / entrevista, diríamos que el análisis de

sangre no tiene validez incremental en esa situación.

Tenga en cuenta que este tipo de validez depende no solo de la variable en cuestión, sino también de los

predictores que componen el conjunto base. Tanto la situación como los predictores en el conjunto base

deben estar bien definidos para que la validez incremental sea un concepto significativo.
Estimación de la validez incremental

La regresión múltiple jerárquica es la técnica más utilizada para evaluar la cantidad de variabilidad que

explica un predictor. Esto a menudo se hace ajustando un modelo a los datos sin la variable de interés, y luego

agregando la variable focal y ajustando un nuevo modelo. Se comparan los dos modelos (calculando el

estadístico R-cuadrados ); y se entiende que un cambio significativo significa que la nueva variable sí tiene

una validez incremental significativa o un poder predictivo adicional.


Precisión de clasificación
La precisión de la clasificación es simplemente la tasa de

clasificaciones correctas, ya sea para un conjunto de

prueba independiente o usando alguna variación de la idea

de validación cruzada.

La sensibilidad nos indica la capacidad de nuestro

estimador para dar como casos positivos (Fig. → círculo

grande) los casos realmente enfermos (Fig. → punto);

proporción de enfermos correctamente identificados. Es

decir, la sensibilidad caracteriza la capacidad de la prueba

para detectar la enfermedad en sujetos enfermos.

La especificidad nos indica la capacidad de nuestro

estimador para dar como casos negativos (Fig. → rectángulo

grande) los casos realmente sanos (Fig. → aro); proporción

de sanos correctamente identificados. Es decir, la

especificidad caracteriza la capacidad de la prueba para

detectar la ausencia de la enfermedad en sujetos sanos.


El valor predictivo positivo es la probabilidad de que los sujetos con una prueba de detección positiva

realmente tengan la enfermedad.

El valor predictivo negativo es la probabilidad de que los sujetos con una prueba de detección negativa

realmente no tengan la enfermedad.

razón de verosimilitud, el likelihood ratio (LR) se define como la razón entre la posibilidad de observar un

resultado en los pacientes con la enfermedad en cuestión versus la posibilidad de ese resultado en

pacientes sin la patología

.El uso del LR constituye una herramienta de gran utilidad para la toma de decisiones clínicas frente a la

solicitud de algún test diagnóstico, porque son valores inherentes a este e independientes de la prevalencia

de la enfermedad. Si bien su cálculo deriva de probabilidades condicionadas en base al teorema de Bayes,

se puede estimar en base a parámetros de sensibilidad y especificidad de la siguiente manera:Esto refleja la

capacidad de un test diagnóstico para cambiar una probabilidad pretest a una nueva probabilidad postest.

La aplicabilidad del LR es múltiple en la práctica radiológica, ya que es posible utilizarlo al analizar pruebas

diagnósticas con resultados dicotómicos, en los que solo es posible determinar presencia o ausencia de

enfermedad (negativo o positivo), o bien con resultados categóricos, por ejemplo mediante exámenes que

tienen categorías de severidad (leve, moderada o severa).


El impacto de los valores del LR positivo y negativo se refleja en la tabla 1. Como término general, hay que

recordar que un LR positivo mayor de 10 y un LR negativo menor de 0,1 indica un cambio relevante en la

probabilidad pretest, lo cual determina con alta certeza un cambio de conducta clínica.
Coeficientes de correlación corregidos por atenuación

corrección por atenuación en los análisis que estiman la relación entre dos variables, un ajuste por error

introducido durante el proceso de obtención de las medidas, donde dicho error sirve para subestimar el

efecto medido.

La correlación calculada entre dos variables queda siempre disminuida, atenuada, por culpa de los errores

de medición, es decir, por su no perfecta fiabilidad. La verdadera relación es la que tendríamos si nuestros

instrumentos midieran sin error. Esta correlación corregida por atenuación es la que hubiéramos obtenido si

hubiésemos podido suprimir los errores de medición en las dos variables (o al menos en una de las dos; no

siempre conocemos la fiabilidad de las dos variables).

criterio de contaminación
una situación en la que una medida de respuesta (el criterio) está influenciada por factores que no están

relacionados con el concepto que se está midiendo. La evidencia de esto puede observarse a través de

correlaciones de la medida de respuesta con variables que son conceptualmente distintas de esa medida.

Por ejemplo, las discrepancias de desempeño (en dólares vendidos) entre los agentes de seguros pueden

surgir no de diferencias reales en la capacidad, sino más bien de diferencias socioeconómicas en los

territorios asignados a los vendedores.


La validación cruzada o cross-validation es una técnica utilizada para evaluar los resultados de un análisis

estadístico y garantizar que son independientes de la partición entre datos de entrenamiento y prueba.

Consiste en repetir y calcular la media aritmética obtenida de las medidas de evaluación sobre diferentes

particiones. Se utiliza en entornos donde el objetivo principal es la predicción y se quiere estimar la precisión

de un modelo que se llevará a cabo a la práctica.1 Es una técnica muy utilizada en proyectos de inteligencia

artificial para validar modelos generados


PRUEBAS ESTANDARIZADAS

Los test psicológicos son instrumentos estandarizados utilizados para medir de forma rápida una o más

características que forman parte de la psique humana como personalidad, inteligencia, atención.

Existen diversos tipos como verbales, gráficos, manchas y son utilizados en diversos contextos (laboral,

jurídicos).

Algunos pueden aplicarse a toda la población y otros solo a niños, adolescentes o adultos. Actualmente los

test psicológicos, también conocidos como pruebas psicológicas, son utilizados en diversos contextos, tal

vez, el más conocido sea el proceso de selección de personal para un puesto específico en una empresa.

Sin embargo, los test psicológicos también pueden ayudar a una persona a elegir una carrera o profesión a

través de un test de orientación vocacional, o brindar un apto psicológico para obtener la licencia de

conducir.
PRUEBAS ESTANDARIZADAS

P untuaciones percentiles
Sirven para ordenar a los sujetos e indican el porcentaje del grupo que se deja por debajo. Ej: un sujeto con

un percentil 80 significa que obtiene puntuaciones superiores al 80% de los sujetos de su grupo de

referencia, o que tiene puntuaciones inferiores al 20% restante. A pesar de que son fáciles de calcular, no

permiten explicarlas diferencias entre percentiles ni permite comparara los percentiles obtenidos por un

sujeto en distintos instrumentos de evaluación. Se trata de puntuaciones de orden, que en ningún caso

ponen de manifiesto la diferencia cuantitativa que existe entre los individuos al no operar con unidades

constantes. Son muy útiles en pruebas de rendimiento tanto a nivel educativo como empresarial.

Rango percentil
Un rango de percentiles es la diferencia entre dos percentiles especificados. En teoría, estos podrían ser dos

percentiles cualesquiera, pero el rango de percentiles 10-90 es el más común. Para encontrar el rango de

percentiles 10-90:Calcule el percentil 10 utilizando los pasos anteriores.Calcule el percentil 90 utilizando los

pasos anteriores.Reste el Paso 1 (el percentil 10) del Paso 2 (el percentil 90).
La puntuación estándar es el número de desviaciones estándar por las que el valor de una puntuación

bruta (es decir, un valor observado o un punto de datos) está por encima o por debajo del valor medio de lo

que se está observando o midiendo. Los puntajes brutos por encima de la media tienen puntajes estándar

positivos, mientras que los que están por debajo de la media tienen puntajes estándar negativos.

Se calcula restando la media de la población de una puntuación bruta individual y luego dividiendo la

diferencia por la desviación estándar de la población . Este proceso de convertir una puntuación bruta en

una puntuación estándar se denomina estandarización o normalización (sin embargo, "normalizar" puede

referirse a muchos tipos de proporciones; consulte normalización para obtener más información).
Compara los distintos métodos de clasificación en una distribución normal. Incluye: desviaciones estándar,

porcentajes acumulados, equivalentes de percentiles, puntajes Z, puntajes T


UN PUNTAJE Z (TAMBIÉN LLAMADO PUNTAJE ESTÁNDAR )

le da una idea de qué tan lejos de la media está un punto de datos. Pero más técnicamente es una medida

de cuántas desviaciones estándar por debajo o por encima de la población significan una puntuación bruta

.Se puede colocar una puntuación z en una curva de distribución normal .

Las puntuaciones Z van desde -3 desviaciones estándar (que caerían en el extremo izquierdo de la curva de

distribución normal) hasta +3 desviaciones estándar (que caerían en el extremo derecho de la curva de

distribución normal). Para utilizar una puntuación z, debe conocer la media μ y también la desviación

estándar de la población σ.

Las puntuaciones Z son una forma de comparar los resultados con una población "normal". Los resultados de

las pruebas o encuestas tienen miles de posibles resultados y unidades; esos resultados a menudo pueden

parecer insignificantes. Por ejemplo, saber que el peso de una persona es de 150 libras puede ser una buena

información, pero si desea compararlo con el peso " promedio " de la persona, mirar una amplia tabla de

datos puede ser abrumador (especialmente si algunos pesos se registran en kilogramos). . Una puntuación z

puede decirle dónde se compara el peso de esa persona con el peso medio de la población promedio.
Los puntajes T

son puntajes estandarizados en cada dimensión para cada tipo. Una puntuación de 50 representa la media.

Una diferencia de 10 de la media indica una diferencia de una desviación estándar. Por lo tanto, una

puntuación de 60 es una desviación estándar por encima de la media, mientras que una puntuación de 30 es

dos desviaciones estándar por debajo de la media.

IQ de desviación
Tipo de puntuación estándar distribuida normalmente (con una media de 100 y una desviación estándar de

15) que representa el nivel de desempeño en las pruebas de capacidad cognitiva.

Una stanine es un tipo de puntuación estandarizada que se utiliza para comparar la posición de una única

puntuación con una distribución de puntuaciones, en una escala del 1 al 9. Como otros puntajes

estandarizados, como percentiles, puntajes T y puntajes z , los stanines se derivan de una transformación de

puntajes brutos basados en una suposición de datos distribuidos normalmente. Stanine es una abreviatura

de "estándar nueve" y se obtiene dividiendo una distribución normal en nueve intervalos, con una media de

cinco y una desviación estándar de dos. Esta escala da como resultado nueve segmentos de intervalos

iguales, cada uno de los cuales tiene la mitad de una desviación estándar de ancho, excepto en cada

extremo de la distribución. La media y la mediana de la distribución estándar se encuentran en el centro de

la estanina 5.
Las pruebas y evaluaciones basadas en criterios están diseñadas para medir el desempeño de los

estudiantes contra un conjunto fijo de criterios o estándares de aprendizaje predeterminados , es decir,

descripciones escritas y concisas de lo que se espera que los estudiantes sepan y puedan hacer en una

etapa específica de su educación.

En la educación primaria y secundaria, las pruebas basadas en criterios se utilizan para evaluar si los

estudiantes han aprendido un cuerpo específico de conocimientos o adquirido un conjunto de habilidades

específicas. Por ejemplo, el plan de estudios que se enseña en un curso, programa académico o área de

contenido.

Si los estudiantes se desempeñan en o por encima de las expectativas establecidas, por ejemplo,

respondiendo un cierto porcentaje de preguntas correctamente, pasarán la prueba, cumplirán con los

estándares esperados o se considerarán " competentes ". En una prueba basada en criterios, todos los

estudiantes que realicen el examen podrían reprobar teóricamente si no cumplen con el estándar esperado;

alternativamente, cada estudiante podría obtener la puntuación más alta posible.

En las pruebas basadas en criterios, no solo es posible, sino deseable, que todos los estudiantes aprueben la

prueba o obtengan una puntuación perfecta. Las pruebas con criterios de referencia se han comparado con

los exámenes de licencia de conducir, que requieren que los aspirantes a conductores logren un puntaje

mínimo de aprobación para obtener una licencia.

También podría gustarte