Glosario Psicometria PIERT

GLOSARIO DEL TUTORIAL PIERT CON TÉRMINOS
FRECUENTES EN TEORIA DE LOS TESTS Y PSICOMETRIA
J. Renom
A
Abscisa
Valor correspondiente al eje de abscisas.
Administrar un test
Aplicar la prueba a uno o más individuos.
Agrupación
Cualquier conjunto de objetos estadísticos (por ejemplo: personas, ítems, pruebas
educativas, productos comerciales o países) que posean una o varias características
comunes. También es frecuente utilizar este término cuando un subconjunto de objetos
estadísticos, aun siendo distintos, poseen una o varias características muy similares.
Ajuste del Modelo

En el modelo de Rasch, la estimación de parámetros de dificultad (b) y capacidad (Theta)
requiere valorar el ajuste del modelo a las respuestas y con ello plantear si su elección fue
idónea. La prueba de ajuste sirve a este fin, debiendo comparar el perfil empírico de las
respuestas con la CCI propuesta por el modelo.
Ver Modelo de Rasch

Ver Bondad de ajuste, prueba de
Aleatoriedad, prueba de
Conjunto de técnicas estadísticas destinadas a probar que una distribución o serie de
datos se comportan estocásticamente (al azar) según un patrón conocido. Por ejemplo,
la prueba de las rachas se halla dentro de este conjunto de técnicas.
Aleatorio
Sometido al azar
Algoritmo
Cualquier procedimiento que, mediante una serie ordenada de pasos, permite alcanzar la
resolución de un problema.
Alpha
Ver Coeficiente Alpha
Alternativa correcta
Letra o número que identifica la respuesta correcta a un ítem.
Alternativa múltiple, formato de

Los ítems de alternativa múltiple están formados por un enunciado y unas opciones de
respuesta para que el examinado seleccione la respuesta correcta o la mejor respuesta
1
posible, según se le especifique. El enunciado puede estar expresado directamente o de
forma interrogativa.
Los ítems pueden presentarse de forma verbal o bien de cualquier otra forma gráfica.
Alternativas
Opciones de respuesta en ítems cerrados. Incluye la alternativa correcta y los
distractores.
Amodal
Cuando una distribución de datos, ya sea empírica o teórica, no posee moda.
Ver Moda
Amplitud
Dado un conjunto de datos ordenables, la amplitud es la diferencia entre el mayor y el
menor de los mismos. Existen diferentes términos para referirse a este concepto
estadístico y, entre los más habituales, se hallan recorrido y rango.
Amplitud intercuartílica
Índice estadístico de variabilidad resultante de la diferencia entre el tercer y el primer
cuartil.
Ver Cuartil
Amplitud semiintercuartílica
Índice estadístico de variabilidad resultante de dividir entre dos la amplitud
intercuartílica.
Ver Cuartil
Análisis
En la taxonomía de Bloom, se refiere a la capacidad de subdividir la información recibida
(a través de un texto, material, situación, etc.) con el fin de detectar los elementos que
la componen, advertir sus relaciones, inferir ideas subyacentes o discernir cómo se
estructura.
Ver Taxonomía de Bloom
Análisis bivariable
Se utiliza esta expresión cuando se refiere el análisis estadístico de dos variables, ya sea
en un contexto de estadística descriptiva o inferencial. En la estadística inferencial, el
interés se centra en conocer si entre ambas variables existe dependencia (relación) o no.
Análisis de alternativas incorrectas

Procedimiento para conocer la adecuación de los ítems de valoración dicotómica con
alternativas de respuesta. Con este análisis se detectan ítems confusos o con
solapamientos entre sus alternativas debidos a un mal diseño o interpretación.
Básicamente se calcula de forma repetida la discriminación del ítem pero considerando lo
que sucedería en el caso de que cada uno de los distractores fuera correcto. El principio de
discriminación exige que los examinados con mejor puntuación sean también los que elijan
la opción correcta. Dicho de otro modo, la alternativa correcta debe discriminar más que
2
cualquiera de las falsas discriminaciones obtenidas en las simulaciones efectuadas con los
distractores.
Ver Distractores
Análisis de componentes principales

Análisis factorial sin especificar el número de dimensiones independientes (ortogonales)
que explican la variancia de las respuestas a los ítems de un test. Su objetivo es encontrar
el menor número posible de estas dimensiones que expliquen la mayor parte de la
variancia total de la prueba.
Análisis de la variancia
Técnica estadística que permite determinar si diferentes valores de una o varias
variables independientes se corresponden con valores distintos de la media poblacional
para una variable cuantitativa (variable dependiente o de respuesta).
Generalmente se trata de variables categóricas o de variables cuantitativas de las cuales
se han tomado un número finito de valores o intervalos.
Se denominan factores a las variables independientes, mientras los niveles son los
valores de las mismas. Existen adaptaciones de la estrategia general tanto para diseños
de datos independientes como para medidas repetidas o datos apareados. También
existen extensiones para casos donde intervenga en el diseño del experimento más de
una variable dependiente y/o variables que sea preciso controlar. En cualquier caso,
estas modificaciones de la estrategia general requieren consultar obras especializadas y
están fuera del alcance de este glosario.
En resumen, la estrategia consiste en descomponer, según el modelo estadístico
apropiado, la variabilidad de los datos entre las distintas fuentes de variación, que se
agrupan en sistemáticas (a priori asignables al efecto aislado de un factor o a la acción
combinada de dos o más factores) y no sistemáticas (no asignables a los efectos
sistemáticos y, posiblemente, resultantes de la acción de fuentes de variabilidad
aleatoria). A partir de la variabilidad asignada a cada factor (efecto principal) y a la
acción conjunta de dos o más factores (efecto secundario o interactivo), se obtiene una
estimación independiente de la variancia poblacional (también referida como cuadrado
medio) para cada uno de estas fuentes de variación. Por otro lado, y considerando la
variabilidad no asignable a los efectos sistemáticos, se obtiene otra estimación
independiente de la variabilidad aleatoria o variancia del término error del modelo
estadístico. Mediante una razón de variancias, donde en el numerador se dispone
siempre una variancia correspondiente a los distintos efectos sistemáticos y en el
numerador la estimación de la variancia obtenida para el término error del modelo, se
puede realizar el contraste independiente de todas y cada una de las fuentes
sistemáticas de variación. Si a una posible fuente sistemática de variación le
corresponde una razón de variancias igual o muy cercano 1, implica que la variabilidad
asignada a esta fuente de variación es similar a la esperada por fluctuaciones aleatorias
y, por tanto, se concluye que el efecto sistemático no existe. Debe matizarse que, en el
sentido estadístico, la decisión debe tomarse no tanto según el valor de la razón de
variancias como la probabilidad de cometer un Error Tipo I (nivel de significación o P-
valor).
Frente a la estrategia de realizar comparaciones dos a dos de los distintos niveles de los
factores, la ventaja del análisis de la variancia (AVAR) consiste en el control de la tasa
nominal de error tipo I, pues se trata de un contraste global.
Ver Variable categórica

Ver Variable continua
Ver Variable cuantitativa
Ver Variable dependiente
Ver Variable independiente
3
Ver Variancia
Análisis de los ítems

Constituye el proceso de examen de los ítems del test a fin de averiguar si se adecuan a las
principales cualidades de dimensionalidad, fiabilidad y validez. Básicamente se evalúa la
efectividad de los ítems a partir de ciertas características en las respuestas que reciben por
parte del grupo de examinados.
La falta de cualidades de algunos ítems pueden llevar a plantear la conveniencia de excluir
dichos ítems del examen.
Análisis descriptivo
El objetivo consiste en caracterizar mediante gráficos e índices de posición (o
localización), variabilidad (o dispersión), forma (simetría y apuntamiento) una variable o
conjunto de variables. Cuando existen dos o más variables, éstas pueden ser también
descritas respecto a la existencia o no de independencia entre las mismas, pudiéndose
utilizar para tal fin índices de asociación y correlación. Complementariamente, también
pueden utilizarse un análisis descriptivo para la detección de datos anómalos y existencia
de posibles subpoblaciones. Este análisis puede realizarse tanto para el conjunto de
individuos estadísticos que componen una población como para un subconjunto de la
misma, denominado muestra. Cuando el análisis descriptivo se realiza sobre el total de
elementos que componen una población, usualmente se utiliza el término Estadísticas.
Análisis estadístico
Es el conjunto de técnicas aplicadas secuencialmente que pretenden descomponer los datos
para su mejor interpretación y contrastación de hipótesis.
Análisis exploratorio
Estrategia estadística consistente en la búsqueda de información en los datos sin
establecer modelos apriorísticos. La extracción de información se realiza principalmente
mediante técnicas de representación visual e índices descriptivos de distintas
características de las variables. Es una forma adecuada para abordar el análisis de datos
cuando no existen hipótesis previas y se dispone de escaso o nulo conocimiento sobre la
existencia o no de relaciones entre las variables, además de poca información sobre
cómo se distribuyen éstas. Tras esta primera aproximación, pueden diseñarse futuras
investigaciones con el objetivo de contrastar hipótesis.
Análisis factorial
Procedimiento matemático empleado para identificar los rasgos, capacidades o factores que
explican la variancia en las puntuaciones de un test a partir de la matriz de correlaciones
entre las puntuaciones proporcionadas por sus ítems.
Ver Factor
Análisis inferencial
Cuando el objetivo del análisis estadístico consiste en tomar decisiones sobre las
características de una variable o relación entre variables y generalizar las conclusiones a
la población de referencia.
Análisis longitudinal
Los datos se registran a lo largo de distintos momentos del tiempo, pues el objetivo
consiste en caracterizar el proceso estudiado a lo largo del tiempo e identificar cambios
(en el nivel, en la pendiente) y la identificación de ciclos.
4
Análisis secuencial
Cuando el análisis estadístico se realiza sobre datos que han sido codificados y obtenidos
a partir de sucesivos eventos o a intervalos de tiempo. El objetivo es determinar si dado
un estado actual, existen estados cuya ocurrencia es más probable y, así, establecer
patrones de comportamiento.
Análisis transversal
El análisis estadístico se realiza sobre datos que corresponden a un momento del tiempo,
sin interesar la evolución de la información.
A.P.A
Asociación Americana de Psicología, regula entre otras muchas áreas las normas sobre
construcción y elaboración de tests psicológicos.
Aplastamiento
Ver Apuntamiento
Aplicación
En la Taxonomía de Bloom se refiere a la capacidad de abordar situaciones o resolver
problemas nuevos utilizando los principios, reglas, métodos, teorías, etc. previamente
aprendidos.
Aplicación de la puntuación ponderada

Pese a sus ventajas, la ponderación no puede generalizarse entre individuos de muestras
distintas.
La ponderación de respuestas es más efectiva con datos dicotómicos que con los de tipo
graduado. También se corre el peligro de dicotomizar al grupo evaluado hallando un sector
de examinados beneficiados por la ponderación y otro perjudicado.
En caso de ponderación estadística mediante la discriminación del ítem, hay que vigilar
toda asociación entre valor de ponderación y contenido del ítem. En ocasiones los ítems de
mayor "peso" se relacionan con un mismo aspecto del contenido de test beneficiando a los
individuos que dominan tales situaciones.
Por último, la ponderación afectará a la variancia de las puntuaciones de examinado, ya sea
aumentándola (por dicotomización), o, en menos ocasiones, reduciéndola.
Posibles soluciones:
a) Al margen de que sea una ponderación arbitraria o estadística, este procedimiento debe
reservarse para análisis y comparación de los órdenes de resultados obtenidos por los
examinados según se emplee esta puntuación o cualquier otra. De este modo se evalúa su
utilidad y el error cometido, si se considera por igual la aportación de cada ítem.
b) Se procederá a la ponderación estadística mediante diversos procedimiento a fin de

confirmar la pauta de coeficientes asociados a cada ítem.
Ver Ponderación de respuestas de ítem
Aplicación de SEM
Las puntuaciones del test deben considerar la presencia del error de medida y, por tanto, el
empleo de bandas o intervalos de la misma mas que puntos concretos.
5
La suma y resta de 1SEM abarcará aproximadamente el 68% de los casos a la hora de
estimar la situación de la puntuación verdadera del examinado.
De aplicar 2SEM, el intervalo se extiende hasta el 95% lo cual repercute en la seguridad de
la estimación de T (valores z, +-1.96).
Una ventaja importante de esta aplicación consiste en la información suplementaria sobre
la significación de la puntuación alcanzada respecto a una de corte o criterio.
Si la decisión de apto-no apto recae en superar cierta puntuación, es importante considerar
el margen que rodea a cada una de las obtenidas por los examinados, pues algunos aptos
se confundirán con los no aptos y a la inversa. Dos puntuaciones que solapen parte de sus
respectivos intervalos de estimación de T no podrán considerarse diferentes
estadísticamente ya que entra en lo posible que la puntuación verdadera sea común.
Ver SEM
Aptitudes
Tiene un carácter predictivo definido por la expresión "aquello para lo que se es apto”. Las
aptitudes tienen tres acepciones; como disposición natural innata, como medio para
detectar diferencias individuales y como predictor de rendimiento.
En general, las capacidades y aptitudes se relacionarán con la destreza de un individuo en
el desempeño de un determinado tipo de tareas. Ya sea para una decisión en el presente o
como pronóstico de otra futura, el material de estas pruebas se basan en la medida de la
inteligencia como ente abstracto y también en las facetas o derivaciones más prácticas y
concretas de ésta.
Aptitud abstracta
Capacidad de razonamiento lógico y extracción de relaciones, muy similar al factor "g".
Aptitud espacial
Capacidad para visualizar objetos en el espacio, comprendiendo las relaciones existentes.
Aptitud general
Inteligencia general, factor "g".
Aptitud numérica
Capacidad de operar con números y resolver problemas de cálculo, sucesiones, etc.
Aptitud verbal
Capacidad de comprensión de palabras dentro de un contexto.
Apuntamiento
Grado de apuntamiento o aplastamiento de la distribución, también conocido como
Curtosis. La concentración de puntuaciones alrededor de la media lleva a encontrar
frecuencias elevadas en el centro de la distribución, mientras que en los extremos
pierden densidad rápidamente (distribución leptocúrtica).
En distribuciones muy dispersas y simétricas la curva guardará mayor similitud de
frecuencias sin destacar una zona en concreto (distribución platicúrtica).
Si el índice de apuntamiento es > 0, la distribución es leptocúrtica

Si el índice de apuntamiento es < 0, la distribución es platicúrtica
Si el índice de apuntamiento es 0, la distribución es mesocúrtica
Ver Curva Normal
6
Archivo *.mct
Archivo que contiene la matriz de respuestas a una prueba, así como la descripción en
un formato específico (Microcat) de dicha matriz.
Archivo *vdi.xls definitivo

Es el archivo que resulta después de que el usuario haya rellenado la plantilla vdi.xls con
todas las variables que desea utilizar.
Archivo *vdi.xls provisional

Es el archivo que resulta después de que el usuario haya rellenado alguna de las
variables que desea utilizar de la plantilla vdi.xls. Este archivo tiene carácter provisional
porque posteriormente deberá volver a recuperarse para completar nuevas variables.
Archivo *vdp.xls definitivo

Es el archivo que resulta después de que el usuario haya rellenado la plantilla vdp.xls
con todas las variables que quiere utilizar.
Archivo *vdp.xls provisional

Es el archivo que resulta después de que el usuario haya rellenado alguna de las
variables que quiere utilizar de la plantilla vdp.xls. Este archivo tiene carácter provisional
porque posteriormente se volverá a recuperar y se rellenaran nuevas variables.
Aritmética, media
Ver Media
Armónica, media
El inverso de la media armónica se calcula promediando el recíproco de los valores.
Aplicando, entonces, una transformación inversa, se obtiene la media armónica. Su
utilidad reside en aquellos casos donde la variable es inversamente aditiva.
Asimetría
Una distribución es asimétrica o sesgada cuando existe un desequilibrio en la
concentración de puntuaciones alrededor de la media. Se definirá como asimétrica
positiva si las mayores frecuencias se encuentran en las puntuaciones de menor cuantía. En
el caso opuesto se describirá como distribución asimétrica negativa.
Sólo cuando la moda, mediana y media coinciden en la misma puntuación, existe una
simetría perfecta.
Si el índice de asimetría es > 0, es asimétrica positiva

Si el índice de asimetría es < 0, es asimétrica negativa
Si el índice de asimetría A = 0, es simétrica
Ver Distribución
Ver Distribución Asimétrica
Asociación, formato de
Cuando el ítem requiere la asignación de diferentes elementos a otros según las
instrucciones del enunciado.
Asociación, índice de
Índices ideados para cuantificar el grado de relación o asociación entre las variables
categóricas o cualitativas. Existe una amplia diversidad de índices. En general, el valor
de estos índices está comprendido entre 0 y 1, indicando, respectivamente, nulo y
máximo grado de asociación. Son de especial interés en la interpretación de resultados
7
cuando se utiliza una técnica estadística para determinar si dos variables categóricas
están relacionadas, permitiendo conocer el grado de dependencia entre las mismas.
Atenuación
Descenso en la magnitud de una correlación entre las puntuaciones de dos tests,
respondidos por los mismos examinados, causada por la falta de fiabilidad de las
respectivas medidas.
Atributo
Característica o rasgo psicológico evaluado por un test.
Auditoría de las respuestas

Antes de analizar los ítems es importante efectuar una inspección de los datos. Es
recomendable verificar cualquier anomalía, tanto en los ítems como en los examinados y
depurar filas y columnas sospechosas de cada matriz de datos. Este control presenta
cuatro frentes de acción:
• Filtrar la captura-obtención de datos a fin de evitar la tabulación de exámenes (hojas)
anómalos de examinados.
• Identificar y evitar errores de tabulación por fatiga, efectos del escáner o daños
durante la transferencia y manejo de ficheros.
• Registrar las pautas de respuesta en bruto, sin correcciones, incluyendo dobles
marcas, omisiones y reactivos no abordados por falta de tiempo. Más adelante esto
permitirá detectar los ítems defectuosos.
• Conversión de los datos brutos a corregidos y posterior análisis exploratorio de los
datos para conocer la forma de las distribuciones de las puntuaciones.
Autocorrelación
Se refiere al nivel de dependencia que existe en una serie de datos temporales (varias
mediciones de la misma variable a lo largo del tiempo). Es importante determinar si
existe autocorrelación en las series de datos, pues es conocido que series
autocorrelacionadas pueden confundir al evaluador en el sentido de concluir que se ha
producido un efecto de una intervención cuando, realmente, es sólo consecuencia de la
autocorrelación de la serie o dependencia serial.
8
B
Bancos de ítems
Una amplia colección o biblioteca de ítems de aspecto estandarizado, con amplio rango de
dificultad, y cuyo contenido se establezca, en lo posible, mediante reglas de generación
de ítems.
Ver Reglas de generación de ítems (RGI)
Banco de ítems calibrado

Banco de ítems cuyos parámetros psicométricos son ya conocidos.
Banco de ítems precalibrado

Banco de ítems ya creado, pero de cuyos ítems se desconocen aún los parámetros e
indicadores psicométricos.
Baremo
Tabla donde se establece la puntuación que se asignará a cada una de las posibles
respuestas a un ítem.
Ver Normas o baremos
Base de datos
Una base de datos es un archivo que almacena información. Mediante una aplicación
informática adecuada, la información o datos pueden ser ordenados, buscados,
procesados, relacionados y/o transferidos.
Las bases de datos se organizan en registros o filas y éstos, a su vez, se dividen en
campos. Cada campo es la intersección de una fila y una columna. En cada campo, que
puede ser entendido como el lugar donde se ubican las unidades relevantes de
información, se halla un dato. Por ejemplo, en los campos puede ubicarse el autor de un
ítem de la prueba de evaluación, la dificultad esperada de un ítem o la variabilidad del
ítem, entre otras informaciones consideradas de interés.
Batería de tests
Grupo de tests de capacidad, aptitudes o rendimiento que miden diferentes aspectos
estandarizando los datos en una misma población a fin de permitir su mejor comparación.
Bilateral, contraste
En pruebas de decisión estadística, cuando se somete a prueba una hipótesis nula en la
cual se especifica un valor concreto del parámetro, y ésta se rechaza cuando los datos
empíricos indican que el valor del parámetro poblacional pudiera ser superior o inferior al
especificado.
Bimodal
Cualquier distribución de una variable aleatoria discreta que disponga de dos modas: o
sea, cuando existen dos valores de la variable que aparecen con idéntica frecuencia y
ésta es la máxima. En el caso de variables aleatorias continuas, éstas serán bimodales
cuando la función de densidad tenga dos máximos absolutos.
Ver Función de densidad

Ver Moda
9
Binario, formato
Cuando se presentan al examinado una serie de enunciados y se le pide que exprese su
opinión mediante respuestas incompatibles tales como: verdadero / falso; sí/no; cierto /
incierto; nunca / siempre...
Binomial, distribución
Modelo de distribución de probabilidad aplicable a variables discretas. Los supuestos

fundamentales son: a) sólo existen dos sucesos posibles como resultado de cada
experiencia aleatoria; b) los sucesos son mutuamente excluyentes; c) la probabilidad de
cada suceso permanece constante en cada repetición de la experiencia aleatoria. La
variable con distribución de probabilidad binomial corresponde a la suma de veces que
ha ocurrido un determinado suceso tras realizar un número ”n” de experiencias
aleatorias.
Bondad de ajuste, prueba de

Conjunto de pruebas estadísticas inferenciales destinadas a comprobar si una variable
aleatoria se distribuye según una determinada distribución de probabilidad. Por ejemplo,
cuando se desea comprobar si la las calificaciones obtenidas en una prueba de
evaluación se distribuyen aproximadamente según una ley normal, debe utilizarse una
prueba de bondad de ajuste.
Ver Conformidad, prueba de

Ver Distribución de probabilidad
10
C
Calibración de ítems
Proceso de análisis por el que se obtiene los parámetros de las Curvas Características de
Ítem (CCI) en los ítems de un test según un modelo de la Teoría de Respuesta a los
Ítems.
Ver Curva Característica de Ítem (CCI)

Ver Teoría de Respuesta a los Ítems
Capacidad
Consiste en una inferencia a partir de una conducta o desempeño que consideramos
relacionada con unas áreas concretas de contenido. Así diremos que la capacidad de cálculo
de un individuo es elevada por su velocidad y habilidad en la resolución de problemas
numéricos. De este modo las capacidades "numérica", "espacial", "verbal" etc. difieren en
la naturaleza del contenido de los estímulos empleados para detectarlas.
La medida de las capacidades va asociada tradicionalmente al "aquí y ahora", es decir, se
trata de un atributo que se mide en la actualidad y en el que pueden confluir tanto el
producto de un aprendizaje como la maduración y experiencia junto a características
innatas.
Carácter métrico
Se refiere a la escala de medida de una variable.
Características de SEM
• Proporciona la verdadera estimación sobre la precisión de las medidas de un test.
• Se trata de un error aleatorio.
• El error nunca llegará a ser 0.
• Es el mismo error para todos los examinados.
• A medida que rxx' aumente SEM disminuirá, y al revés.
• Puede variar en diferentes grupos que responden a un mismo test.
• Puede variar según el procedimiento con que se calcule el coeficiente de fiabilidad.
• Puede variar con el transcurso del tiempo.
Ver SEM (Estandar Error of Measurement)
Características de la Curva Normal

• No existe una sola curva normal sino infinitas, en función de la desviación típica y la
media.
• Al convertir las puntuaciones directas de un test en típicas no cambia la forma original
de la función.
• Se trata de una curva simétrica centrada alrededor de la media, mediana y moda que
coinciden en un mismo valor sobre el eje de abscisas.
• La curva permite representar la distribución de múltiples rasgos y atributos presentes
en Psicología y Educación
• De confirmarse para una variable la adecuación al modelo puede emplearse la
desviación estándar como unidad de medida en la ubicación de cada puntuación del
test.
Ver Curva Normal
11
Características de la fiabilidad
• Es independiente de aquello que esté midiendo, ya que, de lo contrario, el tipo o
modalidad de contenido afectaría a la calidad de las medidas.
• Es una cualidad derivada de la unidimensionalidad.
• Es una cualidad necesaria pero no suficiente para la validez.
• Toda puntuación de un test incluye un componente de error que impide conocer
directamente la verdadera puntuación del examinado.
• Es importante aplicar el error de medida a la puntuación de un examinado para
determinar el intervalo en que puede encontrarse su verdadera situación
• Puede variar en diferentes grupos que responden a un mismo test.
• Puede variar según el procedimiento con que se calcule el coeficiente de fiabilidad.
• Puede variar con el transcurso del tiempo.
Ver Fiabilidad
Características de la Puntuación Ponderada

• Antes de emplearla hay que valorar su verdadera utilidad, la información que aporta y
la idoneidad de la prueba sobre la que se aplicará.
• En pruebas cuyos ítems tienen discriminaciones muy similares la puntuación ponderada
clasificará a los examinados de manera similar a la puntuación directa simple.
• La puntuación ponderada será especialmente útil en pruebas de tipo norma de grupo
con ítems de p centrada.
• La correlación entre la puntuación ponderada y la directa, así como el gráfico de
dispersión, obtenidos en una muestra de examinados puede informar de
comportamientos especiales y de la presencia de casos peculiares.
• Los examinados con grandes diferencias según se les puntúe con la puntuación directa
o la ponderada deberían ser objeto de revisión por otros métodos como índice de
reproductibilidad, nivel de omisiones, índices PAR...
• La ponderación se efectúa basándose en el tipo de coeficiente de correlación empleado
para el cálculo de la discriminación de ítem.
Ver Puntuación ponderada
Características de los índices de reproductibilidad

• Pueden mostrar valores extremos ante muestras pequeñas.
• Suavizan sus valores con grandes muestras.
• Son sensibles a la dificultad de los ítems. Es recomendable diseñar pruebas con ítems
diferenciados en p puesto que potencian la separación de aciertos y fallos.
• Hay que considerar con mucha precaución los ítems de máxima y mínima dificultad.
• Siempre será recomendable interpretarlos juntamente con otros indicadores de los
ítems.
Ver R
Ver Ri
Ver Rj
Ver Reproductibilidad
Características del escalograma

• Asegura el escalamiento y unidimensionalidad de una serie de ítems.
• Incorpora por su propia configuración el concepto de discriminación de ítem.
• Es el modelo base de la CCI.
• Es un buen detector de examinados con pautas anómalas de respuesta. Una serie de
aciertos y errores inconsistentes informan en una prueba de rendimiento sobre un
aprendizaje mal estructurado o asimilado.
12
• Es un modelo idóneo en pruebas que traten de contenidos jerárquicos u ordenados,
donde, si se acierta una tarea muy difícil, es lógico esperar que se hayan también
acertado otras más fáciles.
• No es aconsejable en pruebas que intentan distinguir con mucha precisión examinados
situados en un nivel de capacidad (o del atributo en general) muy próximo. En esta
situación será muy delicada la elaboración de ítems, pues cualquier error puede llevar a
inconsistencias (aciertos por memoria, conjetura,...).
• Exige precaución ante posibles aciertos y errores por conjetura, falta de atención,
respuestas omitidas, no alcanzados por falta de tiempo, etc. Estas situaciones pueden
convertirse en inconsistencias que reduzcan la capacidad de reproductibilidad de las
pautas de respuesta a un ítem.
Ver Escalograma
Caso
Suele utilizarse para referirse a cada uno de los individuos de una muestra. En el análisis
de cada ítem será un caso.
Ver Individuo Estadístico
Categoría
Cada uno de los valores de una variable categórica o cualitativa. Por ejemplo, al
contestar los ítems de una prueba de evaluación de opción múltiple de respuesta, donde
sólo se codifica acierto o error, estos dos posibles valores son las categorías de la
variable aleatoria.
Ver Variable cualitativa
CCI
Ver Curva Característica de Ítem
Centil
Puntuación de la distribución que deja por encima y por debajo de sí un porcentaje
determinado de casos. Existen 99 centiles. El centil 5, por ejemplo, es aquél valor de la
variable que deja por debajo el 5% de los datos.
Cero absoluto
Corresponde a la ausencia total de la propiedad medida. Es propio de las escalas de razón.
Ver Escala de Razón
Cero arbitrario
Medida tomada como referencia y origen ante el desconocimiento del cero absoluto o
interés por modificar su situación. Es propia de las escalas de intervalo y se escoge de
común acuerdo.
Ver Escala de Intervalo
Ciclograma
Gráfico mediante el cual los diferentes valores de una variable se representan como
sectores pertenecientes a un círculo. El tamaño del ángulo de cada uno de los sectores
es proporcional a la frecuencia de cada valor.
13
Clase
Se utiliza este término para referirse a las agrupaciones de valores de una variable,
independientemente de su escala de medida. Por ejemplo, cuando las calificaciones
numéricas en una prueba de evaluación se agrupan en suspendido, aprobado, notable y
excelente, se están creando clases.
Clasificación APA de los tests

La Asociación Americana de Psicología ha propuesto una clasificación en tres niveles, según
la complejidad y nivel de preparación que exige la utilización de un test. Las editoriales y
catálogos especializados en tests aplican este sistema que contempla tests de:
• Nivel a: pruebas fáciles de manejar con la ayuda del manual y una información general.
• Nivel b: pruebas que exigen conocimientos acerca del proceso de construcción de tests
y sus límites de aplicación.
• Nivel c: pruebas que requieren un profundo dominio y conocimiento de la teoría de los
tests.
Clave
Es el código de aciertos, fallos y puntuación en general que se otorga a las respuestas de
los ítems. Normalmente va asociada a la pauta de respuesta acertada para el conjunto de
ítems con varias alternativas y una de ellas correcta.
En los archivos con formato Microcat aparece en la segunda línea del código y recoge la
alternativa correcta o signo para cada ítem (o la repuesta que puntúa).
Clave recomendada
En el análisis de alternativas incorrectas puede suceder que una alternativa o distractor
discrimine por encima de la solución correcta. En ese caso METRIX recomienda verificar
si existe solapamiento o conflicto entre ambas alternativas.
Cloze
Ver Completamiento, formato de
Código Microcat
Son las cuatro primeras filas del archivo *.mct en las cuales se describen las
características de la matriz de datos que contiene ese mismo archivo.
Ver Archivo *.mct
Coeficiente Alpha
Procedimiento de cálculo del coeficiente de fiabilidad de consistencia interna. El coeficiente
alpha de Cronbach oscila entre 0 y 1 y es el mas empleado en tests cuyos ítems se valoran
en forma graduada. Puede aplicarse también a ítems dicotómicos, pero tradicionalmente en
ese caso se aplica un coeficiente equivalente denominado KR20.
Ver Consistencia Interna
Coeficiente de correlación Biserial (rbis)

Coeficiente que correlaciona una variable continua con otra dicotómica. Se aplica en
iguales condiciones que rbp pero suponiendo que la variable dicotómica procede de la
división de una originalmente continua y distribuida normalmente.
Ver Condiciones de aplicación de rbis

Ver Diferencias entre rbis y rbp
14
Coeficiente de correlación Biserial Puntual (rbp)
Este coeficiente relaciona una variable continua con otra dicotómica natural como el
acierto-error a un ítem, sexo masculino o femenino, respuesta afirmativa - negativa a un
enunciado etc. El caso más frecuente consiste en correlacionar las respuestas a un ítem
puntuado dicotómicamente con el resultado total del test.
Ver Condiciones de aplicación de rbis

Ver Diferencias entre rbis y rbp
Coeficiente de Correlación de Pearson (r):

Cuantifica la existencia de una relación lineal entre variables estableciendo la intensidad de
la relación entre unos límites ±1.00 constantes. A la relación lineal perfecta positiva le
corresponde un coeficiente +1.00 mientras que a la perfecta negativa -1.00. Para
relaciones nulas se espera un coeficiente 0.
La correlación sólo cifra la relación entre unas variables, toda implicación causal otorgada al
resultado será gratuita y ajena al estadístico.
Ver Condiciones de aplicación de r

Ver Condiciones del coeficiente de correlación
Ver Interpretación de r
Coeficiente de Determinación (R2):

Es la proporción de variancia en la variable Y explicada por la variable X. Se obtiene
elevando al cuadrado el coeficiente de correlación de Pearson. El coeficiente de
determinación ayuda a interpretar la correlación entre dos variables ya que al expresarla en
función de las variancias aporta una medida realista de la cuantía de la relación.
Coeficiente de Fiabilidad (rxx')

La fiabilidad de un test se expresa mediante un indicador basado en la concordancia de
medidas repetidas sobre un mismo grupo de examinados. Tradicionalmente este principio
de concordancia entre réplicas se ha desarrollado en dos sentidos:
• Longitudinal: como estabilidad de puntuaciones a través del tiempo.

• Transversal: como equivalencia entre puntuaciones obtenidas casi simultáneamente a
partir de formas paralelas del mismo test.
Una composición entre ambas proporciona un tercer sentido:

• Longitudinal-transversal: como estabilidad y equivalencia entre medidas procedentes de
varias formas paralelas aplicadas en diferentes momentos.
En los tres casos existe un indicador numérico de la fiabilidad basado en la correlación de

puntuaciones.
Ver Fiabilidad
Ver Interpretación del coeficiente de fiabilidad
Coeficiente de ponderación
Se denomina coeficiente de ponderación a cualquier de los factores que multiplican a las
diferentes variables que intervienen en la generación de una nueva variable, y resultante
de una combinación de las anteriores. Los coeficientes de ponderación o pesos permiten
fijar la contribución relativa del conjunto inicial de variables sobre la nueva variable.
Existen varios ejemplos donde se utilizan coeficientes de ponderación, entre los cuales
destaca el Índice de Precios al Consumo (IPC). En el contexto de las pruebas de
evaluación, se utilizan coeficientes de ponderación para obtener, por ejemplo, la
15
puntuación total en función del número de aciertos y errores, cuando estos últimos
penalizan.
Ver Puntuación Ponderada
Coeficiente de regresión
En los diferentes modelos de regresión, ya sean lineales o no, se refieren a las
constantes multiplicativas de las variables independientes.
Coeficiente de validez
Se entiende por coeficiente de validez la correlación entre las puntuaciones del test y las de
una o más variables criterio. El coeficiente de validez no es único ya que de escoger 5
criterios para asegurar la validez de las medidas se obtendrán otros tantos coeficientes.
El coeficiente de validez ha de ser muy elevado para convertirse en algo mas que una
simple tendencia compartida.
Ver Validez
Coeficiente de variación
Índice estadístico de variabilidad carente de unidad de medida. Resulta útil para
comparar la dispersión de dos conjuntos de datos con escalas de medida distintas,
donde otros índices, como la variancia y la desviación estándar, son inapropiados. Este
índice se obtiene como la razón de la desviación estándar y la media de los datos,
pudiéndose expresar como proporción o porcentaje. Debe tenerse en cuenta que el
coeficiente de variación no está definido para valores nulos de la media.
Coeficiente KR20
Procedimiento para el cálculo del coeficiente de fiabilidad de consistencia interna. Oscila
entre 0 y 1 y es una adaptación del coeficiente Alpha para tests con ítems de valoración
dicotómica.
Coeficiente KR21
Procedimiento para el cálculo del coeficiente de fiabilidad de consistencia interna. Oscila
entre 0 y 1 y se emplea en sustitución de KR20 cuando las dificultades y variancias de los
ítems son parecidas.
De aplicar KR21 a unos datos que no cumplen la condición de igualdad de variancias

(condición fundamental en formas paralelas) producirá coeficientes más bajos que los
obtenidos mediante KR20.
La estimación mediante KR20 tolera mejor la ausencia de esta condición deformando en

menor grado los resultados.
CCO
Ver Curva Característica de Omisión
16
Comparación de medias para datos independientes, prueba de
Es una prueba paramétrica y de decisión estadística que permite determinar si dos
grupos de datos independientes proceden de poblaciones con idéntica media o no.
Requiere que la variable dependiente, al menos, sea medida en escala de intervalo.
Existen variaciones según ambas poblaciones posean idéntica variancia (supuesto de
homocedasticidad) o no (heterogeneidad de variancias). Si la variable cuantitativa
(dependiente) se distribuye normalmente en las poblaciones y se cumple el supuesto de
homocedasticidad, puede realizarse la prueba mediante una aproximación normal. En
otros casos, se utiliza un contraste fundamentado en la distribución t-Student.
Comparación de medias para medidas repetidas, prueba de

Se trata de una prueba paramétrica y decisión estadística que posibilita determinar si
dos poblaciones poseen idéntica media, pero aquí los individuos pasan por dos
condiciones experimentales. La escala de medida de la variable dependiente debe ser, al
menos, de intervalo. Puede utilizarse una aproximación normal, si la variable
dependiente se distribuye normalmente en la población. En otros casos, el contraste se
fundamente en la distribución t-Student.
Comparación de proporciones, prueba de

Esta prueba de decisión estadística permite comparan dos proporciones a fin de
determinar si dos poblaciones poseen o no un mismo valor de este parámetro. Con
ciertas condiciones, se utiliza un contraste fundamentado en la distribución normal.
Comparación de una media observada con una teórica, prueba de

Es posible determinar mediante esta prueba de decisión estadística si el valor del
parámetro media correspondiente a una determinada población es igual a uno
especificado. Con ciertas condiciones puede utilizarse un contrate fundamentado en la
distribución normal; en caso contrario, se recurre a una prueba basada en la distribución
t-Student.
Comparación de una proporción observada con una teórica, prueba de

Prueba de decisión estadística que permite determinar si una muestra ha sido extraída
de una población en la cual la proporción toma un valor determinado. La técnica se
fundamenta en una aproximación normal.
Completamiento, formato de
Procedimiento de respuesta muy extendido en pruebas de rendimiento especialmente de
comprensión lectora. Consiste en escribir una palabra/s que completan un texto que
constituye el núcleo del ítem.
Comprensión
En la taxonomía de Bloom es la capacidad de captar el significado o sentido directo de la
información presentada (de forma verbal, gráfica, simbólica, etc.).
Comprensión lectora
Capacidad de extraer la información a través de la lectura. Puede convertirse en una
interferencia que se confunda con la verdadera naturaleza de la tarea planteada por un
ítem expresado mediante texto.
Comprensión verbal
Capacidad para comprender ideas expresadas en palabras.
17
Concepción espacial
Capacidad de imaginar y concebir objetos en dos o tres dimensiones.
Conceptos
Clases de objetos o eventos que están agrupados juntos porque comparten atributos
comunes.
Condiciones de aplicación de rbis

• Para unos mismos datos rbis es siempre superior a rbp y proporciona una estimación
de rPM tanto mas aproximada si se cumple la normalidad subyacente a la variable
dicotómica.
• Otros factores que influyen en su mayor fiabilidad serán el empleo de muestras
grandes y valores p centrados.
• La gran ventaja de este coeficiente es que no precisa de dicotomías naturales, si bien
también se caracteriza porque sus valores límite pueden exceder de ±1.
Ver Coeficiente de correlación Biserial (rbis)
Condiciones de aplicación de rbp

A las condiciones de aplicación y precauciones en el uso de r deben añadirse aquí dos
aspectos propios de rbp:
• La variabilidad de la puntuación dicotómica puede afectar considerablemente al tamaño
del coeficiente. Como precaución es conveniente no aplicar rbp en variables con p ó q
inferiores a 0.10 pues se minimiza la variancia.
• Es deseable una variancia elevada, lo cual lleva a ítems con p y q muy próximos. Este
efecto se amortigua al crecer n si bien siempre se dejará notar.
Ver Coeficiente de correlación Biserial Puntual (rbp)
Condiciones de aplicación de r
• Las variables deben ser continuas y sus medidas pertenecer como mínimo al nivel de
escala de intervalo.
• Homocedasticidad: las variancias de las puntuaciones de cada variable deben tender a
parecerse.
• La relación entre las variables debe ser lineal.
• La distribución de puntuaciones de cada variable ha de ser normal. Aún respetando
estos cuatro aspectos deben tomarse precauciones acerca del resultado del
coeficiente en situaciones especiales que pueden agruparse en tres bloques:
Ver Coeficiente de correlación de Pearson (r ).
Condiciones de la fiabilidad
Las siguientes condiciones afectan especialmente a tests estandarizados.
• En todos los análisis el coeficiente indica la tendencia del test a producir medidas
estables, equivalentes o procedentes de un material homogéneo.
• La fiabilidad de la prueba no asegura su validez.
• Como la fiabilidad no asegura la precisión de las medidas es importante añadir para
cada muestra y análisis el valor de SEM estableciendo el intervalo de confianza en que
oscila la puntuación verdadera.
• Es fundamental describir las muestras sobre las que se han obtenido los coeficientes
rxx´. Sus variables personales, tamaño y características deben estar presentes en tal
descripción.
18
• Dada su operatividad se añadirán los coeficientes alpha y de dos mitades como
información común de referencia en todos los análisis.
• Junto a todos los datos debe incluirse la fecha y lugar de su obtención.
• Las pruebas de velocidad recibirán una especial atención ya que no todos los método
producirán coeficientes coherentes con los datos.
• En caso de existir un manual del test los datos sobre fiabilidad deben estar presentes en
el mismo facilitando su consulta y comparación. Esta información permitirá valorar la
adecuación del test ante diversas aplicaciones y situaciones.
Ver Fiabilidad
Ver Coeficiente de Fiabilidad (rxx’)
Condiciones de las cualidades de un test

• Cada cualidad es necesaria pero no suficiente para alcanzar la siguiente.
• Nunca se lograrán alcanzar las cuatro cualidades en sus máximas posibilidades.
• Todos los indicadores marcarán una tendencia o grado en que una cualidad está
presente.
• Las cualidades no son invariantes. El paso del tiempo, diferentes grupos y entorno
podrán modificar la utilidad de un instrumento.
• El producto final del test será una puntuación / medida representativa de la cantidad de
una característica psicológica-educativa presente en un individuo.
• Interpretación ¿Criterial / Normativa?
• Posibilidades: Ordenar, situar, comparar con otras medidas, modelizar con relación a
otras variables psicológicas y físicas, prever y establecer perfiles
Condiciones de las formas paralelas

• Si se escoge este procedimiento hay que prever una cantidad y tipo de ítems que
responda al diseño de los exámenes de manera que el recuerdo o efectos de orden no
interfieran en las respuestas de los examinados.
• Para construir formas paralelas es aconsejable alterar el orden entre los ítems
equivalentes de cada examen. En general son útiles los cambios de apariencia e
inclusión de distractores que desvíen la atención de los examinados. Con la misma
intención a menudo se incluyen tareas o estímulos independientes del test entre ambas
aplicaciones.
• Otros recursos consisten en recoger opiniones de los propios examinados acerca de sus
impresiones y forma de responder las pruebas. Nada mejor que esto para comprobar la
efectividad del procedimiento y detectar la función del recuerdo. Muchos examinados se
esfuerzan por recordar sus respuestas en la primera aplicación afectando a la respuesta
espontánea de la segunda.
Condiciones del coeficiente de correlación

• Antes de calcular una correlación deben existir motivos suficientes para no considerar la
relación como nula.
• Aun existiendo relación entre las variables, la presencia de variancias pequeñas en una
o ambas puntuaciones reducirá el tamaño del coeficiente.
• El coeficiente aplicado debe ajustarse a las características de las variables implicadas.
Ver Coeficiente de correlación de Pearson ( r )
Condiciones del escalograma

Básicamente el escalograma está formado por una tabla de respuestas en donde los
examinados (filas) se han ordenado de menor a mayor puntuación y los ítems (columnas)
19
se han ordenado de menor a mayor dificultad. En esta configuración, y si el contenido de la
prueba analizada se presta a las condiciones del escalograma, es de esperar que:
• Los aciertos en los ítems más difíciles los hayan conseguido los examinados de mayor
capacidad, es decir, los que han obtenido en la prueba mayor cantidad de puntos.
• Los ítems más fáciles son los únicos acertados por los examinados que tienen menor
capacidad y que habrán obtenido pocos puntos en la prueba.
De ambos supuestos se deriva que:
• No es probable hallar examinados con baja puntuación obtenida a base de acertar

ítems difíciles.
• No es probable hallar examinados de elevada puntuación que fallen en los ítems más
fáciles.
• Según el escalograma, si la escala es unidimensional muchas combinaciones de aciertos
y errores han de ser absurdas.
• De este modo las posibles pautas de respuesta o combinaciones de acierto-error para n
ítems quedan reducidas de 2n a n+1.
Ver Características del escalograma

Ver Escalograma
Condiciones para la corrección de la conjetura

En caso de emplear alguna de las fórmulas de corrección de la conjetura, es
recomendable verificar que se cumplan las siguientes condiciones de uso:
• En el test no hay más que aciertos y errores.

• No existen omisiones.
• Todos los errores se atribuyen a ítems donde se ha conjeturado la respuesta.
• Todas las alternativas de respuesta, especialmente los distractores, tienen el mismo
atractivo.
• La situación idónea de aplicación de estas correcciones consiste en test de velocidad con
5 o más alternativas de respuesta y longitud superior a 20 ítems.
• Hay que aceptar que estas correcciones benefician a los examinados más capacitados y
perjudican a los de menor puntuación.
• Las correcciones facilitan una aproximación pero nunca el efecto real de la conjetura.
Ver Análisis de alternativas

Ver Igualdad de atractivo de las alternativas incorrectas
Confianza, intervalo de
En estudios estadísticos para estimar parámetros de una población a partir de una
muestra, se denomina intervalo de confianza a la estimación, proporcionando un mínimo
y máximo valor, a partir del valor del estadístico obtenido en la muestra. Estos intervalos
pueden ser centrados o no respecto al estadístico calculado en la muestra. Un ejemplo
muy conocido es la estimación de diputados que se calcula obtendrá un determinado
partido político en unas elecciones generales. Así, cuando se utiliza el término horquilla
para referirse a la estimación mínima y máxima de los diputados que, según el sondeo
estadístico, se espera obtener se está proporcionando un intervalo de confianza.
Conformidad, prueba de
Las pruebas de conformidad incluyen aquellas referidas como Bondad de Ajuste, que se
refieren a contrastar la distribución de variables aleatorias respecto a una ley de
probabilidad determinada, pero también aglutinan aquellas técnicas estadísticas en las
20
cuales se contrastan parámetros de una variable aleatoria. Por ejemplo, y entre estas
últimas, cuando el objetivo es contrastar si una variable aleatoria tiene un determinado
valor de la media o la variancia.
Conjetura (examinados)
La presencia de azar y conjeturas en la respuesta de un examinado ha llevado a tratar su
efecto sobre la puntuación del test y la dificultad de cada ítem. El efecto facilitador del azar
ha producido cuatro formas de combatirlo.
1. Penalizando los errores de tal manera que el examinado reflexione antes de

aventurarse a una respuesta poco elaborada. Este procedimiento afecta tanto a ítems
cerrados de elección como abiertos ya que no contempla más que aciertos por dominio
del contenido y omisiones. Cada error reduce en una determinada puntuación el
número de aciertos llegando hasta el extremo de conceder una puntuación global
negativa en el test.
2. Aplicando fórmulas de corrección del azar en tests de alternativa múltiple, mediante las
que se intenta estimar la parte de los aciertos que se han obtenido gracias a la
conjetura y no al dominio de las tareas incluidas en el test.
3. Contrarrestar la presencia de aciertos por conjetura aumentando el nivel de exigencia

de las puntuaciones totales.
4. Estudiando los ítems y examinados más sensibles a la conjetura, de modo que no se

toman medidas correctivas contra todo el grupo.
Conjetura (ítems)
La tendencia a conjeturar puede deberse tanto al nivel de dificultad del ítem, muy superior
a la capacidad del examinado, como a por un mal diseño de las alternativas o bien a una
tendencia personal del examinado.
En cualquier caso es difícil detectar su presencia, y aún más estimar su efecto para cada
situación, pues la tendencia a conjeturar varía no sólo entre ítems sino que también es
distinta entre personas.
La conjetura afecta al cálculo de la puntuación total de examinado y también al índice de
dificultad de cada ítem. En este sentido se han propuesto diversas fórmulas que intentan
hallar un valor teórico de p independiente de los aciertos por conjetura. De utilizar estos
procedimientos será necesario cumplir todas sus condiciones. También hay que asumir las
consecuencias que se derivan de su empleo y que en ocasiones pueden llevar a valores p
absurdos difíciles de interpretar.
Conjetura en la CCI
La conjetura puede ser detectada gráficamente en cada ítem mediante la revisión de la
CCI. Si ésta mantiene un perfil estabilizado (no crece) sobre cierto rango de baja capacidad
(abscisas) para luego aumentar hasta alcanzar el máximo porcentaje se trata de un caso
patrón de acierto al azar.
Los examinados que desconocen la respuesta (los de menor capacidad) responden por
conjetura esperando la ayuda del azar. Por lo general, esta conducta se manifestará bajo
perfiles relativamente estables en los sectores situados sobre las zonas de menor capacidad
(cola izquierda de la curva). Una precaución importante es la de comprobar la uniformidad
del atractivo en las elecciones erróneas, ya que de lo contrario aumenta la probabilidad de
acierto al azar. Ante cinco alternativas puede entonces manifestarse como un porcentaje
cercano al 30% (33,3% exactamente) en caso de que dos alternativas sean descartadas
por la mayoría de los examinados debido a lo evidente de su contenido.
21
Conocimiento
En la taxonomía de Bloom se refiere a la capacidad de recordar cosas (términos,
principios, normas, métodos, teorías, etc.) previamente aprendidas. Se basa en la
memoria y no supone que necesariamente se comprenda lo que se recuerda.
Conocimiento estadístico
En el sentido que aquí se utiliza se refiere a la información obtenida mediante el análisis
estadístico de los datos.
Ver Análisis estadístico
Consistencia Interna
Agrupa a toda una serie de procedimientos para el cálculo del coeficiente de fiabilidad
(coeficientes Alpha, KR20, KR21). Informa del valor medio resultante tras haber calculado
todos los coeficientes posibles mediante el método de dos mitades(todas las divisiones
posibles).
Tradicionalmente se ha considerado este procedimiento como un indicador no sólo de la
fiabilidad del test sino también de su homogeneidad (dimensionalidad). El grado de
intercorrelación de los ítems expresado a través de este coeficiente mostraría hasta qué
nivel tienden a informar o medir un mismo contenido.
Como en el método de test-retest la estimación de la fiabilidad de consistencia interna es

poco aconsejable con pruebas de velocidad.
Ver Coeficiente Alpha

Ver Coeficiente KR20
Ver Coeficiente KR21
Constante
Puede entenderse como una variable aleatoria degenerada, pero es más fácilmente
inteligible como una variable que sólo puede tomar un valor.
Constructo
Es una variable teórica que se supone viene expresada mediante las puntuaciones de un
test.
Contenidos
En una Tabla de especificación de objetivos se refiere a las diversas partes que
conforman la asignatura o materia que se va a examinar.
En la Teoría de Guilford representa el material sobre el que se llevan a cabo las
operaciones; visual (V), auditivo (A), simbólico (S), semántico (M) y conductual (B).
Ver Tabla de especificación de objetivos
Contaminación del criterio

Cuando éste se ve afectado por algún factor que reduce su validez.
Ver Criterio
22
Ver Validez de Criterio
Continuo
Serie infinitamente graduada que determina una línea recta que representa el cambio de
valores en una dirección.
Coordenadas
Valores de los vectores que definen la posición de un punto (un dato estadístico) en un
espacio en función de los valores en las diferentes variables.
Corrección del azar
Ver Corrección de la conjetura
Corrección de la conjetura
Se refiere a los cálculos efectuados sobre la puntuación de un examinado y mediante los
cuales se descuenta la parte debida a la conjetura o azar.
Ver Condiciones para la corrección de la conjetura
Corrección de Spearman-Brown
Es una expresión matemática que relaciona la longitud de una prueba y el valor del
coeficiente de fiabilidad. Su principal utilidad consiste en proporciona una estimación del
coeficiente de fiabilidad del test en el caso de que aumentase o disminuyese su longitud
actual. La condición fundamental es que los ítems añadidos o excluidos sean similares a los
de la prueba actual.
La relación entre la longitud y el coeficiente previsto no es lineal ya que este irá
aumentando paulatinamente hasta llegar a una longitud "techo" a partir de la cual la
ganancia en fiabilidad será inapreciable.
Ver Split-Half
Correlación
Es el estadístico que indica la tendencia de dos o más variables a oscilar conjuntamente
respecto a sus valores medios.
Ver Condiciones del coeficiente de correlación
Correlación cruzada
Es la correlación de dos series de datos medidas en idénticos momentos del tiempo. Se
utiliza como indicador de la sincronía entre las series de datos.
Correlación negativa
Cuando las variables se relacionan inversamente, mientras una crece la otra decrece.
Correlación positiva
Cuando las variables crecen en igual sentido.
Covariación
Con este término se denomina el numerador de la covariancia. Es un primer índice de
dependencia entre las variables, aunque no está ponderado por el tamaño de la
muestra.
23
Covariancia
Es un índice de dependencia entre dos variables cuantitativas, ponderado por el tamaño
de la serie. El principal inconveniente es que no está acotado (no tiene mínimo ni
máximo), motivo por el cual no permite valorar el grado de dependencia, aunque sí el
sentido de la misma (negativa o positiva).
Criterio
Variable tomada como referencia, guía o estándar para la correcta elaboración de un test.
Ver Elección de un criterio de validación

Ver Validez de criterio
Cuadrática, media
Es la raíz cuadrada de la media aritmética del cuadrado de los valores. Es un indicador
de desviación respecto al punto origen (valor cero). Indica la mayor o menor proximidad
de los datos al origen.
Cualidades de un test
Son cuatro y con este orden: unidimensionalidad, fiabilidad, validez y carácter métrico.
Ver Condiciones de las cualidades de un test.
Cuantificar
Determinar la cantidad de un atributo presente en un objeto.
Cuartil
Valor de la variable aleatoria que divide la distribución de datos o la variable aleatoria en
dos partes, tales que en cada una de ellas se halla un porcentaje de datos. Se han
definido 3 cuartiles: primero, segundo y tercero. El primero divide la distribución de
forma que el 25% de los datos son iguales o inferiores al valor de la variable
correspondiente a ese cuartil. El segundo divide la distribución de datos de forma que el
50% de los datos son iguales o inferiores al valor de la variable correspondiente a ese
valor. En este caso, nótese que el segundo cuartil coincide con el valor de la mediana. El
tercero divide la distribución de la variable de forma que el 75% de los datos son
inferiores o iguales al valor de la variable correspondiente a este cuartil.
Conjuntamente considerados, los tres cuartiles dividen la distribución de datos en cuatro
partes, cada una de las cuales contiene el 25% de los datos.
Cumplimentar la plantilla
Consiste en escribir los valores correspondientes para cada una de las variables
seleccionadas de la plantilla vdi o de la plantilla vdp.
Ver Plantilla vdi.xls

Ver Plantilla vdp.xls
Curtosis
Ver Apuntamiento
Curva acumulada
Es una representación gráfica donde en el eje de abscisas se representan los valores de
la variable aleatoria, mientras que en el eje de coordenadas se ubican valores de
probabilidad (porcentajes o proporciones, en el caso de datos muestrales). Permite
conocer la probabilidad de obtener un valor igual o inferior a uno dado.
24
Curva Característica de Ítem (CCI)
Representación gráfica de la ecuación que relaciona la capacidad de un examinado con la
probabilidad de acertar un ítem. La CCI es una función de regresión no lineal interesante
para conocer la utilidad de un ítem y su comportamiento en la medida del rasgo o
capacidad.
La función crece de izquierda a derecha según la escala de capacidad (eje de abscisas).
Lógicamente ésto expresa el aumento de la probabilidad de acertar el ítem a medida que
existe una mayor capacidad.
La CCI es un procedimiento complementario a la hora de conocer la adecuación y
cualidades del ítem en el test. Aunque puede emplearse con toda clase de ítems, es más
frecuente en ítems de valoración dicotómica.
Ver Conjetura en la CCI

Ver Elementos de la Curva Característica de Ítem
Ver Elaboración de la CCI
Ver Interpretación de la CCI
Curva Característica de Omisión (CCO)

Expresa el comportamiento de las respuestas omitidas a lo largo del continuo de capacidad.
Se trata de una CCI aplicada no al acierto, sino a la omisión. En este caso se espera que el
perfil sea decreciente.
Ver Elaboración de la CCO

Ver Interpretación de la CCO
Curva Normal:
Es un elemento clave en la llamada Teoría Clásica de los Tests. Representa la relación
matemática entre la desviación típica y la proporción de casos o área de la curva por
debajo de una puntuación tipificada (z).
25
D
Data-Gathering
Categoría del sistema para la evaluación de objetivos educacionales (FIO), es la primera
categoría y consiste en observar y recordar.
Ver Taxonomía FIO
Dato
En el proceso de recogida de información, cualquier unidad de información relevante
para el estudio o investigación. Cuando se refiere este término se entiende cualquier
valor, independientemente de su escala de medida. Frecuentemente, se asimilan los
términos datos y valor, aunque el segundo se refiere a datos concretos de una variable.
Datos anómalos
Dado un conjunto o distribución de datos, se entiende por dato anómalo aquel que, dado
un criterio referido a la distancia respecto al resto de los datos, se halla notablemente
alejado. Se suele dividir en anomalías moderadas y extremas, dependiendo de la
distancia al conjunto de datos que aparecen con mayor frecuencia.
La importancia de los datos anómalos reside en que, caso de existir, debe determinarse
si son producto de errores de medición o consecuencia de un déficit de control cuando
alguna variable no ha sido correctamente controlada. Cuando no puede explicarse por
los motivos anteriores, pueden tratarse de mediciones poco frecuentes. Como el impacto
de los datos anómalos es notable sobre algunos índices estadísticos, como la media y la
variancia, en presencia de este tipo de datos deberían utilizarse índices resistentes y
robustos.
Datos corregidos
METRIX reconoce este tipo de datos cuando en una prueba con ítems de alternativa
múltiple, en lugar de tabular las pautas de respuesta con las letras o números
correspondientes a cada alternativa, tabulamos directamente el acierto (1) o error (0) al
ítem. Este tipo de datos nos hace perder información con respecto a si tabulamos la
alternativa marcada en cada ítem.
Datos independientes, diseños de

En estos diseños se identifican grupos de individuos distintos que son sometidos a
condiciones experimentales (o existen variables de agrupación) diferentes. Por ejemplo,
a un grupo de alumnos se les somete a un método de enseñanza mientras a otro grupo
se le aplica otro método de enseñanza.
Decatipos
Variedad de puntuaciones típicas derivadas de clase en donde se divide la curva normal
en diez áreas.
Decil
Valor de una variable aleatoria que divide la distribución de datos o la variable aleatoria.
En el primer caso, se divide en dos partes el conjunto de datos, de forma que en ambas
se halla un determinado porcentaje de los datos. En el segundo, indica la probabilidad de
obtener un valor igual o inferior a un valor de la variable aleatoria.
Se han definido nueve deciles, mediante los cuales se realiza una partición de los datos o
variable aleatoria, de forma que el porcentaje de datos o valores entre cada decil es
igual al 10%. Por ejemplo, primer decil es aquel valor de la variable aleatoria que divide
26
la distribución de forma que el 10% de los datos son iguales o inferiores. Por su parte, el
segundo decil es aquel valor de la variable aleatoria que divide la distribución de forma
que el 20% de los datos son iguales o inferiores.
Decisión, prueba de
Toda prueba estadística donde se someta a prueba una hipótesis, ya sea de conformidad
o relación.
Ver Confianza, prueba de

Ver Relación, prueba de
Dependencia serial
Ver Autocorrelación
Desactivar
En el entorno de METRIX consiste en excluir del análisis los datos de un examinado o de
un ítem.
Descriptores
Referido a los ítems y a los examinados, se refieren a todas aquellas características de
construcción (ítems) o personales (examinados) que no sólo los identifican sino que
informan de sus peculiaridades
Ver Vector Descriptor de Ítems

Ver Vector Descriptor de Personas
Descriptores de las alternativas

Son una serie de variables que aparecen en la plantilla vdi.xls y que recogen información
sobre las alternativas de repuesta a los ítems. Por ejemplo: ¿cuál es la alternativa más
larga?, ¿cuál es la alternativa más corta?, etc.
Descriptores del enunciado

Son una serie de variables que aparecen en la plantilla vdi.xls y que recogen
información referente al enunciado de los ítems. Por ejemplo: número de palabras que
incluye, si presenta alguna negación, etc.
Descriptores generales de los ítems

Son un conjunto de variables que aparecen en la plantilla vdi.xls y que se refieren a
aspectos generales sobre los ítems tales como autor del ítem, tema fundamental que
trata, categoría de Bloom a la que pertenece, etc.
Desviación estándar
Es la raíz cuadrada de la variancia. Si se calcula sobre los resultados de un examen,
permite situar a cada puntuación / examinado respecto a la media en una métrica de
intervalo. Para ello convierte los datos originales a unidades S o z (media z=0.0 y unidad
z=1.0)
Si se calcula sobre las puntuaciones de un ítem dicotómico, su valor máximo es 0.5.
Desviación media
Media aritmética del valor absoluto de la diferencia de los valores respecto a la media
aritmética. Es un indicador de dispersión o variabilidad respecto a la media aritmética de
27
los datos. A menor valor, como todos los índices de variabilidad, mayor concentración de
los datos u homogeneidad; a mayor valor, mayor dispersión.
Desviación Típica
Ver Desviación estándar
Diagrama de pastel
Ver Ciclograma
Diagrama de sectores
Ver Ciclograma
Dicotómico
Referido a la puntuación a un ítem en dos únicas categorías.
Diferencias entre rbis y rbp

• En la mayoría de los casos rbp es el coeficiente más indicado dado que no exige más
condiciones que la de una dicotomía natural.
• Para unos mismos datos, rbis será siempre mayor que rbp.
• La superioridad de rbis es a menudo poco fiable pues lleva a obtener valores que
exceden los límites habituales.
Dificultad de ítem (p)

En un test de acierto-error, la dificultad de un ítem vendrá dada por el número de
examinados que superan dicho ítem. Tal valor oscilará entre 0 y 1 o bien 0 y 100, según se
calcule como proporción o porcentaje. Tradicionalmente se ha tratado como proporción
interpretando un caso como "fácil" si ofrece valores de dificultad cercanos a 1, y, como
difícil, si se aproxima a 0.
Denominaremos genéricamente a la proporción de aciertos "índice de dificultad" y lo
representaremos mediante p.
Ver p1
Ver p2
Ver p3
Ver p4
Ver Recomendaciones sobre la dificultad de ítems dicotómicos
Dificultad de ítem de puntuación graduada (p)

En lugar de una proporción se empleará en este caso el promedio de las puntuaciones
asignadas a los individuos en el mismo ítem. Se mantiene la misma denominación p.
Dificultad óptima
Valor de p equivalente a p=0.5 cuando los ítems son de alternativa múltiple y se pretende
compensar la presencia de aciertos por conjetura.
Ver Dificultad de ítem
28
Dimensionalidad
Cualidad de un test por la cual se plantea la homogeneidad de los ítems y de las respuestas
que provocan. Una prueba puede ser unidimesional o multidimensional según el número de
rasgos o características que pretende medir.
Discriminación como correlación

Consiste en hallar la correlación entre las puntuaciones que recibe el ítem con las del total.
Según el tipo de ítem pueden darse dos situaciones frecuentes en función del tipo de
variables implicadas. Cada combinación precisará de un estadístico diferente, ya que no
todos exigen iguales condiciones a los datos.
Ítem dicotómico - criterio continuo: coeficientes Biserial Puntual y Biserial-

Ítem continuo - criterio continuo: r de Pearson
Discriminación de alternativa
Cuando se calcula la discriminación del ítem considerando que una alternativa errónea
fuera cierta.
Ver Análisis de alternativas incorrectas
Discriminación de ítem
Por discriminación de ítem se entiende su capacidad para distinguir entre examinados con
diferente situación en el rasgo o atributo medido por el test. Junto con la dificultad y la
dispersión, la discriminación completa la información básica sobre las cualidades del ítem,
siendo de los tres índices el más complejo.
Con la discriminación se comprueba el funcionamiento de cada ítem y su aportación a la
puntuación global del test. Un ítem discriminará si las respuestas y puntuaciones que recibe
de los examinados concuerdan con las globales del test.
Si todos los ítems cumplen con esta condición, la puntuación global del test estará bien
respaldada.
De existir ítems que no ofrezcan garantías de discriminación, será aconsejable excluirlos de
la prueba o bien someterlos a una revisión que afectará tanto a los anteriores índices como
al contenido del mismo.
Ver Interpretación de la discriminación de ítem
Discriminación negativa
Cuando quienes aciertan el ítem son los examinados con menor puntuación total y quienes
lo fallan los de mejor puntuación total.
Disimilaridad
Cualquier medida ideada para la comparación de objetos o variables estadísticas y que
mide el grado de semejanza entre éstos. En las disimilaridades, a mayor valor de la
medida, menor es la semejanza entre los objetos o variables. Por ejemplo, la distancia
es una disimilaridad.
Distractores
Alternativas incorrectas en un ítem de elección múltiple.
Distribución
Cuando se utiliza este término en un contexto estadístico, en general, se refiere a un
conjunto de valores de una variable aleatoria, ya sean pertenecientes a una muestra o
29
una población, y la forma en que éstos se disponen en el recorrido de valores admisibles
o posibles. En cualquier caso, se trata de un vocablo que puede utilizarse con distintas
acepciones en el ámbito estadístico. Por tanto, puede que se utilice para significar una
función de distribución o una distribución de masa de probabilidad.
Distribución asimétrica
Cuando el centro de equilibrio de la distribución esta desplazado a uno u otro lado de la
media.
Distribución de masa de probabilidad

Función matemática que relaciona cada valor, en el caso de variables aleatorias
discretas, o intervalo, cuando se trata de una variable aleatoria continua, con la
probabilidad su ocurrencia al realizar una extracción aleatoria.
Distribución de probabilidad
Ver Distribución de masa de probabilidad
Distribución leptocúrtica
Distribución con tendencia al apuntamiento. Su índice de curtosis corresponde a valores
mayores de 0.
Distribución mesocúrtica
Distribución sin excesivo apuntamiento ni aplastamiento. Su índice de curtosis corresponde
al valor 0.
Distribución normal
Ver Curva normal
Distribución simétrica
Aquella en que la media, mediana y moda coinciden en la misma puntuación de la variable.
Doble marca
Situación producida cuando un examinado marca dos alternativas en un ítem donde sólo
puede escoger una alternativa como correcta. Este dato se codifica como *.
Dos Mitades
Ver Split-Half
30
E
Efecto de orden
Cuando el resultado de una respuesta se debe a la posición del ítem en el test.
Cuando parte del resultado de un test se debe a su posición en la batería.
Cuando se administra una prueba en primer lugar o después de otras dos puede alterar la
puntuación del examinado.
Eficacia
Término usualmente utilizado para referir que alguna intervención sobre la realidad ha
producido un cambio en el sentido deseado. Por ejemplo, cuando un profesor prueba un
nuevo método docente y resulta un mejor rendimiento académico de los alumnos.
Eficiencia
Propiedad de los estimadores estadísticos que se refiere a la variabilidad de los mismos.
Dados dos estimadores insesgados, en principio, es conveniente optar por aquel más
eficiente.
Eje de abscisas X
En los ejes de coordenadas cartesianos, se denomina abscisa a la recta horizontal.
Eje de coordenadas cartesiano

Sistema de representación de variables mediante el cual a cada valor de un vector le
corresponde un punto sobre una recta distinta. De esta forma se logran representaciones
gráficas de trayectorias o puntos en un espacio definido por las variables o dimensiones.
Eje de ordenadas Y
En los ejes de coordenadas cartesianos, se denomina ordenada a la recta vertical.
Elaboración de la CCI
A partir de las respuestas de los examinados al ítem se construye la CCI del siguiente
modo:
1. Se organiza la matriz original de aciertos y errores de tal modo que se agrupan las
pautas de respuesta de los examinados en intervalos de puntuación total
estandarizados sobre una escala entre –3 y +3.
2. Para cada ítem se obtienen las diversas proporciones de los examinados que, habiendo
obtenido puntuaciones en los distintos intervalos, han acertado el ítem.
3. Estas proporciones se trasladan a un gráfico XY donde se unen en un solo perfil.
4. Cada ítem tendrá un perfil particular que expresa la proporción de acierto que recibe a
medida que aumenta la puntuación en el test de los examinados que lo responden.
5. En el proceso de calibración se obtiene una estimación de los parámetros del ítem y del
ajuste del perfil a la CCI.
Elaboración de la CCO
1. Se organiza la supuesta matriz original de aciertos y errores de tal modo que se
agrupan las pautas de respuesta de los examinados en intervalos de puntuación
estandarizados sobre una escala entre –3 y +3.
2. Para cada ítem se obtienen las diversas proporciones de los examinados que habiendo
obtenido puntuaciones en los distintos intervalos, han omitido el ítem.
31
3. Estas proporciones se trasladan a un gráfico XY donde se unen en un solo perfil.
4. Cada ítem tendrá un perfil particular que expresa la proporción de omisiones que recibe
a medida que aumenta la puntuación en el test de los examinados que lo responden.
5. En principio un ítem será tanto o más útil al test cuando más rápido disminuya su perfil.
Ver Curva Característica de Omisión (CCO)
Elección de un criterio de validación

• Si el criterio coincide con el objeto y utilidad de la prueba en desarrollo el siguiente paso
será establecer el nivel de relación entre ambas.
• Si el criterio no coincide con el objeto del test o bien posee una fiabilidad por debajo de
lo deseable que invalida su utilización (problemas de muestra o falta de variabilidad),
puede llevar entonces a descartar una prueba en desarrollo bien diseñada.
• Para establecer el criterio es importante:
1. Una clara definición y conocimiento del objetivo y marco teórico o modelo en el que
se desenvuelve la nueva prueba.
2. Una clara definición del propósito al que se destina la prueba.
3. Especificar y describir el tipo de individuos al que ira destinada la prueba.
4. Prever la operatividad en la obtención de los datos y puntuaciones de los
indicadores criterio.
5. Elegir uno o más criterios cuya representatividad y fiabilidad sean cualidades ya
fundadas. Aunque se trata de criterios particulares conviene emplear mas de uno ya
que perfilaran mucho mejor la validez del test.
6. Establecer los límites de la interpretación de los resultados de las pruebas en base al
criterio y nivel de relación con los resultados del test.
Ver Validez de Criterio

Ver Criterio
Elemento de un test
Ver Ítem
Elementos de la Curva Característica de Ítem

La función logística que constituye la CCI para el modelo de Rasch incluye los siguientes
componentes:
P(Theta) probabilidad de acertar o responder de una forma determinada (acierto o error)

al ítem.
E base de los logaritmos naturales e= 2.78.
D es una constante arbitraria de escalamiento, tradicionalmente 1.702. D aproxima la

forma de la función a la normal con un error menor del 1% para el trabajo con "logits".
b parámetro de dificultad de ítem; es un índice de localización (Baker,1985) definido

en la escala de capacidad y correspondiente a la probabilidad de acierto 0.5. Este
parámetro oscilará según los casos entre valores -2,+2 ó -3, +3 aunque puede recurrir a
otros intervalos distintos.
Theta nivel o escala empleado para describir lo que mide el ítem. La capacidad no
dependerá de ítems particulares y cada examinado poseerá un valor de la misma en un
rasgo determinado en un momento del tiempo. Theta determinará la escala de medida
32
situando al examinado y al ítem. Según los autores sus límites oscilan entre unos máximos
de -4, +4 si bien por similitud con el modelo de ojiva normal adopta los valores -3, +3.
Cuando la capacidad tiende a más infinito, la probabilidad de acierto del ítems será 1 y
cuando tienda a menos infinito a 0 .
El valor de Theta será una función de la suma de las discriminaciones de ítems acertados y
fallados.

Ver Modelo de Rasch
Encuesta
Sistema estructurado para la recogida de información. Generalmente, consiste en una
plantilla de registro con diferentes cuestiones que se formulan a los entrevistados, ya sean
éstas en formato abierto o cerrado.
Eneatipos
Es una variedad de puntuaciones típicas derivadas de clase en donde se divide la curva
normal en nueve áreas.
Ensayo, formato de
Cuando se pregunta al examinado sobre un tema para que éste lo desarrolle con
absoluta libertad expresando sus conocimientos con la extensión y profundidad que crea
oportuno.
Ver Ítem abierto
Enunciado
Premisa, núcleo o parte introductoria del ítem donde se formula al examinado la tarea a
desempeñar.
Equivalencia
Igualdad o gran similitud entre las medidas proporcionadas por dos tests paralelos ante un
mismo grupo de individuos.
Ver Formas paralelas (FP)
Error de primera especie
Ver Error Tipo I
Error de segunda especie
Ver Error Tipo II
Error estándar
Mediante este término se refiere la desviación estándar de los estadísticos. Es un tipo de
error estadístico, pero, en todo caso, aleatorio.
Error Estándar de Medida ¡Error! Marcador no definido.

Ver SEM
33
Error sistemático
Ver Sesgo
Error Tipo I
Cuando se toma una decisión estadística mediante una prueba de hipótesis, se denomina
Error Tipo I al hecho de rechazar la hipótesis nula cuando es la verdadera.
Error Tipo II
Cuando se toma una decisión estadística mediante una prueba de hipótesis, se denomina
Error Tipo II al hecho de aceptar la hipótesis nula cuando es verdadera la hipótesis
alternativa.
Escala
Continuo a lo largo del cual se ubican ítems y/o personas en términos cuantitativos de
dificultad, capacidad o cualquier otro rasgo que se mida. Tradicionalmente se han empleado
en Psicología y Educación cuatro niveles de escalas: Nominal, Ordinal, Intervalo y Razón.
También se emplea el término para designar una prueba o conjunto de ítems que
proporcionarán una puntuación.
Ver Escala de medida
Escala AGCT
Es una variedad de Puntuación Típica Derivada de origen militar similar a la escala T. Sus
iniciales corresponden a Army General Classification Test (USA).
Escala CEEB
Es una variedad de Puntuación Típica Derivada desarrollada en Estados Unidos para la
College Entrance Examination Board derivando luego al Educational Testing Service.
Escala ITED
Es una variedad de Puntuación Típica Derivada empleada en el American College Testing
Program. Ha ido asociada al Iowa Test of Educational Development
Escala T
Es una variedad de Puntuación Típica Derivada. Su rango habitual de puntuaciones oscila
entre +3z y -3z que corresponderán a T=20 y T=80.
Escala de Intervalo
Es una clasificación ordenada donde la distancia entre los números tiene sentido otorgando
un carácter métrico a la escala. Dispone de un valor origen y unidad de medida
arbitrariamente establecidos. La unidad es constante para toda la escala pudiendo
relacionar sus valores no sólo en palabras de orden sino también por la distancia entre los
mismos. Tanto el origen como la unidad pueden cambiarse por otros valores generando
una nueva métrica. Esta transformación ha de mantener invariantes las propiedades de la
escala, es decir, la distancia entre dos medidas de la primera métrica ha de ser equivalente
a la distancia en la segunda.
Estadísticamente con la escala de intervalo se abre la posibilidad de calcular la media,

variancia, desviación estándar, correlación de Pearson, t de Student, etc.
34
El problema de la unidad de medida en Psicología y Educación se ha resuelto
tradicionalmente mediante la ley Normal. Si la media se convierte en el origen, la variancia,
o mejor dicho la desviación típica, es la unidad de medida. La relación entre la frecuencia
de aparición de una puntuación y su diferencia de la media ha permitido emplear la
variabilidad como "metro" o unidad con que medir esta distancia. Estadísticamente la
diferencia entre la puntuación z=-1 y z=-2 es la misma que entre z=0 y z=+1. La ley
Normal hace válida esta afirmación resolviendo la segunda condición de las escalas de
intervalo.
No obstante, suponer que estas puntuaciones representan niveles de rendimiento o
capacidad equidistantes es algo mucho más delicado.
Enunciado característico: 4 Kg. representan un peso cuatro unidades Kg. por debajo de
8kg.
Ver Escala Nominal

Ver Escala Ordinal
Escala Nominal
En esta escala los números son etiquetas o rótulos al estilo de un fichero. Cada etiqueta
representa un tipo de objetos y a cada objeto le corresponde un solo número. Es, por
tanto, una simple clasificación, sin orden ni distancia entre los números. Carece también de
sentido la existencia de un origen o valor cero. Ej.: clase 6 agrupa a todos los alumnos
de esa aula. Clase 8 agrupa a estudiantes distintos de los anteriores.
Enunciado característico: 4 Kg. expresa un peso distinto que 8 Kg.
Estadísticamente la escala nominal sólo permite el recuento de casos generando

frecuencias, relativas o absolutas, la Moda y pruebas de Ji cuadrado.
Escala Ordinal
Es una clasificación a la que se añade un orden, no obstante carece aún de origen y unidad
de medida. La escala ordinal acumula las propiedades de la nominal añadiendo una nueva
regla: todo número expresa una cantidad comparable a la de otros en cuanto a "mayor o
igual que" o "menor o igual que". Esta escala admite operaciones como la Mediana,
Percentiles y todas aquellas comparaciones y correlaciones no paramétricas (Spearman,
Kendall, etc).
Enunciado característico: 4 Kg representa un peso inferior a 8Kg.
Ver Escala Nominal
Escala de Razón
Acumula las propiedades de las escalas nominal, ordinal y de intervalo añadiendo la
existencia de un verdadero origen o cero absoluto. De este modo es posible comparar
valores en función de razón ya que todos van referidos al origen natural de las medidas.
Las escalas de razón son un caso particular de las de intervalo pues si en aquellas el origen
puede variar, ahora en ésta no es así ya que debe poseer un cero verdadero.
Por este motivo son de difícil obtención en Psicología y Educación pues requieren unas
condiciones poco habituales en los rasgos e instrumentos de medida. Las operaciones
estadísticas admitidas por estas escalas serán todas. No existirá ya limitación alguna
pudiendo efectuar con las medidas cualquier análisis y comparación.
Enunciado característico: 4 Kg representa la mitad de peso que 8kg.
Ver Escala de Intervalo

Ver Escala Nominal
Ver Escala Ordinal
35
Escalas de medida
Expresan los diferentes niveles de la medición. Cada escala supone un grado de utilidad
del número procedente de una medición y por ello las posibilidades de cálculo inherentes
variarán en cada una según sus propiedades. La clasificación más habitual de las escalas de
medida procede de Stevens con cuatro niveles definidos básicamente por la existencia de
un valor nulo o cero y unidad de medida: nominal, ordinal, de intervalo y de razón.
Escalograma
Es un modelo de escalamiento mediante el cual se ordenan simultáneamente los
examinados y los ítems sobre una sola dimensión (un sólo atributo, contenido etc.).
Es un procedimiento simple y estricto que proporciona garantías de unidimensionalidad en
los datos de un test. No obstante se considera un modelo determinista difícil de cumplir
plenamente y su aplicación está supeditada por la proximidad de los datos a sus
condiciones.

Ver Condiciones del escalograma
Ver Inconsistencias en un escalograma
Espúrea, relación
Cuando dos variables están relacionadas o correlacionan, pero no como producto de la
dependencia entre las mismas, sino debido a la acción de otra variable u otras variables
sobre las anteriores.
Estabilidad
Constancia o relación de las puntuaciones obtenidas en un mismo test tras haber sido
aplicado en dos o más ocasiones a lo largo del tiempo a un mismo grupo.
Ver Test-Retest
Estadística descriptiva
Ver Análisis descriptivo
Estadística Inferencial
Ver Análisis inferencial
Estadística no paramétrica:
En ésta, las pruebas y estadísticos no precisan de unidad de medida en sus datos que
pertenecen a las escalas nominal y ordinal. En otro sentido se refiere a pruebas estadísticas
donde no se contrastan parámetros.
Estadística paramétrica:
Trata con datos que disponen cuando menos de unidad de medida y valor nulo arbitrario o
absoluto, en el mejor de los casos. En otro sentido, se refiere a pruebas estadísticas donde
se contrastan parámetros.
Estadístico
Cualquier valor correspondiente a un índice obtenido a partir de un conjunto de datos
muestrales.
36
Estandarización
Definición de las condiciones de aplicación, puntuación e interpretación de una prueba a fin
de evitar la interferencia de factores extraños.
También tiene otro sentido en cuanto se trata de transformar las puntuaciones del test en
otras expresadas según unas normas o estándar convencionalmente establecidas (ver
tipificación).
Estaninas
Ver Eneatipos
Estimación, prueba de
Conjunto de técnicas estadísticas mediante las cuales, a partir de estadísticos obtenidos
en muestras, se realiza una estimación del valor correspondiente al parámetro
poblacional. La estimación, generalmente, se realiza mediante la elaboración de un
intervalo de confianza, aunque también puede ser puntual. En el primer caso, el
intervalo se construye para recoger la posible fluctuación aleatoria y conseguir una
estimación que, aunque menos precisa, contenga con mayor probabilidad el valor del
parámetro poblacional. En el segundo caso, aunque la información de esa estimación es
mayor que la obtenida mediante un intervalo, existe una elevada probabilidad de que no
coincida la estimación puntual con el valor del parámetro.
Estrato
Cualquier subconjunto de la población formado por individuos que comparten alguna
propiedad. Por ejemplo, el subconjunto formado por los individuos de sexo femenino es
un estrato de la población formada por los individuos de ambos sexos.
Estructura de la escala
Informa acerca de qué ítems están activados y qué ítems están desactivados. Corresponde
a la información que aparece en la cuarta línea del código Microcat.
Evaluación
Tiene diversas acepciones
• Relación entre los efectos de un programa de enseñanza y los objetivos fijados de

antemano. Esta relación puede entenderse como un porcentaje de cambio y vendrá
muy determinada por el método e instrumento empleados.
• Proceso de obtención de información para la toma posterior de decisiones sobre la
estructura del programa de enseñanza y la efectividad de sus logros.
• Relacionada con el concepto de cambio y el grado en que éste se da entre un primer y
último momento del aprendizaje.
En la taxonomía de Bloom, la categoría evaluación se refiere a la capacidad de emitir

juicios cuantitativos y/o cualitativos sobre el valor o mérito de algo (ideas, métodos,
instrumentos, resultados proyectos, programas, etc.) en base a criterios explicables y
definidos.
En la taxonomía L.O.G.I.Q. la categoría evaluación se refiere a la tarea que incluye el

uso de un criterio al tomar una decisión o hacer una selección. Consiste en un análisis
minucioso del problema o situación para determinar factores que puedan ser
considerados para tomar una decisión y el peso de cada factor en la decisión.
37
Evaluación educacional
Va muy ligada a la medida del cambio. Ambos conceptos se refieren a dos aspectos de una
misma realidad; el producto y el proceso del aprendizaje que informan de la eficacia del
programa.
Evaluación formativa
Indica el nivel alcanzado por el examinado y la precisión en su ejercicio. También sirve
para mostrar sus déficits determinando el ritmo de aprendizaje. La importancia asignada al
contenido del programa es lo que distingue la evaluación sumativa.
Evaluación inicial
Es la que sirve para obtener información de las capacidades iniciales del alumno antes de
empezar el proceso de aprendizaje.
Evaluación sumativa
Sirve para certificar si se han obtenido los objetivos propuestos al iniciar el proceso de
aprendizaje, esta evaluación se realiza al final de un ciclo.
Es la más relacionada con el uso de tests y exámenes. Pretende comparar individuos
calificándolos basándose en su rendimiento, certificando también capacidades y prediciendo
logros. Esta evaluación ayuda a determinar el nivel inicial del siguiente curso y comparar
resultados dentro de un propio grupo clasificando a sus miembros.
La importancia asignada al contenido del programa es lo que distingue la evaluación
sumativa de la formativa caracterizando indirectamente el estilo de enseñanza.
Ver Evaluación formativa
Examen
Ver Test
EXCEL
Aplicación informática destinada a funciones de hoja de cálculo. Incluye diferentes
utilidades para el análisis estadístico y la representación gráfica de los datos.
Explicación
Tarea que requiere que el examinado demuestre que ha comprendido mediante el
reconocimiento o la exposición de ejemplos que no ha visto de un concepto o principio.
Explotación estadística
Este término se refiere al tratamiento de los datos con la intención de extraer algún tipo
de conocimiento.
Extrapolación
Capacidad por la cuál se espera que el receptor de una comunicación vaya más allá de
una interpretación literal, haga inferencias sobre las consecuencias o extienda las
dimensiones temporales, el ejemplo o el tópico.
38
F
Factor
Tiene varias acepciones este término en estadística. En el análisis de la variancia se
refiere a cada una de las variables independientes. En cuanto al análisis factorial, un
factor es una variable que resulta de una combinación lineal de las variables originales.
Factores que inciden en la fiabilidad del test

La fiabilidad de las respuestas y puntuaciones a un test vienen determinadas por múltiples
aspectos entre los que destacan:
• Longitud o número de ítems.
• Homogeneidad de las respuestas.
• Variabilidad de las respuestas y puntuaciones.
• Dificultad de los ítems
• Discriminación de los ítems.
• Tiempo de respuesta.
• Muestreo.
• Número de alternativas.
Ver Fiabilidad
Ver Coeficiente de fiabilidad
Factores que inciden sobre la validez del test

Como en la fiabilidad, existen diversos factores que inciden en el valor del coeficiente de
validez de criterio. Se relacionan los principales:
• Fiabilidad
• Longitud de la prueba
• Homogeneidad
Ver Validez
Ver Validez de criterio
Fiabilidad
Cualidad que afecta a las puntuaciones que proporciona un test e informa sobre la
exactitud o precisión con que produce las puntuaciones. Básicamente la fiabilidad en los
tests de Norma de Grupo se define por la presencia de un error en la medida que afecta a
la "confiabilidad" de las puntuaciones. A nivel práctico se evalúa mediante el coeficiente de
fiabilidad y el error estándar de medida.

Ver SEM (Estandar Error of Measurement)
Forma, índices de
Como su nombre indica son aquellos que describen un conjunto de datos respecto a su
forma. Son el coeficiente de simetría y apuntamiento.
Ver Apuntamiento
Ver Simetría
39
Formas Paralelas (FP)
Procedimiento para el cálculo del coeficiente de fiabilidad. Se basa en la correlación entre
los resultados de dos o más tests considerados paralelos o equivalentes.
Formas Paralelas y Test Retest

Procedimiento para el cálculo del coeficiente de fiabilidad basado en la combinación de
ambos procedimientos.
Ver Test-Retest
Formato de ítem
Diseño y aspecto característico de un ítem. Hay 8 formatos habituales: alternativa
múltiple, verdadera-falso, ensayo, semi-estructurado, restringida, asociación,
completamiento y ordenamiento.
Frecuencia individual absoluta

Número de veces que aparece en una muestra o población un valor de una variable o
número de datos que pertenecen a una clase.
Frecuencia individual relativa

Es la frecuencia individual absoluta dividida entre el total de datos; o sea, una frecuencia
relativa.
Frecuencia acumulada absoluta

Número de veces que aparece en una muestra o población un valor menor o igual a uno
dado. También puede referirse a intervalos de clase. Sólo utilizable en variables
ordenables.
Frecuencia acumulada relativa

Es la frecuencia acumulada absoluta dividida entre el total de datos; o sea, una
frecuencia relativa acumulada. Sólo utilizable en variables ordenables.
Función de densidad
En variables aleatorias continuas proporciona información sobre la concentración o
densidad de los valores.
Función de distribución
Función matemática que, dados los valores de una variable aleatoria, ya sea ésta
discreta o continua, proporciona la probabilidad de, realizada una extracción al azar,
obtener un valor igual o inferior a cada uno de los valores posibles.
40
G
Geométrica, media
Es la enésima raíz cuadrada del producto de los valores, siendo n el total de datos. Se
utiliza en aquellos casos donde los factores que afectan a la variable se combinan
multiplicativamente.
Grados
Bandas de puntuación para valorar los ítems no dicotómicos
Ver Ítem de puntuación graduada
Grados de libertad
Corresponden al número de puntuaciones independientes.
Grados de significación
En una prueba de decisión estadística es el valor que, bajo determinados supuestos,
indica la probabilidad de cometer un Error Tipo I. También se denomina nivel de
significación y P-Valor.
Gráfico
Sistema de representación visual de la información.
Gráfico de caja
Gráfico mediante el cual se representan los valores de una variable cuyos datos han sido
obtenidos de una población o una muestra. Mediante un rectángulo, unas rectas
perpendiculares a los laterales del mismo y unas líneas perpendiculares a la anterior
recta, se determinan 5 zonas. Cuando dos datos se ubican en las zonas de ambos
extremos, se entiende que corresponde a datos anómalos.
Gráfico de control
Sistema mediante el cual se representa a lo largo del tiempo el valor de determinados
estadísticos y sus rangos de fluctuación esperados en el caso de que el proceso esté bajo
control. Se utiliza habitualmente en el ámbito del control estadístico de procesos (control
de calidad).
Gráfico de pastel
Ver Ciclograma
41
H
Hechos
Con relación a lo que plantea un ítem de un examen, son asociaciones entre nombres,
otros símbolos, objetos y localizaciones.
Heptas (escala de siete grados)

normal en siete áreas.
Heterocedasticidad
Se utiliza este término para referirse a que las variancias de diferentes poblaciones no
son idénticas, al menos, entre un par de éstas.
Hipótesis, prueba de
Técnica estadística en la cual se somete a contraste o prueba una hipótesis nula.
Hipótesis alternativa
En caso de rechazar la hipótesis nula, se concluye que otra hipótesis es cierta, y se
denomina hipótesis alternativa.
Hipótesis nula
Es aquella hipótesis que se especifica en toda prueba de decisión estadística para
determinar su verosimilitud. Puede ser rechazada o aceptada. Si es rechazada, debe
considerarse que existe una probabilidad de cometer un Error Tipo I; o sea, que sea
verdadera, aunque haya sido rechazada. Si es aceptada, también existe una probabilidad
no nula de cometer un Error Tipo II; o sea, la hipótesis nula es falsa, aunque el
contraste estadístico nos ha conducido a tomar como verdadera esa hipótesis.
Histograma
Diagrama de barras donde el área de cada una es proporcional a las frecuencias de casos
que incluye entre los límites de sus respectivas categorías en la distribución de una
variable.
Homocedasticidad
Este término se refiere a que las variancias de un conjunto de poblaciones son idénticas.
En algunas técnicas estadísticas se requiere (se supone, pero debe ser previamente
comprobado) que todas las muestra proceden de poblaciones con idéntica variancia.
42
I
Identificador
Es una variable personal del examinado que se puede incluir en el archivo *.mct.
Normalmente suelen ser, el número de documento nacional de identidad, el nombre y
los apellidos, etc.
Ver Archivo *.mct
Igualdad de atractivo de las alternativas:

Condición de diseño por la que, al margen de la mayor o menor dificultad de cada ítem, se
espera una distribución homogénea de las elecciones erróneas entre las respuestas
incorrectas. De este modo ninguna falsa solución destacaría ni se confundiría con la
acertada en aquellos individuos que la ignorasen. Ejemplo con un ítem de 5 alternativas:
Respuesta A 50 elecciones (errónea)
Respuesta B 220 elecciones (correcta)
Respuesta C 62 elecciones (errónea)
Respuesta D 97 elecciones (errónea)
Respuesta E 71 elecciones (errónea)
De los 500 individuos 220 han acertado el ítem mientras que 280 lo fallan. Un buen
diseño del ítem llevaría a una distribución homogénea (70) de estos fallos repartiéndose
por igual entre las erróneas.
Inconsistencias en un escalograma
En el modelo del escalograma las inconsistencias corresponden a cualquier acierto o error
fuera de su sector. Se observan al revisar la tabla de datos de un escalograma y detectar
situaciones como acertar un ítem muy difícil o fallar uno de muy fácil. La detección de las
inconsistencias es difícil y existen diversos criterios para su localización. La relación entre la
presencia de inconsistencias y la reproductibilidad es inversa.
Ver Escalograma
Independencia Local (IL)

Es una condición fundamental del modelo de Rasch por la cual sólo la capacidad del
examinado determina su respuesta a los ítems. Ni la conjetura, motivación, ansiedad, etc.
intervendrán. Todo esto supone la incorrelación entre las puntuaciones de los ítems para un
nivel dado de capacidad así como que los errores de los distintos ítems deben ser
independientes entre sí.
Ver Modelo de Rasch
Índice de dificultad
Ver Dificultad de ítem
Índice de discriminación
Ver Discriminación de ítem
Índice de Reproductibilidad
Ver R
Ver Ri
43
Ver Rj
Individuo estadístico
Todo elemento de la población o muestra es un individuo u objeto estadístico. Ejemplos
de individuos estadísticos son las personas, las preguntas de un examen, las empresas,
entre otras. En general, cualquier unidad indivisible, según los objetivos del análisis,
susceptible de ser medida en alguna de sus propiedades.
Ver Caso
Inspección visual gráficos X-Y

La inspección visual de los datos puede ser de gran ayuda ya que a menudo uno o varios
examinados alteran la relación esperada. Estos casos deben ser tratados por separado
comprobando el efecto sobre el coeficiente de correlación.
Inteligencia Cristalizada
Propuesta por R. Cattell, es aprendida y se desarrolla progresivamente hasta llegar a su
más alta manifestación entre los 25 y 30 años.
Inteligencia Fluida
Propuesta por R. Cattell, es heredada y libre de cultura que alcanza su máximo hacia los 14
años de edad
Interacción
Cuando los valores de dos o más variables no se suman para incrementar sus efectos,
sino que, dependiendo de la combinación de valores, se puede aumentar o disminuir el
efecto sobre la variable dependiente.
Interpretación
Capacidad por la cual un examinado puede ir reconociendo las partes separadas de una
comunicación y ver las interrelaciones entre las partes.
Interpretación criterial
Los Tests Referidos al Criterio (TRC) proporcionan medidas directamente interpretables
en términos de normas de rendimiento previamente especificadas. Son pruebas ligadas a
un interés por el diagnóstico educativo frente a la tendencia más clasificadora de la
norma de grupo.
Ver Tests Referidos al Criterio
Interpretación de la discriminación de ítem

• La dificultad y variancia influyen en la discriminación sea cual fuere el procedimiento por
el que se ha estimado. Antes de evaluar la discriminación de un ítem se contemplará el
papel de la variancia ya que una baja discriminación tanto puede deberse a problemas
del ítem como a valores extremos de p.
• La discriminación de un ítem debe ser elevada, la exclusión de los ítems anómalos
repercutirá favorablemente en un aumento de la discriminación de los restantes.
• El proceso de selección de ítems a través de la eliminación de los menos discriminantes
puede llevar a un circulo vicioso. Es frecuente que en la escala seleccionada aparezcan
nuevos ítems que discriminan por debajo de lo esperado. El proceso se repetiría
entonces hasta obtener una escala final constituida por unos pocos ítems muy
homogéneos pero que ofrecerán poca información sobre los individuos.
44
• Como derivación de lo anterior las pruebas con elevada homogeneidad suelen
mostrarse correctas psicométricamente pero pobres al nivel de contenido. Todas ellas
tienden a ser réplicas unas de otras constituyendo una situación que para muchos
profesionales carece de interés.
• La discriminación de ítem afecta a la validez y fiabilidad de la prueba. Por tanto serán
necesarios niveles elevados o moderados de la misma que no caigan en las críticas
anteriores y las de carencia. La mayor longitud de la prueba tenderá a contrarrestar
estos problemas suavizando las situaciones anómalas.
• En todo análisis de ítems debe compararse los resultados de varios procedimientos y su
representación gráfica.
• Ya sea como perfiles de la prueba, ítem a ítem, o bien perfiles característicos de cada
uno serán uno de los recursos más útiles de que dispone el constructor de la prueba.
• Examinados con pautas anómalas de respuesta, el azar, falta de homogeneidad en el
atractivo de respuestas etc pueden enrarecer el resultado de la discriminación de ítem.
• En la revisión de las CCI se tendrá en cuenta que el modelo de análisis aplicado supone
una relación lineal entre el acierto al ítem y la puntuación criterio. De haber diferencias
en este sentido pueden desaconsejar métodos como el de la correlación ya que atenta
contra sus condiciones básicas.
• Los valores críticos (0.3) en cada uno de los indicadores de discriminación han sido
tradicionalmente independientes de la muestra para la correlación y escalograma. Estas
constantes son arbitrarias y exigen el respaldo (significación) así como la revisión
gráfica ya citada.
• Como modelo convencional de Norma de Grupo la discriminación de ítem variará para
un mismo reactivo según el grupo de examinados al que se presenta.
• La dificultad y Variancia están directamente implicadas en este fenómeno ya que un
ítem difícil para un grupo puede mostrar una p=0.5 en otro variando su discriminación
totalmente de uno a otro grupo.
• La discriminación de ítem depende también del tipo de criterio empleado. A menudo la
neutralización de efectos indeseables como las omisiones (promedios) o el azar (p
corregida) lleva a sustituir la suma de puntos por otra puntuación mucho más
uniformes y concentrada sobre la media del grupo. Esto afectará a la discriminación de
ítem reduciendo en general la calidad de los reactivos.
Ver Discriminación de ítem
Interpretación del Coeficiente de Fiabilidad

• El coeficiente de fiabilidad oscila entre 0 y 1.
• En los Tests de Norma de Grupo la valoración de rxx' ha venido determinado
tradicionalmente por unos valores arbitrarios.
• Pruebas con rxx´ menor de 0.8 ofrecen sospechas sobre su fiabilidad.
• Pruebas con rxx´ menor de 0.70 ofrecen mínimas garantías de precisión y exactitud en
sus puntuaciones
• En los Tests Referidos al Criterio la interpretación de rxx´ puede venir condicionada
por la estructura de la prueba y la variabilidad de las respuestas.
Ver Coeficiente de Fiabilidad
Interpretación de la CCI
• Pendiente de la curva: un ítem será tanto o más útil al test cuando más rápido sea el
crecimiento de su perfil. Interesa una pendiente lo más pronunciada posible que ayude
a discriminar dos grupos de examinados (los que aciertan y fallan) sobre una
puntuación o zona de capacidad lo más breve posible.
• Desplazamiento lateral de la curva: la situación global del perfil del ítem revela su
dificultad (izquierda-fácil, derecha-difícil).
45
• Asíndota inicial-izquierda de la curva: indica la presencia de acierto por conjetura. Si
presenta un perfil estabilizado (no crece) sobre cierto rango de baja capacidad (sector
izquierdo de las abscisas) para luego aumentar hasta alcanzar el máximo porcentaje se
trata con toda probabilidad de un ítems sensible al acierto por azar.
Interpretación de la CCO
• La CCO debe interpretarse con relación a la CCI y a la dificultad-discriminación.
• Si el ítem es de alternativa múltiple el examinado puede optar por no responder, lo que
aconseja el análisis de CCO, o bien por escoger una alternativa errónea que se
confunde con la correcta, lo que aconseja el análisis de alternativas incorrectas.
• Si el ítem es abierto la situación se reducirá a error, omisión y acierto. En este caso el
valor de las omisiones será destacado ya que reflejará una decisión más elaborada.
• Las CCO no son exclusivas de ítems de exámenes ya que se emplean en toda clase de
pruebas.
• Al analizar la CCO es importante considerar si los errores penalizan de algún modo.
• En el análisis de las CCO intervienen muchos factores; miedo al compromiso, indecisión,
distracciones, miedo, temor por las consecuencias, falta de comprensión, diseño
inadecuado de los ítems etc.
• Es conveniente verificar si la CCO se ajusta a los tres tipos mas habituales denominadas
A,B y C.
Ver Curva Característica de Omisión
Interpretación de r
Para la correcta interpretación y evaluación de r es aconsejable:
• Efectuar un análisis cualitativo de las variables comparadas.
• Disponer del diagrama de dispersión de la distribución de puntos que genera.
• Considerar que la existencia de examinados anómalos puede alterar el tamaño del
coeficiente. La revisión y detección previa de estos casos permite una mejor valoración
de la verdadera relación entre las variables.
• Recordar que está en función de las variables estudiadas y pueden hallarse valores
contradictorios con situaciones y resultados esperados de antemano.
• La significación de un coeficiente no siempre es deseable pues en ocasiones interesa
hallar una baja relación entre los resultados de pruebas que miden rasgos muy
distintos.
• A menudo es conveniente interpretar el resultado en términos de variancia explicada
mediante el coeficiente de Determinación.
Interpretación normativa
Las pruebas psicométricas basadas en el modelo de Norma de Grupo facilitan la conexión
entre las puntuaciones directas, suma de aciertos, y otras relativas al conjunto de
individuos al que pertenece un examinado en particular. Tradicionalmente el objetivo de
estos tests ha sido comprobar el ajuste entre la distribución de puntuaciones obtenidas
por una muestra de examinados con la curva normal o campana de Gauss. De
producirse tal ajuste es posible entonces transformar las puntuaciones directas en otras
llamadas típicas o tipificadas basadas en la escala z con interesantes cualidades
métricas. En caso contrario se elabora un baremo alternativo (escala de centiles,
percentiles.) basado en la distribución empírica obtenida o bien se plantean modelos
diferentes al de la curva normal basados en funciones evolutivas o curvas de desarrollo.
En cualquiera de estos los casos la información directa, suma de aciertos, es
transformada a otra puntuación relativa al grupo de edad, escolar, profesional etc, que
permite situar a cada individuo
46
Ver Tests de Norma de grupo
Ítem
Elemento de un test. Consiste en una situación estándar presentada a un examinado para
provocar una respuesta relacionada con el atributo medido. El ítem es la unidad de
información cuantificada del test y sus cualidades repercutirán en las del conjunto de la
prueba. Por tanto el análisis psicométrico del test comenzara por el de sus ítems a fin de
comprobar su contribución a las propiedades deseables en toda prueba.
De forma tradicional se ha dividido a los ítems objetivos en dos grandes categorías según si
el examinado elabora o bien la escoge entre varias alternativas. El propósito final será
siempre eliminar cualquier tipo de confusión a la hora de valorar la respuesta del
examinado y por lo tanto garantizar su cuantificación en iguales condiciones para todos
ellos.
Ítem abierto
O de respuesta elaborada por el mismo examinado sin que tenga que elegir entre varias
opciones.
Ítem activado
Es aquél que en la estructura de la escala del código Microcat, aparece señalado para que el
programa de análisis de ítems lo incluya en el tratamiento psicométrico.
Ítem ambiguo
Cuando lo aciertan personas tanto con alta como con baja puntuación en el test. De igual
modo también quienes lo fallan obtienen puntuaciones muy diversas en el total de la
prueba.
Ítem cerrado
Ítem de alternativas entre las cuales el examinado debe escoger la respuesta más
adecuada.
Ver Alternativa múltiple, formato de
Ítem de entrenamiento
Se emplea para ejercitar al examinado en la tarea de responder al test. Su puntuación no
se toma en cuenta, siendo un ensayo para los ítems siguientes.
Ítem de puntuación graduada

Proporciona una puntuación en forma de escala ordinal asociada a la proximidad de la
respuesta con el criterio de acierto.
Ítem de valoración dicotómica

Proporciona una puntuación en términos de presencia-ausencia, acierto-error, afirmación-
negación, etc al margen de las posibilidades y formato que ofrezca el ítem.
Por norma se distingue entre las dicotomías naturales y las artificiales, éstas últimas
obtenidas por la división arbitraria de una variable continua en dos categorías
(estadísticamente a partir de la mediana o de la media).
Ítem desactivado
Es aquél que, en la estructura de la escala del código Microcat, aparece señalado para que
el programa de análisis de ítems no lo incluya en el tratamiento psicométrico.
47
En METRIX, un ítem desactivado será aquel que no participa del análisis.
Ítem multipunto
Ver Ítem de puntuación graduada
Ítem no abordado
Ver Ítem no alcanzado
Ítem no alcanzado
El examinado no llega a contestar por falta de tiempo en tests cognitivos, especialmente los
de velocidad.
Ítem omitido
El examinado no ha respondido pero no puede atribuirse a la falta de tiempo.
48
J
Ji cuadrada, prueba de
Prueba que permite determinar si dos o más variables categóricas están relacionadas.
También pueden utilizarse variables ordinales o medidas con otros tipos de escalas de
medición que han sido agrupadas en clases.
49
K
K
Es un valor empleado en la expresión de Spearman-Brown. Corresponde a la proporción en
que se aumenta o disminuye la longitud del test para estimar los cambios en sus
coeficientes de fiabilidad y validez.
Una prueba de 20 ítems a la que se añaden 10 nuevos representa una K de 1.5
Una prueba de 30 ítems que se reduce a 10 corresponde a una K de 0,33.
Ver Split Half
Kits
Grupos de archivos de ejemplo con datos e información procedentes de exámenes reales.
Kolmogorov-Smirnov, prueba de
Es una técnica estadística que permite determinar si una variable aleatoria se distribuye
según una distribución normal.
Ver Curva Normal
KR-20
Ver Coeficiente KR-20
KR-21
Ver Coeficiente KR-21
Kruskal-Wallis, prueba de
Técnica estadística no paramétrica que permite determinar si un conjunto de grupos
independientes proviene o no de poblaciones con idéntica distribución. Sólo requiere
para su aplicación que la variable dependiente esté, al menos, medida en una escala
ordinal. Si se añade el supuesto de que todos los grupos provienen de poblaciones con
idéntica forma de la variable dependiente, esta prueba se convierte en un contraste para
determinar si poseen idéntico nivel de tendencia central (mediana) de los diferentes
grupos. Si también se supone que la forma de la variable dependiente (aleatoria) es
simétrica, permite determinar si los grupos proceden de poblaciones con idéntica media.
50
L
Leptocúrtica
Se utiliza el término para referirse a distribuciones simétricas de datos cuyo
apuntamiento es pronunciado. Son distribuciones de datos con escasa variabilidad, pues
los datos están concentrados en los valores centrales correspondientes al recorrido de
las variables. Una distribución de datos es leptocúrtica cuando supera el apuntamiento
de la curva normal.
Ley normal
Ver Curva Normal
Longitud del test y Fiabilidad

Un principio fundamental para conseguir tests de fiabilidad elevada consiste en aumentar el
número de ítems que producen la puntuación total.
51
M
Mann-Whitney, prueba de
Técnica no paramétrica que permite contrastar si dos grupos de sujetos independientes
proceden o no de poblaciones con idéntica distribución de la variable dependiente. Sólo
requiere para su aplicación que la escala de medida de la variable dependiente sea,
como mínimo, ordinal. Si se añade el supuesto según el cual la forma de la variable
dependiente es idéntica en todas las poblaciones de procedencia de los grupos, se puede
utilizar para determinar si estas poblaciones poseen o no idéntica tendencia central
(mediana). Si además se supone que la variable aleatoria (dependiente) se distribuye
simétricamente, es un contraste de medias.
Matriz de correlaciones
Cuando se desea conocer la relación entre más de dos variables se correlacionan por pares
hasta agotar todas las comparaciones posibles. Este procedimiento llevará a la obtención
de una matriz de correlaciones donde la información se almacenará por filas y columnas en
una estructura característica.
Para n variables se obtendrán tantos coeficientes como n2, de los cuales n indicarán la
correlación de cada variable consigo misma y n2-n las restantes comparaciones dos a dos.
Puesto que la correlación entre X e Y es la misma que entre Y y X puede reducirse a la
mitad el número hábil de comparaciones hallando en total n(n-1)/2 .
Matriz de datos
Conjunto organizado de datos en filas y columnas. En general, en las columnas se ubican
las variables, mientras en las filas se sitúan los diferentes individuos estadísticos. En
cada una de las intersecciones fila con columna se ubican los datos que corresponden al
valor obtenido por el individuo estadístico en esa variable.
Matriz de datos del archivo *.mct

Conjunto de datos que aparece a partir de la quinta línea del archivo *.mct y en la cual
se presenta en cada línea información sobre cada examinado. Dicha información puede
ser de dos tipos:
- Identificadores (es opcional)
- Pautas de respuestas de los examinados
Ver Archivo *.mct
Matriz de respuestas
Ver Matriz de datos del archivo *.mct
Media
Es la suma de todas las puntuaciones de la variable dividido por el total de casos o
individuos de la muestra. La media sólo es aplicable a escalas de intervalo y razón ya que
resiste las transformaciones lineales de los datos. Se la considera como el centro de
gravedad de la distribución siendo útil en distribuciones equilibradas ya que en las
asimétricas es preferible aplicar la mediana.
52
Mediana
Es la puntuación que deja por encima y debajo de sí el 50% de las restantes. Gráficamente
se calcula mediante un histograma de frecuencias localizando el valor de las abscisas que
divide el área del mismo en dos
Medición
En Psicología y Educación se refiere al establecimiento de un conjunto de reglas para
asignar números a rasgos psicológicos, capacidades, aptitudes, nivel de conocimientos de
los individuos. Las principales aplicaciones son:
• Enseñanza: verificar los objetivos alcanzados, certificación de nivel, y en general tanto
la evaluación formativa como sumativa.
• Diagnóstico: identificar trastornos, detectar deficiencias o problemas de aprendizaje.
• Selección: evaluar la competencia y aptitud para el desempeño de una ocupación.
Medición educativa
Determinación de habilidades respecto a los objetivos del programa, por ello hará
referencia al producto del aprendizaje. La evaluación afectará a la forma como se alcanzan
los objetivos y todas aquellas variables relevantes en el programa.
Medidas de dispersión
Índices que expresan el grado de variabilidad en una distribución de puntuaciones
(variancia, desviación estándar).
Ver Distribución
Medidas de tendencia central

Las medidas de tendencia central representaran las puntuaciones de un individuo tipo con
relación a su grupo de pertenencia. Las más importantes son la moda, mediana y la media.
Ver Media
Ver Mediana
Ver Moda
Medidas repetidas, diseño de

Un tipo de diseño en el cual un mismo grupo de individuos es sometido a todas las
condiciones experimentales o tratamientos. Por ejemplo, cuando se suministra una
sustancia no activa (placebo) a un grupo de sujetos y, transcurrido un tiempo, se
administra al mismo grupo de individuos la sustancia activa.
Memoria
Capacidad para retener y recuperar información.
Mesocúrtica
Un tipo de distribución simétrica cuyo apuntamiento no es ni excesivamente aplanado ni
puntiagudo. La distribución normal es la única distribución mesocúrtica.
Ver Curva Normal
Métrica
Reglas de atribución de números a distancias.
53
METRIX ENGINE
Es uno de los dos programas ejecutables que se incluyen en el tutorial. Permite una gran
variedad de análisis psicométricos sobre las cualidades de ítems de uno o más tests.
MINITAB
Aplicación informática destinada al análisis estadístico.
Moda
Es la puntuación, categoría o intervalo de una variable que presenta mayor frecuencia de
casos. Se trata pues de la puntuación o resultado más frecuente en un test para un grupo.
Una distribución de frecuencias representará la aparición de cada puntuación ya sea
agrupándola con otras o en solitario.
Respecto a la moda una distribución puede ser uni, bi y hasta multimodal en el caso de que
existan varias puntuaciones con máxima frecuencia de aparición. La moda puede obtenerse
de cualquier clase de datos.
Modelo de Rasch
Es un modelo logístico de 1 solo parámetro. Es el modelo más simple de la Teoría de
Respuesta a los Ítems. Una función de tipo logístico (Curva Característica de Ítem) describe
la relación existente entre la dificultad de un ítem y la probabilidad de acertarlo según el
nivel de capacidad de los examinados.
Este modelo asume:
• Que sólo el parámetro b explica la probabilidad de respuesta (acierto o error) del

examinado en el ítem.
• La igualdad de todas las discriminaciones de los ítems del test, o banco de ítems, por lo
cual todos poseen igual calidad métrica.
• La inexistencia de la conjetura, o aciertos por azar, y considera que todos los ítems han
sido respondidos sin mediar otros factores que la propia capacidad del examinado.
Modelo estadístico
En un sentido amplio, una expresión matemática que relaciona un conjunto de entradas
o variables independientes con un grupo de salidas o variables dependientes, existiendo
siempre en el mismo un término aleatorio.
Modelo lineal
Considera la relación (función) entre la respuesta a un ítem y la posición del examinado en
el rasgo medio como una recta.
Modelo logístico
Cuando la relación entre la respuesta a un ítem y la posición del examinado en el rasgo se
mide como una función de tipo logístico.
Muestra
Ver n
Muestreo accidental:
Es un muestreo intencional utilizado tanto en los diseños test-retest como otros para el
cálculo de la fiabilidad o la validez.
54
Muestreo por conglomerados
Es el muestreo no probabilístico donde se agrupan los individuos por características
reales en sí mismas. De los conglomerados resultantes se elegirán varios para su estudio
empleando el total de individuos pertenecientes a cada uno. No se analiza una
representación de la población sino un grupo consistente de examinados de uno o más
conglomerados de la misma. Puede ser:
• Por etapas: es el muestreo por conglomerados realizado en etapas sucesivas.
• Muestreo intencional: ante un problema conocido se escogen de forma deliberada lo
examinados de cada estrato.
• Muestreo accidental: el criterio fundamental es el acceso y disponibilidad de los
individuos.
Muestreo por cuotas

Es el muestreo no probabilístico, después de estratificar la población y según el número y
disponibilidad de los individuos de cada estrato se procede a una elección que optimice la
muestra.
Muestreo representativo
Es aquel donde todos los individuos de una población con las características previamente
determinadas tienen igual probabilidad de ser elegidos. Ello permitirá la inferencia de los
estadísticos de la muestra a los parámetros de la población ya que las propiedades y
estructura se conservan supuestamente de una a otra.
Multiítem de base común, formato de

Al examinado se le presenta una información (texto, mapa, gráfico, tabla...) a partir de la
cual se construyen varios ítems.
Multimodal
Cuando en el conjunto de datos existe un número elevado de modas.
Ver Moda
55
N
n
Número total de casos o individuos de una muestra, tamaño muestral.
N
Número total de casos o individuos de una población, tamaño poblacional.
Nivel de significación
Ver Grados de significación
No abordados
Ver No alcanzados
No alcanzados
Referido a ítems de un test, especialmente de velocidad, que no ha dado tiempo a
responder.
Normas o baremos
Estadístico que describe la ejecución de un grupo en un test. Existen de variado tipo y el
grupo empleado se considerará como referencia para su establecimiento.
56
O
Observación
Tiene dos usos muy habituales. Primero, durante la fase de recogida de información, se
refiere a cualquier información que se registre. Segundo, también se refiere al proceso
mediante el cual se obtiene información mediante la inspección del comportamiento de
un objeto estadístico.
Ojiva
Ver Curva acumulada
Omisiones
Ítems que el examinado, aún disponiendo de tiempo, no ha contestado.
Ver Curva Característica de Omisión (CCO)
Operaciones
En la Teoría de Guilford representa los seis procesos básicos del pensamiento; cognición
(C), memoria a corto plazo (M), memoria a largo plazo (T), pensamiento divergente (D),
pensamiento convergente (N) y evaluación (E).
Ver Taxonomía de Guilford
Ordenada
Valor correspondiente al eje de ordenadas.
Ordenamiento, formato de
Ítems constituidos por una lista de datos distribuidos al azar que el examinado debe
ordenar según convenga.
Origen de coordenadas
Corresponde a la intersección de los ejes de abscisas y ordenadas, donde la posición es
(0,0).
Ver Eje de coordenadas cartesiano
57
P
p
Índice de dificultad de un ítem de puntuación dicotómica, corresponde a la proporción de
valores 1.
p1
Índice de dificultad sobre el total de la muestra.
p2
Índice de dificultad sobre el total de examinados que responden al ítem.
p3
Índice de dificultad corrigiendo el efecto del azar en ausencia de omisiones.
p4
Índice de dificultad corrigiendo el efecto del azar con presencia de respuestas no
alcanzadas.
póptima
Proporción adecuada de acierto al ítem según el número de alternativas de respuesta que
ofrece. Por defecto será siempre 0.5 en los tests de potencia con ítems abiertos. En los
cerrados variará según el número de alternativas.
Parámetros
Características que describen a una población. Se refiere al verdadero valor de un índice
estadístico en la población.
Patrones Anómalos de Respuesta (PAR)

Son los examinados que presentan pautas de respuesta que no se corresponden con el
modelo psicométrico de la prueba. Un PAR indica aciertos y errores de forma incoherente
con la dificultad de los ítems o algún otro criterio. Las causas mas frecuentes son:
• Mal diseño del test. En este caso los PAR serán numerosos y pondrán en evidencia
este problema.
• Conjetura: especialmente en items de alternativa múltiple es posible acertar
preguntas difíciles y fallar otros fáciles.
• Estructura de conocimiento: en ocasiones un PAR indica un conocimiento
incompleto del contenido evaluado que lleva al examinado a dominar tareas
difíciles y fallar otras fáciles.
• Ansiedad: errores en ítems fáciles debidos a falta de concentración, anomalías en
el procedimientos de respuesta etc.
• Alteraciones en el orden de respuesta de los items, comportamiento fraudulento...
El resultado de estas comprobaciones debe relacionarse con la información personal

disponible de los examinados (VDP).
Ver Escalograma
Ver Ri
58
Patrones de Error Similares (PES)
Son las parejas de examinados con un patrón de errores muy similar especialmente en los
ítems difíciles. En función de su proximidad física en la sala (coordenadas fila-columna)
durante el examen, y las repercusiones del resultado, puede tratarse de individuos que
poseen un conocimiento similar sobre el contenido de los ítems o bien que adoptan una
misma estrategia de respuesta (entrenamiento) o, en última instancia, de sospechosos de
copia.
El resultado de estas comprobaciones debe relacionarse con la información personal
disponible de los examinados (VDP).
Ver Patrones Anómalos de Respuesta.
Pauta de respuesta del examinado

Serie de caracteres ordenados en forma de fila que recoge las respuestas de un
examinado en una prueba. Cada carácter recoge la respuesta a un ítem.
Pensamiento convergente
Asociado a la búsqueda de la solución a un problema mediante el procedimiento
considerado como más correcto.
Pensamiento divergente
Búsqueda de la solución a un problema mediante procedimientos alternativos y creativos.
Pentas
normal en cinco áreas. Es una escala poco habitual ya que reduce considerablemente la
precisión de los resultados.
Percentiles
Ver Centil
Perfil
Representación gráfica de valores correspondientes a puntuaciones de examinados,
parámetros de ítem o estadísticos de varios tests con objeto de facilitar el reconocimiento
de sus posiciones relativas y la extracción de conclusiones. El análisis del perfil ayuda al
diagnóstico de situaciones.
Perfil A
Perfil de la Curva Característica de Omisión en forma horizontal.
Perfil B
Perfil de la Curva Característica de Omisión en forma centrada.
Perfil C
Perfil de la Curva Característica de Omisión en forma ascendente.
Plantilla vdi.xls
Es una hoja de cálculo en formato EXCEL 5.0, donde aparece un conjunto de variables
que recogen información sobre los ítems.
Plantilla vdp.xls
59
Es una hoja de cálculo en formato EXCEL 5.0 donde aparece un conjunto de variables
que recogen información sobre las personas.
Platicúrtica, distribución
Se refieren mediante este término aquellas distribuciones simétricas de datos donde los
valores están muy dispersos a lo largo del recorrido de la variable. Representadas
gráficamente, estas distribuciones muestran un patrón aplanado. Se denominan
platicúrticas aquellas distribuciones cuyo apuntamiento es inferior al de la curva normal.
Población
Conjunto de todos los individuos en que se desea estudiar un fenómeno.
Ponderación de respuestas de ítem

Valor que se atribuye a la respuesta (acierto) a un ítem. En METRIX consiste en el producto
del coeficiente de discriminación por el acierto (1) o error (0) en ese ítem. De este modo la
puntuación obtenida en el test procede de una suma de productos donde cada
discriminación valora los aciertos de distinta forma.
Ver Coeficiente de ponderación

Ponderada, media
Cuando la contribución a la media aritmética de los valores no es idéntica. En ese caso,
cada valor de las variables se multiplica por un factor que indica la contribución de cada
valor.
Precisión
Proximidad en la agrupación de unas medidas alrededor de la considerada como verdadera.
Se considera un índice de agrupación de un conjunto de medidas alrededor de la
considerada como verdadera. En el caso de las puntuaciones de un test se emplea el error
estándar de medida (SEM) como indicador de precisión.
Ver SEM
Predicción
Tarea que confronta al examinado con una situación en la que no se ha encontrado
anteriormente y se le pide que emplee una regla para predecir:
a) cambios en la situación a lo largo del tiempo
b) cambios en las situaciones relatadas
Dado un modelo estadístico y la estimación de sus parámetros, pueden obtenerse, tras

varias fases para comprobar la adecuación del mismo, proyecciones sobre el valor de la
variable dependiente para combinaciones de valores de las variables independientes
implicadas en el modelo.
Pregunta
Aunque se considera un sinónimo de ítem realmente se trata de una modalidad de ítem.
Una pregunta es un ítem; pero un ítem no se considera una pregunta, ya que puede
adoptar diversos formatos sin necesidad de que exista una interrogación.
Ver Ítem
60
Principios
Con relación a lo planteado por un ítem se entiende como la afirmación de relación entre
objetos o eventos.
Procedimientos
Con relación a lo planteado por un ítem, son una subclase de principios que incluyen
actividades físicas y mentales. Podríamos definir los procedimientos como secuencias de
actividades mentales y físicas usadas para resolver problemas, recoger información o
conseguir una meta determinada.
Productos
En la Teoría de Guilford representa el resultado de aplicar las distintas operaciones a los
diversos contenidos, se clasifican en seis tipos; unidades (U), clases (C), relaciones (R),
sistemas (S), transformaciones (T) e implicaciones (I).
Ver Taxonomía de Guilford
Pronóstico
Ver Predicción
Proporción
Estadístico resultante de dividir el número de veces que ocurre un suceso entre la
cantidad total de ensayos u observaciones que se han realizado.
Prueba
Ver Test
Prueba de Ajuste X2
Es una prueba de bondad que comprueba la similitud entre las frecuencias reales de una
distribución con otras teóricas que responden a una distribución con forma establecida
(Ejemplo: la curva normal). Facilita la decisión sobre si existe un ajuste entre ambas
frecuencias o bien el azar explica la aparente similitud de los datos. En caso de que ambas
distribuciones, real y teórica, difieran por encima de cierto valor del estadístico X2 se
rechazará la explicación por el azar aceptando la existencia de alguna causa previamente
establecida.
Ver Ji cuadrada, prueba de
Prueba de conformidad
Ver Bondad de ajuste, prueba de
Prueba de X2 de ajuste a la normalidad

Compara las frecuencias de puntuaciones reales producidas por el test con otras teóricas
calculadas bajo el supuesto que se distribuyeran normalmente. Comparando intervalo a
intervalo de puntuación la diferencia entre las frecuencias reales y las teóricas la diferencia
global informará del grado de ajuste de la distribución de puntuaciones a la normal.
Esta prueba no es aconsejable con muestras pequeñas. Los grados de libertad serán el
número de comparaciones calculadas (intervalos) menos tres. Con este dato se podrá
hallar en las tablas correspondientes el valor de Xt2 que para un determinado nivel de
61
confianza informa de la máxima diferencia para aceptar la normalidad de la distribución real
atribuyendo las diferencias observadas al azar.
Un aspecto importante de esta prueba es la determinación de los límites de la distribución.
La existencia de un rango o amplitud total excesivo, producto de puntuaciones extremas
con muy bajas frecuencias, puede distorsionar el resultado
Es importante comprobar las puntuaciones extremas y valorar su peso en la distribución.
Prueba estadística
Algoritmo compuesto por un conjunto de pasos y condiciones bien determinadas que
permiten realizar algún tipo de análisis estadístico. Es especialmente importante que
todas las condiciones requeridas por una técnica estadística se cumplan; en caso
contrario, si se trata de una técnica de decisión, se alteran, en general, la tasa de Error
Tipo I y Error Tipo II. En las técnicas de estimación las consecuencias de violar las
condiciones suponen un error en la estimación de los parámetros.
Pruebas no paramétricas
Conjunto de técnicas de decisión estadística que no están orientadas a contrastar
hipótesis sobre parámetros poblacionales. Generalmente, fueron ideadas para contrastar
la forma de las distribuciones.
Pruebas paramétricas
Conjunto de técnicas de decisión estadísticas que posibilitan realizar contrastes o
pruebas de hipótesis sobre parámetros poblacionales.
Puntuación
Valor resultante de la ejecución de un test por parte de un examinado. La función
principal de los ítems consiste en que a través de su valoración se obtenga una medida
representativa del examinado en el contenido evaluado. El grado en que cada reactivo
cumple con este objetivo es parte del análisis de ítems, no obstante el ítem en sí mismo
perderá entidad en el momento que se ajuste a lo deseado. La puntuación de examinado
(la nota del examen, resultado del test, etc.) pasará a primer plano frente a las
aportaciones particulares que han llevado a su obtención.
Puntuación corregida
La resultante de haber sustraído de la puntuación obtenida una estimación de los puntos
conseguidos gracias a la conjetura en tests cognitivos de alternativa múltiple.
Puntuación de corte
Aquella por la que se decide si unos individuos dominan un contenido o no clasificando en
dos grupos a los examinados. Es propia de los Test Referidos al Criterio y en particular de
los Tests Referidos a un Dominio.
Puntuación de desviación
Expresa las puntuación de una variable en términos de sus diferencias respecto al promedio
de la misma.
Puntuación dicotómica
La respuesta a un ítem se valora en dos únicas categorías; acierto-error, verdadero-falso,
etc puntuándose como 1 ó 0, respectivamente. Esta valoración es independiente del
número de alternativas de respuesta que se ofrezcan en ítems cerrados.
62
Puntuación directa
Procedente de la suma o promedio de las puntuaciones obtenidas en los ítems por un
individuo.
Puntuación estándar
La expresada en unidades estándar
Ver Puntuación típica
Puntuación negativa
Puntuación obtenida en el test a la que se resta una fracción o la totalidad de los puntos
que pudieran haberse obtenido en los ítems fallados.
Puntuación normativa
Puntuación con la que se compara la ejecución de un individuo y que representa su posición
relativa frente a su grupo de referencia.
Puntuación penalizada
Ver Puntuación negativa
Puntuación ponderada
Suma total de productos de las diversas puntuaciones 0-1 para un mismo examinado con
los coeficientes de discriminación de cada ítem. La ponderación puede efectuarse a través
del índice de discriminación o cualquier otro criterio previamente establecido.
Ver Características de la puntuación ponderada
Puntuación típica
La obtenida mediante transformación lineal de las puntuaciones directas del test a una
escala con valor central 0 y unidad de desviación 1. La condición básica es que la
distribución de puntuaciones se ajusta al modelo de curva normal.
Ver Curva Normal
Puntuación típica derivada (PTD)

Transformación de las puntuaciones z a otra métrica donde el valor origen y unidad se
modifican para su mejor comprensión (más simples e intuitivas que las originales).
Por tanto será necesario en primer lugar calcular las correspondientes puntuaciones típicas
(z) y a continuación aplicar la segunda transformación para obtener la nueva escala. Por
este motivo se conoce a estas puntuaciones como Típicas Derivadas ajustándose todas
ellas a una transformación lineal de la original z.
Puntuaciones típicas derivadas de clase (PTDC)

Variante de las Puntuación Típica Derivada con menor precisión. También proceden de una
transformación lineal de la escala z a otra métrica si bien los resultados se redondean (un
dígito) agrupándose en categorías. De este modo la distribución normal queda dividida en
varios sectores (verticales) que abarcan diferentes áreas pero mantienen igual amplitud de
puntuación sobre las abscisas. Las áreas extremas, inferiores y superiores, quedan siempre
abiertas.
Las PTDC pierden información cuantitativa y se consideran un recurso para la evaluación
tras la obtención de las puntuaciones. Entre sus ventajas se hallan la facilidad de manejo y
la posibilidad de expresar la situación del individuo mediante un sólo número.
63
Un peligro de esta opción radica en el desconocimiento sobre la posición del examinado
dentro de su categoría. La representatividad de la clase asignada dependerá de esta
posición pues no es lo mismo una puntuación centrada en la categoría que otra próxima a
la siguiente.
Puntuación Total
Ver Puntuación directa
Puntuación z
Base de las puntuaciones típicas. Indica el número de desviaciones típicas entre una
puntuación y la media.
P-Valor
64
Q
65
R
R
Se trata del indicador global del escalograma. Oscila entre 0 y 1 y sus condiciones de
uso e interpretación se basan en la de Ri y Rj.
Ver Características de los índices de reproductibilidad

Ri
Es el índice de reproductibilidad del examinado. El índice Ri oscila entre 0 y 1 e indica el
grado en que en la pauta de respuesta de un examinado quedan separados claramente en
sectores los ítems que acierta y los que falla.
Una puntuación total de 6 en un examen de 20 ítems puede en principio ser producida por
diversas combinaciones de aciertos a 6 ítems diferentes. No obstante si se trata del modelo
de escalograma estas se reducirán a una sola combinación sí Ri=1 (los seis ítems más
fáciles) o algunas de muy similares sí Ri>0.7.
Cuanto mayor sea Ri menor presencia de inconsistencias presenta el examinado. Por el
contrario si Ri es próximo a 0 informa de una pauta anómala de respuesta con aciertos y
errores inesperados.
Arbitrariamente se aceptan como útiles valores superiores a 0.7
Sea cual sea la puntuación de un examinado, Ri debería ser próximo a 1

Rj
Es el índice de reproductibilidad del ítem. Rj oscila entre 0 y 1 e indica el grado en que un

ítem separa claramente los examinados que lo aciertan de quienes lo fallan.
Cuanto mayor sea el índice menor presencia de inconsistencias y por lo tanto mayor
facilidad de reproductibilidad proporcionará. Por el contrario un ítem que produzca un Rj
próximo a 0 informa de un mal funcionamiento y debe ser excluido de la prueba.
Arbitrariamente se aceptan como útiles los ítems con valores superiores a 0.7
Sea cual sea la dificultad de un ítem, Rj debería ser próximo a 1.

rxx´
Rachas, prueba de
Es una técnica estadística que permite determinar si una secuencia de datos es aleatoria.
Existen diferentes variantes de esta prueba, pudiéndose determinar, por ejemplo, si en
la secuencia de datos existen una cantidad de los mismos por encima o debajo de la
media o mediana superior al esperado por azar. Otra variante consiste en determinar si
la secuencia presenta una serie de datos consecutivos de tipo creciente o decreciente
superior al esperado por azar.
66
Rango
Número de orden.
Ver Amplitud
Rapidez perceptiva
Capacidad para encontrar rápidamente una configuración preestablecida en un material
distractivo mediante la comparación de pares de elementos con unas reglas simples.
Rasgo
Dimensión mesurable de la conducta.
Reactivo
Ver Ítem
Recomendaciones sobre la dificultad de ítems dicotómicos

A la hora de analizar e interpretar la dificultad de ítems dicotómicos es preciso considerar
una serie de aspectos.
• La p de un ítem no es una constante entre grupos sino que varía en función de la
capacidad de los individuos. Ítems adecuados en un grupo serán mal interpretados o
desconocidos en otro, ítems difíciles en un momento aumentarán su valor p en otro.
• La dificultad de ítem debe ser intencionada y ajustarse desde la primera prueba piloto a
la situación de los examinados.
• Toda decisión sobre la dificultad de un ítem considerará las causas de la misma y su
ajuste con las intenciones del constructor.
• El análisis de la dificultad irá en paralelo al de los distractores o alternativas, sus índices
y su atractivo.
• En tests convencionales de norma de grupo, el mejor test estará constituido
preferentemente por ítems de dificultad centrada, es decir de p=0.5 obtenido a través
de cualquiera de sus modalidades. Esto aumenta el nivel de información proporcionado
por el test mejorando la precisión en la evaluación sobre el nivel de capacidad al que
corresponde tal proporción.
• En tests de velocidad la dificultad de ítem será tal que sólo un 20% de examinados,
aproximadamente, terminen la prueba siguiendo el orden de presentación de los ítems.
Esto no supone que acierten todos los ítems sino que hayan respondido por propia
decisión y capacidad al total de los mismos. Incluir o no la instrucción que fuerza a que
no haya omisiones dependerá del interés por aplicar posteriores correcciones del azar.
• En tests de potencia la dificultad de los ítems será tal que un 80% de los examinados
termina la prueba sin omisiones. Aunque no sea un test de velocidad existe un tiempo
máximo por encima del cual quien no ha terminado tampoco podría hacerlo
prolongando el plazo ya que su falta de capacidad se lo impide.
• Los dos puntos anteriores deben considerarse según el objetivo del test:
a) Si se pretende evaluar cierto nivel de capacidad interesaran ítems cercanos en su
dificultad a dicho nivel. Tendrá sentido incluir ítems más fáciles y difíciles pero cercanos
al fijado de antemano. Un examinado que posea tal nivel tenderá a resolver la mitad de
los ítems y un ítem adecuado tenderá a ser acertado por la mitad de los examinados.
b) No debe confundirse este planteamiento con el de los Test Referidos al Criterio
(dominio) donde se incluyen ítems hasta el nivel de capacidad deseado. En este caso,
de ser un test de rendimiento, se esperaría que la mayoría de los examinados acertaran
la totalidad de los ítems.
c) Si se pretende situar la capacidad de un examinado el test incluirá una escala de ítems
que irá del más fácil al más difícil. La situación del caso a) se extenderá hacia ambos
67
extremos, superior e inferior de dificultad, pero centrando el conjunto en los ítems que
para el grupo evaluado proporciona p=0.5.
• No es aconsejable incluir ítems de dificultad extrema pues deterioran la información
sobre examinados y la puntuación de los mismos. En este sentido se excluirá de todo
test, salvo casos especiales (TRC), los ítems próximos a p=1 ó p=0.
• Las correcciones del azar son muy sensibles a todas estas situaciones y se hará difícil
de interpretar las puntuaciones.
• Como excepciones los tests de velocidad se emplean ítems muy fáciles (p=0.9) y
algunas pruebas de potencia destinadas a selección de talentos otros muy difíciles
(p=0.1).
Ver Dificultad de ítem (p)
Recomendaciones sobre la variancia en ítems de valoración dicotómica

• Por norma general interesa que los ítems ofrezcan una variancia suficiente para el
cálculo de la discriminación.
• La variancia es necesaria pero no suficiente para hallar una buena discriminación de
ítem. La Variancia de los ítems facilita su poder discriminativo y éste, a su vez, la
fiabilidad y validez del test. No obstante la existencia de variancia no asegura todas
estas cualidades posteriores.
• Estas recomendaciones deben tomarse con cautela ante pruebas de rendimiento, y Test
Referidos al Criterio, donde lo ideal sería el máximo acierto y con ello la mínima
variabilidad de los datos.
• La presencia de omisiones puede llegar a alterar tanto o más la variancia que la
dificultad de ítem.
• Las correcciones de la conjetura tienden a reducir la variabilidad entre los datos.
Ver Variancia de ítems de valoración dicotómica
Recomendaciones sobre la variancia en ítems de valoración graduada

• Un ítem de variancia reducida perderá valor discriminatorio y colaborará poco en la
fiabilidad y validez de la prueba. No obstante, salvo casos extremos, las consecuencias
de la falta de variancia no son tan determinantes como en el caso de los datos
dicotómicos.
• Todo análisis de datos debe acompañarse de otro sobre la distribución y configuración
de las frecuencias de respuesta.
Ver Variancia de ítems de valoración graduada
Recorrido
Ver Amplitud
Recuento
Se refiere a la acción de contar el número de veces que aparece un valor concreto o la
frecuencia con la cual se hallan valores comprendidos en intervalos de la variable que
han sido definidos.
Reglas de generación de ítems (RGI)

Normas y procedimientos útiles para confeccionar ítems adecuadamente.
Respecto al contenido, las reglas de generación de los ítems pueden basarse en el análisis
lógico de ítems mediante grafos, diagramas de flujo o algoritmos que permitan generar de
modo sistemático ítems completos o colecciones de distractores.
68
La utilización de estas reglas repercutirá en la dimensionalidad y validez de contenido del
test y también permitirá identificar en el futuro los descriptores más útiles de los ítems.
En caso de evaluar el conocimiento y rendimiento, será conveniente diseñar una tabla de

especificaciones que combine las principales áreas de contenido y la taxonomía de
conocimiento que mejor responda a los objetivos de la evaluación. En función del
contenido puede optarse por clasificaciones generales como las de Bloom, Guilford,
Gagné-Merrill, Gerlach-Sullivan o Block, o bien aquellas diseñadas específicamente para
crear tests, como el sistema LOGIQ (Roid y Haladyna, 1982). El test resultante estará
formado por una representación de reactivos que combinen la selección de contenidos y
objetivos óptimos.
Regresión lineal
Es un modelo estadístico en el cual, según la ecuación de una recta (plano o hiperplano,
cuando existen más de una variable independiente), se relaciona un conjunto de
variables independientes con una variable dependiente. En el modelo existe un término
aleatorio.
Relación, prueba de
Todas aquellas pruebas estadísticas que permiten comprobar si dos o más variables son
independientes.
Relación Lineal Positiva

Incluye todas aquellas relaciones en que las medidas de las variables aumentan
conjuntamente.
Por ejemplo: horas de estudio y resultado en un examen.
Relación Lineal Negativa

Se produce cuando las puntuaciones de cada variable crecen en sentido inverso.
Por ejemplo: puntuación en una escala de ansiedad y resultado de un examen.
Repetición
Con relación a lo planteado por un ítem, es una tarea que implica que el examinado
reconozca o produzca información esencialmente de la misma manera que la ha recibido
o estudiado.
Representante de clase
Cuando los datos se hallan agrupados en intervalos de clase, se denomina representante
de clase al punto medio del intervalo.
Reproducibilidad
Reproductibilidad
Es una cualidad del escalograma que afecta tanto a la puntuación de un examinado como a
la dificultad de un ítem. Corresponde al grado en que es posible reproducir la pauta de
respuestas que la ha producido a partir únicamente de la puntuación total que generan.
Desde este planteamiento, un ítem con una p=0.2 informa no sólo de que un 20% de
examinados lo ha acertado, sino que ese 20% se corresponde con los examinados más
capaces.
69
Un ítem con muchas inconsistencias, acertado y fallado tanto por individuos capaces como
por menos capaces, no se ajustará al escalograma ni será de utilidad en el test.
Mientras que sin establecer ninguna condición serían posibles 2n,siendo n el número de
ítems, posibles pautas de respuesta en un escalograma solo se aceptan n+1. Así, en una
examen de 6 ítems, de las 64 secuencias diferentes de 6 resultados 0 y 1 que permitirían
obtener las puntuaciones 0,1,2,3,4,5 y 6 el escalograma acepta únicamente n+1 y que
corresponderán a las siguientes pautas:
Aceptadas No aceptadas.....
-----------------------------------------------------
000000=0 ------ ------ ------
100000=1 ... 000100 ... 000010 ... 001000
110000=2 ... 000011 ... 100001 ... 001100
111000=3 ... 101010 ... 100011 ... 110010
111100=4 ... 100111 ... 001110 ... 101011
111110=5 ... 101111 ... 111011 ... 011111
111111=6 ------ ------ ------
La forma característica en escalera de la matriz esperada da nombre a este modelo donde

los valores 0 y 1 no debe mezclarse.
Residual
Cuando los datos se describen mediante un modelo estadístico, se denomina residual a
la diferencia entre el dato y el valor esperado según el modelo estadístico.
Resistencia
Una propiedad de los estimadores estadísticos (índices) que se refiere al escaso impacto
que tienen sobre los mismos el efecto de datos alejados del conjunto restante de
valores. Por ejemplo, la media no es resistente, pero la mediana sí.
Respuesta restringida, formato de

Cuando el ítem se plantea de modo que el examinado debe responder con una palabra,
frase, numero, o símbolo de forma unívoca.
Resumen
Con relación a lo planteado por un ítem, cuando se requiere que el examinado reporte la
sustancia del mensaje opuestamente a recordar el mensaje palabra por palabra.
Riesgo estadístico
Se refiere a la posibilidad de que, al realizar una técnica estadística de estimación o de
decisión, siempre existe la posibilidad de cometer algún tipo de error. Tanto en la
estimación de parámetros poblacionales como en las pruebas de conformidad o relación,
siempre existe la posibilidad de cometer algún error. Sobre este punto es conveniente
consultar los términos Error Tipo I y Error Tipo II.
Ver Error Tipo I

Ver Error Tipo II
Robustez
Es la propiedad de un estimador estadístico por la cual no está excesivamente afectado
por las desviaciones respecto a sus supuestos.
70
S
SEM (Estandar Error of Measurement)

Con este dato el evaluador puede establecer el margen de error que comete el
instrumento al situar a un examinado mediante la puntuación que ha obtenido en el test.
Así, por ejemplo, una puntuación directa de 120 expresa realmente el punto central de
un intervalo en el que debería encontrarse la verdadera puntuación de ese examinado.
Habitualmente, considerando un nivel de confianza del 95%, y redondeando valores, es
aconsejable sumar y restar a la puntuación del examinado dos veces el valor hallado de
SEM (4). En el caso del examinado con 120 aciertos se sumaran y restaran 8 puntos a
los 120 aciertos. Esta misma operación vale para todas los examinados y rango de
puntuaciones.
Con SEM el evaluador tomará conciencia de que no trabaja con puntuaciones sino con
franjas de puntuación o intervalos
Ver Características de SEM

Ver Aplicaciones de SEM
Semi-estructurado, formato de
Cuando se propone a los examinados una serie de preguntas sobre contenidos muy
específicos, para que respondan con brevedad.
Serie cronológica
Conjunto de datos obtenidos en momentos consecutivos de tiempo. Por ejemplo, los
valores de los índices bursátiles.
Serie temporal
Ver Serie cronológica
Sesgo
Cuando para grupos homogéneos un mismo ítem o test proporcionan puntuaciones
diferentes en función de una característica ajena al objetivo del test (cultura, raza, nivel
social etc). Se dirá entonces que el ítem o el test están sesgados contra el grupo o minoría
que sale perjudicado.
Significación, prueba de
Estrategia de decisión mediante la cual el rechazo o aceptación de la hipótesis nula se
fundamente en el nivel de significación.
Simetría
Cuando existe un punto de localización (tendencia central) y los datos se distribuyen a
ambos lados tal que una parte es imagen especular de la otra.
Síntesis
En la taxonomía de Bloom es la capacidad de reunir elementos y partes para formar un
todo; es decir, el proceso de trabajar con fragmentos, partes, elementos, etc.,
organizarlos y combinarlos de tal manera que constituyan un modelo o estructura nueva,
que no se presentaba claramente con anterioridad.
71
Solapamiento
Cuando una alternativa de respuesta errónea parece que funciona igual o mejor que la
especificada a priori como correcta.
Sondeo
Estudio estadístico realizado a partir de una muestra con el objetivo de obtener
información sobre algún índice estadístico de la población. Como ejemplo, es muy
frecuente realizar sondeos estadísticos para determinar la intención de voto.
Split-Half
Procedimiento para el cálculo del coeficiente de fiabilidad. Consiste en una aproximación
económica al de formas paralelas.
Elementos: una sola prueba, larga y homogénea.
Pasos:
1. La prueba se divide en dos mitades a modo de dos supuestas formas paralelas con la
mitad de los ítems que la original. El paso crucial de este procedimiento será el criterio
por el que se decide que ítems formarán parte de cada mitad.
2. Efectuada la división se correlacionan las puntuaciones de ambas mitades obteniendo
un coeficiente de fiabilidad propio de una prueba la mitad de larga que la original.
A continuación, y considerando que a mayor cantidad de ítems mayor fiabilidad, se aplica
sobre el coeficiente obtenido la corrección de Spearman-Brown obteniendo un nuevo
coeficiente corregido que puede considerarse una estimación del que correspondería a la
prueba original con todos los ítems.
Ver Corrección de Spearman Brown
SPSS
Aplicación informática para el análisis de datos y la representación gráfica de los
mismos. Se estructura en un módulo base y un conjunto de módulos complementarios.
STATGRAPHICS
Aplicación informática destinada al análisis de datos y la representación gráfica de los
mismos. Destacan sus posibilidades gráficas.
STATISTICA
Aplicación informática destinada para el análisis de datos y la representación gráfica. Los
gráficos son de notable calidad y admiten diferentes y diversas posibilidades. Incluye
algunos análisis referidos a ítems de escalas.
Submuestra
Cualquier subconjunto formado por una parte de los individuos que componen una
muestra.
Ver n
72
Subpoblación
Ver Estrato
Suma directa de puntos

La suma directa de puntos (Puntuación directa, total o sumativa) no contempla
normalmente la procedencia de éstos. Dos examinados que hayan resuelto 10 ítems de un
total de 20 obtendrán la misma puntuación. Aparentemente no importará en qué ítems han
obtenido esos aciertos y puede darse el caso extremo de que mientras uno siga la pauta
esperada de acierto, de fácil a difícil, el otro acierte ítems aleatoriamente sin un orden o
secuencia coherente.
Posibles soluciones:
• El modelo del escalograma puede resolver estas dudas ya que aún sin llegar a
cumplirse perfectamente facilita una visión global de la prueba y la pauta de respuesta
de cada examinado o cada ítem.
• La puntuación ponderada ayuda a diferenciar los aciertos valorando la aportación de
cada ítem de forma independiente de los demás.
Ver Escalograma
Ver Puntuación directa
73
T
Tablas de contingencia
Tabla con dos o más entradas donde se especifica en cada intersección de casillas la
frecuencia de aparición de dos o más valores de distintas variables.
Tabla de especificación de objetivos

Durante la planificación del test, tabla en donde se recogen los contenidos a evaluar, la
importancia de éstos, los objetivos y el número de ítems para cada objetivo y cada
contenido.
Tabular
Organización de la información estadística en forma de matriz de datos.
Tabular un dato
Escribir un dato en una tabla, hoja de cálculo, base de datos o editor de datos.
Tamaño muestral
Número de individuos que componen una muestra.
Ver n
Tamaño poblacional
Número de individuos que componen una población
Ver N
Taxonomía
Clasificación.
Taxonomía de Bloom
Esta taxonomía es la más empleada en la creación de ítems y el diseño de exámenes.
Está constituida por 6 áreas y se basa en cuatro principios fundamentales: metodológico,
psicológico, lógico y objetivos.
Taxonomía de Guilford
Consiste en un modelo de tres dimensiones: seis operaciones, seis productos y cinco
contenidos que producen 180 combinaciones representativas de otras tantas dimensiones
supuestamente mesurables de la inteligencia.
En esta estructura cúbica cada posición, o celda viene determinada por una combinación
particular en las tres dimensiones principales. En general la estructura es sensible a la
experiencia y preparación y el modelo admite que las puntuaciones de los tests que miden
cada combinación pueden aumentar con un adecuado aprendizaje. Esto ha fomentado la
utilización de este modelo en el diseño de exámenes y pruebas sobre contenidos escolares
y académicos muy concretos.
Técnica estadística
Ver Prueba estadística
74
Técnica estadística no paramétrica
Ver Pruebas no paramétricas
Técnica estadística paramétrica
Ver Pruebas paramétricas
Tendencia central
Índices estadísticos de localización. Algunos ejemplos son la media aritmética, la media
geométrica, la media armónica, la media ponderada, la moda y la mediana.
Teoría de Respuesta a los Ítems

Conjunto de principios y modelos matemáticos que representan la relación entre la
capacidad de los examinados y la probabilidad de obtener determinada puntuación en los
ítems. Es una teoría alternativa a la clásica basada en el modelo de norma de grupo.
Tests
Los tests o pruebas son instrumentos que se utilizan en la medida de toda clase de
atributos y objetivos tanto psicológicos como educacionales.
Tests colectivos
Son los que pueden administrarse simultáneamente a varios individuos. Las condiciones de
estandarización del test establecen una mínima intervención del examinador a la vez que
regulan la forma de responder y puntuar la prueba.
La mayoría de test colectivos son del tipo lápiz y papel. En el caso de los tests cognitivos
son pruebas de tiempo limitado.
Tests de aptitud
Pretenden predecir un comportamiento futuro.
Tests de capacidad
Miden el nivel actual en una habilidad o rasgo.
Test de desarrollo
Destinado a medir los diferentes logros a lo largo de la edad, especialmente en los primeros
años.
Test de diagnóstico
Pruebas de rendimiento o capacidad compuestas por numerosas subáreas. Su objetivo es
determinar el dominio en cada una y establecer un programa de recuperación
individualizado.
Tests de lápiz y papel

Es el tipo más extendido y precisa del examinado la respuesta por escrito. No obstante ello
no supone que el material sea exclusivamente verbal ya que puede tratarse de una prueba
gráfica con bajas o nulas exigencias en lecto-escritura.
Tests de mínima competencia

Su objetivo es confirmar que el examinado muestra un aprovechamiento por debajo del
cual no obtendría una certificación o cualificación de nivel.
75
Tests de norma de grupo
Es el enfoque convencional del construcción y aplicación de tests psicométricos. La

interpretación de la medida o puntuación de un individuo tiene sentido con relación a la
norma o ejecución global del grupo al que pertenece.
Siempre se encontrarán individuos con mayor o menor puntuación siendo útil en la
selección de los más aptos al margen de sus verdaderas capacidades en comparación con
un criterio externo.
Ver Interpretación normativa
Tests de potencia
Son pruebas sin limitación de tiempo cuyos ítems varían o aumentan gradualmente en
dificultad.
Como en los tests de velocidad el objetivo es evitar el acierto total de la prueba y así
detectar siempre diferencias entre los examinados. Para ello la dificultad de los últimos
ítems es muy elevada y ni la disponibilidad de más tiempo o los repetidos esfuerzos del
examinado afectará al resultado obtenido.
Tests de rendimiento
Su objetivo es evaluar el resultado de un aprendizaje pasado. Se conocen también como
tests de aprovechamiento. Miden el grado de éxito en el desempeño de una tarea por parte
de un individuo. A diferencia de la mayoría de pruebas de capacidades y aptitudes estas
pruebas no parten de una estructura teórica ni de una clasificación de factores
intelectuales. Básicamente, el contenido aparente del test y la representatividad del
material previamente definido determinarán la calidad de la prueba.
Ver Tests estandarizados de rendimiento
Tests de rendimiento elaborados por el docente

Su objetivo es comprobar el nivel de conocimientos de los alumnos. Por tanto, no existe el
grado de generalización, acuerdos y normas que caracterizaba a los de tipo estandarizado.
La preparación de exámenes no es un procedimiento fácil. La principal cualidad será la
validez de contenido ya que todo examen debe representar a un material y programa
previamente impartidos. La facilidad aparente de esta labor lleva a menudo a formular
ítems de modo erróneo o ajeno al verdadero objetivo de la evaluación. Sólo la exacta
definición y delimitación del área de contenido a examinar ayudará a redactar ítems
realistas y representativos de ese tema.
Tests de selección
Aportan información sobre la idoneidad o aptitud de un candidato a un puesto de trabajo o
destino en una organización.
Tests de velocidad
Son pruebas donde el examinado dispone de muy poco tiempo para responder a todos los
ítems. Una característica importante es la facilidad de los ítems, pues disponiendo del
tiempo suficiente, todos los examinados terminarían el test con elevado nivel de acierto.
Un test con tiempo límite no es necesariamente un test de velocidad. De hecho la clave
para identificar a estos últimos es que las diferencias individuales vienen determinadas por
el tiempo y la velocidad de ejecución.
Ej.: cuantas sumas se pueden efectuar en 2 minutos.
Estas pruebas son normalmente de lápiz y papel y de aplicación colectiva.
76
Tests escolares/académicos
Pretenden evaluar el aprovechamiento de un aprendizaje, diagnosticar las áreas deficitarias
de un programa o individuo en periodo de formación, orientar vocacionalmente y establecer
pronósticos de éxito académico y profesional.
Tests estandarizados de rendimiento

Según la extensión e institucionalización de su empleo (ámbito local, nacional etc.) es
posible disponer de una referencia común en el rendimiento alcanzado por los examinados.
Estas pruebas requieren de mucho tiempo y ensayos hasta su instauración oficial. Además
exigen unos objetivos educativos comunes a distintos centros, organismos, zonas
geográficas etc.
Muchos tests de rendimiento estandarizados se destinan al diagnóstico del
aprovechamiento de aprendizajes relacionados con la lecto-escritura y problemas de
lenguaje (vocabulario, ortografía, redacción, pronunciación etc.). Otros informan del nivel
de comprensión verbal, cálculo y resolución de problemas o de más generales; asimilación
de nuevos conceptos, dibujo, elaboración de gráficos y lenguas extranjeras. A nivel más
aplicado también existen pruebas sobre ciencias (Biología, Física, Química etc.) y temas
sociales (Historia, Geografía, etc.) muy ligadas a los programas educativos vigentes.
Tests individuales
Sólo pueden aplicarse individualmente. El examinador interviene directamente en la
administración del test planteando las preguntas, tareas o juegos que luego el examinado
efectuará como respuesta. La valoración y puntuación de cada elemento exige del
examinador una preparación y entrenamiento que era dispensable en las pruebas colectivas
y de la que ahora dependerá la objetividad del test.
Las pruebas de aplicación individual incluyen a menudo tareas manipulativas en las que el
tiempo se limita o registra para luego puntuar en combinación con la calidad de las
respuestas.
Tests libres de cultura

Se refieren a tests de inteligencia general o aptitudes mentales primarias donde, con un
material básicamente gráfico, el idioma y nivel cultural del individuo tienen un mínimo
efecto, dejando paso a la libre manifestación de unas capacidades no aprendidas.
Test manipulativos
El individuo maneja diferentes objetos o aparatos a través de los cuales el examinador
valora y puntúa su ejecución. Muchas pruebas infantiles o relacionadas con la
psicomotricidad pertenecen a este grupo. También las pruebas situacionales que miden la
habilidad de un individuo en el manejo de instrumentos, aparatos o herramientas se han
diseñado de este modo intentando reproducir la situación real de las tareas.
Test no verbales
Parecidos a los llamados tests libres de cultura, no deben confundirse con éstos pues se
trata simplemente de pruebas que emplean material gráfico en sus ítems.
Secuencias de figuras, rompecabezas, laberintos, ordenaciones de objetos, etc. son tareas
características de estas pruebas que a menudo alternan modalidades de respuesta
mediante lápiz y papel con la manipulativa.
Test Referidos al Criterio (TRC)

Son construidos para producir medidas directamente interpretables en términos de normas
estándar previamente especificadas e independientes de la ejecución de un grupo
determinado. Son muy empleados en la evaluación de aprendizajes y rendimiento.
77
Un TRC está constituido por una serie de tareas (ítems) extraídas de una población de
criterios de rendimiento bien definidos por expertos o especialistas.
En este sentido los TRC son diseñados para informar sobre los objetivos instruccionales o
nivel de desarrollo alcanzado por un examinado a fin de evaluar el dominio del mismo
respecto a los niveles de rendimiento considerados como aceptables o bien esperados o
bien indicadores de dominio.
Existen dos modalidades de Tests Referidos al Criterio:

• Los Tests referidos al dominio
• Los Test referidos al objetivo
Tests referidos al dominio

Modalidad de Tests Referidos al Criterio que proporcionan un valor absoluto sobre el
porcentaje del contenido que el examinado domina.
Coincide con las pruebas que pretenden explorar hasta qué grado el alumno domina la
materia y localizar en que puntos falla o tiene dificultades. Estas pruebas son aplicables en
dos momentos temporales evaluando el nivel antes y después de un curso o aprendizaje al
comparar el rendimiento entre ambos.
Una característica fundamental es que en ningún caso importará la situación del grupo
como criterio de comparación. Las puntuaciones tienen un sentido por sí mismas y no se
ven alteradas por la media del grupo como ocurre en los valores tipificados de los Tests de
norma de grupo.
Ver Tests Referidos al Criterio (TRC)
Test referidos al objetivo

Modalidad de Tests Referidos al Criterio que engloba a todos aquellos útiles en la
determinación de la aptitud / ineptitud (1/0) del alumno frente a la evaluación de un
contenido tras un programa de preparación.
Sólo informa de si el alumno supera cierta puntuación de corte accediendo o no con ello a
cursos o niveles superiores. Habitualmente estas pruebas se aplican solo tras el curso o
aprendizaje a fin de certificar la aptitud sobre un punto de corte previamente establecido.
Una característica fundamental es que en ningún caso importará la situación del grupo
como criterio de comparación. Las puntuaciones tienen un sentido por si mismas y no se
ven alteradas por la media del grupo como ocurre en los valores tipificados de los Tests de
Norma de Grupo.
Ver Tests referidos al criterio
Tests verbales
El contenido de sus ítems consiste en preguntas, completar frases, valorar enunciados,
emparejar conceptos, etc.
Se requiere un nivel básico de comprensión verbal, dominio del idioma y escolarización sin
los cuales los
resultados pueden estar sesgados contra los individuos de menor preparación.
Test-Retest
Procedimiento para el cálculo del coeficiente de fiabilidad sobre la base de la aplicación de
una misma prueba a un mismo grupo de examinados en dos ocasiones mediando un
intervalo de tiempo entre ambas. La condición fundamental será la ausencia de cambio en
el atributo evaluado para los examinados de la muestra de análisis. No es un procedimiento
habitual en pruebas de rendimiento.
78
Elementos: una sola prueba y disponibilidad de la muestra de examinados al cabo de un
tiempo bajo el supuesto de que no han sufrido cambios en el atributo medido por la
prueba.
Algunos aspectos a considerar en este procedimiento son:
• La maduración personal: el método TR puede traer problemas en individuos jóvenes

que van cambiando en su comportamiento, capacidades, etc.
• La existencia de trastornos o el destino a individuos que los puedan sufrir. Una prueba
destinada al diagnóstico y exploración clínica debe prever los intervalos y fases en las
que se encuentran los individuos de la muestra de análisis. El intervalo entre las
aplicaciones se marcará a partir de esta información.
• La diferenciación entre estados y rasgos. Pruebas destinadas a evaluar y medir la
ansiedad-estado pueden desaconsejar este método ya que se dirigen a unos periodos
variables.
• En el ámbito educativo los aprendizajes pueden interferir en la estabilidad de unas
puntuaciones afectadas por los nuevos conocimientos y capacidades.
Tetramodal
Un conjunto o distribución de datos donde existen cuatro modas.
Ver Moda
Transformación lineal
La que convierte los valores de una escala de intervalo en otros que mantienen igual orden
y distancia entre las puntuaciones aunque se modifiquen el valor origen y la unidad de
medida. Formalmente la expresión es y=ax+b que se representa gráficamente como una
línea recta.
Trimodal
Un conjunto o distribución de datos donde existen tres modas.
Ver Moda
t-test para datos independientes
Ver Comparación de medias para datos independientes, prueba de
t-test para medidas repetidas
Ver Comparación de medias para medidas repetidas, prueba de
79
U
Unidimensionalidad
Un solo rasgo o atributo psicológico interviene en las respuestas. Estadísticamente consiste
en la regresión de los ítems de un test sobre una sola variable considerada como rasgo
latente.
Unilateral, contraste
Prueba de decisión estadística donde en la hipótesis nula se especifica que el parámetro
poblacional puede tomar valores superiores (o inferiores) e iguales a uno dado.
Validez
Es la cualidad del test que informa de su utilidad para la medida del atributo al que desde
un principio se destinó. Por utilidad se entiende su sensibilidad o capacidad para detectar
mínimas diferencias entre examinados. En este sentido un test no será más válido que lo
determinado por su fiabilidad.
Ver Factores que inciden sobre la validez del test
Validez Concurrente
Es una modalidad de validez de criterio donde se comparan las puntuaciones del test con
otros datos obtenidos simultáneamente y que sirven de criterio.
Ver Validez
Validez de Constructo
Parte de la existencia de un sistema o marco teórico en el que se ubica el atributo medido
por el test y que debería explicar las puntuaciones obtenidas por los examinados.
No se trata ya de una simple comparación entre un test y un criterio. Con la validez de

constructo se pretende establecer la causa de las respuestas del test y además verificar un
modelo o una teoría.
En la validez de constructo no existe un coeficiente de validez único. La estrategia

fundamental consiste en comparar el test no sólo con otros que miden el mismo atributo,
sino también con los que tratan contenidos muy diferentes. Para ello es necesario:
• Definir un marco teórico donde se ubica el test y aquellos otros con quienes se
comparará.
• Especificar las relaciones esperadas entre las puntuaciones del test con las de otros
similares y diferentes.
Secuencialmente el proceso de validación será:
1. Definición del constructo, sus manifestaciones y las interrelaciones entre sus

integrantes.
2. Verificación experimental de esas relaciones.
80
3. Inferencia y explicación que den sentido a los resultados.
Operativamente, la validación de constructo exige un esfuerzo mucho mayor que los demás
tipos de validez.
Ver Validez
Validez de Contenido
Se centra en el propio test sin tomar en consideración otros indicadores criterio. Se trata de
plantear la validez en términos de representatividad del material que incluye.
Exige un buen conocimiento sobre el objetivo y atributo perseguido por el test. Este será el
primer paso de un proceso donde no existirán indicadores numéricos como sucede en la
fiabilidad (coeficientes, índices, errores).
La validez de contenido toma su máximo valor en la evaluación educacional (Test Referidos
al Criterio) ya que las pruebas de rendimiento han de incluir un conjunto de las posibles
preguntas a formular sobre el contenido impartido durante el curso. A grandes rasgos las
fases para conseguir la representatividad de los ítems de un test son:
1. Revisar el material existente sobre el tema, especialmente en otros tests, relacionados

con la evaluación del atributo.
2. Efectuar un análisis lógico sobre el contenido del test delimitando las áreas o facetas del
atributo que lo configuran globalmente.
3. Elaboración de los ítems de forma que todas las áreas queden representadas en un
conjunto o muestra de los mismos. De esta muestra se obtendrán los más adecuados
pasando a formar el test definitivo. Para ello se tendrán en cuenta las siguientes cuatro
condiciones: formato, dificultad, variancia, discriminación.
Ver Validez
Validez de criterio
Consiste en hallar relación entre las puntuaciones de la prueba con otros indicadores
considerados como criterio que sirven de referencia en la confirmación de las primeras
(valoración del docente, puntuación de prácticas, resultado en otro examen muy
similar...).
Ver Elección de un criterio de validación

Ver Validez
Validez Predictiva
Es una modalidad de validez de criterio cuyo fin es efectuar pronósticos a partir de los
resultados del test. Si las puntuaciones X se relacionan con las de Y, tomadas un tiempo
después, X se convierte en un predictor con grandes aplicaciones clínicas, educativas y
empresariales.
Ver Validez
Valor
Cualquiera de las asignaciones numéricas que pueda tomar una variable.
Ver Dato
Valor residual
81
Ver Residual
Variabilidad de las respuestas

Conocer la dificultad de un ítem resulta insuficiente para valorar su adecuación. La
dificultad del reactivo y la dispersión de las puntuaciones que la forman son dos
elementos mutuamente complementados. El análisis de las respuestas a los ítems
incorpora el estudio de su variabilidad ya que permitirá confirmar las medidas de
tendencia central como es el caso del índice de dificultad. Este análisis debe efectuarse
estadísticamente, obteniendo las variancias (S2) de cada reactivo, y verificando la
distribución de frecuencias de las respuestas.
Variable
Toda dimensión de la realidad que pueda tomar valores distintos.
Variable aleatoria
Aquella variable para la cual, si se realiza el proceso una o varias veces, no es posible
conocer a priori el valor o valores que se obtendrán.
Variable categórica
Variable de escala nominal.
Variable continua
Variable cuyo recorrido determina un conjunto infinito de valores.
Variable controlada
Variable que el investigador puede controlar en el diseño de la investigación a fin de
evitar su efecto sobre la variable dependiente. Así, es factible evitar que el efecto de la
variable independiente sobre la variable dependiente se vea afectado por la acción de
una variable no deseada en la investigación.
Variable cuantitativa
Variable en la cual es posible asignar un número a sus distintos valores y éstos permiten
establecer algunas relaciones numéricas entre los mismos. Por ejemplo, si una variable
está medida en escala ordinal, al menos, la asignación numérica posibilita establecer
relaciones de orden.
Variable de respuesta
Ver Variable dependiente
Variable dependiente
Es la variable que el investigador considera sensible a los distintos valores de la variable
independiente.
Variable discreta
Aquella variable que, dados dos valores ordenados y consecutivos de la misma, no
puede tomar otros valores entre ambos.
Variable finita
Aquella variable que en su recorrido sólo puede tomar un conjunto finito de valores.
82
Variable independiente
Se refiere a la variable que el investigador propone, al modificar posibles valores de la
misma, como posible causa de cambios en la variable dependiente.
Variable infinita
Toda variable que pueda tomar una cantidad infinita de valores.
Variables de usuario
Son aquellas variables, ya sean del Vector Descriptor de Ítems o del Vector Descriptor de
Personas, que no aparecen en sus correspondientes plantillas y que son creadas y
definidas por el usuario.
Variables personales modificables

Son una serie de variables que aparecen en la plantilla vdp.xls y que recogen
información sobre los examinados directamente relacionada con la materia evaluada o
con la situación concreta de evaluación.
Variables personales no modificables

Son una serie de variables que aparecen en la plantilla vdp.xls y que recogen
información de carácter general sobre los examinados, es decir, información
independiente de la materia evaluada y de la situación de evaluación.
Variancia
Es el promedio de los cuadrados de las puntuaciones de desviación, es decir, de las
diferencias entre cada una de las obtenidas respecto a la media del conjunto. Su valor
mínimo es siempre 0.0, mientras que el máximo vendrá marcado por la distribución y
rango de las puntuaciones. En ningún caso la variancia de una variable dicotómica podrá
superar el valor 0.25
Las puntuaciones más alejadas de la media son las que más contribuyen al aumento de
la variancia.
Variancia de ítems de valoración dicotómica

El cálculo de la variancia se simplifica al producto p(1-p). Cuando la dificultad es extrema,
la variancia es mínima, independientemente de si se trata de ítems fáciles o difíciles.
Cuando la dificultad esta equilibrada sobre 0.5, la variancia lo estará sobre 0.25 que
constituye el máximo valor posible para este tipo de ítems.
Ver Recomendaciones sobre la variancia en ítems de valoración dicotómica

Ver Variancia
Variancia de Ítems de valoración graduada

A diferencia de los ítems de puntuación dicotómica no existe un valor máximo único para S2
ya que dependerá de las múltiples distribuciones de frecuencias posibles para cada escala
de respuestas.
Sí que existe una variancia máxima para cada rango de puntuación que se otorgue al ítem.
Se trata de un valor independiente del número de examinados y que representa una
distribución extrema de sus puntuaciones en el ítem, de modo que la mitad de la muestra
obtiene la mínima puntuación y la otra mitad la máxima.
Sea cual sea el rango de puntuación en todos estos casos límite la dificultad del ítem
coincidirá con una categoría o puntuación central.
Conocer este máximo es útil para calibrar la dispersión de un ítem y si realmente existe
una variabilidad entre las respuestas de los examinados.
Ver Recomendaciones sobre la variancia en ítems de valoración graduada

83
Ver Variancia
Variancia máxima
Máximo valor de la variancia de un ítem en función de las puntuaciones que proporciona.
Un ítem ya sea dicotómico o de puntuación graduada, no podrá superar nunca este valor.
En el caso de ítems de valoración 0-1, la variancia máxima es siempre 0.25. En ítems de
valoración graduada dependerá del número de grados o bandas de puntuación.
Ver Variancia
VDI
Ver Vector Descriptor de Ítems
VDP
Ver Vector Descriptor de Personas
Verdadero-Falso
Ver Binario, formato
Vector
Conjunto de datos dispuestos ordenadamente en una fila (vector fila) o una columna
(vector columna) delimitados mediante paréntesis. Cada fila o columna de una matriz es
un vector. En general, los elementos que componen un vector corresponden a valores de
variables y, en el contexto del presente tutorial contienen valores de variables aleatorias,
ya sean descriptivas de los ítems o de las personas.
Vector Descriptor de Ítems

Es el resultado de la unión de diferentes conjuntos de descriptores para todos los ítems.
Dichos descriptores se han definido previamente para ser codificados bajo criterios
comunes. Cada ítem tiene un vdi y en éste tienen cabida diversos aspectos del ítem
como, por ejemplo, importancia, tema evaluado, categoría de Bloom a la que pertenece,
etc.
Vector Descriptor de Personas

Es el resultado de la unión de diferentes conjuntos de descriptores para todos los
examinados. Dichos descriptores se han definido previamente para ser codificados bajo
criterios comunes. Cada examinado tiene un vdp y en éste tienen cabida diversos aspectos
del examinado como, por ejemplo, edad, profesión, nivel académico, etc.
84
W
Wilcoxon, prueba de
Técnica estadística no paramétrica que permite comparar en un diseño de medidas
repetidas con dos condiciones experimentales, si la distribución de la variable
dependiente es idéntica en ambas poblaciones. Sólo requiere que la variable dependiente
esté medida, como mínimo, en una escala ordinal. Si se supone que la forma de la
distribución en ambas poblaciones es idéntica, permite contrastar si la tendencia central
(mediana) es idéntica o no en ambas. Añadiendo el supuesto adicional según el cual la
forma es simétrica, se convierte en un contraste de medias.
X-PAT
Es uno de los dos programas ejecutables que se incluyen en el tutorial, permite detectar:
• Examinados con pautas anómalas de respuesta.
• Parejas de examinados con pautas de error altamente similares.
• (opcionalmente) Ítems que predisponen a respuestas anómalas.
85

Glosario Psicometria PIERT

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Glosario Psicometria PIERT

Cargado por

Copyright:

Formatos disponibles

GLOSARIO DEL TUTORIAL PIERT CON TÉRMINOS

FRECUENTES EN TEORIA DE LOS TESTS Y PSICOMETRIA

Ajuste del Modelo

Ver Modelo de Rasch

Alternativa múltiple, formato de

Ver Taxonomía de Bloom

Análisis de alternativas incorrectas

Análisis de componentes principales

Ver Variable categórica

Análisis de los ítems

Ver Taxonomía de Bloom

Aplicación de la puntuación ponderada

b) Se procederá a la ponderación estadística mediante diversos procedimiento a fin de

Ver Ponderación de respuestas de ítem

Si el índice de apuntamiento es > 0, la distribución es leptocúrtica

Ver Curva Normal

Archivo *vdi.xls definitivo

Archivo *vdi.xls provisional

Archivo *vdp.xls definitivo

Archivo *vdp.xls provisional

Si el índice de asimetría es > 0, es asimétrica positiva

Auditoría de las respuestas

Ver Reglas de generación de ítems (RGI)

Banco de ítems calibrado

Banco de ítems precalibrado

Ver Normas o baremos

Ver Función de densidad

Modelo de distribución de probabilidad aplicable a variables discretas. Los supuestos

Bondad de ajuste, prueba de

Ver Conformidad, prueba de

Ver Curva Característica de Ítem (CCI)

Ver SEM (Estandar Error of Measurement)

Características de la Curva Normal

Ver Curva Normal

Características de la Puntuación Ponderada

Ver Puntuación ponderada

Características de los índices de reproductibilidad

Características del escalograma

Ver Individuo Estadístico

Ver Variable cualitativa

Ver Escala de Razón

Ver Escala de Intervalo

Clasificación APA de los tests

Ver Completamiento, formato de

Ver Archivo *.mct

Ver Consistencia Interna

Coeficiente de correlación Biserial (rbis)

Ver Condiciones de aplicación de rbis

Ver Condiciones de aplicación de rbis

Coeficiente de Correlación de Pearson (r):

Ver Condiciones de aplicación de r

Coeficiente de Determinación (R2):

Coeficiente de Fiabilidad (rxx')

• Longitudinal: como estabilidad de puntuaciones a través del tiempo.

Una composición entre ambas proporciona un tercer sentido:

En los tres casos existe un indicador numérico de la fiabilidad basado en la correlación de

Ver Puntuación Ponderada

Ver Consistencia Interna

De aplicar KR21 a unos datos que no cumplen la condición de igualdad de variancias

La estimación mediante KR20 tolera mejor la ausencia de esta condición deformando en

Ver Consistencia Interna

Ver Curva Característica de Omisión

Comparación de medias para medidas repetidas, prueba de

Comparación de proporciones, prueba de