Está en la página 1de 34

Capitulo Cuatro

Confiabilidad
El término “confiabilidad” se refiere a la consistencia de las puntuaciones
obtenidas por las mismas personas cuando se las examina en distintas
ocasiones con el mismo test, con conjuntos equivalentes de reactivos o en otras
condiciones de examinación. El concepto fundamenta el cálculo del error de
medición de un solo resultado, con el que podemos predecir la probable
fluctuación en la calificación de un solo individuo debida a factores aleatorios
irrelevantes o desconocidos.

El concepto de confiabilidad se ha dirigido a varios aspectos de la consistencia
de las calificaciones. En su sentido más amplio, la confiabilidad de una prueba
indica la medida en que las diferencias individuales en los resultados pueden
atribuirse a “verdaderas diferencias” en las características consideradas y el
grado en que pueden deberse a errores fortuitos. En términos más técnicos, la
medición de la confiabilidad de una prueba permite estimar qué proporción de la
varianza total de las puntuaciones se debe a la varianza de error. No se trata de
“errores” en el sentido de que hubieran podido evitarse o corregirse con una
mejor metodología. El sustantivo error es una herencia de las primeras épocas
de la psicología, cuando estaba interesada en encontrar las leyes generales de
la conducta y en evaluar lo que se suponía que eran rasgos básicos fijos. En la
actualidad, los psicólogos reconocen la variabilidad como una propiedad
intrínseca del comportamiento y procuran investigar e identificar sus muchas
fuentes.
Con respecto a la confiabilidad de las puntuaciones, el meollo del asunto estriba
en la definición de la varianza de error. Factores que para un propósito podrían
considerarse varianza de error para otro serían clasificados bajo el rubro de
varianza verdadera; por ejemplo, si nos interesa medir las fluctuaciones del
estado de ánimo, los cambios registrados diariamente en las puntuaciones de
una prueba de alegría-depresión serían los pertinentes para el objetivo del
instrumento y, por ende, formarían parte de la verdadera varianza de las
puntuaciones. Por otro lado, las mismas fluctuaciones diarias caerían bajo el
encabezado de varianza de error si la prueba se hubiera diseñado para medir
características más permanentes de personalidad.

En esencia, cualquier condición que sea irrelevante para el propósito de la
prueba representa lo que se conoce como varianza de error. Así, cuando los
examinadores tratan de mantener uniformes las condiciones de aplicación
mediante el control del entorno, las instrucciones, los límites de tiempo, el
rapport y otros factores similares, reducen la varianza de error y hacen más
confiables las puntuaciones de la prueba; sin embargo, aun cuando se cuente
con condiciones óptimas para su aplicación, ninguna prueba es un instrumento

perfectamente confiable, de ahí que todas deban ser acompañadas por un
reporte de su confiabilidad. También es necesario especificar las características
de la muestra normativa, ya que la confiabilidad declarada caracteriza a la
prueba cuando se aplica en condiciones normales a personas similares a las que
conformaron la muestra normativa u original.

Por supuesto, hay tantas variedades de confiabilidad como condiciones que
afecten los resultados de la prueba, ya que cada una de éstas puede ser
irrelevante para cierto propósito y por consecuencia clasificada como varianza
de error. Pese a ello, en la práctica se calculan relativamente pocas clases de
confiabilidad. En este capítulo revisaremos las técnicas más importantes para
medir la confiabilidad de las puntuaciones junto con las fuentes de varianza de
error identificadas para cada una.1

Todas las categorías de confiabilidad pueden expresarse en términos de un
coeficiente de correlación porque a todas les atañe el grado de consistencia o
acuerdo entre dos conjuntos de puntuaciones obtenidas independientemente; en
consecuencia, en la siguiente sección consideramos algunas de las
características básicas de los coeficientes de correlación para aclarar su uso e
interpretación. En cualquier texto básico de estadística para la educación o la
psicología, como los trabajos de Runyon y Haber (1991) o de D. C. Howell
(1997), es posible encontrar una revisión más técnica de la correlación y una
especificación más detallada de los procedimientos para calcularla.

EL COEFICIENTE DE CORRELACIÓN

Significado de la correlación. En esencia, un coeficiente de correlación (r)
expresa el grado de correspondencia, o relación, entre dos conjuntos de
puntuaciones. Si el individuo que obtiene la mayor calificación en la variable 1
consigue el mejor resultado en la variable 2, el individuo con la segunda mejor
calificación en la variable 1 también logra el segundo mejor resultado en la
variable 2, y así va disminuyendo hasta llegar al individuo con la menor
calificación del grupo, entonces existiría una correlación perfecta entre las
variables 1 y 2 y sería igual a +1.00.

En la figura 4.1 se ilustra una correlación positiva perfecta hipotética, dispuesta
en un diagrama de dispersión o distribución bivariada. Cada marca en el

1
Esta aproximación a la confiabilidad de las puntuaciones también se conoce con el nombre de teoría de la generalización de la
confiabilidad (véase Brennan, 1994; Crick y Brennan. 1982; Cronbach, Gleser, Nanda y Rajaratnam, 1972; Feldt y Brennan, 1989;
Shavelson y Webb, 1991). Sin embargo, no es una designación lo suficientemente específica, porque la generalización se aplica a
todos los aspectos de la puntuación de una prueba y, de hecho, a todo dato científico. Una descripción más precisa de este
procedimiento de confiabilidad se basa en su identificación de los componentes de la varianza como relevantes o irrelevantes.

diagrama indica la calificación de una persona tanto en la variable 1 (eje
horizontal) como en la variable 2 (eje vertical). Advierta que los 100 casos del
grupo se distribuyen por la diagonal que corre del extremo inferior izquierdo al
extremo superior derecho. Una distribución de esa forma indica una correlación
positiva perfecta (+1.00), ya que muestra que cada persona ocupa la misma
posición relativa en ambas variables. Entre más se aproxime la distribución
bivariada de puntuaciones a esta diagonal, más alta será la correlación positiva.
La figura 4.2 ilustra una correlación negativa perfecta (—1.00), en la que hay una
completa inversión de puntuaciones de una variable a otra: el mejor individuo en
la variable 1 obtuvo el peor resultado en la variable 2 y viceversa, y esta
inversión se mantiene a lo largo de la distribución. Observe que todas las
personas caen en la diagonal que se extiende del extremo superior izquierdo al
extremo inferior derecho, es decir, que corre en dirección opuesta a la de la
figura 4.1.

Una correlación de cero indica la ausencia absoluta de relación, como podría
ocurrir fortuitamente. Si el nombre de cada persona fuera sacado al azar de una
caja para determinar su posición en la variable 1, y se repitiera el proceso para la
variable 2, se encontraría una correlación igual o cercana a cero.
Figura 4.1. Distribución bivariada de una correlación hipotética de +1.00

00. los coeficientes que se encuentran en la práctica se localizan entre estos extremos y dan valores superiores a cero pero menores a 1 . puede esperarse una correlación negativa entre los resultados de una prueba de cálculo y otra de razonamiento aritmético si la calificación de cada persona en la primera prueba se registra como el número de minutos requeridos para completar todos los reactivos mientras que la calificación de la segunda representa el número de problemas resueltos correctamente. o bien inferiores al promedio. Por casualidad. sería imposible predecir la posición relativa de un individuo en la variable 2 conociendo su calificación en la variable 1. si se correlacionan calificaciones de tiempo con calificaciones de cantidad es probable que se obtenga una correlación negativa. Distribución bivariada de una correlación hipotética de -1. Así. algunos tendrían altas puntuaciones en ambas variables. baja o promedio en la variable 2. otros quedarían por arriba del promedio en una variable y por debajo en otra. aunque a menudo son bajas. mientras que otros más se ubicarían por encima del promedio en una y en el promedio en la otra.Figura 4. Cuando se obtiene una correlación negativa entre dos de las variables. por lo general se debe a la forma de expresar los resultados. En general. La persona con el mejor puntaje en la variable 1 podría obtener una puntuación alta.2. etc. . por ejemplo. Las correlaciones entre las medidas de habilidades son casi siempre positivas. No habría regularidad en la relación de un individuo a otro.00 En tales condiciones.

y aunque el método que se observa en la tabla 4. Junto al nombre de cada uno se encuentran sus calificaciones.1 muestra el cálculo de una r de Pearson entre las puntuaciones de 10 niños en matemáticas (X) y en lectura (Y). El coeficiente de correlación de Pearson es simplemente la media de esos productos: será alta y positiva cuando las calificaciones estándares correspondientes sean de igual signo y aproximadamente iguales en ambas variables. La tabla 4. dependiendo de la naturaleza de los datos. el individuo con el peor desempeño en la primera prueba (es decir.1 no es el más rápido. . Los coeficientes de correlación se calculan de diversas maneras. Las sumas y las medias de las 10 puntuaciones se presentan bajo las columnas respectivas. la correlación será cercana a cero. Los productos cruzados de la última columna (xy) se obtienen multiplicando las desviaciones correspondientes en las columnas x e y. En la práctica no es necesario convertir cada puntuación cruda en una calificación estándar antes de encontrar los productos cruzados. Cuando los sujetos estén por encima del promedio en una variable y por debajo en la otra. y las sumas de los cuadrados se utilizan para calcular las desviaciones estándares de las calificaciones de matemáticas y de lectura con el método descrito en el capítulo 3.En ese caso. Si ahora multiplicamos la califlcaci6n estándar de cada individuo en la variable 1 por su calificación estándar en la variable 2. los productos cruzados correspondientes serán negativos. sino que realizamos la división una sola vez al final. quienes caen por encima del promedio reciben calificaciones positivas mientras los que caen por debajo obtienen calificaciones negativas. Para calcular la correlación (r). Debe recordar que cuando la posición de cada sujeto se expresa en términos de calificaciones estándares. ya que la conversión puede hacerse después de sumar todos los productos. el más lento) obtendrá la calificación más alta mientras que será el mejor el que tendrá la calificación más alta en la segunda. En las dos siguientes columnas cada una de las desviaciones se eleva al cuadrado. todos los productos serán positivos si cada quien cae del mismo lado de la media en ambas variables. Para encontrar las calificaciones estándares no dividimos cada x e y entre su DE correspondiente. que no sólo toma en consideración la posición de la persona en el grupo.1. sino también la cantidad de su desviación por encima o por debajo de la media del grupo. se divide la suma de estos productos cruzados entre el producto del número de casos (N) por las dos desviaciones estándares (DEx DEy). Cuando algunos productos son positivos y otros negativos. ilustra con más claridad el significado del coeficiente de correlación. la tercera columna muestra la desviación (x) de cada puntuación de matemáticas respecto a su media y en la cuarta se encuentra la desviación (y) de cada puntuación de lectura de la media correspondiente. como lo indica la fórmula de correlación de la tabla 4. El más común es el coeficiente de correlación producto-momento de Pearson. Hay muchos caminos para calcular el coeficiente de correlación de Pearson.

Otra muestra comparable del mismo tamaño arrojaría una correlación mucho mayor o mucho menor. quizá desee saber si las habilidades para las matemáticas y la lectura están correlacionadas entre los escolares de la misma edad de los niños a los que se aplicaron las pruebas. desviaciones estándares y cualquier otra medida. En la tabla 4. Si sólo estuviésemos interesados en la ejecución de los 10 niños podríamos aceptar esta correlación como una descripción adecuada del grado de relación que existe entre las dos variables en el grupo.40 que indica una relación positiva moderada entre las puntuaciones de matemáticas y lectura. Los investigadores cuentan con procedimientos estadísticos para estimar la probable fluctuación de una muestra a otra en e1 tamaño de las correlaciones. pero por lo general la investigación psicológica pretende generalizar más allá de la muestra particular de individuos examinados a la población que representan. Pero la pregunta que . por ejemplo. medias.Significancia estadística.1 se encontró una correlación de . en cuyo caso es obvio que los 10 sujetos examinados constituyen una muestra inadecuada de esta población. aunque la relación no es estrecha. Hay cierta tendencia a que los niños que tuvieron buen desempeño en matemáticas también lo tuvieran en la prueba de lectura y viceversa.

pues con sólo 10 casos es difícil establecer de manera concluyente una relación general. 1996. Como era de esperarse. los niveles de significancia han sido la forma tradicional de evaluar las correlaciones. La mayor parte de la investigación psicológica utiliza los niveles de . Cohen. la correlación de . por ejemplo.05 para grupos de diferentes tamaños pueden encontrarse en cualquier libro de estadística al consultar las tablas de signiticancia de las correlaciones. por lo que se concluye que las dos variables están verdaderamente correlacionadas.generalmente se plantea es si las correlaciones son significativamente mayores a cero. Los niveles de significancia se refieren al riesgo de error que estamos dispuestos a correr al sacar conclusiones de nuestros datos. Esta tendencia al uso de los intervalos de confianza. Durante muchos años. Demostrar que un coeficiente de confiabilidad (o cualquier correlación) es significativamente mayor a cero proporciona pocos conocimientos para propósitos teóricos o prácticos.05.63. Si se dice que una correlación es significativa al nivel de . 1994. Los coeficientes de correlación tienen muchos usos en el análisis de los datos psicométricos.3 se presenta un ejemplo de un coeficiente de confiabilidad.1 no llega a ser significativa al nivel de . aunque pueden emplearse otros por razones especiales. 1993. la probabilidad de error es de cinco en cada 100.01)” significa que no hay más de una oportunidad en 100 de que la correlación de la población sea de cero. anuncia un cambio importante en el análisis de los coeficientes de correlación en los años por venir. Hunter y Schmidt. Carver. calculado por el método producto-momento de Pearson. Schmidt. El coeficiente de confiabilidad. 1995. si en la población la correlación es de cero. Con una muestra de este tamaño. 1990.01 o de .40 de la tabla 4. pero cada vez es mayor la conciencia de la insuficiencia y los defectos de este procedimiento.05. como complemento si no es que como sustituto de las pruebas de significancia. W. sin embargo. En otras palabras. j. W. Cualquier correlación menor no permite responder la pregunta de si las dos variables están correlacionadas en la población de la que se extrajo la muestra.01 y .05. ¿una correlación tan alta como la de nuestra muestra podría ser el resultado sólo de un error de muestreo? Cuando se dice que una correlación es “significativa al nivel del uno por ciento (. para los propósitos de interpretación de este libro lo único que se requiere es una comprensión general del concepto. En la figura 4. Una posible alternativa consiste en considerar la magnitud real de la correlación obtenida y estimar el intervalo de confianza dentro del cual es probable que caiga La correlación de la población a un nivel especificado de confianza (véase. la menor correlación significativa a nivel de . entre ellos la medición de la confiabilidad de una prueba. en el que se correlacionaron las puntuaciones obtenidas por 104 . Las correlaciones significativas mínimas a los niveles de .05 es . Olkin y Finn. Ni siquiera una correlación elevada logra pasar la “prueba de significancia” cuando se obtiene de una muestra tan pequeña. Tryon. 1996).

Los datos fueron obtenidos de una investigación de Anastasi y Drake (1954).01. Con 104 casos. la segunda forma era idéntica a la primera. una correlación elevada y significativa al nivel de .72.80 o .90.3 muestra la clásica distribución bivariada de los resultados correspondientes a una correlación positiva elevada.personas en dos formas equivalentes de una prueba de fluidez verbal.25 es significativa a este nivel.2 En una forma. excepto porque empleaba una letra diferente. los examinados disponían de cinco minutos para escribir tantas palabras como pudieran que empezaran con determinada letra. cualquier correlación igual o mayor a . Los autores del instrumento eligieron las letras de modo que su nivel de dificultad fuera aproximadamente igual para este objetivo. la correlación obtenida es algo menor a lo que se considera deseable para los coeficientes de confiabilidad. . 2 Uno de los subtest del SRA del Test de Habilidades Mentales Primarias para edades de 11 a 17. No obstante. que por lo general caen en . Se descubrió que La correlación entre el número de palabras escritas en las dos formas de la prueba era igual a . Un examen del diagrama de dispersión de la figura 4.

se observa cierta dispersión de entradas individuales. En este caso. por ejemplo enfermedad. tensión emocional. ruidos repentinos o la punta rota del lápiz. sin embargo. En la siguiente sección se considera el uso del coeficiente de correlación para calcular diferentes medidas de la confiabilidad de la prueba. que pueden provenir en parte de condiciones no controladas de La aplicación. fatiga. el coeficiente de confiabilidad (ra) es simplemente la correlación entre los resultados de las mismas personas en las dos aplicaciones de la prueba. La varianza de error corresponde a las fluctuaciones aleatorias de la ejecución de una sesión a otra. El método más obvio para encontrar la confiabilidad de las puntuaciones de una prueba consiste en aplicar el mismo instrumento por segunda ocasión. hasta cierto punto surgen de los cambios en la condición de ¡OS propios examinados.Observe que las marcas se agrupan cerca de la diagonal que se extiende del extremo inferior izquierdo al extremo superior derecho. aunque la tendencia sigue definitivamente esta dirección. TIPOS DE CONFIABILIDAD Confiabilidad test-retest. experiencias recientes de naturaleza placentera o desagradable y . Como cambios climáticos extremos. preocupación.

etcétera. Así. es más probable que sean acumulativos y progresivos a que se deban por entero al azar. La confiabilidad del retest muestra el grado en el que los resultados de una prueba pueden generalizarse en otras ocasiones. pero son de hecho inútiles como predictores del CI de la niñez tardía o la etapa adulta. o a otras razones como enfermedades o perturbación emocional. Al examinar a niños pequeños el periodo debe ser aún más corto. al supervisar esta clase de confiabilidad hay que hacer el esfuerzo por mantener un intervalo corto. no obstante. en la práctica puede hacerse una distinción sencilla. muchas pruebas de inteligencia para preescolares producen mediciones moderadamente estables dentro del periodo preescolar. Así. como las experiencias educativas o laborales. Además de lo deseable de expresar la duración del intervalo.cosas por el estilo. El grado en que esos factores pueden afectar el desarrollo psicológico es un importante problema que hay que investigar. pero esta cuestión no debe . de consejería. entre mayor sea la confiabilidad menos susceptibles serán los resultados a los cambios fortuitos en la condición cotidiana de los examinados o en el entorno en el que se aplica la prueba. comprensión mecánica o juicio artístico puede haberse modificado apreciablemente al cabo de 10 años debido a experiencias inusuales. ¿qué consideraciones deben guiar su elección? Es factible citar ejemplos de pruebas que muestran una elevada confiabilidad para periodos de días o de semanas pero cuyos resultados revelan una falta casi absoluta de correspondencia cuando el intervalo se extiende hasta 10 o 15 años. ya que en las edades tempranas es posible percibir cambios progresivos del desarrollo en un lapso de un mes o incluso menos. de corto alcance. Para cualquier persona. siempre debe especificarse el intervalo en el que se midió. Más aún. el nivel general de aptitud académica. no hay uno sino un número infinito de coeficientes de confiabilidad test-retest para cualquier prueba. Las fluctuaciones aleatorias. La posición del individuo en relación con otras personas de su edad puede haber aumentado o disminuido en forma notable debido a circunstancias peculiares del hogar. el intervalo entre ambas pruebas no debería exceder a los seis meses. la escuela o del entorno. Como las correlaciones test- retest disminuyen progresivamente conforme aumenta el intervalo. es factible que caractericen un área de conducta más amplia que la que cubre el propio desempeño en la prueba. por ejemplo. En cuanto a los cambios ocurridos en periodos mayores. psicoterapia. Es deseable dar cierta indicación de las experiencias pertinentes que entre tanto hayan tenido aquellos en quienes se midió la confiabilidad. que ocurren durante los intervalos que van de unas cuantas horas a unos meses en general están incluidas en la varianza de error del resultado de la prueba. Cuando se informa la confiabilidad test-retest en el manual de la prueba.

más que en términos de la confiabilidad de una prueba en particular. La correlación entre las puntuaciones de las dos formas representa el coeficiente de confiabilidad de la prueba. es necesario retroceder al análisis de los propósitos de la prueba y a una cabal comprensión de la conducta que la prueba está diseñada para predecir. Las mismas personas pueden ser evaluadas con una forma en la primera ocasión y con otra equivalente en la segunda. La práctica puede producir diferentes grados de mejora en las puntuaciones que obtienen en el retest individuos distintos. Aunque en efecto se han empleado intervalos largos. sino también la consistencia de las respuestas a diferentes muestras de reactivos (o formas de la prueba). En otras palabras. en especial con los problemas que suponen razonamiento o ingenuidad. por ejemplo. En esta categoría se encuentra una serie de pruebas motoras y de discriminación sensorial. Así. en la mayor parte de los casos no es apropiado repetir el examen con el mismo instrumento para encontrar el coeficiente de confiabilidad. la técnica test-retest presenta dificultades al aplicarse a la mayor parte de las pruebas psicológicas. los examinados pueden recordar muchas de las respuestas anteriores. Advierta que diferentes funciones conductuales pueden variar en la medida de la fluctuación diaria que exhiban. es indudable que la estabilidad del movimiento fino de los dedos es más susceptible a los cambios ligeros en la condición de la persona que su comprensión verbal. Una vez más.confundirse con el problema de la confiabilidad de determinado instrumento. de modo que los resultados en las dos aplicaciones de la prueba no se obtuvieron independientemente y su correlación será elevada y falsa. que no sólo mide la estabilidad temporal. es probable que se repita el mismo patrón de respuestas correctas y erróneas por efecto de la memoria. sino de unas cuantas semanas. Si deseamos obtener una estimación global de la estabilidad habitual de los dedos del individuo probablemente sea necesario repetir la prueba durante varios días. Aunque en apariencia es simple y directa. lo que permite combinar dos tipos de confiabilidad. Confiabilidad de formas alternas. Una vez que el examinado ha comprendido el principio incluido en el problema o ha encontrado una solución. El concepto de confiabilidad suele restringirse a los cambios al azar de corto alcance que caracterizan el desempeño en la prueba más que al área entera de conducta que se está probando. Como ambas son importantes para casi . al medir la confiabilidad del Stanford-Binet por lo general no se correlacionan resultados obtenidos en un lapso de 10 años. sin embargo. Incluso la naturaleza de la prueba puede cambiar con la repetición. y si el intervalo entre las aplicaciones es suficientemente corto. El uso de formas alternas de la prueba es una manera de evitar las dificultades de la confiabilidad test-retest. mientras que una sola sesión sería suficiente para la comprensión verbal. por lo común los resultados se analizan en términos de la predicción de la inteligencia adulta a partir del desempeño en la niñez. Sólo las pruebas que no son afectadas de manera apreciable por la repetición son adecuadas para la técnica test-retest. o incluso de uno. en el futuro podrá reproducir la respuesta correcta sin los pasos intermedios.

todos los propósitos de la examinación. puede abarcar un número muy grande de palabras que ignora el individuo B. Debido a factores fortuitos de las experiencias de individuos distintos. Es evidente que en la preparación de formas alternas deben tomarse las precauciones necesarias para asegurar que en realidad son paralelas. Aun cuando el conocimiento general de las palabras (es decir. sino también otras clases de confiabilidad. La mayoría de los estudiantes ha vivido la experiencia de presentar un examen en el que cree haber tenido “un golpe de suerte” porque muchos de los reactivos incluían los temas que estudió con más cuidado. Las diferencias en los resultados obtenidos por los mismos individuos en esas dos pruebas ilustran la varianza de error considerada. Digamos también que con el mismo propósito se prepara otra lista de 40 palabras nuevas y que los reactivos se redactan con igual cuidado para cubrir el mismo grado de dificultad que la primera prueba. las “puntuaciones verdaderas”) de ambos individuos es aproximadamente igual. Si las dos formas se aplican en sucesión inmediata. En este caso. Como la confiabilidad test-retest. por lo tanto. o muestreo de contenido. Esta conocida situación ilustra la varianza de error que resulta del muestreo de contenido. ¿qué tanto diferirá la puntuación que el mismo individuo obtenga en ambas pruebas? Supongamos que se ha elaborado una prueba de vocabulario de 40 reactivos como medida de la comprensión verbal general. que. y éstos tienen que expresarse de la misma forma. la correlación muestra la confiabilidad únicamente entre las formas. Otras veces pueden haber tenido la experiencia opuesta y encontrar un número inusualmente grande de reactivos sobre temas que no revisaron. ¿En qué medida dependen los resultados de la prueba de factores específicos de la selección particular de reactivos? Si otro investigador que trabaja de manera independiente prepara otra prueba de acuerdo con las mismas especificaciones. para el individuo A la primera lista puede contener un mayor número de palabras desconocidas que la segunda. por su parte. B superará a A en la primera lista mientras que A aventajará a B en la segunda. En principio. la dificultad relativa de las dos listas diferirá en cierto grado de una persona a otra. Así. cubrir el mismo contenido y ser . la confiabilidad de formas alternas siempre debe ser acompañada por el informe de la duración del intervalo entre las aplicaciones de la prueba y de una descripción de las experiencias intermedias relevantes. la confiabilidad de formas alternas proporciona una medida útil para evaluar muchas pruebas. no entre las ocasiones. pero no fluctuaciones temporales. han de contener el mismo número de reactivos. deben hacerse independientemente y diseñarse de modo que cumplan las mismas especificaciones. Es conveniente examinar de cerca el concepto de muestreo de reactivos. la varianza de error representa fluctuaciones en el desempeño de un conjunto de reactivos a otro. ya que no sólo fundamenta la confiabilidad de formas alternas. la posición relativa de los dos será inversa en las dos listas debido a las diferencias fortuitas en La selección de los reactivos.

por ejemplo. puesto que también son útiles en los estudios de seguimiento o para investigar los efectos de algún factor experimental que interviene en el desempeño de la prueba. Puesto que cualquier prueba puede dividirse de muchas maneras distintas. Es obvio que la confiabilidad de división por mitades proporciona una medida de la consistencia del contenido muestreado. El uso de varias formas alternas brinda asimismo un medio para reducir la posibilidad de preparación o de fraudes. la confiabilidad de formas alternas también tiene ciertas limitaciones. muchas pruebas no disponen de formas alternas. por los efectos acumulativos de calentamiento. el primer problema es cómo dividirla para obtener las mitades más equivalentes para encontrar la confiabilidad de división por mitades. En este caso. es mucho más probable que los individuos difieran en el grado de su mejora debido a su experiencia con materiales similares. ejemplos ilustrativos. en ciertos problemas de ingenio. a menudo se requieren otras técnicas para estimar la confiabilidad de la prueba. Además. En tales condiciones. Este tipo de coeficiente de confiabilidad se conoce como coeficiente de consistencia interna. Por último. La reducción será insignificante. no basta con cambiar el contenido de los reactivos de la segunda forma para eliminar este acarreo de la primera. práctica. dadas las dificultades prácticas para elaborar formas verdaderamente equivalentes. fatiga. Si este efecto es pequeño. una vez que ha encontrado la solución del primero. aburrimiento y por cualquier otro factor que . Otra cuestión relacionada atañe al grado en que la naturaleza de la prueba cambia con la repetición. Aunque de mayor aplicación que la confiabilidad test-retest. ya que se requiere una sola aplicación de una única forma. no obstante. formato y todos los otros aspectos de la prueba. Confiabilidad de división por mitades. Es obvio que si todos los examinados muestran la misma mejora con la repetición. Mediante diversos procedimientos de división por mitades es posible obtener una medida de confiabilidad a partir de una única aplicación de una forma de la prueba. En primer lugar. ya que al dividirla en mitades equivalentes se obtienen dos puntuaciones de cada persona. En la mayor parte de los casos. la mayoría de la gente puede resolver fácilmente cualquier reactivo que siga el mismo principio. es necesario supervisar la equivalencia de las instrucciones. Disponer de formas de prueba paralelas no sólo es deseable por su conveniencia para la determinación de la confiabilidad de la prueba. límites de tiempo. la correlación entre sus resultados no se altera porque añadir una cantidad constante a cada puntuación no modifica el coeficiente de correlación. es posible que las mitades no sean equivalentes por diferencias en la naturaleza y el nivel de dificultad de los reactivos. el efecto de la práctica representa otra fuente de varianza que tenderá a reducir la correlación entre las dos formas. si las funciones de conducta consideradas son muy susceptibles al efecto de la práctica el uso de formas alternas reduce pero no elimina dicho efecto. a la motivación para presentar la prueba y a otros factores.de igual alcance y nivel de dificultad. pero no de la estabilidad temporal de las puntuaciones porque el procedimiento consiste en una única sesión de prueba. Por todo lo anterior.

Cureton et al. por ejemplo. el grupo entero de reactivos debe asignarse intacto a una u otra mitad. Un procedimiento adecuado para casi todos los propósitos es separar las puntuaciones de los reactivos nones y pares. si el número de reactivos del instrumento aumenta de 25 a 100. la división producirá calificaciones casi equivalentes de ambas mitades.varíe progresivamente desde el inicio hasta el final de la prueba. . Si todo lo demás se mantiene igual. Cuando se aplica a la confiabilidad de división por mitades. 4 Sin embargo. tanto en la confiabilidad de test-retest como en la de formas alternas cada resultado se basa en el número total de los reactivos de la prueba. Si los reactivos de dicho grupo se colocaran en mitades diferentes. puede simplificarse de la siguiente manera: 3 Ahora hay suficientes evidencias empíricas que apoyan esta expectativa y se ha acumulado una cantidad considerable de investigaciones sobre el tratamiento estadístico de es agrupamientos integrados de reactivos o “esilets” (Sireci. la correlación se calcula entre dos conjuntos de calificaciones. la fórmula requiere que se duplique el tamaño de la prueba. si la prueba consta de 100 reactivos. Thissen y Wainer. 1973). 1965. El efecto que tendrá alargar o acortar la prueba sobre su coeficiente puede estimarse por medio de la fórmula de Spearman-Brown que se presenta a continuación: n ⋅ rtt rnn = 1 + (n − 1) ⋅ rtt En la que es el coeficiente estimado rnn . En esas condiciones. alargar una prueba incrementara su consistencia sólo en términos del muestro de contenido.4 Es razonable esperar que con una muestra mayor de conducta pueda obtenerse una medida más adecuada y consistente. n es igual a cuatro. Si los reactivos están dispuestos en un orden aproximado de dificultad. Una precaución que debe tomarse al hacer la división entre nones y pares tiene que ver con los grupos de reactivos que abordan un solo problema.. cada uno basado únicamente en 50 reactivos. 1991). Así. n es igual a 1/2. y son muchos los manuales de pruebas que informan de este modo la confiabilidad. el coeficiente obtenido rtt y n el número de veces que la prueba se alarga o se acorta. En este caso. pero no su estabilidad con el tiempo (véase Cureton. La fórmula de Spearman-Brown se emplea mucho para determinar la confiabilidad por el método de división por mitades.3 Una vez que se tienen las puntuaciones de ambas mitades de cada sujeto. En contraste. como las preguntas que se refieren a un diagrama mecánico particular o a cierto pasaje en una prueba de lectura. mientras más extensa sea la prueba más confiable resultará. si disminuye de 60 a 30. pero no pierda de vista que esta correlación sólo proporciona la confiabilidad de media prueba. pueden correlacionarse por el método usual. la similitud de los resultados estaría inflada de manera espuria. porque cualquier error en la comprensión del problema afectarla a los reactivos de ambas mitades.

multiplicaciones y divisiones. Cualquier diferencia entre las puntuaciones de una persona en las dos mitades de la prueba representa una varianza de error. si una prueba sólo incluye multiplicaciones mientras que otra abarca sumas. estos dos valores se incluyen en la siguiente fórmula. por ejemplo. en la que. se obtiene la proporción de varianza “verdadera” para un uso específico de la prueba. Rulon (1939) elaboró un método alternativo para encontrar la confiabilidad de división por mitades. y (2) la heterogeneidad del área de conducta muestreada. el cual únicamente requiere la varianza de las diferencias entre las puntuaciones de cada individuo en las dos mitades de la prueba (DE d2 ) y la varianza de las puntuaciones totales (DE x2 ) . Entre más homogénea sea el área mayor será la consistencia entre reactivos. es la correlación de ambas mitades. que es igual al coeficiente de confiabilidad. otro puede obtener mejores resultados en las divisiones.00. 2rnn rtt = 1 + rmm En la que rmm . etc. 10 de relaciones espaciales. que también requiere una sola aplicación de una única forma. 10 de razonamiento aritmético y 10 de rapidez perceptual. Confiabilidad de Kuder-Richardson y coeficiente alfa. La varianza de esas diferencias. Un ejemplo más extremo sería el caso de una prueba constituida por 40 reactivos de vocabulario comparada con otra que tiene 10 reactivos de vocabulario. dividida entre la varianza de las puntuaciones totales. el examinado puede hacer un mejor trabajo en las restas que en las otras operaciones aritméticas. da la proporción de varianza de error en los resultados que. En esta última puede esperarse poca o ninguna relación entre el desempeño de un individuo en los diferentes tipos de reactivos. pero menos en las sumas. Esta consistencia entre reactivos está influida por dos fuentes de varianza de error: (1) el muestreo de contenido (como en la confiabilidad de formas alternas y de división por mitades). es probable que la primera prueba muestre mayor consistencia entre reactivos que la segunda. restas y multiplicaciones. cuando esta varianza de error se resta de 1. se basa en la consistencia de las puntuaciones a todos los reactivos de la prueba. que arroja directamente la confiabilidad de toda La prueba: rtt = 1 − (DE ) 2 (DE ) d 2 x Es interesante observar la relación de esta fórmula con la definición de la varianza de error. como es más heterogénea. . El cuarto método para encontrar la confiabilidad. restas.

Aunque se prefieren las pruebas homogéneas porque sus resultados permiten una interpretación poco ambigua. hay muchas otras combinaciones que producen el mismo resultado total de 20. en la predicción de éste. sin embargo. cinco de relaciones espaciales. conocida comúnmente como la “fórmula 20 de Kuder-Richardson”. Suponga que en la prueba muy heterogénea de 40 reactivos. si todos los reactivos se dispusieron en orden ascendente de dificultad. De este modo puede combinarse una interpretación no ambigua de los resultados de la prueba con una adecuada cobertura del criterio. la técnica se basa en el examen del desempeño en cada reactivo. Por supuesto. es posible que una puntuación de 20 signifique que el examinado ha tenido éxito aproximadamente en las primeras 20 palabras. Jiménez pudo haber recibido la calificación de 20 por la correcta solución de cinco reactivos de rapidez perceptual. sin embargo. Por su parte. en la relativamente homogénea prueba de vocabulario. la heterogeneidad de los reactivos no representa por fuerza una varianza de error. la de mayor aplicación. El procedimiento más común para encontrar la consistencia entre reactivos se debe a Kuder y Richardson (1937). De las diversas fórmulas derivadas del artículo original. la consistencia entre reactivos se encuentra en una sola aplicación de una única prueba. que tendría un significado muy diferente al obtenerse de tan distintas organizaciones de reactivos. Más aún. una cuestión de gran importancia es si el criterio que la prueba pretende predecir es en sí mismo homogéneo o heterogéneo. ¿Podemos concluir que el desempeño de ambos en la prueba fue igual? De ninguna manera. 10 de razonamiento aritmético y ninguno de vocabulario. es la siguiente: . Tal vez falló en dos o tres de las más sencillas y respondió bien a dos o tres de las más difíciles después a la vigésima. Por otro lado. A este respecto. Como en los métodos de división por mitades. en un caso así puede ser deseable formular varias pruebas relativamente homogéneas. los 10 de rapidez perceptual y ninguno de los reactivos de razonamiento aritmético y de relaciones espaciales. en lugar de requerir las puntuaciones de las dos mitades.Es evidente que las puntuaciones de la prueba serán menos ambiguas cuando se deriven de instrumentos relativamente homogéneos. Los tests tradicionales de inteligencia son un buen ejemplo de instrumentos heterogéneos diseñados para predecir criterios heterogéneos. pero estas variaciones individuales son ligeras en comparación con las que se encuentran en una prueba más heterogénea. de las que cada una mida una fase diferente del criterio heterogéneo. pues Pérez pudo haber resuelto correctamente los 10 reactivos de vocabulario. es evidente que un solo instrumento homogéneo no es un predictor adecuado de un criterio muy heterogéneo. Pérez y Jiménez obtienen un resultado de 20.

por ejemplo. 5 y 6 de orientación espacial. o de acuerdo con algún otro sistema de todo o nada. Puede demostrarse matemáticamente que el coeficiente de confiabilidad de Kuder-Richardson es en realidad la media de todos los coeficientes de división por mitades que resultan de las diferentes divisiones de una prueba (Cronhach. por lo tanto. .  n  DEt − ∑ p ⋅ q 2 rtt =   ⋅  n −1 DEt2 En la que rtt . que arrojaría un elevado coeficiente de confiabilidad de división por mitades. El único término nuevo de la fórmula. “rara vez” o “nunca”. Suponga que preparamos una prueba de 50 reactivos de 25 tipos diferentes. etc. el coeficiente de división por mitades en general se basa en una división planeada para obtener conjuntos equivalentes de reactivos. se encuentra calculando la proporción de personas que aciertan (p) y la de personas que no aciertan (q) en cada reactivo. p q. Para estos casos puede derivarse una fórmula generalizada conocida como coeficiente alfa (Cronhach. la homogeneidad de la prueba sería muy baja ya que habría poca consistencia en el desempeño del conjunto completo de 50 reactivos. Un ejemplo extremo permitirá ilustrar la diferencia. 3 y 4 de razonamiento aritmético. sin embargo. Este método requiere de pocos cálculos adicionales porque al elaborar el instrumento rutinariamente se registra p para encontrar el grado de dificultad de cada reactivo. se esperaría que la confiabilidad de Kuder-Richardson fuera mucho menor que la confiabilidad de división por mitades. en un inventario de personalidad el sujeto puede recibir en un reactivo una calificación numérica diferente dependiendo de si verifica sus respuestas “de manera regular”. 1975. Ahora bien. Novick y Lewis.5 Por otro lado. La fórmula de Kuder-Richardson puede aplicarse a pruebas cuyos reactivos se califiquen como aciertos o errores. Para obtener p q se calcula para cada reactivo el producto de p y q. En este ejemplo. Kaiser y Michael. es el coeficiente de confiabilidad de toda la prueba. la diferencia entre ambos coeficientes de confiabilidad puede servir como un indicador grueso de la heterogeneidad de la prueba. el coeficiente de Kuder-Richardson será menor que la confiabilidad de división por mitades. de modo que los reactivos 1 y 2 son de vocabulario. 1951. habrá una relación tan estrecha entre las puntuaciones de los reactivos nones y pares. 1967). y luego se suman los productos de todos los reactivos. 5 Esto es estrictamente cierto sólo cuando los coeficientes de división por mitades se obtienen con la fórmula de Rulon (basada en la varianza de las diferencias entre las puntuaciones de ambas mitades) pero no cuando se obtienen con la correlación de mitades y la fórmula de Spearman-Brown (Novick y Lewis 1967). los reactivos de ciertas pruebas pueden obtener diferentes puntuaciones. “a veces”. 1951). a menos que los reactivos de la prueba sean muy homogéneos. En efecto. n el número de reactivos y DEt2 la desviación estándar de la puntuación total de la prueba. En teoría.

La fórmula completa del coeficiente alfa es: rtt = n (⋅ ) ( DEt2 − ∑ DEi2 ) (n − 1) ( ) DEt2 Confiabilidad entre calificadores. Por otra parte. En un caso. Algunas categorías de pruebas (sobre todo las de creatividad y las proyectivas de personalidad) dejan mucho al juicio del calificador. los factores excluidos de las medidas de la varianza de error son. en otro se refiere a la diferencia entre conjuntos de reactivos paralelos y en otro más comprende cualquier inconsistencia entre reactivos. Esto es en especial cierto para el grupo de pruebas diseñadas para aplicarse colectivamente y para ser calificadas por computadora. Los errores de cronometración y las distracciones serias pueden eliminarse de la situación de prueba. Una fuente de varianza de error que puede supervisarse de manera sencilla es la varianza del calificador. ésta cubre las fluctuaciones temporales. en el caso de los instrumentos clínicos empleados en exámenes intensivos individuales hay evidencias de una considerable varianza del examinador. Además. Ahora debe ser evidente que las distintas formas de confiabilidad difieren en los factores que incluyen bajo la varianza de error. sólo es necesario seguir minuciosamente los procedimientos prescritos y supervisarlos con cuidado. no se acostumbra informar el error de medición que resulta cuando una prueba se aplica en condiciones de distracción o con un tiempo límite mayor o menor a lo especificado en el manual. y (b) los factores irrelevantes que pueden controlarse experimentalmente.en la que ∑ (DE ). de manera general. Mediante diseños experimentales especiales es posible separar esta varianza de la que puede atribuirse a las fluctuaciones temporales en la condición del examinado o al uso de formas alternas de la prueba. Por otro lado. El procedimiento consiste en encontrar la varianza de todas las puntuaciones individuales de cada reactivo y sumar las varianzas de todos los reactivos. por lo que no es necesario manifestar coeficientes de confiabilidad especiales que correspondan a la “varianza de distracción” o a la “varianza de cronometración”. Con tales instrumentos. la suma de las varianzas de las puntuaciones del reactivo. la mayor parte de las pruebas proporciona procedimientos tan estandarizados para la administración y calificación que la varianza de error atribuible a esos factores es insignificante. Por ejemplo. En el caso de estas pruebas hay tanta necesidad de una medida de confiabilidad del calificador como de los coeficientes más comunes de confiabilidad. Los dos resultados se correlacionan de acuerdo con la forma común y el coeficiente de . i 2 sustituye a ∑ p ⋅ q . La confiabilidad del calificador se consigue con una muestra de pruebas calificadas independientemente por dos o mas examinadores. de dos clases: (a) los factores cuya varianza debe permanecer en las puntuaciones porque forman parte de las diferencias consideradas.

También puede calcularse un coeficiente de confiabilidad6 de división por mitades para las respuestas a cualquiera de las formas. conocida como índice de confiabilidad. Recapitulación.3 muestra las fuentes de varianza tratadas como varianza de error por cada procedimiento. que están libres de errores fortuitos. Este coeficiente. La confiabilidad de formas alternas resultó ser de . En realidad. Los diseños experimentales que producen más de un tipo de coeficiente de confiabilidad para el mismo grupo permiten el análisis de varianza total en distintos componentes.3. Las diferentes clases de coeficientes de confiabilidad revisados en esta sección se resumen en las tablas 4.70. Los manuales deben informar en qué casos es apropiada. Consideremos el siguiente ejemplo hipotético. El lector con conocimientos de estadística recordará que el cuadrado del coeficiente de correlación representa la proporción de la varianza común.2 y 4. pueden calcularse correlaciones de división por mitades para cada forma y promediarse los dos coeficientes por los procedimientos estadísticos apropiados (por ejemplo. una transformación—z de Fisher). es de . La tabla 4. que puede entonces interpretarse directamente como el porcentaje de varianza verdadera para el uso al que se destinó la prueba.85 significa que 85 por ciento de la varianza en las puntuaciones de la prueba depende de la varianza verdadera en el rasgo medido y que 15 por ciento depende de la varianza de error (según lo haya definido operacionalmente el procedimiento específico). En la primera se clasifican las operaciones seguidas para obtener cada tipo de confiabilidad en relación con el número de formas de prueba y de sesiones de examinación que se requieren. Esta correlación. el resultado es e1 coeficiente de confiabilidad (rtt ) . obtenido por la fórmula Spearman-Brown. de lo que se obtuvo 6 Para una mejor estimación del coeficiente de consistencia interna. al segundo calificador se le asignó una muestra aleatoria de 50 pruebas. la proporción de varianza verdadera de las puntuaciones de una prueba es el cuadrado de la correlación entre las puntuaciones obtenidas en una sola forma de la prueba y las puntuaciones verdaderas. Esta clase de confiabilidad suele calcularse cuando se emplean en la investigación instrumentos de calificación subjetiva. Finalmente. . un coeficiente de confiabilidad de . Cualquier coeficiente de confiabilidad puede interpretarse directamente en términos del porcentaje de la varianza de la calificación que puede atribuirse a diferentes fuentes. es igual a la raíz cuadrada del coeficiente de confiabilidad ( ) rtt . Se aplicaron las formas A y B de una prueba de creatividad con un intervalo de dos meses a 100 niños de sexto grado.80.correlación es la medida de la confiabilidad del calificador. Así. Cuando el índice de confiabilidad a su vez se eleva al cuadrado.

20). por ende.38 y.62.08) se obtiene tina varianza de error total de . encontramos que .una confiabilidad entre calificadores de . expresadas en los términos más familiares de porcentajes. Los tres coeficientes de confiabilidad pueden ahora analizarse para llegar a las varianzas de error que muestran la tabla 4. Observe que al restar la varianza de error atribuible únicamente al muestreo de contenido (confiabilidad de división por mitades) de la varianza de error atribuible al muestreo de contenido y de tiempo (confiabilidad de formas alternas). una varianza verdadera de .4.4 y la figura 4.4. se muestran gráficamente en la figura 4. Las proporciones. e1 muestreo de tiempo (.92. .10 de la varianza puede atribuirse sólo al muestreo de tiempo. Al sumar las varianzas de error atribuibles al muestreo de contenido (.10) y la diferencia entre calificadores (.

(1972). CONFIABILIDAD DE LAS PRUEBAS DE VELOCIDAD Tanto en la elaboración de la prueba como en la interpretación de las puntuaciones.Esta distribución de las fuentes de varianza es la esencia de la llamada teoría de la generalización de la confiabilidad. la prueba debe proporcionar un tope adecuado. En esas condiciones. es importante distinguir entre las mediciones de velocidad y las de poder. Feldt y Brennan (1989). Una excepción a esta regla se encuentra en . todos están dentro del nivel de habilidad de las personas para las cuales están destinados. una prueba de poder tiene un límite de tiempo lo suficientemente amplio como para permitir que cualquiera intente resolver todos los reactivos. ya sea en número de reactivos o en el nivel de dificultad. Los diseños experimentales complejos que permiten la evaluación simultánea de más fuentes de varianza de la puntuación y las interacciones entre ellas pueden encontrarse en otros tratamientos del tema. Cronbach et al. y el instrumento incluye algunos muy difíciles. corno en Brennan (1984). y Shavelson y Webb (1991). Para que cada individuo muestre lo que es capaz de lograr. La dificultad de éstos está graduada. Dicha prueba consta de reactivos de dificultad uniformemente baja. Advierta que tanto las pruebas de velocidad como las de poder están diseñadas para impedir las puntuaciones perfectas. La razón de tal precaución es que este tipo de resultados es indeterminado. El límite de tiempo es tan reducido que nadie puede terminar todos los reactivos. ya que es imposible saber qué tan elevada habría sido la puntuación del individuo si se hubieran incluido más reactivos o reactivos más difíciles. Por otro lado. el resultado de cada sujeto sólo refleja la velocidad con la que trabajó. Una prueba de velocidades aquella en la que las diferencias individuales dependen por completo de la rapidez de la ejecución. por lo que nadie puede obtener una puntuación perfecta.

Su propósito no es establecer los límites de lo que puede hacer el individuo. como las referidas a dominio que revisamos en el capítulo 3. si el individuo A obtiene una calificación de 44. por lo que las diferencias individuales en las puntuaciones dependen por completo del número de reactivos contestados más que de los errores. no son adecuados para las pruebas de velocidad. acertó en 17 reactivos nones y 17 pares.00. ya que la mayor parte depende en diversas proporciones tanto del poder como de la velocidad. sino determinar si ha alcanzado o no el nivel preestablecido de ejecución. o de +1. pues en la medida en que las diferencias individuales de las puntuaciones dependan de la velocidad de la ejecución. En consecuencia. obviamente acertó en 22 reactivos nones y en 22 reactivos pares. los coeficientes de confiabilidad que señalan esos métodos estarán elevados en forma espuria. DE modo similar. Entonces. con una puntuación de 34. no sólo para comprender qué es lo que mide el instrumento. Los coeficientes de confiabilidad de un solo ensayo. Una evaluación de los procedimientos seguidos para encontrar la confiabilidad de división por mitades y la de Kuder-Richardson demostrará que ambos se basan en la consistencia en el número de errores cometido por el examinado. pero resulta del todo falsa y no brinda información sobre La confiabilidad de la prueba. si las diferencias individuales en los resultados de la prueba no dependen de los errores. la correlación entre las puntuaciones nones y pares será perfecta. En la práctica. la distinción entre las pruebas de velocidad y las de poder es de grado. sino también para elegir los procedimientos apropiados para evaluar su confiabilidad. Ahora bien.las pruebas de destreza. Para cada prueba se requiere de información sobre estas proporciones. Supongamos que una prueba de 50 reactivos depende por completo de la velocidad. el individuo B. como los que se obtienen con las técnicas de pares-nones o de Kuder-Richardson. es evidente que la medida de . sino de la velocidad. Un ejemplo extremo ayudará a aclarar ese punto. salvo por algunos errores accidentales insignificantes en algunos reactivos.

con todo. mientras que los del segundo y tercer cuartos sirven para la puntuación de la otra mitad. Esta combinación de cuartos tiende a equilibrar los efectos acumulativos de la práctica. por ejemplo. el coeficiente de confiabilidad de una sola aplicación será menor a 1. y este método es satisfactorio cuando el grado de dificultad de los reactivos no está graduado progresivamente. El porcentaje de los que no logran completar la prueba debe tomarse como un indicador crudo de velocidad contra poder. También pueden emplearse las técnicas de división por mitades. o alguna otra apropiada. se combina ei número de reactivos resueltos correctamente dentro del primer y del cuarto cuartos para representar el resultado de una mitad. cada forma tiene la mitad de la extensión de la prueba. mientras que las puntuaciones del examinado normalmente se basan en la prueba entera. En otras palabras. ¿De qué otros procedimientos se disponen para determinar la confiabilidad de pruebas de velocidad? De ser aplicables. Si no es posible aplicar por separado las dos mitades de la prueba. es factible emplear la técnica test- retest o la de formas equivalentes para evaluar la confiabilidad de las pruebas de velocidad. se imprimen los reactivos nones y los pares en hojas separadas y se asigna a cada conjunto la mitad del límite de tiempo de la prueba entera. por ejemplo. En la medida en que la velocidad influya de modo apreciable en las diferencias individuales de las puntuaciones. para encontrar la confiabilidad de la prueba entera. Ese procedimiento es equiparable a aplicar dos formas equivalentes de la prueba en sucesión inmediata. la fatiga y otros factores. siempre que la división se haga en términos de tiempo más que de reactivos. incluso si nadie termina la prueba el papel de la velocidad puede ser insignificante. las diferencias individuales relativas a la velocidad están .confiabilidad debe basarse en la consistencia de la velocidad del trabajo. sin embargo. si todos completan exactamente 40 reactivos de una prueba de 50. Entonces. Cuando la ejecución en la prueba depende de una combinación de velocidad y poder. los coeficientes de confiabilidad de una sola aplicación no podrían interpretarse adecuadamente. la rapidez en la ejecución de la tarea no participa en la determinación de las puntuaciones. Si todos los examinados terminan dentro del límite de tiempo concedido. pero continuará siendo elevado en forma errónea. Esto se logra con facilidad al hacer que los examinados marquen el reactivo en el que están trabajando cada vez que el examinador da una señal convenida. Es por ello que debe utilizarse la formula de Spearman-Brown. Una forma de ejecutar dicha división consiste en aplicar dos mitades equivalentes de la prueba con distintos límites de tiempo.00. ¿Cuándo una prueba es apreciablemente rápida? ¿En qué condiciones deben observarse las precauciones especiales que indicamos en esta sección? Es evidente que el mero empleo de un límite de tiempo no significa que se trate de una prueba de velocidad. las puntuaciones deben basarse en partes de la prueba cronometradas por separado. un procedimiento alternativo consiste en dividir el tiempo total en cuartos y encontrar una calificación para cada uno.

pero su estudio detallado escapa al alcance de este libro.5).75. En la tabla 4. en el que cada individuo termina 40 reactivos. aunque nadie tuviera tiempo para tratar de resolver todos los reactivos.5). Luego se correlacionaron las puntuaciones de las mitades cronometradas por separado para calcular los coeficientes de confiabilidad (que se presentan en el segundo renglón de la tabla 4.90.83. primero se determinó la confiabilidad de cada prueba por el procedimiento común de pares- nones (esos coeficientes se presentan en el primer renglón de la tabla 4. . ya que no hay diferencias individuales en el número de reactivos completados (DEc2 = 0) . las dos varianzas serán la misma y la razón será igual a 1.87. Se han concebido otros procedimientos más refinados para determinar esta proporción. muestra una diferencia insignificante cuando se calcula por ambos métodos.00. la confiabilidad de la prueba de significado verbal. De modo similar.5 puede observarse que. se encuentra la varianza del número de reactivos completados por diferentes personas y se divide entre la varianza total de las puntuaciones de la prueba (DEc2 DEt2 ) . la confiabilidad de la prueba de espacio es . cuando se calcula apropiadamente. la confiabilidad de la prueba de razonamiento cae de . Para estimar en forma aproximada esta proporción. y la de la prueba de número cae de . queremos saber qué proporción de la varianza total de las puntuaciones es varianza de velocidad.96 a . Por otro lado. en contraste con un coeficiente de pares-nones de . y en una prueba de poder el índice entero también sería igual a cero. En el ejemplo del párrafo anterior. Por supuesto. mientras que la prueba de razonamiento dependía algo más de la velocidad. En este estudio. elevado en forma incorrecta.92 a . la pregunta crucial es: “en qué medida pueden atribuirse a la velocidad las diferencias individuales en los resultados de la prueba?” En términos más técnicos. Las pruebas de espacio y número mostraron que dependen en gran medida de la velocidad. Un ejemplo del efecto de la velocidad sobre los coeficientes de confiabilidad de un solo ensayo se encuentra en los datos de una investigación de la primera edición de la prueba SRA del Test de Fiabilidades Mentales Primarias para las edades de 11 a 17 años (Anastasi y Drake. el numerador de la fracción sería de cero. El cálculo de los índices de velocidad demostró que la prueba de significado verbal era principalmente una prueba de poder.totalmente ausentes. que de algún modo no es de rapidez. Por otro lado. 1954). si la varianza total de la prueba (DEt2 ) es atribuible a diferencias individuales en la velocidad.

la correlación entre ambos tests probablemente sería muy baja. dentro del grupo. Otro ejemplo menos extremo se encuentra en la correlación entre dos tests de aptitud. Si se aplicaran estos instrumentos a una muestra muy homogénea (por ejemplo a un grupo de 300 universitarios de segundo año). Una condición importante que afecta el tamaño del coeficiente de confiabilidad es la naturaleza del grupo en el que fue medido. Debido a la restricción del rango. en esta selecta muestra de estudiantes universitarios hay poca relación entre la habilidad verbal de cualquier individuo y su habilidad de razonamiento numérico. el grado de las diferencias individuales del grupo influye en cualquier coeficiente de correlación. Este diagrama de . Si la habilidad ortográfica de cada miembro de un grupo fuera muy parecida. En primer lugar. El análisis del diagrama de dispersión hipotético de la figura 4. y se encontrarían relaciones similares para otros subgrupos dentro de esta muestra tan heterogénea. si las pruebas se aplicaran a una muestra heterogénea de 300 personas (que comprenda desde individuos con retraso mental hasta universitarios) sin duda se obtendría una elevada correlación entre las dos pruebas. por lo que en ese grupo resultaría imposible predecir la posición de un individuo en cualquier otra habilidad a partir del conocimiento de su puntuación en ortografía. Los retardados obtendrían calificaciones menores que los universitarios en ambas pruebas. Por otro lado. o del grado de diferencias individuales. como uno de comprensión verbal y otro de razonamiento aritmético.DEPENDENCIA DE LOS COEFICIENTES DE CONFIABILIDAD DE LA MUESTRA EXAMINADA Variabilidad.5 es otro ejemplo de la forma en que los coeficientes de correlación dependen de la variabilidad. la correlación de la ortografía con cualquier otra habilidad estaría cerca de cero.

estudiantes de preparatoria. resulta evidente que la correlación entre las dos variables es cercana a cero. el coeficiente de confiabilidad debe volver a determinarse para esta muestra. Pero si considerarnos sólo al subgrupo que cae dentro del pequeño rectángulo en la porción superior derecha del diagrama. si el coeficiente de confiabilidad que indica el manual de una prueba se calculó con un grupo que incluía a niños de cuarto grado a estudiantes de secundaria. ya que las entradas se agrupan alrededor de la diagonal que se extiende del extremo inferior izquierdo al extremo superior derecho. no puede suponerse que la confiabilidad será tan elevada con una muestra de. como es el caso de los universitarios de segundo año. Así. los de confiabilidad dependen de la variabilidad de la muestra en la que se encontraron. Los individuos que caen dentro de este rango restringido en ambas variables representan un grupo muy homogéneo. digamos. Al igual que todos los coeficientes. . Cuando pretende usarse una prueba para discriminar diferencias individuales dentro de una muestra más homogénea que el grupo de estandarización.dispersión muestra una elevada correlación positiva en todo el grupo heterogéneo.

es preferible volver a calcular e1 coeficiente de confiabilidad con un grupo que sea comparable al que va a resolver la prueba. El coeficiente de confiabilidad no sólo varía en la medida en que lo hacen las diferencias individuales en la muestra. sin embargo. por lo general esas diferencias no pueden predecirse o estimarse mediante una fórmula . el manual de la prueba debe informar los coeficientes de confiabilidad por separado para subgrupos relativamente homogéneos dentro de la muestra de estandarización. Más aun. sino también entre grupos cuyo nivel promedio de habilidad difiere.Los textos de estadística elemental proporcionan las fórmulas para estimar los coeficientes de confiabilidad esperados cuando la desviación estándar del grupo aumenta o disminuye. En el caso de las pruebas diseñadas para cubrir un amplio rango de edad o de habilidad. Nivel de habilidad.

nivel de educación.. En tales condiciones. La confiabilidad de una prueba puede expresarse en términos del error estándar de medición (EEM). ERROR ESTÁNDAR DE MEDICIÓN Interpretación de las puntuaciones individuales. la confiabilidad puede ser algo menor para los grupos más jóvenes y menos capaces. Esas diferencias en la confiabilidad de una sola prueba pueden deberse en parte al hecho de que distintos niveles de dificultad de la prueba miden una combinación ligeramente diferente de habilidades. el EEM del CI en esta prueba es 15 ⋅ 1 − 0. o bien a que la longitud de la prueba puede variar con los niveles de edad. El error estándar de medición se calcula con facilidad a partir del coeficiente de confiabilidad de la prueba por medio de la siguiente fórmula: EEM = DEt ⋅ 1 − rtt En la que DEt es la desviación estándar de las puntuaciones de la prueba y rtt es el coeficiente de confiabilidad. es más probable que los coeficientes se apliquen a las muestras que en efecto van a realizar la prueba.89. conocido también como error estándar de las puntuaciones. ya que sus puntuaciones están influidas por la adivinación. los extremos superior e inferior pueden incluir un número insuficiente del grado de dificultad apropiado para permitir que los individuos demuestren adecuadamente lo que son capaces de hacer (efectos de tope o de piso). sexo. y sólo se descubren aplicando la prueba a grupos que difieren en edad o nivel de habilidad. ambos calculados en el mismo grupo.89 = 15 ⋅ 0. etc. ocupación.estadística. Esta medida es en especial adecuada para la interpretación de las puntuaciones individuales. por lo que resulta más útil que el coeficiente de confiabilidad para muchos propósitos de investigación. Como el coeficiente de confiabilidad sólo es aplicable a muestras similares a aquella en la que se calculó.33 = 4. si el CI de desviación de determinado test de inteligencia tiene una desviación estándar de 15 y un coeficiente de confiabilidad de .95 . Incluso cuando el número de reactivos es el mismo. En otras pruebas. Una práctica deseable que se está extendiendo en la elaboración de las pruebas consiste en fraccionar la muestra de estandarización en subgrupos más homogéneos con respecto a edad. e informar por separado los coeficientes de confiabilidad para cada subgrupo. por ejemplo. resulta claro que a cada uno debe acompañarlo una descripción detallada del grupo en el que se determinó y es necesario prestar especial atención a la variabilidad y al nivel de habilidad de la muestra.11 = 15 ⋅ 0.

supongamos que tenemos un conjunto de 100 CI obtenidos con la prueba anterior por una sola niña. pp.58 de EEM de la puntuación obtenida. Podemos entonces afirmar con 99 por ciento de confianza (con una sola posibilidad de error en cada 100) que el CI de Eugenia en una única aplicación de la prueba caerá entre 97 y 123 (110— 13 y 110 + 13). Eugenia. En tales circunstancias.3 (capítulo 3) veremos que ±3σ cubre 99. como cualquier desviación estándar. por consecuencia. aplicamos el razonamiento anterior en la dirección inversa. podemos argumentar que su fluctuación verdadera debe estar dentro de 2.3).58σ a ambos lados de la media comprende exactamente al 99 por ciento de los casos. Así. Si volvemos a la figura 3. Puede verificarse en las tablas de la curva normal de frecuencias que una distancia de 2. Si se aplicaran a Eugenia 100 pruebas equivalentes. podemos elegir probabilidades mayores a 2:1. sino apenas las obtenidas de una sola aplicación de la prueba. Glurring. En términos de dichos “límites razonables” suele interpretarse el error de medición en las pruebas psicológicas. 1987). en la práctica no obtenemos las puntuaciones verdaderas. Recordará que entre la media y ±lσ se encuentra aproximadamente el 68 por ciento de los casos en una curva normal.58 de EEM de su verdadera calificación. o (2. podemos decir que la afirmación sería correcta para el 99 por ciento de los casos. este error puede interpretarse en términos de la curva normal de frecuencias que vimos en el capítulo 3 (véase la figura 3. Con este razonamiento. como acabamos de ver.Para entender qué nos dice el EEM acerca de una puntuación. hay una probabilidad de 99:1 de que el CI de Eugenia esté dentro de un EEM de 2. y así lo interpretaremos en este libro. esas puntuaciones varían y caen en una distribución normal alrededor de la verdadera puntuación de Eugenia. Gulliksen (1950. Si el coeficiente de confiabilidad es elevado. este procedimiento tiene poco efecto. La media de esta distribución de 100 puntuaciones puede tomarse como la “puntuación verdadera” para un uso específico de la prueba. podemos concluir que hay más o menos una posibilidad de 2:1 (o 68:32) de que el CI de Eugenia en la prueba fluctué entre ± 1 EEM o cinco puntos a ambos lados de su verdadero CI. Si deseamos estar más seguros de nuestra predicción. Aunque no nos es posible asignar una probabilidad a esta afirmación para cualquier puntuación obtenida. tanto la puntuación verdadera como el tamaño del intervalo de confianza se calculan a partir del mismo falible coeficiente de confiabilidad. . 17—20) propuso que el error estándar de medición se utilice. a cualquier lado de su verdadero CI.58) (5) = 13 puntos. esperaríamos que obtuviera entre 105 y 115 alrededor de dos terceras partes (68 por ciento).58. si es bajo. Por supuesto. Si es poco probable que el resultado de un individuo se desvíe más de 2. Debido a los errores aleatorios que hemos estudiado en el capítulo. y la desviación estándar de la distribución puede considerarse como el EEM.7 por ciento de los casos. para estimar los límites razonables de la puntuación verdadera de una persona con cualquier resultado obtenido. Si su verdadero CI es de 110. McDennott y Stanley. 7 7 Se han propuesto otros procedimientos que usan una puntuación “verdadera” estimada como centro del intervalo de confianza Dudek 1979. su CI quedaría una sola vez fuera de este margen de valores.

el procedimiento óptimo varia según el propósito particular para el cual se pretende utilizar las puntuaciones de la prueba (por ejemplo. sino como el margen de puntuaciones dentro del cual es probable que se encuerare la verdadera puntuación del individuo.Desde luego. etc. Los problemas comunes de la comparabilidad de las unidades surgen entonces cuando los errores de medición se reportan en términos de problemas aritméticos. Sin embargo. sino también en los reportes de calificación individual que el SAT envía a los examinados. cuando hay mucha variabilidad en los niveles de habilidad no puede esperarse que los coeficientes de confiabilidad y los errores de medición permanezcan constantes.. permanece sin cambio al encontrarse en un grupo homogéneo o en uno heterogéneo. El EEM (o algún otro índice de la exactitud de la medición) permite prevenir un énfasis inadecuado en una sola puntuación numérica. El procedimiento arroja una curva de información de la aprueba que depende únicamente de los reactivos incluidos y permite una estimación del error de medición en cada nivel de habilidad. También da información sobre los EEM para interpretar los resultados de los Exámenes de Registro de Graduados (Graduate Record Exaininations. si deseamos comparar la confiabilidad de diferentes pruebas. Las diferencias en los coeficientes de confiabilidad que revisarnos en la sección precedente se mantienen al calcular los errores de medición a diferentes niveles de la misma prueba. Expresado en términos de las puntuaciones individuales. Por otro lado. el error estándar de medición y el coeficiente de confiabilidad son dos formas de expresar la confiabilidad de la prueba. mientras que el error estándar de medición es más apropiado para interpretar las puntuaciones individuales. Al abarcar un amplio rango de habilidades. por ende. resulta más conveniente el coeficiente de confiabilidad. . A diferencia del coeficiente de confiabilidad. Esta aplicación del EEM es tan importante que cada vez son más las pruebas que expresan las puntuaciones no como un solo número. Interpretación de las diferencias de las puntuaciones. La Junta Universitaria proporciona datos sobre el EEM y una explicación de su uso no sólo en los materiales distribuidos a consejeros de la educación media y superior. esas técnicas brindan una forma de expresar la exactitud de La medición de una prueba en función del nivel de habilidad. El EEM también se incluye en los materiales que explican a los estudiantes el significado de los resultados que obtuvieron en la prueba. para hacer una predicción a largo plazo o la evaluación del desempeñó actual). el error de medición es independiente de la variabilidad del grupo en que se calculó. Las técnicas TRI de análisis de reactivos citadas en el capítulo 3 ofrecen una solución al problema. Cuando se evalúan las diferencias entre dos puntuaciones es muy importante considerar la confiabilidad Más aún. palabras en una prueba de vocabulario. En el capítulo 7 veremos más a fondo esas técnicas. el error de medición no puede compararse directamente de una prueba a otra. al informarse en unidades de calificación. Guía GRE 1995—96).

En los capítulos 8 y 10 (sobre los tests de habilidad) y 13 (acerca de los tests de personalidad) daremos otros ejemplos y un estudio más profundo de los problemas que se deben considerarse al interpretar el perfil de puntuaciones en esas baterías. las calificaciones percentilares obtenidas en cada subtest de la hatería se grafican como bandas de percentiles alrededor del obtenido. que incluye la información ilustrada en la figura 4. Una pregunta frecuente acerca de las puntuaciones de las pruebas tiene que ver con la posición relativa del individuo en diferentes áreas. Al interpretar Los perfiles se advierte a los usuarios que no den importancia a las diferencias entre las puntuaciones cuyas barras percentilares se sobreponen. De este modo. por consecuencia. la probabilidad de que la puntuación “verdadera” se encuentre dentro de la barra es aproximadamente de 2 a 1 (. ¿tiene Tomás más aptitud para las actividades numericas que para las verbales? Si en una batería de aptitudes Nora obtuvo mayor puntuación en la suhprueha verbal que en la numérica y Tornas calificó más alto en la subprueba mecánica que en la verbal. en especial si lo . Debido al interés creciente en la interpretación de los perfiles de calificación. ¿qué tan seguros podernos estar de que volverán a hacerlo al ser examinados con otra forma de la hatería? En otras palabras. Un ejemplo es la hoja de reporte individual para los Tests de Aptitud Diferencial. Cada barra percentilar corresponde a una distancia de un EEM a cualquier lado de la puntuación la obtenida. las editoriales elaboraron formas de reporte que permiten la evaluación de las puntuaciones en términos de sus errores de medición.6.de la prueba y los errores de medición.68 a .32). Pensar en términos del intervalo dentro del cual puede fluctuar cada calificación equivale a considerar una supervisión para impedir un acento excesivo de las pequeñas diferencias entre puntuaciones. La precaución resulta deseable lo mismo al comparar Las puntuaciones obtenidas por diferentes personas que al equiparar los resultados del mismo individuo en diferentes habilidades. Del mismo modo. 1985a). ¿sería posible que las diferencias en las puntuaciones fueran producto de la selección fortuita de los reactivos de las pruebas verbal. es necesario interpretar a la luz de los errores de medición los cambios en las puntuaciones que siguen a la instrucción o a otras variables experimentales. ¿Es mayor la capacidad de Nora para las tareas verbales que para las numéricas?. numérica y mecánica? Estas preguntas son pertinentes para la interpretación apropiada de los resultados en las baterías de calificaciones múltiples tanto de habilidades como de rasgos de personalidad (Anastasi.

El error estándar de la diferencia entre dos puntuaciones puede encontrarse a partir de los errores estándares de medición de los dos resultados mediante la siguiente fórmula:8 EEdif = (EEM1 )2 − (EEM 2 )2 En la que EEdif es el error estándar de la diferencia entre las dos puntuaciones. y EEM1 y EEM2 son los errores estándares de medición de las puntuaciones separadas.6 es probable que la diferencia entre las puntuaciones de razonamiento verbal y de razonamiento numérico refleje una diferencia genuina en el nivel de habilidad. por ejemplo. variables son errores. aleatorios o fortuitos y por lo tanto se . en el perfil de la figura 4. Al sustituir el EEM1 por DE ⋅ 1 − r11 y EEM2 por DE ⋅ 1 − r22 podemos replantear la fórmula directamente en términos de coeficientes de confiabilidad. pero quizá no sea así entre el razonamiento numérico y razonamiento abstracto. .supone que no están correlacionados. Esto se deriva del hecho de que los errores aleatorios o fortuitos de ambas puntuaciones influyen en esta diferencia. mientras que la diferencia entre el razonamiento abstracto y razonamiento mecánico queda en el margen de la duda. Los errores de medición en dos. de la siguiente manera: 8 Esta fórmula no debe ser confundida con la fórmula para obtener el error estándar de una diferencia entre dos medias de grupo. Es bueno recordar que el error estándar de la diferencia entre dos puntuaciones es mayor que el error de medición de cualquiera de esos dos resultados. la cual incluye un término de correlación cuando las dos variables a comparar están correlacionadas.hacen en más de la mitad de su longitud.

la mayor parte de los valores se encuentran cerca de l0. ya que sus puntuaciones tendrían que expresarse en érminos de la misma escala antes de que pudieran compararse. Una implicación estadística importante de las pruebas de destreza es una reducción en la variabilidad de las puntuaciones entre personas. El resultado es 9.96. la mínima diferencia significativa verbal-ejecución al nivel de 0. Podemos ilustrar el procedimiento anterior con los CI verbal y de ejecución de la Escala de Inteligencia para Adultos de Wechsler.93. En una sección anterior vimos que a cualquier correlación.05. sin embargo.97 y . Conforme disminuye la variabilidad de la muestra también lo hace el coeficiente de correlación. el error estándar de la diferencia entre esas dos puntuaciones puede encontrarse de la siguiente manera: EEdif = 15 2 − 0. la variabilidad se reduce a cero. la afecta la variabilidad del grupo en que se calculó.29.93 = 4. La confiabilidad de división por mitades de esos resultados fue de . multiplicamos el error estándar de la diferencia (4. Los CI de desviación del WAIS-R se expresan en una escala con una media de 100 y una DE de 15. va de 8.74 Para determinar qué tan grande puede ser una diferencia obtenida por azar a nivel de .97 − 0. respectivamente.04.05 .EEdif = 2 − r11 − r22 En esta sustitución. se utilizó la misma DE para las pruebas 1 y 2. Cuando se calcula de este modo. la diferencia entre el CI Verbal y de Ejecución de un individuo en el WAIS-R debe ser al menos de 10 puntos para ser significativo a nivel de 0. Revisada (WAIS-R).5. si dos continúan el entrenamiento hasta dominar la habilidad. Teóricamente. Así. por ende. resultaría inapropiado evaluar la confiabilidad de la mayor parte de los tests referidos a dominio aplicando los procedimientos comunes a un grupo de 9 Pueden obtener estimaciones muy precisas usando las confiabilidades y el EEM que realmente se encuentran en cada grupo de edad. como se informa en el manual de las prueba.9 APLICACIÓN DE LA CONFIABILIDAD A LAS PRUEBAS DE DESTREZA Y LAS PUNTUACIONES DE CORTE Recordará que en el capítulo 3 los tests referidos a dominio suelen (pero no necesariamente) evaluar el desempeño en términos de destreza más que en función del grado de rendimiento. aproximadamente 10 puntos.74) por 1.83 a 12. incluidos los coeficientes de confiabilidad. . En consecuencia.

Hay más de una docena de técnicas distintas para evaluar específicamente la confiabilidad de los tests referidos a dominio (Berk. ser asignado a una especialidad ocupacional. incluso una prueba muy estable y consistente produciría un coeficiente de confiabilidad cercano a cero. 1989). 1984a. 1984). Al aplicar la prueba puede variar considerablemente. Estos datos se analizan luego. En estos casos. Algunas son apropiadas para decisiones simples de dominio - no dominio en las que todos los errores de clasificación se consideran igualmente serios cualquiera que sea su distancia de la puntuación de corte. no obstante.personas después de que han alcanzado el nivel preestablecido de destreza. Esta aparente dificultad para la evaluación de la confiabilidad surge del hecho de no considerar lo que los tests referidos a dominio pretenden medir. avanzar a la siguiente unidad en un programa de instrucción individualizada o ser admitido a cierto curso. 1984h. es posible aplicar test y retest con formas paralelas para encontrar el porcentaje de personas para las cuales se tomó la misma decisión en ambas ocasiones. En tales condiciones. los instrumentos se utilizan sobre todo para distinguir entre quienes han adquirido las habilidades y los conocimientos requeridos para determinada actividad y los que no lo han hecho. en la práctica. Brennan. Una parte importante de esta variabilidad refleja las diferencias individuales en la cantidad de entrenamiento recibido en las funciones pertinentes. desde obtener la licencia para conducir. La bibliografía especializada ha examinado ampliamente consideraciones adecuadas (véase Berk. Feldt y Brennan. en todas esas situaciones el hecho de que la prueba sea utilizada implica la expectativa de variabilidad individual en el desempeño. 1984. Otros procedimientos toman en consideración las puntuaciones reales obtenidas en ambas ocasiones y proporcionan indicadores que reflejan la desviación de cada persona por encima o por debajo de cualquier puntuación de corte. . La elección de un procedimiento especial debe tener en cuenta la naturaleza y los usos de la prueba. al calcular los índices de acuerdo con valores significativos. Subkoviak.