Está en la página 1de 8

PUNTUACIONES Y CONVERSIONES DE PUNTAJES

Cronbach (1998) Fundamentos de los test psicolgicos, Cap IV ()

Introduccin Este captulo describe las clases de puntuaciones para informar de los resultados de los test, cmo se interpreta en cada caso y en los estudios estadsticos. En cierto sentido el captulo trata sobre estadstica. La tarea fundamental consistir en aprender qu significan los nmeros incluidos de los informes de los test. Primero se describen algunos procedimientos para mejorar la puntuacin. El resto del captulo explica cmo se suplen y modifican las puntuaciones directas. En la seccin estndar se explicar porque se debe aplicar mediante una negociacin, ms que mediante un anlisis tcnico. Para la conversin de las puntuaciones se mostrarn dos sistemas principales, se explicar cmo los podemos hacer inadecuados o ampliados incorrectamente, llevndonos a tomar malas decisiones. Obtencin de las puntuaciones directas La puntuacin sistemtica de las respuestas dadas en una determinada prueba debe seguir reglas uniformes, un ejemplo lo constituye la gua de Ayres. Para puntuar la escritura, en esta gua se presentan ejemplos que los jueces considerarn representativos de distintos niveles de calidad en la escritura y para determinar el puntaje de un alumno determinado por el profesor debe observar que nivel de la gua se acerca ms a la puntuacin del alumno. Las reglas premian los pensamientos del alumno. Para los items de varias alternativas se construye una clave de respuesta para calcular las puntuaciones. La correccin realizada en este caso es un procedimiento rpido, preciso y econmico. Las respuestas correctas pueden ser ledas con un dispositivo que produzca la marca de la hoja de respuesta en impulsos elctricos que pueden ser comparadas con una clave; la clave; la correccin tambin puede originar respuestas que sean ledas como incorrectas. Por tal motivo en las instrucciones de la prueba se debe insistir en la realizacin de marcas adecuadas. Limitaciones de las escalas de puntuaciones directas El registro directo de una actuacin se denomina puntuacin directa. Esta pude ser el nmero de preguntas que una persona ha respondido, el tiempo que ha necesitado, el nmero de respuestas correctas ms una bonificacin por el trabajo rpido menos las penalizaciones por errores y quizs una proporcin de la calidad general. Las puntuaciones directas pueden ser fcilmente mal interpretadas. Las escalas fsicas de medida, generalmente tienen un cero absoluto y unidades equivalentes en toda la escala. Esto nos permite decir por ejemplo que un nio es el doble de alto que otro, este tipo de comparaciones no se pueden hacer en las medidas psicolgicas. Este mismo argumento se aplica a los test de razonamiento. Las diferencias en puntuaciones directas no representan normalmente distancias verdaderas entre los individuos. Adems el uso de diferentes normas nos llevan a diferentes comparaciones, esto se debe a que intervalos iguales en una escala son desiguales en otras. Para comprender una puntuacin tenemos que tener informacin sobre la tarea, o sobre la ejecucin de otras personas en la tarea, o ambas. Tres clases de interpretacin

Hay tres tipos populares de interpretacin: 1)Interpretacin requerida a los baremos: es el tipo de interpretacin que compara a los examinadores si se ajustan a la curva. Ej: Janet lo hizo mejor que el 80 por 100 de los alumnos de lgebra. 2)Interpretacin referida al dominio: nos informa de hasta que punto una persona se ajusta a los requerimientos de una tarea. O cual es la probabilidad de que lo haga en su vida cotidiana en tareas similares. Ej: Janet puede resolver dos tercios de ecuaciones lineales en una variable. 3)Interpretacin referida al criterio: nos da la informacin sobre cmo actuar una persona en una situacin distinta a la del test. Ej: estudiantes que tienen el nivel de Janet en las ecuaciones lineales, normalmente tienen xito en las siguientes lecciones sobre ecuaciones sin ayudas especiales o tiempos extras. La referencia al criterio es una clase de interpretacin de un signo. Una interpretacin referida al dominio enfatiza el nivel de ejecucin en las tareas o situaciones mostradas por el test. La interpretacin tambin puede ser llamada referencia al contenido. El dominio escogido puede ser homogneo cuando todos los items miden esencialmente el mismo atributo. Un ejemplo de dominio homogneo es la capacidad de detectar diferencias en tonos musicales cerca del tono Mi. El dominio tambin puede ser heterogneo, por ejemplo los conocimientos sobre la actualidad. Principalmente, los pioneros en test psicolgicos insistieron en la interpretacin referida a los baremos. Hoy en da hay muchos test referidos a los otros dominios. Sin embargo el entusiasmo por la referencia de los baremos se mantiene alto en muchos de los test de seleccin. Capacidad de lectura: un ejemplo de una escala de contenido La interpretacin del contenido de una escala no es adecuada a no ser que el contenido sea relevante. Cuando el contenido es significativo, se puede aplicar una estandarizacin. La interpretacin del contenido requiere unos niveles de dificultad bien definidos. La manera ms directa de dar significado a una puntuacin directa es mostrar el contenido del test, pero un informe no puede hacerlo. Tampoco se puede inspeccionar el test en su totalidad. Un sustituto razonable es mostrar tareas ilustrativas de la actualidad de una persona, a uno u otro nivel de capacidad definido. Grados de capacidad lectora (DRP) es una prueba de comprensin lectora basada en una escala de contenidos. Tiene la forma conocida como completamiento. La interpretacin del DRP se facilita por el informe de capacidad lectora, un libro que contiene textos de diferente dificultad para escolares, textos cientficos, y otros materiales educativos. Los valores de dificultad se calculan a partir de una frmula. Las selecciones varan su nivel de dificultad, de modo que es fcil ver qu niveles estn dentro de la capacidad del nio. Para su desarrollo, se escogen varios textos y una muestra representativa de personas, a partir de los resultados obtenidos se identificaron los textos ms difciles, en los que se contemplan la longitud de las frases, el nmero de palabras por frase y la frecuencia de palabras inusuales. Estos elementos se combinan en una frmula de legibilidad. Para calcular la legibilidad de cualquier libro se aplica la frmula a prrafos significativos de ste. Un nivel de 30 indica primer nivel, mientras que los que superan

80 son ms difciles que la mayora de los textos de las universidades, los peridicos por ejemplo suelen tener un ndice de 70, pero las pginas de deportes son bastante ms fciles. La puntuacin directa de un estudiante se traduce en una escala de capacidad lectora. La importancia fundamental de la individuacin de la lectura se traduce en que por ejemplo un profesor puede asignar textos de un nivel medio para sus alumnos, establecido mediante la aplicacin de la DRP para conseguir un progreso razonable. Ajustando los estndares En algunas aplicaciones de test, las reglas de decisin deben ser flexibles, por ejemplo, los candidatos para la entrada a la universidad deben ser eliminados si la probabilidad de fracasar es elevada, y en el caso opuesto, aquellos que tengan elevadas probabilidades de xito deben ser admitidos sin problemas. En el punto medio de la escala, el comit de admisin no solamente debe trabajar de acuerdo con los individuos, sino que debe considerar a los otros estudiantes. Si la norma es demasiado indulgente, no se producir ningn mal haciendo a los individuos de mayor rendimiento repasar principios bsicos. Sin embargo, es en las situaciones de adjudicacin de ttulos cuando la aplicacin de los baremos cobra una importancia crtica. En estas aplicaciones es habitual aplicar los criterios de corte de manera ciega( dado que el juicio individualizado podra favorecer a algunos individuos). Los individuos pueden repetir las pruebas sin problemas. El nmero de candidatos no est relacionado con el nmero de aspirantes. Sin embargo, los directores de estas instituciones son libres de elevar o disminuir la puntuacin exigida para obtener un determinado ttulo. La determinacin de los Estndar tiene tres aspectos: empricos, polticos y judiciales. Los procedimientos tcnicos mejoran los juicios basados en los contenidos. Si se le pide a una comisin que coloque el punto de corte en una escala, esta decisin puede ser arbitrara. Los juicios basados en el nivel de la prueba hacen un mejor uso de los conocimientos de los expertos. Una comisin de profesores por ejemplo puede revisar un examen en donde la informacin puede ser utilizada de dos maneras. Primero, puede ser utilizada para eliminar tem excesivamente difciles o sin importancia. Segundo, los procedimientos estadsticos pueden determinar qu puntuacin en el test ser utilizada para determinar en el futuro si un estudiante ha alcanzado o no el nivel exigido por los jueces. Los mtodos de calibacin pueden reducir o eliminar la necesidad de nuevos juicios cuando se desarrollan mas tem. Los procedimientos de este tipo estn todava bajo desarrollo no llevando siempre a una conclusin comn. Percentiles Es difcil comparar puntuaciones de test de diferentes longitudes, a menos que se construya una escala comn. La forma ms simple de comparacin es el orden, dado que dpenden del nmero de personas en el grupo. Se presentan dificultades cuando cambian los nmeros, por tanto los rdenes suelen transformarse en puntuaciones percentiles. El percentil es el orden expresado en porcentajes. Un percentil dice qu proporcin del grupo se sita por encima o por debajo de una medida o persona por ejemplo.

Con este mtodo de clculo, la persona situada exactamente en el medio del grupo es el percentil 50 o mediana. La mediana puede definirse como el resultado de la persona tpica. Utilizar un procedimiento grfico tiene ventajas como: disminuir las irregularidades en la muestra y, por tanto, da una mejor estimacin de qu puede esperarse cuando se examinen grupos en el futuro. Las puntuaciones directas y los percentiles se distribuyen de manera distinta. La distribucin de las puntuaciones directas es ms elevada en el centro y menos elevada en los extremos. La conversin a percentiles dispersa las puntuaciones de las personas situadas en el promedio de la distribucin de las puntuaciones. De modo que una diferencia elevada en percentiles, lejos de la mediana, se deriva de una pequyea diferencia en ejecucin. Los baremos son una clase de censo, y como tal proporcionan un marco de diferencia (referencia). Por ejemplo si los estudiantes de un curso determinado obtienen una puntuacin baja en capacidad lectora, esto debera ser tomado en cuenta para la planificacin de ese curso. Los baremos son la base para la comparacin entre test, no obstante , la interpretacin de test distintos es complicado. Las puntuaciones percentiles de dos test no pueden compararse a menos que los grupos en los que se basan las conversiones sean similares. Cuando se aplican los baremos se debe tener en cuenta el grupo normativo del que proceden. Algunas tablas hacen referncia al sexo o a los grupos tnicos. La versin DAT o MCT tienen baremos para el comienzo y el final del curso acadmico. Puntuaciones Tpicas Media y desviacin tpica, son una de las formas ms comunes de presentar los datos grupales. La media (X) es el promedio aritmtico obtenido cuando sumamos todas las puntuaciones y dividimos el resultado por el nmero de puntuaciones. La desviacin tpica describe la dispersin de las puntuaciones, es una clase de promedio de las diferencias entre las puntuaciones y la media del grupo. Se puede determinar cul es la distancia de las puntuaciones y la media del grupo y hacer un promedio de esos valores, luego se puede elevar al cuadrado cada desviacin y hacer un promedio, el que se denomina varianza. La desviacin tpica sirve como criterio, por ejemplo que la diferencia media entre dos grupos es una prueba de capacidad lectora. La diferencia puede ser importante o no, como tambin ser valorada solamente por alguien muy familiarizado con la prueba. La proporcin entre la diferencia de medias y la desviacin tpica se denomina tamao del efecto. La desviacin tpica se usa tambin para delimitar todo lo excepcional que es la puntuacin de una persona. La varianza puede ser interpretada como cantidad de informacin. Tambin puede ser descompuesta en sus componentes. Conversin de las escalas: una escala de puntuaciones tpicas tiene el mismo propsito que la escala de percentiles. Una puntuacin tpica informa cuantas desviaciones tpicas est una persona por encima o por debajo de la media. La transformacin de las puntuaciones directas a puntuaciones tpicas no altera la forma de la distribucin. El inventor de cada escala tuvo sus razones, los estanines por ejemplo se inventaron cuando resultaba econmico poner la mxima cantidad de informacin en una sola columna.

Segn el autor, se debera usar un solo tipo de escala para evitar confusiones, a su parecer la puntuacin 50 de media y 10 de desviacin estndar. La escala usada por el SAT (500-100) es muy habitual. Se asigna la puntuacin de 500 a cualquier puntuacin actual que se habra situado en la media del ao en que se construy (1941) la escala, aplicndose para ello mtodos especiales de calibracin. Los puntajes descendieron con los aos, pero en los ochenta se invirti algo esa tendencia. Escalas de edad y grado: El autor condena estas escalas. Cualquiera que sea la puntuacin obtenida por un nio de 7 aos, se convierte en una puntuacin de "edad equivalente" de 7, as un nio de 5 o de 10 puede tener una puntuacin convertida de 7. De modo similar, cualquier puntuacin que sea la puntuacin promedio de un curso de quinto grado, se convierte a 5 en la escala de "grado equivalente". Estas escalas comparan al nio con un grupo del que no forma parte. Adems, no consideran las diferencias culturales y que el progreso realizado en un ao vara de un alumno a otro. La distribucin Normal: La curva normal es simtrica. Las distribuciones desequilibradas por el contrario, se denominan "sesgadas". Ejemplos de distribuciones normales: la estatura de los hombres americano, la distribucin de muchos test psicolgicos (lo que cambia cuando hay seleccin de muchos o pocos tem extremos). Pero existen tambin variables que no tienen una distribucin normal como por ejemplo: la capacidad de los americanos de hablar francs o la frecuencia de las peleas de los nios en la calle, o los tiempos de los jvenes de 20 ao corriendo 40 metros. La curva normal no describe la distribucin de las puntuaciones exactamente pero los psicomtricas la tienen presente porque en la mayora de las circunstancias proporcionan una buena aproximacin. Comparaciones de las conversiones de las puntuaciones Ventajas de los percentiles: fcilmente comprensibles, calculables, pueden interpretar se exactamente con independencia de la forma de la distribucin. Desventajas de los percentiles: Magnifican las diferencias cerca de la media, que pueden no ser tan importantes, y reducen el tamao de las diferencias grandes y de importancia prctica en las colas de la distribucin. Ventajas de las puntuaciones tpicas: Las diferencias en las puntuaciones tpicas son proporcionales a las diferencias en las puntuaciones directas; el uso de puntuaciones tpicas en las correlaciones y otras transformaciones d el mimo resultado que si se realizase el clculo mediante las puntuaciones directas. Desventajas de las puntuaciones tpicas: no pueden ser interpretadas adecuadamente cuando la distribucin est sesgada, y son extraas para las personas no iniciadas en estadstica Las puntuaciones normalizadas, obtenidas tras el ajuste de una distribucin a los parmetros de los normal, son un problema. Perfiles: La interpretacin de los perfiles debe ser cuidadosa. Percentiles iguales no significan actuaciones equivalentemente buenas. Si casi todo el mundo no puede cantar una meloda, el percentil 50 significa una buena actuacin. Es lgicamente imposible igualar las escalas para distintas variables. Es bueno considerar o manejar cierta informacin del sujeto para interpretar el perfil de un sujeto. Por ejemplo: Roberto era considerado brillante hasta que empez el instituto, donde tuvo problemas con la lectura, por lo que lo profesores y el mismo pensaban que no era capaz. El perfil del DAT arroj puntuaciones elevadas en todas las pruebas menos en lenguaje.

BAREMOS: Un test est normalizado cuando se ha construido la distribucin de las puntuaciones en una poblacin de personas. Un psiclogo clnico rara vez tiene experiencia suficiente para saber qu puntajes bajos o altos son raros. Los baremos son tiles para justificar un diagnstico clnico. Los baremos representan un papel importante para evaluar programas educativos con test estandarizados. Un editor de test informa anualmente sobre los baremos de sus test y los directores de escuelas deberan hacer lo mismo. Cuando se corrigen los resultados de una poblacin, el ordenador los compara y barema con respecto a otras poblaciones que tengan las mismas o similares caractersticas. Este ajuste siempre debera hacerse. Los baremos deben reflejar claramente las poblaciones de las que son resultado. El usuario de test puede juzgar los baremos en funcin de las siguientes preguntas: Est formado el grupo normativo por una clase similar a la del examinado? Es la muestra significativa de la poblacin? Es la muestra significativamente grande? Est la muestra adecuadamente subdividida? El manual debe indicar cules son las variables relevantes que afectan al nivel y a la dispersin de puntuaciones. Seleccin de la muestra: Para la normalizacin del test es importante ajustar la muestra a las caractersticas de la poblacin. Cuando las muestras estn adecuadamente distribudas (tienen las mismas caractersticas relevantes de la poblacin) un tamao mayor nos proporciona mejores baremos. Los baremos se consideran adecuados slo si estn construidos sobre la base de estudio de campos rigurosos, con los controles adecuados sobre factores regionales, socioeconmicos y educacionales , entre otros. Incluso cuando el muestreo es correcto se debe ser consciente sobre las limitaciones de un instrumento. Los baremos para los inventarios de personalidad son notoriamente inadecuados, lo que es muy problemtico, ya que las interpretaciones estn basadas generalmente en un perfil referido a los baremos. Actualizaciones: Los cambios en la distribucin de las poblaciones cambian los significados de media y deficiente en cualquier tipo de test. Estos cambios hacen que los baremos queden obsoletos, por lo que los cambios necesitan de una revisin de los baremos o al menos una comprobacin de la validez de su aplicacin. Incluso cambios superficiales de formato pueden provocar modificaciones relevantes. Baremos diferenciados: Una importante cuestin es si centrarse en un grupo especfico o general de comparacin. Los baremos especializados tienen como principal funcin comparar a una persona con otros de su clase. Pero cuando una persona compite con un cierto rango de estos otros, esto define el grupo relevante de comparacin. SOMPA: El sistema ms elaborado de baremos diferenciados Baremos calibrados: En lugar de recoger datos nuevos de una muestra representativa para un test nuevo, los editores pueden ajustar el nuevo test a otro que haya sido recientemente baremado. El proceso de calibracin es similar al proceso de ajustar un barmetro de mercurio.

Escalamiento unidimensional En una escala pura las tareas o las cuestiones varan en el grado de dificultad en la misma dimensin. Un conjunto de tareas es estrictamente unidimensional si el orden de dificultad es el mismo para cada uno de los miembros de la poblacin de inters. La memoria para los dgitos tiene esta propiedad: si puede recordar series de 8 dgitos, tambin puede recordar series ms reducidas El procedimiento de escalamiento es el siguiente: 1)Comprobacin de la homogeneidad de un conjunto de items, descartando los menos adecuados si fuera necesario. 2)crear una escala con ciertas propiedades matemticas 3)Despus de responder se le sita en la dimensin que vara a lo largo del conjunto. Todos los subconjuntos se calibran con la misma escala. Ajuste de la escala de puntuaciones El escalamiento unidimensional es denominado tambin como teora de respuesta al items(TRI) y teora del rasgo latente. La idea bsica es ordenar los items en funcin de su dificultad y ajustar la escala segn algunos supuestos matemticos. El escalamiento puede ser definido como el ajuste a una curva. El punto de partida es un registro de quin ha superado cada items. Los registros se agrupan por niveles de puntuacin y se calculan los niveles de xito parta cada items en funcin de estos niveles de puntuacin. Cada curva puede describirse en tres nmeros o parmetros: 1)localizacin: la posicin donde la curva alcanza el punto medio de su altura (dificultad del item) 2) Pendiente: inclinacin de la curva. 3)Nivel base: probabilidad que la persona con menor capacidad responda correctamente -Modelo de un parmetro: el procedimiento solamente considera el parmetro de localizacin de los items, que se denomina modelo de rasch -Modelo de dos y tres parmetros: estos modelos no suscriben la afirmacin de que los items miden la dimensin subyacente con igual eficacia. Por tanto, requiere ms datos y son ms complejos de calcular. Bajo estos modelos el ajuste de la escala de puntuaciones se basa en la pendiente media en varias regiones de la curva. Un items con una gran relacin con el total de la escala tiene una mayor pendiente que los otros, su estimaciones son ms precisas. El modelo de tres parmetros es ms eficaz para items de eleccin mltiple. Los modelos de uno y dos parmetros son eficaces en la correccin habitual por azar. El modelo tres parmetros considera que la tasa de aciertos en un item est relacionada con el nmero de alternativas. Aplicaciones Construccin y utilizacin de los bancos de items: una vez que se han construido y baremado un conjunto de items, se almacenan con sus parmetros correspondientes. Dentro del banco pueden construirse un test que mida cualquier nivel de dificultad y precisin de la dimensin de intereses. Los mtodos de escalamientos son especialmente combatibles con interpretaciones referidas al dominio; se puede especificar la posicin en la escala.

Si los baremos que representan alguna poblacin, se construyen para un conjunto de items, se puede calcular un tabla de conversin que permita una interpretacin referida a las normas de cualquier nueva forma. -Test Adaptativos: un banco de items escalados es esencial para los test adaptativos; estos test son escogidos por la accin del examinador. La incertidumbre asociada a la estimacin disminuye al incrementarse el nmero de respuestas. En el DAT, cada estudiante tiene 35 items en el MCP. Otros programas finalizan el procedimiento de aplicacin del test tan pronto como el 0 individual se ha estabilizado en grados suficientes para los propsitos del test. Bajo estos procedimientos, un estudiante puede intentar 20 problemas del MCT, mientras que otro puede intentar 45. Comparar los items entre los grupos: un uso complementario de la TRI es detectar los items que son exageradamente fciles o difciles en algn subgrupo. Cautela Las escalas psicolgicas unidimensionales nos son, generalmente, uniformes en su contenido, como muestra el subtest de aritmtica bsica. Una balanza bien equilibrada mide la masa de un objeto, y nada ms. La puntuacin en la subescala de aritmtica mide la competencia en esta, el esfuerzo y la precaucin. Abarca otras capacidades. Un nio puede confundirse en los decimales pero saber resolver fracciones impropias; lo opuesto puede ser cierto en otro nio. Las taras de dominio diferentes pueden considerarse como unidimensionales en el procedimiento usual de escalamiento, si una tarea determinada es fcil y otra difcil en el mismo orden de dificultad para casi todo el mundo. Las escalas dependen del grupo de referencia (incluso si no estn baremadas). Describen una poblacin de personas con historias particulares. Es la escala bsica de aritmtica, la restas es ms fcil que la multiplicacin. Pero este orden puede ser invertido si las escuelas ensean antes a multiplicar y a restar. Es incorrecto afirmar como algunos autores han hecho, que los valores de la escala son independientes de la cultera, la educacin y la edad. Resulta difcil juzgar cuanto puede cambiar una poblacin antes de que los baremos den resultados correctos. (pero la experiencia con la transferencia ha sido generalmente positiva).

También podría gustarte