Documentos de Académico
Documentos de Profesional
Documentos de Cultura
LECCION 1
INTRODUCCION A LA MEDICION
1. INTRODUCCION
Hace algunos siglos, medir resultaba algo muy complicado. Como decíamos, medir es
simplemente comparar, y cada persona, cada pueblo, cada país comparaba las cosas
con lo que más se le antojaba. Por ejemplo, usaban la medida mano para medir
distancias, y aún hoy mucha gente, cuando no tiene una regla o una cinta métrica, mide
la mesa con la mano o el largo del cuarto con pasos.
Desde la aparición del ser humano sobre la tierra surgió la necesidad de contar y medir,
no es posible saber cuando surgen estas unidades para contar y medir, pero la
necesidad de hacerlo aporta ingredientes básicos que requiere la metrología como
mínimo, para desarrollar su actividad fundamental como ciencia que estudia los sistemas
de unidades, los métodos, las normas y los instrumentos para medir.
Se ha dicho que todos los descubrimientos han tenido lugar gracias a las mediciones
precisas del tiempo, masa o longitud; de estas tres, la medición exacta de la longitud es
la que ofrece más dificultades y han adquirido mayor importancia, hasta el momento
presente en que sigue constituyendo uno de los mayores problemas con que deben
enfrentarse el mundo de la mecánica.
2. ¿QUÉ ES MEDIR?
Para establecer medidas debemos partir de nuestra observación del mundo real o
dominio.
Debemos identificar cuáles son las entidades que queremos medir (p.ej., tamaño) y
definir qué atributo deseamos caracterizar (p.ej., estatura).
Medir: asignar números a las cantidades e las propiedades de una persona de acuerdo
con reglas preestablecidas y que se puede comparar; Es decir, cuantificamos
cualidades.
En psicología las características las inferimos por lo que es importante que los
instrumentos de medida constaten que esas inferencias son reales.
Los instrumentos son los test psicométricos que pretenden ser una medida objetiva y
tipificada de pequeñas muestras de conducta significativas del sujeto.
3. CONCEPTO DE MEDICION
Cuando se encuentra midiendo cualquier cosa, deberá serse lo más cuidadoso que se
pueda para no alterar el sistema, si bien el margen de error siempre se considera
presente, ya sea por las imperfecciones que pueden presentar el medidor, el instrumental
o hasta de los errores experimentales, deberá tratarse que el mismo sea el mínimo
posible.
El patrón que facilita llevar a cabo las mediciones se conoce como unidad de medida y
deberá cumplir con tres condiciones básicas: universalidad (utilizado en todos los países
del mundo), inalterable (no podrá presentar variación en el tiempo ni por quien realice la
medición), reproducible.
Para facilitar la cuestión, los científicos, han reunido las unidades tipo patrón más
conveniente y desarrollaron los sistemas de unidades, por ejemplo el Sistema
Internacional (S.I.), el mencionado fue acuñado en el año 1960 en la XI Conferencia
General de Pesos y Medidas, siendo las magnitudes fundamentales que se tomaron las
siguientes: longitud, masa, tiempo, temperatura termodinámica, cantidad de sustancia,
intensidad luminosa, ángulo plano, ángulo sólido e intensidad de corriente eléctrica.
El resultado de una medición se conoce como medida.
Stevens (1951), afirma que “medir es asignar números a objetos o datos de acuerdo
con ciertas reglas”. Togerson (1958), crítica esta definición señalando que, al medir no
se asignan números a los objetos, por lo cual estará más de acuerdo con la definición
de Campbell (1938).
Kerlinger (1973), dice que, “en cierto sentido, la medición es sólo un juego y el objeto
de dicho juego es producir una correspondencia entre la medición y la realidad; cuanto
mayor sea esa correspondencia, tanto mejor será la medición”.
Herrera Rojas (1993), dice que “la medición comprende la definición del atributo que se
quiere medir, el establecimiento de la unidad de medida a emplear, la operación de
comparar el primero con la segunda y la asignación de valores numéricos como
resultado de esa comparación siguiendo reglas convencionales”
Nunally y Berstein (1995), es importante tener presente que no se miden las personas
sino atributos, es decir, características particulares de los objetos de medición.
Ejemplo: en la práctica no medimos a un adolescente, sino algunos de sus atributos,
como: su inteligencia, su personalidad, sus preferencias vocacionales, sus hábitos de
estudio, etc.
4. SISTEMA NUMERICO
4.1 NUMERACIÓN
a. Numeración Griega
Coexistieron dos sistemas de numeración paralelos. El primero de ellos estaba
basado en las iniciales de los números, el número 5 se indicaba con (eta); elη
(delta) el 100 con la letra δ (PI); el 10 con la letra π la letra (mu). En el µ (chi) y el
1000 con la letra χ1000 con la letra segundo sistema eran usadas todas las
letras del alfabeto griego más otras tres tomadas del alfabeto fenicio como
guarismos. La ventaja de este sistema era que con poca cantidad de números se
podían expresar grandes cifras; pero había que saberse de memoria un total de
27 símbolos.
b. Numeración Romana
Este sistema (tan bien conocido por nosotros) tuvo el mérito de ser capaz de
expresar los números del 1 al 1.000.000 con solo siete símbolos: I para el 1, V
para el 5, X para el 10, L para el 50, C para el 100, D para el 500 y M para el
1000. Es importante acotar que una pequeña línea sobre el número multiplica su
valor por mil.
En la actualidad los números romanos se usan para la historia y con fines
decorativos. La numeración romana tiene el inconveniente de no ser práctica
para realizar cálculos escritos con rapidez.
c. Numeración Arábiga
a. Valores posiciónales
La posición de una cifra indica el valor de dicha cifra en función de los valores
exponenciales de la base. En el sistema decimal, la cantidad representada por uno
de los diez dígitos - 0, 1, 2, 3, 4, 5, 6, 7, 8 y 9-depende de la posición del número
completo.
Para convertir un número n dado en base 10 a un número en base b, se divide (en
el sistema decimal) n por b, el cociente se divide de nuevo por b, y así
sucesivamente hasta obtener un cociente cero.
b. Sistema binario
c. Números
5. PROPIEDADES LOGICAS
Para aplicar a las propiedades de la naturaleza un modelo matemático hay que cumplir
ciertos requisitos, por lo tanto nos podemos preguntar ¿cuáles son las características
de la serie real de los números? Los números reales del sistema numérico presentan
tres características fundamentales:
a. Orden,
Es decir que los números están ordenados de mayor a menor. Ejemplos: 1 menor
que 2; 2 menor que 3; 3 menor que 4, etc.
b. Distancia,
Significa que la diferencia entre dos números o pares de números puede ser de
tres tipos: “mayor que”; “menor que” e “igual que”. Ejemplos: 7 es mayor que
1; 7 es igual a siete y 7 es menor que 28. También podemos decir: 9-7 es
menor que 9-6; o que 7-4 es mayor que 6-4, etc.
c. Origen,
Es decir, la serie numérica tiene un origen único llamado “cero” y la diferencia
entre cualquier par de números que tiene a O en un miembro es igual al número
del otro miembro. Ejemplo: 6 – 0 = 6
Los hechos o fenómenos no pueden satisfacer todas las propiedades de los números,
no obstante, nos permiten hacer ciertas mediciones de los mismos. Campbell (1938),
sostiene que existen nueve postulados básicos para la medición:
a) Postulados básicos de identidad o equivalencia:
Si a es igual a b; o bien a es diferente a b. Los números son iguales o
diferentes.
Si a es igual a b, entonces b es igual a a. Es decir, la relación de igualdad es
simétrica.
Si a es igual a b y b es igual a c, entonces a es igual a c. Es decir, dos cosas
iguales a una tercera son iguales entre si. Transitividad.
Asimismo la influencia de algunos pensadores como Kant, que sostuvo que las
matemáticas no pueden aplicarse a la psicología, o de Bergson en contra del
positivismo, retardaron la aplicación de la estadística en psicología; sin embargo, otros
estudiosos como cita Cortada de Kohan (1999), afirman que la medición es posible
porque la estructura del pensamiento del hombre y la actividad psicológica en general
poseen propiedades desde el punto de vista lógico que son suficientemente similares a
la estructura de las matemáticas y por lo tanto se puede establecer un isomorfismo.
En psicología medimos para tener datos más precisos y además ahorra tiempo, esfuerzo
y dinero. Cuanto más complejo es lo que se pretende analizar la medida simplifica la
realidad compleja.
Cada ítem de un test es una pequeña muestra de conducta.
Los elementos esenciales para medir en psicología son:
a. señalar o definir la cualidad o atributo que queremos medir
b. operativizar el atributo en base a las manifestaciones del mismo
c. ver la relación entre cualidades y cantidades.
d. Traducir e interpretar los datos cuantitativos para darles una cualidad. Es decir,
interpretar los datos cuantitativos en base a unas normas de interpretación.
7. CLASES DE MEDICION
1.Se debe dar una definición de la variable, por ejemplo: “inteligencia”; “aptitud”;
“hábitos”; “temperamento”, etc.
2.Se debe dar una regla o un conjunto de ellas, por la cual se establezcan las
operaciones que permitirán diferenciar entre los sujetos.
La definición de una variable es generalmente abstracta mientras que las reglas son
definidas operacionalmente. Técnicamente, cuanto más específica es la regla más
exacta es la medición.
9. PROCESO DE EVALUACION
Ejemplo: Cuando en la práctica decimos que un niño posee un CI de 85, sólo hemos
medido algo. Para que esto constituya una evaluación, debemos concluir que el
resultado obtenido por dicho niño es inferior al promedio de la población escolar y que
es probable que el niño tenga dificultades de aprendizaje y que por lo tanto requiera
aprestamiento y nivelación, etc.
En resumen, la evaluación implica un proceso sistemático destinado a obtener
información sobre ciertas características de los sujetos examinados que nos sirvan de
base para tomar decisiones. Asimismo, la evaluación psicológica se da en diferentes
ámbitos especializados: clínico o de la salud; educacional; organizacional; social-
comunitaria; deportiva; penitenciaria, etc. Es evidente que la evaluación no sólo se
refiere a la aplicación de tests, sino que implica la observación conductual, la entrevista,
la observación y las calificaciones, entre otros elementos, utilizados por el evaluador
para la toma de decisiones (Cohen y Serdilk, 2000).
a. Definición de Variable
Variable es toda característica o atributo susceptible de tomar un valor y ser
medido.
Una variable es cada una de las características o cualidades que poseen los
individuos de una población.
Cuando hablemos de variable haremos referencia a un símbolo (X, Y, A, B,...) que
puede tomar cualquier modalidad o categoría (valor) de un conjunto determinado,
que llamaremos dominio de la variable o rango.
A diferencia de una variable que puede tener valores diferentes, una constante puede
ser reemplazada sólo y únicamente por un valor. Ejemplo, en la expresión C = 2phi r,
los símbolos C y r pueden ser reemplazados por un conjunto infinito de números
positivos; sin embargo, el símbolo phi es una constante y sólo puede ser reemplazado
por 3.1416.
Por otra parte, observamos también que en este caso C y r son variables que están
funcionando relacionadas, es decir, el valor de C depende del valor de r. Del mismo
modo, las variables son muy diversas y por lo tanto conviene que las clasifiquemos ya
que no todos los cálculos estadísticos se pueden hacer con todas las variables.
Para efectos de nuestra temática, podemos dividir las variables en varios tipos:
El rasgo específico que caracteriza estas variables es que pueden ser divididas
en clases separadas y mutuamente exclusivas. Ejemplo: el sexo, la raza, la
religión, el partido político, la ocupación, la actitud hacia los maestros, el estado
civil, etc.
Asimismo, en el sexo tenemos hombre y mujer; en la raza tenemos: negros,
blancos, orientales, etc.; en la religión tenemos a católicos, protestantes, judíos,
budistas, musulmanes, etc.
En algunos casos, las variables cualitativas consideran una pauta de orden.
Ejemplo: el promedio de los exámenes calificado como: reprobado, aprobado,
bueno, distinguido y sobresaliente. Cuando se trata de medir actitudes hacia la
política en adolescentes universitarios podemos considerar los siguientes
niveles: muy favorables, favorables y desfavorables.
En resumen, las variables cualitativas son muy frecuentes en la psicología y en
las ciencias sociales pero son las más difíciles de evaluar desde el punto de vista
estadístico.
2. Variables cuantitativas.
LECCION 2
MEDICION PSICOLOGICA
1. INTRODUCCION
La medición en Psicología ha sido difícil de aceptar en parte por la gran influencia de dos
grandes pensadores como Kant, que no creía que la psicología como estudio de la
experiencia interna pudiera ser sometida a una comprobación objetiva (Toloso Gil,1998)
y Bergson que había insinuado que las matemáticas no podían aplicarse a la psicología.
Sin embargo, hoy se acepta la medición en psicología porque la estructura del
pensamiento del hombre y de la actividad psicológica en general posee propiedades que
desde el punto de vista lógico son suficientemente similares a la estructura de las
matemáticas. Es posible por lo tanto, establecer un isomorfismo. Por ejemplo Lord y
Novick (1968 p.17) definen la medición como “un procedimiento para la asignación de
números (puntajes o medidas) a propiedades especificadas de unidades experimentales
de tal modo que las caractericen y preserven las relaciones señaladas en el dominio
comportamental”. Las “reglas” en el sentido de Stevens(1951) y el “preservar las
relaciones” de Lord y Novick suponen que para representar la propiedad debe existir un
isomorfismo entre las características del sistema numérico y las relaciones entre las
diversas cantidades de la propiedad medida.
2. MEDICION PSICOLOGICA
Proceso de asignar números u otros símbolos a los objetos de tal forma que las
propiedades de los números o símbolos reflejan propiedades del atributo medido Se
aplica a las propiedades de los objetos más que a los objetos mismos.
Así, se usa para medir diferentes aspectos psicológicos de una persona, tales como
conocimiento, habilidades, capacidades, o personalidad
Los instrumentos que se utilizan para llevar a cabo tal medición se les denominan
Escalas de medición.
Según Stevens (1951, 1970b) citado en Alarcón (2008), considera a la medición como
la asignación de numerales a objetos o eventos de acuerdo a reglas.
A un nivel práctico, la psicometría hace uso intensivo sobre todo de cálculos y análisis
estadísticos para extraer información útil a partir de la administración repetida de un
mismo test a un grupo amplio de personas.
La Psicometría es una rama de la psicología y es una ciencia cuyo objeto es medir los
aspectos psicológicos de una persona (conducta humana).
Se le considera además, un campo metodológico que hace uso del lenguaje formal de
la ciencias matemáticas, cuyos niveles de acción incluyen contribuciones teóricas y
aplicativas a la medición de los fenómenos psicológicos
3. MÉTODOS DE MEDICIÓN:
a.Método de prueba:
Analizar y controlar de forma estricta la situación; Hay estandarización y la tarea es
predeterminada. Ej. Prueba objetiva
b.Método observacional:
Trata de medir la conducta en situaciones naturales por lo que no hay
estandarización.
c.Método mixto:
Observación planificada: se estandariza la observación y el modo de medición pero
hay libertad en cuando a que se realiza en el medio natural. Permite cuantificar de
forma natural.
4. ESCALAS DE MEDICIÓN
Antes que una variable sea tratada estadísticamente debe ser observada / medida para
un conjunto de unidades observacionales, las unidades observacionales son aquellos
entidades que se observan, cuando las observaciones se cuantifican (es decir se
expresan numéricamente) se dice que los números son medibles, una medición es una
observación que se expresa físicamente ò en forma numérica, es decir cuando se le
otorga un valor determinado según su magnitud.
La medición de las variables puede realizarse por medio de cuatro escalas de medición.
Dos de las escalas miden variables categóricas y las otras dos miden variables
numéricas (Therese L. Baker, 1997). Los niveles de medición son las escalas nominal,
ordinal, de intervalo y de razón. Se utilizan para ayudar en la clasificación de las
variables, el diseño de las preguntas para medir variables, e incluso indican el tipo de
análisis estadístico apropiado para el tratamiento de los datos.
Una variable está medida en escala nominal cuando se utilizan nombres para
establecer categorías. Para distinguir los agrupamientos se emplean símbolos,
letras e incluso números, aunque estos últimos solo cumplen una función de
carácter simbólico y no numérico. Los cálculos matemáticos con estos números no
tendrían sentido.
Constituye el nivel de medición más bajo de todos los mencionados. En este caso,
los objetos sólo pueden ser nombrados y contados. Consiste simplemente en
clasificar observaciones dentro de ciertas categorías, las cuales deben ser
mutuamente excluyentes y colectivamente exhaustivas. Por lo tanto, no puede haber
ninguna observación que no pueda ser asignada a una de las categorías; y, por otra
parte, una misma observación no puede ser clasificada en dos categorías diferentes,
a la vez.
De la misma manera, sería incorrecto decir que una persona que tiene 40ºC de
temperatura tiene el doble que otra que sólo tiene 20ºC, o que una persona que tiene
cero (0) temperatura no tiene ninguna temperatura. En este último caso se trata de
que en este nivel de medición no existe un cero absoluto, sino relativo. Por lo tanto,
la medición cero no implica la ausencia de la característica.
D. Medición de razón:
Debido a la similitud existente entre las escalas de intervalo y de razón, SPSS las ha
reunido en un nuevo tipo de medida exclusivo del programa, al cual denomina Escala.
Las variables de escala son para SPSS todas aquellas variables cuyos valores
representan magnitudes, ya sea que cuenten con un cero (0) absoluto o no. Teniendo
esto en cuenta discutiremos a continuación los diferentes procedimientos estadísticos
que se pueden utilizar de acuerdo al tipo de medida de cada variable.
Es la escala más fuerte, dado que usa un sistema numérico en el que el cero es un
valor que indica ausencia de la característica que se está midiendo. Las
operaciones aritméticas de multiplicación y división adquieren significación. La
diferencia entre dos valores es importante y de magnitud definida. Así por ejemplo,
el valor de cero quetzales en ingresos de una tienda, puede interpretarse de manera
lógica que no se han producido ventas.
Constituye el nivel más alto de medición. Posee las características de los niveles de
medición señalados anteriormente, pero además tiene un cero absoluto que tiene un
significado empírico. Si una medición con una escala de razón es igual a cero, existe
razón para pensar que existen objetos que no poseen la propiedad que se pretende
medir. Ahora bien, puesto que existe la presencia de un cero natural o absoluto,
todas las operaciones aritméticas pueden ser ejecutadas (suma, resta, multiplicación
y división). Los números de escala indican el "quantun" de la propiedad que se
pretende medir. Si existiera una escala de razón para medir el rendimiento
académico, entonces sí se podría decir que un estudiante que obtuvo 20 puntos en
una prueba sabe el doble de otro que sólo obtuvo 10 puntos.
Cuadro 1: Pruebas estadísticas descriptivas más frecuentes de acuerdo a la escala de
medición de la variable en estudio.
Son necesarias porque lo que medimos no es obvio, medimos de forma indirecta los
atributos a través de sus manifestaciones.
Las normas permiten saber como asignar los números a las características con el
propósito de que representen el grado en que se manifiesta el atributo en cada sujeto. La
medición concierne a un atributo particular. Debemos saber que lo que medimos son
manifestaciones de atributos y no personas.
Las reglas son convenios que pueden ser cambiados si son incorrectos. Las normas
básicas en psicología son:
a. Normas de edad: se extraen eligiendo una muestra normativa a partir de la que
extraemos el promedio de actuación típico en las diferentes edades.
b. Normas de grado: se extraen de un grupo normativo, y en base al grado o nivel
se extrae un promedio de actuación.
c. Normas de porcentaje: partimos de un grupo normativo en el que no se realizan
comparaciones externas sino solo internas, dentro del mismo grupo. Se extraen
los percentiles.
d. Normas estándar o tipificadas: siempre tienen el mismo significado. Permiten
comparar diferentes grupos y diferentes características.
Tipos de comparaciones:
a. Intrasujeto: comparar a un sujeto consigo mismo en diferentes momentos.
b. Intersujeto: comparar a un sujeto con otro de su mismo grupo.
c. Intragrupo: comparar a un grupo consigo mismo en diferentes situaciones.
d. Intergrupo: comparar a un grupo con otro grupo; Diferencia de medias de dos
muestras.
a. Funciones
• Medición de aspectos complejos
• Identificación de intensidad
• Identificación de dirección o sentido de respuesta
• Simplificación de las preguntas para medir aspecto muy complejo
b. Aspectos principales
• Condicionante del tipo de información a obtener y de su posterior tratamiento
• Simplicidad aparente de formulación
• Necesidad de adecuación entre escala y objetivo
• Necesidad de comprobación de validez y fiabilidad
a. VENTAJAS:
• Ahorro
• Objetividad
• Ayuda a pronosticar aunque con una posibilidad de error
• Ayuda a la comunicación entre profesionales de forma más precisa y más
significativa.
b. INCONVENIENTES:
• No hay consenso, cada uno mide una cosa diferente dependiendo de su modelo de
partida.
• El problema de sí los ítems son representativos o no
• Critica social
• Muchos test tienen una gran carga cultural y verbal
• Hay que tener en cuenta las condiciones de los sujetos de la muestra para saber la
representatividad de los porcentajes
• Critica ética: hasta que punto se entromete en la vida privada
• Los test favorecen clasificar y etiquetar y esto en psicología es un error.
LECCION 3
TEST PSICOMETRICOS
1. INTRODUCCION
Sin embargo, cuando las diferencias son menos evidentes, entonces se producen muchos
errores si la evaluación no cuenta con algún instrumento de medición objetiva. En tal
sentido, los errores en la evaluación probablemente han sido fuente de muchas
frustraciones en la historia del ser humano ya que, además de los de evaluación en los
grados de una variable, también se producen errores de juicio al interpretar que se está
evaluando una determinada variable cuando en realidad la que esta operando es otra.
En los tiempos actuales, la evaluación supone casi siempre la aplicación de pruebas que
nos llevan a resultados numéricos, pero también se complementa con la observación
sistemática de la conducta de los sujetos, con las técnicas de entrevista individual o grupal,
con información oral o escrita propia de los sujetos que rodean el entorno del examinado:
padres, hermanos, maestros, jefes, etc., es decir, con infinidad de procedimientos que
expresan resultados verbales de tipo cualitativo.
No todas las medidas que se utilizan en psicología son pruebas o tests. En el caso de la
psicología por ejemplo: las medidas de los niveles de la audición humana. Por otra parte,
no todas las pruebas o tests son, o arrojan medidas. Ejemplo en psicología son las
llamadas técnicas proyectivas como el Psicodiagnóstico de Rorschach; el Test de la Figura
Humana de Machover; El Test de la Familia de Corman; etc., los cuales no arrojan medida
alguna.
A las pruebas o tests que emplean medidas se les denomina tests psicométricos; algunos
especialistas los denominan tests objetivos.
Los tests psicométricos tienen diversos usos y se clasifican de diversos modos. Una
clasificación bastante utilizada es la de Crombach (1972), el cual divide a los tests en dos
grandes tipos: tests de respuesta máxima y tests de conducta típica.
En los tests de respuesta máxima, quien se somete a ellos trata de obtener la máxima
calificación posible, de tal modo que la meta es medir los límites de sus capacidades. En
este tipo se encuentran las pruebas de rendimiento, aptitudes y habilidades.
Los tests de conducta típica, intentan evaluar las reacciones y conductas habituales o
usuales de una persona, es decir, lo que el sujeto acostumbra hacer en una amplia gama
de circunstancias. En este caso, interesa conocer su comportamiento o reacción habitual y
no lo que puede hacer o sabe. En este tipo se encuentran los cuestionarios de
personalidad, las escalas de actitudes, etc.
Los usos a los cuales están destinados los tests psicológicos influyen en su proceso de
construcción, pues delimitan sus características técnicas deseables.
3. TEST PSICOMETRICOS
La palabra test tiene una raíz latina y proviene de testa, testis que en latín medieval
significaba la vasija de barro con la que los alquimistas probaban o examinaban la
autenticidad del oro. Fue usada por primera vez por el psicólogo norteamericano James
McKeen Cattell en un artículo publicado en 1890. Cattell, se había formado en el
Laboratorio de Psicología Experimental de Wundt en Leipzig en donde el interés se
centraba en el estudio de las percepciones visuales y auditivas. El caso es que Cattell
comprendió que en los experimentos sobre sensaciones y percepciones como la medición
del tiempo de reacción, resultaba indispensable un control riguroso de las observaciones y
precisar que las condiciones que rodeaban a los sujetos con los que se experimentaba
debían ser exactamente iguales, es decir, sistemáticamente tipificadas o estandarizadas,
tal como se exige en los tests psicológicos.
La influencia principal de Cattell en relación a los tests fue Sir. Francis Galton, científico
inglés que a fines del siglo XIX había introducido las estadísticas y las matemáticas al
campo de la psicología generando por primera vez la posibilidad de medición cuantitativa
en las diferencias individuales. Cattell viajó a Cambridge en 1898 y su trabajo con Galton
reforzó su interés por la temática anteriormente mencionada. Los tests elegidos por Cattell
fueron: velocidad de movimiento, esfuerzo visual y auditivo, discriminación de pesos,
tiempos de reacción e ingenuamente, de acuerdo con los planteamientos de Galton,
pensaba que con dichos tests se podía obtener una medición de las funciones mentales
más elevadas.
H. Pieron (1952), define los tests de la siguiente manera: “test es una prueba definida, que
fija una terea a realizar, idéntica para todos los sujetos examinados” Según esta definición,
debe disponer de una técnica precisa que permita discriminar entre soluciones acertadas y
erróneas o bien de un sistema numérico que permita puntuar el resultado. La tarea puede
consistir en poner de manifiesto conocimientos adquiridos (tests pedagógico) o bien
funciones sensorio-motoras o mentales (test psicológico).
Esta definición fue adoptada por la antigua Asociación Internacional de Psicotecnia , hoy
Asociación Internacional de Psicología Aplicada que la formalizó de la siguiente manera:
test “es una prueba definida, que implica una tarea que se ha de cumplir, idéntica para
todos los sujetos examinados, con técnica precisa para la apreciación del éxito o del
fracaso, o para la valoración numérica del resultado logrado”.
Pichot (1954), propone una definición más amplia y general que sostiene que: “test es una
situación experimental estandarizada que sirve de estímulo a un comportamiento”;
posteriormente Anastasi (1968), sostiene que “un test es una medida objetiva y
estandarizada de una muestra de conducta”. Cronbach (1973), dice que “un test es una
técnica sistemática para comparar la conducta de dos o más personas”. Anstey (1976),
indica que “un test es un instrumento de evaluación cuantitativa de los atributos
psicológicos de un sujeto”. Según Graham. y Lilly (1984), “un test es una muestra
estandarizada de conductas de las que pueden inferirse o predecirse otras conductas
importantes”. El psicometrista español Mariano Yela (1980), sostiene que “un test es una
situación problemática previamente dispuesta y estudiada a la que el sujeto debe
responder siguiendo ciertas instrucciones y de cuyas respuestas se estima, por
comparación con las de un grupo normativo (o un criterio u objetivo), la calidad, índole o
grado de algún aspecto de la personalidad.
La APA (1999), define tests como: “un procedimiento evaluativo por medio del cual una
muestra de comportamiento de un dominio especificado es obtenida y posteriormente
evaluada y puntuada empleando un proceso estandarizado”. Esta definición abarca no
sólo los tests de respuesta máxima sino las pruebas de conducta típica.
Kline (2000), afirma que “los tests psicológicos son procedimientos valiosos por sus
contribuciones a la psicología aplicada pero carecen de la exactitud de las verdaderas
medidas científicas y es una tarea futura de la psicometría desarrollar genuinas medidas
científicas, vale decir, con unidades de medición significativas, cero absoluto e iguales
intervalos (características de una escala de razón, proporción o cociente).
Finalmente, podemos indicar que una prueba o test psicológico es “un patrón de estímulos,
elementos, ítemes, reactivos, preguntas; seleccionados y organizados de tal manera que
permiten provocar respuestas (conductas), las cuales pueden revelar ciertas características
(rangos), de las personas que se someten a ellos.
En esta última definición quedan comprendidas tanto las pruebas de respuesta máxima
como las de conducta típica, a las cuales se agregan las llamadas técnicas proyectivas.
c. En tercer lugar, una prueba contiene solamente una muestra de todos los ítemes
posibles. Ninguna prueba es tan completa como para incluir todos las preguntas posibles
que se pueden desarrollar con la finalidad de medir el dominio conductual.
En la medida que una prueba contiene sólo una muestra de todos los reactivos posibles,
se plantean dos problemas: 1) Asegurarnos de que los ítemes incluidos en el test sean
una muestra representativa de todos los posibles existentes; y 2) Debemos determinar,
si una persona obtendría la misma calificación al responder a una muestra diferente de
ítemes extraída del mismo dominio o población. Sobre el punto surge una pregunta
básica: ¿obtendría un sujeto la misma calificación en una forma equivalente o paralela
del test?
El caso es que, el primer punto es un problema de validez y el segundo constituye un
problema de confiabilidad.
a. Una prueba o test debe emplearse solamente para apreciar los aspectos para las
cuales se ha elaborado.
b. Las normas (baremo) de una prueba no tienen validez universal. Sólo son válidas si las
personas que toman el test poseen características similares a las de los sujetos que
formaron la muestra que sirvió para obtener dichas normas
c. Si esos grupos difieren de aquellos en los cuales se hicieron los baremos que aparecen
en el manual de la prueba.
d. Si las condiciones que influyen sobre el individuo se modifican, existe la posibilidad de
que tales cambios influyan en los puntajes resultantes del test.
e. Los resultados de un test no deben emplearse para diagnosticar por ser estados
patológicos. Deben considerarse como elementos de información que juiciosamente
analizados e integrados con otros elementos de información ayudarán al diagnóstico.
f. Sólo deben utilizarse para los test cuyos puntajes le dieron origen. Por ejemplo, la tabla
de categorías del WAIS sólo debe ser utilizada con este test y no con otro.
En su sentido más amplio, las pruebas psicológicas miden la naturaleza y amplitud de las
diferencias individuales, de tal manera que podrían darse varias situaciones: si se aplica
una prueba que mide un rasgo determinado a un grupo de sujetos, se puede inferir: ¿cómo
se clasifica cada persona en esa característica? De otro lado, si un sujeto se somete a
varias pruebas, entonces podemos describir su desempeño relativo en varias dimensiones.
Asimismo, al aplicar cierto número de pruebas (en una gran variedad de condiciones), a
muestras grandes de personas, tendremos los medios para estudiar la naturaleza y rango
de las habilidades humanas y también las características de la personalidad.
No obstante, es importante señalar que la información que proporciona una prueba es una
condición necesaria, pero no suficiente para tomar buenas decisiones. Asimismo, las
pruebas pueden ayudar también a desarrollar teorías psicológicas.
Existen varias clases de situaciones en las que se utilizan las pruebas como ayuda para la
toma de decisiones. Estas situaciones son las siguientes: selección, clasificación,
diagnóstico, investigación (comprobación y construcción de hipótesis), y evaluación.
En todo caso, la pregunta más importante en esta temática no es analizar si las pruebas
son precisas o no, sino de que manera nos ayudan a tomar mejores decisiones sobre los
examinados. Al respecto, debemos tener en cuenta que las pruebas no son de ninguna
manera perfectas y ningún psicólogo que se respete pretenderá que lo sean, sin embargo,
en la práctica existen múltiples evidencias de los excelentes resultados obtenidos con las
pruebas frente a otros métodos disponibles de evaluación.
a. PRUEBAS DE RENDIMIENTO.
Se clasifica una prueba como de rendimiento, si mide el aprendizaje que se ha
producido: (a) como resultado de las experiencias en una situación de aprendizaje
relativamente circunscrita como la que se produce en un programa de estudios o de
entrenamiento.
Ejemplo: curso de física, curso de construcción de pruebas, entrenamiento en
mecánica, etc.; y (b) cuando el marco de referencia está en el presente o en el
pasado, o sea, en lo que se ha aprendido.
Un ejemplo de prueba de rendimiento, son los exámenes que construyen los
profesores universitarios para evaluar el grado de aprendizaje en las asignaturas que
dictan; otro ejemplo podría ser los tests estandarizados de rendimiento, etc.
b. PRUEBAS DE APTITUDES.
Se considera una prueba como de aptitud, si: (a) mide los resultados de experiencias
de aprendizaje generales e incidentales; y (b) si su marco de referencia se enfoca en
el aprendizaje futuro. También se puede decir que las pruebas de aptitudes abordan
los aprendizajes de toda la vida del individuo y que la finalidad de la prueba es predecir
lo que puede aprender en el futuro. La definición de aptitudes comprende la capacidad
de aprender cierta variedad de conductas, de tal manera que el factor común es la
capacidad para aprender y no el tipo de conductas aprendidas. Ejemplo: Los tests de
C.I.
c. PRUEBAS DE HABILIDADES.
La habilidad indica el poder para realizar una tarea. Situación que implica un contraste
con las aptitudes que se refieren al poder para aprender a realizar una tarea. En otras
palabras, la habilidad se refiere a un estado actual y la aptitud a un estado futuro.
Desde esta perspectiva, la habilidad es similar al rendimiento; sin embargo, las
habilidades y el rendimiento difieren en el sentido que el segundo miden habitualmente
las consecuencias de experiencias específicas de aprendizaje en tanto que las
habilidades miden los resultados de experiencias de aprendizaje más amplias y
generales.
a. CUESTIONARIOS DE PERSONALIDAD
Características
a.Son test colectivos que suelen aplicarse a la vez a un número de variable de
personas.
b.Están compuesto por un número de enunciados que tratan sobre nuestras
opiniones, actitudes sentimientos, etc.
c. La forma de respuesta es dicotómica: si – no; verdadero – falso.
d.Se clasifican en unidimensional o unifásicos que miden un solo rasgo de la
personalidad multidimensional o multifásicos que miden simultáneamente varios
rasgos de personalidad.
e.Los reactivos no deben estar redactados en forma general, por ello deberán ser
precisas y claras.
f. Disponen de un sistema para detectar mentiras, reactivos que no se pueden
falsear las respuestas.
b. INVENTARIO DE PERSONALIDAD
Características
a. Es una prueba que permite la evaluación de la personalidad desde diferentes
ángulos, multidimensional o Multifásicos.
b. Evalúa características normales y anormales de la personalidad-
c. Consiste en una lista considerable de preguntas, proposiciones o afirmaciones
pertenecientes a distintos constructos (personalidad, intereses, valores) dentro de
la psicología que se consideran importantes para motivar y dirigir la conducta de
los individuos. Puede ser respondido de forma afirmativa o negativa, algunos
utilizan el formato de selección o el formato de respuesta escalonada.
c. ESCALAS DE ACTITUD
Características
a. Son instrumentos de medición que nos permite acercarnos a la variabilidad
afectiva de las personas.
b. Una actitud constituye una predisposición organizada para responder de una
manera favorable o desfavorable ante un objeto.
a. Todos los ítemes del test miden exactamente el mismo “rasgo” y los ítemes a su vez
pueden tener diferentes grados de dificultad.
b. La medida de la capacidad que tiene cada individuo puede hacerse sin ningún error, es
decir, cada item puede diferenciar sin error en el continuo de dificultad del “rasgo”.
La suposición (A), del modelo se refiere a la dimensionalidad del test. Es una cuestión de
suma importancia saber si los datos que obtenemos cuando aplicamos un test expresan las
posiciones de los individuos en uno o varios continuos o “rasgos”. En la fase de la
construcción de un test, es necesario establecer rápidamente la unidimensionalidad.
Resulta importante indicar que nunca podemos satisfacer exactamente esta suposición.
La suposición (B), se refiere a que las medidas psicológicas siempre tienen errores y en la
mayoría de los casos es de importancia decisiva para el empleo de los datos, precisar el
tamaño del error, cálculo que se efectúa a través del estudio de la confiabilidad del test
con sus diversos procedimientos.
LECCION 4
En otro ejemplo, si la meta es hacer un test que permita predecir algún criterio, entonces la
representatividad del muestreo de los ítemes se va a subordinar al poder predictivo de tales
ítemes como base para su selección. Esta operación se refiere a la validez predictiva o
validez relacionada con el criterio, diferente a la del ejemplo anterior.
b. Estimar que existen publicaciones disponibles e incluso pruebas listas para ser
utilizadas en la mayoría de los campos de la actividad psicológica. En tales casos, el
psicólogo puede utilizar una prueba existente en lugar de construir otra nueva; puede
también adaptar una prueba de acuerdo a sus necesidades. En ambos casos, ahorro
en tiempo, dinero, etc., es significativo. El mayor inconveniente que podría surgir es
que, no haya pruebas publicadas que sean óptimas para una determinada tarea -que
es la que le interesa a determinado psicólogo-, y que por lo tanto se vea en la
necesidad de elaborar una prueba. Frente a esta situación, se infiere que el psicólogo
debe estar muy bien informado acerca de la bibliografía respectiva, sugiriéndose para
ello la lectura de los BUROS y de los catálogos y manuales de tests provenientes de
las diversas editoras tales como: TEA Ediciones S.A.; Paidós; Manual Moderno; Distap,
etc.(español), así como de la: Psychological Corporation; California Test Boreu;
American Psychological Association, etc. (inglés).
Los datos primarios siempre consisten en una cantidad de respuestas a una serie de
estímulos o combinaciones de estímulos. Esto puede tomar la forma de: muchos sujetos
donde cada uno responde una vez; un sujeto que responde muchas veces y varios sujetos
que responde varias veces a cada uno de una serie de estímulos. Como consecuencia de
ello, tenemos:
En general, existen varios criterios de planificación de un test. En tal sentido, uno de los
procedimientos que se emplean actualmente para planificar la construcción de una prueba
psicométrica comprende los siguientes pasos (Herrera Rojas, 1993):
A continuación ofrecemos una breve exposición sobre los primeros tres pasos señalados
por (Herrera Rojas, 1993), toda vez que los puntos restantes se encuentran ubicados en
los diversos capítulos del texto.
Si se trata de una prueba para medir “rendimiento”, la definición del dominio puede
realizarse delimitando el universo de situaciones a ser evaluadas. Ejemplo: en el
caso de un examen de psicometría, el universo comprendería los objetivos y
contenidos del programa de la asignatura.
En el caso de las pruebas con referencia a criterio, en lugar de construir una tabla de
contenido, se define y delimita el dominio de comportamiento correspondientes a
cada objetivo. Al elaborar este tipo de pruebas, definir con claridad las habilidades o
conocimientos que se intenta evaluar, se convierte en un requisito fundamental de
este tipo de tests. Según Hambleton y Rogers (1991), el “dominio” puede ser de
conductas, objetivos y competencias y su amplitud varía en relación a la finalidad del
test. Si el dominio comprende más de un objetivo, pueden elaborarse subtests para
cada objetivo y se evalúa el rendimiento de los sujetos en cada uno de ellos.
1. Definición del objetivo. En este caso se establece cuál o cuáles serán los
objetivos que se evaluarán a través de la prueba. Ejemplo: la habilidad para la
comprensión lectura, que incluye aquellas conductas o respuestas que se
refieren únicamente a la comprensión de los mensajes literales contenidos en
un texto determinado.
2. Indicadores operacionales del objetivo. Los cuales se describen en términos
de conductas observables. Si tomamos como referencia el ejemplo anterior,
un indicador operacional de la habilidad de comprensión podría ser resumir
adecuadamente un testo breve.
3. Especificación de las características de la situación de evaluación.
Ejemplo: en un texto de divulgación científica, seleccionar las ideas principales
y parafrasear el contenido de las mismas.
4. Características de la respuesta. En este caso, se especifica cuál es la
respuesta que se espera del sujeto evaluado. Ejemplo: que seleccione
correctamente las ideas principales.
Para Nunally (1991), los dos errores más frecuentes en la redacción de los ítemes
son:
Para los objetivos cognoscitivos de nivel superior, tales como la evaluación que
implica por ejemplo, juzgar el valor de materiales, tests o materiales; y la creatividad,
que infiere por ejemplo, diseñar una investigación para verificar la estabilidad de un
test, se requiere otro tipo de pruebas, tales como las compuestas por ítemes de
suministro (abiertas o ensayo), así como reactivos que combinan la computación con
el audio; el video y la realidad virtual en la formulación de los ítemes y el formato de
la respuesta, dentro de lo que en la actualidad se denomina la evaluación auténtica
(Moreno, Martínez y Muñiz, 2004). En todo este avance, es probable que la
evaluación del futuro demandará instrumentos que permitan medir de modo más
adecuado el pensamiento creativo (divergente), y la resolución de problemas reales
de una disciplina (Woolfolk, 2006).
4. Cuando resulte necesario, incluir tantas palabras como sea posible en la base o
pié del ítem. En este caso, debe evitarse la repetición del mismo material en
cada una de las alternativas u opciones de respuesta.
5. Enunciar la base o pié del ítem en forma afirmativa siempre que sea posible.
Una pregunta enunciada afirmativamente tiende a medir resultados más
importantes que un reactivo enunciado negativamente; esto se debe a que
conocer las cosas con el mejor método o el argumento más importante, tiene
por lo general una implicancia mayor que conocer el método más deficiente o
el argumento menos pertinente.
12. Evitar cuidadosamente el uso de la opción “todas las anteriores” y utilice con
extrema precaución “ninguna de las anteriores”. Cuando el constructor de
pruebas tiene problemas para encontrar un número suficientes de distractores,
a menudo considera las alternativas “todas las anteriores” o “ninguna de las
anteriores” para utilizarlas como opción final; el caso es que, dichas
alternativas rara vez se usan adecuadamente y por lo general terminan
haciendo al ítem menos eficaz de lo que sería sin ellas.
13. Variar al azar la posición de la respuesta correcta. La clave o respuesta
correcta debe aparecer en cada pregunta, pero sin seguir una pauta que pueda
resultar evidente para el probando que resuelve la prueba. En tal sentido se
pueden evitar tales indicadores colocando al azar la clave o respuesta correcta.
14. Controlar la dificultad del ítem ya sea variando el problema en la base o pié o
cambiando las opciones. Generalmente, es preferible aumentar el grado o
índice de dificultad del ítem elevando el nivel de conocimiento requerido o
haciendo más complejo el problema. Por otra parte, sin embargo, también es
posible aumentar la dificultad haciendo más homogéneas las opciones.
15. Asegurarse de que cada ítem es independiente de los demás. Para ello,
deberán evitarse la presencia de cadenas de ítemes interdependientes, es
decir, cada ítem debe ser, una unidad calificable independientemente.
En cuanto al ítem verdadero – falso, este constituye una oración expositiva que el
probando debe juzgar como verdadera o falsa; no obstante hay variaciones de esta
forma básica en la que el sujeto debe responder sí o no, acuerdo o desacuerdo, bien
o mal, hecho u opinión y otras respuestas afines. En cualquier caso, este tipo de
ítem se caracteriza por el hecho de que sólo son posibles dos alternativas de
respuesta y en donde el probando debe decidir por una de ellas.
1. Incluír en la base o pie del ítem, sólo una idea central significativa. La decisión de
verdadero-falso, no debe depender de un aspecto subordinado ni de un detalle
trivial, de provenir de algo esencial por lo que se deben evitar el uso de varias
ideas en cada enunciado.
2. Redactar el enunciado de manera que se le puede juzgar sin lugar a dudas como
verdadero o falso. Los enunciados verdaderos deben serlo en cualquier
circunstancia por lo que resulta importante usar palabras definidas y precisas y
evitar términos ambiguos.
3. Los enunciados deben ser breves y de estructura sencilla. La base o pié del ítem
simples y breves aumentarán la probabilidad de que la idea central del ítem sea
clara y de que el acierto o el error esté determinado por el conocimiento del
examinado; más bien los enunciados extensos y complicados se orientan a medir
la comprensión de lectura, que constituye un objetivo diferente al tratado.
4. Usar muy limitadamente los enunciados negativos y evitar la doble negación. Los
enunciados negativos se malinterpretan frecuentemente como afirmativos, esto es,
por lo sencillo que es pasar por alto la palabra “no”; asimismo, las negaciones
dobles son confusas y por lo general los enunciados que las contienen se pueden
volver a redactar afirmativamente.
c. Revisión de Expertos
La mayoría de especialistas en el tema sugiere que los ítemes preliminares sean
revisados por jueces expertos. Resulta conveniente que estos jueces tengan
experiencia en la construcción de pruebas, en el dominio del constructo a medir y en
la población a la cual se dirige el test. Los aspectos esenciales (Tornimbeni, Pérez y
Olaz, 2008), que los expertos deben evaluar en cada ítem son:
LECCION 1
ORIGEN DE LOS TEST PSICOMETRICOS
1. INTRODUCCION
Para (Anastasi, 1977) los orígenes de los test se pierden en la antigüedad, en el Imperio
Chino se utilizaba un sistema de exámenes para elegir a los administradores públicos
durante 3000 años, por su parte, el Imperio Griego realizó exámenes que constituían un
complemento integrado en el sistema educativo, para estimar el dominio de habilidades
físicas e intelectuales. El método socrático de enseñanza, de preguntas y respuestas, es
similar al utilizado en la Edad Media en las universidades europeas donde los exámenes
eran regulares.
En el siglo XIX se despertó el interés por los retrasados mentales, y con ello, se encontró
que era necesario establecer criterios para la identificación y clasificación de estos casos,
entonces el médico francés Esquirol en 1838 indicó que existen muchos grados de retraso
mental, desde la normalidad hasta el grado mas agudo de la idiocia, y que la mejor forma
de saber el grado en el que se encuentra es mediante su lenguaje. De esta manera, en
1837 se estableció la primera escuela dedicada a la educación de los niños mentalmente
deficientes.
Nunnally (1970) menciona que Galton acuñó la expresión de test mental y comenzó a
medir muchos atributos humanos diferentes, reconoció la necesidad de la
estandarización en el examen de sujetos, que se refiere, a la necesidad de
presentarles a todos ellos el mismo problema en condiciones uniformes. Afirmaba que
la persona que tuviera los sentidos mas agudos sería la mas dotada y la de mas
capacidad de conocimiento, por lo que, la mayoría de sus test eran de discriminación
sensorial.
El objetivo de los test de Cattell, según Fernández- Ballesteros (1996), los caracterizó
su determinación del rango, exactitud y naturaleza de las facultades psicológicas, así
como la posibilidad de reunir suficiente material como para hallar los factores que
regulan el desenvolvimiento de estas facultades, sus conexiones, así como sus
perturbaciones.
Los resultados podían expresarse como una “edad mental”, es decir la edad de los
niños normales que su ejecución se igualaba, según Anastasi (1977), este concepto
contribuyó a popularizar la aplicación de los test de inteligencia, así como, los test
colectivos fueron creados para satisfacer una urgente necesidad práctica, los cuales
eran instrumentos para la prueba de masas que permitían el examen simultáneo y
simplifican las instrucciones, adicionalmente, requerían un mínimo de formación por
parte del examinador.
• la estimación del nivel en que poseen los sujetos la(s) característica(s) que mide el
test (valores escalares de los sujetos)
Es decir que el objetivo de cualquier teoría de tests es realizar inferencias sobre el nivel
en que los sujetos poseen la característica o rasgo inobservable que mide el test, a partir
de las respuestas que éstos han dado a los elementos que forman el mismo. Así para
medir o estimar las características latentes de los sujetos es necesario relacionar éstas
con la actuación observable en una prueba y esta relación debe de ser adecuadamente
descrita por una función matemática. Las distintas teorías de tests difieren justamente en
la función que utilizan para relacionar la actuación observable en el test con el nivel del
sujeto en la variable inobservable. Y sirven para dar cuenta del error de medida inherente
a toda medición psicológica o estimación del error; y proporcionar una estimación del
rasgo o característica evaluada (estimación del rasgo)
La Teoría Clásica de los Tests, iniciada por Spearman, sostiene que la puntuación
observable de una persona en un test es una función de dos componentes: su
puntaje verdadero (inobservable) y el error de medición implícito en la prueba. El TCT
(modelo lineal de la teoría clásica) es un modelo de puntuación verdadera como valor
esperado, esperado como concepto matemático, probabilístico. Es decir, el puntaje
verdadero de un sujeto en un test sería el promedio aritmético de las puntuaciones
empíricas obtenidas en infinitas aplicaciones (Muñiz, 2001).
Finalmente, no obstante que el desarrollo de la teoría clásica de los tests llegó, con la
etapa funcional de los tests, a un punto en que la conceptualización de los resultados
de los tests, y consecuentemente su proceso de desarrollo, permitían mediante
sofisticados procedimientos estadísticos, sacar a los reactivos de los límites
impuestos por la prueba en su conjunto, la limitación teórica aún permanecía y se
hacía necesario un nuevo marco conceptual para salvarlo. Este nuevo esquema para
la conceptualización de los reactivos como unidades independientes del test y del
grupo utilizado para normarlo, se obtuvo con la Teoría de Respuesta al ítem.
LECCION 2
TEORIA DE LA GENERALIZABILIDAD Y
DE RESPUESTA AL ITEM
1. INTRODUCCION
Las Teorías de Medición sirven como marco teórico para el diseño e implementación de
instrumentos de medición. Proporcionan métodos o procedimientos para determinar las
características de los estímulos o preguntas que forman las pruebas.
A partir de las características obtenidas se derivan métodos para efectuar otros análisis
que sean de interés para los usuarios de las pruebas.
2. TEORÍA DE LA GENERALIZABILIDAD
Según esta teoría los puntajes observados solo poseen interés si son representativos de
todos los puntajes posibles de un mismo universo. Población es el conjunto de personas de
las que se extrae una muestra; y Universo es el conjunto de todos los ítems posibles de un
constructo; y Universo de Condiciones de Medición al conjunto de todas las facetas
estudiadas. Las distintas fuentes de variaciones asociadas a las facetas y a sus
interacciones se estima que contribuyen a la varianza de error y disminuyen la
generalizabilidad de los puntajes observados en las personas evaluadas.
La literatura sobre tests registra en los últimos 30 años un desplazamiento progresivo del
esquema proporcionado por la Teoría Clásica de los Tests, hacia el contexto y los
procedimientos delineados por la Teoría de Respuestas al Ítem (TRI) [Del inglés: Ítem
Response Theory - IRT]. Esta teoría, fue desarrollada para resolver varios de los
problemas que presentaba la TCT (Hambleton & Swaminathan, 1985) y que no habían sido
resueltos de una manera satisfactoria. Algúnos de esos problemas son: (1) El uso de
índices de los reactivos cuyos valores dependen de la población particular de la cuál fueron
obtenidos, y (2) La estimación de la habilidad del examinado depende del conjunto
específico de reactivos incluidos en la prueba.
3) Las estimaciones de la aptitud obtenidas con distintos ítems serían iguales y las
estimaciones de los parámetros de los ítems obtenidos en distintas muestras de
examinados serán iguales. Es decir que en la TRI los parámetros de aptitud y de
los ítems son invariantes.
Para construir una prueba de acuerdo a los principios de la TRI, es necesario construir un
banco de reactivos con parámetros estimados para cada ítem, de acuerdo almodelo
seleccionado. El procedimiento recomendado por Lord (1977) consiste en los siguientes
cuatro pasos:
2. Seleccionar los reactivos del banco cuya curva de información deseada cae
bajo el área de la curva de información de la prueba, de tal manera que
saturen el área bajo la curva de la función deseada de la prueba.
1. INTRODUCCION
Un constructo es algo de lo que se sabe que existe, pero cuya definición es difícil o
controvertida. Son constructos la inteligencia, la personalidad y la creatividad, por ejemplo.
Los constructos no son empíricos, es decir, no se pueden demostrar. Estos conceptos no
son directamente manipulables, igual que lo es algo físico, pero sí son observables a través
de la conducta.
2. CONSTRUCTOS
Un constructo es una propiedad que se supone posee una persona, la cual permite explicar
su conducta en determinadas ocasiones. Como tal, el constructo es un concepto teórico,
hipotético. Por ejemplo, la inteligencia, la motivación, la creatividad, las actitudes, etc.
Los constructos se definen como propiedades subyacentes, que no pueden medirse en
forma directa, sino mediante manifestaciones externas de su existencia, es decir, mediante
indicadores. En otras palabras, los constructos son variables subyacentes, por lo cual,
habitualmente, caen en la denominación común de variables.
Por su lado, las variables son propiedades, características o atributos que se dan en
grados o modalidades diferentes en las personas y, por derivación de ellas, en los grupos o
categorías sociales. Así, son variables, la edad, el ingreso, la educación, el sexo, la
ocupación, etc., que, como se ve, corresponden a grados diferentes o iguales de darse una
cierta propiedad en las personas o de darse en modalidades diferentes.
• La medida obtenida siempre está sujeta a error. Las medidas en Ciencias del
Comportamiento, como consecuencia de tomar muestras limitadas de conducta y de
trabajar sobre personas, cambian por efecto de factores muy diversos como la fatiga, el
olvido, el aburrimiento, etc.
• Escasez de unidades bien definidas en las escalas de medida a las que se ajustan las
variables psicológicas.
El grado en el que un individuo posee uno de estos atributos, solamente puede inferirse a
partir de la observación de su conducta. Este carácter no observable de la mayor parte de
las variables psicológicas, hace especialmente difícil el diseño de tests o instrumentos para
su medida. Lo cual sucede por ejemplo con la inteligencia, la creatividad, la dependencia
de campo, etc.
De esta manera el constructo debe tener cierta correspondencia con las conductas que se
derivan de él y la manera más objetiva de establecer este tipo de correspondencias una
vez que se han establecido los items es a través de la validez de constructo: la
determinación de que los ítems están referidos al constructo que se ha señalado, a su vez,
la correcta especificación del constructo en términos observables.
La validación de constructo, entendida como las evidencias que apoyan que las conductas
observables del test son indicadores del constructo, es el aspecto esencial de la validez y
permite unificar las otras categorías.
El proceso de definición de constructos ha sido uno de los principales aspectos que más
controversias ha creado, ya que siempre en las investigaciones ha sido uno de los
aspectos más olvidado, por considerarse algo privado-subjetivo, informal o indocumentado.
Estas conclusiones han sido avaladas por los estudios hechos al respecto sobre test de
logros, llevados a cabo por Cronbach (1970) o Roid y Haladyna (1980).
Este tipo de conclusiones nos lleva es a definir los constructos a partir de una serie de
comportamientos manifiestos, es decir, se piensa que un determinado constructo está
determinado de una manera y que a este constructo le corresponde una conducta, y se
afirma que después de establecer una serie de ítems con respecto a esta conducta, el
constructo está formulado y/o se corresponde con la realidad observada.
Los inconvenientes a este tipo de formulaciones o desarrollos, es que se pueden dejar
áreas de conducta sin cubrir, así como incluir una serie de conductas que no pertenecen en
realidad al constructo de interés.
De esta manera las formas más objetivas de desarrollar los constructos son las siguientes:
c) Incidentes críticos. Se trata de analizar los patrones característicos de los extremos del
continuo que se desea medir y en función de esto se redactan los ítems que permitan
graduar a los sujetos en un atributo determinado.
En referencia al constructo, y a las conductas que son derivadas de él, y a partir de los
cuales se forman los items, se van a presentar una serie de items sobre los que se va a
producir al menos una mínima variación. Puesto que en esta perspectiva la construcción
del test viene dada por la comparación de la ejecución diferencial de los diferentes
examinados, estos tests son denominados como “referidos a la norma”.
En este nuevo tipo de test, los métodos del apartado precedente son insuficientes para
definir adecuadamente el constructo. Más bien se procede de la siguiente manera:
• Se define un dominio de actuación, llamado domino del ítem, ligado a cada objetivo a
partir del cual poder hacer inferencias correctas sobre la base de las puntuaciones en
el test.
• Este dominio es su campo o esfera. Una población bien definida de ítems a partir de la
que se podría construir más de una forma –paralela- del test, por selección de una
muestra de ítems a partir de la misma. Por ello también se denomina a esta
aproximación como muestreo de un domino.
• Se opta por producir un conjunto de especificaciones del dominio del ítem más que
crear todos los posibles ítems uno por uno, de manera que sean tan estructurados que
al concretarlas en ítems concretos, éstos sean intercambiables.
Así se establecen una serie de métodos para describir los items referidos al dominio, pero
uno de los más comentados es referido a la especificación de los items. Este tipo de
procedimiento incluye:
3. OPERACIONALIZACIÓN DE CONSTRUCTOS
Dimensiones: miden los aspectos o facetas, es lo medible dentro del concepto. Ejemplo: se
mide la frecuencia, la intensidad, el ritmo, el ciclo, etc.
Los hay mejores y peores, para valorarlo hay que tener en cuenta ver un conjunto de
criterios:
Kerlinger (1988, 3ª edic.) dice que los constructos pueden ser definidos usando otros
constructos Por ejemplo, al definir inteligencia como “la aptitud para pensar en forma
abstracta” o como “agudez mental”. Una definición es constitutiva cuando define un
constructo por medio de otro constructo. Por ejemplo, definir “ansiedad como miedo
subjetivo”. Según Torgerson (1958) todos los constructos para ser útiles científicamente
deben poseer un significado constitutivo.
Existen otro tipo de definiciones que son las definiciones operacionales. Una definición
operacional de un constructo se refiere a las operaciones mediante las cuales un
investigador determina la presencia o ausencia (o la magnitud) de un fenómeno. Estas
operaciones son mediciones o registros numéricos, por ejemplo: los puntajes de los tests
para medir inteligencia y otras aptitudes, la longitud del recorrido de un ratón en un
laberinto, los tiempos de reacción frente a distintos estímulos, la cantidad de errores que se
presentan en alguna actividad motora, la cantidad de palabras memorizada, entre otras. De
ahí la ingerencia de las técnicas estadísticas en la investigación psicológica en donde
siempre hay que operacionalizar los constructos para poder estudiarlos.
4. TABLA DE ESPECIFICACIONES
"Una tabla de especificaciones sirve para relacionar los objetivos con la evaluación”.
Una tabla de especificaciones representa la forma en que la prueba será diseñada, es un plano
previo de ella o un esbozo del alcance y énfasis respecto de los contenidos y objetivos vistos
en clase y en un determinado período lectivo.
TABLA DE ESPECIFICACIONES
Variable a Dimensiones
Definición Operacionalización Indicadores Ítemes
medir
Se consigna Definición del Miden los Se especifica el tipo Explicitar el Para pruebas
el constructo constructo, aspectos o de respuesta que se producto objetivas pueden
debe contener facetas, es lo requiere adecuado al del contenido ser:
categorías, medible dentro objetivo que hace requerido Completamiento
dimensiones o del concepto. referencia al proceso Jerarquización
capítulos Ejemplo: se subyacente: Verdadero falso
mide la Comprender, Aparejamiento
frecuencia, la analizar, deducir, Elección múltiple
intensidad, el inferir
ritmo, el ciclo,
etc.
1. INTRODUCCION
Mientras que la mayoría de los atributos físicos (altura, peso, etc.) resultan directamente
medibles, los atributos (constructos o rasgos) psicosociales resultan ser
conceptualizaciones teóricas que no son accesibles a la medición directa y para los que no
existen "metros" o "balanzas" diseñados para medirlos de manera precisa. La actitud hacia
el aborto, el nivel de cohesión grupal, el grado de extroversión, el cociente intelectual, la
postura hacia el consumo de drogas, el grado de liderazgo, todos ellos son constructos que
deben medirse mediante instrumentos específicamente diseñados: los tests, cuestionarios
o inventarios. Nadie dudaría de que un metro bien diseñado mide longitud y que lo hace de
manera precisa, pero la bondad y la precisión de un cuestionario no se puede presuponer;
más bien son una cuestión de grado y siempre susceptibles de mejora.
En definitiva, un cuestionario está formado por una serie de elementos o ítems (elementos,
reactivos, preguntas, cuestiones, situaciones análogas) a los que cada individuo debe
responder. Después de cuantificar las respuestas de una persona a los elementos del
cuestionario, se pretende asignar una puntuación (a veces varias) a esa persona respecto
al constructo o atributo que se pretende medir con el cuestionario, una puntuación que
debería indicar el grado en que la persona participa del atributo, constructo o rasgo a
evaluar.
Nos enfrentamos así a un proceso de medición indirecta que incluye la misma construcción
del instrumento de medida, proceso que se inicia con la definición clara del constructo a
evaluar.
2. ELABORACION DE ITEMS
3. REGLAS GENERALES
a. Los enunciados deben ser afirmativos, en caso de ser necesaria la negación, se debe
resaltar para llamar la atención hacia la formulación negativa. La doble negación afecta
la comprensión (“No es cierto que no procedan los recursos”).
b. Evitar enunciados demasiado extensos y poco atractivos ya que desmotivan la lectura,
disminuyen el tiempo de respuesta y fatigan.
c. Garantizar la coherencia interna del enunciado y de este con las opciones de
respuesta.
6. REACTIVOS DE ENSAYO
a. Tanto los reactivos de verdadero y falso como los de opción múltiple son en cierto
sentido, variedades de los reactivos de aparejamiento.
o La tarea del examinando en un reactivo de aparejamiento es acoplar las opciones
con la respuesta correcta.
o El aparejamiento normalmente es uno a uno, pero también puede ser de una
respuesta a varias premisas, de varias respuestas a una premisa o de varias
respuestas a varias premisas.
b. Lamentablemente los reactivos de aparejamiento se utilizan normalmente para la
memorización de acontecimientos.
c. Para la elaboración de los reactivos de acontecimiento es preciso que tengamos en
cuenta una serie de consideraciones:
o Ordenar la premisa y las opciones de respuesta en un formato claro y lógico de
columnas.
o Usar entre seis y quince premisas, con dos o tres opciones de respuesta más que
premisas.
o Numerar las premisas de manera sucesiva y colocar letras (a, b, etc.) antes de las
respuestas
o Especificar con claridad las bases para realizar el aparejamiento.
o Colocar todo el reactivo en una sola página.
d. Hay dos tipos especiales de reactivos de aparejamiento el reactivo de reordenamiento,
en el cual se requiere que los examinados clasifiquen un número fijo de categorías
predeterminadas. También hay otro tipo de reactivos conocidos como reactivo de
rango, los individuos reordenan un conjunto de opciones en orden de la primera a la
última (de la más alta a la más baja).
Las partes básicas de un ítem de selección múltiple son el contexto, el enunciado y las
opciones de respuesta, como se muestra en el gráfico.
a. CONTEXTO
Es la información que sitúa conceptualmente al evaluado. Provee elementos
necesarios y suficientes para focalizar la tarea de evaluación. En un sentido amplio, el
contexto abarca todo el saber previo del evaluado sobre el objeto de evaluación; no
obstante, en el proceso de elaboración de un ítem, es usual que el evaluador encuentre
pertinente y necesario presentar un texto u otro tipo de información que contribuya a
precisar las condiciones del problema, las variables que es prudente considerar, o para
ubicar en el tiempo y en el espacio la problemática, etc. El contexto puede ser un texto
–por ejemplo, en ítems de comprensión de lectura-, una gráfica, un dibujo, una tabla o
cualquier otra forma de presentación de la información a partir de la cual se deriva el
enunciado. La selección o elaboración del contexto es una labor exigente en cuanto su
propósito es justamente contextualizar y no confundir al evaluado; debe estar articulado
con la tarea de evaluación y no debe convertirse en factor que disminuya del tiempo
disponible para responder; es decir, su extensión y complejidad deben considerarse,
también, a la luz de las condiciones logísticas de la evaluación.
b. ENUNCIADO
Es el planteamiento, propiamente dicho, de la problemática que se espera sea resuelta
por el evaluado. En el enunciado se hace explícita la tarea de evaluación y, por tanto,
dirige el esfuerzo del evaluado para generar o seleccionar una respuesta, por lo cual es
fundamental que esté escrito en lenguaje claro y preciso.
Tradicionalmente los enunciados de ítems de selección múltiple se plantean en forma
de pregunta, o como una proposición. En el primer caso, las opciones se redactan
como respuestas a la pregunta; en el segundo caso, el enunciado constituye la primera
parte de una proposición y cada una de las opciones debe completar coherentemente
el enunciado.
La utilización de una u otra forma de plantear el enunciado es decisión del evaluador y
generalmente tiene que ver con la facilidad para redactar, tanto el enunciado como las
opciones. Conviene tener en cuenta, eso sí, que la redacción en forma de pregunta
resulta mucho más clara para poblaciones infantiles; es decir, los niños parecen
responder mejor a la tarea de evaluación cuando el enunciado es una pregunta que
cuando es una proposición incompleta. Cualquiera sea la forma en que se redacte el
enunciado, es importante verificar su claridad, precisión y articulación con las opciones
de respuesta.
c. OPCIONES DE RESPUESTA
Las opciones son posibles respuestas a la problemática planteada en el enunciado. En
el formato de selección múltiple con única respuesta, como su nombre lo indica, sólo
una de estas opciones es verdaderamente pertinente y completa para solucionar el
problema –tarea de evaluación-; las demás opciones, aunque pueden ser vistas como
respuestas plausibles por los evaluados que no dominan la tarea de evaluación, no
responden en forma completa o pertinente a la problemática formulada.
Otros formatos de selección admiten más de una opción como respuesta válida. En la
actualidad, cada vez con más frecuencia, los instrumentos de evaluación educativa
incorporan formatos de ítems en los cuales cada opción de respuesta es ponderada de
acuerdo con su grado de validez o pertinencia; es lo que se denomina ítems de crédito
parcial, y su elaboración supone que todas las opciones son respuestas válidas,
aunque cada una en distinto grado, dependiendo de diferentes condiciones planteadas
o posibles de inferir del contexto y del enunciado. Se busca con este tipo de ítems, más
que valorar, en una categorización dicotómica, si el evaluado respondió o no respondió
a la tarea de evaluación, que sea posible identificar perfiles o estilos de desempeño.
12. REGLAS PARA LA ELABORACIÓN DE ÍTEMS DE SELECCIÓN MÚLTIPLE CON ÚNICA
RESPUESTA
a. ASPECTOS GENERALES
• Evite elaborar ítems que confunden al evaluado. Diferentes estudios han establecido
cuáles son algunas de las situaciones que llevan a percibir los ítems como confusos;
entre éstas están:
a) Contenido trivial
b) Presencia de información irrelevante
c) Presentación ambigua de las opciones de respuesta
d) Discriminación muy fina –difícil de percibir entre las opciones de respuesta
e) Presentación de información en modo distinto a como ha sido aprendida por la
población evaluada, dentro de su proceso educativo.
Antes de formar un prueba deben tomarse decisiones finales sobre asuntos tales como si
la longitud de la prueba se ajusta para los límites de tiempo, la agrupación u ordenación de
los reactivos en las páginas del cuadernillo de prueba, dónde se marcarán las respuestas,
la reproducción del cuadernillo de la prueba y la hoja de respuestas, la información que
debe incluirse en las instrucciones de la prueba.
a. Extensión de la prueba
Hay que tener en cuenta los límites de tiempo, el grado y nivel de lectura de los
examinados, la extensión y dificultad de los reactivos.
o La experiencia previa con reactivos del mismo tipo general que los incluidos
en una prueba es un indicio que nos ayuda a determinar si los límites de
tiempo son apropiados.
o Responder a una pregunta de opción múltiple lleva el mismo tiempo que
contestar a 2 de V – F
o A menos que los reactivos sean muy largos o demasiado difíciles la mayoría de
los estudiantes terminarán la prueba en el tiempo asignada.
o Existen diferencias entre los estudiantes en cuanto al tiempo que requieren
para terminar una prueba.
Hay un conjunto de factores que interaccionan entre sí (preparación, personalidad,
estado emocional y físico del estudiante, naturaleza, dificultad del material de la prueba
y del ambiente del examen) haciendo difícil predecir cuánto tiempo le llevará a un
alumno terminar una determinada prueba.
c. Hoja de respuestas
LECCION 1
ANALISIS DE ITEMS
1. INTRODUCCION
Los tests psicométricos deben satisfacer ciertos requisitos inherentes a todo recurso
destinado a la medición, con el objeto de que sus resultados presenten la mayor
correspondencia con la realidad. En tal sentido, los psicólogos tratan de demostrar que
sus pruebas miden realmente aquello para la cual fueron elaboradas; que dichas
mediciones contienen un margen de error estándar tolerable de medida y que los
resultados que nos ofrecen, permiten describir, clasificar y/o predecir algún aspecto del
comportamiento de los testados a los cuales se les ha aplicado dichos instrumentos.
Los procedimientos para satisfacer tales requisitos pueden diferir en mayor o menor grado,
pero todos suponen un análisis estadístico de parámetros que la psicometría utiliza
comúnmente. El análisis de ítemes es uno de los recursos básicos utilizados en la
construcción de instrumentos de medición utilizables en psicología, educación y otros
campos relacionados (Tavella, 1978).
2. ANALISIS DE ITEMS
Es el estudio de las propiedades de los elementos (preguntas) de un test directamente
relacionada con las propiedades de éste.
Es la capacidad que posee cada ítem para discriminar entre aquellos sujetos que alcanzan
objetivos buscado, nos permite determinar fácilmente el grado con que esta propiedad se
cumple.
c.1 Ordenar los protocolos u hojas de respuesta en estricto orden de méritos, desde
el puntaje más alto hasta el puntaje más bajo.
c.2 Elaborar una matriz de puntajes de itemes binarios o dicotómicos (conjunto de
hileras o renglones y columnas ordenadas de manera horizontal y vertical,
respectivamente), en donde, los datos correspondientes a las hileras
corresponden a la performance de cada uno de los testados; en tanto que la
información proveniente de las columnas corresponde al funcionamiento de los
ítemes).
c.3 Computar los valores “p” de cada ítem (proporción de respuesta correcta que
alcanzó cada reactivo), y “q” (proporción de respuesta incorrecta que alcanzó
cada item).
c.4Calcular la varianza de cada item, que implica multiplicar la proporción de
respuesta correcta por la proporción de respuesta incorrecta (pq), así como
también calcular la desviación estándar del item que implica la raiz cuadrada de
la varianza.
c.5 Computar si la distribución de puntajes sigue un patrón normal (campana o curva
de Gauss), a través de las pruebas de Kolmogorov-Smirnov, Ji cuadrada o los
coeficientes de asimetría (alfa 3) y curtosis (alfa 4).
c.6 Calcular la media o promedio aritmético, la varianza y la desviación estándar de
las puntuaciones totales del item (y de las parciales en el caso de que hubiera
subtests).
c.7 Computar los coeficientes de consistencia interna del test ( o de los subtests en
caso los hubiere), a través de los coeficientes Kuder Richardson (KR).
c.8 Calcular los índices de homogeneidad (IH) de cada reactivo a través de los
coeficientes de correlación entre el ítem y el test (representado por la columna de
puntaje directo o puntaje compuesto); en buena cuenta se trata de una
correlación item-test (rit). En caso de haber subtests, se calculará la
correlación tomando el valor del item del subtest con el puntaje total del subtest,
y luego la del item con el puntaje total del test.
c.9 Calcular la concomitancia entre el puntaje del subtest (si los hubiere), y el puntaje
total del test, a través del coeficiente de correlación de Pearson. El coeficiente
resultante debe ser corregido por la fórmula de corrección, dado que cuando se
relaciona un subtest con el test, el coeficiente tiende a “inflarse” y arrojar valores
espúreos ya que el puntaje del subtest también forma parte del puntaje del test.
c.10 Computar la intercorrelación de puntajes de los subtests (si los hubiere), a
través del coeficiente de correlación de Pearson. El coeficiente resultante no
debe sobrepasar el valor de 0.40.
c.11 Calcular la correlación entre los ítemes (correlación item-item; rii ), a través del
coeficiente de correlación de Pearson. También se puede utilizar la fórmula
abreviada del coeficiente fi.
Los ítems o cuestiones se han formulado de manera lógica para que midan (y lo hagan
bien) el constructo, variable, o rasgo que interesa evaluar con el cuestionario. Ahora bien,
el grado en que cada ítem es un "buen medidor" del rasgo de interés es algo que se puede
comprobar estadísticamente de manera sencilla si obtenemos tres indicadores para cada
ítem:
a) El índice de dificultad.
b) El índice de homogeneidad.
c) El índice de validez.
Para ello, tras aplicar el cuestionario provisional a una muestra de sujetos representativa de
la población a la que va dirigida la prueba (se aconseja entre 5 y 10 veces más sujetos que
ítems), y una vez cuantificadas las respuestas de cada individuo, se forma una matriz de
datos de sujetos x ítems:
Lo que quiere decir que se trata de una relación inversa: a mayor dificultad del ítem,
menor será su índice (Wood, 1960).
Este primer indicador sirve para cuantificar el grado de dificultad de cada cuestión, por
lo que sólo tiene sentido su cálculo para ítems de tests de rendimiento óptimo.
Para calcular la dificultad de un ítem, se divide simplemente el número de personas
que contestó correctamente el ítem entre el número total de personas que contestó el
ítem (correcta o incorrectamente). Usualmente, a esta proporción se le denota con una
p, e indica la dificultad del ítem (Crocker & Algina, 1986). Se calcula con la siguiente
fórmula:
Donde:
pi = Indice de dificultad del reactivo i
Ai = Número de aciertos en el reactivo i
Ni = Número de aciertos más número de errores en el reactivo i
El nivel medio de dificultad del examen debe oscilar entre 0.5 y 0.6, distribuyéndose los
valores de p de la manera siguiente: 5% de reactivos fáciles, 20% medianamente
fáciles, 50% con una dificultad media, 20% medianamente difíciles y 5% difíciles.
Indicadores:
El valor del índice de dificultad esta directamente relacionado con la media del test: la
media del test es igual a la suma de los índices de dificultad de los ítems.
Pero además, el I.D. puede utilizarse también para ofrecer una idea aproximada del
poder discriminativo de un ítem. Si la dificultad de un ítem es nula (es decir, I.D.=1),
querrá decir que esa cuestión es demasiado fácil y todos los sujetos la acertarán
independientemente de su nivel de conocimiento; es decir, ese ítem no sirve para
distinguir (discriminar) a los sujetos que “saben” de los que “no saben” por lo que no
puede considerarse como un buen elemento evaluador. Exactamente lo mismo ocurrirá
con un ítem que tenga un índice de dificultad de 0, es decir, tan difícil que no lo acierte
ningún sujeto de la muestra.
Así pues, los ítems idóneos para incluir en una prueba de rendimiento óptimo serán
aquellos que tengan un I.D. próximo a 0.5 (dificultad media y discriminación alta),
siendo además aconsejable incluir siempre algún ítem más fácil (colocados al principio
por razones obvias de motivación) y alguno más difícil (al final del cuestionario) para
garantizar el poder discriminativo general del test.
Interpretación: a medida que el ID aumenta, el ítem es más fácil (en propiedad habría
que llamarlo índice de facilidad); además, en muchos tests no tiene sentido de hablar
de ID, ej, los cuestionarios de personalidad, que no tienen respuestas acertadas o
erróneas
Limitaciones: el ID no es una propiedad intrínseca del ítem, su valor depende de la
muestra de sujetos a la que se aplique (la solución la da la Teoría de Respuesta a los
Ítems)
En ítems de elección múltiple, para corregir los efectos del azar, se suele utilizar la
fórmula:
A − E /( K − 1)
ID =
N
Donde:
El índice de homogeneidad de un ítem nos informa del grado en que dicho ítem está
midiendo lo mismo que la globalidad del test; es decir, del grado en que es consistente,
homogéneo con el total de la prueba.
Dicho IH se define como la correlación existente entre las puntuaciones obtenidas por
los sujetos en un determinado ítem y la puntuación total de esos mismos sujetos en el
test completo.
Dado que el índice de homogeneidad de un ítem es un indicador del grado en que ese
ítem mide lo mismo que la prueba completa, es “coherente” con el total de la prueba,
habrá que eliminarlo si su I.H. está muy próximo a 0 ya que esto indicará que ítem y
prueba completa tienen muy poca relación entre sí; es decir, miden cosas
completamente diferentes. Por el contrario, los ítems cuya correlación con la
puntuación total sea cercana a 1 serán muy homogéneos, muy consistentes entre sí y
medirán todos lo mismo (como en el caso de los tres ítems utilizados en el ejemplo).
Indicador:
Un ítem tiene poder discriminativo si distingue entre los sujetos que puntúan alto y los
que puntúan bajo en el test (si permite distinguir entre sujetos eficaces frente a
ineficaces).
Indica la capacidad del ítem para distinguir entre los sujetos de mayor conocimiento y
los de menor.
Este índice mide qué tan capaz es un ítem para medir las diferencias individuales;
desde el punto de vista de objetivo evaluado.
Proporciona un indicador bruto del desempeño en cada item por separado de los
respondientes competentes frente a los menos competentes
Al calcular el índice de discriminación, a la puntuación total del test hay que descontarle
el ítem cuyo índice de discriminación se pretende hallar (X – j); en caso contrario, se
puede usar la siguiente corrección:
ρ jxσ x − σ j
ρ j ( x− j ) =
σ + σ x2 − 2 ρ jxσ j σ x
2
j
Donde:
ρj(x-j): correlación entre el ítem j y el test tras descontar el ítem (x – j)
ρjx: correlación ítem-test cuando el ítem está incluido en el test
σx: desviación típica del test
σj: desviación típica del ítem
Donde:
μp: media en el test de los sujetos que aciertan el ítem
μx: media del test
σx: desviación típica del test
p: proporción de sujetos que aciertan el ítem
y: ordenada correspondiente al valor de la puntuación típica en la curva normal
que deja por debajo un área igual a p
d = Pc – Pi
Donde:
Pc: proporción de sujetos competentes (puntúan > Md) que aciertan el ítem
Pi: proporción de sujetos incompetentes que también aciertan el ítem
En suma, los parámetros de los tests, poder discriminativo (σx) y fiabilidad (α)
pueden expresarse en términos del índice de dificultad de los ítems (Pj) y de su
índice de discriminación (ρjX)
c. INDICE DE VALIDEZ DE UN ITEM (IV)
El índice de validez de un ítem refleja el grado en que el ítem esta conectado con la
variable que el test intenta predecir (criterio).
La puntuación de los N sujetos en un ítem pueden correlacionarse también con las que
estos sujetos obtienen en un criterio de validación externa del test, esta correlación
define el índice de validez del ítem.
El criterio de validación es una medida diferente del test para reflejar el mismo rasgo u
otro muy relacionado, de tal manera que si el test mide lo que se pretende, debería
correlacionar de forma elevada con el criterio.
La conexión entre el índice de validez de los ítems y el coeficiente de validez del test la
da:
n
∑σ
j =1
j ρ jY
ρ xy = n
∑σ
j =1
j ρ jX
donde:
ρxy: coeficiente de validez del test
n: número de ítems del test
σj: desviación típica del ítem j
ρjY: índice de validez del ítem j
ρjX: índice de discriminación del ítem j
∑ρ
j =1
jY Pj (1 − Pj )
ρ xy = n
∑ρ
j =1
jX Pj (1 − Pj )
La fórmula anterior es muy importante, pues expresa el coeficiente de validez del test
en función de tres parámetros de los ítems: dificultad (Pj), discriminación (ρjX) y validez
(ρjY)
Una paradoja clásica: al maximizar la fiabilidad del test eligiendo ítems con índices de
discriminación elevados se rebaja el coeficiente de validez del test (cuanto mayores
son los índices de validez de los ítems del test menores son sus índices de
discriminación)
Comentarios finales:
1) no confundir índice de validez con la validez factorial de los ítems
2) ponderación de ítems: puede ser interesante a veces ponderar ítems: regresión
múltiple
3) en el proceso de selección de ítems que van a constituir el test definitivo:
(i) se da mayor error si se eligen ítems con índices de discriminación y validez
elevados
(ii) el índice de discriminación de un ítem es la correlación ítem-test y depende
no sólo del ítem sino del resto de ítems: selección de ítems en pasos o
etapas
LECCION 2
1. INTRODUCCION
Cuando estimamos la validez de un test, necesitamos saber qué rasgo deseamos que
mida. Este rasgo se llama variable de criterio. Nos interesa saber qué tan bien
corresponden las posiciones de los sujetos en la distribución de los puntajes obtenidos a
sus posiciones en el continuo que representa la variable de criterio (Magnusson, 1969).
En la historia del concepto de validez pueden identificarse tres etapas principales (Pérez y
Olaz, 2008). Según estos autores, en la primera etapa llamada operacional predomina el
operacionalismo dominante de la epistemotología de la primera mitad del siglo XX. Aquí, la
validez tratada desde una perspectiva meramente predictiva es sinónimo de la correlación
entre las puntuaciones de un test y algún criterio que intenta predecir (Martínez Arias,
1995). Sin embargo, este tipo de validez no resultaba útil para muchas pruebas en donde
ellas mismas constituyen su propio criterio como en el caso de los tests de rendimiento lo
cual llevó a introducir el concepto de validez de contenido
La segunda etapa coincide con la publicación del trabajo de Cronbach y Meehl (1955), los
cuales consideran por primera vez la llamada validez de constructo como aspecto esencial
e inclusivo de las restantes dimensiones de la validez (Martínez Arias, 1995).
Asimismo, la APA (1999), propuso cinco tipos de evidencia de la validez, basadas en: el
contenido del test, la estructura interna del test, el proceso de respuestas al test, las
relaciones con otras variables externas al test y las consecuencias de su aplicación.
Para verificar la validez de las inferencias realizadas a partir de las puntuaciones de un test
se usan procedimientos similares a los utilizados para contrastar cualquier hipótesis
científica, es decir, el acopio de evidencias que confirmen o refuten esas inferencias (Pérez
y Olaz, 2008).
El producto final del proceso de validación es la medición de un constructo que: a)Esté bien
definido en términos de una variedad de observación y eventualmente, b)Se correlacione
con otros constructos de interés.
Esta última puede ser un rasgo o atributo, o bien, alguna medida observada
independientemente. Por lo tanto, la validez de una prueba se define ya sea por medio de
(1) la extensión con que la prueba mide un rasgo subyacente específico hipotético o
construcción, o bien, (2) la relación entre las calificaciones de la prueba y alguna medida de
criterio externo (al primer aspecto también se le denomina validez interna o funcional y al
segundo validez externa).
2. VALIDEZ
Validez es el grado en que una situación o instrumento de medida, mide lo que realmente
pretende o quiere medir. A la validez en ocasiones se le denomina “exactitud”. Validez es el
criterio fundamental para valorar si el resultado obtenido en un estudio es el adecuado.
La validez puede introducir error sistemático que afecta al tamaño y dirección del efecto
encontrado. El error de medida se suma al error de muestreo disminuyendo la capacidad.
El error sistemático se puede confundir con el efecto real que es el efecto sistemático, el
hecho de que existan unos sistemas se puede confundir con el resultado final. Una
situación de baja fiabilidad enmascara el efecto.
Cronbach en 1971 señalaba que la validación es el proceso por medio del cual el
investigador que desarrolla cuestionarios obtiene evidencia para sustentar sus inferencias.
Este proceso de validación requiere un estudio empírico dirigido a recolectar la evidencia
requerida.
La validez se ve como una evaluación -más que una característica- de cuán apropiadas y
adecuadas son las interpretaciones y los usos que se hacen de los resultados del
cuestionario.
Por otra parte, Trochim señala que el concepto de validez no debe limitarse solamente a la
validez del cuestionario, sino que debe poder hablarse de la validez de cualquier tipo de
operacionalización de un constructo.
3. CARACTERÍSTICAS DE LA VALIDEZ
4. TIPOS DE VALIDEZ
a. VALIDEZ DE CONTENIDO
Responde a la pregunta ¿los reactivos que constituyen la prueba son realmente una
muestra representativa del dominio de contenido (dominio conductual) que nos
interesa?. Así pues la validación de contenido consiste en determinar lo adecuado del
muestreo de reactivos del universo de reactivos potenciales y la validez de contenido
es una “medida” de lo adecuado del muestreo. Ponemos “medida” entre comillas,
debido a que, la validez de contenido consiste en una serie de estimaciones u
opiniones, que no proporcionan un índice cuantitativo de la validez (no utiliza
procedimientos estadísticos).
Asimismo, no hay nada que exija que la prueba sea homogénea. Puesto que, hasta
las unidades de instrucción (unidades de aprendizaje, “lecciones”, etc.), más limitadas
suelen incluir una gran variedad de contenidos y capacidades, el exigir una elevada
homogeneidad sería indeseable y poco realista (Ebel, 1968).
LECCION 3
1. INTRODUCCION
En la validez de criterio deseamos saber hasta qué punto podemos generalizar (o predecir)
hacia el éxito que habrá de tener una persona en la ejecución de una tarea diferente.
3. VALIDEZ CONCURRENTE
4. VALIDEZ PREDICTIVA
Es importante destacar que la validez predictiva suele estar asociada con problemas y
resultados prácticos; es decir, el interés no es tanto en lo que está detrás del desempeño
en la prueba, sino más bien en ayudar a resolver problemas prácticos y tomar decisiones.
Muchos de estos problemas y toma de decisiones están relacionados con la evaluación,
selección y asignación de personas para diferentes actividades (estudio, trabajo, deporte,
arte, etc).
Si el criterio se fija en el futuro, se habla de validez predicativa. Por ejemplo, una prueba
para determinar la capacidad administrativa de altos ejecutivos se puede validar
comparando sus resultados con el futuro desempeño de los ejecutivos medidos.
La validez de criterio puede ser validez concurrente o validez predictiva. La validez concurrente
generalmente se alcanza fácilmente con estudios transversales pero la validez predictiva requiere
de un estudio longitudinal.
LECCION 4
VALIDEZ DE CONSTRUCTO
1. INTRODUCCION
La validez de constructo es la principal de los tipos de validez, en tanto que «la validez de
constructo es el concepto unificador que integra las consideraciones de validez de
contenido y de criterio en un marco común para probar hipótesis acerca de relaciones
teóricamente relevantes» (Messick, 1980; p.1015), en este mismo sentido (Cronbach,
1984; p.126) señala que «la meta final de la validación es la explicación y comprensión y,
por tanto, esto nos lleva a considerar que toda validación es validación de constructo».
Los trabajos de Cronbach (1980, 1982, 1988), Guion (1977, 1980), Loevinger (1957) y
Tenopyr (1977) destacan por su apoyo a esta perspectiva integradora, mas la figura clave
es la de Samuel Messick (1975, 1980, 1981, 1988, 1989, 1994, 1995). Messick (1995)
afirma que ‘la validez unificada integra consideraciones de contenido, criterio y
consecuencias en un marco de referencia de constructo para la evaluación empírica de
hipótesis racionales acerca del significado de las puntuaciones y de relaciones relevantes
desde el punto de vista teórico, incluyendo las de naturaleza científica y aplicada’.
2. VALIDEZ DE CONSTRUCTO
Una prueba no es un conjunto de ítemes que se juntan al azar para predecir un criterio,
es más bien una medida o índice de un concepto, teoría o constructo psicológico, o de
otro tipo (Muñiz, 1994).
(Cortada de Kohan, 1999), nos dice que la validez de constructo se refiere a precisar
“cuáles son las cualidades psicológicas que un test mide”, y se evalúa “demostrando
que ciertos constructos explican en cierta medida el desempeño en el test”.
(Medellín Lozano, 2001), nos dice que este tipo de validez se obtiene mediante la
acumulación de evidencias respecto al rasgo que mide la prueba y está centrada en el
rasgo y se puede utilizar para el estudio de las diferencias individuales y para el
desarrollo de teorías psicológicas.
a. Los que obtienen elevadas puntuaciones será más probable que acaben en
clínicas psiquiátricas que aquellos con puntajes bajos.
b. Será más fácil que les receten drogas psicotrópicas a los que tienen altas
puntuaciones que a los de bajos puntajes.}
c. Los hijos de los de puntuaciones altas tendrán mayores probabilidades de tener
una puntuación alta en test de ansiedad, que los hijos de quienes tuvieron bajas
puntuaciones.
d. El test de ansiedad se correlacionará alta y significativamente (más allá de 0.60),
con otros sobre dicha ansiedad caracterizada.
e. El test de ansiedad no se correlacionará con variables que no resulten conexas
con la misma.
f. Los grupos psiquiátricos caracterizados como ansiosos alcanzarán en el test
unas puntuaciones más altas que los de control.
g. En el test de ansiedad, los sujetos evaluados por supervisores y colegas como
ansiosos, lograrán mayores puntuaciones que quienes están considerados como
no ansiosos.
Es necesario tener presente que los resultados de los estudios que hagamos realmente
no “validan” o “prueban” la teoría completa, puesto que nunca se puede demostrar una
construcción en forma absoluta; solamente se puede aceptar como la mejor definición
de trabajo.
Si los resultados son negativos, hay por lo menos tres interpretaciones posibles: la
prueba puede no medir la construcción, el marco teórico puede ser erróneo permitiendo
inferencias incorrectas o bien, quizá, el diseño del experimento no permite una prueba
apropiada de la hipótesis. La falla del diseño experimental suele ser la más fácil de
detectar; pero no siempre se puede experimentar con claridad el lugar exacto de la
falla. Esta interpretación ambigua de los resultados negativos es un inconveniente
evidente del procedimiento de validación de los constructos.
Las evidencias relacionadas con la estructura interna de una prueba nos van a
indicar si las relaciones entre los reactivos y las dimensiones (factores, escalas),
permiten confirmar la existencia de los constructos que el test pretende medir. El
marco conceptual de una prueba puede proponer una dimensión unitaria de
comportamiento o varios factores ( Pérez y Olaz, 2008).
Una encuesta podría construirse para medir salud orgánica y emocional. Ejemplo:
si las intercorrelaciones entre los reactivos confirman la presencia de esos dos
factores teóricos, ésta es una información relevante para la evidencia de validez
vinculada con la estructura interna del test (APA, 1999).
Resulta necesario comprobar estadísticamente que los reactivos se agrupen de la
manera que se ha realizado la propuesta teórica, y para dicha finalidad el
procedimiento adecuado es el análisis factorial (Carretero-Dios y Pérez, 2005).
Debemos tener presente que el análisis factorial es un método estadístico utilizado
para analizar las intercorrelaciones entre datos observables (Martínez Arias, 1995).
Ejemplo: si se administran 90 reactivos o preguntas a 1,400 sujetos, el primer paso
implica calcular las correlaciones de cada elemento con los demás. Luego, al
observar la matriz de correlaciones obtenidas apreciaremos ciertas agrupaciones
entre los reactivos, lo cual va a revelar la presencia de rasgos o factores comunes.
En la práctica, cuando utilizamos el análisis factorial por lo general se va a reducir
el número de variables inicialmente consideradas y el comportamiento de cada
sujeto puede describirse con referencia a un número relativamente pequeño de
factores o rasgos comunes (Anastasi y Urbina, 1998).
LECCION 1
CONFIABILIDAD
1. INTRODUCCION
Al evaluar la utilidad de una prueba o test, a menudo hay dos preguntas que es necesario
formularse, las cuales aunque son diferentes, de alguna manera están relacionadas. La
primera pregunta es: ¿con cuánta exactitud la muestra de ítemes o tareas representa al
universo de donde fueron seleccionados? La segunda pregunta es ¿con qué fidelidad
corresponde este universo al atributo latente que se va a medir? La primera pregunta se
relaciona con lo que comúnmente se denomina confiabilidad de la medida; mientras que la
segunda se refiere a su validez.
2. CONFIABILIDAD
La confiabilidad significa la consistencia entre los puntajes de un test obtenidos por los
mismos individuos en distintas ocasiones o entre diferentes conjuntos de ítemes
equivalentes (APA, 1999).
La confiabilidad puede entenderse como la exactitud o precisión de una medición, o el
grado en el cual las puntuaciones de un test están libres de esos errores de medición. Esta
exactitud o precisión de las puntuaciones permite que éstas se mantengan constantes en
diferentes circunstancias ( Tornimbeni, Pérez y Olaz, 2008).
La confiabilidad de una prueba se expresa como un número decimal positivo que va desde
0.00 hasta 1.00. r11 = 1.00, indica la confiabilidad perfecta y r11 = 0.00, indica la total
falta de confiabilidad.
a. Tipos de Confiabilidad
a.2 El valor que se obtenga dependerá del grupo (muestra) de sujetos que ha sido
examinado y de los orígenes de error que influyen en las calificaciones. Por lo
tanto, no existe la confiabilidad de una prueba psicológica y lo que existe son
muchos coeficientes de confiabilidad para cualquier prueba, tantos como hay
diferentes condiciones para la estimación de la confiabilidad. Asimismo, un
coeficiente de confiabilidad es una medida de la cantidad de inconfiabilidad que no
indica las causas de esta falta de confiabilidad y más bien indica lo mucho que
puede esperarse que varíen las calificaciones y no las razones de su variación.
a.3 La estabilidad.
• Este coeficiente se utiliza en las pruebas que miden rasgos psicológicos que se
supone que son relativamente estables a través del tiempo (por ejemplo: la
mayor parte de las aptitudes y las capacidades y muchas características de la
personalidad). Además, siempre que se utilizan las calificaciones de una
prueba en la toma de decisiones sobre planes a largo plazo (por ejemplo:
aptitudes e intereses), es esencial una medida de la estabilidad de las
calificaciones al paso del tiempo.
• Incluso, para las características que varían con el tiempo, conviene, por lo
común tener conocimientos sobre el grado de estabilidad de las calificaciones
de las pruebas en períodos cortos. Se parte de la suposición de que la
característica que mide la prueba es estable en el tiempo; asimismo, que no
existe ningún efecto diferencial del olvido (si el tiempo de reaplicación es muy
posterior), o de la práctica (si la reaplicación se produce en un lapso corto
respecto a la primera); y, por último, que no debe producirse ningún
aprendizaje diferencial entre las dos aplicaciones.
a.4 Equivalencia.
• Se obtiene a través del método de las formas equivalentes. Puesto que
cualquier prueba contiene sólo una muestra de todos los reactivos posibles, se
pueden construir varias formas paralelas de una prueba. Estas cubren el
mismo contenido, utilizan los mismos tipos de reactivos, tienen un grado de
dificultad igual e igual variabilidad (media aritmética y varianza similares).
• El procedimiento consistirá en aplicar una forma de prueba (forma A), dejar que
transcurra cierto período de tiempo y, a continuación, administrar la otra forma
(forma B). El coeficiente de estabilidad y equivalencia será la correlación (a
través del coeficiente de Pearson), entre los dos conjuntos de calificaciones y
proporcionará la prueba más rigurosa y dará la estimación más baja de
confiabilidad.
• Con el método de mitades emparejadas, los ítemes de una sola aplicación del
test se dividen en dos mitades (mitad A: ítemes pares; mitad B: ítemes
impares), y se califican en forma independiente. Los puntajes de las dos
mitades se correlacionan a través del coeficiente de Pearson. Como el
resultado es de la mitad del test, es necesario corregirlo para estimar la
confiabilidad de todo el test.
• Esta corrección se hace con la fórmula Spearman Brown. Este método supone
que las dos partes en que se divide el test son tests paralelos o equivalentes.
Se interpreta como un coeficiente de equivalencia. Puesto que las dos formas
(mitades), se aplican en esencia en forma simultánea, sólo las fluctuaciones a
corto plazo podrán afectar la confiabilidad.
a.7 Finalmente, queda claro que el coeficiente de confiabilidad (obtenido por cualquiera
de los métodos), es básicamente un coeficiente de correlación entre dos grupos de
puntajes e indica el grado con el cual los individuos mantienen sus posiciones
dentro de un grupo. Abarca valores desde 0 a +1 y no pueden ser negativos como
otros coeficientes de correlación.
b. Evaluación de la Confiabilidad
b.2 Existen por los menos tres factores que influyen en la confiabilidad o la falta de
consistencia de una prueba (Cortada de Kohan, 1999):
a)La adecuación de las tareas a los sujetos. Las tareas que son demasiado fáciles
o que son suceptibles de distintas interpretaciones no generarán resultados
confiables.
b)La constancia o estabilidad de la aptitud del probando para realizar las tareas
que la prueba implica. Las personas varían hora a hora y día a día en su energía,
equilibrio emocional, cansancio, etc. Si estos factores afectan la realización de la
tarea del probando, la consistencia de la prueba se verá reducida
significativamente.
c)La coherencia y objetividad del sujeto que califica la prueba. En la medida que
los calificativos que se asignen dependan de elementos subjetivos del momento,
antes que de normas coherentes, aplicadas en forma objetiva a todos las pruebas,
entonces los puntajes carecerán de confiabilidad. Esta situación nos hace ver que
la confiabilidad no es una propiedad de la prueba en sí misma, sino una propiedad
del test cuando se administra a una determinada muestra de sujetos.
c.1 En la teoría clásica de los tests, el calificativo que obtiene un probando en un test
consta de una calificación “real” más algún error no sistemático de medida.
La calificación real se define como la media o promedio de los puntajes que se
obtendrían si un sujeto respondiera el test una cantidad infinita de veces. Dicho
calificativo nunca puede medirse con exactitud sino que debe calcularse en base al
puntaje obtenido por el sujeto en el test.
c.2 En la teoría clásica de los tests, la varianza de las calificaciones obtenida por un
grupo de sujetos ( S Obs), es igual a la varianza de sus puntuaciones reales
(SReal), más la varianza de errores no sistemáticos de medición (SErr), tal y como
se indica a continuación:
c.3 Por lo tanto, la confiabilidad de la prueba (r11), se define como la relación entre la
varianza real con la varianza obtenida o la proporción de la varianza obtenida que
se explica por la varianza real, tal y como se indica a continuación:
tj = Tj + ej
Los puntajes de error (ej), son debidos al azar y se producen por acción de factores
cuyo efecto varía de una ocasión a otra en que se aplique el test, es decir, por
factores diferentes a los que determinan los puntajes verdaderos (Tj), de los
sujetos. En la ecuación indicada, no sabemos el valor de Tj ni de ej.
d.3 En el caso de que no existiesen errores entre las puntuaciones obtenidas en las
aplicaciones de los tests, la correlación sería perfecta y tendría un valor de 1, en
cuyo caso el test sería confiable.
d.4 Un estadístico muy utilizado para describir fuentes de variabilidad en los
calificativos de un test, es la varianza.
e.2 En la medida que cada causa de error tendrá su mayor influencia en circunstancias
diferentes, serán posibles varios tipos de rangos que estimaciones de confiabilidad:
consistencia en el tiempo (el coeficiente de estabilidad); consistencia sobre las
formas de las pruebas (el coeficiente de equivalencia) y consistencia sobre el
tiempo y las formas de las pruebas, al mismo tiempo (el coeficiente de estabilidad y
equivalencia).
e.3 En cada caso, un índice apropiado de confiabilidad, el coeficiente de confiabilidad,
es la correlación entre las calificaciones de dos aplicaciones de la prueba.
Asimismo, existen procedimientos para determinar la confiabilidad cuando se
aplica sólo una forma de la prueba, además de un método (el error estándar de
medida: ESm), para determinar la cantidad de error en las calificaciones obtenidas
por un sujeto y los factores que influyen en los coeficientes de confiabilidad.
e.4 Finalmente, hay que tener en cuenta la consistencia interna u homogeneidad de las
pruebas.
e.5 Las fuentes de varianza de error de medición señalados por Ugarriza, 2004, son
los siguientes:
El coeficiente de confiabilidad señala la cuantía en que las medidas de las pruebas están
libres de errores aleatorios. Así por ejemplo: un coeficiente de 0.95 quiere decir que en
la muestra y condiciones establecidas (situación experimental, instrucciones, etc.), el
95% de la varianza de los calificativos se deben a la auténtica medida y sólo el 5% a
errores aleatorios (Crombach, 1972).
METODOS DE LA CONFIABILIDAD
1. INTRODUCCION
Esta situación exige experiencia de parte del psicólogo para provocar una adecuada
motivación en las personas examinadas. En tal sentido, si se ha considerado una entrega
de resultados a los sujetos, esta puede efectuarse después de concluir la segunda
administración y así garantizar la motivación de los examinados.
En otros casos, si el intervalo de tiempo transcurrido entre las dos administraciones es muy
corto, en tests que miden habilidades, pueden obtenerse una correlación falsamente alta.
Por el contrario, si el intervalo de tiempo entre las dos aplicaciones es muy prolongado, se
corre el riesgo de que las diferencias entre los calificativos se deban a cambios reales en
los sujetos examinados en la variable que está estudiándose, más que a una escasa
confiabilidad de la prueba.
Por lo anteriormente señalado, es conveniente que el tiempo transcurrido entre una y otra
aplicación del test, debería delimitarse atendiendo a las características de la variable
medida y del universo meta de la prueba.
Consiste en correlacionar las puntuaciones obtenidas en dos ocasiones diferentes por los
mismos sujetos en el mismo test (y, por lo tanto, refleja el grado de estabilidad del test). El
principal problema de este método es el de determinar la cantidad óptima de tiempo que
debe transcurrir entre la primera y la segunda aplicación ya que si el período intermedio es
muy breve, las puntuaciones pueden variar por efecto del aprendizaje (recuerdo de las
respuestas a los ítems) y/o de la fatiga de los sujetos, alterando con ello la fiabilidad real
del test. Por el contrario, si el período entre aplicaciones es muy largo, las puntuaciones
empíricas pueden variar porque el rasgo que estamos midiendo no sea estable en el
tiempo, es decir, que evolucione, cambie, se modifique, por lo que este método sólo debe
emplearse con rasgos teóricamente estables, es decir, que no varíen con el paso del
tiempo como pueden ser el CI o la personalidad.
Si bien es cierto, este método es más completo que el anterior toda vez que permite
controlar algunas fuentes de error aleatorio como: diversos tipos de reactivos, diferentes
condiciones físicas y mentales de los probandos, diferente situación medio ambiental, etc.,
sin embargo, presenta algunos inconvenientes.
Para ser consideradas equivalentes, dos pruebas deben reunir ciertos requisitos tales
como: tener las mismas características formales (cantidad de ítemes, escala de respuesta,
etc.) y estadísticas (tener medias y desviaciones estándar semejantes, coeficientes de
correlación elevados entre ambas formas, etc.) (APA, 1999).
Un ejemplo de este método puede ser los resultados obtenidos de las correlaciones de las
formas S y T del APT (Test de Aptitudes Diferenciales de Bennett, Seashore y Wesman,
2,000).
Si dos formas de un test pretenden medir un mismo rasgo, parece razonable esperar que
los resultados empíricos de ambas en una población correlacionen de forma elevada. Si
esto es así, ambas formas manifiestan un elevado grado de precisión a la hora de reflejar
los diversos niveles de rasgo. Si ambas correlacionasen de forma mínima, no podemos
fiarnos de que reflejen fidedignamente los niveles de rasgo.
Pues bien, definimos inicialmente el coeficiente de fiabilidad como la correlación entre los
resultados que proporcionan dos formas paralelas de un mismo test. Teóricamente, este
método consistiría entonces en correlacionar las puntuaciones obtenidas por los sujetos en
dos formas paralelas de un mismo test (mide por tanto el grado de equivalencia entre
ellas). Aunque ésta es la forma que se deriva directamente del modelo de la TCT (recordad
la importancia que se da a su definición en esta teoría) tiene el enorme inconveniente de
que exige el diseño de dos formas paralelas de un mismo instrumento; diseño que, al
margen de costoso en tiempo y esfuerzo, es muy difícil de conseguir.
METODOS DE LA CONFIABILIDAD
1. INTRODUCCION
Quizás el problema inicial de este método sea lograr que las mitades obtenidas puedan ser
comparables. Por ejemplo, los ítemes de muchos tests tienen un arreglo en espiral y se
construyen con un nivel de dificultad creciente, de tal manera que si se divide el test en dos
mitades, sin lugar a dudas, no resultarían compatibles. En otros casos puede ocurrir que
los sujetos se vean más afectados por el cansancio y la fatiga hacia el final del test
incidiendo en los calificativos de la segunda parte. Frente a esto, algunos especialistas
separan los reactivos en dos mitades, una de pares y otra de impares; y otros aparean los
reactivos con un criterio estadístico para luego asignarlos al azar a cada una de las
mitades.
Es el más utilizado porque sólo se necesita aplicar una vez el test y calcular la correlación
obtenida por los sujetos en cada una de las dos mitades en que se puede dividir dicho test.
Como un test puede tener múltiples “dos mitades”, habitualmente escogeremos las
puntuaciones de los ítems pares y las correlacionaremos con las de los ítems impares (rPI).
Basta con hacer una pequeña transformación sobre esta correlación (mediante la conocida
como fórmula de Spearman-Brown para la longitud doble y que veremos con más
detenimiento en próximos apartados) y tendremos el coeficiente de fiabilidad del test (que,
en este caso, es un indicador directo de la consistencia interna del test)
A estas alturas podemos indicar que tanto el método de división o partición en mitades
como el coeficiente alfa, son inapropiados para verificar la confiabilidad de tests de
velocidad o tiempo limitado (Anastasi y Urbina, 1998). En estos casos deben utilizarse
métodos alternativos, como el test-retest o el de formas equivalentes o paralelas
( Tornimbeni, Pérez y Olaz, 2008).
Asimismo, cuando los ítemes de un test o escala son numerosos (superiores a 30), el
coeficiente alfa tiende a ser demasiado elevado (Cortina, 1993). En este caso se
recomienda el uso adicional del coeficiente de correlación inter-ítem, menos influido por el
número de ítemes de una escala. La magnitud recomendable del coeficiente de
correlación inter-ítem debe situarse entre 0.15 y 0.50 (Carretero-Dios y Pérez, 2005).
Simplificando, podemos decir que el coeficiente alfa, propuesto por Cronbach (1951),
estudia la fiabilidad de un test entendiéndola como el grado en que todos los ítems que lo
componen miden el mismo rasgo (unidimensionalidad del test) y, por supuesto, si lo miden
bien. Es, por lo tanto, una medida de la consistencia interna del test, de la coherencia
existente entre todos sus ítems.
Este coeficiente desarrollado por J. L. Cronbach requiere una sola administración del
instrumento de medición y produce valores que oscilan entre O y 1. Su ventaja reside en
que no es necesario dividir en dos mitades a los ítems del instrumento de medición,
simplemente se aplica la medición y se calcula el coeficiente.
LECCION 4
1. INTRODUCCION
Los puntajes directos, “crudos” o “brutos” de un test, sea éste los de una prueba
recientemente construída u otro test ya utilizado, no significan nada por sí mismas a menos
que se les compare con algún patrón o tabla de medida.
Un puntaje directo, “crudo” o “bruto” de una prueba se interpreta con referencia a la norma
cuando se convierte el puntaje del sujeto en una posición con respecto al grupo que ha
sido examinado por el test y que se convierte en grupo normativo.
Ejemplo: Jaime resolvió los problemas de la escala avanzada de matrices progresivas de
Raven, mejor que el 85 por 100 de una muestra representativa de alumnos del quinto de
secundaria de Lima Metropolitana.
3. Estandarización o Tipificación
El proceso de estandarización implica adaptar una prueba a una realidad diferente para la
que fue creada. Infiere establecer procedimientos unívocos para la aplicación, calificación
e interpretación de un test. Por otra parte, la adaptación muchas veces supone traducir el
test a un idioma diferente, por lo que los psicólogos especialistas deben manejar
correctamente lo concerniente a traducción, dicción, vocabulario, ortografía, gramática,
etc., a fin de poner el instrumento “a punto”.
4. Normalización o Baremación
La tabla de normas o baremo, permite comparar el puntaje directo obtenido por un sujeto
con la distribución de los puntajes obtenidos en el test por el grupo normativo.
A. Definición.
El grupo debe estar perfectamente definido. Esto se realiza sobre la base de las
variables de estudio. Ejemplo: estudiantes secundarios de ambos sexos comprendidos
entre los 11 y 17 años de edad que cursan del 1° al 5° de secundaria diurna en
colegios nacionales de Lima Metropolitana. Las normas son válidas solamente para los
examinados que tengan las mismas características que definen al grupo normativo.
B. Representatividad
Cuando las medidas estadísticas (media o promedio; desviación estándar, etc.), que se
estimen van a ser generalizadas a la población general, es necesario que el grupo
normativo sea representativo de tal universo para que las medidas tengan validez.
C. Tamaño suficiente
El grupo normativo es una muestra para calcular los parámetros estadísticos de la
población; por lo tanto, el tamaño del grupo normativo viene dado en función de la
precisión con que se desee hacer dichas estimaciones.
El caso es que, los puntajes estándar que obtenemos son normalizados. La nueva
distribución ya no tiene la misma forma de la original (como sí la tenía los puntajes
estándar). Si se calcula, el promedio de esta distribución es 0 y su DE es 1 (puntaje
estándar “z”).
Por otra parte, como quiera que las puntuaciones normalizadas tienen unidades de
medida iguales y su amplitud es la misma en una u otra distribución, se utilizan como
técnica básica para la interpretación de los resultados de las pruebas psicológicas y
pedagógicas.
b. La curva es asintótica en relación al eje de la abcisa. Esto nos indica que las colas
de la curva nunca llegan a tocar el eje horizontal y se extienden desde el infinito
negativo, hasta el infinito positivo.
e. Entre (+ - ) 1 desviación estándar cubren el 68.26 por ciento del área de la curva, tal
y como podemos apreciar en la tabla que se aprecia a continuación:
Escala P (Percentil).-La escala percentil es una de las más utilizadas por los psicólogos.
Constituye una escala ordinal sin suposiciones con respecto al cero arbitrario y las
unidades. Comprende desde 0 a 100 y se expresa en percentiles.
El percentil 30 (P30), es el punto de la escala por debajo del cual se encuentra el 30% de
los sujetos, o también el percentil 84 (P84), es el punto de la escala por debajo del cual se
encuentra el 84% de los sujetos.
Cuando hablamos de la desviación o amplitud semiintercuartilar decimos que la mediana
es el punto de la distribución de frecuencias debajo o encima de la cual se encuentra el
50% de los casos, y que el primer cuartil (Q1), marca el punto debajo del cual se encuentra
el 25% de los casos y el tercer cuartil (Q3), el 75% de los casos. Pues bien, en vez de
dividir nuestra muestra o colectivo en cuarteles (25%), la dividimos en cien partes iguales y
a los diversos puntos de la escala que separan las partes de porcentajes de 1 se les llama
percentiles o centiles. En la práctica tenemos 100 espacios y 99 puntos percentiles.
El método para calcular y construir la escala percentilar es esencialmente igual al utilizado
en el cálculo de la mediana.
Para ser útiles, las normas o baremos deben permitir al profesional psicólogo comparar a
un sujeto, examinado o probando, con sus posibles compañeros y competidores. Muchas
veces, encontramos que las normas generales no son de gran utilidad toda vez que existen
múltiples diferencias entre las diversas regiones geográficas, las profesiones, los colegios,
etc. Esta situación se agudiza en países como el nuestro donde los grupos humanos son
tan heterogéneos, que resulta necesario elaborar normas locales o baremos de centro. Por
ejemplo: si el psicólogo trabaja en un centro educativo de nivel socio económico muy alto,
debe elaborar tablas de normas o baremos para la población en la cual desempeña sus
funciones. Estas normas serán expresadas en los puntajes derivados que dicho
profesional estime conveniente de acuerdo al tipo de prueba, población, confiabilidad,
validez, etc.
GLOSARIO
6. Cortada, N., Carr, J. (1979). Estadística Aplicada. Buenos Aires. Ediciones Previas.
12. Woolfolk, Anita . (1990). Psicología Educativa. Tercera Edición. P.H.H. Prentice Hall.
México.
14. Smith, Milton. (1971). Estadística Simplificada para Psicólogos y Educadores. Manual
Moderno México