Está en la página 1de 9

Confiabilidad

Poner a prueba consistencia y precisión de los puntajes.


Analizar el grado de precisión con que se realiza la medida.
Tendencia de una técnica a la consistencia en un conjunto de medidas de un atributo.
Proporción de la varianza total de las puntuaciones obtenidas con un test que puede
atribuirse a la varianza verdadera. Cuanto mayor es la proporción, más confiable es la
técnica.
Consistencia de las puntuaciones obtenidas por las mismas personas cuando se las
examina en distintas ocasiones con el mismo test, con ítems equivalentes o en otras
condiciones de administración.
Confianza que se puede tener en los resultados que arroja una prueba.

Confiabilidad: asociado a error. Cuando se mide un atributo psicológico, la medida


siempre resulta afectada por cierta cantidad de error aleatorio. Se trata de que ese error
sea el mínimo posible (cuanto mayor sea, el valor obtenido a través de la técnica se
alejará más del valor real o verdadero).
Error: componente de la puntuación obtenida por un S en una técnica psicométrica que
no está relacionado con la evaluación del atributo en cuestión, sino con otras variables
improcedentes. El error se refiere al componente de la puntuación observada que está
evaluando dichas variables improcedentes, que son aleatorias y no permanentes del
atributo en cuestión.
Los estudios de confiabilidad son para responder a interrogantes acerca de la precisión
de los puntajes de una técnica. Para responder a preguntas como: ¿cuánto fluctúan de un
día al otro las puntuaciones de una prueba? Ale y Agus, ¿obtendrían puntuaciones
sustancialmente diferentes al ser evaluados hoy o dos meses después? ¿Pueden tomarse
como similares las puntuaciones obtenidas a través de una técnica que arroja resultados
diferentes según quien la evalúe? Cada profesional, al evaluar la misma hoja de
respuestas, ¿obtendrá un puntaje diferente o similar?

La confiabilidad de una técnica no se dirime en términos de confiable o no confiable,


sino que hay diferentes tipos y grados de confiabilidad.

Teoría Clásica de los Tests: describe la influencia de los errores de medida en las
puntuaciones que se obtienen a través de instrumentos. Problema de la incertidumbre o
error inherente a las medidas realizadas mediante la aplicación de un test. Para medir en
Psicología es necesario asumir dos supuestos:
- existen puntajes verdaderos, que reflejan la realidad, miden de un modo exacto, sin
error. Supuesto ideal, H de trabajo. Se supone la existencia de puntuaciones verdaderas,
sin error. Puntaje teorizado, ideal. Puntaje verdadero.
- siempre que se realizan mediciones pueden cometerse errores. Se supone que al
realizar una medición del fenómeno lo más probable es que se cometan errores. Puntaje
concreto, resultado de la aplicación de una técnica. Puntaje obtenido.

Puntuación verdadera: lo que queda de la puntuación observada u obtenida mediante


un test una vez eliminados los errores de medida.

X = Xv - Xe

1
Xv = X - Xe

X = puntaje obtenido
Xv= puntaje verdadero, hipotetizado, ideal
Xe = puntaje debido al error

En las mediciones de fenómenos intangibles (como lo son los de la Psicología), el


puntaje verdadero no puede ser calculado, dado su carácter ideal. Sólo puede inferirse
su valor hipotético. Por eso el objetivo de los estudios que se realizan sobre la precisión
de las puntuaciones es controlar y calcular el margen de error.

Confiabilidad: PV + PO +- e

Puntaje Verdadero: Puntaje obtenido más menos el error. El PV se estima, no se conoce


nunca, porque siempre hay error.
Ej. : si el error es igual a 3 y el puntaje PO del S es igual a 17, el PV del S oscila entre
20 y 14.

Tipos de error
Tipos de error que generan las mediciones:
- sistemático de construcción del instrumento. Afecta la validez
- asistemáticos o de medición. Afecta la confiabilidad
- sesgo. Afecta la validez.

Error sistemático o constante: las fuentes de error sistemático son las que desplazan las
puntuaciones en cierta dirección, generando una puntuación sistemáticamente alta o
baja. A pesar de introducir diferencias en el resultado de la medición no cambia la
variabilidad, la distribución de las puntuaciones de los sujetos en la variable que se está
evaluando. Se detectan a través del análisis de la validez.
Ej.: balanza que indica 1,5 kg de más. Si se evalúa con esta balanza a una muestra de S,
todos verán su peso aumentado en 1,5 kg., pero su peso relativo permanece sin cambios
(la diferencia de peso entre los S). El Kg y medio de más es una constante que se suma
al valor verdadero de cada medición.
Test que sistemáticamente sobrevalore o subvalore el nivel del inteligencia de los S, o el
nivel de depresión.
Error en el instrumento (no se entiende la consigna por ej.). Afecta a las respuestas.
Afecta a todos los que responden, a toda la población potencialmente evaluada.

Errores no sistemáticos: no pueden ser controlados, son impredecibles o aleatorios,


porque son generados por el azar. Aunque las pautas de aplicación sean respetadas, al
llevar a cabo una medición siempre existen factores azarosos que pueden generar
errores.
Si en dos ocasiones se administra una misma técnica a un grupo de S, el instrumento
pocas veces arrojará exactamente el mismo resultado, debido a la incidencia de factores
aleatorios.
Es un error azaroso, no siempre afecta las mediciones de igual manera. No es constante
sino variable. Es ineludible, siempre va a existir.
Error de medición: conjunto de discrepancia de los resultados entre la primera y la
segunda medición.

2
Las fuentes de error pueden haber sido generadas durante la etapa de construcción del
instrumento, en la administración, en la puntuación o en la interpretación de los
resultados.

- Fuentes de error en la etapa de construcción. Una es la de muestreo de contenido:


variación de los resultados obtenidos dependiendo de los ítems incluidos. La selección
de los ítems puede verse afectada por el azar y constituirse en fuente de error de las
puntuaciones. Es por el azar y no por el sesgo de los ítems o diferencias entre distintos
grupos de S.
Ej.: En un test de vocabulario, por azar un niño puede tener más familiaridad que otros y
por eso rendir mejor.

- Fuentes de error en la administración. Cambios azarosos en la atención o motivación


del S evaluado (desgano, ansiedad, motivación); variables relacionadas con el ambiente
(temperatura, ruido, iluminación); variables relacionadas con el examinador (estilo,
comportamiento, familiaridad con la técnica).

- Fuentes de error en la puntuación. La falta de acuerdo entre los distintos evaluadores


puede generar una variación en las puntuaciones, y, por lo tanto, los resultados variar
según quién le ha tocado como evaluador al S. O que el evaluador puntúe mal un ítem
por error.

Sesgo
No afecta a todos los S, sino a un pequeño subgrupo de la población. Por razones ajenas
a la variable evaluada. Materiales culturalmente no pertinentes para el subgrupo
poblacional. También es sistemático (siempre perjudica o favorece al S). también afecta
la validez.

Conceptos estadísticos
Varianza y desvío estándar: usados para estudiar la dispersión o variabilidad de los
puntajes obtenidos. Siempre que se aplica un instrumento de medición a un grupo de
personas, se obtiene una distribución resultante (los individuos asumen diferentes
valores de la variable)

Varianza (s2): ¿cómo están diseminadas las puntuaciones obtenidas? La variabilidad


que encontramos en el conjunto de puntuaciones obtenidas.

Desvío estándar (s): cuán dispersos están los puntajes brutos respecto de la media. Si el
s es muy pequeño, la muestra está agrupada alrededor de la media. Si es elevado, los PB
están alejados respecto de la media.
Raíz cuadrada de la varianza.

S2 = Sv2 + Se2

S2: varianza total

Sv2: varianza verdadera. Las consistencias entre la primera y la segunda medición


representan la varianza verdadera.

3
Se2: varianza debida al error. Cualquier condición que sea irrelevante para el propósito
de la prueba. Discrepancias entre los datos obtenidos por en la primera medición y en la
segunda.

La medida de confiabilidad de una técnica depende de la variabilidad de las


puntuaciones que arroja, de su dispersión. El desafío del autor de la técnica es
maximizar la proporción de la varianza total que es varianza verdadera y minimizar la
proporción de la varianza de error. De ese modo se acercará más a las puntuaciones
verdaderas del atributo que se mide.

Coeficiente de correlación (r): Grado de correspondencia, relación o covariación entre


dos conjuntos de puntuaciones. Evaluar la asociación entre las variables (A mayor X,
mayor Y; Altos valores de X se asocian a altos valores de Y). relaciona las puntuaciones
obtenidas en una variable con las obtenidas en otra variable, en los mismos sujetos.
Correlación positiva perfecta: el cc = 1. Las dos variables aumentan o disminuyen
juntas (ambas covarían en el mismo sentido).
Correlación negativa inversa: -1. Mientras una variable aumenta, la otra disminuye.
Correlación nula: el cc = 0. Las variables no están correlacionadas.
Cuanto más cercano a 1 o a -1 es el cc, mayor grado de correlación de las variables.
(0,9: correlación positiva muy fuerte; -0,9: correlación negativa muy fuerte).

Coeficiente de confiabilidad
Coeficiente de confiabilidad: índice de confianza en las puntuaciones. Informa el
grado de precisión del instrumento. Número que indica en qué medida una técnica es
confiable. Permite conocer el error que se comete al realizar una medida.

Se obtiene calculando la proporción (razón/cociente) entre la varianza de la puntuación


verdadera y la varianza total.

Varianza verdadera
Coeficiente de confiabilidad: ______________________
Varianza total

Sv2
Cxx = ____________
S2

Ccn: su valor mínimo es 0: indica inexistencia de varianza verdadera, ya que todo es


varianza de error.
Su valor máximo es 1: no hay error, todo es varianza verdadera.
Cuanto más cercano a 1 es el ccn, más confiable es el instrumento.
Cuanto más cercano a 0 es el cnn, menos confiable es el instrumento.

Dificultad: el único dato para calcular el ccn es la varianza total, porque la verdadera y
la de error son incógnitas. Por lo tanto, la forma de calcular la confiabilidad es teórica, y
al coeficiente obtenido se lo llama coeficiente de confiabilidad teórico. Por lo tanto la

4
confiabilidad debe hallarse por otro camino, a través de métodos empíricos, y no con la
aplicación directa de la fórmula.

Aspectos a tener en cuenta para la confiabilidad


- Estabilidad temporal de la técnica. . Valorar la estabilidad temporal de la técnica, su
permeabilidad a cambios sutiles. Se espera que la intervención de factores fortuitos,
aleatorios (aprendizajes, olvidos, cambios emocionales) entre la primera y segunda
aplicación afecten lo menos posible a las puntuaciones. O sea, que el instrumento capte
las características constantes, estables de los S. Hay estabilidad cuando hay muy poca
discrepancia entre los datos que se obtienen en una primera y una segunda toma cuando
pasó un lapso de tiempo.

- Consistencia de la técnica. Coherencia lógica. Que a lo largo de los ítems se pregunte


por los mismos temas, que tengan el mismo nivel de dificultad (que los ítems sean
homogéneos entre sí, que sea consistentes entre sí).
- Consistencia entre los evaluadores. Para que la técnica sea confiable debe arrojar los
mismos resultados independientemente de quien lleve a cabo la evaluación.

Procedimientos empíricos para estimar el coeficiente de confiabilidad


Métodos que permiten calcular el ccn empíricamente, sin recurrir a la fórmula teórica.
Consideran la discrepancia entre un primer conjunto de datos, producto de una medida,
y un segundo conjunto de datos, producto de otra medida. Ambas medidas realizadas a
los mismos S.

Métodos que requieren repetidas aplicaciones


- test- retest
- formas paralelas con intervalo

Métodos que requieren una sola aplicación


- división por mitades
- formas paralelas sin intervalo
- fórmulas Kuder- Richardson
- coeficiente alfa de Cronbach
- confiabilidad entre evaluadores

En todos los procedimientos hay que disponer de medidas paralelas de los mismos S
para luego calcular entre ellas el ccn.
Analizar la variabilidad de las puntuaciones obtenidas por una muestra de S. Analizar la
dispersión de los puntajes que arroja la técnica administrada a un grupo de personas.

El cc más usado es el de Pearson: medida que indica el grado de relación que existe
entre dos conjuntos de datos, provenientes de dos variables. Rxy (x e y simbolizan las
variables). En el caso de la confiabilidad, los dos conjuntos de datos provienen de la
misma variable. Por lo tanto el cc de Pearson sirve para calcular la correlación entre un
conjunto de datos provenientes de una primera medición y de una segunda, siendo la

5
misma variable la que se evalúa en las dos ocasiones. El cc de correlación acá indica la
consistencia entre los puntajes obtenidos en las dos mediciones.
Cuanto más cercano a 1 sea el cc, más parecido es el primer conjunto de medidas al
segundo (hubo menos errores que modificaran los resultados). Instrumento confiable.
Cuanto más cercano a 0, más discrepancia hay entre las dos mediciones (hubo más
errores, el error afecta en gran medida al instrumento). Instrumento menos confiable.
Cc de Pearson: vale 0 cuando hay total discrepancia y 1 cuando hay total concordancia
entre los dos conjuntos de medidas.
Cuanto más se acerca a 1 el ccn, menos contaminada de error está la prueba.
Cc de Pearson cuando se usa una sola variable: rxx. Cc de Perason y Coeficiente de
Confiabilidad se usan como sinónimos.

(Una técnica nunca puede tener un ccn igual a 1, porque siempre hay error al medir).

Métodos basados en medidas repetidas


Se usa el mismo instrumento en una muestra de S en dos momentos diferentes, o sea
con un lapso de tiempo entre las dos administraciones.
Se obtiene el ccn que permite medir la estabilidad de las puntuaciones obtenidas por la
técnica.

Test- retest
Para medir si el cambio de las puntuaciones se debe a falta de confiabilidad de la
prueba, a la falta de estabilidad de las puntuaciones o a un cambio real en la variable.
Este método identifica la fuente de error debida a las fluctuaciones temporales (que
influyen en las condiciones de la administración y en las condiciones del examinado).
Para ver si se elige este método hay que saber si la variable varía mucho o poco en el
tiempo (ej.: si se trata de evaluación de intereses, éstos son muy inestables en la niñez y
después se estabilizan).
Dificultad: si se evalúa con el mismo instrumento en dos momentos diferentes pueden
influir factores como la experiencia previa, la memoria, la falta de motivación, y por eso
la segunda aplicación ya no conserva las mismas características que la primera.

Etapas en este procedimiento:


1) Aplicar y evaluar la técnica a una muestra de S.
2) Lapso de tiempo (justificado)
3) Aplicar y evaluar la técnica a la misma muestra de S
4) Calcular la correlación (r) entre las dos puntuaciones obtenidas
5) Interpretar el coeficiente hallado (estabilidad temporal de las puntuaciones)

Distinguir entre los cambios en las puntuaciones debidos a cambios de la variable o los
cambios debidos a las fuentes de error inherentes al instrumento de medición.

Ej.: Koppitz usa el test-retest para el Bender. Pero advierte que un retest inmediato
mostraría los resultados de la práctica, mientras que un intervalo demasiado largo
reflejaría el efecto de la maduración. Por lo tanto el intervalo no debe ser ni muy largo
ni muy corto.

No se puede hacer si la variable es muy inestable (ej. estado de ánimo) o si hacerlo una
segunda vez implica aprendizaje.

6
Formas paralelas con intervalo
Se usa cuando se necesita minimizar el efecto de la memoria del contenido de otra
prueba aplicada con anterioridad. O sea, cuando no se puede aplicar el test-retest por el
efecto que el aprendizaje y la memoria tendrían sobre los resultados de la segunda
administración.
Se elabora una forma equivalente de la prueba y se la aplica a los mismos S en dos
oportunidades, con un intervalo de tiempo entre las dos.
Las formas paralelas deben ser similares en contenido, instrucciones y duración, en el
tipo de ítems, etc.
Controla dos fuentes de falta de confiabilidad:
- fluctuaciones temporales aleatorias (como el test-retest)
- inconsistencia de las respuestas a diferentes muestras de ítems.

Etapas:
1) Administrar una forma de test a una muestra de S.
2) Lapso de tiempo.
3) Administrar la forma paralela del test a la misma muestra.
4) Calcular la correlación (r) entre las puntuaciones obtenidas con cada una de las
formas.
5) Interpretar el coeficiente hallado (estabilidad temporal de las puntuaciones y
muestreo de contenido).

Al interpretar el cc hallado se debe tener en cuenta:


- Estabilidad temporal: por el tiempo que pasó entre ambas aplicaciones.
- Muestreo de contenido: por la probable influencia de razones azarosas en la selección
de ítems que componen cada una de las formas.

Métodos basados en una sola aplicación del test


Son los más utilizados.

División por mitades


Para revisar los ítems que conforman a prueba y el análisis de las relaciones entre ellos.
O sea: estimar el grado de consistencia interna del instrumento.
Para que se pueda aplicar, la técnica debe ser homogénea: evaluar un único
atributo/factor.
Se aplica el test a una muestra de S. Luego se divide la prueba en mitades homogéneas
apareadas en contenido, dificultad, formato.

Etapas:
1) Aplicar a técnica a una muestra de S.
2) Dividir el conjunto de ítems en dos mitades homogéneas.
3) Calcular la correlación (r) entre los puntajes de cada una de las mitades.
4) Ajustar la confiabilidad de la prueba usando la fórmula Spearman- Brown (es la
que se usa cuando el instrumento se acortó o alargó).
5) Interpretar el coeficiente hallado (consistencia de las respuestas a lo largo del
test).

7
Ej.: Con el Bender no se puede hacer porque no hay número par de ítems.
Con el WISC se puede al interior de algunos subtests, no en el WISC completo
porque no es homogéneo, mide diversos atributos.

Formas paralelas sin intervalo


Casi no se hace porque es muy difícil y caro.
Se aplican ambas formas del test en la misma sesión, a la misma muestra de S, una
después de la otra.
Controla si razones azarosas en la selección de ítems influyeron en los S de tal manera
que respondan diferencialmente a cada forma no por variaciones verdaderas del
constructor, sino por los ítems particulares que le tocaron en suerte o sea por el azar, por
la influencia de errores aleatorios. Identifica la presencia de inconsistencias en las
respuestas a diferentes muestras de ítems.

Etapas:
1) Aplicar las dos formas a una muestra de S (sin intervalo de tiempo entre ambas).
2) Calcular la correlación (r) entre las puntuaciones obtenidas por la misma
muestra en una u otra forma.
3) Interpretar el coeficiente hallado (consistencia de las puntuaciones).

Tener en cuenta que las aplicaciones de las dos formas pueden ser afectadas por la
fatiga y/o la falta de motivación de los S. Además se debe contemplar que puede haber
diferencias debido al orden de aparición de cada forma.

Fórmulas Kuder- Richardson


Anticuada debido a la computación.
Para evaluar la homogeneidad del test. Calcular el grado de correlación entre todos los
ítems de una escala. El KR-20 es una variante del cc de Pearson, que se usa en casos
especiales. Se usa para determinar la consistencia entre ítems dicotómicos. Identifica la
inconsistencia de los ítems, que puede estar influida por el muestreo de contenido o por
la heterogeneidad del atributo evaluado.

Etapas:
1) Aplicar y evaluar la técnica a una muestra de S.
2) Calcular el coeficiente KR-20 entre los ítems.
3) Interpretar el coeficiente hallado (consistencia, homogeneidad).

Coeficiente alfa de Cronbach


Es ampliamente utilizado. Es el preferido para estimar la confiabilidad de la
consistencia interna. Es para identificar inconsistencia entre los ítems de una técnica.
Puede usarse en reactivos no dicotómicos, o sea en ítems que incluyen un rango de
alternativas posibles (ej. escalas likert).

Etapas:
1) Aplicar la técnica a una muestra de S.
2) Calcular el coeficiente alfa entre las puntuaciones obtenidas en los distintos
ítems.

8
3) Interpretar el coeficiente hallado.

Ej.: Inventario de estilos de personalidad (MIPS).

Confiabilidad entre evaluadores


Para que la técnica sea confiable debe arrojar los mismos resultados
independientemente de quien lleve a cabo la evaluación. Identificar si la técnica es
“objetiva”. Se analiza la concordancia entre los evaluadores. Este método identifica
las fluctuaciones de las puntuaciones según el evaluador.
Se usa cuando la puntuación de los ítems es compleja y requiere cierto grado de
elaboración.

Etapas:
1) Administrar la técnica a una muestra de S.
2) Evaluar las técnicas administradas (evaluador A)
3) Evaluar las técnicas administradas (evaluador B)
4) Calcular la correlación (r) entre los puntajes asignados por el evaluador A y por
el evaluador B.
5) Interpretar el coeficiente hallado.

Ej.: subtest de vocabulario del WISC-III: se administró a una muestra de S. luego los
resultados fueron evaluados por cuatro examinadores y se calculó la correlación entre
los puntajes asignados por todos.

Técnica Evalúa
Test- retest Estabilidad temporal
Formas paralelas con intervalo Estabilidad temporal + consistencia
División por mitades Consistencia
Formas paralelas sin intervalo Consistencia
Coeficiente alfa Consistencia
Confiabilidad entre evaluadores Criterios de evaluación

También podría gustarte