Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Medici N en Ciencias Sociales - Manual-Completo PDF
Medici N en Ciencias Sociales - Manual-Completo PDF
CIENCIAS SOCIALES
INDICE
1.1 Introducción
La mayor parte de los eventos u objetos que estudian los científicos varían en su magnitud.
En los esfuerzos realizados para representar el hecho de que los eventos y objetos varían en
magnitud, los científicos utilizan los números porque éstos conforman un sistema entendible de
conceptos que implican la misma magnitud. En otras palabras, los números y las operaciones
matemáticas asociadas con ellos, pueden considerarse como una analogía general o modelo de las
relaciones existentes entre los eventos que ocurren naturalmente. Esta generalidad se obtiene
porque los mismos números son utilizados para representar las magnitudes de diferentes tipos de
eventos. De hecho, uno de los propósitos de manejar números es el de proveer un lenguaje común
y universal para describir las magnitudes de diferentes objetos. El manejar un lenguaje numérico
permite hacer distinciones finas en situaciones donde sólo se puede percibir en forma general o
vaga a los hechos; es decir, permite hacer distinciones muy finas de magnitudes, que de otra forma
serían imposibles. O como dijo Guilford (1954), la medición permite precisión, objetividad y
descripción comunicables que pueden manejarse fácilmente a nivel del pensamiento, ya que medir
significa describir datos en términos de números.
La medición en psicología tiene por objeto registrar diferencias entre individuos o entre
reacciones del mismo individuo en diferentes ocasiones utilizando instrumentos especiales
denominados pruebas psicológicas o "tests".
Bertrand Russell define el "medir magnitudes como cualquier método por medio del cual se
establece una correspondencia única y recíproca entre todas o algunas de las magnitudes de algún
tipo y todos o algunos de los números, integrales racionales o reales" (Russell, 1938, p.176).
Stevens define medir como el hecho de asignar números a objetos y eventos de acuerdo a
ciertas reglas (Stevens, 1951, p. 22).
Para Guilford (1954) y Torgerson (1967) medir significa describir datos en términos de
números.
Nunnally (1967) establece que medir consiste en un conjunto de reglas para asignar números
a objetos de manera tal que se representen cantidades de atributos.
Torgerson (1967) manifiesta que la medición de una propiedad implica asignar números a los
sistemas que representan esta propiedad. Para poder representar esta propiedad se debe obtener
una relación isomórfica entre ciertas características del sistema numérico y las relaciones entre las
varias cantidades de la propiedad a medirse. Lo importante del procedimiento es asignar los
números de manera tal que reflejen esta equivalencia de formas entre las características de los
números y las relaciones correspondientes entre las cantidades.
De esta manera, medir quiere decir introducir a las matemáticas en la ciencia, aumentando
así su cientificidad. Las matemáticas son un lenguaje universal que cualquier ciencia o tecnología
puede usar para su conveniencia. Son también un sistema deductivo, un conjunto de reglas para la
manipulación de símbolos internamente consistentes que hace referencia a símbolos, no al sistema
real. Los números sólo son un conjunto de símbolos específicos y la medición siempre se refiere a
números.
Por medio de la medición se trata de averiguar qué tanto de cualquier atributo existe, y tiene
como propósito el cuantificar los atributos de objetos y personas reales. Esto se logra mediante la
realización de una operación: es decir, hacer algo de acuerdo a un conjunto de reglas para obtener
medidas. Su validez o utilidad va a depender del carácter de los datos empíricos.
De entre las propiedades que tienen los números, las más importantes para la medición son
tres: la de identidad, la de ordinalidad y la de aditividad o sumación.
Los números, salvo en los casos de igualdad (principio de identidad), pueden colocarse en un
orden incontrovertible a lo largo de una escala lineal (principio de ordinalidad).
Las variables - que son los elementos de las ciencias sociales -- son a veces la traducción en
términos operativos de nociones usadas corrientemente (inteligencia, costo de la vida, moral). En
otros casos proceden de consideraciones teóricas (introversión, integración, cohesión). Pero, sea
cual fuera su origen, son obtenidas siempre mediante la aplicación, a los conceptos y nociones, de
un método definido o inmutable. Se tratará de ejemplificar las reglas generales de traducción que
permiten pasar del vocabulario de los conceptos al de las variables.
Un concepto supone necesariamente una definición rigurosa y una noción contiene tan sólo
un conjunto de imágenes no sistematizadas. El primer problema, por lo tanto, consiste en
transformar una noción en concepto; es decir, en obtener una definición mucho más precisa. El
problema consiste en distinguir las dimensiones específicas de la representación original y en
encontrar indicadores para cada una de estas dimensiones.
El conjunto de este tipo de análisis permite simplificar la connotación del concepto primitivo,
facilitando asi' un acuerdo intersubjetivo acerca de su contenido.
Evidentemente no existe ningún límite imperativo al proceso de especificación: toda
dimensión puede dar lugar a nuevas subdivisiones. Pero es fácil intuir que un análisis
excesivamente refinado puede conducir a la especificación de dimensiones redundantes, y en última
instancia, a la utilización de indicadores que habrían podido ser obtenidos directamente a partir de
las nociones.
Sea cual fuere el nivel de análisis, hay que enfrentarse en algún momento de la investigación
con el problema de la elección de indicadores.
Aunque es cierto que es posible discutir indefinidamente acerca de la validez de una medida,
la investigación empírica proporciona un resultado que limita el alcance de tales discusiones: la
constatación de que índices formados a partir de indicadores distintos conducen muchas veces a
resultados similares (a esto se le conoce como interconfiabilidad de los índices).
Debe de aceptarse sin embargo, que la elección de indicadores se ve limitada por las fuentes
de información disponibles, y por lo tanto se recomienda que antes de iniciar la elección de los
indicadores y la construcción de los índices, se procede a un análisis metodológico recapitulativo de
las fuentes de información y de los tipos de índices utilizados en el campo objeto de estudio.
Ninguna ciencia aborda su objeto específico en su plenitud correcta. Todas las ciencias
seleccionan determinadas propiedades de su objeto e intentan establecer entre ellas relaciones
recíprocas. El descubrimiento de tales relaciones constituye el fin último de toda investigación
científica.
En las ciencias sociales la elección de las propiedades estratégicas constituye, en si' misma,
un problema esencial. Estas propiedades reciben a veces el nombre de propiedades o atributos,
pero a menudo se recurre al término matemático de variable. Por su parte la atribución de
determinadas propiedades al objeto recibe el nombre de descripción, clasificación o medida.
Se examinará en forma muy general el camino recorrido por el investigador para caracterizar
al objeto de su estudio. Se verá que casi siempre hay que seguir un proceso más o menos típico.
Este proceso que permite expresar los conceptos en términos de índices empíricos comprende
cuatro fases principales: la representación literaria del concepto, la especificación de las
dimensiones, la elección de los indicadores observables, y la síntesis de los indicadores o
elaboración de índices.
La segunda fase consiste en analizar los componentes de esta primera noción. A estos
componentes se les ha llamado aspectos o dimensiones. Dichos componentes se pueden deducir
analíticamente a partir del concepto general que las engloba, o empíricamente a partir de la
estructura de sus intercorrelaciones.
La tercera fase consiste en seleccionar los indicadores de las dimensiones definidas. Uno de
los principales resultados a los que se enfrenta el investigador es el hecho de que el indicador esta'
relacionado con el concepto tan sólo en términos de probabilidad y no de certeza, y debido a esto,
es absolutamente necesario utilizar, en la medida de lo posible, un gran número de indicadores.
La cuarta fase consiste en sintetizar los datos elementales obtenidos para construir un
instrumento de medición o índice del concepto. Este índice o instrumento de medición podrá ser
monodimensional o multidimensional. En cualquier caso, requieren de la determinación de su
validez y confiabilidad.
En ocasiones, el investigador se topa con diferentes definiciones para una variable: en este
caso, podría optar por alguna de ellas y elaborarla hasta llegar a tener una definición conceptual que
satisfaga su punto de vista teórico-metodológico; o bien puede tratar de desarrollar una definición
nueva, que represente de manera adecuada el consenso, aunque sea parcial, que se dé entre las
diferentes definiciones revisadas. En este caso, el investigador tendría una definición consensual; es
decir, una definición que representa o manifiesta el acuerdo encontrado entre diversos teóricos.
En ocasiones el investigador puede tan solo o desea tan solo llegar a una definición
indicativa. Esta es aquella que define a la variable haciendo referencia al índice que la mide.
En la medida en que se tenga una variable o concepto más sencillo, es más fácil llegar a una
definición operacional. En términos generales, los investigadores se preocupan por poder llevar a
sus conceptos o variables a traducciones de operaciones de investigación definidas. Una definición
indicativa es en ocasiones el nivel definitorio más alto que se puede alcanzar, pero es también un
excelente punto de partida para la elaboración de instrumentos de medición o índices.
7. Explique los pasos operativos que se siguen para transformar a los conceptos en
índices: representación iteraria, dimensiones, indicadores, índices.
8. Distinga entre las definiciones conceptuales, consensuales, indicativas y
operacionales.
1.9 Autoevaluación
1.9.1 Preguntas
1.9.2 Respuestas
Para lograr escalas monodimensionales se requiere que los sujetos den respuesta frente a
ciertos estímulos. Las respuestas que se dan pueden ser de dos tipos: juicios y sentimientos. Los
juicios se van a referir a aquellas respuestas que se puede comprobar en forma empírica, si son
correctas o no. Los sentimientos se referirán a las reacciones, preferencias, actitudes, opiniones,
intereses del sujeto, donde por supuesto no existe una respuesta correcta, y por lo tanto no se
puede comprobar su adecuacidad o corrección en forma empírica.
El escalamiento de estímulos tiene que ver más bien con respuestas de sentimiento, mientras
que el escalamiento de personas por lo general, tiene que ver con respuestas de juicio.
Uno de los aspectos más importantes que se debe tomar en cuenta para la construcción de
una escala de medición es el de la especificación del atributo a medir; esto es, qué es lo que se
quiere medir, cuál es la propiedad que pueden tener los objetos en diferentes cantidades y que se
desea representar numéricamente. Especificar un atributo significa definir la propiedad.
Entre los métodos más conocidos para escalar estímulos se tienen dos tipos principales: a)
los modelos basados en estimaciones subjetivas, como por ejemplo el método de categorías
sucesivas y el de intervalos aparentemente iguales (Thurstone y Chave, 1929). b) los modelos
discriminativos, como por ejemplo el método de pares comparados (Thurstone, 1927 a, 1927 b).
Estos métodos difieren en las suposiciones teóricas que aceptan cada uno de los modelos, y
en las instrucciones que se dan a los jueces o sujetos para emitir cierto tipo de respuestas frente a
los estímulos o reactivos que componen el instrumento de medición.
Entre los modelos para escalar personas se tienen los siguientes: a) medidas de muchos
reactivos; b) modelos deterministas; c) modelos probabilísticos; d) el modelo lineal. Se verá cada
uno de ellos brevemente (si se desea profundizar, se pueden consultar las obras de Edwards. 1957,
Torgerson, 1967o' Guilford, 1954).
En este modelo se le pide al sujeto que dé una respuesta frente a un conjunto de reactivos.
Se trabaja con un conjunto de reactivos con objeto de resolver el problema de la especificidad del
reactivo. Esta se refiere al hecho de que cada reactivo por separado tiene una correlación muy baja
con el atributo en cuestión y presenta la tendencia a estar correlacionado con otros reactivos, por lo
cual lo mejor es tener muchos reactivos. Si se contara con sólo uno, éste produciría respuestas que
clasificarían a las personas en una de dos categorías: aprobado o reprobado, correcto o incorrecto,
a favor o en contra, y se debe recordar que uno de los objetivos de la medición es el poder
categorizar a las personas en tantas categorías como sean posibles, para encontrar la mayor
diferenciación o discriminación entre ellas.
Por otro lado, si se contara únicamente con reactivos individuales, éstos serían poco
confiables debido al hecho de que existe considerable error de medición en cada reactivo, mientras
que cuando se tiene a un conjunto de ellos, estos errores se anulan unos a otros.
En términos generales estos modelos suponen que la probabilidad de dar una respuesta
dada frente a un reactivo esta' determinada por la cantidad de atributo poseído por el sujeto. La
probabilidad de responder afirmativa o negativamente frente al reactivo cambia en forma brusca, de
0.00 a 1.00 en función de la cantidad de atributo poseído por el sujeto que responde al reactivo.
Desde el punto de vista teórico, cualquier dimensión o atributo puede ser considerado como
una variable latente. Esto es, cualquier variable que pueda conceptualizarse como subyaciendo o
produciendo cierta conducta o respuesta. La conducta o respuesta observada es considerada
entonces como alguna función de la variable latente. La probabilidad de aceptar o responder en
forma afirmativa o correcta una afirmación o reactivo que se refiere a algún atributo se puede
considerar como una función de una variable o atributo latente, el atributo poseído por el sujeto que
responde a la afirmación o reactivo. La graficación de esta probabilidad en relación con los valores
supuestos o conocidos de la variable latente es lo que se llama característica operante del reactivo.
En este tipo de modelos la suposición básica indica que los instrumentos están formados por
reactivos cuyas características operantes son como la que aparece en la Figura 2.2.
En este caso, se supone que a medida que aumenta la cantidad de atributo poseído por el
sujeto, aumenta la probabilidad de que una afirmación o reactivo sea endosado (o respondido en
forma afirmativa o correcta); pero en este caso, el aumento de la probabilidad es gradual, y no
brusco como en el anterior.
Las suposiciones de este modelo son las siguientes: a) cada reactivo tiene una característica
operante monotónica creciente (la probabilidad de endosamiento de una afirmación o reactivo
aumenta en forma gradual a medida que aumenta la cantidad de atributo poseído por el sujeto,
hasta llegar a un máximo y permanece allí o sigue aumentando sin disminuir nunca); pero sin tener
todos los reactivos características operantes idénticas (Figura 2.3).
Figura 2.4. Suma del conjunto de características operantes de un conjunto de reactivos (x).
c. El conjunto de reactivos como totalidad tienden a medir sólo el atributo en cuestión, lo que
implica que la calificación total en un conjunto particular de reactivos que sean contestados por un
sujeto, resume toda la información acerca del atributo psicológico inherente en las calificaciones de
los reactivos por separado.
Se dice que el modelo es lineal porque: a) se supone que la suma de las calificaciones de los
reactivos tiene una relación aproximadamente lineal con el atributo en cuestión; b) una simple suma
de variables es una combinación lineal de variables, y una simple suma de calificaciones de
reactivos, es una combinación lineal de esas calificaciones.
Si se observa a los instrumentos de medición en las Ciencias Sociales, se verá que en casi
todos los casos, éstos consisten en sumar calificaciones a lo largo de un conjunto de reactivos. El
modelo lineal es aplicable tanto a los reactivos dicotómicos como a los de opción múltiple. La
esencia del modelo es que no toma muy en serio a los reactivos individuales por ser demasiado
específicos y contener mucho error de medición. Este modelo no hace suposiciones muy estrictas
acerca de las características operantes que deben tener los reactivos, simplemente plantea la
suposición de que existe una relación lineal entre la suma de estas características y el atributo
subyacente que se pretende medir.
2.4 Autoevaluación
2.4.1 Preguntas
2.4.2 Respuestas
El error de medición puede ser de dos tipos: sistemático y aleatorio. El error sistemático es
aquel que se comete cuando el instrumento de medición arroja datos que subestiman o sobrestiman
la cantidad real de atributo poseído por los sujetos o eventos que se están midiendo. Si este es el
caso, y las mediciones del atributo en cuestión se realizan con el mismo instrumento, el problema no
es tan grave, ya que el error es constante y todos los eventos y objetos lo tienen en la misma
cantidad; en este caso, aún se pueden obtener diferencias entre eventos o personas (propósito de
la medición).
Se puede decir que un instrumento de medición es más confiable entre menor sea el error de
medición. La confiabilidad de un instrumento de medición es el grado hasta el cual las medidas sean
repetibles; es decir, un mismo individuo al que se le aplican diferentes instrumentos que miden el
mismo atributo arroja calificaciones semejantes; o el mismo instrumento aplicado en diferentes
ocasiones arroja las mismas. o por lo menos semejantes, puntuaciones o calificaciones (cantidades
de atributo poseído por el sujeto).
En 1904 Charles Spearman estableció los fundamentos de este modelo. Este es uno de los
más importantes en psicología y es uno de los más manejables. La teoría se puede derivar
partiendo de sólo unas cuantas suposiciones acerca de la naturaleza de los datos.
Se supone que cada persona tiene una "calificación verdadera". la que obtendría si no
hubiese errores de medición. Si se aplica un instrumento de medición en varias ocasiones al mismo
sujeto, las medidas obtenidas producirán diferentes calificaciones que vari'an al azar, y se podrían
representar como aparece en la Figura 3.1.
De acuerdo a Gulliksen (1950), las suposiciones básicas del modelo de la medición del error
son las siguientes:
c) Xi = Ti = Eió Ei = Xi - Ti
Hasta ahora se tiene una ecuación con las incógnitas (T) y (E), que no se puede resolver
para determinar los valores T y E para la persona; si se aplicara la prueba a más personas sería lo
mismo. Pero: si se tienen las medias de muchas personas, se tendían tres distribuciones de
frecuencia: una distribución de X, una distribución de T, y otra de E.
Existen, como ya se señaló, dos tipos de errores: errores de azar y errores sistemáticos o
constantes. Si las medidas son consistentemente mayores o menores de lo que deben ser, se habla
de error constante. Si existen discrepancias en las mediciones, algunas veces grandes, otras
pequeñas, algunas veces positivas y otras negativas, se habla de error al azar.
Me = 0
Y entre mayor sea el número de casos de la distribución, más cerca de la verdad estara' la
suposición. Por lo tanto, se puede definir a los errores al azar como aquellos que tienen un promedio
de cero a lo largo de un gran número de casos.
rET = 0 Esto también sera' más cierto entre mayor sea el número de casos.
e) La correlación entre los errores de una prueba y su forma paralela o equivalente (que
miden lo mismo siendo diferentes) es:
rE1E2 = 0
Partiendo de:
Ti = Xi - Ei (3.1)
N N
i=1 i= 1
quitando los paréntesis, omitiendo los subíndices y los límites (ya que todos son iguales), se
tiene:
ΣT = ΣX - ΣE (3.3)
MT = MX - ME (3.4)
Pero se sabe que ME = 0, por lo que:
MT = MX (3.5)
Dentro de este modelo se define a la confiabilidad como la correlación entre las calificaciones
verdaderas y las observadas. Para obtener la correlación entre las calificaciones verdaderas y las
observadas se empieza con la ecuación básica de la correlación entre calificaciones observadas y
verdaderas:
rXT = ΣXT (3.6)
Nsxsr
Substituyendo X = T + E, se tiene
Dividiendo cada uno de los términos del numerador entre la N del denominador se tiene:
rXT = sT (3.11)
sX
En este modelo la validez queda definida como la correlación entre las calificaciones
observadas de dos instrumentos que miden lo mismo; es decir, el instrumento del investigador, y
aquel otro que emplea como criterio externo.
Este modelo considera a cualquier medida particular como compuesto por una muestra al
azar de reactivos de una población o dominio hipotético de reactivos referentes a un atributo dado.
De hecho esto no es cierto, ya que los reactivos que componen una prueba casi nunca se
muestrean al azar, sino más bien son construidos ex profeso para la prueba lleva a predicciones
bastante exactas en la práctica.
En este modelo, el número de reactivos de una prueba no tiene que estar determinado,
puede ser uno o muchos. El tipo de reactivo tampoco tiene importancia; es decir, puede ser abierto,
dicotómico (por ejemplo: falso-verdadero) o de opción múltiple, etc.
Si se supone que todos los reactivos tienen igual cantidad de atributo en común, la
correlación promedio de cada columna de la matriz hipotética sería la misma, y éstas serian iguales
a la correlación promedio de la matriz total. Es decir, si la correlación promedio de cada reactivo
contra todos los demás fuera la misma para todos ellos, éstas correlaciones serian iguales a la
correlación promedio total de la matriz. La suposición no dice que todas las correlaciones de la
matriz sean iguales, sino que la suma de correlaciones, o el promedio de las mismas, de cada
reactivo contra todos los demás es la misma para todos los reactivos.
c)dividiendo los términos dentro del paréntesis de (3.16) entre N (que es equivalente a
multiplicar por 1) queda:
N
d) Pero la correlación de 1 vs. 1 (algo contra si' mismo) es igual a la unidad, por lo que (3.17)
queda aún más simplificada:
e) Si se mantiene la suposición que dice que la correlación promedio de cada reactivo con los
otros es la misma, y además es igual a la correlación promedio de la matriz, la suma de las
correlaciones del reactivo 1 con el restante K - 1 reactivos (quitando al reactivo 1), sería igual a (k-
1)rij, simplificándose entonces (3.18) de la siguiente manera:
1 + ( k - 1 )rij (3.19)
Por lo que la correlación del reactivo 1 con la suma de un número infinito de reactivos de un
dominio será igual a la raíz cuadrada del promedio de correlaciones entre los reactivos del dominio.
Esto se mantiene solo bajo la suposición de que todos los reactivos tienen la misma correlación
promedio con el resto de los reactivos. En este caso la correlación promedio del reactivo 1 con los
otros reactivos será igual rij, y la ecuación original (3.15) se puede escribir así:
dónde rij es la correlación promedio del reactivo 1 con todos los reactivos del dominio.
n) Como a medida que k se acerca al infinito, la correlación del reactivo i con los k reactivos
se acerca a la correlación del reactivo 1 con la calificación verdadera, se pueden usar los siguientes
símbolos:
La correlación r1t de la variable 1 con la calificación verdadera del dominio (la suma de todos
los reactivos del dominio), será igual a la raíz cuadrada de la correlación promedio del reactivo 1 con
todos los demás reactivos.
Por lo general los instrumentos de medición están compuestos por un gran número de
reactivos. El modelo se puede extender para aplicarse a pruebas en lugar de reactivos únicos. La
matriz infinitamente grande de intercorrelaciones entre reactivos, puede pensarse que está dividida
en grupos, cada uno conteniendo L reactivos. La suma de calificaciones en un grupo de reactivos
constituiría una prueba. Si los reactivos estuvieran muestreados al azar para componer las pruebas,
las correlaciones entre las diferentes pruebas tenderían a ser las mismas o iguales.
Si se supone que la correlación promedio de cada prueba con la suma de todas las otras
pruebas es igual para todas las pruebas, se puede empezar con la fórmula (3.15) y poner las
calificaciones de cada prueba completa (conjunto muestreado al azar de reactivos) en unidades de
desviación estándar (z), en vez de para reactivos individuales. Los pasos a seguir para desarrollar y
simplificar la fórmula serían los mismos que los vistos anteriormente, hasta llegar a:
1 = calificación en la prueba 1
t = calificación verdadera en el dominio
rij= correlación promedio de la prueba 1 contra todas las pruebas del dominio.
Se debe recordar que las correlaciones promedio entre pruebas completas serán mayores
que las correlaciones promedio entre reactivos, y que por lo tanto, la correlación con la calificación
verdadera en este caso, será más alta para pruebas completas.
La correlación promedio de una prueba o un reactivo, con todas las pruebas o reactivos del
domino se llama coeficiente de confiabilidad en este modelo. Este coeficiente se puede simbolizar
como r11 para la variable 1, r22 para variable 2, etc. Entonces, la raíz cuadrada de r11 es igual a la
correlación del reactivo o prueba 1 con las calificaciones verdaderas del dominio.
Si las suposiciones hechas previamente respecto de las correlaciones entre los elementos de
un dominio son correctas, la correlación de cualquier prueba con las calificaciones verdaderas es
precisamente la raíz cuadrada de r11, que no es una estimación (cálculo aproximado), sino una
determinación real. Por supuesto, en la práctica no se conoce con exactitud r11, ya que no es posible
generar un número infinitamente grande de pruebas. Consecuentemente r11, y por lo tanto r1t
pueden tan solo ser estimadas en la práctica. Una estimación de r11 se simbolizará como r11, que es
el símbolo convencional del coeficiente de confiabilidad.
Obviamente, r11 es una mejor estimación de r11, cuando el primero se obtiene promediando
las correlaciones de la prueba 1 con un gran número de pruebas del dominio. Si las pruebas se
construyeran realmente seleccionando los reactivos al azar del dominio, la suposición básica al
respecto de las correlaciones entre las prueba sería aproximadamente correcta. La correlación
promedio de la prueba 1 con un número de otras pruebas sería entonces una estimación de la
correlación promedio de la prueba 1 con todas las pruebas del dominio. Lo que ocurre generalmente
es que en la práctica, la prueba 1 está siendo condicionada con sólo otra prueba (prueba 2) y la
correlación se simboliza como r11, que se toma como una estimación de r11. Sin embargo, cuando
sólo se toma una correlación como estimación de un número infinito de correlaciones hipotéticas, es
adecuado preguntarse que tan eficientes son tales estimaciones.
Se ha tenido cuidado en demostrar que r1t es igual a la raíz cuadrada de r11, y también se ha
demostrado cómo se estima r1t a partir de la raíz cuadrada de r11 (el promedio de cualquier número
de correlaciones entre la prueba 1 y otras pruebas del dominio, incluyendo el "promedio" de sólo
una de tales correlaciones). Una vez que se ha obtenido una buena estimación de r11, y por lo tanto
una buena estimación de r1t, se desarrollan importantes principios acerca de la medición.
Supóngase que está siendo usado un método preciso de estimar r11 en problemas
particulares. Suponiendo entonces que r11es igual a r11, r1t, es igual a la raíz cuadrada de r11.
Con frecuencia se dice que las calificaciones de una prueba son calificaciones falibles,
debido a que existe un cierto grado de error de medición involucrado en ellas. En contraste, las
calificaciones verdaderas son en este sentido, infalibles. Aunque r1t es la correlación entre un
variable existente y una variable hipotética, más que una correlación entre dos variables existentes,
se puede usar en derivaciones matemáticas en la misma forma en que se puede usar cualquier
correlación. Se puede visualizar un diagrama de dispersión que muestre la relación entre las
calificaciones falibles de cualquier prueba, y las calificaciones verdaderas. Este diagrama se ilustra
en la Figura 3.2.
Entonces la línea de mejor ajuste para estimar las calificaciones verdaderas partiendo de las
falibles, se obtendría como sigue:
dónde:
z't = estimación de las calificaciones verdaderas desviadas.
z1 = calificación estándar de un instrumento de medición falible.
r1t = correlación de la calificación falible con calificaciones verdaderas.
r11 = coeficiente de confiabilidad para la variable 1.
Figura 6. Relación entre las calificaciones falibles y las verdaderas: línea de regresión y
contorno de la dispersión de una relación hipotética entre las calificaciones observadas y las
verdaderas.
Lo importante aquí es que r1t se puede colocar en las ecuaciones comunes de análisis de
correlación. Es particularmente importante el darse cuenta que, como la raíz cuadrada de cualquier
correlación es igual a la varianza de una variable explicada (o dividida) por la varianza de otra
variable, r1t2es igual al porcentaje de varianza de calificación verdadera explicada por un
instrumento de medición falible. Entonces, también se puede decir que r11 es igual al mismo
porcentaje de varianza de calificación verdadera en el instrumento falible de medición. Este
porcentaje adquiere más significado cuando la medida falible se expresa como calificación de
desviación o calificación cruda, más que como calificación estándar. En los primeros dos casos
antes mencionados, el coeficiente de confiabilidad se expresaría como sigue:
dónde:
s12 = varianza de la variable 1
2
st = varianza de las calificaciones verdaderas explicadas por la variable 1.
Lo que esta ecuación demuestra es que r11 es igual a la cantidad de varianza de calificación
verdadera en un instrumento de medición (ó en una medida) dividida entre la varianza real de la
medida (o instrumento de medición).
Si se supone que dos pruebas son realmente paralelas, a diferencia de suponer que lo son
en base a que fueron muestreadas de una población, el coeficiente de confiabilidad y medidas rela-
cionadas se pueden derivar directamente sin necesidad de considerar la precisión de las
estimaciones.
Dos pruebas son paralelas si: a) tienen desviaciones estándar iguales; b) tienen la misma
correlación con un conjunto de calificaciones verdaderas; c) la varianza que en cada prueba no
queda explicada por las calificaciones verdaderas se debe al azar. En algunos casos es útil suponer
también que las dos pruebas tienen medias iguales.
Partiendo de lo anterior, se puede decir que las calificaciones de dos pruebas paralelas se
pueden descomponer como sigue:
x1 = t + e1
x2 = t + e2 (3.30)
dónde:
x1 = calificación desviada obtenida en la prueba 1 (calificación observada)
x2 = calificación desviada obtenida en la prueba 2.
t = calificaciones verdaderas en el dominio
e1 = error en la prueba 1
e2 = error en la prueba 2
En realidad sólo las calificaciones falibles obtenidas en las dos pruebas son las que se tienen
a la mano. Por esta razón, la única forma de aprender algo acerca de las calificaciones verdaderas y
las de error, sería a través de la correlación de las calificaciones obtenidas en las dos pruebas.
1) Por definición, los errores al azar tienden a cancelarse unos a otros, y consecuentemente
se espera que la media de los errores en cada prueba sea de cero.
2) Como los errores al azar no correlacionan unos con otros, se espera que los errores de
una prueba correlacionen cero con los errores de otra prueba y que los errores de cualquiera de las
pruebas correlacionen cero con las calificaciones verdaderas.
rte1 = 0 y rte2 = 0
re1e2 = 0
Me1 = 0 y Me2 = 0
Como las calificaciones de error no están correlacionadas con las calificaciones verdaderas,
se sigue que:
2 2 2
sx1 = st + se1 , y
2 2 2
sx2 = st + se2 (3.32)
Como la varianza de las calificaciones observadas son iguales en las pruebas, y las varianzas
de las calificaciones verdaderas también son iguales, se sigue que las varianzas de error también
son iguales.
Una forma interesante de examinar la correlación entre dos pruebas paralelas es la siguiente:
En virtud de que x1 y x2 pueden ser expresadas como la suma de las calificaciones de error y
verdaderas, y en el denominador las dos desviaciones estándar son iguales, se puede escribir la
ecuación (3.33) como sigue:
Y como los errores no correlaciona con las calificaciones verdaderas, y tampoco entre ellos,
los tres términos de covarianza del numerador de (3.34) desaparecen, quedando:
Esto significa que la correlación entre dos pruebas paralelas es igual a la proporción de la
varianza de calificación verdadera explicada por la varianza de cualquiera de las pruebas. La misma
proporción se derivó del modelo dominio-muestra. Como la proporción es la misma para ambas
pruebas, ésta se puede simbolizar como r11, r22, ó rxx más que como r12.
Se pueden utilizar diferentes métodos para probar que la correlación de la prueba 1 con las
calificaciones verdaderas es igual a la raíz cuadrada de la correlación entre las dos formas o
pruebas paralelas. En las suposiciones y derivaciones planteadas hasta ahora en esta sección, está
implícito que cuando se separan las calificaciones verdaderas de las obtenidas (u observadas) en
las dos pruebas paralelas, las calificaciones residuales en las dos pruebas correlacionan cero, ya
que son calificaciones de error, y éstos no están correlacionados. En esta forma, la correlación
parcial tendría que ser cero, en cuyo caso el numerador de la correlación parcial tendría que ser
cero, como sigue:
Esto significa que a las calificaciones observadas (11) se les está quitando las calificaciones
verdaderas (1t y 2t), quedando únicamente las calificaciones de error.
Como el modelo supone que ambas pruebas correlacionan lo mismo con las calificaciones
verdaderas, la ecuación (3.36) se pueden transformar como sigue:
En el grado en el que las correlaciones entre los reactivos del dominio varían, existe algún
error al azar relacionado con la correlación promedio encontrada en cualquier dominio particular de
reactivos. Por ejemplo, si el reactivo 1 tuviera correlaciones con otros reactivos del dominio que
fluctuaran de 0.10 a 0.30, la correlación promedio del reactivo 1 con un número de otros reactivos
seleccionados al azar del dominio, daría una estimación relativamente precisa de la confiabilidad del
reactivo 1. Mientras que si las correlaciones fluctuaran entre -0.30 y +0.60, la correlación promedio
del reactivo 1 con los otros reactivos sería tan sólo una aproximación burda de su confiabilidad.
Aún cuando las pruebas tengan tan pocos como diez reactivos, las estimaciones de la
confiabilidad son bastante precisas. Cuando existen tantos reactivos como aparecen en la mayoría
de las pruebas, el error de muestreo debido a la selección de reactivos es extraordinariamente
pequeño. La razón de esta precisión es que a medida que aumenta el número de reactivos, el
número de correlaciones entre reactivos aumenta en forma muy rápida. Por ejemplo, se dan 780
posibles correlaciones entre 40 reactivos, obteniéndose aproximadamente la misma precisión para
estimar la correlación promedio que la que sería obtenida en una muestra de 780 sujetos en el
estudio. Por lo tanto, en la mayoría de los problemas de medición existe muy poco error en la
estimación de la confiabilidad que pudiera atribuirse al error aleatorio en la selección de los
reactivos. Si se tienen dos pruebas, supuestamente del mismo dominio, y éstas correlacionan
menos una con otra de lo predicho a partir de la correlación promedio entre los reactivos dentro de
cada prueba, la diferencia estaría causada no por errores aleatorios en la selección de los reactivos,
sino por errores de muestreo de sujetos, o por diferencias sistemáticas en la forma en que se
obtuvieron los reactivos para ambas pruebas. Esto indicaría que las dos pruebas están
representando dominios de contenido algo diferentes.
3.5 Autoevaluación
3.5.1 Preguntas
3.5.2 Respuestas
Supóngase que la pregunta o reactivo ha sido comprendida por el respondiente tal y como es
nuestra intención, y que tiene el conocimiento, hechos, opiniones o actitudes requeridos como
respuesta. La pregunta ha alertado al respondiente en una dirección particular: ha buscado en su
mente y ha encontrado lo que estamos buscando. Ahora empieza el proceso de responder. La
actitud o información puede ser clara y estar bien organizada, o puede estar difusa o vaga. Puede
ser profunda o superficial, latente o muy arraigada. Lo que viene a la mente primero, lo se encuentra
más superficialmente, puede no ser una adecuada representación de la totalidad de sus
pensamientos sobre el tema. Se tiene que llevar a cabo algún proceso de hacer consciente o darse
cuenta, junto con cierto grado de auto análisis, retroalimentación, conceptualización de ideas,
generalización a partir de hechos específicos, y así sucesivamente. El respondiente está tratando de
formarse un percepto de sus propias ideas. El proceso de producir este percepto puede verse
afectado por los propios deseos, un deseo de agradar al entrevistador, la necesidad de ser justo con
uno mismo y con los demás, y probablemente, estará acompañado por mucha confusión. También
juegan una parte importante los problemas de memoria y habilidad de recordar. Sin embargo, se
puede decir que el respondiente tiene ya algún tipo de "visión interna" de su respuesta, aunque
todavía no la ha comunicado. Para hacerlo, tiene que tener una cierta habilidad para comunicarse:
debe ser capaz de poner en palabras sus pensamientos en forma adecuada. También debe desear
comunicarse --- debe haber aceptado el papel de respondiente en la situación de prueba, entrevista
o cuestionamiento. Debe haber encontrado motivos que no sólo le permitan dedicar tiempo y
esfuerzo en responder, sino que en ocasiones también le permitan comunicar, si fuera necesario,
información privada o tabú. Sin embargo, su disponibilidad puede ser fácilmente desviada debido a
diversas formas de censura interna, rapport pobre, el deseo de mantener una fachada social, y las
expectativas de respuesta que la misma pregunta sugiere. En otras palabras, es bastante difícil
obtener una respuesta relativamente no prejuiciada aún de un respondiente deseoso, dispuesto y
claro que ha entendido correctamente lo que deseamos, sin que nuestra tarea se convierta en
prácticamente imposible dirigiendo esta "línea de pensamiento" por el lado equivocado por medio de
preguntas mal hechas.
Los tipos generales de reactivos o preguntas que un investigador de las ciencias sociales
emplea se pueden clasificar en tres grandes clases: a) información de identificación; b) datos
factuales tipo censo o antecedentes sociales; y c) reactivos o preguntas acerca del objeto de
estudio. El primer tipo de preguntas o reactivos asegura que el instrumento no se pierda o se vaya a
duplicar; que la información del instrumento pertenece a cierto caso particular y que se pueda
identificar el respondiente y al encuestador o aplicador del instrumento. El segundo tipo proporciona
información acerca del respondiente que provee las características de las muestras estudiadas, su
representatividad en relación con el universo o población bajo estudio, así como aquellas variables
que se pueden emplear como factores de prueba o controles estadísticos en el proceso de análisis
de datos. El tercer tipo proporciona la información objeto del estudio: registro de algunas variables
dependientes o independientes en un estudio, o son la materia prima a partir de la cual se pretende
elaborar uno o varios instrumentos (homogéneos o heterogéneos).
Entre los reactivos más empleados para asegurar la información de identificación, se tienen
los siguientes:
Dentro del segundo tipo de reactivos, los más empleados son los siguientes:
El tercer tipo de reactivos serán vistos con mayor amplitud en la siguiente sección, la 4.1
Una vez habiendo llegado el nivel de las dimensiones, se sugiere que se escojan las
preguntas o reactivos con cuidado. A continuación presentamos algunas recomendaciones.
Inclúyanse sólo preguntas o reactivos directamente relacionados con la variable de interés. No se
incluyan preguntas si se puede obtener la información en forma más exacta o efectiva de otras
fuentes, a menos que se deseen como o un chequeo de la muestra o se vayan a emplear en
tabulaciones cruzadas como variable control o factores de prueba. Hay que tener cuidado en la
forma en que se hacen preguntas personales o aquellas que puedan avergonzar al respondiente. La
información muy personal, se puede obtener con frecuencia, llevando hacia la pregunta deseada,
por medio de una serie de preguntas impersonales preliminares. Háganse sólo aquellas preguntas
factuales cuyas respuestas conozcan o se espere que sean conocidas por la mayoría de los
informantes o respondientes. Evítense preguntas con alta probabilidad de producir respuestas
inexactas. No se hagan preguntas que requieran de mucho trabajo extra por parte del respondiente.
Las preguntas pueden ser de diferentes tipos, dependiendo de los objetivos del estudio.
Cuando se van a medir o registrar diferentes variables, y se va a hacer una escala o prueba para
cada una, se pueden emplear diferentes tipos de reactivos o preguntas, siempre procurando que
sean del mismo tipo para cada variable o escala. Es decir, se puede emplear tipos diferentes de
preguntas para cada una de tres variables, pero todas las preguntas o reactivos de cada una de
ellas es igual a lo interno: una emplea preguntas dicotómicas; otros reactivos de ordenación y la
tercera de opción múltiple (tres opciones), el investigador deberá tomar en cuenta las ventajas y
limitaciones de cada uno de ellas.
4.1.1.1 Preguntas Abiertas.- Por lo general es necesario emplear preguntas abiertas en las
etapas iniciales, exploratorias o piloto de un estudio, ya sea de investigación o de elaboración de un
instrumento. Estas preguntas proporcionan gran libertad en la latitud de las respuestas del sujeto
investigado o cuestionado. Sólo descubriendo cuáles aspectos de un tema o variable son los que
han producido una impresión en la gente y cuáles palabras son las que esta gente emplea para
expresar sus reacciones, es que se puede llevar a cabo una planeación inteligente de preguntas
cerradas o categoriales.
En los estudios en gran escala las preguntas abiertas producen una variedad de respuestas
tal que las tareas de clasificación y análisis toma mucho tiempo y plantean muchas dificultades para
su análisis estadístico. Por estas razones, este tipo de preguntas se recomienda para muestra muy
pequeñas o estudios piloto. A una serie de preguntas abiertas centradas alrededor de un tópico o
tema se le denomina en ocasiones, "entrevista profunda o focalizada". Estas pueden tener una
duración de una hora o más.
4.1.1.2 Método de Caso o Historias Libres.- Otra manera de obtener información es por
medio de extensas conversaciones con los respondientes. El método de caso más aplicable a la
investigación es la entrevista oral controlada en la que el investigador después de una entrevista
muy extensa escribe un resumen en el que pone énfasis en algunas afirmaciones o conductas que
indican ciertas actitudes, por ejemplo. Si el investigador sigue un esqueleto de temario, puede
clasificar las reacciones del respondiente en todos lo temas o preguntas del esqueleto y así, puede
someterse la información a análisis estadísticos; de otra manera no se podría.
4.1.1.3.Preguntas Dicotómicas.- Estas preguntas son aquellas que piden que se responda
con SI o NO, de acuerdo o desacuerdo, cierto o falso, correcto o incorrecto, bueno o malo, etc. La
ventaja principal de las preguntas dicotómicas es su simplicidad, toma poco tiempo el hacerlas y
proporcionan respuestas muy claras que son fácilmente registradas y tabuladas. Estas preguntas
son muy útiles y son más familiares para el público en general, si por ejemplo, la opinión que se está
investigando ha cristalizado de tal manera que el tópico se puede reducir a una proposición
específica. Una limitación de las preguntas dicotómicas surge del hecho de que una ligera
malinterpretación de la pregunta, cambia totalmente el sentido de la respuesta. Otra limitación se
refiere al hecho de que se está "forzando" arbitrariamente la respuesta a una de la opciones, y en
ocasiones esta situación no es un adecuado reflejo de las circunstancias reales. Sin embargo, las
preguntas de respuesta dicotómica son especialmente adecuadas y convenientes para determinar
posesión de conocimiento o información correcta.
4.1.1.4 Listas de Chequeo.- En cierto sentido, las listas de chequeo son preguntas de
opción múltiple, sin embargo presentamos a éstas por separado. Este tipo de preguntas es el que se
usa más comúnmente y consiste en la presentación del problema o pregunta, seguida por una lista
de tres o quince posibles respuestas de entre las cuales se le pide al respondiente que escoja una,
o varias, específicamente indicadas.
Como regla, este tipo de preguntas surgen después de un piloteo previo que puede servir
para determinar que tipo de respuestas se pueden esperar. Sólo por medio de un piloteo previo
puede el investigador asegurar que la mayoría de las respuestas no van a caer en la categoría de
"otros" que generalmente acompaña a una lista limitada. La ventaja de las listas de chequeo es que
sirve como recordatorio para aquellos respondientes que de otra manera se hubieran abstenido de
dar una cierta respuesta simplemente por que no pensaron en ella en ese momento. Por otro lado,
la lista de chequeo puede sugerir respuestas que el respondiente escoge por alguna extraña razón,
como puede ser que es la primera o la última de la lista, o por que cree que es la respuesta
"adecuada". Si la lista de chequeo se presenta en forma oral, se recomienda que no tenga más de
cinco opciones y de preferencia que sean menos, para que el que escucha pueda retenerla en la
mente mientras escoge su respuesta. Si la lista es muy larga, o si cada reactivo es muy complicado,
es mejor presentar la lista de opciones en una tarjeta que se le da al respondiente para que él
mismo la lea.
4.1.1.6 Reactivos de Opción Múltiple.- Los reactivos de opción múltiple se presentan de tal
manera que el respondiente tiene que escoger entre la varias posibles respuestas, aquella que
mejor represente su opinión, creencia, o lo que sea. Este tipo de preguntas es particularmente útil
cuando el tema en cuestión no puede quedar bien representado por una pregunta dicotómica. En
este formato, se da la oportunidad de expresión o manifestación de todos los grados de opinión,
actitud o rasgo. La dificultad estriba en elaborar preguntas que representen el rango completo del
tema en cuestión. Es importante que la lista de alternativas o categorías de respuesta debe ser lo
suficientemente completa para cubrir todas las posibles respuestas sobre el tema o variable. Si la
lista está incompleta, existe el peligro de que el respondiente lea en alguna alternativa algo que sin
estar allí él considera que representa su opinión, o actitud, etc., y conteste de acuerdo,
produciéndose así una respuesta que en realidad es falsa. Es difícil frasear afirmaciones que sean
mutuamente excluyentes de tal manera que el respondiente no se sienta indeciso entre dos
opciones igualmente deseables o indeseables. Es difícil también que el respondiente promedio
mantenga en mente a todas las opciones, aún cuando se entiendan y se recuerdan las alternativas.
Los reactivos de opción múltiple pueden aún arrojar resultados distorsionados debido a la conocida
tendencia del ser humano de escoger el punto de vista intermedio, neutral, tibio, y dar así mucho
peso a las categorías intermedias de la escala.
Las preguntas de opción múltiple pueden adoptar diferentes formas. Las más populares son
las escalas de clasificación o intensidad, que pueden emplear tres, cuatro o cinco opciones de
respuesta.
a) Escalas de Clasificación de Tres Puntos. En estos casos se presenta una afirmación y tres
opciones de respuesta. Entre las palabras más usadas en las escalas de tres puntos se tiene:
Las palabras particulares que se emplean para expresar los diferentes grados, dependen del
fraseo de la pregunta, del tema o variable, o del juicio del que construye el instrumento. Una práctica
muy común es colocar las opciones "neutral", "indeciso", "sin opinión", "intermedio", en el centro de
la escala, y los más extremos a los lados.
c) Escalas de Clasificación de Cinco Puntos.- Las escalas de cinco puntos han sido
empleadas muy frecuentemente en la medición de actitudes. A continuación se presentan algunas
de las palabras o frases que indican diversos grados de opinión o sentimiento. La elección, en una
instancia específica, depende de la afirmación o variable involucrada.
Totalmente de acuerdo De acuerdo Indeciso En desacuerdo Totalmente en desacuerdo
Definitivamente cierto Probablemente cierto Dudoso Probablemente falso Definitivamente falso
Muy alto Arriba del promedio Promedio Debajo del promedio Muy bajo
Posiblemente muchos Aproximadamente todos La mitad Pocos Prácticamente ninguno
Todos La mayoría Algunos Pocos Nadie
A favor en todos los A favor en la mayoría de los Neutral A favor en pocos aspectos En contra de todos los
aspectos aspectos aspectos
En este caso se le pide al respondiente que marque sobre la línea, el lugar que mejor
represente su posición frente a la pregunta que se le está planteando. Los puntajes se determinan
midiendo la distancia del centro hacia cualquiera de los extremos, con el signo adecuado o
correspondiente al lado donde se encuentra la respuesta.
Se debe dar considerable atención al fraseo de las preguntas o reactivos para asegurar la
obtención de información confiable y significativa. Aunque se deben tomar ciertas precauciones en
el fraseo de preguntas que se refieren a los datos factuales, se requiere de más cuidado aún en la
elaboración de las preguntas de las variables, temas o tópicos de interés para el investigador. Entre
los muchos aspectos que han sido estudiados por los expertos, se encuentra el hecho de que
ciertas palabras tienden a colorear las respuestas, las condiciones bajo las cuales las respuestas se
ven más afectadas por la connotación de las palabras, y las formas de las preguntas que son más
efectivas para obtener respuestas verdaderas. A continuación se presenta una serie de sugerencias
que se recomienda se tomen en cuenta para el fraseo de las preguntas o reactivos.
Sugerencias
1. Usar palabras sencillas, que sean conocidas por todos los respondientes potenciales.
2. Hacer la pregunta lo más concisa posible, no teniendo más de 20 palabras.
3. Formular la pregunta de manera que produzca únicamente la información deseada;
4. Evitar cualquier pregunta o reactivo no relacionado con la variable.
5. Evitar preguntas ambiguas o que puedan ser interpretadas de diferentes maneras.
6. Evitar preguntas que sugieren la respuesta.
7. Cada reactivo o pregunta debe tener sólo una idea; oraciones simples.
8. Las sintaxis debe ser sencilla y clara: sujeto, verbo y complemento.
9. No se usen nombres de personas prestigiosas (favorable o desfavorable) en el cuerpo de
la pregunta o reactivo.
11. Evitar palabras "peligrosas", pegajosas, estereotipos o palabras con connotación
emocional.
12. Decidir si se va a emplear o incluir preguntas o reactivos indirectos.
13. Tener cuidado de no emplear frases que puedan afectar el prestigio del respondiente.
14. Decidir si se va a personalizar algunos de los reactivos o preguntas, o si se redactarán en
tercera persona o en forma impersonal.
15. Permitir que se den todas las posibles respuestas, principalmente en las preguntas o
reactivos de opción múltiple.
16. Las alternativas de las preguntas de opción múltiple deben ser realistas.
17. Evitar hacer preguntas referidas al pasado, pues los respondientes pueden haber
olvidado o substituido la información.
18. Procurar no hacer preguntas de hecho a menos que sean de las factuales tipo censo, o
esté averiguando nivel o grado de conocimiento sobre el tema o variable de interés.
19. Emplear con cuidado o casi nunca palabras universales como "siempre" "ninguno",
"nunca" (sólo para definir los extremos de continuos) o aquellas como "sólo", "apenas", "casi",
"a veces", por que introducen ambigüedad ya que significan diferentes cosas para diferentes
personas.
20. Evitar usar dobles negativos, también producen ambigüedad.
21. No usar reactivos, que sean contestados por todos o que no sean contestados por nadie.
22. Procurar cubrir el dominio o dimensión de la variable en todo el rango definido por la
misma.
23. Tratar de mantener a un mínimo la cantidad de escritura que se requiere por parte de
respondiente, pidiendo tan sólo que: escriba Si o No; escriba un número, o una letra; ponga
una cruz (X); subraye la respuesta que desee; circule la respuesta escogida, etc.
24. Decidir si se va a incluir algunas preguntas de chequeo, de la consistencia de las
respuestas. Es decir, si va a hacer la misma pregunta fraseada de diferente manera y
localizada en diferente parte del instrumento. Esto se recomienda cuando el instrumento es
corto, difícilmente cuando es muy largo.
25. Evitar hacer preguntas que requieren respuestas referidas a valores o normas
socialmente aceptados o deseables.
26. Evitar preguntas aparentemente irracionales, y si es necesario emplearlas, dar una
pequeña explicación que justifique a la pregunta.
Las preguntas deben presentarse en forma lógica, si se desea evitar confusión y malas
interpretaciones. Los reactivos deberán agruparse de tal manera que de unos se pueda pasar a
otros sin sobresalto ni brusquedad, sobre todo en los instrumentos multidimensionales o
heterogéneos. Es decir, las transiciones deben ser suaves y lógicas.
Si se sabe poco acerca de los reactivos de una clase particular, es mejor prevenir que
lamentar, e iniciar el trabajo con un número mucho más alto de reactivos, digamos unos 100. Debe
recordarse que muchos de estos reactivos quedarán "descalificados" por el análisis de reactivos que
se lleve a cabo.
Otra estrategia para decidir la cantidad de reactivos que se deben elaborar consiste en
construir un número de reactivos menor al que se necesita; por ejemplo, construir 30 reactivos
cuando se supone que ésta es la cantidad que se necesitará para obtener un coeficiente de
consistencia interna de 0.80; se aplican a una muestra relativamente pequeña de sujetos (100 por
ejemplo) y se someten a análisis de reactivos. Si la serie total (los 30) o un subconjunto
relativamente más homogéneo (digamos 15), obtienen un coeficiente de por lo menos 0.50 significa
que vale la pena construir más reactivos, aplicarlos a una muestra más grande, y por último,
someterlos a un análisis de reactivos completo.
Después de haber construido los reactivos deben aplicarse a una muestra de sujetos. Esta
deberá ser razonablemente representativa de los tipos de sujetos que serán estudiados con el
instrumento definitivo (procedimiento de escalamiento de personas: ver capítulo VII). En algunos
casos, los sujetos empleados en la construcción del instrumento no requieren ser representativos de
la población donde aplicará, sino que requieren ser sujetos expertos en el tema o variable, por que
van a fungir como jueces, siguiendo instrucciones muy precisas del procedimiento de enjuiciamiento
que se requiere de ellos (procedimientos de escalamiento de reactivos: ver siguiente capítulo, V).
No es posible predecir con exactitud cuántos sujetos deben usarse para hacer un análisis de
reactivos. Una regla general es que sean por lo menos diez sujetos por reactivo. En algunos casos,
cuando hay más de 70 reactivos, esta regla es poco práctica, y entonces se sugiere que sean por lo
menos 5 sujetos por reactivo. Es decir, si se tienen 40 reactivos, la muestra deberá tener una N =
200; si son 85 reactivos, la N = 425.
Al recoger los datos para hacer el análisis de reactivos, éstos deberán administrarse en
condiciones muy semejantes a aquellas en las que eventualmente se empleará o aplicará la prueba
o instrumento; de lo contrario, no sirve.
b) Si los reactivos que se han elaborado son de dos opciones, la prueba de consistencia
interna deberá calcularse con el coeficiente Kuder-Richardson 20. Si los reactivos son de opción
múltiple (tres o más opciones) el coeficiente adecuado para determinar su consistencia interna será
el Alfa de Cronbach (estos coeficientes se presentan en el Capítulo VI, más adelante).
dónde:
Aunque el artefacto puede ser grande cuando el número de reactivos es pequeño, con el
número de reactivos involucrados en la mayoría de los análisis (80), el artefacto resulta bastante
pequeño, de manera que sólo se habrán de corregir las correlaciones reactivo-calificación total,
cuando se tengan pocos reactivos (30 ó menos). Este problema queda resuelto si se tienen un
mínimo de cinco sujetos por reactivo, ó idealmente, diez sujetos por reactivo.
Por otro lado, si todas correlaciones reactivo-calificación total son positivas, como siempre
sucede, la única hipótesis pertinente sería que todos los reactivos correlacionan realmente en forma
positiva en la población de personas que está siendo muestreada. Cuando más del 90% de las
correlaciones reactivo- calificación total son positivas como también casi siempre sucede, se es
conservador al rechazar aquellos reactivos cuyas correlaciones con la calificación total no alcanza el
nivel de significancia estadística de 0.05 ¿Qué sucede si habiendo empleado la "crema y nata" de
los reactivos (los que tuvieron las correlaciones reactivo-calificación total más alta y que fueran
estadísticamente significativas con una p=0.05) no se alcanzó la confiabilidad preestablecida como
deseable (r = 0.80)? Pueden existir tres razones por las cuales sea difícil o imposible lograr una
prueba o instrumento homogéneo. La primera es que los reactivos provengan de un dominio donde
las correlaciones entre los reactivos sean uniformemente bajas, y que sólo se lograría tener una
prueba confiable, con un gran número de reactivos.
La segunda razón, es que el conjunto de reactivos sea factorialmente compleja, en cuyo caso
existen conglomerados de reactivos que tienen correlaciones relativamente altas entre ellos, pero
muy bajas con los miembros de otros conglomerados.
La tercera razón se debe a que algunos reactivos tienen correlaciones relativamente altas
unos con otros, y que otros reactivos tienen correlaciones cercanas a cero con todos los reactivos.
Esta condición se puede detectar cuando se observan los valores de las correlaciones de los
reactivos, ordenados de mayor a menor. De repente, la magnitud de una correlación de un reactivo
disminuye bruscamente respecto al reactivo anterior.
La tercera razón es fácilmente detectable, como se señala en el párrafo anterior. Las dos
primeras, no lo son tanto. De hecho, se recomienda que si no se debe a la tercera causa el hecho
de no alcanzar la confiabilidad deseada, se suponga que son algunas de las dos primeras. De ser
así, se recomienda que se proceda a la construcción del instrumento por medio de un análisis
factorial (véase capítulo VII, más adelante).
4.3.2 Grupos Contrastados
En este caso, el primer paso consiste en obtener una calificación total para todos los sujetos,
y ordenarlos de puntajes más altos a puntajes más bajos. A continuación se toma el 25% superior e
inferior de los sujetos y se forman los grupos de contrastación: grupo alto y grupo bajo.
Cuando los reactivos son de opción múltiple (tres o más opciones) y éstas han sido pesadas
(arbitrariamente o empíricamente), de manera que el puntaje más alto corresponde a la opción que
indica una mayor posesión del atributo que se está midiendo (ej. más conocimiento, más
favorabilidad hacia "x" objeto psicológico, más tradicionalismo, etc.) y el puntaje más bajo
corresponde a aquella opción que indica una menor posesión del atributo en cuestión (conocimiento,
actitud, tradicionalismo, etc.) se procede a efectuar una prueba "t" para cada uno de los reactivos,
comparando al grupo alto con grupo bajo. (El procedimiento completo se presentará en el capítulo
VI del presente texto más adelante).
Una vez calculadas la t para todos y cada uno de los reactivos, se ordenan de mayor a
menor, y se determina el nivel de significancia para cada una. Al igual que en el primer
procedimiento de análisis de reactivos visto (sección 4.3.1), se eliminan aquellos reactivos que
obtuvieron t que no alcanzaron un nivel de significancia de por lo menos p = 0.05. A continuación, se
escogen los primeros 30 reactivos, con las t más altas, y se procede a determinar su consistencia
interna, con una alfa de Cronbach. Si éstos alcanzan la confiabilidad deseada (r = 0.80 o más),
termina el análisis; si no, se procede a agregar los 10 ó 5 reactivos siguientes (dependiendo del nivel
de confiabilidad alcanzado: si muy bajo, se agregan 10; si es cercano a 0.80, se agregan 5, y así
sucesivamente, hasta alcanzar el nivel de confiabilidad deseado.
b) Comparación con Chi Cuadrada. - En la sección anterior se empleó una prueba t para
comparar a los grupos contrastados. Esta prueba compara medias de las respuestas de cada
reactivo entre dos grupos: el alto y el bajo. La hipótesis implícita señala que el grupo alto responderá
en promedio con un puntaje más alto en cada reactivo, que el grupo bajo, quien responderá en
promedio con puntajes más bajos. Se están comparando medias de respuesta de cada reactivo.
Para una explicación más detallada de este procedimiento, se puede consultar a Siegel
(1976).
De esta manera, se ordenan los reactivos de acuerdo al tamaño de Chi Cuadrada, de mayor
a menor. Se desechan aquellos que obtienen valores p asociados mayores a 0.05. En este caso, se
debe reunir un criterio más: la distribución de las frecuencias deben estar "encontrados". Es decir,
las frecuencias más altas deben estar en los extremos; en el extremo superior para el grupo alto, y
en el extremo inferior para el grupo bajo, así como se presentan en el ejemplo anterior.
De aquí en adelante, se procede de la misma manera. Se escogen los primeros reactivos que
tienen altos valores de Chi Cuadrada, niveles de significancia iguales o menores a 0.05 y
distribuciones de frecuencias "encontradas" o "cruzadas", y se les efectúa la prueba de consistencia
interna correspondiente. Si no se alcanza la confiabilidad deseada (r = 0.80), se agregan otros
reactivos, se vuelve a calcular la consistencia interna, y así sucesivamente hasta alcanzar el valor de
r = 0.80.
b) Otro criterio que se puede emplear para asegurar la normalidad de la distribución de las
respuestas a los reactivos individuales, es el considerar en el FRECUENCIES también, que ningún
reactivo tenga 50% ó más de las respuestas en una sola opción de respuesta. Este criterio puede
tomarse aisladamente, o en conjunción con el antes mencionado (valores cercanos a 0.0 en
Skewness y Kurtosis).
En ambos casos, se está tratando de tener reactivos que tengan una distribución normal,
vistos individualmente.
4.4.1 Nivel de Medición de los Reactivos Individuales.- Algunos científicos sociales, como
los sociólogos por ejemplo, emplean a un sólo reactivo o indicador, como índice de algún atributo.
En este caso es pertinente conocer el nivel de medición que se está obteniendo al hacer uso de este
procedimiento; es entonces pertinente señalar los niveles de medición de los diferentes tipos de
reactivos existentes.
a) Preguntas abiertas: en este caso el nivel de medición depende del análisis de contenido
que se emplee para las respuestas que la pregunta arroja. Por lo general, las respuestas que se dan
a las preguntas abiertas, no son sencillas, ni cortas, ni únicas; sino que constituyen ideas complejas,
varias y muy amplias. Esto significa que de entrada, no se obtiene una respuesta única sino varias, y
por lo tanto, la forma de análisis que escoja el investigador será la que determine el nivel de
medición.
Si el investigador decide analizar todas las ideas completas que la pregunta abierta produce
(circunstancia más frecuente), seguirá midiendo a nivel nominal si emplea categorías discretas de
respuesta. Si decide colocar a lo largo de un continuo una categoría (de acuerdo a la frecuencia de
apariciones de la tal categoría para el sujeto i), ya está midiendo a nivel ordinal. También está
midiendo a nivel ordinal si la suma de la frecuencia de respuesta en una categoría de respuesta se
ha definido como indicando una mayor cantidad de atributo. Es decir, si se coloca al sujeto i a lo
largo de un continuo de menos a más de un atributo en función de la frecuencia de respuesta por
categoría, se le está ordenando y por lo tanto se está midiendo a nivel ordinal. La misma lógica se
aplica a los reactivos de tipo Método de Caso o Historias Libres.
b) Preguntas dicotómicas: en este caso, las respuestas son del nivel nominal.
Por lo general, los cientistas sociales emplean índices o instrumentos constituidos por varios
reactivos, de manera tal que se logre medir el atributo en cuestión de manera confiable y válida.
b) Nivel Ordinal.- Tomando en cuenta lo señalado anteriormente (a), y considerando que por
lo general se suma a lo largo del conjunto de reactivos, sean estos dicotómicos, listas de chequeo,
ordenación de reactivos, de opción múltiple, o escalas de clasificación, se mide a nivel ordinal ya
que se postula: a mayor puntaje, mayor posesión, del atributo, en todos los casos; especialmente en
escalamiento de personas.
c) Nivel Intervalar.- Este nivel se alcanza con aquellos procedimientos o modelos de medición
referidos al escalamiento de estímulos, como en el modelo de pares comparados o el de intervalos
aparentemente iguales. Es decir, en aquellos casos en los que un conjunto de jueces o expertos,
juzgan a los reactivos a lo largo de un continuo que posee un origen o cero arbitrariamente
establecido, se está midiendo a nivel intervalar.
Se mide a nivel intervalar también cuando los puntajes crudos obtenidos por medio de un
instrumento se transforman a puntajes estandarizados: z, stens y stanines.
z = X -X dónde:
s
En el caso de tener un conjunto relativamente grande de reactivos (20 ó 30), de dos o más
opciones de respuesta, que permitan la aparición de un amplio rango de calificaciones posibles
(teóricamente) y de que se tenga una muestra relativamente grande (N = 100 o más) de sujetos, la
distribución de calificaciones que se obtiene se aproxima bastante a una curva normal. Si esto es
así, se puede considerar que el instrumento está midiendo o nivel intervalar, y tratarlo
estadísticamente como tal. Se debe recordar que se mencionó con antelación, que la elaboración de
instrumentos es un caso de muestras grandes (tanto de reactivos como de sujetos), con objeto de
probalizar hasta el máximo, que los supuestos de los diversos modelos de medición que existen, se
cumplan.
Debe señalarse también, que los supuestos generales que subyacen a la construcción de un
instrumento, cuando no se han especificado explícitamente, son, en general, los siguientes:
Las instrucciones que se den a los sujetos que habrán de responder a las preguntas o
reactivos del instrumento que se construya deben ser muy sencillas y claras. De preferencia
deberán de ir seguidas de uno o varios ejemplos, que permitan asegurarse que fueron
comprendidas correctamente.
Por lo general, las instrucciones dicen algo así: "Lea cuidadosamente cada pregunta y escoja
una (sólo una) de las opciones de respuesta que aparecen inmediatamente (abajo, a la derecha,
etc.) de la pregunta; y márquela con una "X".
"Lea cuidadosamente cada pregunta y escoja (dos, tres, etc.) opciones de respuesta de entre
las que aparecen inmediatamente (abajo, a la derecha, etc.) de la pregunta, marcándolas con una
"X", con un círculo, con un subrayado, etc.
El piloteo del instrumento consiste de dos fases. En la primera fase se aplica el instrumento
inicial a unas 20 ó 30 personas, semejantes a la muestra o población para la que se desea construir
el instrumento. Los objetivos de esta primera fase, son los siguientes:
a) asegurar que el vocabulario y la sintaxis son las adecuadas. Es decir, que los sujetos
entienden lo que se les pide que hagan y contesten.
d) establecer una primera aproximación respecto al tiempo que se llevará la aplicación del
instrumento final. Se recomienda que el instrumento no tome más de 15 a 30 minutos, si es
homogéneo, y no más de 1 hora con 30 minutos si es heterogéneo.
g) detectar reactivos que son respondidos de la misma manera por todos los sujetos, o por
nadie, para así eliminarlos.
h) solicitar sugerencias a los sujetos a los que se les aplicó el instrumento. (Ejemplo: ¿Tiene
usted algo más que agregar?)
i) afinar y corregir el instrumento.
Durante la segunda fase, se incrementa la muestra hasta tener el número mínimo de sujetos
recomendando (5 sujetos por cada reactivo) y se tienen dos objetivos fundamentales:
4.7 Autoevaluación
4.7.1 Preguntas
1. ¿Cuáles son las funciones de las preguntas de identificación, factuales y del objeto de
estudio en un instrumento de medición?
2. ¿Cuál es la secuencia más adecuada para los diferentes tipos de reactivos, en lo que
se refiere a su generalidad-especificidad; contenido o tópico, dificultad-facilidad?
3. ¿Cuál es el número mínimo e ideal por reactivo?
4. ¿Cuál es el método de análisis de reactivos más adecuado?
5. ¿Cuáles son las funciones principales del piloteo del instrumento?
6. ¿Qué características deben tener las instrucciones para los Sujetos que habrán de
contestar un instrumento?
4.7.2 Respuestas
2. Las preguntas se deben ordenar en una secuencia que vaya de lo más general a lo
particular, de lo fácil a lo difícil, y de lo que no causa molestia o vergüenza a lo que sí lo hace,
en el sentido de que es necesario establecer un buen rapport con el encuestado, antes de
asegurar respuestas honestas a tópicos escabrosos o probablemente molestos para él.
3. El número mínimo de sujetos por reactivo es de cinco por cada uno; el ideal es de diez
por cada reactivo.
5. Las funciones del piloteo del instrumento son de dos tipos: depurar el lenguaje,
vocabulario, y parafraseo de preguntas, así como eliminar aquellas que no discriminan por un
lado, y por el otro: determinar sus características psicométricas en lo que a validez y
confiabilidad se refiere.
Los modelos discriminativos están basados en la ley del juicio comparativo. Esta ley se
refiere a un conjunto de ecuaciones que relacionan la proporción de veces que un estímulo dado se
juzga como mayor en un atributo dado que otro estímulo, a los valores escalaraes y dispersiones
discriminativas de los dos estímulos sobre el continuo psicológico.
Se toma como dado, a un conjunto de estímulos a los que el sujeto puede responder en
forma diferencial respecto a algún atributo. La tarea consiste en localizar a estos estímulos a lo largo
de un continuo psicológico en forma tal que se puedan explicar las respuestas dadas por el
observador. El continuo psicológico puede considerarse como un continuo de magnitudes subjetivas
o psicológicas. Cada magnitud psicológica está mediada por un "proceso discriminativo". Así, cada
proceso discriminativo tiene un valor en el continuo psicológico. El proceso discriminativo se define
como el proceso por medio del cual el organismo identifica, distingue o reacciona ante los estímulos.
Debe hacerse notar que la definición no implica absolutamente nada que tenga que ver con la
naturaleza fisiológica o experiencial del proceso.
De esta manera, el modelo postula un continuo psicológico sobre el cual los valores de los
procesos discriminativos asociados a cada estímulo forman una distribución normal.
El valor escalar de cada estímulo queda definido como el valor del proceso modal asociado al
mismo. Así, el valor escalar del estímulo 1 es S1; el del estímulo 2 es S2, y así sucesivamente. Cada
estímulo también, queda caracterizado por su dispersión discriminativa. Las dispersiones
discriminativas de los diferentes estímulos no son necesariamente todas iguales.
El observador no puede reportar en forma directa el valor del proceso discriminativo sobre el
continuo psicológico. Por lo tanto, no se puede obtener directamente del observador, la distribución
de frecuencias asociada a un estímulo. Siempre se deberá escalar a los estímulos en forma
indirecta.
Sin embargo, se pueden deducir ecuaciones que relacionan a los juicios de las relaciones
entre los estímulos (que el observador o juez puede hacer) a los valores escalares y dispersiones de
los estímulos sobre el continuo psicológico. Se puede entonces acudir a estas ecuaciones para
estimar los valores escalares y dispersiones de los estímulos. Por último, se puede poner a prueba
el modelo determinando la bondad de ajuste de los datos observados respecto a la teoría. A un
conjunto de estas ecuaciones se le conoce con el nombre de ley del juicio comparativo.
Considérense las distribuciones teóricas de los procesos discriminativos para cualquiera dos
estímulos j y k como se ilustra en la Figura 5.1 Se dijo que Sj y Sk corresponden a los valores
escalares de los dos estímulos, y sj y sk a sus dispersiones discriminativas. Si los dos estímulos se
presentaran juntos al observador o juez, cada uno excitaría un proceso discriminativo: dj y dk. La
diferencia entre los procesos discriminativos (dk y dj) para cualquier presentación única de un par de
estímulos se denomina diferencia discriminativa. Si los dos estímulos fueran presentados juntos un
gran número de veces, las diferencias discriminativas en sí mismas formarían una distribución
normal sobre el continuo psicológico. La media de esta distribución es igual a la diferencia de los
valores escalares de los dos estímulos, ya que la diferencia entre medias es igual a la media de las
diferencias. De la misma manera, se sabe que la desviación estándar de las diferencias:
dónde rjk es la correlación entre los valores momentáneos de los procesos discriminativos
asociados a los estímulos j y k.
Figura 5.1 Distribuciones de los procesos discriminativos asociados con los estímulos j y k
sobre el continuo psicológico
Cada vez que los estímulos se presentan a un observador o juez, se le pide que juzgue cual
es más alto o mayor en el continuo psicológico (por ejemplo: cuál es más fuerte, más pesado o más
bello). Se asume que el juicio "el estímulo k es mayor que el estímulo j "ocurre cuando el proceso
discriminativo del estímulo k es mayor que el del estímulo j. Es decir, cuando la diferencia
discriminativa (dk - dj) es positiva. Cuando esta diferencia discriminativa es negativa, se obtendrá el
juicio "el estímulo j es mayor que el estímulo k". Cuando las dos distribuciones se traslapan, como
sucede en la Figura 5.2, es posible que la diferencia discriminativa para cualquier ensayo particular
sea negativo aunque el valor escalar Sk es mayor que el Sj. Se puede determinar la proporción de
veces que el estímulo k es juzgado mayor que el j a partir de un gran número de juicios.
Sk - Sj = zjksdk-dj (5.2)
Como se conoce la relación entre la desviación estándar de las diferencias y las dispersiones
discriminativas de los dos estímulos (ecuación 5.1), se puede escribir:
2 2
Sk -Sj = zjk(sj + sk - 2rjksjsk (5.3)
Esta ecuación (5.3) es la forma completa de la ley del juicio comparativo, dónde
La ley del juicio comparativo no se puede resolver en su forma completa, puesto que
independientemente del número de estímulos, siempre existirán más valores desconocidos que
conocidos. Para poder llegar a un conjunto de ecuaciones manejables, es necesario especificar
restricciones adicionales.
La primera se refiere a asumir que las desviaciones estándar son todas iguales. Si en general
sj = sk = s, entonces se tiene, habiendo despejado la fórmula (5.3) en términos de zjk:
La segunda se refiere a suponer que las intercorrelaciones son todas iguales unas a otras y
entonces se puede escribir:
zjk =(Sj - Sk)/ 2s2 ( 1 - r) (5.5)
2
De acuerdo a las suposiciones hechas hasta ahora 2s (1-r) es un valor constante para todos
y cada uno de los pares de afirmaciones que se comparen y por lo tanto, se puede plantear que esa
constante sea igual a la unidad, de tal manera que se puede escribir ahora:
zjk = Sk - Sj (5.6)
La ley del juicio comparativo supone que cada estímulo ha sido comparado con todos y cada
uno de los demás un gran número de veces. Esta ley requiere que se disponga de datos en la forma
de "proporción de veces que cualquier estímulo k es juzgado como mayor que cualquier otro
estímulo j". Al método directo para obtener las estimaciones empíricas de estas proporciones se
conoce como método de pares comparados.
No existe ninguna previsión explícita referida a los errores de espacio o de tiempo en la ley
del juicio comparativo ni tampoco respecto a cambios en la ejecución debido a los efectos de la
fatiga o práctica, o respecto a juicios basados en parte a otros factores que aquellos relativos a las
magnitudes de los procesos discriminativos. En consecuencia, es necesario controlar
experimentalmente las condiciones que pudieran introducir estos efectos de sesgo. La mayoría de
estos factores pueden controlarse por medio de la asignación de las posiciones relativas (espaciales
o temporales) de los miembros de cada par de estímulos y el orden de presentación de los mismos
pares. Un método adecuado es aleatorizar las posiciones relativas y los órdenes de presentación.
Otro método eficiente es el de contrabalanceo (la mitad de las veces, un estímulo dado aparece
primero en el par, la otra mitad aparece en segundo lugar). Los efectos de la práctica o la fatiga se
controlan invirtiendo el orden de presentación de los pares en la mitad de los sujetos (o ensayos).
Precauciones adicionales podrían ser las siguientes: a) mantener a aquellos pares que tienen
un estímulo en común, lo más separados uno de otro en el orden de presentación; b) arreglar los
pares de tal manera que las respuestas "correctas" estén aproximadamente divididas entre el primer
y el segundo miembro de los pares; c) arreglar los pares de tal manera que no exista algún patrón
sistemático detectable de respuestas "correctas"; d) arreglar los pares para que no exista una
variación sistemática en la dificultad del juicio; e) en el caso de varias presentaciones a los mismos
sujetos, variar el orden de presentación de un ensayo al siguiente para eliminar el aprendizaje
seriado o la aparición de patrones de respuesta.
Para este método en particular, se recomienda no emplear más de siete u ocho indicadores,
ya que el procedimiento de enjuiciamiento implica realizar n(n-1)/2 comparaciones o juicios. En la
medida en que se incrementa el número de reactivos, el número de comparaciones a realizar
incrementa muchísimo, y la calidad de los juicios de los jueces, desmejora, ya sea por fatiga, o por
aburrimiento.
Los sujetos, observadores o jueces que toman parte en la construcción del instrumento,
pueden ser de dos tipos: expertos, y comunes. Los primeros son individuos reconocidos como
expertos en el tema, variable o atributo para el cual se va a construir el instrumento. Los segundos,
son individuos que comparten las características más importantes de los miembros de la muestra
que será objeto de estudio o a la cual se le va a aplicar el instrumento que se pretende construir.
En el caso de emplear expertos como jueces, será suficiente contar con 20 o 25 de ellos. En
el caso de emplear jueces comunes se recomienda emplear entre 50 y 100.
Una vez ordenados y arreglados los pares de reactivos, tomando en cuenta las
recomendaciones del apartado 5.1.1 de esta misma sección, se les pide a los jueces que marquen
subrayando, o con una "X" cual de los miembros de cada par de afirmaciones representa una mayor
cantidad del atributo en cuestión (ansiedad, dependencia, por ejemplo) o el más favorable hacia un
objeto psicológico (en el caso de estar construyendo una escala de actitud). Se les recuerda que no
pueden emitir juicios de igualdad. Se ponen ejemplos referidos a otros atributos, para asegurar que
se entiendan las instrucciones.
Habiendo presentado n(n - 1)/2 pares de afirmaciones al grupo de jueces, los datos obtenidos
consisten en las frecuencias correspondientes al número de veces que cada estímulo (o reactivo,
afirmación, o indicador) fue juzgado como mayor (o más favorable) que cada uno de los demás
estímulos (reactivos, afirmaciones o indicadores).
La Tabla 5.1 ilustra el arreglo esquemático de las frecuencias en el que las entradas de las
celdillas corresponde a la frecuencia con la que cada estímulo (reactivo, afirmación indicador) de la
columna fue juzgado como mayor (o más favorable) que el estímulo de la hilera.
De esta manera, la entrada en la celdilla f13 significa el número de veces que el estímulo 1 fue
juzgado como mayor (ó más favorable) que el estímulo 3, y así sucesivamente. El primer subíndice
siempre corresponderá al estímulo de la columna, y el segundo, al estímulo de la hilera.
TABLA 5.1. Representación esquemática de la matriz F que proporciona la frecuencia con la que el
estímulo de la columna fue juzgado como mayor o más favorable que el estímulo de la hilera.
Estímulos 1 2 3 j k
Se permite que N sea el número total de jueces o sujetos que efectúan los juicios. Aunque en
la realidad no se obtienen juicios comparativos de cada estímulo contra sí mismo (elementos de la
diagonal de la matriz f11, f22, etc.) se supone, que de haberse llevado a cabo, las entradas en las
celdillas serían iguales de N/2. También se debe observar que la entrada (o dato) de la celdilla f13
es igual N - f13; en general, fji = N - fij
Si cada uno de los datos (entradas) de la tabla 5.1 se divide entre N, se obtienen las entradas
pij presentadas en la Tabla 5.2. Los datos en las celdillas de esta tabla señalan la proporción de
veces que el estímulo de la columna fue juzgado como mayor (o más favorable) que el estímulo de
la hilera. La fórmula general para obtención de las entradas es la siguiente:
1
pij = ----- fij (5.7)
N
──────────────────────────────
Estímulos 1 2 3 j k
──────────────────────────────
1 p11 p21 p31 pjl pk1
Antes de continuar con el siguiente paso, deberá efectuarse una suma de pij para cada
columna de la matriz p (tabla 5.2), con objeto de asegurarse que los reactivos (o estímulos) están en
el orden correcto (el más pequeño o el menos favorable a la izquierda, y el mayor o más favorable a
la derecha). Si las sumas de las columnas van de menor a mayor los estímulos están bien
ordenados (numerados). En caso de no darse esta situación deberán reordenarse tanto las hileras
como las columnas, para obtener la ordenación adecuada.
Una vez que la matriz P haya sido reordenada (casi siempre se tiene que hacer), se procede
a formar los valores pij en valores expresados en unidades de desviación estándar: zij. Esto se logra
consultando una Tabla de desviaciones normales Z correspondientes a las proporciones P de una
distribución normal unitaria dicotomizada. Se busca en esta tabla, el valor Z que le corresponde a
cada pij y se forma una Tabla como la 5.3.
Posteriormente se sacan las medias de cada columna, dividiendo la suma obtenida entre el
número de estímulos de la columna Por último, con objeto de hacer desaparecer los signos
negativos asociados a las medias calculadas, y con el propósito también de establecer un origen o
punto cero, a la izquierda del continuo, se suman a todas y cada una de las medias obtenidas, el
valor de la media negativa mayor, como una constante (k). De esta manera, la primera afirmación
(estímulo o indicador) señala el origen del continuo, el cual termina con el último estímulo o reactivo.
El valor asociado a cada estímulo es su valor escalar; éste estaba inicialmente (antes de
sumar la constante) expresado en unidades de desviación estándar o normal. Por lo tanto una
escala obtenida con este método pertenece al nivel intervalar de medición y se le puede,
consecuentemente, aplicar las estadísticas apropiadas a este nivel.
Se debe aclarar que en esta sección se presentó el modelo del caso V de datos completos.
Existen otros casos (del I al IV), y condiciones de datos incompletos. Si se desea utilizar algún otro
caso, se puede consultar a Edwards (1957) y a Torgerson (1967).
De esta manera, el instrumento queda constituido por un conjunto de seis a ocho indicadores,
reactivos o afirmaciones. Cada una de ellas ocupa un lugar a lo largo del continuo psicológico Los
valores más pequeños representan menores cantidades de atributo (o actitudes más desfavorables
o menos favorables), y los valores más altos representan mayores cantidades de atributo.
El modelo de estimaciones subjetivas está basado en la ley del juicio categórico. Esta ley se
refiere a un conjunto de ecuaciones que relacionan a los parámetros de los estímulos y los límites
de las categorías, a un conjunto de proporciones acumuladas derivadas de la proporción de veces
que cada estímulo es juzgado como encontrándose en cada categoría de un conjunto de ellas, que
se ordenan respecto a un atributo dado. Esta ley, al igual que la del juicio comparativo, se basa en el
modelo general de enjuiciamiento de Thurstone, que se vio en la sección 5.1.
Para derivar la ley del juicio categórico, adicionamos y reemplazamos las suposiciones
presentadas en la sección 5.1 con las siguientes:
1. El continuo psicológico del sujeto se puede dividir entre un número específico de pasos o
categorías ordenadas.
Esencialmente lo anterior se refiere a la suposición de que los límites entre las categorías
adyacentes se comportan igual que los estímulos.
tg - sj = zjg(σ2j+σ2g- 2rjgσjσg)½(5.9)
dónde:
m + 1 = número de categorías
zgj = unidad de desviación normal que corresponde a la proporción de veces que el estímulo j
es clasificado por debajo del límite de g.
Igual que en el caso de la ley del juicio comparativo, esta ley no se puede resolver en su
forma completa, y por lo tanto, es también necesario especificar restricciones adicionales, paralelas
a las planteadas en la ley del juicio comparativo. Mencionaremos a estas tan solo brevemente. La
primera señala que el término de covarianza de la ecuación (5.8) es constante para todos los
valores de j y g; la segunda indica que σg es constante para todos los valores de g y σj es constante
para todos los estímulos j desapareciendo, por lo tanto, el término de correlación de la ecuación
(5.8) y queda entonces simplificada de la siguiente manera:
tg - sj = zjgc (5.10)
La ley del juicio categórico se desarrolló para el caso en el que los estímulos han sido
colocados dentro de categorías ordenadas respecto al atributo que está siendo investigado. En
particular, supone que se conoce la proporción de veces que cada estímulo fue clasificado por
debajo de cada límite de las categorías
En este caso, para evitar los efectos de fatiga y/o aburrimiento, se recomienda que los
estímulos se contrabalanceen en cuanto a su favorabilidad o desfavorabilidad hacia el objeto
psicológico en cuestión, así como en lo que se refiere a las etiquetas adjetivales asociadas a los
extremos del continuo actitudinal. Esto a su vez, evitaría en la medida de lo posible, la aparición de
patrones de respuesta por parte de los jueces.
En este caso, también remitimos al lector a la sección 5.1.1.2. Sin embargo, para este
método en particular, se recomienda elaborar entre 70 y 90 reactivos, siendo una mitad de los
mismos favorables, en diversos grados, al objeto psicológico, y la otra mitad, desfavorables, también
en diversos grados, al susodicho objeto psicológico. Debe tenerse en cuenta que por medio de este
método se pretende encontrar 20 o 25 reactivos, que cubran el continuo psicológico en su totalidad,
con ciertos requisitos, que se especificarán más adelante. Es por esta razón, que se inicia la
elaboración del instrumento, con un número mayor de reactivos. Se debe contar con un lote lo
suficientemente grande, como para permitir desechar todos aquellos reactivos que no cumplan con
los requisitos estipulados por el método, y que aún así, se puedan conservar por lo menos 20 ó 25
de ellos que sí lo hagan.
5.2.1.3 Selección de los Jueces
Existe además un procedimiento empírico a posteriori, para eliminar a los malos jueces.
Como se señaló anteriormente (5.2.1.2.), se inicia el trabajo de elaboración del instrumento con 70 o
90 reactivos, que supuestamente cubren la totalidad del continuo psicológico. Es decir, si el continuo
cuenta con 11 intervalos de respuesta, el investigador elaboró entre siete y nueve reactivos para
cada intervalo. Si después de que los jueces terminaron su proceso de enjuiciamiento, nos
encontramos que algunos de ellos colocaron al 30% de los reactivos en un sólo intervalo, se puede
inferir que el juez fue descuidado en la tarea de enjuiciamiento, ya que esto implica que colocó entre
21 y 27 reactivos como localizados en un sólo intervalo. Cuando este es el caso, se elimina este
juez.
Las instrucciones que se dan a los jueces dentro de este método son las siguientes: "Lea
cuidadosamente cada una de las afirmaciones que se le presentan a continuación y señale para
cada una de ellas, la cantidad de atributo que a su juicio cada una de ellas representa tener. Es
decir, si usted considera que el responder afirmativamente a la afirmación indica que el sujeto que
así respondió posee una cantidad considerable(o mucho) del atributo que se está midiendo, coloque
una "X" en el intervalo extremo de la derecha, calificado con MUCHO. Si usted considera que la
afirmación no representa nada del atributo en cuestión, coloque su respuesta en el intervalo extremo
de la izquierda, el calificado con NADA; por el contrario, si usted, considera que la afirmación
contiene una cantidad regular o mediana del atributo en cuestión, coloque su respuesta en el
intervalo intermedio, calificado con REGULAR. Como usted puede ver, la cantidad de atributo se
incrementa del intervalo intermedio al intervalo de la izquierda y al de la derecha, de la misma
manera, gradual y sucesivamente. Recuerde que no le estamos pidiendo que nos indique en qué
grado está usted de acuerdo con cada afirmación, ni tampoco en qué grado posee usted aquello de
lo que habla la afirmación, o en qué grado ésta representa su punto de vista, creencia, actitud, etc.
Sólo queremos que nos indique que tanto del atributo considera usted que la afirmación representa
o contiene".
En este caso el continuo que se le presenta a los jueces consta de once intervalos; el
extremo izquierdo calificado con NADA o POCO; el intermedio con REGULAR; el extremo derecho
con MUCHO o TODO. Los adjetivos calificativos deberán ser congruentes con el atributo que se
está estudiando. Si el atributo es actitud, por ejemplo, los intervalos descritos quedan anclados por
los adjetivos DESFAVORABLE, NEUTRO, FAVORABLE. Es importante hacer notar que el resto de
los intervalos permanecen sin descripción, ya que el supuesto que subyace al modelo y al proceso
de enjuiciamiento, señala que las instrucciones son tales que le permiten al juez suponer el
incremento o decremento gradual, sucesivo y de intervalos semejantes, a la derecha o izquierda del
intervalo intermedio, respectivamente.
El continuo se presenta de la siguiente manera:
:_____:_____:_____:_____:_____:_____:_____:_____:_____:_____: ____:_____:_____:_____:
Tabla 5.4
INTERVALOS
Afirm.1 1 2 3 . . . . . . . 11
frec. f11 f12 f13 . . . . . . . f111
Prop. p11 p12 p13 . . . . . . . p111
prop.ac. pa11 pa12 pa13 . . . . . . . pa111
Afirm. 2
frec. f21 f22 f23 . . . . . . . f211
prop. p21 p22 p23 . . . . . . . p211
prop.ac. pa21 pc22 pa23 . . . . . . .pa211
Afirm. K
frec. fk1 fk2 fk3 . . . . . . . fk11
prop. pk1 pk2 pk3 . . . . pk11
prop.ac. pak1 pak2 pak . . . . . . . pak111
En este método se requiere calcular dos tipos de valores, que representan al proceso modal
discriminativo y la dispersión discriminativa, respectivamente; estos valores son los valores S o
escalares, y los valores Q o intercuartilares.
S = l + (0.50 - Σpb) i
------------ (5.11)
pw
dónde
S = valor escalar
l = límite inferior del intervalo donde cae la mediana
Σpb = suma de proporciones debajo del intervalo donde cae la mediana.
pw = proporciones dentro del intervalo donde cae la mediana.
i = la amplitud del intervalo, que se supone es = 1
dónde:
Se deberán calcular estos dos valores para todas y cada una de las 70 o 90 afirmaciones que
fueron sometidas a juicio, para poder pasar a escoger las afirmaciones definitivas que constituirán el
instrumento.
Una vez que se han calculado los valores escalares y los valores intercuartilares, se procede
a arreglar a las afirmaciones de acuerdo a sus valores escalares, de menor a mayor. De aquellas
afirmaciones que tengan valores escalares que van de 0.5 a 1.5 se escogen dos o tres, las que
tengan los valores Q más pequeños. Del grupo de afirmaciones con valores escalares de 1.5 a 2.5,
se escogen nuevamente dos o tres afirmaciones, las que tengan los valores Q más pequeños. Así
se continua escogiendo de cada grupo consecutivo de valores escalares aquellas que tienen los
valores Q más pequeños.
Este procedimiento asegura dos requisitos que debe reunir el instrumento: a) que las
afirmaciones se repartan uniformemente a lo largo de todo el continuo psicológico, y b) que las
afirmaciones no sean ambiguas (el valor Q es un indicador de ambigüedad de las mismas).
De esta manera, el instrumento queda constituido por entre 22 a 33 afirmaciones, si el
continuo tenía once intervalos. De cualquier manera, se recomienda que un instrumento
monodimensional, como el que se obtiene en este caso, tenga entre 20 ó 30 afirmaciones, con las
cuales es muy probable que se alcance un coeficiente de confiabilidad adecuado (igual o mayor de
0.80).
5.4 Autoevaluación
5.4.1 Preguntas
5.4.2 Respuestas
Las ventajas del método de intervalos aparentemente iguales son: puede emplear un gran
número de reactivos; las tarea que se les pide a los jueces es bastante sencilla; el nivel de medición
que se alcanza es el intervalar. Sus desventajas son: como modelo de medición no es muy fuerte
los jueces pueden volverse descuidados por falta de interés; los sujetos a los que se les aplique el
instrumento final deben saber leer y escribir.
VI. INSTRUMENTOS HOMOGENEOS: ESCALAMIENTO DE PERSONAS
Debe recordarse que en este caso se inicia la construcción del instrumento teniendo en
mente los modelos de medición revisados en las primeras secciones de este texto. Se parte de la
definición de prueba o test: es una muestra representativa de los reactivos que se encuentran en el
dominio o universo o población de reactivos que indican al atributo en cuestión; se toman en cuenta
las principales suposiciones del modelo del error, en el sentido de que el error de medición es
aleatorio y que por lo tanto las calificaciones observadas corresponden a las verdaderas; por último,
se consideran como ciertas las principales suposiciones del modelo de las pruebas paralelas, en el
sentido de que las medias, y las varianzas de las mismas, son iguales, y por extrapolación,
las medias y las varianzas de los reactivos que las constituyen son iguales también.
Los instrumentos que tienen dos opciones de respuesta corresponden a aquellos que están
constituidos por reactivos dicotómicos, tales como los que se presentaron en el Capítulo IV.
Como se recordará, estos instrumentos son empleados con mucha frecuencia para el registro
o medición de variables para las cuales existen respuestas correctas e incorrectas, verdaderas y
falsas, etc. En estos casos, las opciones de respuesta por lo general se califican con puntuaciones
de 1 y 0, correspondiendo el 1 a la opción correcta o verdadera, mientras que el 0 corresponde a la
opción incorrecta o falsa.
Este conjunto de reactivos que se elaboran, siguiendo todas las recomendaciones señaladas
en el Capítulo IV, se aplican a una submuestra de sujetos, con características semejantes a las de la
muestra del estudio de interés, y se procede a establecer su confiabilidad por medio de la fórmula
de Kudder-Richardson 20.
Antes de aplicar la fórmula a los datos obtenidos, es conveniente llevar a cabo alguno de los
procedimientos de análisis de reactivos señalados en el Capítulo IV. Este procedimiento preliminar
tiene por objeto varias cuestiones: en primer lugar, deshacerse de aquellos reactivos que no
discriminan en la muestra en cuestión; en segundo lugar, reducir el número de reactivos que se
someterán al proceso de confiabilidad.
El primer paso entonces, para determinar la confiabilidad de una prueba constituida por
reactivos dicotómicos es encontrar el valor p de cada uno de ellos, que se multiplica por 1-p o sea q.
Estos productos son sumados después. El segundo paso es calcular la varianza para las
calificaciones totales. Con esta información se substituyen los datos en la fórmula y se realizan las
operaciones aritméticas indicadas, determinando asi', el coeficiente de confiabilidad de consistencia
interna del conjunto de reactivos iniciales.
Es decir, al mismo tiempo se obtienen los valores de la correlación de la calificación total con
cada reactivo. Observando cuidadosamente estos valores, se determina cuáles son los reactivos
que obtienen valores extremos. Es decir, si el promedio de las correlaciones esta alrededor de 0.3,
todos aquellos reactivos que obtengan correlaciones reactivo-calificación total cercanas a 0.7 o
mayores a este valor, se consideran extremos, y deberán ser excluidos del análisis global de
reactivos. Una vez eliminados aquellos reactivos considerados como problemáticos, se procede a
volver a calcular el coeficiente Kudder-Richardson y lo más probable es que ahora sí se alcancen los
valores recomendados.
6.2 Instrumentos con Mas de Dos Opciones de Respuesta
Los instrumentos con reactivos de más de dos opciones de respuesta son los más utilizados
por los investigadores en ciencias sociales. Son muy comunes las escalas de actitud con reactivos
de cinco opciones de respuesta; los cuestionarios con reactivos de tres opciones; etc. Para este tipo
de instrumentos, se calcula la confiabilidad de consistencia interna con el coeficiente denominado
alfa de Cronbach, cuya fórmula se presenta a continuación:
dónde:
k = número de reactivos
La ecuación (6.3) es una de las deducciones más importantes de la teoría de la medición del
error. En esta forma se le conoce como coeficiente alfa. La misma fórmula se puede derivar del
modelo de pruebas paralelas y aunque se ve diferente, corresponde al coeficiente que se emplea
para calcular la confiabilidad en el modelo dominio-muestra. Todas las anteriores consideraciones
convergen en la justificación de la afirmación que señala que el coeficiente alfa es una fórmula muy
importante para la teoría de la confiabilidad. Representa la correlación esperada de una prueba con
una forma alternativa que contenga el mismo número de reactivos. La raíz cuadrada del coeficiente
alfa es la correlación estimada de una prueba con las calificaciones verdaderas carentes de error,
razón por la cual deberá aplicarse en forma rutinaria a todas las pruebas nuevas.
Al igual que en el caso de los instrumentos con reactivos de dos opciones de respuesta, el
coeficiente alfa deberá adquirir un valor cercano a 0.85 para que sea considerado como un
instrumento confiable, desde el punto de vista psicométrico. En este caso también habrán de
analizarse los valores de las correlaciones reactivo-calificación total, para determinar cuál o cuáles
son los reactivos problemáticos que están produciendo un valor alfa bajo, y así eliminarlos del
instrumento. Los criterios a seguir son los mismos que en el caso anterior (valores extremos de las
correlaciones reactivo-calificación total, en relación al valor promedio de las correlaciones obtenidas
para el total de los reactivos del instrumento).
En este caso el coeficiente de correlación que se emplea para calcular las correlaciones
reactivo-calificación total, es el de Producto-Momento de Pearson; a continuación se presenta una
de las fórmulas PM más conocidas:
r = Σ ziz2 (6.4)
-------
N
dónde: Σ z1z2 = suma de los productos de los puntajes estandarizados de las variables 1 y
2
N = Número de casos
En este caso, como en las técnicas previamente presentadas, se deberán elaborar las
afirmaciones o reactivos tomando en cuenta las sugerencias y criterios presentados antes, para su
correcto desarrollo.
Es decir, una vez definido el objeto psicológico (si se está midiendo actitud), o la variable que
se pretende medir, se elaboran aproximadamente entre 60 y 80 reactivos, referidos al objeto en
cuestión. En esta ocasión, se deben elaborar reactivos que indiquen una actitud favorable, o la
presencia de la variable en cuestión, y también reactivos que indiquen una actitud desfavorable, o la
ausencia o poca presencia de la variable que se pretende medir. Se deberán elaborar
aproximadamente la mitad de los reactivos favorables o indicativos de la presencia de la variable, y
la otra mitad desfavorables al objeto psicológico o indicativos de la ausencia de la variable
estudiada. De esta manera, se tendrán reactivos positivos (favorables sí son de actitud; presencia
de la variable si no lo son) y reactivos negativos (desfavorables sí son de actitud; de ausencia de la
variable si no lo son).
Las opciones de respuestas adquieren valores numéricos de tal manera que la opción que
representa una actitud más favorable (si se está midiendo actitudes) o una mayor cantidad o
presencia de la variable en cuestión, se le otorga el peso de 5; a la opción que le sigue en
favorabilidad o magnitud de la presencia, se le da un peso de 4; a la opción intermedia (indeciso,
regular, ni si ni no, etc.), se le da el peso de 3; a la siguiente el de 2 y a la última, la que señala la
actitud más desfavorable o la menor presencia o ausencia de la variable en cuestión, se le asigna el
peso de 1.
Lo anterior significa que las opciones de los reactivos que a grosso modo se pueden
clasificar como positivos, tendrán pesos o valores numéricos diferentes que los de aquellos que se
pueden clasificar como negativos. Por ejemplo, si se está midiendo actitud hacia la legalización del
aborto, un reactivo que dijera: el aborto debe ser legal, sus opciones de respuesta serían pesadas o
calificadas de la siguiente manera: totalmente de acuerdo (5); de acuerdo (4); indeciso (3); en
desacuerdo (2); en total desacuerdo (1). Sin embargo, una afirmación que dijera: el aborto debería
prohibirse aún para salvar la vida de la madre, sus opciones de respuesta tendrían los siguientes
valores: totalmente de acuerdo (1); de acuerdo (2); indeciso (3); en desacuerdo (4); en total
desacuerdo (5). Si el instrumento pretendiera medir ansiedad por ejemplo, ante un reactivo que
dijera: padezco de insomnio, con opciones de respuesta de a) siempre; b) casi siempre; c) regular;
d) casi nunca y e) nunca, la primera valdría 5, la segunda 4, la tercera 3, la cuarta 2 y la última 1. Si
el reactivo fuera: por lo general estoy muy tranquilo, y las opciones de respuesta fueran: a)siempre;
b) casi siempre; c) regular; d) casi nunca y e) nunca, los valores correspondientes serían de 1, 2, 3,
4, y 5 respectivamente. También se pueden usar valores que vayan de 0 a 4.
Existe un procedimiento empírico para establecer los pesos de las opciones de respuesta.
Este consiste en lo siguiente.
2.- Para cada reactivo o pregunta se llevan a cabo los pasos señalados en la siguiente Tabla.
Tabla 6.1 Cálculo Empírico del Pesaje de las Opciones de Respuesta de la Técnica Likert (N = 200)
La Tabla 6.1 dice que el reactivo fue respondido por 200 Sujetos. De éstos, 26 contestaron
en la primera opción; 86 en la segunda; 42 en la tercera; 26 en la cuarta y 20 en la quinta. Estos
datos aparecen en la hilera (1) f. En la hilera (2) p, aparecen los datos de la primera hilera en forma
de proporciones.
En la hilera (3) aparecen las proporciones acumuladas. En la hilera (4) aparecen los puntos
medios de las proporciones acumuladas. En la hilera (5) aparecen las proporciones transformadas
en unidades z. Para realizar esta transformación se consulta una tabla de Desviaciones Normales
correspondientes a Proporciones p de una unidad de distribución normal dicotomizada, como la que
presenta Edwards (1957). En la hilera (6), aparecen los valores a los que se les agregó el valor
absoluto del negativo mayor de la hilera anterior, que en este caso fue de 1.514, con objeto de hacer
desaparecer los signos algebraicos, y obtener un punto de origen o cero arbitrario. En la hilera (7),
aparecen los valores de la hilera anterior, pero ahora redondeados al entero más cercano.
Los valores que se presentan en la hilera (7), son los pesos empíricos que les
corresponderían a las opciones de este reactivo en particular. Esto significa que el procedimiento
antes descrito, se tiene que efectuar para todos y cada uno de los reactivos del instrumento inicial
(60 a 80). El procedimiento es bastante laborioso, y el mismo Likert (1932) señaló que si se
correlacionaban los pesos arbitrariamente establecidos, con aquellos determinados en forma
empírica, se obtenía una correlación igual a 0.99. Lo anterior significa, que es lo mismo hacerlo de
cualquiera de las dos manera. Por esta razón, la mayoría de los investigadores opta por la
determinación arbitraria de los pesos de las opciones de respuesta.
En esta ocasión, los jueces que habrán de responder a las afirmaciones iniciales (60 a 80),
deberán ser Sujetos que posean las mismas características que aquellos para los cuales se está
construyendo el instrumento. En otras palabras, los Sujetos que se emplean para elaborar el
instrumento, son en realidad una submuestra de la muestra de investigación, o una muestra
obtenida de la misma población de donde se obtendrá la muestra para el estudio final, o para la que
se está elaborando el instrumento. Estos Sujetos deberán saber leer y escribir.
En esta ocasión, las instrucciones que se les dan a los Jueces o Sujetos, son las que
señalan responder de acuerdo a sus creencias o actitudes, o características. Es decir, los Sujetos
sólo tendrán que responder de acuerdo a lo que ellos piensan, saben, creen, sienten, o mejor los
describe. La tarea a la que se someten es exactamente la misma a la que se someterá la muestra
bajo estudio. Se recomienda emplear aproximadamente unos 100 jueces para llevar a cabo esta
aplicación inicial.
El objetivo que se persigue con el uso de esta técnica, es el de contar con una escala de 20 a
25 reactivos, confiable, que pueda ser un índice de la variable o actitud que se pretende medir. Para
esto, se deberá llevar a cabo un análisis de reactivos para determinar cuáles son los 20 ó 25
mejores reactivos y con ellos formar la escala o instrumento final. En este caso, la bondad de los
reactivos estará dada por su poder discriminativo.
Para llevar a cabo el análisis de reactivos en este método, se aplica el instrumento inicial (con
60 a 80 reactivos) a una muestra de tamaño aproximado de 100. Se califican los reactivos anotando
el valor de la opción de respuesta seleccionada por los Sujetos, y se suman a través de todos los
reactivos. Dependiendo de las calificaciones totales que hayan obtenido los Sujetos, se ordena a
éstos de mayor a menor. Se forman dos grupos: el superior o alto y un inferior o bajo. En el primer
grupo se coloca al 25% superior de los Sujetos (aquellos que obtuvieron los puntajes más altos); en
el segundo al 25% inferior de los Sujetos (los que obtuvieron los puntajes más bajos).
Se procede entonces a formar una tabla como la Tabla 6.2, que aparece a continuación.
Tabla 6.2. Cálculo de t para evaluar la diferencia en la respuesta promedio a una afirmación positiva
o favorable de actitud entre un grupo alto y un grupo bajo.
Lo anterior se lleva a cabo con objeto de encontrar los valores que se requieren en la
siguiente fórmula:
Xa - Xb
(6.1) t = ______________________
sa2 + sb2
____ ____
na nb
dónde:
Xa = la calificación promedio en una afirmación dada para el grupo alto
Xb = la calificación promedio en una afirmación dada para el grupo bajo
2
sa = la varianza de la distribución de las respuestas del grupo alto a esa afirmación
2
sb = la varianza de la distribución de las respuestas del grupo bajo a esa afirmación
na = número de sujetos en el grupo alto
nb = número de sujetos en el grupo bajo
Si las n's de los dos grupos son iguales, la fórmula se transforma en:
Xa - Xb
(6.2) t = ________________________________
Σ(xa-Xa)2 + Σ(xb-Xb)2
________________________________
n(n-1)
Los cálculos de la fórmula (6.2) para los datos de la Tabla 6.2, se presentan a continuación.
72 144
xb -- = 1.44 xa ---- = 2.88
50 50
2 2 2 2
Σ(xb-Xb) = 154 - (72) Σ(xa-Xa) = 464-(144)
---- -----
50 50 _
= 50.32 = 49.28
2.88 - 1.44
t= ----------- = 7.13
50.32 + 49.28
-------------
50(50-1)
El valor de t obtenido se busca en las tablas correspondientes (ver McGuigan, .ej.), con
gl=n-1, y se determina su nivel de significancia. Si éste es 0.05 o <, se dice que la afirmación
discrimina; es decir, que es respondida en forma diferente por un grupo alto en la variable, que por
un grupo bajo en la misma variable.
Este procedimiento se debe llevar a cabo con todas y cada una de las 60 a 80 preguntas o
reactivos que se elaboraron. Una vez que se calculan todas las t's, se ordenan de mayor a menor,
estableciendo el punto de corte del nivel de significancia adecuado. Es decir, se determina el lugar
de la ordenación donde los valores de t ya no son estadísticamente significativos a una p < 0.05. De
entre las afirmaciones que si discriminaron, se seleccionan aproximadamente 12 ó 13 de las
positivas o favorables y 12 ó 13 de las negativas o desfavorables. Estas 24 ó 26 afirmaciones, son
las que conforman la escala final.
Las preguntas así ordenadas, se presentan a la muestra de investigación, con las siguientes
instrucciones: Lea cuidadosamente cada una de las siguientes preguntas. Escoja de entre las
opciones de respuesta, aquella que mejor exprese su opinión, mejor lo describa, etc. No deje
ninguna pregunta sin contestar. Recuerde que no hay respuestas ni buenas ni malas.
De preferencia se ponen unos dos o tres ejemplos, empleando afirmaciones referidas a otras
variables. Estos ejemplos se ponen contestados y se explica la razón de cada una de las respuestas
de los ejemplos.
Cuando se usa esta técnica para elaborar una escala de actitudes, la interpretación de las
calificaciones deberá hacerse tomando en cuenta las siguientes consideraciones. En primer lugar,
no existe un continuo psicológico en el sentido en el que existe en las técnicas de intervalos
aparentemente iguales, pares comparados o intervalos sucesivos. Es decir, que no hubo un grupo
de jueces que estableciera con sus juicios respecto a las afirmaciones, un continuo donde se
pudieran escalar éstas (asignarles valores escalares a cada una de ellas). En segundo lugar, los
únicos puntajes que se pueden interpretar sin ambigüedad son dos: la calificación mínima posible, y
la más alta posible. Es decir, si el instrumento final tiene 20 afirmaciones de cinco opciones de
respuesta cada una, donde los pesos de las opciones van de 1 a 5, la calificación mínima posible es
de 20, y la máxima es de 80. La primera significa que la actitud del respondiente es totalmente
desfavorable al objeto psicológico, mientras que la segunda indica exactamente lo contrario: la
actitud es totalmente favorable hacia el objeto psicológico. Cualquier otro puntaje, ya no puede ser
interpretado sin ambigüedad. Por ejemplo, un individuo puede obtener una calificación total de 60,
de cualquiera de las siguientes maneras: a) contestando en el intervalo u opción que vale 3 en todas
las afirmaciones; b) contestando 10 afirmaciones en la opción que vale 2, y 10 en la que vale 4; c) o
contestando 10 afirmaciones en la opción con peso de 1, y 10 en la opción con peso de 5; d) y así
sucesivamente: las posibles combinaciones de respuesta que dan como resultado una calificación
total de 60 son muchísimas, y no por ser el punto medio de la posible distribución de calificaciones,
que va de 20 a 80, se puede interpretar, por ejemplo, que el Sujeto tenga una actitud neutral hacia el
objeto psicológico. Por lo tanto, lo único que se puede hacer es referir los puntajes del individuo a la
distancia o posición que ocupa respecto a la media de un grupo. En otras palabras, sólo se puede
decir si la actitud del individuo es más o menos favorable que la actitud promedio del grupo al que
pertenece.
También se pueden usar los puntajes de los individuos, para hacer comparaciones entre
grupos, comparando sus medias, por ejemplo. Sin embargo, debe recordarse, que no se pueden
interpretar puntajes individuales como indicando actitudes favorables o desfavorables.
Los puntajes crudos que se obtienen de este tipo de instrumentos pueden transformarse a
puntajes estandarizados o normalizados. Estos puntajes son expresiones de desviación o distancia
respecto a una media de un grupo. Este tipo de distribuciones tienen un origen arbitrariamente
establecido (la media del grupo), y unidades que representan distancias respecto a ese origen. De
esta manera, los puntajes crudos se transforman a puntajes que están midiendo a nivel intervalar, y
consecuentemente, permiten que se les aplique la mayor parte de la estadística conocida.
(6.3) T = 50 + 10 (X - X)
s
dónde:
T = una calificación T
X = la calificación de un Sujeto dado
X = el promedio de la distribución
s = la desviación standard de la distribución de calificaciones
(6.4) z = (X - X)
s
En esta transformación, los puntajes transformados pueden adquirir valores positivos (si se
encuentran a la derecha del promedio), y negativos,(si se encuentran a la izquierda) . En esta
distribución de z, la media es igual a cero y la desviación estándar es igual a la unidad.
6.6 Autoevaluación
6.6.1. Preguntas
6.6.2 Respuestas
Cuando se pretende construir un instrumento que no es homogéneo, (que mide una sola
dimensión o variable simple, constituida por esa sola dimensión) se puede pensar en instrumentos
heterogéneos. La heterogeneidad de los instrumentos puede ser de dos tipos. Primero, se trata de
una variable, compleja, constituida por varias dimensiones; segundo, se trata de diferentes variables
sencillas, a las que se pretende medir con el mismo instrumento. Esta segunda circunstancia es
menos común, pero se puede dar.
A pesar de la gran utilidad social y científica de las pruebas psicológicas, debe reconocerse
que hasta la fecha, se tiene evidencia bastante inadecuada respecto a lo que realmente miden
éstas. Las variables o dimensiones fundamentales de la habilidad humana o de la personalidad
humana en general se encuentran aún dentro del vasto territorio inexplorado del conocimiento,
reservado para los psicólogos. Para enfrentarse a esta situación se requiere de una aproximación
estadística como el análisis factorial.
Si uno consultara un diccionario para buscar todos los términos que se emplean para
describir la personalidad humana, incluyendo sus habilidades, en otras palabras, los términos que
se refieren a rasgos observables, uno encontrari'a varios miles de ellos. La ciencia, que desea
describir la naturaleza humana, tiene a su disposición todos esos conceptos. Pero emplearlos todos
es obrar erróneamente: muchos son sinónimos, muchos se traslapan en diferente grado, otros
expresan características opuestas. La ciencia, motivada siempre por la búsqueda del orden dentro
del caos, por reducir a lo simple aquello que es complejo, desea saber cual es el número mínimo de
conceptos con los que se puede ordenar y describir en forma adecuada la multiplicidad de
fenómenos que caen bajo su escrutinio. Desde un punto de vista cuantitativo, se podría preguntar:
¿cuál es el menor número de variables o dimensiones de la personalidad que se necesitan para
definirla adecuadamente?
Wundt se refirió a este problema en relación con el sentimiento y propuso su famosa teoría
tridimensional. Los psicólogos existencialistas se han enfrentado al problema en relación a los
fenómenos sensoriales, y se ha llegado en general a pensar en los atributos de los colores, de los
sonidos y de la experiencia. La tarea de aislar variables independientes de personalidad es aún más
difícil. Los métodos de escritorio, dominados por la lógica más que por la observación, llevaron a la
psicología de las facultades, actualmente inaceptable para la psicología moderna. De la misma
manera, la observación directa tampoco ha producido un conjunto de rasgos unitarios que se
acerquen de alguna manera a la aceptación universal.
Para ilustrar el problema de otra manera, de una forma más práctica, supóngase que se
desea describir la personalidad de un individuo tan completamente como fuera posible, por medio
de calificaciones en diferentes pruebas. Si se quisiera asegurar no omitir ningún aspecto de su
personalidad, probablemente se le aplicarían varios cientos de pruebas. Se daría cuenta el
investigador que muchas de ellas correlacionaron alto entre sí y que por lo tanto se duplicaron los
esfuerzos varias veces. Si se estudian estas intercorrelaciones se podría dar cuenta también que
algunas pruebas representan a otro grupo de pruebas de tal manera que no se sacrifica la cobertura
de todos los rasgos. Cuando alguna de estas pruebas sirve para representar a un conjunto de otras,
se puede decir que se tiene un factor subyacente. Por lo tanto, la tarea de describir al individuo se
reduce al hacer que una prueba haga el trabajo de varias. Cuando a ese factor se le puede dar una
definición y un significado psicológico, no solo se tiene un nuevo y poderoso concepto para
propósitos descriptivos, sino también para pensar acerca de la naturaleza humana.
El análisis factorial no es un concepto unitario, sino que depende de las alternativas que se
pueden tomar en cada uno de los tres pasos principales que se siguen: a) preparación de la matriz
de intercorrelaciones; b) la extracción de los factores iniciales (lo que habla de la posibilidad de
reducción de los datos); y c) la rotación a una solución terminal (que produzca factores simples e
interpretables).
Los pasos que se siguen para la preparación de la matriz de intercorrelaciones son los
siguientes:
Los factores iniciales se extraen de manera que cada factor es independiente de los demás.
Se debe señalar que la solución factorial inicial, no cumple con los requisitos fundamentales del
análisis factorial que son el de la estructura simple y el desarrollo positivo.
El requisito de estructura simple se refiere al hecho de que cada variable cargue alto en un
factor y cerca de cero en los demás. El desarrollo positivo se refiere al hecho de que las cargas
factoriales sean o tengan signo positivo.
El hecho de que estos requisitos no se cumplan, hace que los factores iniciales que se
obtienen sean muy difíciles de interpretar, ya que muchas variables aparecen con cargas más o
menos altas en varios factores al mismo tiempo por un lado, y por el otro, aparecen una gran
cantidad de cargas factoriales asociadas a signos negativos.
Algunas soluciones son más parsimoniosas y simples, otras más informativas. Cada una dice
algo ligeramente diferente acerca de la estructura de los datos. Cada investigador escoge la que
más le conviene de acuerdo a sus fines teóricos y/o prácticos. Las opciones más importantes son: la
ortogonal, donde se supone independencia (no correlación) entre los factores extraídos; y la oblicua,
que supone correlación entre los factores.
7.3 Tipos de Análisis Factorial
Cuando se opta por este tipo de solución, no se requiere hacer ninguna suposición acerca de
la estructura subyacente de las variables. El investigador tan sólo se pregunta: ¿Cuál es la mejor
combinación lineal de variables que explica la mayor cantidad de varianza en los datos como
conjunto, que cualquier otra? De esta manera, el primer componente principal es el mejor resumen
de la combinación lineal exhibida en los datos; el segundo componente es el segundo mejor que
sigue, obtenido del residual después de haber extraído al primero, y asi' sucesivamente, hasta agotar
la cantidad de varianza total existente.
dónde cada una de las n observadas se describe linealmente en término de los componentes
nuevos no correlacionados F1 , F2 ,Fn. De esta manera, los primeros m componentes, muchos
menos que las n variables originales, explican la mayor parte de la varianza de los datos.
El análisis factorial clásico supone que las correlaciones observadas resultan de una
regularidad subyacente en los datos. Supone que la variabilidad observada está influida por
diferentes determinantes, algunos compartidos con otras variables del conjunto, y otros no
compartidos con ninguna otra. A los determinantes compartidos se les llama comunes y a los
idiosincrásicos se les llama factores únicos.
La parte única de una variable no contribuye a la relación entre las variables; las
correlaciones son resultado de los factores comunes; éstos explican todas las relaciones
observadas y son menores en número que las variables originales. Este modelo se puede expresar
como sigue:
Zj = aj1 F1 + aj2 F2 +. . . + ajm Fm + djuj
dónde:
Zj = variable j en forma estandarizada
Fi = factores hipotéticos
uj = factoru' nico para la variable j
aji= coeficiente estandarizado de regresio'n mu'ltiple de la variable j en el factor i (carga
factorial)
dj = coeficiente de regresión estandarizado para la variable j en el factor único j
1 - u = h²
c) pesos para estimar las variables a partir de los factores (factor pattern matrix-matriz del
patrón factorial). Esta matriz contiene los pesos o coeficientes de regresión de los factores comunes
y por lo tanto señala la composición de una variable en términos de los factores hipotéticos.
e) correlación entre los factores y las variables o cargas factoriales (factor structure
matrix-matriz de la estructura factorial). Esta matriz está constituida por los coeficientes de
correlación (o cargas factoriales) entre cada variable y cada factor. Esta es la matriz que se emplea
para interpretar (nombrar) a los factores extraídos u obtenidos. Cuando se emplea un método
ortogonal de rotación, la matriz de patrón factorial y la matriz de la estructura factorial, son iguales
por lo que aparece únicamente la segunda. Cuando el procedimiento de rotación que se emplea es
el oblicuo, aparecen ambas, con sus nombres respectivos.
f) matriz de intercorrelaciones de los factores terminales. Esta matriz sólo se obtiene cuando
la solución terminal tuvo una rotación oblicua. Está constituida por las intercorrelaciones de las
dimensiones (o factores) subyacentes, y puede servir para análisis factoriales de un orden más alto
(someter a análisis factorial los puntajes que los sujetos obtienen en los factores extraídos en el
primer nivel o primer paso).
Las variables pueden introducirse por medio de los puntajes crudos que los sujetos
obtuvieron en cada uno de ellas, o por medio de una matriz cuadrada de correlaciones (igual
número de columnas, k y de hileras, r).
La importancia de los factores está dada primero, por el valor eigen que obtiene cada uno de
los factores extraídos. Este es la raíz de la ecuación (polinomio) que explica la matriz de varianza
reducida (la que se trabaja a partir de la extraccio'n de los factores iniciales). Un segundo aspecto
que habla de la importancia de los factores es el porcentaje de varianza, en la matriz reducida, que
cada factor explica; asi', son más importantes aquellos factores que tienen un valor eigen y un
porcentaje de varianza explicada mayores.
El SPSS (Paquete Estadístico para las Ciencias Sociales) cuenta con diferentes métodos de
análisis factorial. Entre los más usados se tienen cuatro: a) el método de componentes principales
sin iteración (PA1); b) el método de componentes principales con iteración (PA2); c) factorización
canónica de RAO (RAO); y d) el método Alfa (ALPHA). Para ver con más detalle los tres primeros
métodos, recomiendo se consulte el documento Diseños Multivariados de Investigación en
Ciencias Sociales (Reidl de Aguilar, 1989).
En esta ocasión, se verá solamente el método Alfa, que es el indicado para la elaboración de
instrumentos.
Este método es del tipo del análisis factorial clásico o de factores comunes y únicos.
En este método se parte del supuesto de que las variables incluidas en el análisis se
consideran una muestra representativa del universo o población de variables (indicadores o
reactivos). En este sentido, este método se deriva del modelo dominio-muestra de medición (ver
capítulo III) en ciencias sociales, y se recomienda por lo tanto, para ser empleado específicamente
cuando el objetivo primordial del estudio es el de construir un instrumento, y no el de reducir a un
número menor un conjunto dado de datos.
La razón por la cual recibe el nombre de Alfa, es que uno de los objetivos primordiales del
análisis es calcular o extraer factores que sean consistentes internamente (ver capítulo VI). La
prueba de consistencia interna a la que se hace referencia en este procedimiento es la del
Coeficiente Alpha de Cronbach. Se recordará que este coeficiente se aplica a instrumentos
cuyos reactivos tienen más de dos opciones de respuesta. De esta manera, los factores obtenidos
por medio de este método, al ser sometidos los reactivos constituyentes a un análisis de
confiabilidad empleando el coeficiente alpha, se obtendrán valores que señalan la existencia de
consistencia interna entre ellos.
En primer lugar, procúrese no emplear más de 100 variables o reactivos referidos a una
variable o concepto complejo. Esto se debe a que aunque el SPSS cuenta con la posibilidad de
manejar un número mayor a 100 variables en un análisis factorial, en la medida en que se
incremente el número de variables más allá de 100, el valor que la determinante de la matriz original
de intercorrelaciones puede adquirir, puede ser tal que impida invertirla. Esto significa que no podrá
producir una matriz de coeficientes de calificaciones factoriales (Factor Score Coefficient Matrix).
Esto, a su vez, significa que el investigador deberá emplear la matriz de la estructura factorial
(Factor Structure Matrix) como coeficientes de calificaciones factoriales, lo que implica que sus
factores terminales deberán quedar constituidos por variables o reactivos con cargas factoriales
mínimas, de valor absoluto de 0.40 y mayores. Otra razón que subyace a esta recomendación, es el
incremento del tiempo de máquina y de espacio de trabajo requerido por la computadora.
En segundo lugar, se recomienda tener una muestra cuya N sea por lo menos de 5 veces el
número de reactivos que contenga el instrumento inicial. Es decir, el tamaño mínimo de la muestra
deberá de ser: N = 5K, dónde, k = número de reactivos. Lo ideal es que N = 10K. Esta
recomendación se dirige particularmente a la situación en la que el investigador tiene como objetivo
específico y primordial, la elaboración de un instrumento. Se debe recordar que los diseños
correlacionales multivariados son diseños de muestras grandes, con objeto de anular resultados
espúreos, producto del artefacto del proceso de computación.
En tercer lugar, se recomienda que todos los reactivos o variables sean de opción múltiple,
en alguna de sus acepciones, para garantizar la distribución normal de las respuestas dadas a
ellos. Es decir, por ningún motivo deberán los reactivos o variables ser dicotómicos; las opciones de
respuesta deben ser por lo menos tres; hasta cinco o siete; de preferencia cuatro o cinco. Entre los
tipos de reactivos de opción múltiple se tienen, por ejemplo: tres o más opciones de respuesta
excluyentes; ordenar o clasificar a lo largo de un continuo de tres a siete intervalos, donde se
definen los intervalos extremos y el intermedio. Las escalas de preferencia, las de grados de
acuerdo, las de frecuencias de ocurrencia, etc., son, siempre y cuando tengan más de dos
posibilidades de respuesta, variedades de reactivos de opción múltiple.
Por último, si no se puede tener un número menor de cien variables para ser sometidas a
análisis, se recomienda llevar a cabo análisis factoriales parcializados. Los criterios que determinan
cómo se pueden dividir las variables para ser sometidas a análisis factorial son, principalmente dos:
un criterio cualitativo y otro cuantitativo. El primero hace referencia a la fundamentación teórica que
subyace a la elaboración de los reactivos oi' dices de las variables. Es decir, se someten a análisis
factorial a aquellos reactivos que se supone están midiendo o la misma variable o la misma
dimensión de una variable dada.
En realidad, el primer caso es una forma no muy estricta, "a ojo de buen cubero", de hacer
lo que se hace en el segundo caso, de manera matemáticamente más formal.
El método QUARTIMAX tiene por objeto rotar los ejes de los factores para maximizar el
principio de la estructura simple. Es decir, asegurar que una variable cargue alto en un factor, y cero
o cerca de cero en los demás. Este método es recomendable cuando las características mismas de
los reactivos probabilizan la pertenencia exclusiva y por tanto excluyente, en un factor respecto a los
demás. Se recomienda para estudios confirmatorios, es decir, aquellos que se realizan para poner a
prueba hipótesis.
El método EQUIMAX es en realidad una combinación de los dos primeros; es decir, busca
obtener factores que maximicen la varianza explicada, y que al mismo tiempo, queden constituidos
por variables o reactivos que carguen alto en un factor y cero, o cerca de cero, en los demás.
Las soluciones terminales rotadas que producen estos tres métodos difieren entre sí. Sin
embargo, dentro de cada uno de ellos, la solución obtenida es la óptima. Es decir, cada uno de ellos
produce la mejor solución factorial matemáticamente posible. Esta situación permite al investigador,
por ejemplo, comparar soluciones cuando se tienen el mismo conjunto de reactivos y diferentes
muestras; o diferentes conjuntos de reactivos (o variables) y la misma muestra, para escoger aquella
que mejor se conforme a sus hipótesis, o al conocimiento acumulado en esa área particular de
interés. Le permite también, detectar la estabilidad de la estructura factorial, o falta de la misma, en
muestras diferentes en el tiempo o espacio. En cualquier caso, el investigador está seguro, por lo
menos, de que las soluciones encontradas son las óptimas desde el punto de vista matemático.
Es conveniente repetir aquí que una correlación se puede representar en forma gráfica. Esta
representación se hace con un sistema de coordenadas. Cuando éstas son perpendiculares entre
sí, el ángulo que separa a la ordenada de la abscisa es de 90 grados. El coseno de un ángulo recto
es igual a cero. Por esto, se dice que los ejes de referencia ortogonales o perpendiculares
representan una correlación de cero, o sea, absoluta independencia entre los ejes. Cuando se habla
de relación o dependencia entre los factores, se refiere uno a la oblicuidad gráfica entre los ejes de
referencia. Cuando el ángulo que se forma entre dos líneas es igual a cero grados, el coseno de
ese ángulo es de 1.00 (valor máximo que puede alcanzar una correlación), y conforme el ángulo se
va acercando a 90 grados, el coseno de ese ángulo (o correlación) va siendo menor, hasta llegar a
cero.
La oblicuidad de los ejes de referencia, que son los que determinan los valores de las cargas
factoriales de las variables o reactivos que constituyen a los diferentes factores, queda establecida
por delta. Cuando el valor de delta es positivo, menor o igual a 1.00, se supone que los factores
están extremadamente correlacionados y los ejes de referencia son muy oblicuos entre sí. Si el valor
de delta es igual a cero, los ejes son bastante oblicuos; éste es el valor de default que tiene el
programa del SPSS. Si el valor de delta va de -0.5 a -5, se supone una oblicuidad menor. Cuando
adquiere un valor menor a -5, los ejes son casi ortogonales; o sea, que se supone la casi
independencia entre los factores.
El investigador puede determinar el grado de oblicuidad (o correlación) que supone entre sus
factores, dependiendo de la literatura sobre el tema investigado, estableciendo un valor para delta.
En cualquier caso, es más difícil establecer comparaciones entre los hallazgos obtenidos en
diferentes ocasiones o con diferentes muestras para el mismo conjunto de reactivos o variables,
pues las soluciones serán diferentes dependiendo del grado de relación que haya escogido el
investigador como el adecuado en cada ocasión.
7.7 Opciones Adicionales del Programa de Análisis Factorial del SPSS
Entre las opciones adicionales al mínimo requerido para interpretar los resultados de la
aplicación de un análisis factorial a un conjunto de datos, las más empleadas por los investigadores,
y por lo tanto las que se recomiendan, dependiendo de los objetivos del estudio, se presentan a
continuación.
Es pertinente solicitar siempre medias y desviaciones estándar para cada una de las
variables que se someten a análisis. Esto proporciona información sobre los puntajes crudos
obtenidos por los sujetos en las diferentes variables. En ocasiones pueden ayudar a la interpretación
de los factores obtenidos.
Cuando el estudio tiene como principal objetivo someter a prueba alguna hipótesis (como por
ejemplo: la autoestima está constituida por tales factores, y asi' se quiere medir), el investigador
puede modificar los siguientes parámetros, dependiendo de sus hipótesis especificas: a)
NFACTORS, que señala cuantos factores deberán extraerse del espacio reducido de variabilidad; b)
MINIEIGEN, que señala el valor eigen mínimo que el investigador desea tengan los factores que se
obtengan; c) ITERATE, que señala cuantas iteraciones habrán de llevarse a cabo: esta situación es
común cuando los datos no alcanzan la convergencia (diferencia de 0.001 entre los cálculos
sucesivos de la estimación de la comunalidad en el método PA2) con las 25 iteraciones que da por
default el programa; d) STOPFAC cuando se desee se detenga el proceso de extracción de
factores en aquella iteración en la que la comunalidad (h²) vari'e de una estimación a la sucesiva en
una cantidad diferente a 0.001 (valor de default).
Las variables que se sometieron a análisis factorial fueron doce que se referían al profesor:
cubrió el programa, claro, organizado, flexible, responsable, puntual, cumplido, emplea ejemplos
adecuados, señala objetivos de la exposición, sistemático, integra la información, y relaciona
conceptos. Para el programa, las ocho variables que se referían al mismo eran: da una visión
general del área, cubre puntos esenciales, proporciona información actualizada, tiene secuencia
pedagógica, es interesante. Respecto al sistema de enseñanza empleado por el profesor, se
averiguó si permiti'a la aplicación del conocimiento a situaciones prácticas, si era creativo,
entretenido, si estaba sistematizado, si lograba retención del conocimiento, si requería más horas de
estudio que los demás, y si era reforzante: un total de siete variables.
Se verán los resultados de un análisis factorial tipo ALPHA, con rotación oblicua (con una
delta = 0.00, valor de default del programa del paquete estadístico del SPSS.
En primer lugar aparecen los nombres de las variables incluidas en el análisis factorial.
Inmediatamente a continuación, aparecen las mismas variables, pero cada una de ellas con la
media que la muestra obtuvo, así como su desviación standard. También se señala el número de
casos incluidos en el análisis.
Como siguientes resultados, aparece una matriz de intercorrelaciones, que muestra las
correlaciones existentes entre todas las variables. Al final de la matriz de intercorrelaciones aparece
el valor de la determinante de la matriz. Este señala la posibilidad de continuar el análisis; de ser
esto así, significa que la matriz se podrá invertir y continuar con el procedimiento que lleva a la
extracción de los factores iniciales.
A continuación se presenta la comunalidad estimada para cada una de las variables incluidas
en el análisis, y la extracción inicial de los factores. Se observa que se obtienen tantos factores
como variables se introducen en el análisis. Sin embargo, también se observa, en la columna de los
Valores Eigen, que cinco de ellos (los primeros), adquieren un valor eigen adecuado, o sea, mayor a
la unidad. También se puede ver que cada uno de estos factores iniciales explican cierta cantidad
de varianza, y por último se indica, en la columna de porcentaje acumulado, el porcentaje de
varianza acumulada que explican los primeros cinco factores. En este caso es de 64.6%. Estos
datos señalan únicamente, que existe la posibilidad de reducir el número original de variables (23) a
un número menor: cinco.
Como se puede observar, en el primer factor se encuentran cargando, con pesos factoriales
superiores a 0.40, 21 de las 23 variables incluidas. En el segundo, cuatro variables; en el tercero
una; en el cuarto ninguna, y en el quinto, una variable. Esta matriz inicial, no está cumpliendo con
ninguno de los tres criterios que se deben reunir para una solución factorial adecuada, y que son: a)
el de estructura simple; b) el de desarrollo positivo; c) facilidad de interpretación. El primer criterio
significa que las variables que carguen alto en un factor, no lo hagan en otro; el segundo significa
que las cargas factoriales deben ser positivas; el tercero no necesita explicación. En el caso de esta
matriz, no se cumple ninguno de los tres criterios antes mencionados. Las cuatro variables que
cargan alto en el factor dos, también lo hacen en el factor uno; hay muchas cargas factoriales en la
matriz que tienen signos negativos; por último, si se está partiendo de la idea de que se están
midiendo tres cosas: el profesor, el programa y el sistema de enseñanza, el hecho de que tantas
variables carguen en el factor uno, es difícilmente interpretable.
Por otro lado, esta es la matriz inicial de extracción de factores, que tiene como principal
propósito determinar si la matriz inicial de correlaciones es susceptible de reducirse a una matriz
más pequeña. Los datos de este estudio si se pueden reducir lo que se obtiene es una matriz de
cinco columnas (factores iniciales) y de 23 hileras (las variables originales).
El hecho de que no se cumpla con los criterios arriba señalados, se debe también al hecho
de que en los procedimientos de análisis factorial, el primer paso en la reducción de variables se
hace empleando el método de componentes principales, que extrae un primer factor general, aquel
que explica la mayor cantidad de varianza de la matriz inicial de intercorrelaciones. Esta primera
solución es matemáticamente perfecta; sin embargo, carece de sentido teórico, puesto que no ha
sido llevada a cabo la rotación, que tiene por objeto principal, hacer lo posible para que se cumplan
los criterios arriba señalados.
Por lo tanto, el siguiente paso es rotar los ejes. En esta ocasión se solicitó una rotación
oblicua, con valor de delta = 0.00. La razón por la cual se solicitó este tipo de rotación fue que se
penso que las características del profesor, deberían estar relacionadas con la forma en que da clase
y si cumple o no el programa de la materia. En otras palabras, los tres aspectos están relacionados
entre si. De esta manera, los datos que aparecen después de la matriz inicial de factores, informan
de la estimación de la comunalidad de las variables después de haber sido rotados los ejes. Esta
comunalidad estimada después de la rotación es muy importante, para efectos de calcular la validez
relevante (Guilford, 1954) de los factores encontrados. Se hablara de este tema en el siguiente
capítulo.
También se presentan los valores eigen de los factores extraídos después de la rotación.
Como puede observarse, los dos primeros factores obtienen valores eigen muy altos, mientras que
los tres últimos los obtienen más pequeños. Así mismo, la cantidad de varianza del espacio reducido
que cada factor explica , es mucho muy alta para el primer factor (70.4%); un poco más pequeña
para el segundo factor (12.9%). Cada uno de los restantes factores, explica paulatinamente una
menor cantidad de varianza. Los cinco factores obtenidos explican el 100% de la varianza
acumulada del espacio de variabilidad reducido de las variables en estudio.
A continuación aparece el patrón factorial, que es una matriz rectangular que contiene en
las columnas, la cantidad de cada uno de los fatores que tiene cada variable. Es decir. La primera
hilera de valores, corresponden a la indicación que señala cuánto de cada factor tiene la variable
cubripro. Estos valores son semejantes a los coeficientes de regresión, y se interpretan de la
misma manera. Sin embargo, esta no es la matriz que sirve para interpretar los factores obtenidos.
Sólo señala, cuánto de cada factor tiene cada variable.
La siguiente, es una pequeña matriz cuadrada, que señala las correlaciones existentes entre
los factores obtenidos. Como se puede ver, los factores que más correlacionan entre sí, son el 1 con
el 4 (-0.57806); el 2 con el 4 (-0.46905), y por último, el 1 con el 3 (-0.38191). Todas las
correlaciones son negativas, lo que significa que a más de uno, menos del otro. Parece que son en
realidad factores complementarios entre sí. Esta matriz de correlaciones sólo aparece en el listado
de datos cuando el método de rotación empleado fue el oblicuo, y proporciona información referida
a que tan correcta era la suposición de la existencia de una relación entre los factores que se
suponían se encontraban subyacentes en las variables estudiadas. Como puede verse, los tres
valores de las correlaciones antes señaladas, son: primero, estadísticamente significativos, con una
p asociada <0.01; y segundo, de magnitud moderada pero interesante. Esta matriz confirma o no la
suposición previa de relación entre los factores. En este caso, la suposición fue confirmada.
Como se puede ver, en el primer factor cargan, con valores superiores a 0.40, las siguientes
variables: el profesor es claro, ejemplifica en forma adecuada, señala objetivos de exposición, es
sistemático, integra el conocimiento y relaciona conceptos; el programa da una visión general del
área, cubre los puntos esenciales, proporciona información actualizada, tiene secuencia pedagógica
y es interesante; el sistema de enseñanza permite aplicar el conocimiento a situaciones prácticas, es
creativo, entretenido, está sistematizado, permite la retención de la información, requiere más horas
de estudio que otros, y es reforzante. Aparentemente, este es un gran factor, muy general, que
involucra a toda la situación de enseñanza: el profesor y sus características, el programa de la
materia y el sistema de enseñanza empleado. Si se deseara, este factor podría ser el único que se
conservara, ya que explica, él sólo, el 70.4% de la varianza, y esto es bueno. Se podría interpretar (o
llamar) como SITUACION DE ENSEÑANZA. Si se optara por tener un factor "puro" que no se
repitiera en los demás, se podrían dejar sólo las variables relacionadas con el sistema de
enseñanza, e interpretarlo (o llamarlo) SISTEMA DE ENSEÑANZA.
Desde otra perspectiva, el investigador puede preferir trabajar con factores "puros", y optar
por considerar a los siguientes factores obtenidos. Es decir, puede optar por trabajar con un número
mayor de factores "puros", y por lo tanto, continuar analizando los siguientes dos factores, por
ejemplo. En el factor 2 cargan con pesos > 0.40, las siguientes variables: el profesor es claro,
organizado, responsable, puntual, cumplido, ejemplifica en forma adecuada, es sistemático, y
establece relaciones entre conceptos; el sistema de enseñanza es entretenido y está sistematizado.
Este factor, excluyendo las dos últimas variables, se refiere específicamente a características del
profesor, y así se podría emplear. Se interpretaría (es decir, se nombraría) como
CARACTERISTICAS DEL PROFESOR.
El tercer factor obtenido, está constituido por las siguientes variables: el profesor cubrió el
programa de la materia y señala los objetivos de la exposición; el programa da una visión general
del área, cubre los puntos esenciales, contiene información actualizada, tiene secuencia pedagógica
y es interesante. Este factor, quitando las variables correspondientes al profesor (las dos primeras),
sería un factor "puro", referido al programa de la materia, por lo cual se podría llamar (o interpretar
como) PROGRAMA O CONTENIDO DE LA MATERIA.
El cuarto factor está constituido por casi las mismas variables que el primero, pero todas ellas
con cargas de signo negativo. Este factor puede considerarse el inverso del primero. En la medida
que sería redundante permanecer con él, se puede desechar, pues proporcionaría la misma
información que el primero, pero a la inversa.
Por último, el quinto factor sólo contiene una variable con una carga > a 0.40: el profesor es
flexible. Como de acuerdo a Harman (1976), para que un factor pueda ser considerado como tal
debe incluir, por lo menos tres variables con carga factorial alta, y como este no es el caso, este
factor queda automáticamente descartado.
De acuerdo a los resultados de este análisis, parece que se obtuvieron: o un factor general,
SITUACIÓN DE ENSEÑANZA, o tres factores "puros": SISTEMA DE ENSEÑANZA,
CARACTERISTICAS DEL PROFESOR, y PROGRAMA O CONTENIDO DE LA MATERIA.
Lista de variables
Coeficientes de Correlación
Se presentan los datos de la Matriz Simétrica en forma colapsada con objeto de no ocupar
tanto espacio.
Cubripro Claro Organiz Flex Respon Puntual
Cubripro 1.00000 0.15923 0.21712 0.17547 0.18090 0.05203
Claro 1.00000 0.47278 0.31132 0.51333 0.22809
Organiz 1.00000 0.28870 0.56691 0.36386
Flex 1.00000 0.46287 0.26357
Respon 1.00000 0.40969
Puntual 1.00000
Cumplio 0.29585 0.45805 0.50172 0.28490 0.55160 0.57430
Ejeadecu 0.13639 0.62678 0.35840 0.33514 0.44830 0.25492
Cubripro Claro Organiz Flex Respon Puntual
0 9.604620
1 8.854873
2 6.848895
3 5.404501
4 4.742260
5 4.432165
6 4.327395
7 4.285476
8 4.266867
9 4.258130
10 4.253802
11 4.251567
12 4.250385
13 4.249757
14 4.249426
15 4.249253
16 4.249164
7.11 Autoevaluación
7.11.1 Preguntas
1. ¿Qué característica muy importante tienen que tener las variables que se sometan a
análisis factorial?
2. ¿Qué característica tienen que tener los reactivos que se incluyan en un análisis
factorial?
3. ¿A qué preguntas responden los factores definidos y los inferidos en análisis factorial?
4. ¿Cuáles son los indicadores de la bondad de los factores obtenidos?
5. ¿Cuándo se utiliza un método de rotación ortogonal y cuándo uno oblicuo?
6. ¿Qué significa interpretar un factor?
7. ¿Qué ventaja tiene el método alpha de extracción de factor3es, para el desarrollo de
instrumentos heterogéneos?
8. ¿Cuál es el tamaño mínimo que debe tener una muestra para ser empleada en el
desarrollo de un instrumento heterogéneo por medio del análisis factorial?
9. ¿Cuál de los tres métodos de rotación ortogonal existentes es el mejor?
10. ¿Cuáles son los requisitos que debe cumplir una solución factorial adecuada?
7.11.2 Respuestas
1. Las variables que se someten a análisis factorial, tienen que distribuirse en forma
normal en la población
2. Los reactivos que se incluyen en un análisis factorial deben ser de opción múltiple; de
preferencia de cinco opciones.
3. Los factores definidos responden a la pregunta sobre la posibilidad de reducción del
número de variables a un número menor; los inferiores responden a la pregunta que se refiere a la
estructura subyacente que determina las intercorrelaciones observadas entre los reactivos incluidos.
4. Los factores obtenidos se califican en cuanto a su bondad, empleando la siguiente
información: a) cantidad de varianza explicada por el factor (entre más grande, mejor); b) valor eigen
obtenido por el factor (siempre mayor que la unidad, y entre más grande, mejor), c) orden de
aparición: los que aparecen primero son mejores que los que aparecen después.
5. El método de rotación ortogonal se emplea cuando el investigador supone
independencia (no correlación entre los factores que va a obtener; el oblicuo supone dependencia (o
correlación) entre los factores que va a obtener.
6. Interpretar un factor significa darle un nombre. El nombre se le da en virtud de lo que
tienen en común las variables que cargan alto en ese factor.
7. El método alpha de extracción de factores tiene la ventaja de extraer factores que son
consistentes internamente. Es decir, los factores quedan constituidos por variables consistentes
entre sí; esto obvia la necesidad de determinar la confiabilidad de consistencia interna de los
factores obtenidos.
8. El tamaño mínimo que debe tener la muestra que se emplee para desarrollar
instrumentos por medio del método alpha de extracción de factores es de 5 sujetos por reactivo que
se incluya: idóneamente debería tener 10 sujetos por reactivo.
9. Ninguno de los tres métodos de rotación ortogonal existentes es mejor que otro. La
elección que hace el investigador de alguno de ellos, dependen de sus objetivos, y de la medida en
que desea se cumplan los requisitos que debe tener una solución factorial adecuada.
10. Los requisitos que debe cumplir una solución factorial adecuada son los siguientes: a)
desarrollo positivo (que la mayoría de las cargas tengan signo positivo; b) estructura simple (que las
variables que carguen alto en un factor, carguen bajo o cero en los demás)
VIII. CONFIABILIDAD DE LOS INSTRUMENTOS
En las ciencias sociales, así como en todas aquellas ciencias donde se utilicen instrumentos
para llevar a cabo mediciones, una de las preocupaciones más importantes que tienen los
científicos, es la de que sus instrumentos de medición sean confiables. En general, por confiabilidad
se entiende el hecho de poder "confiar" en que las mediciones realizadas sean correctas. Que las
magnitudes de aquellos aspectos medidos, sean de confiar. Es decir, que si se vuelve a medir esos
mismos aspectos, se obtendrán magnitudes, si no idénticas, por lo menos si semejantes. En otras
palabras: se dice que la confiabilidad de un instrumento se refleja en el que el mismo instrumento
empleado en dos o más ocasiones para medir los mismos atributos de los mismos objetos o
Sujetos, arroja magnitudes iguales.
La confiabilidad tiene que ver con el error de medición. Como ya se señaló al principio de
este texto, todos los instrumentos están acompañados de error; se establece que este error puede
ser de dos tipos: aleatorio y sistemático. Del aleatorio da cuenta la teoría del error de medición
presentado en el Capítulo III. El sistemático es el error que se tiene que determinar de manera
empírica. Es decir: se tiene que determinar en forma empírica, para cada instrumento de medición
que se elabore o emplee, la cantidad de error sistemático que éste contiene. La cantidad de error
que contenga no debe sobrepasar de cierta magnitud, para poder decir que el instrumento es
confiable. La mayoría de los investigadores han optado por aceptar como confiables, a los
instrumentos que tengan 15% o menos de error sistemático. En otras palabras, se dice que un
instrumento es confiable si su coeficiente arroja un valor de 0.85 o más. Un instrumento
perfectamente confiable tendría un coeficiente de confiabilidad de 1.00. En la práctica, esto nunca
es así, mucho menos en ciencias sociales.
Existen diferentes tipos de confiabilidad que dependen del tiempo en que se hacen las
mediciones, de los instrumentos que se emplean y del comportamiento interno de los mismos. A
continuación se presentan cada una de ellas, así como el procedimiento empírico que se efectúa
para calcularla: los procedimientos estadísticos que se emplean para determinar sus índices o
coeficientes.
Se dice que un instrumento tiene estabilidad temporal cuando al emplearlo en dos ocasiones
diferentes, con los mismos Sujetos, arroja resultados semejantes. Es decir, si se mide la inteligencia
a un grupo de individuos, por ejemplo hoy, y se les vuelve a medir mañana, se deberían obtener
resultados semejantes o muy parecidos. Si hoy un Sujeto tiene un coeficiente intelectual de 100,
mañana, al volverle a medir inteligencia empleando el mismo instrumento, debería obtener una
calificación muy semejante a la del día anterior. Si esto sucede, se dice que el instrumento tiene
estabilidad temporal.
Este tipo de confiabilidad es especialmente importante para aquellos instrumentos que miden
variables que sufren cambio en el tiempo, debido a una manipulación experimental o al desarrollo o
maduración del individuo. Por ejemplo, será importante para aquellos instrumentos que miden
actitudes, en programas de cambio actitudinal, donde se debe determinar que el cambio observado
en la actitud entre la pre y la post medición se debió a la manipulación experimental y no a que el
instrumento carece de estabilidad temporal. Es también importante cuando se mide una variable en
diferentes ocasiones, en las que se espera que esta se modifique como resultado del paso del
tiempo, y no que los cambios que se observen se deban a falta de confiabilidad del instrumento.
En los casos en que se debe medir una variable en dos ocasiones, pero se corre el riesgo de
que el Sujeto recuerde las respuestas de la primera ocasión y esto influya en las respuestas que de
en la segunda ocasión; o en aquellos casos en los que el responder en la primera ocasión puede
producir fatiga y ésta afectar las respuestas de la segunda, se requiere tener formas equivalentes
del instrumento. Es decir, dos instrumentos diferentes, pero que midan la misma variable. A estas
formas equivalentes se les llama pruebas paralelas. En el capítulo III, donde se presenta el Modelo
de las Pruebas Paralelas, se establecen las características estadísticas que éstos deben tener para
ser consideradas como tales.
Dicho de otra manera, con este tipo de confiabilidad se establece el grado o nivel de
consistencia interna de los reactivos que lo constituyen. Es decir, si se portan igual o no, en cuanto a
la forma en que varían, entre ellos mismos. La lógica subyacente señala que si se portan igual, unos
a otros, miden lo mismo, de la misma manera; o sea, que son consistentes entre sí
Cuando los instrumentos tienen reactivos, afirmaciones o preguntas que se contestan en una
de dos opciones de respuesta, y una de ellas tiene asignado un valor o peso de 0 y la otra de 1, la
consistencia interna de los mismos, se establecen por medio del coeficiente de Kudder-Richardson,
cuya fórmula se presenta a continuación:
dónde:
rkk = coeficiente de correlación entre reactivos
k = número de reactivos
Σpq = suma del producto de la proporción de Sujetos que contestó en la opción 1
por la proporción de sujetos que contestó en la opción 0, para todos los reactivos de la
prueba
Si la magnitud del coeficiente obtenido con la fórmula (K-R) no alcanza a ser de 0.85 o
mayor, se procede entonces a determinar los valores de las correlaciones existentes entre cada
reactivo y la calificación total de los reactivos. La razón de esto se debe a que alguno o algunos de
los reactivos no son consistentes entre sí, y esta es la causa por la que no se alcanzó el valor
deseado del coeficiente. Se debe encontrar ese o esos reactivos. A este procedimiento de
consistencia interna se le conoce como el análisis correlación item-test. El objetivo del mismo es el
de encontrar aquel o aquellos reactivos que no están correlacionando de manera semejante a la
mayoría, con la calificación total.
Una vez detectado(s) aquel(los) reactivo(s) que está(n) causando problema, se elimina(n) del
instrumento, y se vuelve a calcular el coeficiente de Kudder-Richardson. Lo más probable es que en
esta segunda ocasión, se encuentre un coeficiente de 0.85 o mayor.
Cuando los instrumentos tienen reactivos con tres o más opciones de respuesta, la
consistencia interna se calcula con el coeficiente alfa de Cronbach, que se presentó en el Capítulo
IV. Por esta razón no se le verá aquí.
Si el coeficiente obtenido con el alfa de Cronbach no adquiere una magnitud de 0.85 o más,
se deberá proceder a calcular las correlaciones reactivo-calificación total. Pero en este caso, se
deberá emplear el coeficiente de correlación Producto-Momento de Pearson. Una vez detectados el
o los reactivos que están causando el problema, se quitan de la prueba y se vuelve a calcular el alfa
de Cronbach.
En ocasiones, los reactivos problema son muy fáciles de detectar, ya que adquieren valores
de correlación marcadamente diferentes que la mayoría. Cuando este no es el caso, un
procedimiento conveniente de seguir, es el siguiente: compútese el valor promedio de las
correlaciones de todos los reactivos que constituyen el instrumento, prueba o escala; compútese la
desviación estándar de la distribución de correlaciones; elimínense los reactivos que tengan valores
de correlación reactivo-calificación total, que caigan por fuera de dos desviaciones estándar a la
derecha o a la izquierda de la media. Vuélvase a calcular el alfa de Cronbach. Si aún así no se
alcanza un valor adecuado, elimínense, si el número de reactivos lo permite, los valores de
correlación más allá de una desviación estándar a la derecha o izquierda de la media. Por lo
general, no será necesario llegar a este tercer paso. Casi siempre, se alcanzan coeficientes
adecuados, con la primera eliminación de reactivos problemáticos.
8.4 Autoevaluación
8.4.1 Preguntas
8.4.2 Respuestas
1. Confiabilidad significa medir sin errar; obtener en dos ocasiones que se aplica el
mismo instrumento al mismo sujeto, puntuaciones semejantes.
2. Para determinar la estabilidad temporal de un instrumento se sigue el procedimiento
de test-retest correlacionado el resultado de ambas aplicaciones. Para determinar la consistencia
interna, se pueden establecer las correlaciones entre la primera y la segunda parte; entre los
reactivos pares y los nones; entre los reactivos y las calificaciones totales, y emplear los coeficientes
de Kudder-Richardson y el de Alpha de Cronbach.
3. La confiabilidad de estabilidad temporal es adecuada para instrumentos que midan
variables que se espere se modifiquen con el transcurso del tiempo o con base en el efecto de una
intervención experimental; la confiabilidad de equivalencia de formas es la necesaria para hacer
evaluaciones de variables que se modifican en un diseño antes-después; la confiabilidad de
consistencia interna se debe calcular para aquellos instrumentos que se emplearán tan sólo una
vez, como por ejemplo en investigaciones de campo, con propósitos muy específicos. Si el objetivo
de la investigación o estudio es el de construir específicamente un instrumento, se deberán calcular
todas ellas.
IX. VALIDEZ DE LOS INSTRUMENTOS
Se dice que un instrumento es válido, cuando mide lo que pretende medir. Si se construyó
para medir inteligencia, y la mide, es válido; si se elaboró para medir actitudes, y las mide, es válido,
etc. Aunque su definición es absolutamente sencilla, alcanzarla es uno de los problemas más
difíciles. Así como existen diversos tipos de confiabilidad, también existen diferentes tipos de
validez. A continuación presentaremos cada uno, y la manera de determinarlos.
9.2.1 De Face
La llamada validez de face, es aquella que se dice tiene un instrumento que parece medir lo
que pretende. Por ejemplo: se dice que la prueba es de historia, por que tiene preguntas sobre
datos históricos; se dice que es de aritmética, por que tiene problemas aritméticos. Para ciertas
variables, esto es fácil y obvio de determinar. Pero para otras ya no. Sobre todo para variables como
las que estudian los científicos sociales.
9.2.2 De Contenido
Este acuerdo entre jueces puede ser de dos tipos: el que se obtiene por medio de juicios
dicotómicos, y el que se obtiene por medio de juicios graduados.
Es necesario señalar, sin embargo, que este tipo de validez no es el más adecuado, ni el más
recomendable. Suele ser necesario, pero no suficiente. Cuando se opta por el, se debe considerar
que en realidad es tan sólo un paso en el proceso de la elaboración del instrumento.
9.2.3 Concurrente
Un criterio externo con el cual se correlacionan los resultados obtenidos por los Sujetos en el
instrumento que se está tratando de validar puede ser de diferentes tipos: a) el juicio de expertos,
quienes valoran a los mismos individuos que respondieron al instrumento, en aquella variable que se
pretende medir; y b) otro instrumento, previamente validado, que mide la susodicha variable, que se
aplica a los mismos individuos que respondieron al instrumento que se está validando. En ambos
casos, se calculan las correlaciones de los puntajes obtenidos por los Sujetos de acuerdo a los
expertos o en el otro instrumento, y los que obtuvieron en el instrumento que se está sometiendo al
proceso de validación.
a) escogiendo de entre la muestra de construcción del instrumento al 25% de los Sujetos con
puntajes más altos y al otro 25% de Sujetos con los puntajes más bajos. Este procedimiento
corresponde al método de escalamiento de personas por medio de la técnica Likert (Véase el
Capítulo VI). Debe aclararse, que en este caso, lo que se compara por medio de la prueba t de
Student, es el promedio de las calificaciones totales obtenidas por los individuos que contestaron el
instrumento, y no los puntajes parciales de cada uno de los reactivos, como se hace en la técnica
Likert. Sin embargo, el razonamiento subyacente es el mismo: si el instrumento mide lo que se
pretende, éste debería ser respondido en forma diferente por un grupo que posee esa variable en
gran cantidad que por otro que la posee en menor magnitud.
b) escogiendo personas de grupos conocidos como poseedores de la variable en cantidad
mínima y máxima. Por ejemplo, si se está elaborando una escala de actitudes hacia el liberalismo,
se buscarán Sujetos pertenecientes a grupos liberales (partidos de izquierda) y a grupos
conservadores (partidos de derecha). Se espera, que al comparar las respuestas promedio de estos
dos grupos, se obtengan diferencias estadísticamente significativas.
En este caso, se aplica una prueba estadística adecuada, para valorar las diferencias entre
los grupos; ésta deberá arrojar resultados estadísticamente significativos, a una probabilidad igual o
menor a 0.05.
Este tipo de validez es especialmente pertinente para aquellos estudios cuyo principal
propósito es el de diagnóstico, ya sea a nivel individual o grupal.
9.2.4 Predictiva
La validez predictiva se refiere a la capacidad que tiene el instrumento para predecir al futuro.
Se requiere este tipo de validez, principalmente, cuando se pretende seleccionar personas, de
acuerdo a un criterio, o grupo de ellos, para ocupar o desempeñar, alguna actividad, ya sea laboral,
o educativa. Es decir, cuando se desea escoger a los individuos más aptos, o los más adecuados,
se mide una o más variables, y a partir de ella(s) se predice el desempeño de estos Sujetos en el
futuro. Este tipo de validez es primordial en los programas de selección de personal, y de alumnos,
por ejemplo.
Existen dos procedimientos (que en realidad son uno y el mismo) para determinar este tipo
de validez, que dependen del número de variables predictoras que se empleen. Si sólo se emplea
una (lo menos probable, ya que se sabe que el comportamiento es multicausal), se usa el
procedimiento de regresión simple; si se emplean muchas variables predictoras se emplea el
procedimiento de regresión múltiple (que es una extensión de la primera).
Un procedimiento común sería por ejemplo, el siguiente caso. Supóngase que se desea
predecir el rendimiento académico a partir del nivel intelectual. Esto significaría que el investigador
desea saber, a partir de las calificaciones obtenidas en una prueba de Inteligencia, la calidad o
magnitud del rendimiento académico de los Sujetos. Esta situación requiere que el instrumento que
mide inteligencia tenga validez predictiva. Para determinar la validez predictiva del instrumento, se
tendrían que seguir los siguientes pasos: 1º se aplica el instrumento que mide inteligencia a todos
los alumnos que se inscriben en el ciclo escolar x. 2º se espera a que los alumnos cursen el ciclo
escolar, y obtengan sus evaluaciones del rendimiento escolar (por lo general son las calificaciones
obtenidas en los cursos). 3º se promedian las calificaciones obtenidas. 4º se realiza un análisis de
regresión simple, con la variable promedio de calificaciones como dependiente y el puntaje en
inteligencia como independiente.
a) el coeficiente de determinación (R²): éste debe ser alto; de preferencia del 60% en
adelante. Este coeficiente indica la cantidad de varianza de las calificaciones que queda explicada
por la inteligencia. Es decir, la medida en que la inteligencia afecta, influye o está relacionado con
las calificaciones escolares.
b) error estándar de medición: éste debe ser pequeño: de preferencia menor a l.0. Este indica
la cantidad de error que existe en la predicción de las calificaciones tomando como predictor a la
inteligencia.
Si se obtiene todo lo señalado arriba, se dice que la confiabilidad del instrumento es igual al
coeficiente de determinación (R²). El valor adecuado de este coeficiente, deberá ser 0.80 o mayor.
Sin embargo, valores menores --siempre y cuando se cumpla con los demás criterios --b) a d)], son
adecuados.
El investigador tendría que medir estas variables cuando el alumno solicita ingresar a la
Universidad. Tendría que recolectar información respecto a la cantidad de tiempo que los alumnos
han abandonado la escuela (en términos del número de semestres, por ejemplo), y esperar a que se
cumpliera el ciclo escolar completo (el de la carrera). Una vez que sucediera esto, tendría todos los
datos necesarios para incluir en el análisis de regresión.
Los resultados le indicarían, en primer lugar, que tanto del fenómeno de deserción escolar
queda explicado por estas variables, considerando el valor del coeficiente de determinación (R²), y al
mismo tiempo la validez predictiva de las variables predictoras.
En segundo lugar, cuáles de las variables realmente son buenas predictoras del fenómeno, y
cuáles se pueden descartar. Con esta información, el investigador podría pedirle a los nuevos
aspirantes, que respondieran a los instrumentos que miden estas variables predictoras, y
dependiendo de los valores obtenidos por ellos, mediante la ecuación de regresión
correspondiente, podría predecir, con poco error, la probabilidad que los aspirantes tienen de
desertar.
9.2.5 De Construcción
En este caso se siguen los mismos pasos que los señalados para determinar la validez
concurrente por medio de grupos contrastados, presentada más arriba. Algunos autores como
Nunnally (1967), consideran que la validez concurrente de grupos contrastados es en realidad
validez de construcción, pues con ella se determina, si el instrumento es sensible al hecho de que
un grupo posee grandes cantidades del atributo que se está midiendo, mientras que el otro no. En
otras palabras, si el instrumento es respondido de manera diferencial por los dos grupos que
supuestamente son diferentes, el instrumento, al reflejar esa diferencia, está midiendo el constructo
que pretende medir. Otros autores, como Guilford (1954), Anastasi (), y Cronbach (), no consideran
a la validez concurrente por grupos contrastados como validez de construcción.
Para autores como Kerlinger (), la cantidad de varianza explicada acumulada por los factores
extraídos en el análisis factorial, es un indicador de la validez de construcción. En este caso, la
varianza explicada acumulada deberá alcanzar valores de 70% o más, para considerar que el
instrumento es adecuado desde el punto de vista de su validez de construcción. Debe recordarse
que la varianza explicada acumulada es en realidad la que corresponde a la varianza explicada de la
matriz reducida de la matriz de intercorrelaciones. Es por esta razón que se exige un porcentaje tan
alto para considerar válido al instrumento.
9.2.5.3.2 Validez Relevante
Autores como Guilford (1954), llaman validez relevante, al promedio de la raíz cuadrada de
las comunalidades de los reactivos que constituyen a un factor. Esto significa que se obtienen
valideces relevantes individuales para cada uno de los factores extraídos. Sin embargo, los valores
de estas valideces, también deberán alcanzar magnitudes de 0.75 y más.
El procedimiento para calcularlas es muy sencillo. Primero se determinan cuáles son los
reactivos que constituyen a cada factor. Se encuentra en el listado de resultados, la comunalidad
estimada después de la rotación, que corresponda a los reactivos de cada factor. Se le saca raíz
cuadrada a esta comunalidad, se suman todos los resultados, y se divide esta magnitud entre el
número de reactivos del factor. Esto constituye, la validez relevante del factor. También aquí se
exige que los datos alcancen magnitudes de 0.80 y mayores.
Por ejemplo, supóngase que se define a la Autoestima desde el punto de vista conceptual
como: la percepción que tiene una persona acerca de la bondad con la que ejecuta los roles
psicológicamente significativos para ella, así como la percepción que esta misma persona tiene de la
manera en que otros significativos perciben que ella ejecuta esos mismos roles. En otras
palabras, si el Sujeto es mujer, podría decirse que su autoestima está determinada por la forma en
que ella cree que ejecuta sus papeles de esposa, madre, hija, ama de casa y profesionista, así
como por la forma en que ella cree que personas importantes para ella (por ejemplo: el esposo, sus
padres, sus hijos, y sus jefes) piensan que ejecuta esos mismos papeles. La combinación pesada
de estas creencias, es la que determina la autoestima de la mujer. En otras palabras. de los roles o
papeles que ella desempeña, algunos son, para ella, más importantes; así como también, de las
personas importantes para ella, algunas lo son más que otras. La combinación de estas
percepciones, con sus relativas importancias, es la que determina la forma en que ella se
autoestime.
Los resultados de un análisis factorial deberán representar en forma adecuada a cada una de
las percepciones significativas para las mujeres, por ejemplo, así como sus importancias relativas.
En este ejemplo hipotético, donde se podría plantear la hipótesis de que para las mujeres adultas,
los papeles importantes de su vida son el ser madres, esposas y profesionistas, y los otros
significativos podrían ser el esposo, los hijos y los jefes, se esperaría que se encontraran seis
factores, cada uno de ellos correspondiendo a lo antes señalado. De la misma manera, si se
estableciera que el orden de importancia de los papeles es: madre, la percepción que de ella como
tal tienen sus hijos; esposa, la percepción que de ella como tal tiene el esposo, la profesión y la
percepción que de ella como profesionista tienen sus jefes, la importancia relativa de los factores
(cantidad de varianza explicada de cada uno de ellos) también debería quedar de manifiesto en los
resultados. Si sucede lo anterior, se dice que el instrumento tiene validez de construcción, de
acuerdo a su estructura factorial.
Cuando se opta por la determinación de la validez de construcción factorial, por lo general se
exige que se cubran los tres requisitos señalados arriba. Es decir, que tenga validez en cuanto a la
varianza explicada, en cuanto a la validez relevante, y en cuanto a la estructura factorial.
Por último, se pondrá un ejemplo de la validez factorial, empleando los resultados del ejemplo
presentado en el Capítulo VII.
Desde el punto de vista de la varianza explicada, se observa que el Factor 1 explica el 70.4%
de la varianza; el Factor 2, el 12.9% de la varianza; y el Factor 3, el 7.0%. De esta manera, la
varianza acumulada explicada por los tres factores es de 90.3%. Desde el punto de vista de la
varianza factorial explicada, el instrumento es válido, si se desea conservar a los tres factores. Si se
deseara conservar tan sólo al primero, aunque de manera no "pura", el instrumento también sería
válido desde este punto de vista, ya que la cantidad de varianza explicada por este único factor es
de 70.4%, que aunque no alcanza el valor de 75% acumulado, es definitivamente un factor
importante por la cantidad de varianza que explica.
Considérese que se opta por la opción de tomar a los tres primeros factores, eliminando del
primer factor aquellas variables que cargan con pesos altos en los otros dos. De esta manera, el
primer factor se referiría al sistema de enseñanza, y quedaría constituidos por las siguientes
variables: permite la aplicación del conocimiento a situaciones prácticas, es creativo, entretenido,
está sistematizado, permite retener el conocimiento, y es reforzante.
Comunalidades √
0.69836 0.8356793
0.60887 0.7803012
0.57609 0.8479325
0.62833 0.7926726
0.58843 0.7670071
0.72810 0.8532857
Σ = 4.9120094/6 = 0.8186682
La validez relevante del primer factor es de 0.8186682, (0.82) la cual es bastante adecuada.
Para el segundo factor, siguiendo los mismos procedimientos, la validez relevante es de 0.75;
mientras que para el tercer factor es de 0.76. En general, la validez relevante es adecuada y
aceptable.
Por lo que se refiere a la estructura factorial, se puede observar que se encontraron tres
factores, que representan en forma adecuada a los tres elementos del sistema de enseñanza -
aprendizaje que se pretendían evaluar: el sistema de enseñanza, el profesor, y el contenido del
programa. En este caso no se estableció cuál de los tres era más importante, por lo que no interesa
el orden de aparición de los factores. Entonces, desde el punto de vista de la estructura factorial, se
puede decir que el instrumento tiene validez de construcción.
Tomando en cuenta las tres maneras de establecer la validez de constructo del instrumento
de este ejemplo, se puede concluir que este instrumento es válido para evaluar al profesor, al
programa de una materia y al sistema de enseñanza seguido por el profesor.
9.4 Autoevaluación
9.4.1. Preguntas
9.4.2 Respuesta
Una vez terminados todos los cálculos necesarios para establecer las características
psicométricas y los procedimientos de calificación e interpretación de las calificaciones del
instrumento, se procede a reportarlo, a ponerlo a la disposición de la comunidad científica, para que
ésta pueda utilizarlo.
El manual del instrumento es el documento que incluye toda la información importante que se
requiere para la correcta utilización de un instrumento de medición. La información se presenta de
manera ordenada, para facilitar su consulta. A continuación se propone la organización de la
información que debe contener un manual de este tipo.
10.1.1 Introducción
Es decir, un investigador puede recorrer uno de los siguientes tres caminos, con objeto de
definir conceptualmente, la variable o constructo que pretende medir. Primero, puede tomar como
punto de partida una teoría que satisfaga sus exigencias conceptuales. Por ejemplo, la teoría
multidimensional de la inteligencia de Guilford (). Segundo, pudo haber recurrido a dos o tres
posturas teóricas, por pensar que ninguna de ellas por sí sola era suficiente, y considerar que era
más enriquecedor emplear dos o más de ellas. Por ejemplo, para medir autoestima pudo haberse
basado en la teoría actitudinal de Coopersmith ( ) y la de los roles de Rokeach ( ). Tercero,
pudo haber partido de lo que la población a la que se iba a medir, entendía por el concepto o
variable. En este caso se le pregunta, en forma abierta, a una pequeña muestra de la población
para la cual se elaborará el instrumento, qué es lo que ella entiende por el concepto o variable. Por
ejemplo, si se desea medir autoconcepto, se le puede preguntar a una pequeña muestra de Sujetos,
que indiquen de qué manera se describirían a ellos mismos. En seguida se llevaría a cabo un
análisis de contenido de la información así recabada, para determinar la existencia de una o varias
dimensiones, y a partir de ellas, iniciar la elaboración de los reactivos que mejor representaran a
esas dimensiones.
Como el procedimiento empleado por el autor del instrumento pudo haber sido cualquiera de
los señalados arriba, es conveniente que se indique, en la introducción, cuál de ellos se siguió, y las
razones que lo guiaron a hacerlo así y no de otra manera. Es decir, en la Introducción, habrá de
señalarse el marco conceptual que haya guiado al autor, así como la fundamentación razonada del
por qué de su elección, y del por qué de la eliminación de cualquier otra posible aproximación, si es
que existe.
En otras palabras, en esta sección, se fundamenta y se discute teóricamente, la adopción del
marco de referencia que guió al investigador en el proceso de construcción del instrumento que está
presentando.
10.1.2.1 Confiabilidad
El autor del instrumento señala cuál o cuáles de los tipos de confiabilidad se le determinaron
al instrumento, así como las razones que las justificaron. Se reportan entonces, los coeficientes de
confiabilidad obtenidos, así como sus probabilidades asociadas. Si en el proceso de obtención de la
confiabilidad se tuvieron que eliminar reactivos, se señalan cuántos y cuáles, así como las razones
que llevaron a su eliminación. Se indican aquí también, las principales características de las
muestras que se emplearon para determinar las confiabilidades, así como sus tamaños, y la forma
en que fueron extraídas de la población.
10.1.2.2 Validez
10.1.3 Estandarización
El proceso de estandarización se refiere a los pasos seguidos para desarrollar las normas de
calificación del instrumento, una vez que se han determinado su confiabilidad y validez. Estas
normas de calificación o baremos son las tablas que permiten transformar los puntajes crudos en
estandarizados, así como interpretar, darle significado cualitativo en términos del marco de
referencia conceptual, a los puntajes obtenidos por los Sujetos a los que se les aplique el
instrumento. Esta sección consta de dos subsecciones, que se presentan a continuación.
En este apartado, se deberán describir, de la manera más amplia y cuidadosa que se pueda,
las características de las muestras que se emplearon para determinar las normas de calificación o
baremos. Así mismo, deben señalarse los tamaños de las muestras, y los procedimientos que se
sugirieron para su extracción. Esta información es sumamente importante para el futuro usuario del
instrumento. Con ella podrá decidir si el instrumento se adecua a las características de la población
que desea estudiar o investigar. Por ejemplo, si el instrumento es uno que mide actitudes hacia el
supervisor, y fue desarrollado con una muestra de obreros automotrices, y el investigador lo desea
emplear para jornaleros agrícolas, es probable que no sea el más adecuado, ya que pueden existir
características fundamentalmente diferentes entre estos dos tipos de trabajadores. Otro ejemplo
sería el caso de una escala de autoestima desarrollada para niños, la cual difícilmente se podría
emplear para adultos.
En otras palabras, la información contenida en este apartado le permite al investigador
decidir, si el instrumento es el adecuado para sus propósitos de investigación, y así evitar cometer el
error de emplearlo de manera indiscriminada; su empleo indiscriminado, puede atentar contra la
confiabilidad y la validez del instrumento. Así mismo, el empleo de un instrumento inadecuado, no
permite al investigador obtener una interpretación fidedigna ni correcta de los puntajes obtenidos por
los Sujetos estudiados por él.
La calificación que obtienen los Sujetos se refiere a la media o mediana de los valores
escalares de las afirmaciones escogidas por ellos; en el capítulo V se presenta de manera detallada,
el procedimiento de calificación. Se recordará también, que en el caso de estos métodos, se tiene
un continuo psicológico que permite hacer una interpretación cualitativa de los resultados obtenidos
por los respondientes (véase el Capítulo V).
Cuando se seleccionó el método del análisis factorial para la elaboración del instrumento, el
instrumento final estará constituido por factores, y cada uno de ellos por un conjunto dado de
reactivos. Estos conjuntos de reactivos se habrán de calificar de manera que se obtengan puntajes
factoriales para los Sujetos que los respondan.
Para obtener puntajes factoriales se recurre a la Matriz de Puntajes Factoriales, que deberá
presentarse en forma simplificada en el manual. Por forma simplificada se quiere decir que sólo se
presentan los coeficientes factoriales de los reactivos que constituyen a cada factor ,así como las
medias y desviaciones estándar de cada reactivo. En el manual también habrá de indicarse la
manera de obtener las calificaciones factoriales. El procedimiento que se sigue es el de transformar
los puntajes crudos obtenidos por los Sujetos, en puntajes z, y multiplicarlos por los coeficientes
factoriales que les correspondan, llevando a cabo una suma algebraica de estos productos, a lo
largo de todos los reactivos de cada factor. Las calificaciones así obtenidas, están en unidades z, y
corresponden entonces a una escala intervalar, con una media de 0, y una desviación estándar de
1. Si el puntaje factorial es positivo, significa que el individuo tiene más del factor; si el puntaje es
negativo, tiene menos del factor.
10.1.3.2.3 Baremos
Se conoce como Baremos a las tablas que acompañan a los instrumentos, con objeto de
transformar los puntajes '"crudos" a otro tipo de puntaje, que al mismo tiempo que señala la
magnitud de la posesión del atributo por el Sujeto, permite interpretar esa magnitud al respecto de la
población en general.
Existen diferentes tipos de transformaciones que se han empleado para elaborar estas tablas
o baremos. A continuación se presentan algunos ejemplos de las más conocidas y utilizadas.
También se explica la manera de construirlas y de utilizarlas.
10.1.3.2.3.1 Stens
Los stens son transformaciones que se hacen de los puntajes "crudos" a diez intervalos de
unidades de desviación estándar, y de allí su nombre. El procedimiento para construir la tabla
correspondiente es el siguiente. Se calcula la media del grupo para la variable en cuestión; se
calcula la desviación estándar; las dos primeras desviaciones a la derecha y a la izquierda, se
dividen en dos, y se deja a las terceras desviaciones, a la derecha y la izquierda, como estaban al
inicio.
-3σ a -2σ 1
-2σ a -1.5σ 2
-1.5σ a -1σ 3
-1σ a -0.5σ 4
-0.5σ a 0.00 5
0.00 a +0.5σ 6
+0.5σ a +1σ 7
+1σ a +1.5σ 8
+1.5σ a +2σ 9
+2σ a +3σ 10
10.1.3.2.3.2 Puntajes T
10.1.3.2.3.3. Puntajes Z
10.1.4. Aplicación
En otras palabras, en esta sección se incluyen las instrucciones estandarizadas que habrán
de emplearse en la aplicación, así como indicaciones de la forma de aplicación: individual o
colectiva.
En este apartado se deben señalar las limitaciones que tiene el instrumento. Por ejemplo:
sólo se puede emplear con personas alfabetas; sólo se puede aplicar en forma individual; etc.
En esta sección también pueden hacerse sugerencias respecto al uso del instrumento, ya
sea en cuanto al tipo de muestras para las que es adecuado, o en cuanto al tipo de variables que
valdría la pena relacionar con la que mide el instrumento desarrollado por el autor.
También es conveniente reseñar en esta sección, los usos y resultados que se han obtenido
con el instrumento, invitando a los futuros usuarios, a hacerle llegar al autor de la prueba, los
resultados del uso de la misma, en investigaciones posteriores. En virtud de lo anterior, se
recomienda al autor del instrumento, indique con toda claridad la institución de afiliación, así como
su dirección o manera de establecer contacto con él.
REFERENCIAS
• Biddle, B.J. y Thomas, E.J. (Eds.) (1966). Role Theory: Concepts and Research. Nueva York:
Wiley.
• Cronbach, L.J. (1951). Coefficient Alpha and the internal structure of tests. Psychometrika, 16,
297-334.
• Cronbach, L.J. (1960). Essentials of Psychological Testing. Nueva York: Harper and Row.
• Downie, N.M. y Heath, R.W. (1971). Métodos Estadísticos Aplicados. Nueva York: Harper and
Row.
• Guilford, J.P. (1976). The Nature of Human Intelligence. Nueva York: McGraw Hill.
• Gulliksen, H.(1950). Theory of Mental Tests. Nueva York: John Wiley and Son.
• Guttman, L. (1944). A basis for scaling qualitative data. American Sociological Review,9,
139-150.
• Harman, H.H. (1976). Modern Factor Analysis. Chicago: The University of Chicago Press.
• Nunnally,J. (1967). Psychometric Theory. Nueva York: McGraw Hill Book Company.
• Stevens, S.S, (1951). Mathematics, Measurement and Psychophysics En: S.S.Stevens (Ed.):
Handbook of Experimental Psychology. Nueva York: Wiley.
• Thurstone, L.L. (1927b). A law of categorical judgement. Psychological Review, 34, 287-293.
• Thurstone, L.L. y Chave, E.J. (1929). The Measurement of Attitude. Chicago: University of
Chicago Press.
• Torgerson, W.S. (1967). Theory and Methods of Scaling. Nueva York: John Wiley and Sons,
Inc. Vite San Pedro.