Está en la página 1de 8

Medición y escalamiento: técnicas no comparativas de escalamiento

TÉCNICAS NO COMPARATIVAS DE ESCALAMIENTO

Los encuestados que usan una escala no comparativa emplean cualquier estándar de
clasificación que les parezca más apropiado. No comparan el objeto que deben calificar con
otro objeto ni con algún estándar especificado, como su marca ideal. Sólo evalúan un objeto a
la vez, por lo que las escalas no comparativas se conocen también como escalas monódicas. Las
técnicas no comparativas constan de las escalas de clasificación continua y por ítem, las cuales
analizaremos en los siguientes apartados.

Escala de clasificación continua

En una escala de clasificación continua, conocida también como escala de clasificación gráfica,
los encuestados califican los objetos poniendo una marca en la posición apropiada sobre una
línea que corre de un extremo al otro de la variable criterio. De esta forma, los encuestados no
se limitan a seleccionar entre las marcas previamente establecidas por el investigador. La forma
de una escala continua puede variar considerablemente. Por ejemplo, la línea puede ser
vertical u horizontal, los puntos de la escala pueden aparecer en forma de números o
descripciones breves y, en tal caso, los puntos de la escala pueden ser muchos o pocos.

Una vez que el encuestado ha otorgado las calificaciones, el investigador divide la línea en
tantas categorías como desee y asigna las puntuaciones con base en las categorías en las que
cae la clasificación. Esas puntuaciones por lo regular se tratan como datos de intervalo. La
ventaja de las escalas continuas es que son fáciles de construir. Sin embargo, su clasificación es
engorrosa y poco confiable; además, las escalas continuas ofrecen poca información nueva. Por
eso, su uso en investigación de mercados es restringido. Sin embargo, en los últimos tiempos
se está utilizando con mayor frecuencia en virtud del incremento en el número de entrevistas
personales asistidas por computadora y gracias al uso de otras tecnologías.

ESCALAS DE CLASIFICACIÓN POR ÍTEM

En una escala de clasificación por ítem se presenta a los encuestados una escala que asocia un
número o una breve descripción con cada categoría. Las categorías se ordenan en términos de
la posición de la escala y se pide a los encuestados que seleccionen la categoría específica que
describa mejor al objeto que se está evaluando. Las escalas de clasificación por ítem se utilizan
mucho en la investigación de mercados y son los componentes básicos de escalas más
complicadas, como la escala de clasificación por reactivos múltiples. Se describirán primero las
escalas de clasificación por ítem de uso más frecuente (las escalas de Likert, de diferencial
semántico y de Stapel).

Escala de Likert

La escala de Likert es una escala de clasificación de uso muy difundido que requiere que los
encuestados indiquen el grado de acuerdo o desacuerdo con cada una de las afirmaciones de
una serie acerca del objeto estímulo. Por lo general, cada reactivo tiene cinco categorías de
respuestas, que van de “totalmente en desacuerdo” a “totalmente de acuerdo”.

La escala de Likert tiene varias ventajas. Es fácil de construir y de aplicar. A los encuestados les
resulta sencillo entender su uso, lo que la hace adecuada para aplicarse por correo, por
teléfono o en entrevistas personales. La principal desventaja de la escala de Likert es que
requiere más tiempo para completarse que otras escalas de clasificación por ítem, porque los
encuestados tienen que leer cada afirmación.

Escala de diferencial semántico

El diferencial semántico es una escala de clasificación de 7 puntos cuyos extremos están


asociados con etiquetas bipolares que tienen carácter semántico. En una aplicación típica, los
encuestados evalúan objetos sobre una serie de escalas de clasificación por ítem de 7 puntos
vinculadas en cada extremo a uno de dos adjetivos bipolares, como “frío” y “caliente”.

La versatilidad del diferencial semántico lo hace de gran aceptación en la investigación de


mercados. Se utiliza mucho en la comparación de marcas, productos e imagen de las
compañías. También se utiliza para desarrollar estrategias de publicidad y promoción, así como
en estudios de desarrollo de nuevos productos.

Escala de Stapel

La escala de Stapel, es una escala de clasificación unipolar con 10 categorías numeradas del sin
un punto neutral .Esta escala por lo general se presenta de manera vertical. Se pide a los
encuestados que indiquen qué tan precisa o imprecisa es la descripción que hace cada término
del objeto, seleccionando una respuesta numérica apropiada para la categoría. Cuanto mayor
sea el número, más precisa es la descripción que hace el término del objeto.

Los datos obtenidos con una escala de Stapel pueden analizarse de la misma forma que los
datos del diferencial semántico, ya que ambas producen resultados similares. La escala de
Stapel tiene las ventajas de que no requiere una prueba previa de los adjetivos o frases para
asegurar su bipolaridad y de que puede aplicarse por teléfono. Sin embargo, algunos
investigadores creen que es confusa y difícil de aplicar. Aunque la escala de Stapel es la que
menos se utiliza de las tres escalas de clasificación por ítem que se consideraron, merece más
atención de la que se le ha dado.

DECISIONES SOBRE ESCALAS NO COMPARATIVAS DE CLASIFICACIÓN POR ÍTEM

Como indica la revisión hecha hasta ahora, las escalas no comparativas de clasificación por
ítem no tienen que usarse tal como se propuso originalmente, sino que pueden adoptar
diversas formas. El investigador debe tomar seis decisiones importantes al elaborar cualquiera
de estas escalas en relación con los siguientes factores:

1. El número de categorías que se usará en la escala.

2. Escala balanceada o no balanceada.

3. Número par o non de categorías.

4. Elección forzada o no forzada.

5. La naturaleza y el grado de la descripción verbal.

6. La forma física de la escala.

Número de categorías de la escala

La decisión sobre el número de categorías de la escala implica dos consideraciones


fundamentales. Cuanto mayor sea el número de categorías, más fina será la discriminación
entre los objetos estímulo. Por otro lado, la mayoría de los encuestados no pueden manejar
más de unas cuantas categorías. Las directrices tradicionales sugieren que el número
apropiado de categorías debe ser de siete más o menos dos, es decir, entre cinco y nueve. Sin
embargo, no hay un número óptimo de categorías.

Si los encuestados están interesados en la tarea de escalamiento y conocen los objetos, puede
emplearse un mayor número de categorías. Por otro lado, si los encuestados no conocen bien
la tarea o no están familiarizados con ella, el número de categorías debe ser menor. También es
relevante la naturaleza de los objetos. Algunos objetos no se prestan a una discriminación fina,
por lo que un menor número de categorías es suficiente. Otro factor importante es el modo de
recolección de datos. Si se usan entrevistas telefónicas, muchas categorías podrían confundir a
los encuestados. De igual forma, las limitaciones de espacio restringen el número de categorías
en los cuestionarios enviados por correo.

Escalas balanceadas frente a no balanceadas

En una escala balanceada, el número de categorías favorables y desfavorables es igual; en una


escala no balanceada es diferente. En general, la escala debe ser balanceada para obtener
datos objetivos. Sin embargo, cuando es probable que exista un sesgo (positivo o negativo) en
la distribución de las respuestas, podría ser más conveniente usar una escala no balanceada
con más categorías en dirección al sesgo. Si se usa una escala no balanceada, en el análisis de
los datos debe tenerse en consideración la naturaleza y el grado de desequilibrio.

Número par o non de categorías

Con un número non de categorías, el punto central de la escala por lo general se designa como
neutral o imparcial. La presencia, posición o etiquetamiento de una categoría neutral puede
tener una influencia significativa en la respuesta. La escala de Likert es una escala de
clasificación balanceada con un número non de categorías y un punto neutral. La decisión de
usar un número par o non de categorías depende de si algunos de los encuestados pueden ser
neutrales respecto a la respuesta medida. Si hay la posibilidad de que al menos algunos
encuestados den una respuesta neutral o indiferente, debe usarse un número non de
categorías.

Escalas forzadas frente a las no forzadas

En las escalas de clasificación forzada, los encuestados son obligados a expresar una opinión
porque no se les da la opción de “sin opinión”. En tal caso, los encuestados que no tienen
opinión pueden marcar la posición central de la escala. Si una proporción suficiente de los
encuestados no tienen opinión sobre el tema, marcar la posición central podría distorsionar las
medidas de tendencia central y la varianza. En situaciones donde se espera que los
encuestados no tengan opinión, en vez de estar simplemente renuentes a revelarla, una escala
no forzada que incluya una categoría de “sin opinión” mejora la precisión de los datos.

Naturaleza y grado de las descripciones verbales

La naturaleza y el grado de la descripción verbal asociada con las categorías de la escala varían
considerablemente y tienen efecto en las respuestas. Las categorías de la escala pueden tener
descripciones verbales, numéricas y hasta pictóricas. Además, el investigador debe decidir si
etiqueta todas, algunas o sólo las categorías extremas de la escala. De manera sorprendente,
ofrecer descripciones verbales para cada categoría no siempre incrementa la precisión o
confiabilidad de los datos. Sin embargo, etiquetar todas o muchas de las categorías permite
reducir la ambigüedad de la escala. Las descripciones de las categorías deben localizarse tan
cerca como sea posible de las categorías de respuesta.

Forma física o configuración

Se dispone de diversas opciones con respecto a la forma o configuración de la escala. Las


escalas se pueden presentar de manera horizontal o vertical. Las categorías pueden expresarse
en cajas, líneas discretas o unidades sobre un continuo, y pueden o no tener números
asignados. Si se usan valores numéricos, pueden ser positivos, negativos o ambos.

La escala del termómetro y la de la cara sonriente son dos configuraciones únicas de las escalas
de clasificación que se utilizan en la investigación de mercados. En la escala del termómetro,
cuanto más alta sea la temperatura, más favorable es la evaluación. De igual forma, las caras
felices indican evaluaciones más favorables.

ESCALAS DE REACTIVOS MÚLTIPLES

El desarrollo de las escalas de clasificación de reactivos múltiples requiere de considerable


experiencia técnica. Suele llamarse constructo a la característica que será medida. El desarrollo
de la escala comienza con una teoría subyacente del constructo que se quiere medir. La teoría
es necesaria no sólo para la elaboración de la escala, sino también para interpretar las
puntuaciones resultantes. El siguiente paso es generar un conjunto de reactivos para la escala.
Por lo regular, esto se basa en la teoría, el análisis de los datos secundarios y en la investigación
cualitativa. A partir de este conjunto se genera un conjunto reducido de reactivos potenciales
de acuerdo con el criterio del investigador y de otros expertos, quienes adoptan algunos
criterios cualitativos para ayudarse en su juicio. El grupo reducido de reactivos todavía es
demasiado grande para constituir una escala, por lo que se hace otra reducción de manera
cuantitativa.

Mediante un pretest aplicado a una muestra grande de encuestados se obtienen los datos
sobre el conjunto reducido de reactivos potenciales. Los datos son analizados usando técnicas
como correlaciones, análisis factorial, análisis de conglomerados, análisis discriminante y otras
pruebas estadísticas.

EVALUACIÓN DE LA ESCALA

Es necesario evaluar la exactitud y aplicabilidad de una escala de reactivos múltiples. Esto


supone valorar la confiabilidad, validez y capacidad de generalización de la escala. Los métodos
para evaluar la confiabilidad incluyen la confiabilidad test-retest, la confiabilidad de formas
alternativas y la confiabilidad de consistencia interna. La validez se evalúa examinando la
validez de contenido, validez de criterio y validez del constructo.

Antes de examinar la confiabilidad y la validez, es necesario entender la exactitud de la


medición, porque ello es fundamental para la evaluación de la escala.

Exactitud de la medición

Una medición es un número que refleja alguna característica de un objeto. La medición no es el


valor real de la característica de interés, sino una observación de la misma. Diversos factores
pueden provocar un error de medición que haga que la medición o puntuación observada sea
diferente de la verdadera puntuación de la característica que se mide.
El error sistemático afecta la medición de una manera constante. Representa factores estables
que afectan la clasificación observada de la misma manera cada vez que se hace la medición,
como los factores mecánicos. Por otro lado, el error aleatorio no es constante. Representa
factores transitorios que afectan de diferentes maneras la clasificación observada cada vez que
se hace la medición, como los factores personales o situacionales transitorios. La distinción
entre error sistemático y aleatorio es crucial para la comprensión de la confiabilidad y validez.

Confiabilidad

La confiabilidad se refiere al grado en que la escala produce resultados consistentes si se hacen


mediciones repetidas. Las fuentes sistemáticas de error no tienen un efecto adverso en la
confiabilidad, porque afectan la medición de una manera constante y no producen
inconsistencia. En contraste, el error aleatorio genera inconsistencia, lo que da lugar a una
menor confiabilidad.

La confiabilidad se evalúa determinando la proporción de la variación sistemática en la escala.


Esto se hace al establecer la asociación entre las puntuaciones obtenidas a partir de diferentes
aplicaciones de la escala. Si la asociación es alta, la escala arroja resultados consistentes y, por
lo tanto, es confiable. Los enfoques para evaluar la confiabilidad incluyen los métodos de test-
retest, formas alternativas y consistencia interna.

Confiabilidad test-retest

En la confiabilidad test-retest se aplican conjuntos idénticos de reactivos a los encuestados en


dos momentos diferentes en condiciones tan equivalentes como sea posible. El intervalo entre
las pruebas o las aplicaciones suele ser de dos a cuatro semanas. Para determinar el grado de
similitud entre las dos mediciones se calcula un coeficiente de correlación. Cuanto más alto sea
el coeficiente de correlación, mayor será la confiabilidad.

Hay muchos problemas asociados con el método de test-retest para determinar la


confiabilidad. Primero, es sensible al intervalo entre las pruebas. Si las demás condiciones
permanecen iguales, cuanto mayor sea el intervalo, menor será la confiabilidad. Segundo, la
medición inicial podría alterar la característica medida. Tercero, quizá resulte imposible hacer
mediciones repetidas (por ejemplo, cuando el objetivo de la investigación es indagar la
reacción inicial del encuestado hacia un producto nuevo). Cuarto, la primera medición puede
tener un efecto de arrastre en las mediciones posteriores, como cuando los encuestados tratan
de recordar las respuestas que dieron la primera ocasión. Quinto, es posible que la
característica medida cambie entre las mediciones.

Confiabilidad de formas alternativas.

En la confiabilidad de formas alternativas se construyen dos formas equivalentes de la escala.


Se mide a los mismos encuestados en dos momentos distintos, por lo regular con dos o cuatro
semanas de distancia, y en cada ocasión se aplica una forma diferente de la escala. Para
evaluar la confiabilidad se correlacionan las puntuaciones obtenidas al aplicar las formas
alternativas de la escala. Este enfoque tiene dos problemas importantes. Primero, elaborar una
forma equivalente de la escala consume tiempo y dinero. Segundo, es difícil construir dos
formas equivalentes de una escala. Las dos formas deben ser equivalentes con respecto al
contenido.
Confiabilidad de consistencia interna.

La confiabilidad de consistencia interna se emplea para evaluar la confiabilidad de una escala


en la cual se suman varios reactivos para obtener una clasificación total. En una escala de este
tipo, cada reactivo mide algún aspecto del constructo medido por la escala completa, y los
reactivos deben ser consistentes en lo que indican acerca de la característica. Esta medida de
confiabilidad se enfoca en la consistencia interna del grupo de reactivos que componen la
escala. La forma más sencilla de medir la consistencia interna es la confiabilidad de división por
mitades. Los reactivos de la escala se dividen en dos mitades y se correlacionan las
puntuaciones resultantes de cada mitad. Una alta correlación entre las mitades indica una alta
consistencia interna. Los reactivos de la escala pueden dividirse en mitades con base en la
numeración par o non de los reactivos, o bien, de manera aleatoria. El problema es que los
resultados dependerán de cómo se dividan los reactivos de la escala. Para solucionar este
problema suele emplearse el coeficiente alfa.

El coeficiente alfa, o alfa de Cronbach, es el promedio de todos los coeficientes posibles de


división por mitades que resultan de las diferentes maneras de dividir los reactivos de la escala.
Este coeficiente varía entre 0 y 1, y un valor igual o menor a 0.6 por lo general indica una
confiabilidad no satisfactoria de consistencia interna. Una propiedad importante del coeficiente
alfa es que su valor tiende a aumentar con el incremento del número de reactivos de la escala.
Por lo tanto, el coeficiente alfa puede resultar inflado artificial e inadecuadamente por la
inclusión de varios reactivos redundantes en la escala.

Validez

La validez de una escala se define como el grado en que las diferencias en las puntuaciones
obtenidas con la escala reflejan diferencias verdaderas entre los objetos en la característica
medida, en lugar del error sistemático o aleatorio. La validez perfecta requiere que no haya
error de medición. Los investigadores pueden evaluar la validez del contenido, la validez del
criterio o la validez del constructo.

Validez del contenido.

La validez del contenido, que en ocasiones se conoce como validez aparente, es una evaluación
subjetiva pero sistemática de qué tan bien representa el contenido de la escala la tarea de
medición en cuestión. El investigador o alguien más examina si los reactivos de la escala cubren
adecuadamente todo el dominio del constructo que se está midiendo. Así, una escala diseñada
para medir la imagen de una tienda se consideraría inadecuada si omite cualquiera de las
dimensiones principales (como calidad, variedad y surtido de la mercancía).

Validez del criterio.

La validez del criterio refleja si una escala se comporta como se esperaba en relación con otras
variables seleccionadas como criterios significativos (variables de criterio). Las variables de
criterio pueden incluir características demográficas y psicográficas, medidas actitudinales y
conductuales, o puntuaciones obtenidas a partir de otras escalas. Según el periodo implicado,
la validez del criterio adopta una de dos formas: validez concurrente y predictiva.

Validez del constructo.


La validez del constructo se refiere a la cuestión de qué constructo o característica mide la
escala. Al evaluar la validez del constructo, el investigador intenta responder preguntas teóricas
acerca de por qué funciona la escala y qué deducciones pueden hacerse en relación con la
teoría subyacente. Por lo tanto, la validez del constructo requiere de una teoría sólida de la
naturaleza del constructo medido y de cómo se relaciona con otros constructos. La validez del
constructo es el tipo de validez más complejo y difícil de establecer.

La validez convergente es el grado en que la escala se correlaciona positivamente con otras


medidas del mismo constructo. No es necesario obtener todas esas medidas usando las
técnicas convencionales de escalamiento. La validez discriminante es el grado en que una
medida no se correlaciona con otros constructos de los que se supone debe diferir. Implica la
demostración de la falta de correlación entre los diferentes constructos. La validez nomológica
es el grado en que la escala se correlaciona del modo pronosticado por la teoría con medidas
de constructos diferentes, pero relacionados.

Capacidad de generalización

La capacidad de generalización se refiere al grado en que las observaciones con que se cuenta
son aplicables a un universo. El conjunto de todas las condiciones de medición sobre las cuales
el investigador desea generalizar constituye el universo de generalización. Estas condiciones
incluyen reactivos, entrevistadores, situaciones de observación, etcétera. Un investigador quizá
desee generalizar una escala desarrollada para usarse en entrevistas personales a otros modos
de recolección de datos, como las entrevistas telefónicas o por correo. Asimismo, tal vez
alguien quiera generalizar de una muestra de reactivos al universo de reactivos, de la muestra
de momentos de medición al universo de momentos de medición, de una muestra de
observadores a un universo de observadores y así sucesivamente.

En estudios sobre la capacidad de generalización, se diseñan los procedimientos de medición


para investigar los universos de interés mediante el muestreo de condiciones de medición de
cada uno de ellos. Para cada universo de interés, se incluye en el estudio un aspecto de la
medición llamado faceta. Los métodos tradicionales de confiabilidad se consideran como
estudios de una sola faceta de la capacidad de generalización.

ELECCIÓN DE UNA TÉCNICA DE ESCALAMIENTO

Además de las consideraciones teóricas y de evaluar la confiabilidad y la validez, deben


considerarse ciertos factores prácticos al seleccionar las técnicas de escalamiento para un
determinado problema de investigación de mercados. Tales factores incluyen el nivel de
información deseado (nominal, ordinal, de intervalo o de razón), las habilidades de los
encuestados, las características de los objetos de estímulo, el método de aplicación, el contexto
y el costo.

Como regla general, el uso de la técnica de escalamiento que produzca el más alto nivel de
información posible en una situación dada permitirá el uso de la mayor variedad de análisis
estadísticos. Además, sin importar el tipo de escala usada, siempre que sea posible, la
característica de interés debe medirse mediante una escala con varios reactivos.

ESCALAS DERIVADAS MATEMÁTICAMENTE

Todas las técnicas de escalamiento analizadas en este capítulo requieren que los encuestados
hagan una evaluación directa de varias características de los objetos estímulo. En contraste, las
técnicas matemáticas de escalamiento permiten a los investigadores inferir las evaluaciones
que hacen los encuestados de las características de los objetos estímulo. Estas evaluaciones se
infieren de los juicios generales de los encuestados sobre los objetos. Entre las técnicas de
escalamiento derivadas matemáticamente destacan el escalamiento multidimensional y el
análisis conjunto.

LA ÉTICA EN LA INVESTIGACIÓN DE MERCADOS

El investigador tiene la responsabilidad ética de usar escalas cuya confiabilidad, validez y


capacidad de generalización sean razonables. Los hallazgos generados por escalas que no son
confiables, válidas o generalizables a la población meta, en el mejor de los casos, son
cuestionables y pueden dar lugar a serios problemas éticos. Además, el investigador no debe
sesgar las escalas para inclinar los hallazgos en una dirección particular. Esto es fácil de hacer
sesgando la redacción de los enunciados (escalas tipo Likert), los descriptores u otros aspectos
de la escala. Considere el uso de los descriptores de la escala. Los descriptores usados para
enmarcar una escala pueden elegirse para inclinar los resultados en una dirección deseada, por
ejemplo, generando una visión positiva de la marca del cliente o una visión negativa de la
marca de los competidores. Para proyectar favorablemente la marca del cliente, se pide a los
encuestados que den su opinión de la marca en varios atributos usando escalas de 7 puntos
ancladas en los descriptores “extremadamente mala” a “buena”. En ese caso, los encuestados
se muestran renuentes a calificar al producto como extremadamente malo.

También podría gustarte