Está en la página 1de 42

MEDICIÓN Y ESCALAS

DR. FERNANDO RENE ROSAS VILLENA


OBJETIVOS
Objetivo general:

Conocer las bases teóricas de medición y sus dos grandes problemas: confiabilidad y validez.
Conocer las bases teorías de escalas de medida

Objetivos específicos:

• Concepto de medición
• Teoría básica de la medición
• Requisitos que debe tener un instrumento de medición
• Métodos prácticos para estimar la confiabilidad
• Métodos prácticos para estimar la validez
• Escalas de medición
• Técnicas de escalas de medición
MEDICIÓN

Medición significa asignar números u otros símbolos a las características


de los objetos de acuerdo con ciertas reglas especificadas previamente.

No se mide al objeto sino a sus características

No se mide a los consumidores sino sólo sus


percepciones, actitudes, preferencias u otras
características relevantes.
TEORÍA DE LA CONFIABILIDAD
La teoría de confiabilidad que se expone está basada en la teoría clásica de las pruebas. Las
teorías avanzadas de confiabilidad fueron desarrolladas por Crombach, Gleser, Nanda y
Rajaratnam (1972). En un instrumento la medición de una variable se denomina puntuación
obtenida o puntuación observada. La puntuación observada tiene dos componentes : un
componente verdadero y un componente de error.

X t = X T+ X e

Donde:
Xt = Puntuación observada
X T = Puntuación verdadera (valor esperado de X o)
X e = Puntuación del error

Nota:
X T = X ∞ = Si el número de mediciones se acerca al infinito, la media se iría acercando cada
vez más a la puntuación verdadera
Puntuación que se obtendría si todas
las condiciones internas y externas
fueran “perfectas” y si el instrumento
de medición fuese “perfecto”

Xt = XT + E
Ecuación en términos de
la varianza
Vt = VT +VE

Puntuación Puntuación
Obtenida Verdadera Variancia Variancia
Total Verdadera

El “error” no significa un error que se haya cometido, su valor es algún


incremento o decremento que resulta de los factores responsables de la
imposibilidad de medir la puntuación verdadera.
Error
Variancia del
Error
Vt

PRUEBA 1 VT VE

Vt

PRUEBA 2 VT VE
La confiabilidad se define a través del error, a mayor error, menor
confiabilidad; y a menor error mayor confiabilidad.

• La confiabilidad es la proporción de la variancia “verdadera” respecto


de la variancia total de los datos producidos por un instrumento de
medición.
• La confiabilidad es la proporción de la variancia del error respecto de la
variancia total producida por un instrumento de medición, restado de
1.00; donde el índice 1.00 indica una confiabilidad perfecta.

r tt= V T / V t Ecuación teórica

r t t = 1 – (Ve / V t) Ecuación teórica y practica

r t t = (V t – V e) / V t Ecuación teórica y practica


Ejemplo 3: (Tomado de F. Kerlinger , H. Lee)

Individuos a b c d Individuos a b c d
1 6 6 5 4 1 6 4 5 1
2 4 6 5 3 2 4 1 5 4
3 4 4 4 2 3 4 6 4 2
4 3 1 4 2 4 3 6 4 3
5 1 2 1 1 5 1 2 1 2
Varianzas
Fuente GL. SC CM F Fuente GL. SC CM F
Reactivos 3 6.80 2.27 2.80 Reactivos 3 6.80 2.27 0.87
Individuos 4 40.30 10.08 12.44 Individuos 4 18.80 4.70 1.81
Residual 12 9.70 0.81 Residual 12 31.20 2.60
Total 19 56.80 Total 19 56.80

r t t = 1 – V e / V t = 1 - 0.81 / 10.08 r t t = 1 – V e / V t = 1 - 2.60 / 4.78

r t t = 0.92 r t t = 0.46
REQUISITOS DE UN INSTRUMENTO DE MEDICIÓN

Confiabilidad
Grado en que un instrumento produce resultados consistentes y
coherentes.

Validez
Grado en que un instrumento en verdad mide la variable que se busca
medir.
CONFIABILIDAD Y VALIDEZ

Ejemplo 1: (Tomado de F. Kerlinger , H. Lee)

Suponga que una báscula siempre sobreestima el peso de una


persona en 5 kilogramos. Si alguien se coloca sobre esta báscula 50
veces durante el período de una hora, encontrará muy poca
fluctuación del peso en la báscula. La báscula es precisa en el sentido
de que siempre da un peso equivocado de 5 kilogramos. La báscula
sería considerada confiable pero no válida.
Ejemplo 2: (Tomado de F. Kerlinger , H. Lee)

Considere que un deportista desea comparar la precisión de dos


armas. Una es una pieza antigua fabricada hace un siglo, pero que se
encuentra aún en buenas condiciones. La otra es un arma moderna
fabricada por un experto. Ambas piezas se encuentran fijas en base
de granito y son accionadas hacia un blanco por un pistolero experto.
Cada arma se dispara igual número de veces.
Ejemplo 2: (Tomado de F. Kerlinger , H. Lee)

.
. . . . . ..
.
. . . . . .
. . ..
. . . . .
.
. . .
.
.
.
.

Rifle antiguo Rifle nuevo

¿Cuál es el patrón de tiros más confiable? ¿Por qué?


¿Cuál de los patrones de tiro presenta mayor validez? ¡por qué?
.
. . .
.
. . . ..
. . . .. . . . .
. .
. .. .. . . .
.

Rifle antiguo Rifle nuevo

¿Cuál es el patrón de tiros más confiable? ¿Por qué?


¿Cuál de los patrones de tiro presenta mayor validez? ¡por qué?
CONFIABILIDAD

Sinónimos de confiabilidad son estabilidad, fiabilidad, consistencia,


reproductibilidad, predictibilidad y falta de distorsión.

Una persona es confiable si su comportamiento es


consistente, predecible y fiable y poco confiable si su
comportamiento es mucho más variable; son
impredeciblemente variables.

Si se midiera en este momento la temperatura ambiental


usando un termómetro y éste indicara que hay 22°C , y
un minuto más tarde 5°C y tres minutos después 40°C,
dicho termómetro no sería confiable ya que su
aplicación repetida produce resultados distintos.
METODOS PRACTICOS PARA MEDIR LA CONFIABILIDAD
METODO TECNICA PROPOSITO

Test – Retest Coeficiente r correlación Consistencia en el tiempo de las


Prueba A –Prueba A de Pearson respuestas de los encuestados en
Grupo A – Grupo A ambas pruebas
Tiempo A – Tiempo B
Formas equivalentes o paralelas Coeficiente r correlación Convergencia o divergencia de las
Prueba A –Prueba B de Pearson respuestas de los encuestados en
Grupo A – Grupo A ambas pruebas
Tiempo A – Tiempo A
Tiempo A – Tiempo B
Consistencia interna División por mitades Homogeneidad de los itemes al
Prueba A Pearson/Spearman- medir el constructo
Grupo A Brown, Rulon , Guttman
Tiempo A KR-20 KR-21 Homogeneidad de los itemes con
Kuder-Richardson escala dicotómica
Coeficiente Alfa Homogeneidad de los itemes con
Cronbach escala tipo Likert
En 1937 Kuder y Richardson desarrollaron dos de las fórmulas más usadas para
consistencia interna: KR – 20 y KR – 21.

Ambas asumen que cada reactivo tiene la misma media y la misma variancia.

Las fórmulas de Kuder y Richardson son aplicables a instrumentos de medición


con un sistema dicotómico

r tt= k (V t -  p i q i)
k-1 Vt

Si se asume que cada reactivo tiene las mismas pi y qi , entonces

r tt= k (V t - k p i q i)
k-1 Vt
EJEMPLO: KUDER RICHARDSON

Alumnos P1 P2 P3 P4 P5 P6 P7 P8 P9 P10

Alumno 1 1 1 1 1 1 1 0 1 1 1

Alumno 2 1 1 0 1 0 0 1 1 1 1

Alumno 3 1 0 1 0 0 1 0 1 0 1

Alumno 4 1 1 1 0 1 1 0 0 1 1

Alumno 5 1 1 1 0 1 0 0 1 1 0

Alumno 6 0 0 0 1 0 0 1 1 1 1

Alumno 7 1 1 1 0 1 1 1 1 1 1

Alumno 8 0 0 1 0 0 1 0 0 1 0

Alumno 9 1 1 0 1 1 0 1 1 0 1

Alumno 10 1 0 1 0 0 1 1 1 0 0

rtt = k/k-1 {(Vt - ∑pq) / Vt)} = 0,36


En 1951 Crombach desarrolló el coeficiente alfa, el cual es aplicable a
instrumentos que utilicen la escala de Likert.

Fórmula del alfa de Cronbach:

r tt = α = k ( 1 -  Vi)
k-1 Vt

K = Número total de reactivos


V i = Variancia de cada reactivo
V t = Variancia de la suma de ítems
EJEMPLO: ALFA DE CRONBACH

Individuo P1 P2 P3 P4

1 5 3 5 4

2 4 3 4 4

3 3 3 4 2

4 3 1 4 2

5 1 2 1 1

6 5 5 5 5

7 2 3 4 3

8 5 4 5 5

9 1 2 1 1

10 3 4 3 2

rtt = k/k-1 {(1 - ∑Vi) / Vt)} = 0,9242


VALIDEZ
La definición más común de validez se sintetiza en la pregunta: ¿estamos midiendo
lo que creemos estamos midiendo? Kerlinger (1979, p. 138)

Ejemplo:
Un instrumento para medir el desempeño docente debe medir el desempeño
docente y no su ideología política.

Ejemplo: (Tomado de F. Kerlinger , H. Lee)

Un maestro ha construido una prueba para medir la comprensión de los


procedimientos científicos y ha incluido en la prueba sólo reactivos factuales sobre
procedimientos científicos. La prueba nos es válida ya que aunque mide de manera
confiable el conocimiento factual de los alumnos sobre los procedimientos
científicos, no mide su comprensión de dichos procedimientos.
TIPOS DE VALIDEZ

CONTENIDO CRITERIO CONSTRUCTO

BIBLIOGRAFICA RETROSPECTIVA CONVERGENTE

JUECES CONCURRENTE DISCRIMINANTE

GRUPOS FOCALES PREDICTIVA ANALISIS FACTORIAL


TIPOS DE VALIDEZ
Según el comité integrado por: la Asociación Psicológica Americana, la Asociación
Americana de Investigación Educativa y el Consejo Nacional de Mediciones
utilizadas en Educación existen tres tipos de validez: contenido, criterio y
constructo

VALIDEZ DE CONTENIDO

Es el grado en el que la medición representa al concepto o variable medida


(Bohrnstedt, 1976). El instrumento de medición requiere tener representado a todos
o la mayoría de los componentes del dominio de contenido de las variables a
medir.

Ejemplo: Tomado de Hernández, Fernández y Baptista (2010, pp. 201- 203)


Una prueba de operaciones aritméticas no tendrá validez de contenido si incluyera
sólo problemas de resta y excluyera problemas de suma, multiplicación o división.
Ejemplo: Tomado de F. Kerlinger , H. Lee (2002, pp. 604- 605)

Una profesora universitaria de psicología ha impartido un curso para estudiantes


del último año, donde enfatizó la comprensión de los principios del desarrollo
humano. Ella prepara una prueba de tipo objetivo. Al querer conocer su validez,
examina críticamente la relevancia de cada uno de los reactivos de la prueba, para
entender los principios del desarrollo humano. Además les pide a dos colegas que
evalúen el contenido de la prueba. Naturalmente, les informa a sus colegas lo que
está tratando de medir. Ella está investigando la validez de contenido de la prueba.

¿El instrumento mide adecuadamente las principales


dimensiones de la variable en cuestión?

¿Las preguntas qué tan bien representan a todas las


las preguntas que pudieran hacerse?
VALIDEZ DE CRITERIO

Se refiere al grado en que el test correlaciona con variables ajenas al test (criterios)
con lo que se espera por hipótesis que debe correlacionar de determinado modo.

La elección del criterio es el aspecto crítico en este procedimiento de


determinación de la validez, ya que es muy difícil obtener buenos criterios. Un
mismo test puede tener más de un tipo de validez, es decir puede estar validado
con respecto a varios criterios.

Dentro del concepto de validez de criterio cabe distinguir a su vez entre:

- Validez externa y validez interna


- Validez concurrente y validez predictiva
a
Validez Externa:

Si el test se ha validado con respecto a un criterio externo, como por ejemplo, una
evaluación de rendimiento.

Validez Interna:

Si se correlaciona un test con otro con validez reconocida que mide el mismo rasgo
VALIDEZ DE CONSTRUCTO

Se refiere al grado en que el instrumento de medida cumple con las hipótesis


que cabría esperar para un instrumento de medida diseñado para medir
precisamente aquello que deseaba medir.
EJEMPLO 4: CASO “EVALUACION DOCENTE”

A continuación se muestra la encuesta estudiantil de veinticuatro preguntas que


miden los factores: (1) organización del curso, (2) dominio del curso, (3) métodos
y recursos pedagógicos, (4) responsabilidades del docente, (5) evaluación y (6)
motivación y relación con los estudiantes.

Cada uno de los factores se miden con cuatro preguntas cada uno.
ENCUESTA ESTUDIANTIL
_______________________________________________________________
Factor 1: Organización del curso
X1: Demuestra haber preparado y organizado sus clases con mucho cuidado
X2: Formula objetivos claros y concretos, al iniciar cada sesión de clase
X3: Desarrolla con orden todos los objetivos formulados al inicio de la clase
X4: Hace un resumen de la clase anterior, al inicio de una nueva clase

Factor 2: Dominio del curso


X5: Demuestra conocimiento y dominio sobre el curso que enseña
X6: Explica sus clases en forma clara y ordenada
X7: Enfatiza la explicación de los conceptos claves de cada tema de clase
X8: Sincroniza apropiadamente la teoría con la práctica utilizando ejemplos de la vida real

Factor 3: Métodos y recursos pedagógicos


X9: Prepara y/o utiliza materiales de apoyo de clase (notas de clase, separatas, guías, libros, etc.)
X10: Emplea tecnologías de información y comunicación (aula virtual, internet, etc.)
X11: Utiliza adecuadamente los recursos pedagógicos del aula (pizarra, tv, multimedia, etc.)
X12: Utiliza métodos pedagógicos diversos (proyectos, panel de discusión, casos, simulación, etc.)

Factor 4: Responsabilidades del docente


X13: Inicia y termina la clase en la hora que corresponde
X14: Ingresa oportunamente la información del curso en el Aula Virtual (programa, clases, etc.)
X15: Asiste habitualmente a clases, justifica con anticipación su falta y la recupera con prontitud
X16: Se encuentra en su oficina en el horario programado, para atender consultas de estudiantes

Factor 5: Evaluación
X17: Elabora las pruebas de evaluación con un nivel de dificultad similar a sus clases
X18: Es justo e imparcial para calificar las pruebas de evaluación
X19: Aplica prueba de evaluación con regularidad durante el ciclo académico
X20: Describe la calificación y es accesible a revisar los reclamos si ha cometido error

Factor 6: Motivación y relación con los alumnos


P21: Demuestra entusiasmo y dinamismo en sus clases, despertando el interés de los estudiantes
P22: Desarrolla los temas del programa del curso en forma interesante y amena
P23: Muestra interés por los estudiantes que tienen problemas en aprender, al ritmo de los demás
P24: Motiva a que los alumnos participen crítica y activamente en las clases
_____________________________________________________________________________
Fuente: Elaboración propia
Coeficiente Alfa de Cronbach

α = K / K – 1[ 1 - ∑ Vi / Vt]

α = 25 / 25 - 1[ 1 – 78.18 / 753.78]

α = 0.934

Como el Coeficiente Alfa de Cronbach es mayor que 0.90 la confiabilidad de


la encuesta estudiantil se considera excelente.
VALIDEZ DE LA ENCUESTA ESTUDIANTIL PROPUESTA

Autovalores y Porcentaje de Variancia Acumulado


___________________________________________________
Factor Autovalor % de Variancia % Acumulado

de Variancia
___________________________________________________

1 11,4 45,7 45,7


2 1,4 5,4 51,1
3 1,3 5,0 56,1
4 1,1 4,3 60,4
5 1,0 4,0 64,4
6 0,9 3,6 68,0
7 0.8 3,3 71,3
___________________________________________________
Fuente: Elaboración propia

De acuerdo a estos resultados, se debería considerar en la encuesta a los


Factores 1, 2, 3, 4 y 5 por tener autovalores mayores a 1, siendo su
porcentaje de variancia acumulada satisfactorio (64.4%). Si se considerase al
Factor 6 por tener un autovalor cercano a 1 el porcentaje de variancia
acumulada sería muy satisfactorio (68.0%).
Matriz de componente rotados
Componentes:
1 2 3 4 5 6
P23 ,354 ,135 ,217 ,247 ,743 ,080
P24 ,268 ,181 ,156 ,186 ,776 ,237
P20 ,085 ,590 ,283 ,160 ,419 -,045
P4 ,054 ,499 ,379 ,008 ,244 ,384
P6 ,540 ,257 ,436 ,166 ,243 ,064
P10 ,178 -,009 ,511 ,233 -,055 ,635
P1 ,220 ,180 ,750 ,266 ,185 ,109
P7 ,380 ,337 ,617 -,049 ,206 ,078
P8 ,476 ,273 ,411 ,195 ,132 ,284
P5 ,419 ,169 ,520 ,382 ,263 ,019
P11 ,483 ,038 ,522 ,302 ,032 ,138
P12 ,168 ,305 ,021 ,100 ,272 ,723
P9 ,148 ,449 ,379 ,110 ,164 ,257
P14 ,118 ,128 ,321 ,653 ,216 -,152
P16 ,131 ,329 ,226 ,610 ,161 ,107
P2 ,482 ,548 ,172 ,169 ,033 ,103
P15 ,341 ,308 ,083 ,668 -,035 ,197
P3 ,622 ,336 ,241 ,230 ,176 ,007
P22 ,752 ,109 ,248 ,246 ,297 ,198
P13 ,209 ,111 ,020 ,737 ,233 ,251
P17 ,384 ,589 ,095 ,402 -,063 ,156
P21 ,772 ,208 ,155 ,178 ,260 ,137
P18 ,263 ,658 ,240 ,315 ,169 -,101
P19 ,139 ,696 -,019 ,176 ,073 ,248
ESCALAS DE MEDIDA

ESCALA

Las escalas pueden considerarse como una extensión de la medición.

Ejemplo: Actitud respecto a la gestión de la alcaldía de Lima


Metropolitana

Desfavorable 1 La escala es el proceso por medio del cual los


entrevistados se clasificarían como personas
que tienen un a actitud desfavorable, neutral o
Neutral 2
favorable.
Favorable 3
ESCALAS DE MEDICIÓN

Existen cuatro escalas de medición primarias: nominal, ordinal, de intervalos y de


razón

ESCALA NOMINAL

La escala nominal utiliza los números solamente para identificar que un dato
pertenece aun grupo o categoría.

ESCALA ORDINAL

En una escala ordinal los números representan solamente medidas de “mayor que”
o “menor que” como preferencias o clasificaciones y no distancia entre los datos.
ESCALA DE INTERVALO

La escala de intervalo no sólo incluye relaciones “mayor que” o “menor que” ,


sino también una unidad de medida que nos permite describir cuánto mayor o
menor es un dato que otro. En esta escala los múltiplos de los valores medidos no
son significativos debido a que la unidad de medición es arbitraria. Interviene el
cero relativo que es referencial por no implicar ausencia de valor.

ESCALA DE RAZÓN

La escala de razón es similar a la escala de intervalo, pero tiene un cero absoluto y


los múltiplos de los valores son significativos.
Ejemplo:

Escala Nominal Escala Ordinal Escala de Escala de


Intervalos Razón

Número Tienda Clasificaciones


Calificaciones Dólares gastados
por preferencia
por preferencia en los 2 meses
1–6 3 - 13 pasados
__________________________________________________________________

1 Lord & Taylor 6 24 5 11 0

2 Marcy’s 2 15 3 7 200

3 Kmart 3 17 3 7 0

4 Rich’s 1 12 4 9 100

5 Target 5 23 2 5 250

6 Sears 4 21 2 5 0
TÉCNICAS DE ESCALAS

Las técnicas de escalas que se utilizan con mayor frecuencia en la


investigación de mercados pueden clasificarse en escalas comparativas y
no comparativas.

A. ESCALAS COMPARATIVAS

Es el tipo de escala en el cual hay una comparación directa de los objetos


de estímulos entre si.

• Comparación apareada

• Orden de clasificación

• Cantidad constante

• Clasificación Q
A1. ESCALA DE COMPARACIÓN APAREADA

Técnica en la que se presenta a un entrevistado dos objetos a la vez y se le


pide que seleccione uno del par, de acuerdo con cierto criterio. Los datos que
se obtienen son de naturaleza ordinal.

Las escalas de comparación apareada se utilizan con frecuencia cuando los


objetos de estímulo son productos físicos.

Sabor

¿huevo blanco? ¿huevo pardo?


A2. ESCALA POR ORDEN DE CLASIFICACIÓN

Técnica en la que se presentan a los entrevistados, varios objetos en


forma simultánea y se les pide que los ordenen o clasifiquen de acuerdo
con algún criterio.

Ejemplo:

Clasifique las distintas marcas de pastas dentales en orden de preferencia.


Comience por elegir aquella marca que más le agrade y asígnele el número 1 y
continúe este procedimiento hasta que haya clasificado todas las marcas.

Marca Orden de clasificación

Colgate ………………………..
Dento ………………………..
Crest ………………………..
Kolynos ………………………..
Close Up ………………………..
B. ESCALAS NO COMPARATIVAS

En las técnicas de escalas no comparativas cada objeto de estímulo se


evalúa de manera independiente de los otros en el conjunto de estímulos.

• Escala de clasificación continua

• Escalas de clasificación de partidas

B1. ESCALA DE CLASIFICACIÓN CONTINUA

Escala de medición que pide a los entrevistados que califiquen los objetos
al escribir una marca en la posición apropiada en la línea, que va de un
extremo de la variable de criterio al otro. La forma puede variar
considerablemente. También se conoce como escala de clasificación
gráfica.
Ejemplo:

¿Qué calificación darían a Ripley como tienda departamental?

Versión 1

Quizá la peor…………….……………………………………….Quizá la mejor

Versión 2

Quizá la peor…………….……………………………………….Quizá la mejor


0 10 20 30 40 50 60 70 80 90 100

Versión 3
Muy mala Ni buena Muy mala
ni mala
Quizá la peor…………….……………………………………….Quizá la mejor
0 10 20 30 40 50 60 70 80 90 100
B2. ESCALAS DE CLASIFICACIÓN DE PARTIDAS

Escala de medición que tiene números o descripciones breves asociados


con cada categoría. Las categorías se ordenan en términos de su posición
en la escala.

Escala de Likert

Escala de medición que por lo regular tiene cinco categorías de respuesta


que van de “por completo en desacuerdo” a “por completo de acuerdo”, y
pide a los entrevistados que indiquen un grado de acuerdo o desacuerdo
con cada una de una serie de afirmaciones relacionadas con los objetos de
estímulo.

Por completo En desacuerdo neutral De acuerdo Por completo


en desacuerdo de acuerdo
__________________________________________________________________
Mis sentimientos 1 2 3 4 5
de realización
me motivan para
el trabajo
Escala de Diferencial Semántico

Escala de clasificación que por lo regular tiene siete categorías con puntos
extremos asociados con nombres bipolares que tienen un significado
semántico.

Favor de asegurarse de marcar cada escala; no omita ninguna

RIPLEY ES:

Poderoso :……..:……..:……..:……..:……..:……..:……..: Débil

Desacreditado :……..:……..:……..:……..:……..:……..:……..: Acreditado

Moderno :……..:……..:……..:……..:……..:……..:……..: No moderno


moda

Indiferente :……..:……..:……..:……..:……..:……..:……..: Cordial

Cuidadoso :……..:……..:……..:……..:……..:……..:……..: Descuidado

También podría gustarte