Libro de Psicometria

CURSO: CONSTRUCCIÓN DE PRUEBAS PSICOLÓGICAS
Docente: Claudia Guevara Cordero
Alumnos:
Alday Arteaga, Leandra N00266606

Amoros Muñoz, Yohanna N00267509
Benavides Benavides, Alicia N00272032
Florez Nicho, Fiorella N00240482
Puntriano Cano, Debhora N00256275
LIMA -PERÚ
2022
ESTRUCTURA DEL LIBRO DE PSICOMETRÍA
ÍNDICE
INTRODUCCIÓN
Capítulo I: Conceptos teóricos básicos…………………………………………...
1. Antecedentes y personajes en la psicometría
2. ¿Qué es la psicometría?
3. Clasificación de las pruebas
4. Tipos de ítems
Capítulo II: Las teorías psicométricas………………………………………….

2.1. La Teoría Clásica de los Test (TCT)
2.2. La Teoría de la Generalizabilidad (TG)
2.3. La Teoría de Respuesta al Item (TRI)
Capítulo III: La confiabilidad ………………………………………………………

Capítulo IV: La validez…………………………………………………………….
Capítulo V: La sensibilidad o tipificación ………………………………………
Capítulo VI: El proceso de construcción de un test ………………………….
6.1. La elección del tema y la muestra
6.2. El marco teórico y las dimensiones
6.3. Redacción de items, indicadores y anclas
6.4. Jueces y aplicación piloto
6.5. La muestra en la aplicación masiva
6.6. El análisis estadístico de los datos
Referencias
INTRODUCCIÓN
Los instrumentos de medición de los procesos psicológicos han tenido un papel
importante en la historia de la psicología. Las pruebas psicológicas son
importantes para la estructuración social y ayudan a la toma de decisiones
diversas, como saber si un estudiante necesita algún tipo de adaptación
educativa o conocer la idoneidad de un aspirante a un puesto laboral. La
psicometría es la rama de la psicología que se encarga de la medición de los
procesos psíquicos y de las capacidades cognitivas.
Estos procesos psicológicos se miden a partir de estudios que permiten

comparar resultados de forma objetiva entre las características psicológicas de
distintas personas. Se asignan así medidas cuantitativas a atributos o
procesos, lo que permite realizar diagnósticos. Esta disciplina surgió en el siglo
XIX con el objetivo de implantar una metodología científica en el estudio de la
mente.
La Sociedad de Psicometría Americana está dedicada al avance de las

prácticas de medición cuantitativa en psicología, educación y ciencias sociales.
Aseguran que “aunque los estudios arqueológicos aseguran que el interés del
hombre por medir las habilidades humanas se remonta a la antigua cultura
china, la psicometría es reconocida como disciplina hace apenas dos siglos”.
La psicometría es la parte de la psicología que orienta las acciones que

permiten que los instrumentos de medida sean debidamente
estandarizados y posean la fiabilidad y validez requerida para su correcto
uso con la finalidad de establecer diferencias de unas personas en
relación a otras en determinada población, las técnicas psicométricas
forman parte del proceso de evaluación psicológica, la cual utiliza las
pruebas psicométricas denominadas test, como instrumentos de medida con
el objeto de obtener una información más amplia del sujeto que permita al
evaluador plantear y confirmar hipótesis de trabajo que orienten su proceder
evaluativo y diagnóstico (González, 2007).
La finalidad de este tema es presentar la Psicometría e introducir uno de sus

contenidos más importantes: la Teoría de Tests. Intentar definir un concepto
complejo como el de «Psicometría», al igual que ocurre con la denominación
de cualquier disciplina científica, es una tarea difícil, razón por la que, al
contrario de lo que se podría pensar, no abundan las definiciones explícitas.
Bajo la palabra «Psicometría» pueden convivir contenidos, enfoques, objetivos
y hasta concepciones diferentes sobre la ciencia y la función social de la
Psicología.
CAPÍTULO I
Se considera que el nacimiento de la psicometría se remonta a mediados del

siglo XIX, momento en que Francis Galton empezaría a trabajar en establecer
mecanismos para medir la existencia de diferencias individuales entre
individuos.
Galton emplearía mecanismos centrados en la medición de elementos
fisiológicos, estando limitados sus estudios a procesos básicos. Pero gracias a
sus estudios surgieron conceptos fundamentales en la psicometría, como los
principios de correlación entre variables y regresión, que serían con el tiempo
formalizados por Karl Pearson, su alumno.
La psicometría es clave en la psicología ya que brinda las herramientas
necesarias para poder realizar una evaluación psicológica. La psicometría se
encarga de la medición y de la cuantificación de los procesos psicológicos y
capacidades cognitivas, utiliza la estadística como pilar básico para poder crear
teorías, métodos y técnicas de medición. Su principal función es la objetividad,
cuantificación, comunicación y economía.
Se entiende la psicometría como la disciplina que se encarga de la medición
cuantitativa de los procesos y capacidades mentales.
De este modo, se le puede asignar un valor numérico a características y
sucesos concretos, permitiendo la comparación y el contraste con otras
personas o con criterios determinados que pueden servir de cara a establecer y
comprobar teorías e hipótesis sobre el funcionamiento de la mente. Gracias a
la psicometría es posible cuantificar y operativizar lo psíquico, habiendo
permitido en gran medida el desarrollo de la psicología como ciencia.
Un test es un procedimiento compuesto por ítems seleccionados y organizados
para provocar en el individuo ciertas reacciones registrables; reacciones de
toda naturaleza en cuanto a su naturaleza, complejidad, duración, forma,
expresión y significado (Rey, 1973). Están clasificados por la forma o tipo de
respuesta que exigen (Proyectivos y psicométricos) en función al problema
(Aptitudes, inteligencia, rendimiento académico) test de ejecución típica
(actitudes, personalidad, no hay respuesta buena ni mala) por el tipo de
comportamiento (ansiedad, depresión) por el material empleado (orales, papel
y lápiz, computarizados,etc) por el tiempo (de velocidad, de potencia o mixtos)
por el formato de los ítems (Número de anclas) por el modelo estadístico en el
que se basa (teoría clásica de los test).
Los ítems o preguntas de una escala o de un cuestionario se pueden redactar
de varias maneras y estilos; aquí exponemos los más comunes. Preguntas con
varias respuestas, preguntas con varias respuestas.
CAPÍTULO II
LAS TEORÍAS PSICOMÉTRICAS.
2.1 Las teorías clásicas de los test (TCT)
Para una interpretación y utilización adecuada de las propiedades

psicométricas de los test es necesario ir más allá del mero cálculo empírico, y
conocer los fundamentos en los que se basan estos cálculos. Con el fin de
contribuir a esta comprensión más allá del mero manejo superficial de las
fórmulas psicométricas, el objetivo fundamental de este trabajo es presentar de
una manera no excesivamente técnica y especializada las dos grandes teorías
que guían la construcción y análisis de la mayoría de los test: la Teoría Clásica
de los Test y la Teoría de Respuesta a los Ítems. En primer lugar, se hace un
apunte histórico sobre los test, indicando cómo surgen y evolucionan al hilo de
los avances técnicos y estadísticos. Tras razonar acerca de la necesidad de
utilizar teorías psicométricas para el análisis y construcción de los test, se
expone la lógica que subyace a la Teoría Clásica de los Test, así como sus dos
variantes más granadas, la Teoría de la Generalizabilidad y los Test Referidos
al Criterio. Luego se subrayan las limitaciones más importantes del enfoque
clásico y se exponen los fundamentos de la Teoría de Respuesta a los Ítems,
dentro de cuyo marco encuentran una solución satisfactoria algunos de los
problemas que el enfoque clásico no había sido capaz de resolver de forma
satisfactoria. Finalmente se comparan ambos enfoques, y se concluye
indicando la necesidad de conocer las teorías de los test para una mejor
comprensión y utilización de los instrumentos de medida. Palabras clave: Test,
Teoría Clásica de los Test.
Los test constituyen seguramente la tecnología más sofisticada de la que

disponen los psicólogos para ejercer su profesión, por eso no es infrecuente
que la sociedad identifique a los psicólogos con los test. Naturalmente, unos
psicólogos utilizan los test más que otros, dependiendo de su campo
profesional y de su forma de trabajar. Los test son muestras de conducta que
permiten llevar a cabo inferencias relevantes sobre la conducta de las
personas. Bien utilizados son herramientas claves en la profesión del
psicólogo. No conviene olvidar que los test nacen con un afán de objetividad y
justicia, para evaluar a las personas por lo que realmente valen, evitando
evaluaciones sesgadas por aspectos tales como la cuna, la clase social, la
raza, el sexo, las creencias, las cartas de recomendación, y otros sistemas de
evaluación subjetivos. Unas veces estos nobles fines se han alcanzado mejor
que otras, pero ésa era y sigue siendo la idea central, evaluar a todos por el
mismo rasero. NOTA HISTÓRICA ¿Cuándo aparecen los test por primera vez
en la historia? Suele citarse como el origen remoto de los test unas pruebas
que los emperadores chinos ya hacían allá por el año 3000 antes de Cristo
para evaluar la competencia profesional de los oficiales que iban a entrar a su
servicio. Otras muchas huellas antiguas pueden rastrearse, pero los test
actuales tienen sus orígenes más cercanos en las pruebas censo-motoras
utilizadas por Galton (1822-1911) en su laboratorio antropométrico. Pero será
James McKeen Cattell (1860-1944) el primero inutilizar el término test mental,
en 1890. Pronto quedó claro (Wissler, 1901) que estos primeros test senso-
motores no eran buenos predictores de las capacidades cognoscitivas de las
personas, y Binet y Simón (1905) darán un giro radical al introducir en su nueva
escala tareas cognoscitivas para evaluar aspectos como el juicio, la
comprensión y el razonamiento. Terman llevó a cabo la revisión de la escala en
la Universidad de Stanford, la cual se conoce como la revisión Stanford-Binet
(Terman, 1916), utilizando por primera vez el concepto de Cociente Intelectual
(CI) para expresar la puntuación de las personas. La idea del CI había sido
propuesta originalmente por Stern, dividiendo la Edad mental por la Edad
Cronológica y multiplicando el resultado por 100 para evitar decimales.
2.2. La Teoría de la Generalizabilidad (TG)
La Teoría G consiste en un marco de referencia conceptual y una metodología

que permite al investigador desentrañar múltiples fuentes de error y estimar su
contribución relativa a las mediciones realizadas. Los orígenes de esta teoría
se encuentran en la TCT y en el análisis de la varianza (ANOVA, por sus siglas
en inglés). En la Teoría G se describen las mediciones que se realizan a las
personas en los términos de las condiciones bajo las cuales se han observado.
Estas condiciones forman las facetas. En el Examen A, las mediciones son los
puntajes de los sustentantes en las 20 preguntas del examen; estas 20
preguntas son las 20 condiciones de la faceta “preguntas” (la cual es la única
faceta considerada para este examen). El Examen B, en el cual se observan
los puntajes otorgados a las respuestas de los 31 individuos por cada uno de
los dos evaluadores en las seis preguntas del examen, presenta un diseño con
dos facetas: la faceta “preguntas” (con seis condiciones), y la faceta
“evaluadores” (con dos condiciones). En ambos ejemplos, los sustentantes en
el examen son el objeto de la medición (queremos conocer de cada
sustentante su nivel en el constructo evaluado por el examen) y no se
consideran una faceta; este término se reserva para referirse a una fuente de
error, es decir, a un factor que causa variabilidad en las distintas mediciones
realizadas a un sustentante. En este sentido, las preguntas del examen son
una faceta, por ejemplo, porque difieren en dificultad y, así, son una causa de
la variabilidad en los puntajes en las distintas preguntas. De igual manera, los
dos evaluadores en el Examen B definen una faceta, ya que pueden diferir en
su juicio sobre las respuestas de los sustentantes, lo cual lleva a diferencias en
los puntajes observados. No solo el número de facetas consideradas define el
diseño, sino también la manera en que se combinan (entre sí y con las
personas). En el Examen A, los 68 sustentantes responden a las mismas 20
preguntas, lo cual se conoce como un diseño cruzado, denotado como
“personas × preguntas”. Al contrario, un diseño anidado se presentaría cuando
cada sustentante en el examen respondiera a un conjunto de preguntas únicas,
es decir, distintas de las preguntas de los demás. Un ejemplo de este tipo de
diseño ocurre en los exámenes orales, donde los sustentantes realizan su
examen por turnos y cada sustentante recibe, por ejemplo, tres preguntas,
diferentes de las preguntas de los demás (para evitar que los últimos
sustentantes del examen aprendan las preguntas de los que pasaron primero).
Este diseño se denota como “reactivos: personas” (“reactivos anidados en
personas”). En diseños con dos o más facetas, ciertas facetas pueden estar
cruzadas y otras anidadas. En el Examen B, por ejemplo, tenemos un diseño
de dos facetas totalmente cruzadas: para cada sustentante, sus respuestas en
cada una de las seis preguntas son calificadas por cada uno de los dos
ayudantes del profesor titular (“personas × preguntas × evaluadores”), llevando
a 12 mediciones para cada sustentante. Si, al contrario, el profesor titular
hubiera decidido que su primer ayudante evaluará las preguntas 1, 2 y 3 de
cada sustentante y el segundo las preguntas 4, 5 y 6, entonces tendríamos solo
seis observaciones por persona y un diseño con las preguntas anidadas en la
faceta de evaluadores, que se denota como “personas × (preguntas:
evaluadores)”. Los lectores familiarizados con ANOVA se habrán dado cuenta
de las similitudes en la terminología que se utiliza para esta técnica y la que
acabamos de definir para la Teoría G. Por ejemplo, también ANOVA distingue
entre diseños cruzados y anidados; por otro lado, “factores” (o “variables
independientes”) en ANOVA son conceptualmente similares a las “facetas” en
la Teoría G; y los niveles de cada factor en ANOVA corresponden a las
condiciones de las facetas en la Teoría G. Veremos en las secciones que
vienen que un análisis en el marco de la Teoría G implica un ANOVA a los
datos observados. Cabe mencionar que, para comprender a cabalidad los
análisis en las siguientes secciones, sirve tener una introducción a ANOVA,
como se encuentra, por ejemplo, en los libros de Pardo y San Martín (2010) y
Tejedor (2019).
Estudio de Generalizabilidad Debe ser claro que las Ecuaciones 3 y 4 son parte
de un modelo teórico y que los componentes de la puntuación y varianza
observada (μ, μp, αp, , etc.) son cantidades teóricas que en la práctica son
desconocidas. Con base en los datos observados, como los que se muestran
en la Tabla 1, podemos obtener estimaciones de estos componentes. En
particular, el Estudio G se centra en la estimación de los componentes de
varianza de la Ecuación 4. El primer paso del Estudio G consiste en realizar un
ANOVA con base en el modelo correspondiente al diseño del estudio (que se
describió en las subsecciones anteriores). La Tabla 2 resume los resultados
principales del ANOVA realizado a los datos del Examen A que se necesitan
para estimar los componentes de varianza. En particular, las primeras cuatro
columnas presentan los resultados que cualquier programa de análisis
estadístico generaría para el ANOVA a estos datos.
2.3. La Teoría de Respuesta al ítem (TRI)
El objetivo de este trabajo es introducir al lector en las nociones básicas de la

Teoría de Respuesta al Ítem (TRI). La Primera Parte describe las limitaciones
de la perspectiva clásica y define los conceptos fundamentales de la TRI:
Curva Característica, Parámetros, Función de Información, Estimación y Ajuste
de los modelos. La Segunda Parte revisa desarrollos aplicados efectuados a
partir de los nuevos avances de esta teoría. Se trata del análisis del
funcionamiento diferencial de los ítems y la construcción de bancos de ítems y
test adaptativos informatizados. Se reconoce la necesidad de una formación
más sólida sobre la TRI en los especialistas en Evaluación Psicológica.
La denominación TRI agrupa líneas de investigación psicométricas
independientes iniciadas por Rasch (1960) y Birnbaum (1968). El factor común
de estos desarrollos es que establecen una relación entre el comportamiento
de un sujeto frente a un ítem y el rasgo responsable de esta conducta (rasgo
latente). Para ello, recurren a funciones matemáticas que describen la
probabilidad de dar una determinada respuesta al ítem para cada nivel del
rasgo medido por este. El objetivo sustancial de la TRI es la construcción de
instrumentos de medición con propiedades invariantes entre poblaciones. Si
dos individuos presentan idéntico nivel de rasgo medido ambos tendrán igual
probabilidad de dar la misma respuesta, independientemente de la población
de pertenencia. Esto conlleva un gran beneficio respecto de la TCT en tanto
que es posible evitar el uso de un grupo normativo.
Teoría de Respuesta al Ítem la denominación TRI agrupa líneas de

investigación psicométricas independientes iniciadas por Rasch (1960) y
Birnbaum (1968). El factor común de estos desarrollos es que establecen una
relación entre el comportamiento de un sujeto frente a un ítem y el rasgo
responsable de esta conducta (rasgo latente). Para ello, recurren a funciones
matemáticas que describen la probabilidad de dar una determinada respuesta
al ítem para cada nivel del rasgo medido por este.

CAPÍTULO III
LA CONFIABILIDAD
Este artículo trata de clarificar la frecuente confusión que tienen muchos

investigadores al utilizar los criterios relacionados con la validez y la
confiabilidad en una investigación, ya sea de orientación cuantitativa tradicional
o cualitativa. Se hace énfasis en el enfoque epistemológico de cada una como
base de todo, en sus características propias y, principalmente, se resalta el
proceso eminentemente crítico que acompaña a la metodología cualitativa en
todas sus fases: procesos de acopio de la información, de categorización, de
estructuración, de contrastación y de teorización, y, de una manera especial, en
los criterios de evaluación de los resultados o estructuras teóricas como
objetivo final de la investigación.
Palabras Clave: validez, confiabilidad, epistemología, metodología cualitativa.
En los medios académicos actuales, que cada vez más están usando métodos
y técnicas de orientación cualitativa para sus diferentes tipos de investigación,
se ha ido presentando reiteradamente una dificultad relacionada con la validez
y confiabilidad de sus resultados.
En general, los conceptos de validez y confiabilidad que residen en la mente de
una gran mayoría de investigadores siguen siendo los utilizados en la
orientación epistemológica positivista tradicional, ya más que superada en la
segunda mitad del siglo XX. De aquí nace un conflicto, pues la metodología
cualitativa adopta, como base y postulado fundamental de su teoría del
conocimiento y de la ciencia, el paradigma epistémico postpositivista.
El paradigma postpositivista se ha instalado en el campo académico después

de muchos estudios en simposios internacionales sobre la filosofía de la ciencia
(ver Suppe, 1977, 1979) en los que se levantó el acta de defunción de la
concepción heredada (el positivismo lógico) la cual, a partir de ese momento,
quedó abandonada por casi todos los epistemólogos" (Echeverría, 1989, p. 25),
debido, como señala Popper (1977, p. 118), a sus dificultades intrínsecas
insuperables.
Evidentemente, no es suficiente que en este alto nivel científico se llegue a
esas conclusiones para que de inmediato se adopten en la práctica por la
mayoría de los investigadores, como tampoco se adoptaron las ideas helio
centristas de Copérnico y Galileo en forma completa sino hasta después de un
siglo por ilustres astrónomos de las universidades de Bolonia, Padua y Pisa.
Según Galileo (1968) eso requería cambiar la cabeza a la gente, lo cual sólo
Dios podía realizar (p. 119).
La epistemología postpositivista hace ver que no existe, en el proceso
cognoscitivo de nuestra mente, una relación directa entre la imagen empírica
visual, auditiva, olfativa, etc. y la realidad externa a que se refieren, sino que
siempre está mediada e interpretada por el horizonte personal e individual del
investigador: sus valores, intereses, creencias, sentimientos, etc., y, por esta
misma razón, los conceptos tradicionales positivistas de validez (como relación
fisiológica mente-cosa) y de confiabilidad (como repetición de un mismo
proceso mental) deben ser revisados y redefinidos.
También Köhler (1967), para la psicología, solía decir que "en la estructura
(sistema) cada parte conoce dinámicamente a cada una de las otras". Y
Ferdinand de Saussure (1931), para la lingüística, afirmaba que "el significado
y valor de cada palabra está en las demás", que el sistema es "una totalidad
organizada, hecha de elementos solidarios que no pueden ser definidos más
que los unos con relación a los otros en función de su lugar en esta totalidad.
Si la significación y el valor de cada elemento de una estructura dinámica o
sistema está íntimamente relacionado con el de los demás, si todo es función
de todo, y si cada elemento es necesario para definir a los otros, no podrá ser
visto ni entendido ni medido "en sí", en forma aislada, sino a través de la
posición y de la función o papel que desempeña en la estructura. Así, Parsons
señala que "la condición más decisiva para que un análisis dinámico sea
válido, es que cada problema se refiera continua y sistemáticamente al estado
del sistema considerado como un todo" (en: Lyotard, 1989, p. 31).
Una investigación con buena confiabilidad es aquella que es estable, segura,

congruente, igual a sí misma en diferentes tiempos y previsible para el futuro.
También la confiabilidad tiene dos caras, una interna y otra externa: hay
confiabilidad interna cuando varios observadores, al estudiar la misma realidad,
concuerdan en sus conclusiones; hay confiabilidad externa cuando
investigadores independientes, al estudiar una realidad en tiempos o
situaciones diferentes, llegan a los mismos resultados.
El concepto tradicional de confiabilidad externa implica que un estudio se
puede repetir con el mismo método sin alterar los resultados, es decir, es una
medida de la replicabilidad de los resultados de la investigación. En las ciencias
humanas es prácticamente imposible reproducir las condiciones exactas en
que un comportamiento y su estudio tuvieron lugar. Ya Heráclito dijo en su
tiempo que "nadie se bañaba dos veces en el mismo río"; y Cratilo le añadió
que "no era posible hacerlo ni siquiera una sola vez", ya que el agua está
fluyendo continuamente (Aristóteles, Metafísica, iv, 5).
En los estudios realizados por medio de investigaciones cualitativas, que, en
general, están guiados por una orientación sistémica, hermenéutica,
fenomenológica, etnográfica y humanista, la confiabilidad está orientada hacia
el nivel de concordancia interpretativa entre diferentes observadores,
evaluadores o jueces del mismo fenómeno, es decir, la confiabilidad será,
sobre todo interna, Inter jueces. Se considera un buen nivel de esta
confiabilidad cuando alcanza un 70%, es decir, que, por ejemplo, de 10 jueces,
hay consenso entre 7.
Dada la naturaleza particular de toda investigación cualitativa y la complejidad
de las realidades que estudia, no es posible repetir o replicar un estudio en
sentido estricto, como se puede hacer en muchas investigaciones
experimentales. Debido a ello, la confiabilidad de estos estudios se logra
usando otros procedimientos rigurosos y sistemáticos.
La confiabilidad interna es muy importante. En efecto, el nivel de consenso
entre diferentes observadores de la misma realidad eleva la credibilidad que
merecen las estructuras significativas descubiertas en un determinado
ambiente, así como la seguridad de que el nivel de congruencia de los
fenómenos en estudio es fuerte y sólido.
Los investigadores cualitativos suelen utilizar varias estrategias (LeCompte-
Goetz, 1982) para reducir las amenazas que se le presentan a la confiabilidad
interna:
a) Usar categorías descriptivas de bajo nivel de inferencia, es decir, lo más
concretas y precisas posible. Los datos son algo ya interpretado (Hanson,
1977); por esto, es conveniente que estén cercanos a la realidad observada:
quién hizo qué cosa y en qué circunstancias. Los comentarios interpretativos
pueden añadirse, eliminarse o modificarse más tarde. Además, la mayoría de
los autores coinciden en señalar que los procedimientos cualitativos son ricos
en datos primarios y frescos, que ofrecen al lector múltiples ejemplos extraídos
de las notas de campo, y son, por esto, generalmente consideradas como más
creíbles.
b) El mejor aval para la confiabilidad interna de un estudio cualitativo es la
presencia de varios investigadores. El trabajo en equipo, aunque es más difícil
y costoso, garantiza un mejor equilibrio de las observaciones, los análisis y la
interpretación.
c) Pedir la colaboración de los sujetos informantes para confirmar la
"objetividad" de las notas o apuntes de campo. Asegurarse de que lo visto o
registrado por el investigador coincide o es consistente con lo que ven o dicen
los sujetos del grupo estudiado.
d) Utilizar todos los medios técnicos disponibles en la actualidad para
conservar en vivo la realidad presenciada: grabaciones de audio y de vídeo,
fotografías, diapositivas, etc. Este material permitirá repetir las observaciones
de realidades que son, de por sí, irrepetibles, y que las puedan "presenciar"
otros observadores ausentes en el momento en que sucedieron los hechos. Su
aporte más valioso radica en que nos permiten volver a los "datos brutos" y
poder categorizarlos y conceptualizarlos de nuevo.
Para alcanzar un buen nivel de confiabilidad externa, se aconseja (LeCompte y
Goetz, 1982) recurrir, entre otras, a las siguientes estrategias:
a) Precisar el nivel de participación y la posición asumida por el investigador en
el grupo estudiado; cierta información puede ser diferente de acuerdo con el
sexo de quien la dé (las mujeres pueden ocultar ciertos datos íntimos si el
investigador, por ejemplo, es de sexo masculino); igual sucede si el
investigador ha hecho amigos dentro del grupo; éstos le darán informaciones
que no les dan otros.
b) Identificar claramente a los informantes. Éstos pueden representar grupos
definidos y dar información parcial o prejuiciada. Los miembros que simpatizan
y colaboran más con los investigadores pueden ser, por esto mismo, miembros
atípicos. Esta situación se puede advertir al hacer una buena descripción del
tipo de personas que han servido como informantes.
c) Un tercer elemento que puede influir en los datos es el contexto en que se
recogen. Debido a ello, conviene especificar el contexto físico, social e
interpersonal de que se derivan. Esto aumentará la replicabilidad de los
estudios.
d) Para que sea posible una cierta réplica es imprescindible la identificación de
los supuestos y metateorías que subyacen en la elección de la terminología y
los métodos de análisis. Los conceptos de "cultura", "ciencia", "método",
"análisis", "dato", "codificación" y muchos otros pueden diferir sustancialmente
entre diferentes investigadores.
e) Precisar los métodos de recolección de la información y de su análisis, de tal
manera que otros investigadores puedan servirse del reporte original como un
manual de operación para repetir el estudio. La replicabilidad se vuelve
imposible sin una precisa identificación y cuidadosa descripción de las
estrategias de procedimiento.
La triangulación. En sentido amplio, en las ciencias humanas, también se
pueden realizar varias "triangulaciones” que mejoran notablemente los
resultados de la investigación y su validez y confiabilidad. De una manera
particular, se pueden combinar, en diferentes formas, técnicas y
procedimientos cualitativos y cuantitativos. La idea central es utilizar todo lo
que se considere pertinente, tenga relación y se considere útil.
Más concretamente, se pueden identificar varios tipos básicos de triangulación:
a) Triangulación de métodos y técnicas: que consiste en el uso de múltiples
métodos o técnicas para estudiar un problema determinado (como, por
ejemplo, el hacer un estudio panorámico primero, con una encuesta, y después
utilizar la observación participativa o una técnica de entrevista).
b) Triangulación de datos: en la cual se utiliza una variedad de datos para
realizar el estudio, provenientes de diferentes fuentes de información.
c) Triangulación de investigadores: en la cual participan diferentes
investigadores o evaluadores, quizá con formación, profesión y experiencia
también diferentes.
d) Triangulación de teorías: que consiste en emplear varias perspectivas para
interpretar y darle estructura a un mismo conjunto de datos (por ejemplo, una
teoría basada en las técnicas de correlación, análisis de varianza, análisis de
regresión, análisis factorial o cluster analysis y otra que utilice la observación
participativa).
e) Triangulación interdisciplinaria: con la cual se invocan múltiples disciplinas a
intervenir en el estudio o investigación en cuestión (por ejemplo, la biología, la
psicología, la sociología, la historia, la antropología, etc.)
Conviene, sin embargo, advertir que no se puede dar, hablando con precisión
epistemológica, una triangulación de paradigmas, como insinúan algunas
personas empleando ciertos procedimientos que llaman "pluri paradigmáticos".
No se puede jugar al ajedrez, ni a ningún otro juego, utilizando dos o más
cuerpos de reglas diferentes o, peor aún, antagónicos. Lo menos que se puede
decir de esas personas es que están usando el concepto de "paradigma
epistémico" en forma errónea, es decir, como "punto de vista". Los puntos de
vista sí son complementarios y se pueden integrar, los paradigmas epistémicos
no, ya que uno se configura negando al otro: si sostengo que la Tierra es
redonda estoy negando que sea plana.
En conclusión, podríamos afirmar que las realidades, especialmente las
humanas, constituyen un todo polisistémico que se rebela cuando es reducido
a sus elementos, aunque sea con la intención de medirlos; es más,
precisamente en esos momentos, porque se pone en práctica un
reduccionismo desnaturalizado. Y se revela, precisamente, porque, así,
reducido, pierde las cualidades emergentes del "todo" y la acción de éstas
sobre cada una de las partes. Este "todo polisistémico", que constituye la
naturaleza global, nos obliga, incluso, a dar un paso más en esta dirección. Nos
obliga a adoptar una metodología interdisciplinaria para poder captar la riqueza
de la interacción entre los diferentes subsistemas que estudian las disciplinas
particulares.
Por estas razones, la confiabilidad, sobre todo la externa, no está dentro del
círculo de intereses inmediatos de las investigaciones cualitativas, pues el fin
de éstas es el mejoramiento y aplicación a una situación particular, que puede
ser una persona, un grupo, una comunidad o una empresa, y no la
generalización a otras áreas, de la misma manera que el médico está
interesado en curar a su paciente. Si ese estudio, ese tratamiento y ese plan de
acción o patrón teórico pueden, después, transferirse y aplicarse en otros
pacientes o a otros campos similares, tanto mejor: se irá haciendo una ciencia
más universal; pero ése no es el fin primario de una investigación cualitativa.

CAPÍTULO IV
LA VALIDEZ
La Validez de un test nos indica el grado de exactitud con el que mide el

constructo teórico que se pretende medir con el fin previsto. Un test es válido si
“si mide lo que dice medir”. Es la cualidad más importante de un instrumento de
medida. Un instrumento puede ser fiable pero no valido; pero si es válido ha de
ser también fiable.
La Validez consta de 3 componentes:
 Validez de contenido
 Validez de criterio o criterial
 Validez de constructo
Las tres se refieren a aspectos diferentes y va a depender de cada tipo de test
VALIDEZ DE CONTENIDO
Se refiere al grado en que el test presenta una muestra adecuada de los

contenidos a los que se refiere, sin omisiones y sin desequilibrios de contenido.
Analiza e indica si los ítems o elementos del test son una muestra relevante y
representativa del constructo sobre el que se va a hacer inferencias. La forma
típica para llevar un estudio de validez de contenido es utilizar un grupo de
expertos que analizaran dos aspectos:
 Que el test NO incluya aspectos irrelevantes del dominio de interés.

 Que el test incluya todos los elementos importantes que definen el
dominio.
Para llevar a cabo la especificación del dominio hay que:
 Analizar las áreas de contenido que se quieren cubrir, se debe analizar

los procesos que se van a evaluar y la importancia relativa de cada uno
de ellos.
 Para determinar el rendimiento o actuación de un sujeto en un universo

de situaciones.
 Relevancia y representatividad de los ítems.
VALIDEZ DE CONSTRUCTO
Da significado a las puntuaciones de los test, permite obtener la evidencia de

que las conductas observables que han elegido como indicadores del
constructo (variable latente inobservable) realmente lo son, se centran en el
análisis de las relaciones entre: Las puntuaciones en los distintos ítems
(análisis de la estructura interna del test).
Para inferir el grado en que un sujeto posee algún rasgo atributo,
Medidas del mismo constructo obtenidas con otras pruebas.
Para ello debemos:
 Definir el constructo y su hipotética relación con determinadas conductas

con otros constructos
 Diseñar el instrumento, seleccionado ítems relevantes y representativos

del constructo.
 Obtener datos empíricos de las relaciones entre las puntuaciones del

test y las conductas observables.
VALIDEZ REFERIDA AL CRITERIO
La Validez criterial se refiere al grado en que el test correlaciona con variables

ajenas al test, criterios, con los que se espera por hipótesis correlacionar.
CORRELACIONAL
 Concurrente: test y criterio simultáneamente (diagnostico)
 Predictiva: criterio con posterioridad al test (selección y clasificación)
 Retrospectiva: criterio con anterioridad al test.

El Objetivo principal es evaluar la hipótesis de relación entre el test y criterio
Se utilizan 2 tipos de índices o medidas para describir la capacidad de un test

para predecir un criterio:
 Medidas correlacionales
 Medidas de error en la predicción
 Elección de los indicadores: Que sean relevantes, que estén libres de

sesgo, que sean fiables, deben ser accesibles.
CAPÍTULO V
LA SENSIBILIDAD O TIPIFICACIÓN
Tipificar, es el establecimiento de las normas que nos va a permitir comparar.

Las normas se extraen siempre del promedio de actuación de un grupo de
referencia (grupo normativo) al que tiene que pertenecer el sujeto o en base a
la muestra de normalización, pero debe ser realmente representativa de su
población de referencia.
Los test nos permiten obtener datos cuantitativos y cualitativos, arrojan

resultados que en sí mismos (puntuaciones brutas) no nos dicen mucho, pero
obtener más información cuando la comparamos con los resultados obtenidos
por otros grupos, así podemos interpretarla.
Existen dos formas para comparar los resultados, dependiendo de la forma en

que ha sido construido el test (por normas o por criterios), son las siguientes:
a. Normas: Se compara al sujeto con un grupo de referencia (otros sujetos).
b. Criterios: Se compara al sujeto con respecto a un objetivo a lograr (lo puedo

comparar consigo mismo), hasta qué punto se ha logrado o no el objetivo
propuesto (en lugar de comer una tableta de chocolate comer solo dos onzas al
día).
La mayor parte de los test están construidos en base a normas, fundamentados

en la teoría clásica de los test. Por lo tanto:
1. Se posiciona al sujeto dentro de un colectivo, un grupo de referencia en
cuanto a una característica. Existen diferentes formas de posicionar al sujeto,
por medio de percentiles, desviación típica.
2. Los resultados obtenidos se comparan y el sujeto adquiere una posición

relativa a un grupo de referencia (grupo normativo).
Los test basados en criterios tienen las siguientes características:
1. Se construyen y aplican con el fin de saber si un sujeto ha conseguido el

objetivo o no.
2. Para diferenciar si un sujeto se puede catalogar como apto o no para una

tarea determinada.
3. Se clasifica en base a la puntuación obtenida por el sujeto (lo comparo

consigo mismo.
4. Existen diferentes tipos de población por lo que se utilizan puntos de corte,

es decir, puntuaciones que diferencian, a un depresivo de un no depresivo, es
el punto donde se divide la población (hasta aquí es normal...), diferencia la
población normal de la clínica.
También existen diferencias en cuanto a cómo se hace la comparación y las

inferencias:
 Normas: Juega un papel primordial la varianza, lo que se busca

es una diferenciación, hacer una discriminación entre sujetos del
mismo. Por ejemplo, cuando se utiliza la campana de Gauss para
obtener la nota de un examen, la puntuación se obtiene en base
a las notas del mismo grupo.
 Criterios: Se trata de que todos los sujetos puedan llegar al
objetivo, no importa la varianza.
En los tipos de test hay que encontrar la fiabilidad, pero en:
a. Los test basados en criterios, se hace énfasis en que la fiabilidad se da en

las clasificaciones que hago en base a los criterios.
b. Los test basados en normas, la fiabilidad está en las medidas que tomamos
(un test es fiable si la medida es fiable).
Ambos tipos no son excluyentes, se pueden complementar.
Para tipificar un test se siguen los siguientes pasos:
1. Acotar la población a la que va dirigida el test.
2. Elegir una muestra normativa (parte representativa de la población) para

poder hacer inferencias a la población.
3. Para elegir la muestra utilizamos un muestreo (proceso de elección de
muestra, extrayéndose de la población). Para hacer el muestreo se utilizan
diferentes métodos: probabilístico, intencional u opinático, circunstancial o
errático, etc.; y a su vez existen diferentes técnicas para llevarlo a cabo:
aleatorio simple, por etapas, estratificado, etc.
4. Establecer normas de comparación (edad, sexo, grado, nivel

socioeconómico, cultura)
5. Aplicar el test.
6. En base a las normas se analiza la forma de actuación del grupo normativo y

obtiene la media de actuación.
Los métodos más usados para describir la posición de un sujeto respecto al

grupo son:
a. Puntuación típica (z).
b. Rangos percentiles. Son más fáciles de usar e interpretar, pero no son

exactos en la posición, conllevan más errores.
La puntuación típica (z), es el número de desviaciones típicas (relación directa

con las puntuaciones brutas) con respecto a la medida que tiene un sujeto.
Está puntuación típica (z) significa lo mismo en cualquier distribución, también
en diferentes grupos y variables. Se puede comparar un test con otro y
tenemos una posición exacta de la persona (cuánto se dispersa su grupo). La
media de una puntuación z es igual a cero.
Baremos, tablas de comparación, de transformación de puntuaciones. Están

construidos en base a una o varias escalas normativas (se aplican a un grupo o
muestra y en base a ella luego se hacen inferencias para la población). Existen
diferentes tipos:
a. Cociente intelectual (CI). Se trata de comparar la edad cronológica (EC) con

la edad mental (EM). Es la media de actuación de cada edad, punto de
referencia. En base a ese promedio, por ejemplo, sabemos que un niño de 6
años que ha obtenido 8 puntos está en la media esperada para su edad, si
saca 10 puntos está por encima de la media de su edad y tiene una edad
cronológica de actuación de un niño de 8 años. CI = (EC/EM) x 100
Ventajas: el CI tiene un uso universal y una interpretación generalizada.
Desventajas: el desarrollo es diferente según la edad y la interpretación es

diferente, el CI es dependiente de eso. Es difícil ver las diferencias después de
los 18 años.
b. Escalas centiles. Ordenan al grupo, respecto a la actuación que todos los

sujetos tienen. Pueden ser centiles o percentiles.
Los percentiles son bastante usados, pero son poco estables. Son porcentajes
y no tienen equivalencia unos con otros, solo se pueden comparar los que son
de la misma distribución y variables. Por ello, se utilizan las puntuaciones
típicas z, pues son transformaciones lineales, el sujeto mantiene la misma
posición, nos da una idea exacta de la puntuación del sujeto. Puede comparar
entre grupos, dentro del mismo grupo, con el propio sujeto, comparar una
variable con otra, se pueden hacer múltiples comparaciones.
La desventaja es que z tiene un valor de + 3, es un límite muy corto, no son

enteras las puntuaciones, se pueden tener puntuaciones negativas y son más
difíciles de interpretar por ello se utilizan menos.
c. Puntuaciones típicas normalizadas (Zn). Son puntuaciones transformadas y

normalizadas, se ajustan a la curva normal. Pueden ser eneatipos o estaninos
(media 5 y desviación típica 2), puntuaciones de 0 a 9, y decatipos (media 6 y
desviación típica 2), puntuaciones de 1 a 10. Un decatipo se puede comparar
con otro, es más estable que el percentil. Son fáciles de interpretar y son
positivas.
Esta supone la uniformidad de procedimiento en la aplicación y puntuación de

las pruebas, si han de ser comparadas las puntuaciones obtenidas por varios
sujetos, es obvio que las condiciones de aplicación de los test deben ser las
mismas para todos, este requisito no es más que una aplicación especial por la
necesidad de mantener condiciones controladas en todas las observaciones
científicas. En una prueba la única variable independiente suele ser el individuo
mismo al que se la aplica.
Con el fin de lograr la igualdad en las condiciones de la aplicación de un test su

elaborador proporciona instrucciones detalladas para lograr una buena
tipificación, como son:
 Los materiales empleados.

 Los límites de tiempo.
 Las instrucciones orales a los sujetos.
 Las demostraciones previas.
 La forma de resolver las dudas planteadas por los sujetos y todos los
demás detalles de la situación de los test.
También es importante al tipificar, establecer normas, porque sin estas no es

posible interpretar las puntuaciones de los test.
Los test psicológicos no tienen modelos predeterminados aprobados o

suspensos, así puede valorarse si se compara con otras puntuaciones
obtenidas.
En el proceso de la tipificación de un test este debe aplicarse a una muestra

que sea la representación del tipo de sujetos a los que está destinado, este
grupo se conocerá como “muestra de tipificación”, servirá para establecer las
normas que no sólo indican el promedio de actuación, sino también la
frecuencia relativa de los diferentes grados de desviación por encima o por
debajo del promedio, así se podrá valorar tanto la superioridad como la
inferioridad de cada respuesta.
La medida objetiva de la dificultad además del test ser una medida tipificada
también es una medida objetiva y existen sistemas importantes para que un
test sea descrito adecuadamente como objetivo, como son:
· La determinación del grado de dificultad de un elemento o test completo.
· La medida de fiabilidad y la validez de un test que están basados en

procedimientos empíricos objetivos.
Los niveles de dificultad de los test dependen directamente de los elementos

que lo constituyen, la distribución de las puntuaciones totales proporcione un
control completo de la dificultad del test total para la población a la cual se
destina.
CAPITULO VI
EL PROCESO DE LA CONSTRUCCION DE UN TEST
6.1 La elección del tema y la muestra

Si queremos obtener instrumentos con equivalencia conceptual, lingüística y
métrica; debemos realizar un trabajo fundado en habilidades y conocimientos
de especialistas que tengan en cuenta la cultura, el idioma, las metodologías
de investigación y el correcto uso de los procedimientos estadísticos o sea que
la calidad de la adaptación de una prueba es el resultado de la calidad de los
diversos pasos y de la cadena sucesiva de decisiones interdependientes que
se deben tomar (Mikurlic, 2004).
Los procedimientos utilizados para la construcción de pruebas psicológicas
tienen como fin asegurar que estas alcancen sus finalidades y metas
deseadas.
Mientras que la mayoría de los atributos físicos (altura, peso, etc. …) resultan
directamente medibles, los atributos (constructos o rasgos) psicosociales
resultan ser conceptualizaciones teóricas que nos son accesibles a la medición
directa y para los que no existen “metros” o “balanzas” diseñados para medirlos
de manera precisa.
Así; la actitud hacia el aborto, el nivel de cohesión grupal, el grado de
extroversión, el cociente intelectual, la postura hacia el consumo de drogas, el
grado de liderazgo, la inseguridad, la satisfacción, el nivel de acuerdo con
ciertas opiniones, etc., todos ellos son constructos que deben medirse
mediante instrumentos específicamente diseñados: los test, cuestionarios o
inventarios.
Nadie dudaría que una cinta métrica bien diseñada mide longitud y que lo hace
a amanera precisa, pero la bondad y la precisión de un cuestionario no se
puede presuponer; más bien son una cuestión de grado y siempre susceptibles
de mejora.
En consecuencia, el primer paso consiste en proporcionar una definición
operacional del constructo o rasgo que se pretende medir. Por ejemplo, si se
habla de dogmatismos deben establecerse los diversos componentes o
manifestaciones del mismo: dogmatismos ante la política, ante la educación de
los hijos, ante la religión, en las relaciones familiares, … Muy relacionada con
esta definición operativa es la cuestión del establecimiento de los objetivos que
se pretenden conseguir ene el cuestionario.
Contexto en el que se utilizara, debe tenerse en cuenta dos elementos.
LA POBLACION en la que se espera administrar el instrumento, estudiantes,
pacientes adultos, viejos, niños menores de 10 años, trabajadores. Las
preguntas, formatos de respuesta o instrucciones serían distintas dependiendo
d la población y el contexto.
CONTEXTO DE ADMINISTRACIÓN, escuela, hospital, sala de espera, on line.
Si la escala se utilizara en contextos de investigación que son sensibles al
tiempo de respuesta, los pasos subsecuentes se enfocaran probablemente en
la brevedad.
6.2 El marco teórico y las dimensiones

Justificación y motivación: razones que motivan la necesidad de construcción
del instrumento. Contexto de aplicación: Población y contexto de aplicación.
Aplicación individual versus colectiva, formato de aplicación.
Uso e interpretación de las puntuaciones: decisiones que se toman a partir de
las puntuaciones.
No todos los test tienen que ser unidimensionales.
Establecer las razones para su desarrollo y especificaciones para su contexto
de aplicación.
Revisar la literatura relacionada a la variable para delimitarlo, dimensionarla y
definirla de forma operativa.
El constructo se mide a través de varios comportamientos (o aspectos) que
están relacionados entre sí.
Dimensiones: La dimensionalidad de una escala o estructura factorial, refleja el
número y la naturaleza variable que miden los ítems.
Se espera relación entre ítems y el constructo de interés
Unidimensional, Multidimensional
6.3 Redacción de ítems, indicadores y anclas

La construcción de los ítems constituye una de las etapas más cruciales dentro
del proceso de elaboración del test. Los ítems son la materia prima, los ladrillos
a partir de los cuales se conforma un instrumento de evaluación, por lo que una
construcción deficiente de los mismos incidirá en las propiedades métricas
finales del instrumento de medida y en la validez de las inferencias que se
hagan a partir de las puntuaciones (Haladyna y Rodríguez, 2013; Lane,
Raymond y Haladyna, 2016; Muñiz. Et al., 2005; Osterlind, 1998; Schmeiser y
Welch, 2006).
Los principios básicos que deben regir la construcción de cualquier banco de
ítems son:
Representatividad, relevancia, diversidad, claridad, sencillez, y
comprensibilidad (Muñiz et al., 2005). Los ítems deben ser heterogéneos y
variados para así escoger una mayor variabilidad y representatividad de la
variable. Debe primar la claridad y la sencillez, se debe evitar tecnicismos,
negaciones, dobles negaciones, o enunciados excesivamente prolijos o
ambiguos (Muñiz,2018; Muñiz et al.,2005). Una práctica habitual es formular los
ítems positivamente junto con otros inversos y luego recodificar; sin embargo,
esta estrategia no está libre de limitaciones (Suarez et al.,2018). Del mismo
modo los ítems deben ser comprensibles para la población a la cual va dirigido
el instrumento de medida, utilizando un lenguaje inclusivo y evitándose en todo
momento un lenguaje ofensivo y/o discriminatorio. Ítems con una redacción
defectuosa o excesivamente vagos van a incrementar el porcentaje de varianza
explicada por factores espurios e irrelevantes, con la consiguiente merma en la
validez de la prueba.
En relación con los ítems, se debe especificar el tipo, numero, la longitud, el
contenido y el orden (disposición) de los mismos, así como el formato de
respuesta o el tipo de alternativas que se va a utilizar.
Durante las fases iniciales de la construcción del banco de ítems se
recomienda que el número de ítems inicial sea como mínimo el doble del que
finalmente se considera que podrían formar parte de la versión final del
instrumento de medida.
Mención especial requieren los ítems tipo Likert, cuyo nombre proviene del
trabajo original del autor (Likert, 19329, tan omnipresente en el ámbito de la
medición de las actitudes, opiniones, preferencias, creencias y otros campos
afines.
ANALISIS DE LOS ITEMS: Se refieres a establecer las propiedades de los

ítems:
- Homogeneidad del item, frecuentemente expresada como una
correlación entre el item y el total de la escala.
- Validez del item, expresada como su relación con criterios externos.
- Dificultad del item, de interés únicamente para los ítems que tienen
respuesta verdadera o correcta.
DIMENSIONALIDAD DE LA ESCALA: trata de responder a la pregunta:
¿Estos ítems forman una única dimensión? Se pretende ver si el conjunto de
ítems representa una dimensión o, por el contrario, dos o más dimensiones.
Para ellos se utilizan tres grandes grupos de estadísticas:
- Técnicas de análisis factorial
- Técnicas de análisis de cluster
- Técnicas de escalamiento multidimensional
6.4 Jueces y aplicación piloto

Es necesario identificar un grupo de personas que tenga un amplio
conocimiento del constructo. Estos revisaran nuestros ítems y confirmaran si
los mismos van a tono con nuestro constructo y su definición.
Claridad y consistencia
De acuerdo con las recomendaciones establecidas por los expertos, se debe
observar si existe algún problema con los ítems.
- Evaluar si ítems presentan deseabilidad social
- Error de redacción
- Considerar incluir o excluir ítems
¿Cuál extensa pudiera ser la muestra de piloto?
Algunos autores sugieren 300. DeVellis (2012) sugiere que se han optimizado
con éxito en muestra más pequeñas.
Examinar el funcionamiento general del test en una muestra elegida para
evaluar y mejorar la calidad de los ítems
Otra aplicación importante de las estadísticas es investigar la calidad de los
instrumentos de investigación, como las escalas de encuesta y sus ítems.
REFERENCIAS
 Muñiz, J. (Ed.) (1996). Psicometría. Madrid: Universitas

 Suarez, J., Pedrosa, I., Lozano, L., García- Cueto, E., Cuesta, M., y
Muñiz, J. (2018). Using reversed ítems in Likert scales: Aquestionale
practice. Psicothema, 30, 149-158.
 Martínez Arias, M. R. (1995). Psicometría. Teoría de los test psicológicos
y educativos. Madrid, España: Síntesis.
 Amon J. (1984). Estadística para psicólogos. Probabilidad Estadística
inferencial. Volumen 2. 3° edición. Madrid: Pirámide
 Mikurlic, I; Muñoz, R. (2004). La construcción y uso de instrumentos de
evaluación en la investigación e intervención psicológica: El Inventario
de la Calidez de vida percibida (ICV). Facultad Psicología-UBA,
secretaria de investigaciones, XII Anuario de investigaciones, de la pág.
193-202
 DeVellis, R. (2012). Scale Development: Theory and Applications. United
States: SAGE

Brennan, R. L. (2001). Generalizability theory. Springer.
 Olea, J. & Ponsoda, V. (2003). Test adaptativos informatizados. Madrid:

UNED. Ostini, R. & Nering, M. (2005). Polytomous item response theory
models. Newbury Park, CA: Sage. Rasch, G. (1960). Probabilistic
Models for Some Intelligence and Attainment Tests. Copenhague: The
Danish Institute for Educational Research. Richaud, M. C. (2005).
 Aracil, J. (1986). Máquinas, sistemas y modelos. Madrid: Tecnos.
 Aristóteles (1973). Obras completas. Madrid: Aguilar.
 Test Psicológico y Evaluación fed, México. Prentice-hall,1996

Libro de Psicometria

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Libro de Psicometria

Cargado por

Copyright:

Formatos disponibles

CURSO: CONSTRUCCIÓN DE PRUEBAS PSICOLÓGICAS

Docente: Claudia Guevara Cordero

Alday Arteaga, Leandra N00266606

Capítulo II: Las teorías psicométricas………………………………………….

Capítulo III: La confiabilidad ………………………………………………………

Estos procesos psicológicos se miden a partir de estudios que permiten

La Sociedad de Psicometría Americana está dedicada al avance de las

La psicometría es la parte de la psicología que orienta las acciones que

La finalidad de este tema es presentar la Psicometría e introducir uno de sus

Se considera que el nacimiento de la psicometría se remonta a mediados del

LAS TEORÍAS PSICOMÉTRICAS.

2.1 Las teorías clásicas de los test (TCT)

Para una interpretación y utilización adecuada de las propiedades

Los test constituyen seguramente la tecnología más sofisticada de la que

2.2. La Teoría de la Generalizabilidad (TG)

La Teoría G consiste en un marco de referencia conceptual y una metodología

2.3. La Teoría de Respuesta al ítem (TRI)

El objetivo de este trabajo es introducir al lector en las nociones básicas de la

Teoría de Respuesta al Ítem la denominación TRI agrupa líneas de

Este artículo trata de clarificar la frecuente confusión que tienen muchos

El paradigma postpositivista se ha instalado en el campo académico después

Una investigación con buena confiabilidad es aquella que es estable, segura,

La Validez de un test nos indica el grado de exactitud con el que mide el

La Validez consta de 3 componentes:

 Validez de criterio o criterial

Las tres se refieren a aspectos diferentes y va a depender de cada tipo de test

Se refiere al grado en que el test presenta una muestra adecuada de los

 Que el test NO incluya aspectos irrelevantes del dominio de interés.

Para llevar a cabo la especificación del dominio hay que:

 Analizar las áreas de contenido que se quieren cubrir, se debe analizar

 Para determinar el rendimiento o actuación de un sujeto en un universo

 Relevancia y representatividad de los ítems.

Da significado a las puntuaciones de los test, permite obtener la evidencia de

Para inferir el grado en que un sujeto posee algún rasgo atributo,

Medidas del mismo constructo obtenidas con otras pruebas.

Para ello debemos:

 Definir el constructo y su hipotética relación con determinadas conductas

 Diseñar el instrumento, seleccionado ítems relevantes y representativos

 Obtener datos empíricos de las relaciones entre las puntuaciones del

VALIDEZ REFERIDA AL CRITERIO

La Validez criterial se refiere al grado en que el test correlaciona con variables

 Concurrente: test y criterio simultáneamente (diagnostico)

 Predictiva: criterio con posterioridad al test (selección y clasificación)

 Retrospectiva: criterio con anterioridad al test.

Se utilizan 2 tipos de índices o medidas para describir la capacidad de un test

 Medidas de error en la predicción

 Elección de los indicadores: Que sean relevantes, que estén libres de

Tipificar, es el establecimiento de las normas que nos va a permitir comparar.

Los test nos permiten obtener datos cuantitativos y cualitativos, arrojan

Existen dos formas para comparar los resultados, dependiendo de la forma en

a. Normas: Se compara al sujeto con un grupo de referencia (otros sujetos).

b. Criterios: Se compara al sujeto con respecto a un objetivo a lograr (lo puedo

La mayor parte de los test están construidos en base a normas, fundamentados

2. Los resultados obtenidos se comparan y el sujeto adquiere una posición

Los test basados en criterios tienen las siguientes características:

1. Se construyen y aplican con el fin de saber si un sujeto ha conseguido el

2. Para diferenciar si un sujeto se puede catalogar como apto o no para una

3. Se clasifica en base a la puntuación obtenida por el sujeto (lo comparo

4. Existen diferentes tipos de población por lo que se utilizan puntos de corte,

También existen diferencias en cuanto a cómo se hace la comparación y las

 Normas: Juega un papel primordial la varianza, lo que se busca

En los tipos de test hay que encontrar la fiabilidad, pero en:

a. Los test basados en criterios, se hace énfasis en que la fiabilidad se da en