Propiedades de Un Instrumento - Salvatierra2020

Propiedades de un instrumento de recolección de
información: la validación y la confiabilidad
ANGEL SALVATIERRA MELGAR
Corrección de texto: Johanna Guillermo Marcelo

Tiraje:
ANGEL SALVATIERRA MELGAR
Copyright © 2020
Todos los derechos reservados.
ISBN: 9798606711741
A: Mi madre Mercedes,
Johanna, Diego y Emilio
AV. JAVIER PRADO ESTE 4921 OF. 07, CAMACHO –LA
MOLINA- LIMA-PERÚ DIRECTOR: EFER SOTO
EDITOR DE CONTENIDOS: Dr. Pedro Félix Novoa Castillo
http://editorialapogeo.blogspot.com/
Con el objetivo de publicar libros productos de una investigación científica

dirigido a investigadores que merezcan su difusión tanto digital como física,
la editorial Apogeo conformó en enero del 2018 su colección “Libro de
investigación”. Colección que conformó un comité científico con doctores
de las universidades UNMSM, UNFV, UCV, USIL para asegurar la calidad
de los libros publicados. Se implantó entre otros requisitos que los libros
hayan sido producto de un trabajo de investigación, o la versión ligeramente
adaptada de una tesis de pre o pos grado. Asimismo, se optó por la revisión
de dos pares ciegos para que dictamen la idoneidad de la obra a publicarse.
La obra: Propiedades de un instrumento de recolección de

información: la validación y la confiabilidad presentado por ANGEL
SALVATIERRA MELGAR, cumplió todos los requisitos antes
mencionados.
Dr. Pedro Félix Novoa Castillo
EDITOR DE CONTENIDO DE LA PRESENTE OBRA
Índice
I
Conceptos preliminares
Tipos de validación
Medición y evaluación
Instrumentos de acopio de datos.
Tratamiento de variables
II
Elaboración de pruebas y el proceso de validez interna.
Determinación de los propósitos y usos de pruebas.
Validez de contenido.
Validez de constructo o de concepto.
Validez predictiva.
Validez concurrente.
Validez estadística o empírica
Confiabilidad el coeficiente Alpha (Cronbach).
Evaluación de pruebas de diagnóstico (la curva ROC).
Terminología y sus derivados a partir de una matriz
Índice de discriminación de un ítem.
Índice de fiabilidad y error de medición.
Error estándar de media.
III
Aplicación del proceso de validación y confiabilidad
Para el proceso de sensibilización y especificidad.
Procedimientos técnicos de validez y confiabilidad para un cuestionario.
Aspectos conceptuales del instrumento
Proceso de validación del instrumento.
Descripción de la aplicación del instrumento.
Análisis exploratorio
Proceso de confiabilidad.
Modelo del análisis factorial confirmatorio
Validez confirmatoria
Introducción
El presente texto contempla aspectos teórica y prácticos a los procesos

de valoración de los instrumentos dentro del campo de la investigación
enfocado desde los aspectos conceptuales, operacional y de la
aplicación de programas estadísticos que permite obtener resultados
confiables y valederos para la toma de decisión, este libro se enmarca
dentro de los argumentos teóricos de la validez y confiabilidad de
instrumentos antes de su aplicación y recojo de los datos, puesto que la
información que se emite, se encuentra organizada de manera lógica en
capítulos, el cual se aborda manteniendo el progreso y avance de las
temáticas de aprendizaje cuidando el orden y la formalidad de los
conceptos y aplicaciones estadísticas.
Al respecto, el material se encuentra organizado por capítulos. Dentro

del capítulo I, se abordan los conceptos preliminares fundamentados a
partir de los marcos científicos referente a los contenidos conceptuales
asociados a casos y situaciones cotidiana durante el proceso practico de
la validez y confiabilidad, en cuanto al capítulo II se muestran los
conceptos y los procesos de la elaboración de pruebas y el proceso de la
validez interna, donde se muestran los procedimientos estadísticos de
cálculo para la obtención de los indicadores, indicadores y coeficientes
valorativos, dentro del capítulo III se muestran los criterios de la
aplicación del proceso de validación y la confiabilidad apoyado con el
soporte del programa del SPSS – Amos y aplicaciones prácticas del
proceso de validez y confiabilidad.
Finalmente, pongo en disposición el presente material a todas las

personas que trajinan en el fascinante mundo de la investigación, que
con sus aportes y sugerencias fortalecerán las diversas posturas a los
temas tratados.
Angel Salvatierra Melgar

I
CONCEPTOS PRELIMINARES
La evaluación desde el punto de la psicopedagógica no se reduce solo a

la aplicación de pruebas, sino que supone la observación conductual,
integrando los datos brindados por las calificaciones de las pruebas u
otras fuentes de información (como la entrevista, cuestionarios,
pruebas objetivas, escalas de medición, etc) utilizadas por el evaluador
para la toma de decisiones. Los conceptos frecuentes para el desarrollo
de este capítulo, se muestran a continuación.
Validez. Es el grado con el cual un test o prueba mide lo que se supone

que debe medir.1 En efecto, hace referencia a que el instrumento
cuantifique los rasgos significativos medibles a partir de los indicadores
Confiabilidad. Es la estimación del grado de consistencia de una

medición. La confiabilidad de una aprueba es la consistencia de las
puntuaciones obtenidas por las mismas personas cuando se les aplica la
misma prueba o una forma equivalente en distintas ocasiones2
Estandarización. Es el proceso del desarrollo de los controles necesarios

para que la situación de prueba sea lo más semejante posible para
todos los evaluadores.2
Adaptación. Es el proceso a través del cual se adecua o modifica un

instrumento para un contexto sociocultural determinado. Este proceso
implica la revisión y adaptación lingüística de las instrucciones y los
ítems de la prueba.2
Validación. Es el proceso a través del cual se establece la validez de un

instrumento de medición. Puede llevarse a cabo considerando las tres
formas de validez: contenido, constructo y criterio.3
Baremación o normalización. Es el proceso por el cual se transforman

las puntuaciones directas alcanzadas en una prueba en puntuaciones
derivadas o transformadas con la finalidad de poder interpretarlas.4
Validación. Es el proceso, donde un grupo de personas; temáticos,
metodólogos, psicométrico, estadísticos, tecnólogo, especialista con
amplia experiencia argumentan su postura u opinión sobre los
instrumentos1
Elementos a validar. De acuerdo con Joya (2003)5 al validar se busca

conocer:
Atracción: Se refiere a la forma del material para el quien va dirigido; la

presentación, el formato, el uso del tipo y tamaño de letra, las
ilustraciones, la diagramación, calidad de la imagen, el uso de un
lenguaje adecuado, y la satisfacción al verlo o escucharlo de quien
entrevista.
Comprensión: Permite identificar la facilidad o claridad de los textos o
ítems; sin generar especulaciones o confusiones.
Aceptación: Indica si el material es aceptado por el perceptor
Involucramiento: Se refiera al documento que busca internalizar la
empatía con el perceptor y debe lograr que éste se involucre y actúe
poniendo en práctica lo que le propone el instrumento.
Proceso de validación
Conformación del equipo Selección del material a
Definición de objetivos
validador validar
Elaboración de
Programación del trabajo Determinación de la
instrumentos para
de campo población que va a validar
recoger la información
Procesamiento y análisis Conclusiones y

Trabajo de campo
de la información recomendaciones
Figura 6.1. Proceso de validación de instrumentos de toma Elaboración del informe

de datos final
En referencia a los conceptos tratados, abordaremos el estudio bajo las

dos formas más utilizadas en el campo de la investigación científica:
Instrumentos de percepción; cuestionarios (tipo Likert) e instrumentos
de conocimiento (evaluación objetiva)
Se muestra el cuestionario de ciudadanía intercultural, que fue elaborado por Aguirre, F.

2018, Lima.
Cuestionario de Ciudadanía Intercultural
Información general. Marca con un aspa lo que corresponde a su perfil
Grado que cursa Primero Segundo Tercero Cuarto Quinto
Permanencia en la institución educativa.

1 año ( ), 2 años ( ), más de 3 años ( )
Instrucciones. A continuación se muestran un conjunto de enunciados con relación a la

Ciudadanía Intercultural, se solicita su marcado (X) correspondiente después de leer
cuidadosamente cada enunciado teniendo en cuenta los índices valorativos
1 2 3 4 5
Totalmente en En De Totalmente de
Indeciso
desacuerdo desacuerdo acuerdo acuerdo
1 La diversidad cultural de mi país me hace sentir orgullo 1 2 3 4 5

2 Me siento a gusto al convivir con estudiantes de diferentes culturas 1 2 3 4 5
3 Me atrae la idea de hacer amigos con personas de otras culturas 1 2 3 4 5
4 Me siento bien al tratar con estudiantes de la zona andina 1 2 3 4 5
Convivencia
5 Me siento bien al tratar con estudiantes de la zona amazónica 1 2 3 4 5

6 Me siento bien al compartir con estudiantes de la amazonia 1 2 3 4 5
7 Me siento bien al compartir con estudiantes andinos. 1 2 3 4 5
8 Me gusta realizar trabajos con estudiantes de la amazonia 1 2 3 4 5
9 Me gusta realizar trabajos con estudiantes de la sierra 1 2 3 4 5
10 Me interesa conocer las costumbres de otras regiones 1 2 3 4 5
11 Me gusta escuchar diferentes formas de hablar 1 2 3 4 5
Considero que participar en las actividades sociales de mi comunidad
12 1 2 3 4 5
es una necesidad.
Considero que participar en las actividades educativas de mi colegio es
13 1 2 3 4 5
una necesidad.
Es importante participar en actividades de la institución dirigidas a la
14 1 2 3 4 5
comunidad.
15 Gran parte de mi vida se enfoca en la participación en la comunidad 1 2 3 4 5
Participación
Me siento motivado participar en las actividades de mi institución

16 1 2 3 4 5
educativa.
17 Pienso que la participación ciudadana hace un mundo mejor 1 2 3 4 5
18 Siento que es una obligación participar en la tares de mi comunidad. 1 2 3 4 5
Es importante participar con las autoridades para mejorar mi
19 1 2 3 4 5
comunidad
Es importante exigir a las autoridades que realicen acciones para la
20 1 2 3 4 5
mejora de mi institución educativa
Es importante exigir a las autoridades que realicen acciones para la
21 1 2 3 4 5
mejora de la comunidad.
¡Muchas gracias!
1.2. Tipos de validación

La propuesta de los tipos de validación se basan en lo propuesto por
Escobar- Pérez y Cuervo -Martínez (2008).6
Validación técnica Todo material educativo, instrumento de evaluación
y de percepción debe ser circulado para que sea retroalimentado y
mejorado, la validación técnica es anterior a la validación comunitaria.
Validación comunitaria. Una vez realizada la validación técnica con el
borrador final se planea la validación comunitaria que consiste en la
validación con el grupo destinatario final seleccionado bajo las
características muestrales.
Modelos de validación. Se debe seleccionar la técnica adecuada para la

validación de los materiales educativos, instrumentos de evaluación e
instrumentos de percepción ésta se define de acuerdo con la naturaleza
y objetivos de los materiales, el grupo seleccionado, la cantidad de
tiempo y los recursos disponibles. Las técnicas más frecuentes usadas
son.
Entrevista Personal. Es el diálogo entre dos personas con el fin de
intercambiar información del estudio y el instrumento o
cuestionario.
Grupos focales. Es una técnica de investigación cualitativa que
permite obtener información directa de un grupo relativamente
pequeño, ya que se hace con grupos de entre 3 a 10 sujetos.
Medición y evaluación
Medición. Es emitir un valor o juicio a un objeto, sujeto, fenómeno,

hechos, etc. según reglas específicas para representar la cualidad de un
atributo, en este sentido desde el enfoque cuantitativo, no se mide el
hecho de la persona ni el objeto sino sus atributos (es una cualidad o
característica propia de quien se observa).
A continuación, se muestran algunos atributos; que porciento se pueden
identificar dependiendo de los lentes del observador al objeto.
Observado Atributo.
Ser humano Inteligencia
Estudiante Logro alcanzado
Empresa de producción Cantidad de productos
Municipalidad Recaudación de impuestos
Paciente (trillaje) Talla
Por. S. Stevens (1951; citado por Carballo y Guelmes, 2016)7 La
medición es, conocer la verdadera magnitud del fenómeno, de ahí que
resulta muy importante que toda auténtica medición sea isomórfica
con la realidad que se está midiendo; aunque en realidad no se mide el
fenómeno directamente, sino los indicadores de sus características
(atributos).
Observado Atributo. Medición

Muy superior
Superior
Ser humano Inteligencia Normal
Promedio
Fronterizo
Deficiente
Logro muy satisfecho
Estudiante Logro alcanzado Logro satisfecho
Logro básico
Logro inicial
Empresa de producción Cantidad de productos 1200 empaques diarios
Recaudación de Baja
Municipalidad impuestos Regular
Alta
Paciente (trillaje) Talla 1 metro con 75
centímetros
Niveles de medición. Siguiendo a S. Stevens8 las escalas de medición son:

nominal, ordinal, de intervalo y de razón o proporcional.
a. Escala nominal. Este nivel de medición consiste en asignar nombres o

denominar; lo que quiere decir los números que se asignan
representan nombres o clasificaciones.
Los números que se asignan representan nombres o clasificaciones; no

representan un valor verdadero, solo representan a las etiquetas.
Las escalas variables que se miden en este nivel generalmente son

las cualitativas o categóricas. Estas categorías pueden ser
“nominadas ó denominadas” según el objeto de estudio del
investigador.
El tipo de gestión de las universidades puede ser:

Nacional (1)
Particular (2)
Variable Cualidades Etiqueta
(atributos)
El tipo de gestión de - Nacional (1)
las universidades - Particular (2)
- Ingeniero. (1)
- Abogado (2)
Carrera profesional - Profesor (3)
- Medico (4)
- Psicólogo (5)
- Administrador (6)
La medición de la escala nominal, podría representarse a nivel de
comparación entre las cualidades de su categoría.
Variable Categorías Medición

Por genero Por derechos
Sexo Masculino Diferentes Iguales
Femenino ≠ =
Las mediciones dentro de las escalas nominales se presentan a
nivel de: ≠, =
b. Escala ordinal. La medición ordinal incorpora un elemento nuevo:
indica el orden, precedencia o prelación en el que se hallan los
sujetos; (ascendente o descendente).
En este caso funciona el tercer postulado (A es mayor que B y B es mayor que C, en
consecuencia, A es mayor que C).
Clasifica la prioridad de la profesión asignando las etiquetas del 1 al

5; donde el 5 indica la prioridad máxima de acuerdo a su percepción.
Variable Categorías Prioridad Nota: al menos que se nos

Profesión - Ingeniero. ………… pidiera valorar (emitir juicio
- Abogado ………… valorativo); el cual estaríamos
- Profesor ………… acercándonos a otro tipo de
escala por la teoría de
- Medico …………
escalamiento.
- Psicólogo …………
Con respecto a los cuestionarios de escala tipo Likert.
Es una herramienta muy utilizada por los investigadores cuando desean evaluar las
opiniones y actitudes de una persona
La escala, asume la fuerza e intensidad de manera lineal, orientado
desde índices positivo, neutrales y negativos.
(+) Positivo
Muy de Algo de Ni de acuerdo ni Algo en Muy en de
acuerdo acuerdo en desacuerdo desacuerdo acuerdo
(-) Negativo
La medición de la escala ordinal, podría representarse a nivel de

comparación entre las cualidades y desigualdades entre sus categorías.
Variable Categorías Medición

Por jerarquía
Categoría Auxiliar Diferentes con
docente Asociado presencia de orden
universitario Principal
≠, >, <
Las mediciones dentro de las escalas ordinales se presentan a nivel de:
<, >, ≠ y =
c. Escala de intervalo.
Es la escala de medición de valores reales mas no relativas, intervalo, en
el que se establecen distancias iguales para cada puntuación, es decir, se
diseña una escala con intervalos iguales.
Se usa en la medición de variables continuas y se inicia de cero relativo y

mantiene un intervalo similar de separación; con esta escala se obtiene
promedios de un conjunto de mediciones, de los instrumentos de escala
de actitudes, test de aprovechamiento, etc.
La temperatura de hoy registra 25° centígrados, el coeficiente

intelectual de Emilio 101. Entre otros; son ejemplos, donde se aprecia
que en el instante no inicia de 0 su medición.
d. Nivel proporcional o de razón.
Este nivel es el más elevado de la medición. Es el ideal de la medición

científica. Una escala de este tipo, además de poseer las características
de los niveles que se han descrito, parte del concepto de cero. En el
nivel de medición de razón se puede elaborar escalas que consideren
valores sobre cero o bajo cero, como es el caso de las escalas para
medir la temperatura o la presión atmosférica. Con estas escalas se
puede realizar todas las operaciones aritméticas. La medición de la
temperatura o de la presión atmosférica son ejemplos de mediciones
realizadas en el nivel proporcional, debido a que informan de
temperaturas o niveles de presión atmosférica sobre cero o bajo cero,
pero la medición que se expresa bajo cero, indica la presencia de
alguna magnitud y no la ausencia total de la característica.
Entre algunos ejemplos, se tiene: El peso en kilogramos de un objeto.

12,30 kg. La longitud de los lados de una figura geométrica. Entre otras
medidas; necesario de tomar un instrumento y realizar la medición
respectiva que si inicia del punto referencial cero
Niveles de medición.
Evaluación. La evaluación presenta una connotación muy diferenciada

a la medición, al respecto, Cerda (2003), la evaluación consiste en un
juicio valorativo sobre lo que está ocurriendo e involucra una
interpretación de la información que poseemos, asimismo la evaluación
tiene connotaciones ideológicas y axiológicas, de manera que por más
objetiva que pretenda ser, en el juicio emitido están inscritos los
criterios y los valores de la moral y la cultura dominante del medio.
Instrumentos de acopio de datos.

Los instrumentos que pueden medir las características de las variables se
denominan test o pruebas, son los instrumentos que sirven para medir
distintas variables conductuales. Las pruebas o instrumentos para estudiar
variables conductuales son los siguientes:
 De medición de los aprendizajes.
 De actitudes o de opiniones.
 De inventario. Para el presente caso, enfatizaremos lo de
medición de los aprendizajes. 8
Pruebas de medición de los aprendizajes. Las pruebas para medir
aprendizajes se deben elaborar pensando en las características y las
necesidades de la investigación, por lo que su aplicabilidad se halla limitada a
éstas y condicionada para la muestra elegida.
Test o prueba de conocimiento. Exigen a los examinados, respuestas

comparativas, se denomina así porque tiene un criterio de validez externo.
Generalmente utiliza la escala intervalar.
Por ejemplo: ¿Quién descubrió la América?; ¿Cuánto es la raíz cuadrada de 49?
o Identifica el tipo de función, entre otras. A medida que los estudiantes
aciertan a los cuestionamientos van incrementando su puntaje desde el punto
inicial.
Test de sentimiento llamadas también de opiniones, se indaga acerca de las

actitudes u opiniones de los individuos con respecto a ciertas situaciones que
plantea el investigador.
Por ejemplo: ¿Me agrada resolver problemas aritméticos?; ¿Como se siente en
clase?
Tratamiento de variables
La variables conceptuales. Conforman la estructura del objeto; ejemplo

módulos, currículum, planes curriculares, sesiones de aprendizaje, materiales
de enseñanza, etc.
La variables operacionales. Conforman las dimensiones de las variables
conceptuales y constituyen el elemento medible u operacional; ejemplo
cognición, procedencia escolar, rendimiento académico, etc.
Operacionalidad de variable. Pues bien, llamaremos operacionalización al
proceso mediante el cual se determina los indicadores observables de una
variable inobservable. Como puede observarse la operacionalización es la
operación inversa a la conceptualización.
En la conceptualización se parte de ciertos indicadores y con ellos se forma el
concepto. En cambio, en la operacionalización se parte del concepto y se
Indicador
Variable Indicador Población

inobservable de estudio
Indicador
determina sus indicadores.
Diagrama de operacionalidad de la variable.
Indicador. Representan a los rasgos observables de manera empírica, o

podrían ser enunciados donde el sujeto es implícito.
Proceso de operacionalidad
DEFINICIÓN Variable “x” …….. xxx…. Yyy …… zzzz …… qqqqq

CONCEPTUAL
…….
DIMENSIONES xxxxx Yyyyy zzz qqqq

y
INDICADORES
satur
…………… …………… …………… …………… ación
REACTIVOS …………… …………… …………… ……………
.. .. .. ..
Señale Ud quien es representante del cognitivismo.
a. Bandura ( 1 )
b. Skinner ( 2 ) INDICE
c. Bruner ( 3 )
d. Norman ( 4 ) DATOS
Diagrama del proceso de operacionalidad de la variable.
La operacionalizacion de la variable, es un proceso deductivo, consiste en

disgregar en componentes, procesos, secuencias, elementos, partes, etc. el cual
se denominan dimensiones, que estos a su vez son disgregados en indicadores,
que representan los rasgos observables susceptible de ser medidos u
observados de manera empírica (su enunciado de estos es una frase donde el
sujeto es implícito). Los reactivos reflejan o se materializa en la identificación
del rasgo, se concretiza la intención de detectar la medicación de la variable,
finalmente se tienen a los índices, quienes representan las alternativas como
respuesta a un ítem obteniéndose el dato para su respectivo tratamiento.
II
ELABORACIÓN DE PRUEBAS Y EL PROCESO DE VALIDEZ INTERNA.
La elaboración de las pruebas permite un mayor cuidado de manera que

miden los resultados del aprendizaje, es necesario aplicar las técnicas
específicas para construirlos.9 Si, por ejemplo, se desea elaborar una
prueba para medir el aprendizaje a estudiantes universitarios, se procede
a partir de matrices de contenidos e indicadores, tener presente al
destinatario.
Determinación de los propósitos y usos de pruebas.
Los ítems, llamados también reactivos, son preguntas que se formulan

en función de los propósitos para los que ha sido elaborada la prueba.
La respuesta a los ítems proporciona la información requerida (dato)
puesto que la construcción depende de la mayor y mejor información
que se pueda obtener.10 Un ítem debe estar diseñado de tal
manera que motive a la persona a proporcionar un determinado tipo
de respuesta. Es muy importante que el ítem esté bien construido y que
mida, tan directamente como sea posible. Existe una amplia variedad de
clasificación de ítems, cada uno de los cuales posee ventajas y
desventajas. Según el tipo de respuesta que se espera de los ítems,
éstos pueden clasificarse en grandes grupos
Ítems de respuesta abierta. Los ítems de respuesta abierta se

conocen también como ítems de tipo cuestionario o ensayo, las
respuestas las proporcionan los estudiantes quienes las redactan
tratando de demostrar los conocimientos que poseen.
Ítems de respuesta cerrada. Este tipo de ítem tiene la ventaja de

estar referido a criterios objetivos para su calificación; sin embargo,
limitan, por la respuesta ya planteada, otras respuestas que pudiera
formular el sujeto. Los ítems de respuesta cerrada se subdividen en los
siguientes tipos:
- De apareamiento,
- De de respuesta corta,
- De oraciones incompletas,
- Verdadero-falso,
- De alternativa múltiple,
- De plan de redacción,
- De eliminación de oraciones.
Son muchas las cualidades que deben poseer los instrumentos de acopio
de datos, pero las más importantes son las siguientes: validez,
confiabilidad, objetividad, amplitud, practicabilidad, sensibilidad,
especificidad y adecuación11 que mas adelante tocaremos con más detalle
Validez. Las pruebas deben medir las características específicas de las

variables para las cuales fueron diseñadas. Las pruebas que no poseen
validez no tienen utilidad alguna. La validez también se denomina
veracidad, exactitud, autenticidad, o solidez de la prueba. La validez
puede ser de varios tipos: validez de contenido, validez de construcción,
validez predictiva, validez concurrente y validez estadística.
a. Validez de contenido.
Denominada también validez lógica o de “muestreo”. Consiste en que los
contenidos o conceptos planteados en los ítems correspondan con los
previstos del marco teórico. La validez de contenido adquiere mayor
importancia cuando se trata de comprobar resultados del aprendizaje.12
En otras palabras, la validez de contenido es el grado de fidelidad con el
que una prueba refleja el universo de reactivos del cual se extrajeron los
ítems. Por ejemplo, si se desea explorar cuánto saben los estudiantes de
geometría acerca de triángulos. Así, la prueba de trazos auxiliares en un
triángulo, será capaz de medir realmente los conocimientos de triángulos
y de sus elementos y no otro tipo de conocimientos.
Criterios para establecer la validez de contenido.

Este método parte del supuesto que aquel sujeto que ha adquirido y
desarrollado conocimientos de una determinada materia, por lo que
presenta voz de autoridad (juez), se desarrolla a partir de un cuadro de
especificaciones y una ficha de validación.
Para el caso la ficha de validación para este tipo de validación, se debe

presentar característica de respuesta dicotómica.
Decisión
Ítems
Si No
a. ……………..
b. ……………..
A partir de los resultados de la ficha de validación, procedemos la validación

y construimos el siguiente cuadro.
Ejemplo. Se ha predispuesto un instrumento que mide el pensamiento

lógico, para el efecto se han puesto a consideración a 10 jueces quienes
respondieron: SI= 9 jueces y NO= 1 jueces.
α: Nivel de significación, tomamos el 0,05

Grados de libertad: gl= (c-1)(f-1); gl= (2-1)(2-1)
Prueba no paramétrica: X2(1; 0,05) = 3,84
Procesos Si No
F0 9 1
Ft 5 5
(F0-Ft ) 4 -4
(F0-Ft )2 16 16
(F0-Ft )2 / Ft 3,2 3,2
X2c 6,4
Como X2c> X2t, (6,4 > 3,84) se acepta los reactivos del instrumento, caso
contrario se procede a su reformulación o eliminación si el caso fuera
necesario
b. Validez de constructo o de concepto.

La validez de constructo es el grado de correspondencia o congruencia que
existe entre los resultados de una prueba y los conceptos teóricos en los que
se basan los temas que se pretenden medir. Cuando se trata de determinar
la validez de constructo, se procura analizar la naturaleza de las
características que el investigador se ha propuesto medir. Para este
procedimiento el instrumento debe tener las siguientes secuencias.
Grado de dificultad. La dificultad se refiere al porcentaje de veces
que se responde correctamente al ítem, un porcentaje menor indica
mayor dificultad del ítem
Donde
: Promedio alcanzado de la prueba.
Pm : Puntuación máxima de alcanzar en la prueba
Gd : Grado de dificultad del instrumento; indizado por Kuder y
Richardsón.
Índice de dificultad Clasificación

81% a más Muy fácil
61 a 80% Relativamente fácil
51 a 60% Dificultad adecuada
31 a 50% Relativamente
difícil
11 a 30% Difícil
Debajo del 10% Muy difícil
Ejemplo. Identificar el grado de dificultad de una prueba en la que el

grupo ha obtenido un promedio de 13,27 y el puntaje máximo de 20
puntos. Entonces:
El valor obtenido, 66%, revela que la

prueba es relativamente fácil.
Hallar el grado de dificultad de una prueba cuyo promedio es 18,37 y

el puntaje máximo es 40.
Gd = 0,46. De acuerdo a la categorización de dificultad, ésta es una

prueba relativamente difícil; por lo que se recomienda adaptar algunos
ítems.
Por otro lado. Cuando se desea conocer el grado de dificultad de cada

uno de los ítems, se procede de la siguiente forma
Gd: Grado de dificultad

∑ : Sumatoria
Rc: Respuestas correctas
n : Número de alumnos examinados
Ejemplo. Sea una prueba de 20 ítems respondida por 40 alumnos. Se

totalizan las respuestas correctas e incorrectas.
ítems
1 2 … 20
Encuestado 1 1 0 0
Encuestado
lumno 1 2 0 0 1
Encuestado 3 1 1 1
Encuestado 4 1 1 1
……
Encuestado 1 0 1
Correctas
40 10 24 30
Incorrectas 30 16 10
Grado de dificultad.
Ítem 1, respondido correctamente por 10 de los 40 alumnos

, Gd= 25% el ítem 1 presenta índice de
dificultad: difícil
Ítem 20, respondido correctamente por 30 de los 40 alumnos
Gd= 75% el ítem 20 presenta índice de

dificultad: Relativamente fácil
Categorías y percentiles bajo la curva Z. El procedimiento para la

presentación de categorías distribuidas bajo los argumentos de la
distribución normal, donde se señalan como: Muy superior (AD),
superior (A), medio (B), inferior(C), muy inferior (D). o en todo caso otras
categorías similares. Del conjunto de los resultados del instrumentos, se
determinan a partir de los valores del estadístico: Media y la desviación
típica; por cierto existen otras técnicas como puntos de corte entre el
máximo y mínimo resultado del instrumento
Representación de los percentiles bajo la curva de distribución Z

normal y sus categorías.
Categorización
Nivel de rendimiento Categoría Intervalo

Muy superior AD
Superior al promedio A
Medio, Normal B
Inferior al promedio C
Muy inferior D
c. Validez predictiva.
La validez predictiva es la capacidad que tienen las pruebas de
predecir acontecimientos futuros, tales como el éxito que un individuo
alcanzará en sus estudios o en su trabajo.13 Para determinar la validez
predictiva, se procede bajo la siguiente secuencia.
- Administración de la prueba.
- Se espera que se produzcan los desempeños pronosticados.
- Se compara los puntajes de la prueba con los desempeños reales
del sujeto.
Suponiendo que una prueba ha sido elaborada para predecir el

éxito que los alumnos lograrán durante el primer año en la
universidad, para determinar su validez predictiva, se administra la
prueba a una amplia muestra de alumnos del 5º año de Secundaria,
seleccionados al azar. Ejemplo. Supongamos que vamos a elaborar
un test de Actitudes hacia la matemática, y como otra variable
seleccionamos el rendimiento escolar en Pensamiento Lógico.
X : Actitudes hacia la matemática

Y : Rendimiento académico de Pensamiento Lógico
Procedimiento:
- Se administra la prueba; al inicio del año administramos el test
“x” y cuando se cumplió el tiempo de entrenamiento se
obtienen los resultados de la evaluación.
- Se compara los puntajes de la prueba con los desempeños
reales del sujeto.
- Se determina la correlación r (Pearson)
Ejemplo. Si la correlación r = 0,85

Número de niños administrado la prueba; n = 200
Eficiencia predictiva: EP
EP = 72,18%
Como se puede apreciar el EP es 72,18% es una buena

predicción ya que supero al dos tercios de la puntuación
porcentual, por lo tanto indica alto valor predictivo.
d. Validez concurrente.
La validez concurrente es la correlación que puede hallarse
entre las puntuaciones logradas luego de la aplicación de la prueba,
con respecto a las puntuaciones obtenidas por los mismos sujetos en
otras mediciones realizadas simultáneamente.13
El procedimiento para determinar la validez concurrente es similar al
que se emplea para verificar la validez predictiva, sólo que la
correlación puede hallarse casi de inmediato, ya que los datos se
obtienen simultáneamente.
Ejemplo. Al elaborar un test de razonamiento matemático, se

elabora la tabla de especificaciones que nos facilita para ubicar que una
variable concurrente es el pensamiento lógico, de forma tal cuando el
sujeto esta razonando matemáticamente esta subyacente el
pensamiento lógico, cuando esta pensando lógicamente esta
subyacente el razonamiento matemático, de ser concurrente debemos
encontrar una correlación significativa entre ambas variables.
- Se busca conocer si la relación entre dos variables resulta
verdadera o si es producto del azar
- Se formula la H1: el coeficiente de correlación entre “x” y “y”

resulta significativo con un riesgo de (0,05 ó 0,01), con la
siguiente expresión.
Ejemplo. Con la correlación, r= 0,85

Número de niños administrados; n= 200
El índice de concurrencia: rt , representa una distribución
sesgada T
rt = 22,7; t(200; 0,05) = 1,653

Decisión Como rt >T(200; 0,05); en función a la elaboración de la H1;
afirmamos que ambas variables son concurrentes demostrado con la
medición efectuada, por tanto podemos afirmar que el test elaborado
tiene validez concurrente.
e. Validez estadística o empírica

Es el tipo de correlación que existe entre los resultados de la prueba y la
situación real del sujeto en los aprendizajes cuyos resultados se mide.
Confiabilidad. El término confiabilidad proviene de la palabra fiable, y

ésta a su vez de fe. La confiabilidad es el proceso de establecer cuan
fiable, consistente, coherente o estable es el instrumento que se ha
elaborado.13 La confiabilidad se expresa mediante el índice de
confiabilidad. El índice de confiabilidad perfecto es 1, muy difícil de
alcanzar. Los índices de confiabilidad aceptables oscilan entre 0,66 y
0,71, como mínimo, es decir, decimales que tienden a acercarse a la
unidad.
El índice de confiabilidad de una prueba se obtiene aplicando las siguientes
fórmulas
Kuder y Richarson. Es recomendable su aplicación para pruebas de

sentimiento y de conocimiento, con índice dicotomico se utiliza R20 y R21
de kuder y Richardson. Los procedimientos acentúan la equivalencia de
los reactivos de una prueba; por consiguiente resultan apropiados, en
especial cuando se pretende medir el grado de confiabilidad; entre
estos tenemos.14
Kuder y Richarson R21. Se utiliza frecuentemente para calcular

la confiabilidad de las pruebas objetivas (exámenes,
evaluaciones) hechas por el profesor y por lo menos indica por
dónde va la fiabilidad; puede ser suficiente para calcular el error
típico y relativizar los resultados individuales. La expresión de
R21 esta dada por
Donde:
R21 : Coeficiente de confiabilidad
n : Número de ítems.
: Promedio.
𝜎 : Desviación estandar de las puntuaciones de la prueba.
Ejemplo. Sean los siguientes datos:

n = 18
= 14, 27
𝜎 = 3,1
Entonces:
R21= 0,74; Con los datos proporcionados, el índice de confiabilidad

hallado es 0,74. La tabla de Küder y Richardson permite interpretar éste
valor hallado:
Índice Clasificación
0,53 a menos = Confiabilidad nula
0,54 a 0,59 = Confiabilidad baja
0,60 a 0,65 = Confiable
0,66 a 0,71 = Muy confiable
0,72 a 0,99 = Excelente confiabilidad
1,0 = Confiabilidad perfecta
Como se ha obtenido el valor de 0,74, se deduce que la supuesta prueba

analizada tiene un excelente coeficiente de confiabilidad
Otro caso. Sean los siguientes datos
n = 98,
= 70
𝜎 = 6,8
Significa que la prueba tiene bajo índice de confiabilidad, por lo que el

instrumento requiere reformulación
Encontrar la confiabilidad de la prueba, supongamos que un profesor

administro una prueba de 50 reactivos a su grupo y que su calculo de la
media corresponde a 40 y la desviación estándar a 6
Kuder y Richarson. R20. El R20 es un indicador de la fidelidad

(consistencia interna). Kuder y Richardson desarrollaron un
procedimiento basado en los resultados obtenidos con cada ítem.
Esta es la razón por la cual Kuder y Richardson consideren tantas
(n) partes en la prueba de acuerdo a los ítems (n). En los métodos
de partición en dos, (conocido también como bisección,
dicotómica) supone para cada parte ser equivalente ( las formas
paralelas ). Para el KR20, la misma lógica se adopta en el nivel de los
ítems. Es lo que uno llama unidimensional.15
Donde.
k : Número de ítems
σ2 : Varianza de las puntuaciones de la prueba
p : Es la proporción de respuestas correctas al ítem I.
q : Es la proporción de respuestas correctas al ítem I.
∑p.q : Sumatoria de la multiplicación de todos los reactivos.
El KR20 es el promedio de los Índices de la fidelidad el cuál se obtendrá si

se calcula la fidelidad para todas las particiones posibles en dos.
Ejemplo. En un examen de 10 preguntas en el que se calcula el

coeficiente de la consistencia interna.
Observación: El primer alumno, "Eric", que contestó correctamente a

seis preguntas entre las 10 preguntas del examen. Las preguntas
correctas son, B, C, D, E, F, y que falló en las preguntas G, H, I, J.
Verticalmente, todos los alumnos tuvieron éxito en la pregunta (a),
mientras que solamente dos alumnos tuvieron éxito en la pregunta (J).
Nombres A B C D E F G H I J Puntuación
Eric 1 1 1 1 1 1 0 0 0 0 6
Tomasa 1 1 1 1 1 1 1 0 0 0 7
Johanna 1 1 1 1 0 1 0 1 1 0 7
Paul 1 0 0 0 0 0 0 0 0 0 1
Mercedes 1 1 1 1 0 0 1 0 0 0 5
Diego 1 1 1 0 1 0 1 1 0 0 6
Pascual 1 1 1 1 1 1 0 1 1 1 9
Martin 1 1 0 0 1 0 0 1 1 1 6
Andrés 1 1 1 1 1 0 1 0 0 0 6
Emilio 1 1 1 1 1 1 1 0 0 0 7
RC 10 9 8 7 7 5 5 4 3 2 60
RINCI 0 1 2 3 3 5 5 6 7 8
p 1.0 0,9 0,8 0,7 0,7 0,5 0,5 0,4 0,3 0,2
q 0 0,1 0,2 0,3 0,3 0,5 0,5 0,6 0,7 0,8
pIqI 0 0,09 0,16 0,21 0,21 0,25 0,25 0,24 0,21 0,16 p.q =1,78
Donde
RC : Total de las respuestas correctas para cada pregunta.
RINCI : Total de las respuestas incorrectas para cada pregunta.
pI : Proporción de éxito para cada pregunta.
qI : Proporción de incidente para cada pregunta.
piqj : Variación de cada pregunta.
Estadísticos
N Válidos 10
Media 6,0000
Desv. típ. 2,05480
Varianza 4,222
El coeficiente de la fidelidad de este examen según esta fórmula
Confiabilidad el coeficiente Alpha (Cronbach). Para determinar la

confiabilidad con esta técnica se requiere una sola aplicación, y se basa
en la medición de la consistencia de las respuestas que hagan las
personas entrevistadas a cada pregunta, cuya expresión es: 15
16
Donde:
α : Coeficiente alpha de Cronbach,
2
S i : Varianza del instrumento
S2t : Varianza de la suma de los ítems,
K : Número de ítems que se considera en el
instrumento
Este coeficiente toma valores entre 0 y 1 y un valor mayor a 0,7 indica

que el test es confiable.
Niveles de confiabilidad en el coeficiente de correlación
Excluyente Bajo Regular Bueno Muy bueno
0 0,01 – 0,10 0,11 – 0,20 0,21 – 0,50 0,51 – 1,0
Ejemplo.
Se quiere medir la confiabilidad del instrumento que consta de 5 ítems
aplicando a 6 personas, dos datos se muestran en la tabla
Ítems
Sujetos
X Y Z W V ∑
Juan 3 5 5 4 5 22
Pedro 5 4 5 4 4 22
Ana 4 4 5 5 5 23
Diego 4 5 3 3 3 18
Emilio 1 2 2 2 2 9
Johanna 4 3 3 3 4 17
∑ 21 23 23 21 23 111
3,5 3,83 3,83 3,5 3,83
Encontrando las varianza de las 5 puntuaciones.
; ; ; ;
Varianza total del instrumento.
Aplicando la fórmula de Alpha para determinar la confiabilidad del

instrumento.
α = 0,91
El valor encontrado de α es muy bueno. De acuerdo a la tabla de
calificación; el instrumento presenta alta confiabilidad
Coeficiente de correlación Tau de Kendall. El coeficiente de Tau de

Kendal (Tk) mide la asociación que existe entre dos variables ordinales,
la expresión está dada por.
17
Donde.
Sr: son las sumas que resultan de comparar cada rango de la
variable “y” con sus rangos sucesivos. Toma como referente
un número y a la derecha contar los números que son mayores
al referente, y restarle de este resultado el número de
términos menores al referente.
n : Son los números de la serie.
Aplicación.
Dos jueces efectúan una evaluación sobre la presentación de 12
ítems de un instrumento para la determinación de la secuencia
lógica, que a continuación se indica la secuencia de ellos.
Orden de la evaluación por dos jueces a los doce ítems.

Ítems Ítem Ítem Ítem Ítem Ítem Ítem Ítem Ítem 8 Ítem 9 Ítem Ítem Ítem
1 2 3 4 5 6 7 10 11 12
Juez A (x) 2 1 3 8 5 4 6 11 10 12 9 7
Juez (y) 1 2 4 7 6 8 3 10 9 11 12 5
 Se Calculando el Sr, ordenamos la fila “x” de; para ello se hace
la transferencia de las casillas que coincidan con el orden de
“x”
(x) 1 2 3 4 5 6 7 8 9 10 11 12
(y) 2 1 4 8 6 3 5 7 12 9 10 11
Trabajamos con la fila “y”

Ubicamos al primer rango; ósea el número 2 y se cuentan los
números de la derecha mayores a 2 y encontramos que hay 10
números al cual se le resta el número de términos menores a 2 y
encontramos 1, luego el rango es (10 – 1)
Lo expresado podemos representarlo así:
Mayores que 2 = 10
Menores que 2 = 1; el rango (10 – 1) = 9; procedemos de esta
manera para los sucesivos rangos.
- Mayores que 1 = 10
Menores que 1 = 0; el rango (10 – 0) = 10
- Mayores que 4 = 8
- Mayores que 8 = 4
- Mayores que 6 = 5
- Mayores que 3 = 6
- Mayores que 5 = 5
- Mayores que 7 = 4
Menores que 12 = 3; el rango (0 – 3)= -3
- Mayores que 9 = 2
Sr = 9 + 10 + 7 + 0 + 3 + 6 + 5 + 4 + -3 + 2 + 1 = 44
Entonces
Para probar el nivel de significación del valor observado de Tk en

muestras mayor de n>10, se debe primero calcular el valor “Z
Si
n = 12 y
Tk = 0,67
Se requiere saber si los rangos establecidos por los dos jueces (x, y)
están significativamente correlacionados para prueba de dos colas a un
nivel de significación del 0,05
Z(1-α/2) = 1,69
Como el valor Z es mayor que la Z(1-α/2); presenta significación de rango

de los ítems del instrumento designados por los jueces
Como se puede apreciar que el Coeficiente de correlación Tau de
Kendall, busca la confiabilidad de las decisiones de dos jueces, pero
cuando tendríamos más jueces se complicaría las cosas. Sin embargo
existe la correlación de Finn que permite determinar la correlación de
dos a más jueces con la siguiente expresión
Expresión de la r de Finn. El “r” de Finn”, se aplica con la finalidad de

determinar la consistencia y homogeneidad de las apreciaciones de los
jueces referente a los instrumentos (materiales impresos)18
Los valores arrojados después de la aplicación de la expresión de “r de
Finn” se encuentra con la siguiente expresión
Donde:
t = Número de ítems del instrumento.
k = Número de categorías del ítem.
Total de eventos
n(n  1)
C2n 
2
C = Combinación
n = Número de jueces
Tabla de valoración
DESACUERDO ACUERDO
Fuertísimo Fuerte Regular Pobre Pobre Regular Fuerte Fuertísimo
-1 -0,75 -0,5 -0,25 0 0,25 0,5 0,75
1
Ejemplo.
A continuación se presentan una fracción del instrumento con 15 ítems
para ser validados por 3 jueces; donde cada ítem presenta cuatro
categorías (alternativas) etiquetadas con 1, 2, 3, y 4.
Informe técnico para la evaluación al módulo matemático.
A continuación, se muestran las sentencias donde Ud. Podrá emitir su

juicio valorativo, emitiendo con una señal
( ) 1.- En conjunto, la Presentación del MM. Es:
a. ( ) Optima.
b. ( ) Adecuada.
c. ( ) Aceptable.
d. ( ) Insuficiente.
( ) 2.- La formulación de las competencias y capacidades
consignados del MM. Es:
a. ( ) Optima.
b. ( ) Adecuada.
c. ( ) Aceptable.
( ) 3.- Los ítems del Pre – test evalúan las capacidades y
contenidos para el desarrollo del MM, en forma.
a. ( ) Optimo.
b. ( ) Adecuado.
c. ( ) Aceptable.
( ) 4.- El nivel de dificultad de los ítems del pre – test, es
a. ( ) Alta.
b. ( ) Media.
c. ( ) Baja.
d. ( ) Despreciable.
….
A continuación, se muestra la validez de la opinión técnica de los
expertos al módulo de aprendizaje
Total, de eventos
n(n  1)
C2n 
2
Indica que haremos tres combinaciones con las decisiones de los jueces
para cada valor etiquetado del ítem.
Nº Jueces Combinaciones
ítems A B C Avs B Avs C Bvs C
1 2 2 2 0 0 0
2 3 1 2 4 1 1
3 2 2 2 0 0 0
4 2 2 2 0 0 0
…… … .. … … … …
Total ∑ 8 11 7
Aplicando la expresión de Finn
El promedio de las correlaciones r 1, r2 y r3 = 0,77 observando la tabla

de valoración; los jueces presentan apreciación fuertísima al material
en evaluación puesto a disposición.
Factores que permiten mejorar la confiabilidad de una prueba.

Existen muchos factores que permiten mejorar el índice de confiabilidad.
Mucho depende del cuidado y del esmero que ponga el investigador al
elaborar la prueba y también de su experiencia en este tipo de tarea. Sin
embargo, en forma muy puntual, se puede mencionar los siguientes
factores:18
a) Adecuado número de ítems.

b) Homogeneidad de los elementos de la prueba.
c) Índice de discriminación de los ítems.
d) Grado de dificultad de la prueba.
e) Grado de representatividad de la prueba.
Técnicas para incrementar la confiabilidad de una prueba. Como

quiera que la confiabilidad depende de la relación que existe entre el
puntaje verdadero y el puntaje observado, es lógico suponer que cuanto
menor sea el margen de error, el puntaje observado se hallará más
cercano al puntaje verdadero, que es un concepto teórico. Las siguientes
son las técnicas más eficaces para incrementar la confiabilidad.19
Técnicas para establecer la confiabilidad de una prueba. Para

determinar la confiabilidad de una prueba, por lo general, se compara
dos versiones de la misma prueba. La forma numérica de expresar esta
comparación es a través de un coeficiente de correlación (r) que puede
existir entre ellas. Cuanto más alto sea el coeficiente de correlación
positiva entre las dos versiones de la prueba, la prueba será más
confiable.19 Más de 0,80. Las principales técnicas para determinar la
confiabilidad son las siguientes:
a. Técnica de la replicación o test - retest: La prueba o test se aplica

dos o más veces al mismo grupo de estudiantes y se correlacionan las
series de puntuaciones obtenidas.20
b. Técnica de la aplicación de dos versiones paralelas de una
misma prueba.
Se elabora dos versiones paralelas de la misma prueba y se aplica,
cada una de ellas, a dos grupos distintos. En base a las dos series de
puntuaciones así obtenidas se calcula el coeficiente de correlación
de tales series de puntuaciones.10
c. Técnica de aplicación de la prueba en mitades.
Esta técnica consiste en dividir la prueba, al azar, en mitades y
aplicarla al mismo grupo en un solo momento. El coeficiente de
correlación se obtiene correlacionando la serie de puntuaciones
obtenidas en la primera mitad de la prueba con las puntuaciones
obtenidas en la segunda mitad.10 Otra técnica más efectiva es
considerar primera mitad a los ítems impares y segunda mitad a los
ítems pares.
Ejemplo, aduciendo que el instrumento tiene 16 ítems; para

proceder la validación por mitades dividimos al instrumento en dos
partes iguales, el caso mas practico entre los ítems pares e impares.
Items Índices con Ítems Índices con
impares puntuaciones pares puntuaciones
1 a b c d 2 a b c d
3 a b c d 4 a b c d
5 a b c d 6 a b c d
7 a b c d 8 a b c d
9 a b c d 10 a b c d
11 a b c d 12 a b c d
13 a b c d 14 a b c d
15 a b c d 16 a b c d
En la formulación de la prueba; las más largas tienen mayor confiabilidad que

las cortas
La formula de predicción es mediante la de Spearman –Brown
Donde
rxx : Confiabilidad estimada de la prueba completa
r1/2,1/2 : Correlación de Pearsón entre las dos mitades del instrumento
Observación. Éste método no es recomendable en los test de
sentimiento; puesto que los ítems no guarda direccionalidad
Ejemplo.
Para una correlación de r = 0,85
La confiabilidad por mitades o Spearman Brown será.
rxx= 0,92; por lo que presenta alta confiabilidad el instrumento, se

recomienda su aplicación.
Relaciones entre la confiabilidad y la validez.

La confiabilidad y la validez son cualidades estrechamente relacionadas
entre sí. Sin embargo, una prueba puede ser confiable pero no
necesariamente válida, por eso, una prueba no puede ser válida, si
previamente no se ha establecido su confiabilidad.12 Esto significa que
la confiabilidad es una condición necesaria pero no suficiente para
establecer la validez de una prueba. Por ejemplo, una prueba para
medir aprendizajes matemáticos puede ser altamente confiable, pero si
pretendemos que esa prueba mida comprensión lectora, obviamente
esta prueba ya no será válida, aunque siga siendo confiable. En
resumen, una prueba puede ser confiable y evaluar de manera
consistente un constructo, pero si este constructo no es el mismo que se
está estudiando, la prueba no será válida; para el efecto se debe tener
presente.
- Objetividad. La objetividad consiste en que la prueba debe
producir los mismos puntajes sea quien fuere el que evalúe las
respuestas. Para lograr esta condición, las pruebas deben
disponer de normas de asignación de puntajes o claves de
respuestas para no tener la necesidad de recurrir a juicios
subjetivos para decidir si cada respuesta es correcta o
incorrecta.
- Amplitud. Es la adecuada extensión que debe tener la prueba.
Una buena prueba debe explorar, en un tiempo determinado, la
mayor cantidad de información. Las pruebas no deben ser muy
amplias ni muy escuetas, es recomendable que las pruebas sean e
amplitud mediana.
- Practicabilidad. Una prueba debe ser práctica o aplicable. Para
ello debe estar diseñada de tal modo que su administración e
interpretación sea fácil y de bajo costo.
- Sensibilidad. Es la probabilidad de clasificar correctamente a
estudiantes con problema, es decir la capacidad del test para
detectar estudiantes que presentan problema de aprendizaje
- Especificidad Es la probabilidad de clasificar correctamente a un
estudiante exitoso, es decir, la capacidad del test para detectar a
los estudiantes que presentan éxito en sus estudios
- Adecuación Habrá que tener en cuenta si la prueba proporciona
los datos necesarios, si permitirá obtener las medidas en el grado
de precisión que el investigador desea, si será apropiada para la
edad y características de los sujetos, para el momento y la
localidad en que se pretende administrarla, o cuándo preferir
entre dos pruebas igualmente confiables y válidas.
Realización del Estudio Piloto. Antes de aplicar una prueba, es

recomendable realizar un estudio piloto. Cuando los sujetos del
estudio piloto terminan de responder el test, el investigador analiza sus
respuestas y revisa las instrucciones que no fueron comprendidas
claramente, es recomendable que el tamaño de la muestra piloto sea igual
o mayor a 30 observaciones.
Evaluación de pruebas de diagnóstico (la curva ROC). La evaluación de

las pruebas diagnósticas se ha tratado, en general, sin un criterio
universal aceptado. En diferentes estudios aparecen términos como
sensibilidad, especificidad, eficiencia, exactitud, utilidad, valor, eficacia
pero a menudo el significado de los mismos es ambiguo. La ausencia de
acuerdo, tanto en el concepto, como en la medida de la calidad de una
prueba diagnóstica, crea una situación de confusión a la hora de
resolver cuestiones concretas.
- La sensibilidad de una prueba diagnóstica es la probabilidad de

obtener un resultado positivo cuando el estudiante presenta
dificultad de aprendizaje. Mide su capacidad para detectar la
deficiencia de aprendizaje cuando está presente.
- La especificidad de una prueba indica la probabilidad de
obtener un resultado negativo cuando el estudiante no tiene
dificultad de aprendizaje. Mide su capacidad para descartar la
deficiencia de aprendizaje cuando ésta no está presente.
- En diagnóstico, cuando el valor de especificidad supera el 80%,

se considera buena.
Por regla general, se elige una prueba muy específica cuando
prefieres obtener falsos negativos en lugar de falsos positivos,
por ejemplo, para asegurar de que un estudiante presenta
realmente deficiencia de aprendizaje. Por ejemplo, una prueba
para detectar la deficiencia que implique un tratamiento, es
imprescindible asegurarse de que el estudiante presenta
deficiencia y necesita tratamiento, para no tratar a un
estudiante exitoso.
- Curva ROC. En la teoría de detección de señales una curva ROC

(acrónimo de Receiver Operating Characteristic, o Característica
Operativa del Receptor) es una representación gráfica de la
sensibilidad frente a (1 – especificidad) para un sistema clasificador
binario según se varía el umbral de discriminación. Otra
interpretación de este gráfico es la representación de la razón de
verdaderos positivos (VPR = Razón de Verdaderos Positivos) frente a
la razón de falsos positivos (FPR = Razón de Falsos Positivos)
también según se varía el umbral de discriminación (valor a partir
del cual decidimos que un caso es un positivo).
Modelo de curva ROC.
Cuanto más próxima es una curva ROC a la esquina superior izquierda, mas alta es la
exactitud global de la prueba, por lo que el valor de la especificidad adecuada debe superar
al 80%.
Característica. Es una representación fácil y comprensible de la capacidad de discriminación de la

prueba en todo el rango. No requiere un nivel de decisión particular porque esta incluido todo el
espectro de puntos de corte
Error de tipo I y tipo II. Consideremos un problema de predicción de
cinco clases o clasificación a modo de parra, en la que los resultados se
etiquetan como cinco clases: positivos (p) o negativos (n) verdaderos
positivos (VP) falsos positivos(FP) inconcurrentes (S/N). Hay cuatro
posibles resultados a partir de un clasificador binario como el
propuesto. Si el resultado de una exploración es p y el valor dado es
también p, entonces se conoce como un Verdadero Positivo (VP); sin
embargo si el valor real es n entonces se conoce como un Falso Positivo
(FP). De igual modo, tenemos un Verdadero Negativo (VN) cuando tanto
la exploración como el valor dado son n, y un Falso Negativo (FN)
cuando el resultado de la predicción es n pero el valor real es p se dice
que el resultado no puede formar una curva ROC bien definida.
Ejemplo aproximado de un problema real es el siguiente. Consideremos

una prueba diagnóstica que persiga determinar si un estudiante
presenta problema de aprendizaje. Un falso positivo en este caso ocurre
cuando la prueba predice que el resultado es positivo, cuando el
estudiante no tiene realmente problema de aprendizaje. Un falso
negativo, por el contrario, ocurre cuando el resultado de la prueba es
negativo, sugiriendo que no tiene problema de aprendizaje cuando
realmente sí la tiene.
Definamos un experimento a partir de P instancias positivas y N
negativas. Los cuatro posibles resultados se pueden formular en una
tabla de contingencia o matriz de valores, como sigue:
Relación entre el resultado de una prueba diagnóstica y la presencia o ausencia de una

enfermedad.
Resultado de la Verdadero diagnóstico
prueba Enfermo Sano
Verdaderos Positivos Falsos Positivos
(VP) La enfermedad esta (FP) La enfermedad NO esta
Positivo
presente y se diagnostica al presente pero al paciente se
paciente como enfermo (Éxito) diagnostica como enfermo (Error I)
Falsos Negativos Verdaderos Negativos
(FN) La enfermedad esta (VN) La enfermedad No esta
Negativo presente pero no se detecto. presente y se diagnostica al
Esto ocurre con frecuencia paciente como sano (Rechazo
(Error II) correcto)
Relación entre el resultado de una prueba diagnóstica y la presencia o
ausencia de una enfermedad.
Una buena prueba es la que ofrece: Positivos en enfermos (VP) y

negativos en sanos (VN)
Terminología y sus derivados a partir de una matriz
- Verdaderos Positivos (VP) o también éxitos. El problema esta

presente y se diagnostica al alumno que presenta problemas de
aprendizaje.
- Verdaderos Negativos (VN) o también rechazos correctos. El
problema de aprendizaje no esta presente y se diagnostica al
estudiante como exitoso
- Falsos Positivos (FP) o también falsas alarmas o Error tipo I. El
problema del aprendizaje no esta presente pero al estudiante se
diagnostica como deficiente de aprendizaje.
- Falsos Negativos (FN) o también, Error de tipo II. El problema de
aprendizaje esta presente pero no se detecta. Esto ocurre con
frecuencia
Verdadero Diagnostico
Presenta Ëxito en su
problemas de aprendizaje
aprendizaje
Prueba Positivo VP FP
Negativo FN VN
Ejemplo.
Mediante un instrumento de diagnóstico sobre pandillaje, se tomo a
134 estudaintes de una institución educativa, encontrandoce los
siguientes casos.
Verdadero Diagnostico
Tendencia a Rechazo a
pandillaje pandillaje
Evaluación Positivo 45 15
Negativo 21 53
- Sensibilidad. Es la probabilidad de clasificar correctamente a un
individuo enfermo, es decir, la probabilidad de que para un sujeto
enfermo se obtenga en la prueba un resultado positivo.
- La sensibilidad es, por lo tanto, la capacidad del test para detectar

la enfermedad.2
Verdaderos positivos
Sensibilidad= Verdaderos Positivos + Falsos Negativos
Es decir
Verdaderos positivos
Sensibilidad=
Enfermos
- Especificidad. Es la probabilidad de clasificar correctamente a un

individuo sano, es decir, la probabilidad de que para un sujeto sano
se obtenga un resultado negativo. En otras palabras, se puede
definir la especificidad como la capacidad para detectar a los
sanos.2
Verdaderos Negativo
Especificidad =
Verdaderos Negativo + Falsos
Positivo
Es decir
Verdaderos Negativo
Especificidad =
Sanos
Interpretación.
La probabilidad de detectar estudiantes con problemas de pandillaje es

del 68% y la probabilidad de detectar estudiantes que rechazan el
pandillaje es del 78%
Una buena prueba diagnóstica es la que ofrece alta sensibilidad y
especificidad, pero la sensibilidad no siempre va de la mano con la
especificidad
Poder discriminativo de una prueba. Para hallar el índice de

discriminación de una prueba se forman dos grupos; estudiantes en
función de sus respuestas correctas e incorrectas.20 El poder
discriminativo, mide el grado con el cual el ítem es capaz de establecer
diferencias entre las personas las personas con niveles altos y bajos de
una habilidad, aptitud o conocimiento que está siendo evaluado.
Donde:
Dd : Poder discriminativo de la prueba
GS : % del grupo superior que contestó correctamente el ítem
GI : % del grupo inferior que contestó correctamente el ítem
La interpretación de este resultado se hace empleando la siguiente tabla
Índice Clasificación
40% a más Alto índice de discriminación.
30 al 39% Índice de discriminación bueno.
20 al 29% Índice de discriminación regular.
Menos del 19% Deficiente índice de
discriminación
Ejemplo
De 100 alumnos que respondieron una prueba, los 27 (27%) alumnos
que obtuvieron puntuaciones más altas serán considerados miembros
del grupo superior y los 27 (27%) que obtuvieron puntuaciones más
bajas, serán considerados miembros del grupo inferior.
Averiguaremos luego cuántos alumnos del 27% del grupo superior
respondieron el ítem correctamente y cuántos alumnos del 27% del
grupo inferior también lo hizo correctamente. Luego se obtiene la
diferencia.
Si los 27 alumnos del grupo superior respondieron correctamente el
ítem, o sea el 100%, y en el grupo inferior sólo 12 de los 27 también lo
hicieron correctamente, o sea el 44%, estableciendo la diferencia
tenemos:
100 % - 44 % = 56%, presenta un alto índice de discriminación del la

prueba.
6.9.2. Índice de discriminación de un ítem. El índice de discriminación

de cada ítem puede hallarse a partir de la siguiente expresión:
Donde:
Id : Índice de discriminación.
Pms : Puntaje máximo alcanzado por el grupo superior.
Pmi : Puntaje máximo alcanzado por el grupo inferior.
n : Número de participantes.
Ejemplo:
Hallar el índice de discriminación de un ítem cuyas respuestas correctas del
grupo superior son 25 y las respuestas correctas del grupo inferior son
12. El número de examinados en los dos grupos es 50.
El Índice de discriminación resulta el 26 %, indica que el índice de
discriminación de éste ítem es regular.
Se ordena en forma descendente el promedio de las notas.

Ítems
Alumnos
1 2 3 .... 20
Alumno 1 1 0
Alumno 2 0 1
... ... ...
Alumno 20 1 1
Sub Total 16 17
Alumno 21 0 0
Alumno 22 1 1
...
Alumno 40 0 0
Sub Total 9 3
Procedimiento
- Se totaliza el número de respuestas correctas de cada ítem y
por cada grupo.
- En este caso, el grupo superior es 20 y el inferior es 20. El número
total de alumnos es 40.
- Se ha ordenado a los estudiantes en función de su rendimiento
académico, de mayor a menor. Para hallar el índice de
discriminación del ítem Nº 1 se hacen los siguientes cálculos:
,
Id= 17,5%, Según la tabla, éste es un ítem deficiente y debe
descartarse.
Para obtener el índice de discriminación del ítem 20 se procede del

siguiente modo
, Este ítem, con un índice de discriminación de
30%, es bueno, aunque podría mejorarse
Identificar el índice de discriminación de una prueba en la que el puntaje

máximo de respuestas del grupo superior es 18 y el puntaje máximo de
respuestas correctas del grupo inferior es 11. El puntaje total de la
prueba es 20.
Entonces:
, La prueba analizada posee un

razonable índice de discriminación.

Como se ha podido observar los métodos de confiabilidad está sujeto a
los estadísticos como: el coeficiente de correlación, varianza, media. La
psicometría recomienda que el error del instrumento debe ser menor al
15%, generado a partir del índice de fiabilidad y el error de medición.19;
20
Donde.
FE : Fiabilidad y error de medición
r : Coeficiente de correlación Pearsón
Después del tratamiento de la prueba a dos grupos se encontró que el

coeficiente de correlación es r = 0,85; determinar el error de medición
del instrumento.
FE = 7,8%
El 7,8% es el error de medición del instrumento, es un buen margen de
error ya que es menos al 15%; por lo que la fiabilidad del instrumento
es del 92,2%; por lo que afirmamos que le instrumento presenta alta
confiabilidad.

Este error nos proporciona una manera especialmente útil de describir
la confiabilidad del test, ya que nos indica la cantidad de error que
debemos considerar al interpretar puntuaciones individuales de un test.
Para calicular basta con conocer, la desviación estándar y el coeficiente
de correlación r. El error estándar de media por Paúl Diederich (1964;
citado por Anastasi y Urbina, 1998)20 está representado por.
El máximo valor del error estándar de media se aprecia en la siguiente

tabla en función al número de ítems
Numero de ítems del test Error estándar

Menos de 24 2
24 – 47 3
48 – 89 4
90 – 109 5
110 – 129 6
130 – 150 7
El error típico de la medida viene a ser la desviación típica de las

puntuaciones individuales, e indica el margen de error o variación
probable de las puntuaciones individuales. En términos informales
podemos decir que el error típico nos indica el margen de oscilación
probable de las puntuaciones de una ocasión a otra o entre pruebas
hipotéticamente iguales o semejantes.
Si cada alumno hubiera respondido a un número indefinido de
exámenes, no hubiera obtenido en todos exactamente el mismo
resultado; sus posibles resultados se hubieran distribuido según la
distribución normal
Dos tercios aproximadamente
de los posibles resultados
caen entre +-1 error típico
El 95% de los posibles

resultados en prueba
semejantes caen entre
+- 1,96 errores típicos
-4 -3 -2 -1 0 +1 +2 +3 +4
Puntuación verdadera o más probable
Ubicación gráfica de la puntuación del error estándar.
Se han administrado un instrumento con 40 ítems, donde se han

obtenido el coeficiente de correlación por mitades de 0,85 y una
desviación estándar de 4,5, determinar el error estándar de media.
ESm = 1,743
Para 40 ítems que presenta el instrumento se ha cometido un error

estándar de media de 1,743; por lo que se encuentra dentro de los 3
puntos de acuerdo a la tabla.
III
APLICACIÓN DEL PROCESO DE VALIDACIÓN Y CONFIABILIDAD
A partir de un instrumento de investigación, se desea encontrar los
indicadores para el proceso de validación y confiabilidad bajo el
programa del SPSS; es posible encontrar de manera directa la
confiabilidad del instrumento bajo la técnica del α de Cronbach, Dos
mitades, Gutman, entre otros y así mismo permite realizar el análisis
por ítem del instrumento bajo la técnica ítem test total.
Ejemplo.
Con la siguiente base de datos realizamos nuestro proceso de validación
y confiabilidad, análisis del instrumento, así mismo de los ítems.
a. Base de datos.
a.1. Vista de variables. Ingresamos los ítems de nuestro
instrumento, para el caso el instrumento consta de 20 ítems
como se presenta.
Vista de dato. Generado nuestra vista de variable, ingresamos los

resultados de los integrantes de la muestra piloto ítems por ítems, así se
muestran
Cálculo de estadísticos y parámetros. Para el efecto procedemos a
determinar las puntuaciones de los 30 estudiantes que obtuvieron
después de la aplicación del instrumento.
Transformar> Calcular variable> en Variable de destino, digitamos
suma_total y en la expresión numérica ingresamos los ítems desde
item01 + items02, hasta items20
Determinado la suma o las puntuaciones alcanzadas por los 30

integrante de la muestra piloto, procedemos a determinar los
estadísticos necesarios para remplazar en las expresiones para el
proceso de análisis del instrumento pertinente. Para el efecto
procedemos.
Analizar> Estadísticos descriptivos> Frecuencia>

Resulta el cuadro de frecuencia; en el cuadro de Variable, ingresamos la
suma total
En el cuadro de Análisis de fiabilidad, en Elementos arrastramos los
ítems a que se someterán a la validez y confiabilidad por Alfa de
Cronbach. Punzamos Estadístico>
Obtenemos el cuadro de análisis de fiabilidad: estadísticos, punzamos
Escala se elimina elemento> continuar> aceptar> en el visor arroja los
siguientes datos.
Resumen del procesamiento de los casos
Estadísticos de fiabilidad
Alfa de Cronbach N de elementos
,831 20
Estadísticos total-elemento
Media de la Varianza de la Correlación Alfa de
escala si se escala si se elemento- Cronbach si se
elimina el elimina el total eleimina el
elemento elemento corregida elemento
item01 13,87 17,223 ,424 ,823
item02 13,90 17,403 ,356 ,826
item03 13,93 17,651 ,280 ,830
item04 13,93 16,754 ,515 ,818
item05 13,93 17,789 ,244 ,832
item06 13,73 17,306 ,550 ,819
item07 13,87 17,568 ,328 ,827
item08 13,80 17,821 ,297 ,828
item09 13,73 17,444 ,500 ,821
item10 13,90 17,334 ,375 ,825
item11 13,90 16,369 ,642 ,811
item12 13,93 16,133 ,686 ,809
item13 13,80 17,614 ,359 ,826
item14 13,87 17,016 ,482 ,820
item15 13,90 18,369 ,105 ,838
item16 13,87 17,361 ,385 ,825
item17 13,83 18,006 ,224 ,832
item18 13,87 17,016 ,482 ,820
item19 13,93 17,168 ,405 ,824
item20 13,90 16,783 ,526 ,817
De los resultados, la confiabilidad por el α de Cronbach es 0,831, por lo

que el instrumento presenta alca confiabilidad, así mismo el cuadro
Estadísticos total-elemento en el columnas Correlación elemento-total
corregida se observa el proceso de validez de cada uno de los 20 ítems
que consta el instrumento para el caso de los resultados; si el valor
arrojado es mayor o igual a 0,200 el ítem presenta validez, caso
contrario se recurre a la reformulación o eliminación de la misma.
Para el efecto se emplea la correlación ítem–test, cuya expresión es:
 jx x   j
 j ( x j ) 
 2j   x2  2  jx j x
Donde:
ρj(x-j) :Correlación entre el ítem j y el test tras descontar el
ítem (x – j)
ρjx :Correlación ítem-test cuando el ítem está incluido en
el test
σx : Desviación típica del test
σj : Desviación típica del ítem
Al efecto el ítem 15 presenta un valor de 0,105 requiere de reformular

el ítem o en todo caso eliminar el ítem y el grado de confiabilidad del
instrumento sería 0,838, es mayor que el anterior. No olvidemos que
cuanto más valor presenta la validez del ítem el nivel de confiabilidad
del instrumento presentara mayor grado de confiabilidad.
Para el proceso de sensibilización y especificidad. De la base de datos
Vista de variable. Ingresamos tres variables: lugar de procedencia;
etiquetamos (1: Urbano y 2: rural), puntuación y condición (aprobado,
desaprobado)
Resumen del procesamiento de los casos

Tabla de contingencia lugar * condición
condición
aprobado desaprobado Total
urbano Recuento 60 40 100
lugar % dentro de condición 54,5% 57,1% 55,6%
rural Recuento 50 30 80
% dentro de condición 45,5% 42,9% 44,4%
Total Recuento 110 70 180
% dentro de condición 100,0% 100,0% 100,0%
Para la presentación de la curva. Se procede del siguiente modo.
Analizar> Curva COR
Arrastramos, la variable en las casillas correspondiente; con la variable

lugar de procedencia, etiquetada 1 (urbano) procedemos a encontrar
los positivos y negativos.
Aceptar > se muestra en los cuadros; para el cuadro se ha tomado 1

(urbano); de manera que se observa al 1 como positivos y 2 como
negativos
Área bajo la curva

Variables resultado de contraste: puntuación
Error Sig. Intervalo de confianza asintótico al 95%
Área típ.a asintóticab Límite inferior Límite superior
,819 ,035 ,299 ,353 ,884
La variable (o variables) de resultado de contraste: puntuación tiene al menos
un empate entre el grupo de estado real positivo y el grupo de estado real
negativo. Los estadísticos pueden estar sesgados .
a. Bajo el supuesto no paramétrico
b. Hipótesis nula: área verdadera = ,5
El área se aproxima y tienen tendencia al vértice superior izquierdo

representando el 81.9% del total; esto implica que el instrumento
presenta buen nivel tanto en especificidad y sensibilidad.
Los procedimientos de la validez y confiabilidad en el apartado

siguiente, responden a la secuencia durante el desarrollo del proceso de
investigación de dos tipos de instrumentos, como es el caso de un
cuestionario y de una prueba objetiva.
a. Procedimientos técnicos de validez y confiabilidad para un

cuestionario.
Proceso de validación de instrumentos de percepción.
Instrumento ¨Escala valorativa de la convivencia democrática¨
Aspectos conceptuales del instrumento
El país muestra desigualdades sociales, afectando el ejercicio pleno de

una ciudadanía democrática y el estado de derecho de las personas es
vulnerado frecuentemente, debido a una marcada exclusión originada
básicamente por no respetar y asumir los derechos de todos, es
importante la formación de personas con capacidades básicas para la
convivencia democrática, interactuando con los demás, demostrando
valores como respeto, tolerancia, equidad, justicia, solidaridad.
Ficha técnica del instrumento del instrumento
- Nombre del Instrumento: Escala valorativa de la convivencia

democrática
- Objetivo. Determinar la valoración objetiva de la escala de la
convivencia democrática de los estudiantes
- Autora: Patricia Andrea Morales Vargas
- Administración. La administración del instrumento es de aplicación
individual y se administra a través de una ficha de observación.
- Duración. El instrumento tiene un tiempo promedio de aplicación
de 25 minutos.
- Sujetos de aplicación. La aplicación del presente instrumento está
dirigida a estudiantes de EBR.
- Técnica. Se recoge los datos a través de la técnica observación.
- Puntuación y escala de calificación. Se utiliza la Escala de Likert.
- Muestra. La muestra piloto estuvo conformada por 280 estudiantes
Ficha de observación individual
El presente instrumento, evalúa al instrumento y las dimensiones de la

Convivencia Democrática
Los siguientes criterios serán evaluados por el docente, observando el
comportamiento de los estudiantes, propiciando espacios y momentos
oportunos para que se expresen espontáneamente.
I.E:
Aula Sexo Código
M (1): masculino F(2): femenino
Siempre= 5 Casi siempre= 4 A veces= 3 Casi nunca= 2 Nunca= 1
1 La diversidad cultural de mi país me hace sentir orgullo 1 2 3 4 5

Me siento a gusto al convivir con estudiantes de diferentes
2 1 2 3 4 5
culturas
Marcar con una ¨X¨, según
Me atrae la idea de hacer amigos con personas de otras

corresponda.Convivencia
3 1 2 3 4 5
culturas
4 Me siento bien al tratar con estudiantes de la zona andina 1 2 3 4 5
5 Me siento bien al tratar con estudiantes de la zona amazónica 1 2 3 4 5
6 Me siento bien al compartir con estudiantes de la amazonia 1 2 3 4 5

7 Me siento bien al compartir con estudiantes andinos. 1 2 3 4 5
8 Me gusta realizar trabajos con estudiantes de la amazonia 1 2 3 4 5
9 Me gusta realizar trabajos con estudiantes de la sierra 1 2 3 4 5
10 Me interesa conocer las costumbres de otras regiones 1 2 3 4 5
11 Me gusta escuchar diferentes formas de hablar 1 2 3 4 5
Considero que participar en las actividades sociales de mi
Particip
12 comunidad es una necesidad. 1 2 3 4 5

ación
Considero que participar en las actividades educativas de mi

13 1 2 3 4 5
colegio es una necesidad.
Es importante participar en actividades de la institución
14 1 2 3 4 5
dirigidas a la comunidad.
Gran parte de mi vida se enfoca en la participación en la
15 1 2 3 4 5
comunidad
Me siento motivado participar en las actividades de mi
16 institución educativa. 1 2 3 4 5
17 Pienso que la participación ciudadana hace un mundo mejor 1 2 3 4 5
Siento que es una obligación participar en la tares de mi
18 1 2 3 4 5
comunidad.
Es importante participar con las autoridades para mejorar mi
19 1 2 3 4 5
comunidad
Es importante exigir a las autoridades que realicen acciones para
20 1 2 3 4 5
la mejora de mi institución educativa
Es importante exigir a las autoridades que realicen acciones para
21 1 2 3 4 5
la mejora de la comunidad.
Niveles y rango:
Los niveles y rangos fueron asumidos de acuerdo a la escala valorativa
del instrumento de carácter literal y descriptivo: A (logro previsto), B (en
proceso) y C (en inicio). El punto de corte de cada nivel obedece a los
procedimientos con respecto a la media y la desviación estándar.
Niveles Dimensiones Convivencia

Democrática
Convivencia Participación
Inicio (C) (11 – 26) (10 – 23) (21 – 61)
Proceso (B) (27 – 41) (24 – 37) (62 – 101)
Logro previsto (A) (42 – 55) (38 – 50) (102 – 142)
Proceso de validación del instrumento.
El instrumento tiene las características de una escala tipo Likert

(siempre, casi siempre, a veces, casi nunca y nunca) y los ítems
muestran orientación positiva, los mismos que han pasado por un
proceso de análisis para alcanzar la máxima relación con los indicadores
y por consiguiente con las dimensiones de la variable de estudio.
Procedimientos para la adopción de validez de instrumento.

Validez de Contenido
La validez de contenido se logró a través de juicio de expertos, los cuales
fueron cinco profesionales, y para su concordancia se procedió por las
siguientes técnicas
Técnicas: Aiken
V = Si
n(c-1)
Siendo:
Si= la sumatoria de si
s1= valor asignado por el juez i,
n= número de jueces
c= número de valores de la escala de valoración (2. en este caso)
Convivencia democrática
exp_1 exp_2 exp_3 exp_4 exp_5 SI V
it_1 1 1 1 1 1 5 1
it_2 1 1 1 1 1 5 1
it_3 1 1 1 1 1 5 1
it_4 1 1 1 1 1 5 1
it_5 1 1 1 1 1 5 1
it_6 1 1 1 1 1 5 1
it_7 1 1 1 1 1 5 1
it_8 1 1 1 1 1 5 1
t_9 1 1 1 1 1 5 1
it_10 1 1 1 1 1 5 1
It_11 1 1 1 1 1 5 1
It_12 1 1 1 1 1 5 1
It_13 1 1 1 1 1 5 1
It_14 1 1 1 1 1 5 1
It_15 1 1 1 1 1 5 1
It_16 1 1 1 1 1 5 1
It_17 1 1 1 1 1 5 1
It_18 1 1 1 1 1 5 1
It_19 1 1 1 1 1 5 1
It_20 1 1 1 1 1 5 1
It_21 1 1 1 1 1 5 1
consenso de jueces = 1
De acuerdo a la opinión de los expertos y aplicando la técnica: El

Coeficiente de Validez de Aiken (V), el instrumento que evalúa la
Convivencia Democrática es válido, donde todos los ítems presentan
alta validez de contenido. Las valoraciones asignadas son dicotómicas, y
el resultado que se obtuvo es 1, a un nivel de significancia del 100%.
Valores y significación estadísticos de la V Aiken en función a los jueces.
Fuente: Cuantificación de la validez de contenido por criterio de jueces (Luis Miguel Escurra M.)
Para su aplicabilidad de la técnica Aiken, es necesario adoptar a un

mínimo de 5 jueces (informantes técnicos), los datos de la tabla
muestran de un grupo de 5, 6 y 7 jueces, se requiere que por lo menos 7
jueces estén concordantes a las decisiones para identificar al valor de
significación estadística p_valor igual a 0,032 en comparación al nivel de
significación estadística (P-valor < α). En referencia a los datos; como el
instrumento presenta 5 jueces y el AI =1, asume p_valor de 0,032 en
comparación al ns. 0,05; el instrumento presenta validez de contenido.
Técnica binomial
La distribución binomial es una probabilidad discreta que mide el
número de éxitos si la variable es una variable aleatoria, es decir, sólo
puede tomar los valores 0, 1, 2, 3, 4, ..., n.
Bajo los supuestos mencionados, asumiremos los argumentos
matemáticos de la prueba binomial; para el procedimiento de validación
del instrumento a partir de la postura del juez, donde se espera que el
ítem presenta éxito si se encuentra bien formulado o fracaso en caso no
se encuentra bien formulado.
P(x,n,p)= n C x.px.qn-x
Donde:
P= probabilidad
x= número de éxitos
n= número de ensayos
p= probabilidad de éxito en cada ensayo
q= probabilidad de fracaso en cada ensayo
Prueba Binomial para la concordancia de los jueces

Prueba binomial
Catego N Prop. Prop. Significaci
ría observ de ón exacta
ada prueba (bilateral)
Dr. Xxxxx Grupo 1 1 10 1,00 ,50 ,002
Total 10 1,00
Dra. Yyyyy Grupo 1 1 10 1,00 ,50 ,002
Total 10 1,00
Dr. Xyyyy Grupo 1 1 10 1,00 ,50 ,002
Total 10 1,00
Mgtr. Yxx Grupo 1 1 10 1,00 ,50 ,002
Total 10 1,00
Mgtr. Xyx Grupo 1 1 10 1,00 ,50 ,002
Total 10 1,00
Siguiendo la secuencia de la validación de los instrumentos, se tiene a la

técnica de validez Binomial de contenido; con las condiciones de
decisiones de manera dicotómica, se tiene: p (acuerdos) y q
(desacuerdos), nos arroja una significación exacta (bilateral) de 0,002,
que al ser menor de 0,05 ó 0,01 se asume que los ítems poseen validez
de contenido.
Adopción de la muestra piloto. La muestra estuvo conformado por

280 estudiantes de las Instituciones Educativas de Lima Cercado.
Descripción de la aplicación del instrumento.
El instrumento evalúa las dos dimensiones de la Convivencia

democrática: participación y responsabilidad, asumida por la autora en
el proceso de la construcción, observándose el comportamiento y la
reacción de los estudiantes, propiciando espacios y momentos
oportunos para que se expresen espontáneamente.
Análisis exploratorio
El análisis factorial exploratorio es una técnica estadística de reducción

de datos que parte del supuesto de que las variables observadas son
indicadores de cierto número de factores (dimensiones) o variables
latentes (ítems) comunes20 cada ítem observado refleje alguna
característica de lo que se pretende medir. La validez exploratorio
permite evaluar si la variable independiente analizada es el factor, que
produce las respuestas distintas en cada uno de los ítems y éstos son las
factores dependientes. Esta técnica avizora cual es el nivel de
“reflectividad” que los ítems tienen hacia el factor común que vendría a
ser los constructos subyacentes21.
Esta técnica provee una visión previa del nivel de precisión que tiene
cada ítem en la medición del objeto ya que por muy cuidadosa que sea
la selección de los ítems es imposible que sean medidas perfectas del
factor común correspondiente22. No obstante, debe precisarse que
mediante esta etapa de validez solamente se puede determinar el
número de factores esperado con los ítems del instrumento.
Matriz de correlación y valor de significación de los ítems del

instrumento
Correlaciones
it_1 it_2 it_3 it_4 it_5 it_6 it_7 it_8 it_9 it_10 it_11 it_12 it_13 it_14 it_15 it_16 it_17 it_18 it_19 it_20 it_21
Corr 1
it_1
Sig. (bil)
**
Corr ,362 1
it_2
Sig. (bil) ,000
** **
Corr ,338 ,619 1
it_3
Sig. (bil) ,000 ,000
** ** **
Corr ,323 ,513 ,553 1
it_4
Sig. (bil) ,000 ,000 ,000
** ** ** **
Corr ,325 ,502 ,547 ,640 1
it_5
Sig. (bil) ,000 ,000 ,000 ,000
** ** ** ** **
Corr ,342 ,500 ,503 ,603 ,717 1
it_6
Sig. (bil) ,000 ,000 ,000 ,000 ,000
** ** ** ** ** **
Corr ,314 ,448 ,516 ,680 ,625 ,651 1
it_7
Sig. (bil) ,000 ,000 ,000 ,000 ,000 ,000
** ** ** ** ** ** **
Corr ,300 ,482 ,496 ,542 ,610 ,637 ,590 1
it_8
Sig. (bil) ,000 ,000 ,000 ,000 ,000 ,000 ,000
** ** ** ** ** ** **
it_9
Corr ,292 ,440 ,473 ,537 ,518 ,509 ,606 ,637 ** 1
Sig. (bil) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
** ** ** ** ** ** **
it_10
Corr ,298 ,425 ,437 ,407 ,426 ,412 ,387 ,420 ** ,471 ** 1
Sig. (bil) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
** ** ** ** ** ** **
it_11
Corr ,230 ,399 ,389 ,349 ,386 ,331 ,333 ,354 ** ,427 ** ,555 ** 1
Sig. (bil) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
** ** ** ** ** ** **
it_12
Corr ,210 ,301 ,287 ,281 ,330 ,316 ,286 ,301 ** ,355 ** ,352 ** ,425 ** 1
Sig. (bil) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
** ** ** ** ** ** **
it_13
Corr ,219 ,233 ,231 ,222 ,286 ,228 ,248 ,237 ** ,286 ** ,317 ** ,372 ** ,518 ** 1
Sig. (bil) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
** ** ** ** ** ** **
it_14
Corr ,179 ,245 ,197 ,289 ,278 ,301 ,315 ,333 ** ,315 ** ,282 ** ,338 ** ,421 ** ,528 ** 1
Sig. (bil) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
** ** ** ** ** ** **
it_15
Corr ,129 ,212 ,239 ,232 ,274 ,212 ,216 ,219 ** ,276 ** ,251 ** ,255 ** ,465 ** ,430 ** ,413 ** 1
Sig. (bil) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
** ** ** ** ** ** **
it_16
Corr ,246 ,246 ,263 ,236 ,279 ,217 ,275 ,261 ** ,235 ** ,288 ** ,228 ** ,258 ** ,431 ** ,406 ** ,430 ** 1
Sig. (bil) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
** ** ** ** ** ** **
it_17
Corr ,188 ,181 ,228 ,223 ,251 ,164 ,249 ,214 ** ,212 ** ,248 ** ,309 ** ,253 ** ,331 ** ,410 ** ,324 ** ,421 ** 1
Sig. (bil) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
** ** ** ** ** ** **
it_18
Corr ,163 ,159 ,166 ,215 ,234 ,225 ,243 ,230 ** ,199 ** ,140 ** ,131 ** ,370 ** ,286 ** ,306 ** ,422 ** ,294 ** ,244 ** 1
Sig. (bil) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
** ** ** ** ** ** **
it_19
Corr ,226 ,270 ,244 ,276 ,271 ,263 ,256 ,262 ** ,232 ** ,293 ** ,212 ** ,242 ** ,281 ** ,275 ** ,296 ** ,453 ** ,335 ** ,304 ** 1
Sig. (bil) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
** ** ** ** ** ** **
it_20
Corr ,222 ,289 ,318 ,334 ,316 ,301 ,312 ,315 ** ,239 ** ,340 ** ,292 ** ,230 ** ,267 ** ,309 ** ,203 ** ,383 ** ,387 ** ,243 ** ,505 ** 1
Sig. (bil) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
** ** ** ** ** ** **
it_21
Corr ,249 ,334 ,338 ,313 ,326 ,348 ,350 ,322 ** ,322 ** ,372 ** ,299 ** ,343 ** ,331 ** ,318 ** ,257 ** ,359 ** ,319 ** ,296 ** ,454 ** ,576 ** 1
Sig. (bil) ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000 ,000
**. La correlación es significativa en el nivel 0,01 (bilateral).
En la Matriz de correlaciones entre elementos, se observan ítems con

nivel de relación significativa, entre ellos destacan los siguientes: el ítem
4 Me siento bien al tratar con estudiantes de la zona andina y entre la
correlación más baja se muestra en el ítem 20 Es importante exigir a las
autoridades que realicen acciones para la mejora de mi institución
educativa; sin embargo, resultan significativos las correlaciones de los
ítems permitiendo afirmar que los ítems se asocian y se complementan
guardando relación de manera directa y significativa entre ellos.
Validez y confiabilidad interna instrumento
Estadísticas de total de elemento

Varianza de
escala si el Correlación Alfa de
Media de escala si elemento se total de Cronbach si el
el elemento se ha ha elementos elemento se
suprimido suprimido corregida ha suprimido
itmc_1 81,74 129,299 ,414 ,909
itmc_2 81,78 127,369 ,577 ,905
itmc_3 81,75 126,852 ,595 ,905
itmc_4 81,83 126,414 ,627 ,904
itmc_5 81,86 125,683 ,661 ,904
itmc_6 81,86 126,343 ,627 ,904
itmc_7 81,83 126,194 ,640 ,904
itmc_8 81,90 125,771 ,628 ,904
itmc_9 81,89 125,921 ,614 ,904
itmc_10 81,68 126,307 ,580 ,905
itmc_11 81,84 126,399 ,540 ,906
itmp_12 82,16 125,971 ,546 ,906
itmp_13 82,12 125,802 ,527 ,906
itmp_14 82,16 126,131 ,543 ,906
itmp_15 82,44 126,165 ,485 ,908
itmp_16 82,05 126,389 ,522 ,906
itmp_17 82,01 126,534 ,458 ,908
itmp_18 82,32 126,789 ,404 ,910
itmp_19 82,01 126,683 ,496 ,907
itmp_20 81,82 126,077 ,527 ,906
itmp_21 81,63 126,937 ,568 ,905
En la tabla se aprecia la Correlación total de elementos corregida,

donde el ítem 18 presenta el mayor coeficiente con 0,910 sin
embargo todos los ítems son válidos porque son superiores a 0,200
en comparación con la correlación total de elemento corregida; por
lo que de acuerdo a los datos los ítems presentan validez
estadísticamente
Validez de Constructo
Secuencia para la obtención de la validez a partir del reporte del SPSS.
Analizar>reducción de dimensiones>factor
Prueba KMO (Kaiser-Meyer-Olkin)
Identifica las correlaciones parciales entre los items del
cuestionario; a mayor correlación (> 0,5), el instrumento permite
el análisis factorial y es posible la ejecución de las pruebas para el
análisis factorial
Descriptivos> KMO
Prueba de KMO y Bartlett
Medida Kaiser-Meyer-Olkin de adecuación de muestreo ,923
Prueba de esfericidad de Aprox. Chi-cuadrado 11948,767
Bartlett gl 210
Sig. ,000
Los resultados de la tabla, muestra la prueba de KMO con un coeficiente

de 0,923 próximo a la unidad, el cual es un nivel alto para aceptar la
adecuación muestral, asimismo la prueba de Bartlett, presenta el valor
de significación estadística es de 0,000, demostrando que el análisis
factorial es apropiado y posible proceder el análisis exploratorio
Comunalidades
Inicial Extracción
En la tabla de Comunalidades, se
itmc_1 1,000 ,193
itmc_2 1,000 ,497 observan los ítems con el mayor
itmc_3 1,000 ,572 coeficiente; como es el caso
itmc_4 1,000 ,642
itmc_5 1,000 ,672 ítems 6, 5 y 7, además cuenta
itmc_6 1,000 ,678 con ítems bajos como es el caso
itmc_7 1,000 ,655
itmc_8 1,000 ,644
del ítem 1 y 20, pero al mismo
itmc_9 1,000 ,595 tiempo presentan un alto nivel
itmc_10 1,000 ,459
de significancia que permitirá
itmc_11 1,000 ,381
itmp_12 1,000 ,417 tener los datos adecuados a
itmp_13 1,000 ,503 partir de su aplicabilidad del
itmp_14 1,000 ,483
itmp_15 1,000 ,450 instrumento
itmp_16 1,000 ,461
itmp_17 1,000 ,388
itmp_18 1,000 ,347
itmp_19 1,000 ,397
itmp_20 1,000 ,349
itmp_21 1,000 ,406
Método de extracción: análisis de
componentes principales.
Varianza explicada de los ítems
Varianza total explicada

Sumas de extracción de Sumas de rotación de cargas
Componente
Autovalores iniciales cargas al cuadrado al cuadrado

% % de %
% de acumula varian acumula % de %
Total varianza do Total za do Total varianza acumulado
1 8,045 38,311 38,311 8,045 38,311 38,311 5,863 27,921 27,921
2 2,145 10,215 48,525 2,145 10,215 48,525 4,327 20,604 48,525
21 ,209 ,996 100,000
Método de extracción: análisis de componentes principales.
La tabla de varianza total explicada, muestra que el instrumento con un
componente explica el 38.311% y con dos componentes al 48.525% de
la varianza, lo cual el instrumento con dos factores (dimensiones)
permite percibir a la variable de estudio señaladas por el autor.
En el gráfico de sedimentación, se visualiza que el instrumento tiene

diez ítems. Además, se ratifica el número de dimensiones en función a
la teoría, las cuales son dos, teniendo como referencia al punto de
inflexión al trazo de una paralela al eje “x” por el punto uno.
Sedimentación de los
ítems. En el grafico se
muestran la
agrupación de ítems;
es aprecian que se
tienen dos
componentes
distribuidos de manera
concordante entre
ellos.
Análisis factorial rotada

Análisis factorial> rotación> Varimax> solución rotada
Análisis de la dimensionalidad por componente rotada
Matriz de componente rotadoa

Componente
1 2
itmc_1 ,389
itmc_2 ,677
itmc_3 ,736
itmc_4 ,787
itmc_5 ,793
itmc_6 ,805
itmc_7 ,782
itmc_8 ,770
itmc_9 ,737
itmc_10 ,590
itmc_11 ,510
itmp_12 ,579
itmp_13 ,691
itmp_14 ,659
itmp_15 ,660
itmp_16 ,664
itmp_17 ,607
itmp_18 ,573
itmp_19 ,599
itmp_20 ,519
itmp_21 ,542
Método de rotación: Varimax con normalización Kaiser.
a. La rotación ha convergido en 3 iteraciones.
En la matriz de componente rotado, se muestran los resultados de los

coeficientes quien define dos componentes ratificando a la teoría. Cabe
resaltar que la mayoría de los ítems coinciden con los ítems de cada
dimensión, el cual fueron saturadas mayor a 0.03
Matriz de correlaciones de componentes

Matriz de transformación de componente
Componente 1 2
1 ,794 ,608
2 -,608 ,794
Método de rotación: Varimax con normalización Kaiser.
En la presente matriz de transformación del componente nos muestra la

relación de los ítems de cada componente que explican un 48.52% de la
varianza total; donde los ítems del componente uno tienen un resultado
de 0,794 y al mismo tiempo pueden estar ubicados en la dimensión dos
con un resultado de 0,608 en ese sentido el ítem Recicla papel y botellas
de plástico ubicado en la primera dimensión en la matriz de
componente rotado, después de analizarlo y siguiendo a la teoría,
también puede ser ubicado en la segunda dimensión Responsabilidad.
Así mismo, los ítems del componente dos tienen un resultado de 0,794
en su misma dimensión.
Proceso de confiabilidad.
Confiabilidad el coeficiente Alpha (Cronbach).

Se ha determinado la confiabilidad del instrumento, midiendo la
consistencia de las respuestas de la muestra piloto. Se aplica la siguiente
expresión:
Estadísticas de fiabilidad
Alfa de Cronbach N de elementos
,913 21
En la tabla se observa al coeficiente del Alfa de Cronbach de 0,891 lo

cual demuestra que el instrumento presenta alta confiabilidad.
Relaciones entre la confiabilidad y la validez.

El instrumento presenta alta confiabilidad, obtenida a través del Alfa de
Cronbach, con un resultado de 0,891. Así mismo, posee validez de
contenido a través de las técnicas de AIKEN y Binomial con resultados
válidos, asimismo la validez de constructo a través de la prueba de KMO
igual a 0,842.
IV Fase final
Según Hernández, Fernández y Baptista (2016) la validez total de un

instrumento de medición se evalúa sobre la base de todos los tipos de
evidencia, como: la validez de contenido, criterio y constructo. De los
cuales.
Validez total = (validez de contenido + validez de criterio + validez) /3.
Validez total = (1 + 0,891 + 0,842)/3 obteniéndose como resultado de

0,911, lo cual representa una alta significación y demuestra que el
instrumento evalúa la variable Convivencia Democrática, con sus dos
dimensiones: participación y responsabilidad, en consecuencia, se
adopta para su aplicabilidad en la investigación.
Modelo del análisis factorial confirmatorio

Validez confirmatorio
el análisis de confirmatorio se caracteriza por permitir definir cuántos

factores espera, qué factores están relacionados entre sí, y qué ítems
están relacionados con cada factor21. Asimismo, se usan para evaluar la
estructura factorial subyacente a una matriz de correlaciones21, de
todos modos, se sugiere ejecutar el proceso de validez exploratorio
debido que en esta etapa se “construye” la teoría, por así decirlo y,
mediante la validez confirmatoria se confirma la misma.
Por otra parte, cuando ya se tiene una idea clara sobre las variables
objeto de estudio, el uso del análisis confirmatorio permite probar la
estructura hipotetizada, poniendo a prueba si el modelo hipotetizado se
ajusta adecuadamente a los datos21. Actualmente hay dos tendencias: la
primera, clásica, que recomienda el uso secuencial de ambos tipos de
análisis (Teniendo en cuenta que el tamaño de muestra lo permita); la
segunda cuestiona el uso de ambos análisis con respecto a su finalidad22
de modo que ambos análisis, en vez de considerarse como dos
categorías cualitativamente diferentes, deberían considerarse más bien
los dos polos de un continuo.
Al respecto, para proceder al análisis del instrumento en cuanto la

conformación de los factores o variables latentes (dimensiones) y las
variables observadas (ítems) procedemos a elaborar el modelo de
representación a partir de la secuencia del análisis con el complemento
del AMOS SPSS
Analizar>Amos
Al ingresar los ítems de

acuerdo a los resultados del
análisis exploratorio y
generando las cargas
correlacionales, a
continuación, se muestran
el modelo con dos factores
y sus respectivos ítems.
Modelo teórico del análisis factorial de Cargas estandarizadas
correlaciones
En la figura, se ilustra el modelo a partir del reporte del programa,

donde se muestran los factores de convivencia y la participación cada
uno de ellos con sus respectivos ítems y los errores de los datos de cada
uno de ellos que conlleva a un análisis exploratorio, las cuales muestran
las correlaciones entre las variables de convivencia y la participación de
0.63; indicando la existencia de la complementariedad, asociatividad
entre ellos y una relación moderada y positiva, asimismo se muestran
las relaciones entre las variables latentes (ítems) mostrándose y
observandoce como sigue: la relación entre el ítems 11 y la convivencia
es de 0,55 y así sucesivamente, sin embargo entre las relaciones más
altas se tienen entre el ítem 6 y 5 de 0,81, similar caso ocurre con la
variable Participación obteniéndose la relación más alta con el ítem 14
de 0,65. Finalmente los ítems del componente de la participación se
encuentran con mayor alto grado de asociación tal como se muestran la
fuerza de relación entre ellos en comparación con de las relaciones del
otro factor.
Al ingresar los ítems
de acuerdo a los
resultados del análisis
exploratorio y
generando las cargas
correlacionales, a
continuación, se
muestran el modelo
con dos factores y sus
respectivos ítems.
En la columna de Estimación se observan las correlacionales, quienes

muestran las correlaciones de moderada a alta, estos mismos
resultados se aprecian en el modelo teórico.
Modelo teórico del análisis factorial de Cargas no estandarizados

El Path Diagram se muestran los resultados no estandarizados en
función a las covarianzas entre la convivencia y participación cuyo
resultado es 0,19 y entre sus ítems correspondiente de las
variables mostrando un coeficiente positivo para todos los casos.
Con respecto a la dimensión convivencia, se encuentra

conformado por 11 items donde los valores de la regresión están
comprendidos desde 0,69 hasta 1,34. El ítem itmc_1 (la diversidad
cultural de mi país me hace sentir orgullo) es el que menos aporta a la
convivencia; su ecuación está representado por. itmc_1=
0,69ξ+0,71 de esta forma se tendría que presentar las ecuaciones
de los 11 ítems donde ξ es la variable latente. Bajo este mismo
argumento se tienen a la dimensión participación donde el
itmp_21 (Es importante exigir a las autoridades que realicen acciones para la
mejora de la comunidad) es quien aporta menos a la dimensión,
donde su ecuación está representada por. itmp_21= 0,89ξ+0,48.
Finalmente se muestran la covarianza entre las dos dimensiones
de 0,19 indicando una baja relación entre ellos, lo que se puede
afirmar que las dimensiones se encuentran relativamente
diferenciadas.
Análisis de ajuste del Modelo.
En el resultado CMIN
En el dato de modelo por defecto (DF); sea un valor no

significativo; sin embargo, para nuestro caso p = 0,000,
implicando que el modelo no es adecuado a partir de las
correlaciones, se debe muchas veces al tamaño de la muestra, es
posible obtener estos resultados; se recomienda una muestra
pequeña. Las correlaciones del dibujo no están bien explicadas
debido a p_valor < 0,05, asimismo se recomienda que el valor de
CMIN/DF debe de ser menor a 3 ó 5; para el caso (
2155.120/188= 11.463)
En el resultado de las Comparaciones de línea de base, representa

a la bondad de ajuste; en cuanto al modelo por defecto, se tienen
resultados como: 0,822, 0,781, 0,835, 0,796 y 0,834; es
recomendable que estos valores sean superiores a 0.900 para que
el dibujo explica adecuadamente al modelo. Para nuestro caso no
son superiores, implicando que el modelo pudiera tener ciertos
defectos.
En cuanto al resultado de RMSEA ( Residuos Cuadráticos Medios

Estandarizados) se tiene al modelo por defecto donde al valor de
RMSEA debe representa un valor pequeño menor al 0,05 o 0,08,
sin embargo, para nuestro caso representa 0,093 asimismo se
muestra el IC del valor más bajo al más alto debe estar por debajo
al 0,08; para el caso del modelo se tiene al intervalo comprendido
desde <0,09 a 0,097> no se encuentra por debajo de 0,08.
En conclusión, amerita revisar los ítems de cada uno de

dimensiones para que los coeficientes se encuentren en el rango
aceptado.
Finalmente, en la practica el investigador puede o no presentar un
único modelo, por lo contrario, puede sugerir un conjunto de
modelos de manera razonable que conlleva a un explicación
temática o procedimental. Este argumento se debe a una
comparación entre el Análisis Factorial Exploratorio (AFE) y el
Confirmatorio (AFC)
AF Exploratorio AF Confirmatorio
Método heurístico Fuerte base teórica
Halla el nº de factores Nº de factores a priori
Halla la relación entre los factores Se establece la relación entre los factores a priori
Variables con pesos en todos los factores Variables con pesos en factores determinados
Técnica de reducción de dimensionalidad Técnica de reducción
En muchas ocasiones se confunde de que las componentes

principales y el análisis factorial son lo mismo.
Análisis factorial Análisis Componentes Principales
Objetivo: Identificar valores subyacentes Objetivo: Uriel (1995) El análisis de
que reflejen qué es lo que las variables componentes principales es explicar la
comparten en común (Hair, 1999). mayor parte de variabilidad total de un
conjunto de variables con el menor
número de componentes posibles.
Ubicación: Análisis Exploratorio (Ayuda a
conocer el número de factores necesarios
que faciliten el análisis en la investigación) Estadística descriptiva
o Confirmatorio (Ayuda a confirmar si
unos factores fijados a priori son los
adecuados)
Cuando no existe relación y asociación entre las variables carece de sentido realizar
estos tipos de análisis
Los factores que surgen en el análisis Considera la varianza total y estima los
factorial se basan en la varianza común. factores que contienen proporciones bajas
de la varianza única.
Cuando el objetivo principal es identificar El análisis es apropiado cuando el interés
las dimensiones latentes o las primordial se centra en la predicción, o el
construcciones representadas en las mismo número de factores necesarios,
variables originales, y el investigador para justificar la proporción máxima de la
quiere eliminar la varianza, lo más varianza representada en la serie de la
apropiado es utilizar el modelo factorial variable original.
común.
b. Secuencia de validez y confiabilidad en Instrumento de
pruebas objetivas
Ficha técnica
Nombre: Prueba de evaluación del lenguaje oral - ELO
Autores: Ramos y Cuadrado (2004)
Adaptado por: Gamarra, E. (2018)
Lugar de aplicación: Institución Educativa “Rey Juan Carlos de Borbón”
de Villa el Salvador
Forma de aplicación: Directa
Duración de la aplicación: 20 minutos aproximadamente.
Descripción del instrumento: Este instrumento es una lista de cotejo que
consta de 97 ítems.
Baremos de la Evaluación del lenguaje oral – Prueba ELO

Niveles Discriminació Conciencia Aspecto Aspecto Lenguaje
n auditiva fonológica sintáctico semántico oral
Inicio 00 – 04 00 – 17 00 – 06 00 – 03 00 – 37
Proceso 05 - 05 18 – 28 07 – 10 04 – 06 38 – 51
Logro 06 - 07 29 – 39 11 – 11 07 – 10 52 – 66
Logro 07 - 12 40 - 45 12 - 20 11 - 20 67 – 97
destacado
Muestra piloto
La muestra para la prueba piloto fue de 45 estudiantes entre varones y
mujeres de la Institución Educativa N° 602031 “Santa Rosa” del distrito
de Lurín. Una de las características es que todos los estudiantes
pertenecen al primer grado de primaria de la Educación Básica Regular,
sus edades fluctúa entre los seis y siete años y estudian en el turno
mañana.
Validez
Para Sanchez y Reyes (2015), es la propiedad señala que todo
instrumento debe medir lo que propone medir, es decir,demmsotaar de
manera efectiva, los resultados d els capacidad que se propone medir.
Validez interna
Tejedor, toma el concepto de Campell y Stanley (1978), quienes
sostienen que la validez interna “Nos determina hasta que punto el
investigador puede atribuir la variación observada en la variable
dependiente a la precencia de la variable independiente.
Es decir en que grado la manipulación de la variable independiente es

responsable de los cambios que se den en la variable dependiente.
Amenazas a la validez interna
Historia
se refiere a los sucesos que ocurrieron durante la aplicación del
programa rimas y trabalenguas en la I.E Losey Juan Carlos, la historia se
sitúa entre el pre test y el post test, el experimento tuvo una duración
de 5 semanas, se aplicó dos sesiones por semana, se dio de manera
regular, en la Institución educativa hubo una actividad extra curricular la
celebración del día de la madre, pero que no fue una amenaza para el
experimento ya que esta se realizó un día viernes en la que no se aplicó
el experimento ya que no correspondía hacerlo.
Cada sesión fue evaluada en una lista de cotejo donde se registró los
avances de cada uno de los estudiantes de manera individual y grupal y
estos resultados fueron exclusivamente de la experimentación.
Maduración
La maduración se convierte en una amenaza en la medida en que los
participantes ganan experiencia y se hacen mayores. Esta afecta
principalmente a estudios hechos con niños durante un tiempo
relativamente largo.
En el presente estudio, la experimentación se realizó con niños del
segundo grado que sus edades flutuan entre los 7 y 8 años, durante un
periodo corto de un mes, en el cual no hubo cambios sustanciales en
cuanto a su madurez u otros factores que pudieran afectar el
aprendizaje.
Selección
La selección es una amenaza cuando el experimentador no puede
seleccionar a los participantes al azar y hay diferencias importantes
entre el grupo experimental y el grupo control.
El presente estudio se realizó con todos los estudiantes del aula del
segundo y tercer grado en el cual no se presentó ningún inconveniente
ya que ambos grupos presentan características similares en su
desarrollo cognitivo, por encontrarse en la etapa de operaciones
concretas tal como lo sostiene la Teoría de Piaget.
Mortalidad
Se refiere a la cantidad de participantes que abandonan el experimento.
Durante el estudio , no se registro el abandono de ningún estudiante de
ambos grupos, por lo que se mantuvo la cantidad de 27 estudiantes en
el grupo experimental y 27 estudiantes en grupo control, por tanto no
hubo amenaza en la investigación.
Prueba
La prueba puede ser una amenaza cuando el pre test proporciona
información que contribuye a que el participante obtenga una mejor
calificación en el post test.
En el presente estudio tanto el grupo experimental y de control fueron

sometidos a la prueba ELO para medir el lenguaje oral y obtener datos
para el pre test, luego de la aplicación del programa Rimas y
trabalenguas de igual modo se sometieron a la prueba del pos test. Pero
que cada uno de los grupos no recibió información adicional de tal
manera pueda obtener mejor resultado en el post test.
Interacciones con la selección
Se refiere a posibles interacciones entre madurez y la historia con la
selección de los participantes, en el estudio no hubo selección de
participantes, todos los estudiantes de ambos grados participaron en la
experimentación, por tanto no hubo interacción entre la selección y la
maduración o la historia.
Validez de contenido.
Sanchez y Reyes (2015), afirmaron que un instrumento logra ser válido
en su contenido, cuando los items que está cpompuesto, son una
muestra represnetativa de los iondicadores de la variable que se mide.
El presente instrumento fue revisado y validado por cinco jueces, entre

las cuales se encontraron tres metodólogos temáticos y dos
metodólogos estadísticos, se halló la validez de cada ítem a través del
coeficiente de Aiken en tres aspectos: Pertinencia, Relevancia y
Claridad. La validez de cada ítem se obtuvo como el promedio de la
validez en cada uno de los aspectos mencionados anteriormente,
mientras que la validez total del instrumento, se halló a través del
promedio de la validez de todos los ítems, el cual se calcula a través de
la fórmula:
Donde:
S : Sumatoria de valoraciones positivas emitidas por los jueces.
n : Número de jueces.
c : Número de valores de la escala de valoración (2 en el caso
dicotómico)
Todos los ítems son válidos según la apreciación de los jueces, por lo tanto:
V= 5___ = 1
5(2– 1)
Validez de contenido del instrumento o Aiken = 1
Los resultados demuestran que la validez de contenido del instrumento es

alta.
Juicio de expertos
Nº Expertos Decisión
1 Dr. Si hay suficiencia.
2 Dr. Hay suficiencia.
3 Dr. Aplicable.
4 Dr. Aplicable.
5 Dr. Aplicable el instrumento.
Tabla 7
Prueba binomial; reporte del Spss
Prop. Prop. de Significación
Categoría N observada prueba exacta (bilateral)
EXP_1 Grupo 1 1 97 1.00 0.50 0.000
Total 97 1.00
EXP_2 Grupo 1 1 97 1.00 0.50 0.000
Total 97 1.00
EXP_3 Grupo 1 1 97 1.00 0.50 0.000
Total 97 1.00
EXP_4 Grupo 1 1 97 1.00 0.50 0.000
Total 97 1.00
EXP_5 Grupo 1 1 97 1.00 0.50 0.000
Total 97 1.00
p<0.05, el instrumento tiene un nivel de confianza de 100% o 1
Validez de constructo
Sanchez y Reyes (2015) afirmaron que la validez de constructo está
referida al nivel de aceptaciópn de un instrumento que mide la
construcción teórica con respecto a la conducta que se mide, posee
valides si el resultado es el eséado acorde con la teoría formulada
Para el instrumento en estudio, se ha considera como la validez de
constructo al grado de dificultad de la prueba, siendo este, el porcentaje
de veces que se responde correctamente a cada ítem. Cuanto más alto
sea el porcentaje obtenido, menor será la dificultad del ítem o de la
prueba.
Gd = x 100%
Pm
Donde:
Gd: Grado de dificultad del instrumento; indizado por Kuder y
Richarrdson.
Promedio alcanzado de la prueba.
Pm: puntuación máxima a alcanzar en la prueba.
De la prueba piloto se obtuvo los siguientes datos:
: 51. 96
Pm: 97
Reemplazando en la formula se obtiene
Gd = 51,96 x 100  Gd = 53,57%

97
Según Kuder y Richardson el grado de dificultad de la prueba ELO es de

dificultad adecuada.
Confiabilidad
Hernández, Fernández y Baptista (2014) señalaron que está referido al
nivel en que la aplicación repetida a la misma unidad de análisis,
produce iguales resultados. Para efectos de la investigación, se utilizó el
KR2P, por ser un instrumento dicotómico.
Validez de criterio
El presente instrumento está constituido por 97 ítems de dificultad
variable. Tal como pudo reconocer a través de la prueba piloto, algunos
ítems fueron respondidos correctamente por los estudiantes mientras
que otros tuvieron respuestas erradas. Cada ítem tuvo solo una
respuesta correcta válida. En consecuencia, el indicador KR-20 es el
apropiado para este tipo de prueba.
La fórmula empleada fue la siguiente:
Donde:
K: número de ítems
σ²: varianza de los puntajes por participante
p: % de aciertos por ítem
q: % de desaciertos por ítem
La prueba piloto para el presente instrumento arrojó los siguientes

resultados:
K = 97
σ² = 202,45
∑i=1 pi.qi = 18,12
R20 = ( 97 ) 202,45 – (18,12)  R20 = 0,92
96 202,45
Confiabilidad - KR20
Instrumento Fiabilidad N° de ítems
Evaluación del lenguaje oral 0,92 97
En los resultados obtenidos en la confiabilidad de la variable lenguaje

oral con un KR20 igual a 0,92 lo que permite determinar que el
instrumento tiene una confiabilidad alta y procede a su aplicación.
Índice de validez total
En el modelo clásico de validez, se tiene tres tipos principales de

evidencia de la misma: la validez de contenido, de constructo y de
criterio. Dado que se ha obtenido un indicador numérico para cada una
de ellas, la validez total será el promedio de los tres, lo cual puede
representarse a través de la fórmula:
(Validez de contenido + Validez de constructo + Validez de criterio)/3.

A través de la prueba piloto y después de hacer los cálculos
correspondientes, se obtuvo lo siguiente:
De contenido: Aiken = 1
De constructo: Gd = 0,54
De criterio: KR-20 = 0,92
Total = 1 + 0,54 + 0,92_
3
Validez total de la prueba = 0,82
Se observa que la validez de la prueba es alta, por lo que el instrumento

es apto para ser empleado con la población del presente estudio.
Categorias y percentiles de la curva z

Estadísticamente, el instrumento presenta las siguientes categorías de
puntuación: Estas fueron halladas a través de las fórmulas:
Categorias y percentiles de la curva z
Realizando el procedimiento estadístico con los datos obtenidos en la

prueba piloto se obtuvo lo siguiente:
µ = 51,96 y σ = 14,23
Entonces:
µ – 2σ = 23,5
µ – σ = 37,73
µ = 51,96
µ + σ = 66,19
µ + 2σ = 80,42
Por lo que se consideran los siguientes rangos:
Rangos de la variable lenguaje oral

Niveles Rangos
Muy deficiente 0 - 23,5
Deficiente 23,6 - 37,73
Regular 37,73 66,19
Eficiente 66,20 - 80,42
Muy eficiente 80,41 - Máximo
El nivel de conocimiento de lenguaje oral de los estudiantes que

participaron en la prueba piloto se encuentra en los siguientes rangos:
Se observa que el grupo de estudiantes más numeroso corresponde al
de la categoría logro al promedio. Estos resultados confirman que la
prueba fue de dificultad adecuada, en concordancia con lo mostrado por
el grado de dificultad de la prueba.
Poder discriminativo de una prueba.

Se logran formar dos grupos de estudiantes, sujetos al tipo de respuesta
brindada. El grupo mayos comprende los estudiantes de buena
respuesta y el inferior los que cuentan con menor puntaje; y queda
establecido el índice, por la diferencia del grupo superior y el grupo
inferior
Donde:
Dd : Poder discriminativo de la prueba

GS : % del grupo superior que contestó correctamente el ítem
GI : % del grupo inferior que contestó correctamente el ítem
El instrumento de la presente investigación fue dividido en cuatro

categorías de puntuación: Logro Destacado, Logro, Proceso e inicio,
encontrándose a 07 participantes en la categoría más alta y a 10 en la
categoría más baja.
Para hallar el poder discriminativo de la prueba, se calculó el promedio
del poder discriminativo de cada ítem, obteniéndose un valor de 0.42 o
42%, el cual indica un alto índice de discriminación.
Técnica de aplicación de la prueba en mitades.
La prueba fue dividida en mitades. Una de ellas incluía los ítems

impares y la otra los pares. Se obtuvo los puntajes correspondientes a
cada mitad por participante y se halló el coeficiente de correlación
Pearson, encontrándose lo siguiente:
Coeficiente de correlación Pearson: r = 0.95
El coeficiente hallado indica que la prueba es altamente confiable.

Como se ha podido observar, los métodos de confiabilidad están sujetos
a estadísticos tales como el coeficiente de correlación, varianza y media.
Para determinar el error de medición, se empleó el coeficiente de
correlación Pearson, hallado a través de la técnica de aplicación de la
prueba en mitades.
La psicometría recomienda que el error del instrumento sea menor al

15%, el cual estará representado por el índice de fiabilidad y error de
medición, expresado a través de la siguiente fórmula:
donde:
FE: Fiabilidad y error de medición

r: Coeficiente de correlación Pearsón
Para el presente instrumento, la prueba en dos mitades dio como

resultado:
r = 0,95
Entonces, reemplazando en la fórmula presentada, se obtuvo que el
índice de fiabilidad y error de medición es:
FE = 2,5
Se observa un error de medición de 2.5%, el cual al ser inferior al 15%,

cumple con lo recomendado para la fiabilidad del instrumento. Se
concluye que la prueba es altamente fiable y lista para su aplicación.

Este error proporciona una manera especialmente útil de describir la
confiabilidad del test, ya que indica la cantidad de error que debemos
considerar al interpretar puntuaciones individuales de un test. Para
calcularlo, basta con conocer la desviación estándar y el coeficiente de
correlación r. El error estándar de media, dado por Paúl Diederich
(1964), está representado por.
En la prueba piloto se obtuvo:
= 14,23; r = 0,95, Reemplazando valores en la fórmula, se halló el

error estándar de media.
ESm = 3,18
El máximo valor del error estándar de media se aprecia en la siguiente

tabla en función al número de ítems
Error standard
Numero de ítems del test Error estándar
Menos de 24 2
24 – 47 3
48 – 89 4
90 – 109 5
110 – 129 6
130 – 150 7
El número de ítems de la prueba piloto fue 97, al cual le corresponde,

según lo indicado en la tabla, un máximo valor del error estándar de
media igual a 5. Al hacerse el cálculo con los datos obtenidos en la
prueba, se halló un valor del error estándar de media igual 3.18, el cual
se encuentra por debajo del rango indicado.
Validez predictiva. Es la capacidad de las pruebas de la predicción de

acontecimientos futuros. Se determina mediante la siguiente fórmula:
r = coeficiente de correlación
n=número de encuestados
En la prueba piloto, el número de participantes fue de 45 estudiantes,
obteniéndose un coeficiente de correlación r = 0.95 a través de la
técnica de aplicación de la prueba en dos mitades. Por lo tanto:
n = 45, r = 0,95
Reemplazando en la fórmula se obtuvo:
EP = 68 %
Se observa que la validez predictiva de la prueba es de un 68%.
Validez concurrente. Correlación entre las puntuaciones luego de

aplicar la prueba, prestando atención que sean los mismos sujetos en las
mediciones que se realizaron simultáneamente.
Se busca conocer si la relación entre dos variables resulta verdadera o si

es producto del azar
Se formula la H1: el coeficiente de correlación entre “x” y “y” resulta
significativo con un riesgo de (0.05 o 0.01), con la siguiente expresión.
n= 45 , r= 0,95. Reemplazando en la formula se obtuvo:

rt = 19,95
tt = 1,6811
Como la rt > tt implica que existe buen nivel de validez de concurrencia
al 95% de confianza.
Bajo estos argumentos estadísticos el instrumento en referencia

presenta
validez y confianza para su próxima aplicación a la muestra seleccionada
Referencias.
1
Leyva, Y.E. (2011). Una reseña sobre la validez de constructo de
pruebas referidas a criterio. Perfiles educativos, 33(131), 131-154.
Recuperado de https://bit.ly/2V1oTNy
2
Delgado, A., Escurra, L. & Torres, W. (2006). La Medición Psicología
y Educación: Teoría y Aplicación. Perú: Hozlo.
3
Urrutia, M., Barrios, S., Gutiérrez, M. & Mayorga, M. (2014). Métodos
óptimos para determinar validez de contenido. Educación Médica
Superior, 28(3), 547-558. Recuperado de https://bit.ly/2sIvSyj.
4
Valero, S. (2013). Transformación e interpretación de las puntuaciones.
España: UOC-Universidat Oberta de Catalunya. Recuperado de
https://bit.ly/2LsaZzJ
5
Joya, (2003).
6
Escobar-Pérez, J. & Cuervo-Martínez, A. (2008). Validez de contenido
y juicio de expertos: una aproximación a su utilización. Avances en
Medición, 6(1), 27–36. Recuperado de https://bit.ly/11l533x
7
Carballo, M. & Guelmes. C. E. L. (2016). Algunas consideraciones
acerca de las variables en las investigaciones que se desarrollan en
educación. Revista Universidad y Sociedad, 8(1), 40-150. Recuperado
de https://bit.ly/2LwCbgD
8
Stevens, S. (1951). Handbook of experimental psychology. N. York:
Wiley.
9
López Feal, R. (1986). Construcción de instrumentos de medida en
Ciencias conductuales y sociales. España: Alamex.
10 Fernández, A. (2008). La evaluación de los aprendizajes en la
universidad: nuevos enfoques. Valencia, España: Instituto de Ciencias
de la Educación. Recuperado de https://bit.ly/2OqKgaq
11
Cohen, R.J. & Swerdlik, M.E. (2000) Pruebas y evaluación
psicológicas. Introducción a las pruebas y a la medición. McGraw Hill.
México.
12 Messsick, S. (1995) Validity of psychological assessment. American
Psychologist, 50, pp.741-749.
13
Cohen, R.J. & Swerdlik, M.E. (2000) Pruebas y evaluación
psicológicas. Introducción a las pruebas y a la medición. México:
McGraw Hill.
14
Kuder, G. F. & Richardson, M. W. (1937). The theory of the
estimation of reliability. Psychometryca, 2, 151-160.
15
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of
tests. Psychometryca, 16, 297-334.
16
Cronbach, l. & Glaser, G. (1972) The dependability of behavioral
measurements. Theory of generalizability for scores and profiles. New
York; Willey.
17
Badii, M.H., Guillen, A., Lugo, O.P. & Aguilar, J. J. (2014).
Correlación No-Paramétrica y su Aplicación en la Investigaciones
Científica. Daena: International Journal of Good Consciencie, 9(2), 31
– 40. Recuperado de https://bit.ly/2lz3Hzh
18
Nunnally, J. & Bernstein, I. (1995) Teoría Psicométrica. México.
McGraw Hill.
19
Anastasi, A. & Urbina, S. (1998) Tests Psicológicos. (7ma ed.).
Mexico: Prentice Hall.
20
Lloret-Segura, S., Ferreres-Traver, A., Hernández-Baeza, A. & Tomás-
Marco, I. (2014). El Análisis Factorial Exploratorio de los Ítems: una
guía práctica, revisada y actualizada. Anales de Psicología, 30(3),
1151-1169. Recuperado de http://sci-
hub.tw/10.6018/analesps.30.3.199361
21
Edwards, J. R. (2011). The Fallacy of formative measurement.
Organizational Research Methods, 14, 370-388. Doi:
10.1177/1094428110378369
22
Ferrando, P. J. y Anguiano-Carrasco, C. (2010). El análisis factorial
como técnica de investigación en psicología. Papeles del Psicológo, 31
(1), 18-33. Recuperado de http://psiqu.com/2-19656

Propiedades de Un Instrumento - Salvatierra2020

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Propiedades de Un Instrumento - Salvatierra2020

Cargado por

Copyright:

Formatos disponibles

Propiedades de un instrumento de recolección de

información: la validación y la confiabilidad

ANGEL SALVATIERRA MELGAR

Corrección de texto: Johanna Guillermo Marcelo

ANGEL SALVATIERRA MELGAR

Todos los derechos reservados.

EDITOR DE CONTENIDOS: Dr. Pedro Félix Novoa Castillo

Con el objetivo de publicar libros productos de una investigación científica

La obra: Propiedades de un instrumento de recolección de

Dr. Pedro Félix Novoa Castillo

EDITOR DE CONTENIDO DE LA PRESENTE OBRA

El presente texto contempla aspectos teórica y prácticos a los procesos

Al respecto, el material se encuentra organizado por capítulos. Dentro

Finalmente, pongo en disposición el presente material a todas las

Angel Salvatierra Melgar

La evaluación desde el punto de la psicopedagógica no se reduce solo a

Validez. Es el grado con el cual un test o prueba mide lo que se supone

Confiabilidad. Es la estimación del grado de consistencia de una

Estandarización. Es el proceso del desarrollo de los controles necesarios

Adaptación. Es el proceso a través del cual se adecua o modifica un

Validación. Es el proceso a través del cual se establece la validez de un

Baremación o normalización. Es el proceso por el cual se transforman

Elementos a validar. De acuerdo con Joya (2003)5 al validar se busca

Atracción: Se refiere a la forma del material para el quien va dirigido; la

Procesamiento y análisis Conclusiones y

Figura 6.1. Proceso de validación de instrumentos de toma Elaboración del informe

En referencia a los conceptos tratados, abordaremos el estudio bajo las

Se muestra el cuestionario de ciudadanía intercultural, que fue elaborado por Aguirre, F.

Grado que cursa Primero Segundo Tercero Cuarto Quinto

Permanencia en la institución educativa.

Instrucciones. A continuación se muestran un conjunto de enunciados con relación a la

1 La diversidad cultural de mi país me hace sentir orgullo 1 2 3 4 5

5 Me siento bien al tratar con estudiantes de la zona amazónica 1 2 3 4 5

Me siento motivado participar en las actividades de mi institución

1.2. Tipos de validación

Modelos de validación. Se debe seleccionar la técnica adecuada para la

Medición. Es emitir un valor o juicio a un objeto, sujeto, fenómeno,

Observado Atributo. Medición

Niveles de medición. Siguiendo a S. Stevens8 las escalas de medición son:

a. Escala nominal. Este nivel de medición consiste en asignar nombres o

Los números que se asignan representan nombres o clasificaciones; no

Las escalas variables que se miden en este nivel generalmente son

El tipo de gestión de las universidades puede ser:

Variable Categorías Medición

Clasifica la prioridad de la profesión asignando las etiquetas del 1 al

Variable Categorías Prioridad Nota: al menos que se nos

La medición de la escala ordinal, podría representarse a nivel de

Variable Categorías Medición

Se usa en la medición de variables continuas y se inicia de cero relativo y

La temperatura de hoy registra 25° centígrados, el coeficiente

d. Nivel proporcional o de razón.

Este nivel es el más elevado de la medición. Es el ideal de la medición

Entre algunos ejemplos, se tiene: El peso en kilogramos de un objeto.

Evaluación. La evaluación presenta una connotación muy diferenciada

Instrumentos de acopio de datos.

Test o prueba de conocimiento. Exigen a los examinados, respuestas

Test de sentimiento llamadas también de opiniones, se indaga acerca de las

La variables conceptuales. Conforman la estructura del objeto; ejemplo

Variable Indicador Población

Diagrama de operacionalidad de la variable.

Indicador. Representan a los rasgos observables de manera empírica, o

DEFINICIÓN Variable “x” …….. xxx…. Yyy …… zzzz …… qqqqq

DIMENSIONES xxxxx Yyyyy zzz qqqq