EVALUACION

UNIVERSIDAD NACIONAL DE EDUCACIN ENRIQUE GUZMN Y VALLE Alma Mter del Magisterio Nacional
Mg. Lourdes Castaeda Solrzano 2012
MDULO I
EVALUACIN EDUCATIVA
EVALUACIN EDUCATIVA
La evaluacin es hoy quiz uno de los temas con mayor protagonismo del mbito educativo, y no porque se trate de un tema nuevo en absoluto, sino porque administradores, educadores, padres, alumnos y toda la sociedad en su conjunto, son ms conscientes que nunca de la importancia y las repercusiones del hecho de evaluar o de ser evaluado. Existe quiz una mayor conciencia de la necesidad de alcanzar determinadas cotas de calidad educativa, de aprovechar adecuadamente los recursos, el tiempo y los esfuerzos y, pro otra parte, el nivel de competencia entre los individuos y las instituciones tambin es mayor. Quiz uno de los factores ms importantes que explican que la evaluacin ocupe actualmente en educacin un lugar tan destacado, es la comprensin por parte de los profesionales de la educacin de que lo que en realidad prescribe y decide de facto el "que, cmo, por qu y cundo ensear" es la evaluacin. Es decir, las decisiones que se hayan tomado sobre "qu, cmo, por qu y cundo evaluar". En general, uno de los objetivos prioritarios de los alumnos es satisfacer las exigencias de los "exmenes". En palabras de A. de la Orden (1989): "la evaluacin, al prescribir realmente los objetivos de la educacin, determina, en gran medida... lo que los alumnos aprenden y cmo lo aprenden, lo que los profesores ensean y cmo lo ensean, los contenidos y los mtodos; en otras palabras, el producto y el proceso de la educacin... quermoslo o no, de forma consciente o inconsciente, la actividad educativa de alumnos y profesores est en algn grado canalizada por la evaluacin". Todos estos factores han llevado a una "cultura de la evaluacin" que no se limita a la escuela sino que se extiende al resto de las actividades sociales. Concretamente, en nuestro pas, la ampliacin del mbito de la evaluacin desde los resultados y procesos del aprendizaje de los alumnos hasta el propio currculo (en sus distintos niveles de concrecin), la prctica docente, los centros, el sistema educativo en su conjunto, etc, ha dibujado en los ltimos aos un nuevo escenario para las prcticas evaluativas, que se han desarrollado a todos los niveles de manera muy importante. 1.- Conceptos Bsicos y Funciones de la Evaluacin Educativa 1.1.- Clarificacin de conceptos Es importante, antes de abordar cualquier contenido de evaluacin, distinguir algunos conceptos fundamentales, tales como evaluacin calificacin y medida.
lourdesreyna1613@hotmail.com
MDULO I
EVALUACIN EDUCATIVA
El concepto de evaluacin es el ms amplio de los tres, aunque no se identifica con ellos. Se puede decir que es una actividad inherente a toda actividad humana intencional, por lo que debe ser sistemtica, y que su objetivo es determinar el valor de algo (Popham, 1990). El trmino calificacin est referido exclusivamente a la valoracin de la conducta de los alumnos (calificacin escolar). Calificar, por tanto, es una actividad ms restringida que evaluar. La calificacin ser la expresin cualitativa (apto/no apto) o cuantitativa (10, 9, 8, etc) del juicio de valor que emitimos sobre la actividad y logros del alumno. En este juicio de valor se suele querer expresar el grado de suficiencia o insuficiencia, conocimientos, destrezas y habilidades del alumno, como resultado de algn tipo de prueba, actividad, examen o proceso. Se evala siempre para tomar decisiones. No basta con recoger informacin sobre los resultados del proceso educativo y emitir nicamente un tipo de calificacin, si no se toma alguna decisin, no existe una autntica evaluacin. As pues, la evaluacin es una actividad o proceso sistemtico de identificacin, recogida o tratamiento de datos sobre elementos o hechos educativos, con el objetivo de valorarlos primero y, sobre dicha valoracin, tomar decisiones (Garca Ramos, 1989). La evaluacin, por tanto, se caracteriza como: Un proceso que implica recogida de informacin con una posterior interpretacin en funcin del contraste con determinadas instancias de referencia o patrones de deseabilidad, para hacer posible la emisin de un juicio de valor que permita orientar la accin o la toma de decisiones. Finalmente, deben diferenciarse los conceptos de investigacin y evaluacin. Ambos procesos tienen muchos elementos comunes, aunque se diferencian en sus fines: La evaluacin es un proceso que busca informacin para la valoracin y la toma de decisiones inmediata. Se centra en un fenmeno particular. No pretende generalizar a otras situaciones. La investigacin es un procedimiento que busca conocimiento generalizable, conclusiones (principios, leyes y teoras), no tiene necesariamente una aplicacin inmediata (De la Orden, 1989).
1.2.- mbitos de la evaluacin Tradicionalmente, la evaluacin se ha venido aplicando casi con exclusividad al rendimiento de los alumnos, a los contenidos referidos a conceptos, hechos, principios, etc., adquiridos por ellos en los procesos de enseanza. A partir de los aos sesenta, la evaluacin se ha extendido a otros mbitos educativos: actitudes, destrezas, programas educativos, materiales curriculares didcticos,
MDULO I
EVALUACIN EDUCATIVA
la prctica docente, los centros escolares, el sistema educativo en su conjunto y la propia evaluacin. Esta extensin de la evaluacin a otros mbitos tuvo lugar en los Estados Unidos a finales de los aos 50 debido a circunstancias tales como: la crtica a la eficacia de las escuelas pblicas, la gran inversin dedicada a la educacin que exiga una rendicin de cuentas (Accountability), etc. Por tanto, el campo de aplicacin de la evaluacin se extiende a alumnos, profesores, directivos, instituciones, la administracin, etc. Y va a ser, precisamente, a raz de la extensin del mbito evaluador cuando van a surgir una serie de modelos de evaluacin de gran relevancia.
1.3.- Evaluacin La decisin de evaluar es la que, con ms frecuencia, debe enfrentar el profesor, desde las evaluaciones formales (curso a curso) hasta las evaluaciones diarias (de una tarea a otra, cuando se considera que se ha alcanzado un nivel de conocimientos suficiente). Por tanto, la evaluacin puede resultar un elemento estimulante para la educacin en la medida en que pueda desembocar en decisiones de evaluacin positivas, y para ello es preciso que el sistema educativo sea pblico y coherente, ofreciendo la informacin precisa para ofrecer las dificultades que puedan surgir. Para ello, es necesaria una definicin clara de los objetivos previos y una recuperacin inmediata en caso de fracaso. En caso de que el fracaso sea reiterado, se hace imprescindible la utilizacin de procesos diagnsticos y teraputicos. Por tanto, lo deseable es la evaluacin tanto desde el punto de vista del aprendizaje como desde el punto de vista del desarrollo armnico de la persona. 2.- Tipos de Evaluacin Esta clasificacin atiende a diferentes criterios. Por tanto, se emplean uno u otro en funcin del propsito de la evaluacin, a los impulsores o ejecutores de la misma, a cada situacin concreta, a los recursos con los que contemos, a los destinatarios del informe evaluador y a otros factores. 2.1.- Segn su finalidad y funcin a) Funcin formativa: la evaluacin se utiliza preferentemente como estrategia de mejora y para ajustar sobre la marcha, los procesos educativos de cara a conseguir las metas u objetivos previstos. Es la ms apropiada para la evaluacin de procesos, aunque tambin es formativa la evaluacin de productos educativos, siempre que sus resultados se empleen para la mejor de los mismos. Suele identificarse con la evaluacin continua.
MDULO I
EVALUACIN EDUCATIVA
b) Funcin sumativa: suele aplicarse ms en la evaluacin de productos, es decir, de procesos terminados, con realizaciones precisas y valorables. Con la evaluacin no se pretende modificar, ajustar o mejorar el objeto de la evaluacin, sino simplemente determinar su vala, en funcin del empleo que se desea hacer del mismo posteriormente. 2.2.- Segn su extensin a) Evaluacin global: se pretende abarcar todos los componentes o dimensiones de los alumnos, del centro educativo, del programa, etc. Se considera el objeto de la evaluacin de un modo holstico, como una totalidad interactuante, en la que cualquier modificacin en uno de sus componentes o dimensiones tiene consecuencias en el resto. Con este tipo de evaluacin, la comprensin de la realidad evaluada aumenta, pero no siempre es necesaria o posible. El modelo ms conocido es el CIPP de Stufflebeam. b) Evaluacin parcial: pretende el estudio o valoracin de determinados componentes o dimensiones de un centro, de un programa educativo, de rendimiento de los alumnos, etc. 2.3.- Segn los agentes evaluadores a) Evaluacin interna: es aquella que es llevada a cabo y promovida por los propios integrantes de un centro, un programa educativo, etc. A su vez, la evaluacin interna ofrece diversas alternativas de realizacin: autoevaluacin, heteroevaluacin y coevaluacin. * Autoevaluacin: los evaluadores evalan su propio trabajo (un alumno su rendimiento, un centro o programa su propio funcionamiento, etc). Los roles de evaluador y evaluado coinciden en las mismas personas. * Heteroevaluacin: evalan una actividad, objeto o producto, evaluadores distintos a las personas evaluadas (el Consejo Escolar al Claustro de profesores, un profesor a sus alumnos, etc.) * Coevaluacin: es aquella en la que unos sujetos o grupos se evalan mtuamente (alumnos y profesores mutuamente, unos y otros equipos docentes, el equipo directivo al Consejo Escolar y viceversa). Evaluadores y evaluados intercambian su papel alternativamente. b) Evaluacin externa: se da cuando agentes no integrantes de un centro escolar o de un programa evalan su funcionamiento. Suele ser el caso de la "evaluacin de expertos". Estos evaluadores pueden ser inspectores de evaluacin, miembros de la Administracin, investigadores, equipos de apoyo a la escuela, etc.
MDULO I
EVALUACIN EDUCATIVA
Estos dos tipos de evaluacin son muy necesarios y se complementan mutuamente. En el caso de la evaluacin de centro, sobre todo, se estn extendiendo la figura del "asesor externo", que permite que el propio centro o programa se evale a s mismo, pero le ofrece su asesora tcnica y cierta objetividad por su no implicacin en la vida del centro. 2.4.- Segn el momento de aplicacin a) Evaluacin inicial: se realiza al comienzo del curso acadmico, de la implantacin de un programa educativo, del funcionamiento de una institucin escolar, etc. Consiste en la recogida de datos en la situacin de partida. Es imprescindible para iniciar cualquier cambio educativo, para decidir los objetivos que se pueden y deben conseguir y tambin para valorar si al final de un proceso, los resultados son satisfactorios o insatisfactorios. b) Evaluacin procesual: consiste en la valoracin a travs de la recogida continua y sistemtica de datos, del funcionamiento de un centro, de un programa educativo, del proceso de aprendizaje de un alumno, de la eficacia de un profesor, etc. a lo largo del periodo de tiempo fijado para la consecucin de unas metas u objetivos. La evaluacin procesual es de gran importancia dentro de una concepcin formativa de la evaluacin, porque permite tomar decisiones de mejora sobre la marcha. c) Evaluacin final: consiste en la recogida y valoracin de unos datos al finalizar un periodo de tiempo previsto para la realizacin de un aprendizaje, un programa, un trabajo, un curso escolar, etc. o para la consecucin de unos objetivos. 2.5.- Segn el criterio de comparacin Cualquier valoracin se hace siempre comparando el objeto de evaluacin con un patrn o criterio. En este sentido, se pueden distinguir dos situaciones distintas: a) En caso de que la referencia sea el propio sujeto (sus capacidades e intereses, las metas que se haba propuesto alcanzar, considerando eltiempo y el esfuerzo invertidos por el sujeto, y teniendo en cuenta sus aprendizajes previos) o cualquier otro objeto de la evaluacin en si mismo (las caractersticas de partida de un programa, los logros educativos de un centro en el pasado, etc.), estaremos empleando la AUTOREFERENCIA como sistema b) En el caso de que las referencias no sean el propio sujeto, centro, programa, etc., lo que se conoce como HETEROREFERENCIA, nos encontramos con dos posibilidades: b.1) Referencia o evaluacin criterial:
MDULO I
EVALUACIN EDUCATIVA
Aquella en las que se comparan los resultados de un proceso educativo cualquiera con los objetivos previamente fijados, o bien con unos patrones de realizacin, con un conjunto de situaciones deseables y previamente establecidos. Es el caso en el que comparamos el rendimiento del alumno con los objetivos que debera haber alcanzado en un determinado plazo de tiempo, o los resultados de un programa de educacin compensatoria con los objetivos que ste se haba marcado, y no con los resultados de otro programa. b.2) Referencia o evaluacin normativa: El referente de comparacin es el nivel general de un grupo normativo determinado (otros alumnos, centros, programas o profesores). Lo correcto es conjugar siempre ambos criterio para realizar una valoracin adecuada, aunque en el caso de la evaluacin de alumnos, nos parece siempre ms apropiada la evaluacin que emplea la autorreferencia o la evaluacin criterial. El empleo de uno u otro tipo de evaluacin depender siempre de los propsitos de la evaluacin y de su adecuacin al objeto de nuestra evaluacin. 3. La evaluacin y los criterios para elaborar instrumentos adecuados. Es sabido que una de las problemticas de la evaluacin es la referida a la instrumentacin. Como seala Wheeler (1976) estamos an lejos de poder contar con instrumentos capaces de ofrecernos una informacin objetiva sobre los logros de aprendizajes en todo su espectro, por ms que la instrumentacin que se refiere a los conocimientos de la naturaleza cognitiva, est ms desarrollada. En este sentido, es necesario desarrollar criterios de evaluacin que, nos permita disponer de los suficientes datos para realizar juicios fundamentados sobre los procesos y logros de aprendizaje de nuestros alumnos. Una manera de abordar el problema es tener claro los procesos de la evaluacin, la diferencia entre lo que son los conocimientos, las aptitudes, las destrezas, las actitudes, etc. Otra forma es la de tratar de desechar la subjetividad reinante en las tcnicas y mtodos que en ocasiones usamos. Tambin en la creacin de instrumentos que permitan llevar a cabo evaluaciones completas, integradas, holsticas y objetivas. Es necesario aunar el "criterio" de evaluacin, ya no solo entre unidades educativas, municipios o regiones, sino dentro de los propios establecimientos, en los mismos ciclos o niveles. Todo profesor que quiera evaluar el aprendizaje de sus alumnos debe saber diferenciar lo que es el aprendizaje superficial con el aprendizaje profundo.
MDULO I
EVALUACIN EDUCATIVA
Segn Entwistle, Marton y Saljo, en Gipps, (1998, 37), explican que el aprendizaje superficial se da cuando el alumno es capaz de reproducir el contenido cuando se requiera, cuando manifiesta un desconocimiento de principios o modelos de orientacin y cuando adquiere conocimientos en funcin de las pruebas en conjunto con la aceptacin pasiva de ideas e informacin. Las destrezas cognitivas que involucran un aprendizaje superficial tiene que ver con el identificar, reconocer, clasificar, etc. El aprendizaje profundo es cuando el alumno tiene la intencin de desarrollar la comprensin personal, cuando asocia ideas aplicando principios integradores de los contenidos, cuando elabora sus propias conclusiones de acuerdo a lo estudiado, cuando hace una interaccin activa del contenido, sobre todo al relacionar nuevas ideas con conocimientos y experiencias ya adquiridos. Las destrezas que se desarrollan en este tipo de aprendizaje estn referidas a la interpretacin, aplicacin, al anlisis, a la sntesis, al inferir, a la capacidad de evaluar y por supuesto en predecir. Entre ambos tipos de aprendizajes, podemos ubicar el aprendizaje estratgico. Que es aquel referido al desarrollo de destrezas que le exijan al nio usar distintos procedimientos que lo orienten o le ayuden a tomar decisiones para llegar a un nivel ms elevado de la comprensin y del aprendizaje. Destrezas tales como el comparar, discriminar, diferenciar, etc. La eleccin de los instrumentos de evaluacin adecuados y acordes a lo que se quiera medir le demanda al docente la tarea no slo de usarlos, como un medio para probar los conocimientos que han alcanzado sus alumnos, sino tambin, que le permitan a estos, una mayor conciencia de desarrollar capacidades y destrezas para alcanzar aprendizajes de nivel superior. Es as, que antes de elaborar una prueba el profesor debe tener en cuenta el tipo de aprendizaje que se desea medir en los estudiantes. Por ejemplo, para evaluar aprendizajes mecnicos o superficiales como la ortografa, la multiplicacin, las relaciones numricas, las fechas de acontecimientos histricos, la nomenclatura bsica de una ciencia, etc. Pueden aplicarse pruebas de respuesta mltiple o de respuestas breves. Para evaluar la comprensin, y estimular as un aprendizaje ms profundo, es deseable la utilizacin de preguntas de desarrollo, de tems interpretativos (combinacin de textos con preguntas de eleccin nica o desarrollo), monografas, informes de investigaciones y proyectos, mapas conceptuales, entre otras. Lo importante es que en este tipo de evaluacin el alumno pueda describir, interpretar, aplicar, explicar, sintetizar, analizar etc. (capacidades intelectuales asociadas a la comprensin), lo que ha aprendido durante el transcurso del proceso.
MDULO I
EVALUACIN EDUCATIVA
Estas formas evaluativos favorecen la posibilidad que el estudiante demuestre el tipo de relacin y el contexto que le ha otorgado a los conocimientos aprendidos. Con el propsito de asegurar esta situacin se hace necesario que el docente tenga plena conciencia acerca de cmo los estudiantes aprenden (el conocimiento de los estilos de aprendizajes de los alumnos es un desafo esencial para los profesores, Cfr, Salas, 1995), requiriendo para ello de evaluaciones formativas que aseguren la adquisicin de los aprendizajes por parte de los alumnos. Despus de tener claridad de esta situacin, es posible aplicar evaluaciones con intencionalidad sumativa para "constatar" los niveles de logro y su grado de concordancia o discrepancia con los objetivos del programa. Es recomendable que en las pruebas que tengan esta intencionalidad algunas preguntas busquen detectar el dominio de la nomenclatura bsica de la disciplina, otras que se orienten a la comprensin y otras a la aplicacin de los conocimientos adquiridos. Para que una prueba cautele esta situacin se puede considerar como criterio de ponderacin la distribucin de las preguntas en la prueba, de tal forma que la mayor cantidad de tems o preguntas est cargada a medir el aprendizaje profundo, sin descuidar el hacer preguntas que midan el aprendizaje superficial y estratgico. De esta manera, la aplicacin de estos criterios ayuda a salvaguardar la preocupacin permanente de evaluar ms aprendizajes de carcter profundo que aprendizaje superficial. En suma, se debe desarrollar una evaluacin que se preocupe de controlar los conocimientos memorsticos, pero tambin, y principalmente, evaluar las capacidades relacionadas con la comprensin, favoreciendo, adems, la participacin de los alumnos en la valoracin de sus propios aprendizajes, constituyndose en sujetos activos de su formacin.
2. TEORIA CIENTIFICA Y MEDICIN_ 2.1 Teora y medicin. El Humano vive inmerso en un contexto de fenmenos, eventos y procesos naturales y sociales que se dan desde el plano sideral hasta el terrenal, desde el fsico y biolgico hasta el social y psicolgico; contexto que constituye una realidad pues tiene una existencia efectiva que se expresa en su manera o modo de ser, la misma que necesita conocer para su supervivencia, desarrollo y progreso. Por otro lado, si la realidad es todo lo que existe en tanto que el conocimiento de ese existente es cierto, y que esta certeza supone la verdad del conocimiento y la validez del proceso lgico del conocimiento (Rodrguez Rivas, 1997), entonces puede decirse que es gracias a la ciencia que el
MDULO I
EVALUACIN EDUCATIVA
Humano construye la mejor imagen de la realidad en un momento dado, perfectible y cambiante por la propia dinmica cientfica; o que, gracias a ella, el Humano construye mejores representaciones mentales del mundo fsico, social y sobre s mismo. Para el logro de esta imagen, la ciencia elabora teoras o sistemas de proposiciones concernientes a un conjunto de constructos que sirven para describir, explicar, predecir algunos aspectos limitados de su dominio; las que son sometidas a contraste mediante la investigacin realizada de acuerdo al mtodo cientfico. 2.1.1. Constructo. Es un concepto inventado o adoptado por el investigador de manera deliberada y consciente para un propsito cientfico especial. Tiene dos caractersticas: es relacional, pues forma parte de modelos en los que se le relaciona de diferentes formas con otros constructos, formando una "red nomolgica"1. Por ejemplo, la inteligencia es un constructo que de acuerdo a un modelo se relaciona interactivamente con la motivacin para determinar un nivel especifico de aprovechamiento escolar (la motivacin y el aprovechamiento escolar tambin son constructos). Es decir, en este modelo, el aprovechamiento es en parte una funcin de la inteligencia y en otra parte de la motivacin. Y es observable y cuantificable. Puede ser observado, es pasible de la atencin cuidadosa del investigador quien lo observar metdicamente, de forma completa, fiel, objetiva y precisa, para establecer sus relaciones con otros constructos o con los fenmenos (todo lo que se da en la experiencia) o datos de estos. Para una mejor observacin, el investigador se auxilia con diversas tcnicas e instrumentos que pueden ser en fsica el espectroscopio y en psicologa el test. En consecuencia, la observacin del constructo presupone que este es cuantificable, medible. Por ejemplo, para una mejor observacin de la inteligencia en los nios podemos medirla preguntndole a su maestra acerca del grado de inteligencia que tienen o aplicndoles un test X. Entonces, el constructo es un concepto cientfico utilizado en sentido conectivo y que ofrece la posibilidad de ser medido. Cuando se opera con constructos susceptibles de tomar diversos valores se prefiere emplear el trmino variable (Arnau, 1978). 2.1.2 Definicin constitutiva, operacional y medicin del constructo. Para que la observacin y medicin del constructo sea posible hay que definirlo previamente. En la investigacin cientfica se utilizan principalmente la definicin constitutiva y la operacional. En la definicin constitutiva se define un constructo por medio de otros constructos, por ejemplo, en fsica la "fuerza" se define como el producto de la "masa" por la "aceleracin"; en psicologa la "ansiedad" puede ser definida como un "miedo subjetivo". En la definicin operacional se proporciona un significado al constructo en trminos de datos observables especificando las actividades u operaciones necesarias para
1
La red nomolgica es el conjunto de leyes o condiciones que determinan el comportamiento del constructo.
10
MDULO I
EVALUACIN EDUCATIVA
medirlo. La definicin operacional es aquella que describe como una variable ser medida. Por ejemplo, en fsica el "tiempo" puede definirse en trminos de un sistema peridico como la rotacin de la tierra; en psicologa la "popularidad" puede ser definida operacionalmente por la cantidad de elecciones sociomtricas que un individuo recibe de otros (en su clase, grupo de juegos, etc.).2 2.1.3 Teoras, relaciones entre los constructos, modelos. Las teoras, cientficas unifican los distintos elementos del conocimiento cientfico (leyes, hiptesis, categoras, conceptos, constructos, datos); y en ellas pueden distinguirse dos partes esenciales: una, referida a los constructos y sus relaciones mutuas por medio de definiciones sintcticas3, normalmente expresadas a travs de relaciones formales; y la otra, ms emprica, referida la vinculacin de los constructos con los datos por medio de las definiciones semnticas4, que sirven al propsito de definir los constructos en trminos de datos observables o conducta y que en parte se refieren al proceso de su medicin. Los constructos y sus correlaciones formales constituyen un modelo terico. Cuando algunos constructos se conectan mediante reglas de correspondencia5 con el mundo de los fenmenos de los que tenemos datos, el modelo terico puede ser sometido a comprobacin emprica. 2.1.4 Un modelo psicolgico. Un ejemplo de un modelo psicolgico es el del componente motivacional del aprendizaje autorregulado de McKeachie, Pintrich, Un, Smith y Serna, 1986 (en Roces, Gonzles y Touron, 1997).
Es necesario tener en cuenta que un constructo puede tener varias definiciones constitutivas y operacionales (Cortada, 1968), y que las definiciones operacionales slo dan significados limitados de los constructos. Ninguna definicin operacional puede expresar un constructo en su totalidad, siempre son limitadas y especficas en significado. Por ejemplo, la "creatividad' estudiada por los psiclogos no es aquella a que se refieren los artistas, an cuando habr por supuesto elementos comunes (Kerlinger, 1985). 3 Estas definiciones constituyen el sistema lgico de la teora, permiten deducir las propiedades de los constructos que, a su vez, pueden interpretarse semnticamente, para explicar sucesos pasados o predecir sucesos futuros (Lord y Novick, 1968, en Martnez, 1995). 4 Son las reglas de correspondencia entre los constructos y la conducta 5 Definiciones constitutivas, operacionales y reglas de deductibilidad que regulan la relacin entre los constructos (y sus dimensiones).
11
MDULO I
EVALUACIN EDUCATIVA
Figura N 1: Componentes de la motivacin
Orientacin a metas
Valor de la tarea
Percepciones de dificultad de la tarea ......................... Competencia percibida especifica de la tarea
RENDIMIENTO
Autorregulacin Eleccin Persistencia
Creencias de eficacia, resultados
control Expectativas de xito
Ansiedad en los exmenes y afectos (McKeachie, Pintrich, Lin, Smith y Sharna, 1986; en Aliaga, 2003) lourdesreyna1613@hotmail.com 12
MDULO I
EVALUACIN EDUCATIVA
En el modelo se describen en forma grfica las relaciones entre los constructos (variables), la direccionalidad de las mismas (sentido de las flechas) y el carcter directo o indirecto de su influjo. Los constructos que aparecen, por ejemplo, valor de la tarea y ansiedad en los exmenes, corresponden a percepciones o conceptualizaciones del estudiante que median entre la tarea y su ejecucin por parte del alumno. Existen mltiples relaciones entre los elementos, pero destacan dos vas principales de motivacin para el aprendizaje: las expectativas y el valor que se la da a la tarea. La primera va en la parte inferior de la fig. va de las creencias de autoeficacia y creencia de control de los resultados a las percepciones de la dificultad de la tarea y a la competencia percibida y de la competencia percibida las expectativas de xito. Estas en combinacin con el valor dado a la tarea, llevan a la implicacin en el aprendizaje y el consiguiente rendimiento. La segunda va de motivacin va de las metas a las que se orienta el estudiante al valor dado a la tarea, que junto a las expectativas de xito, determina el aprendizaje y el rendimiento, Tanto las metas como el valor de la tarea influyen y se ven influidas por las creencias. Para el contraste emprico de este modelo o de cualquier otro, los constructos deben ser cuantificados y medidos y luego los datos resultantes ser analizados, comparados, correlacionados, etc, en sus mltiples relaciones mediante procedimientos estadsticos y ecuaciones matemticas. La medicin es una de las cosas que hace posible y facilita el realizar este proceso. 2.1.5 Importancia de la medicin para la ciencia. La medicin es muy importante para la ciencia pues la introduccin de trminos mtricos hace posible aplicar conceptos, y teoras estadsticas y de alta matemtica y expresar leyes generales en forma de relaciones funcionales entre distintas cantidades. Las ventajas de definir en trminos de medicin acrecienta el poder de varias funciones de la ciencia, por ejemplo: a) En la descripcin, aumenta la flexibilidad descriptiva pues con conceptos mtricos es posible diferenciar situaciones que en una mera clasificacin se colocaran juntas, puesto que el nmero de clases es prcticamente ilimitado. Adems introducen orden y posicin relativa. b) En la Explicacin permite una formulacin mas precisa de las leyes generales, relacionando distintos contenidos, y permite que el sistema matemtico se extienda y aplique a la ciencia. La ciencia puede entonces utilizar las relaciones funcionales entre las construcciones (Cortada, 1968). Sin embargo, la cuantificacin y medicin de los constructos tendr caractersticas diferentes en las ciencias naturales y en la psicologa y, ciencias sociales. Para tener una idea general del porqu de estas diferencias presentamos un bosquejo de la estructura de las teoras en estas ciencias.
13
MDULO I
EVALUACIN EDUCATIVA
3. FUNDAMENTOS DE LA TEORA DE LA MEDICIN
3.1 Teora de la medicin. La teora de la medicin estudia la posibilidad de usar los nmeros en el estudio de los fenmenos naturales y psicolgicos. Esta posibilidad implica el uso de matemticas, pero en tanto que la medicin necesita relacionarse con el mundo fsico, las matemticas slo se ocupan de la consistencia interna de esta relacin. 3.1.1 Posibilidad de la medicin en psicologa. Si entendemos en una primera aproximacin a la medicin como un proceso de atribuir nmeros a los atributos o caractersticas de los objetos; puede decirse que caben varios modos de hacer esta atribucin los que configuran tres tipos diferentes de medicin: medicin fundamental, medicin derivada y medicin por "fiat" o de acuerdo a una teora (Campbell, 1928, en Cortada, 2001). 3.1.1.1 Medicin fundamenta1. El resultado de la medicin de una magnitud (propiedad fsica que puede medirse) dada por un nmero y una unidad mtrica, unidad de medicin o unidad de medida, es una cantidad. En la vida cotidiana y en las ciencias naturales y sociales se manejan dos tipos de cantidades: recuentos (counts) y mediciones (measurement). Los recuentos son el resultado de contar las unidades no arbitrarias, naturales de algo (cardinalidad de un conjunto) y son un nmero natural, es decir, un entero positivo. Por ejemplo, si contamos una piara, las unidades sern cerdos, si contamos el contenido de una canasta de frutas, las unidades sern pias, naranjas o lo que corresponda, si contamos los psicticos de un hospital psiquitrico, las unidades sern psicticos (claro esta si el diagnstico no es errado). Las mediciones o medidas, son en cambio, el resultado de comparar una cantidad con una unidad mtrica arbitraria, no natural, por ejemplo, cuando decimos 30 metros estamos expresando el resultado de acumular 30 veces la unidad metro (30 x m), que es una unidad bsica de medida inventada por el hombre, no viene dada como los recuentos por la naturaleza concreta de lo que se quiere cuantificar. Por otro lado, los recuentos tienen unidades, pero no dimensiones, en tanto que las mediciones tienen unidades y dimensiones. Qu es una dimensin de una magnitud? es el aspecto comn a todas las propiedades que se pueden medir en unidades similares convertibles. Por ejemplo, la distancia entre dos ciudades puede medirse en diferentes unidades, kilmetros, millas, terrestres, millas marinas, verstas rusas, etc., pero sea cual sea la unidad mtrica en la que damos la distancia la dimensin de dicha magnitud es siempre la misma, "la longitud (Tapia 2004). Huelga decir que en psicometra no se dispone (hasta el momento?) de este tipo de medida.
14
MDULO I
EVALUACIN EDUCATIVA
3.1.1.2 Medicin derivada. Las unidades mtricas de longitud, masa y tiempo por expresar aspectos definidos, delimitados e irreductibles a otras magnitudes son denominadas magnitudes o cantidades fundamentales, expresndose sus dimensiones mediante la letra inicial mayscula (longitud, L; masa, M; tiempo, T), Hay otras unidades mtricas que expresan cantidades definibles como unidades derivadas de estas tres unidades fundamentales. Por ejemplo, si para hallar la superficie de un rectngulo multiplicamos su base, (es decir, 3 x m), por su altura, 7 metros (o sea 7 x m), el resultado ser (3 x m) x (7 x m) = 21 x m2 = 21 m2. Es decir, la unidad de superficie que denominamos "metro cuadrado" es el resultado de multiplicar un metro por s mismo, en otras palabras, de elevarlo al cuadrado. Sea cual sea la unidad en que se mida la longitud (yarda, milla, etc.) toda unidad de superficie es una longitud elevada al cuadrado, teniendo en consecuencia la dimensin L2 (Tapia, 2004) Existen muchas unidades de medicin obtenidas, por derivacin que permiten medir cantidades importantes a efectos prcticos, por ejemplo, cualquier unidad de velocidad es una unidad de 'longitud dividida por una unidad de tiempo (km/h, "kilmetros por hora"). 3.1.1.3 Medicin por "fiat" o de acuerdo a una teora. Se presenta cuando tenemos un constructo y queremos medirlo. Como ya sabemos, dicho acto slo es posible a travs de la operacionalizacin del constructo, lo que conduce al establecimiento de la relacin entre este y sus indicadores. Asimismo, sabemos que uno de los problemas para establecer una regla de correspondencia que relacione la construccin con los datos observables es hallar reglas para la medicin de la construccin. El problema para establecer reglas de correspondencia puede ser visto como aquel en el que el psiclogo realiza un proceso que responde a un plan explcito y organizado para clasificar o cuantificar los datos disponibles de modo tal que se puedan vincular mejor con el constructo que le interesa. En este proceso, el elaborar (o el contar con) un instrumento de medicin adecuado, vale decir que registre datos observables que representen verdaderamente el constructo o variable, juega un papel central. Sin el no hay observaciones clasificadas (Carmines y Zeller. 1988, en Femndez, Hernndez y Baptista, 2002:345). El desarrollo de estas reglas y de unidades significativas de medida para cuantificar las observaciones empricas tiene por paradigma a la psicofisica y por tanto al escalamiento o construccin de escalas. Una escala de medida se establece cuando se define el conjunto de valores posibles que pueden asignarse y se establece la regla de asignacin que establece la correspondencia entre el sistema relacional emprico (emprico, porque se refiere a entidades y relaciones reales) y el sistema relacional numrico (cuando medimos empleamos este sistema). El escalamiento constituye una problemtica ante la cual han surgido dos teoras: la Teora Representacional de la Medicin y la Teora de la
15
MDULO I
EVALUACIN EDUCATIVA
Medicin Conjunta, siendo la primera la posicin ms ortodoxa. 3.1.2 La Teora Representacional de la medicin. Esta teora divide y trata esta problemtica en tres temas: el problema de la representacin, el de la unicidad y el de la significacin. 3.1.2.1 Representacin. La pregunta que se intenta responder es el sistema relacional numrico (R- sus entidades son nmeros) tiene una estructura semejante al sistema relacional emprico (X) expresado en datos, que se pretende medir? o con otras palabras existe una relacin isomrfica, es decir de uno a uno, entre las caractersticas del sistema numrico (R) y las cantidades del constructo/variable, por ejemplo, el valor de la tarea, la ansiedad ante los exmenes, el razonamiento numrico, la extraversin, la talla (X)? En esta perspectiva, "medir supone encontrar un sistema relacional numrico que pueda representar al sistema relacional emprico de inters" (Martnez Arias, 1995, pg. 24), as, los nmeros no representaran propiamente cantidades sino relaciones (Jaez, 1989, pg. 402). Ahora bien, los nmeros pueden utilizarse para representar distintos tipos de relacin dando lugar a reglas de asignacin clasificadas en niveles o escalas de medicin, que segn Stevens (1950) son cuatro: nominal, ordinal, de intervalo y de razn, proporcin o cociente, aunque otros autores proponen clasificaciones ligeramente diferentes, como Torgerson (1958) que excluye la escala nominal y aade la escala ordinal con origen natural. Conviene tener presente aqu que la estadstica no realiza sus funciones directamente sobre lo observado sino sobre los nmeros que lo representan. 3.1.2.2 Unicidad. La pregunta clave que se intenta responder es pueden obtenerse distintas escalas de nmeros para la misma variable o atributo (X en R u homomorfismo)? La respuesta pasa por describir como puede cambiarse un conjunto concreto de nmeros por otro, sin que se modifiquen las relaciones numricas que representan a las relaciones empricas, o. en otras palabras: el grupo de transformaciones que dejan invariante la forma de las escalas (singularidad de la representacin). Las escalas de medicin nominal, ordinal, de intervalo y de razn admiten ciertas transformaciones admisibles. 3.1.2.3 Significacin. La pregunta que se intenta responder es es vlida una conclusin emprica inferida a partir de una conclusin numrica? Stevens (1946) plantea que la respuesta es relativa al tipo de nivel o escala de medicin en que se basan las inferencias y la solucin la propone en trminos de los estadsticos admisibles para cada una de ellas, basndose en la invarianza o transformaciones admisibles que las caracterizan (Stevens, 1946, en Martnez Arias, 1965). 3.1.3 El sistema numrico empleado en la medicin psicolgica. El sistema numrico que se emplea en la medicin psicolgica es el
16
MDULO I
EVALUACIN EDUCATIVA
de los nmeros reales, los que tienen las siguientes caractersticas: (1) Origen: La serie de nmeros (1 ,2,3 .. n) nico llamado "cero". tiene un origen
(2) Orden: los nmeros estn ordenados (despus del 1 viene el 2, despus el 3, y as sucesivamente). (3) Distancia: La diferencia entre dos nmeros, es decir la diferencia entre dos pares de nmeros, puede ser "mayor que" (por ejemplo, 4 es mayor que 3), "igual a que" (por ejemplo, 3 es igual a 3), o "menor que" (por ejemplo, 2 es menor que 5). Un ejemplo de estas tres caractersticas lo tenemos en la regla escolar. Por lo dems, como vimos ms arriba, para medir un atributo debe existir' una relacin "isomrfica", es decir de uno a uno, entre las caractersticas del sistema numrico y las cantidades de la propiedad por medir, por ejemplo, la talla, el razonamiento numrico, la extraversin.
3.1.4 las escalas o niveles de medicin. Son modelos mediante los cuales se establecen ciertas propiedades formales referentes a las reglas para una correcta atribucin de los nmeros y las operaciones que se pueden hacer con los mismos. Estos modelos se originan en el hecho de que los nmeros que se asignan a las cantidades de los atributos reflejan dos o tres de las caractersticas del sistema numrico. En esta razn, los nmeros llevarn diferentes cantidades de informacin (desde una informacin pobre, la escala de medida nominal, a otro ms til, la escala de intervalos y la escala de razn). Es conveniente tener en cuenta que cada una de estas escalas tiene su teora de la medicin que se expresa en sus reglas, restricciones y procedimientos estadsticos apropiados (Siegel, 1971), pero, a la vez, que estas escalas no deben pensarse en trminos de escalas "reales" sino que se establecen por convencin o acuerdo entre cientficos (vase a Nunally y Bernstein, 1995, pg. 27). 3.1.4.1 Escala Nominal. Con relacin a la representacin y teniendo en cuenta que los nmeros pueden usarse para representar una relacin de identidad, equivalencia o de diferencia, se da origen a esta escala en la que las reglas de asignacin de los nmeros determinan que stos slo informen de la igualdad o desigualdad de los individuos en un atributo, pero no de posibles ordenaciones, puesto que el atributo o caracterstica a la que se refieren no se tiene en mayor o menor medida, sino que simplemente adopta formas cualitativamente distintas. Es decir, los nmeros se utilizan nicamente como "etiquetas" de los elementos del sistema emprico; pudindose utilizar cualquier tipo de nmeros, siempre que a cada elemento distinto del sistema emprico se le asigne un nmero diferente (Arias, 1995).
17
MDULO I
EVALUACIN EDUCATIVA
En tal razn, estos nmeros (o smbolos) permiten solamente hacer clasificaciones. Los nmeros se asignan nicamente para identificar las categoras donde se encuentran incluidas las personas o cosas. Estas clasificaciones pueden ser de una sola clase, como los nmeros en camisetas de jugadores para identificarlos, o pueden aplicarse a grupos de personas, como cuando damos un nmero de cdigo 1 a las mujeres y 2 a los hombres (pueden utilizarse otros nmeros), o la letra D para identificar a todas las personas nacidas en Lima y la E a las nacidas en Ica (pueden utilizarse otras letras). En cuanto queden de esta manera los objetos pueden ser clasificados y contados, se est autorizando a considerar la asignacin de nmeros como un procedimiento de medicin. Con relacin a la unicidad en la escala nominal, los nmeros asignados pueden cambiarse por cualquier otro conjunto que preserve la relacin de igualdad vs. diferencia (Martnez Arias, 1995), por tanto, son transformaciones admisibles todas las de identidad o equivalencia (transformaciones inyectivas), lo que quiere decir que todos los miembros a los cuales se les ha asignado el mismo nmero (o smbolo) son iguales. Esta relacin se simboliza (=) 6. Por ejemplo, el sexo de los individuos puede clasificarse simbolizando con un 0 "mujer" y con un 1 "varn". Posteriormente se hace una transformacin admisible, 0 4 y 1 5, estos nuevos valores siguen cumpliendo las condiciones especificadas para la escala nominal. Con relacin a la significacin en la escala nominal se plantean estadsticos admisibles, pero no hay un acuerdo al respecto, hablando algunos autores ms que de estos estadsticos de conclusiones vlidas a partir del anlisis de los datos. Aceptando el concepto de estadsticos admisibles y teniendo en cuenta las propiedades formales de la relacin de equivalencia, la nica operacin aritmtica posible es la de contar (count), no se pueden realizar otras operaciones aritmticas. Los estadsticos admisibles son el modo y el clculo de frecuencias. Las pruebas estadsticas apropiadas para el tratamiento de datos son las no paramtricas, por ejemplo la prueba chi cuadrada y el coeficiente de contingencia. 3.1.4.2 Escala Ordinal. Con relacin a la representacin los nmeros pueden representar relaciones de orden. En efecto, la aplicacin de una regla de asignacin de nmeros a las diferentes cantidades origina que los nmeros asignados a los objetos reflejen distintos grados en los que se presenta el atributo o caracterstica, manteniendo los nmeros las relaciones de orden del sistema emprico. Estos nmeros slo indican un orden o rango entre aquellos,
6
La equivalencia implica la presencia de una propiedad comn. La relacin de equivalencia puede ser reflexiva (x=x) , simtrica (x = y, entonces y = x) y transitiva (s x=y y=z, entonces x=z). - Reflexividad: todo objeto es equivalente a s mismo (S Juan tiene el cdigo 1, varn, entonces Juan es varn). - Simetra: la relacin se extiende la misma manera en ambas direcciones. (Si Juan tiene el mismo cdigo 1, varn, que Jos, entonces Jos debe tener el mismo cdigo que Juan). - Transitividad: La relacin pasa a travs de los objetos. (Si Juan y Jos tienen el cdigo 1, varn. entonces Juan y Jos deben tener el mismo cdigo).
18
MDULO I
EVALUACIN EDUCATIVA
permitindonos inferir relaciones de tipo "mayor que" o "menor que". As, podemos colocar a los individuos en una serie cuyo rango va del ms alto al ms bajo (o viceversa) segn el atributo o caracterstica que intentamos medir, indicndonos si un individuo tiene ms o menos del atributo, pero no podemos decir cunta es la diferencia entre un par cualquiera de individuos, no nos dice en cuanto ms. En psicologa son muchas los atributos cuya medicin est a nivel ordinal, pues son muchos los casos en los que lo nico que puede decirse es que un individuo es ms introvertido que otro, que un nio es ms hiperactivo que otro, o que el aprendizaje es ms rpido con el mtodo A que con el mtodo B. Con relacin a la unicidad7 en la escala ordinal se puede cambiar unas asignaciones numricas por otras de modo tal que el orden emprico quede reflejado en las transformaciones, es decir que permanezca invariable el orden relativo de los objetos o sujetos. Las transformaciones posibles son las denominadas montonas crecientes; la transformacin es creciente si para todo par de objetos a y b se cumple la siguiente condicin: " Si n (a) > n (b), entonces t[ n (a)] > t[n(b)] Con relacin a la significacin, las operaciones aritmticas comunessuma, resta, multiplicacin, divisin - no pueden emplearse legtimamente con estas escalas. Los estadsticos apropiados para trabajar con estas escalas son la mediana, los percentiles, el coeficiente de correlacin de Spearman, entre otros. Las pruebas estadsticas de significacin apropiadas son las no paramtricas. Ejemplos de escalas ordinales son las opciones de respuesta de un item tipo likert ("Muy de acuerdo", "De acuerdo", "indeciso", "En desacuerdo", "Muy en desacuerdo") y la escala de percentiles. 3.1.4.3 Escala de Intervalos. (Denominada con frecuencia "escala de intervalo igual"). Con relacin a la representacin los nmeros pueden representar la igualdad de diferencias entre pares de objetos con relacin a algn atributo, dando lugar las reglas de asignacin a esta escala. En efecto, si la diferencia entre los nmeros asignados a dos objetos es igual a la diferencia entre los nmeros asignados a otros dos, tambin son iguales las diferencias en magnitudes entre estos dos pares. Una mayor diferencia entre los nmeros asignados implica una mayor diferencia entre las magnitudes representadas. En la medida en escala de intervalos el nmero asignado al objeto y que representamos por n (Oi), es una funcin lineal de la magnitud real que ese objeto representa en el atributo de inters. En otras palabras, esta medida especifica una correspondencia uno a uno entre el sistema relacional emprico
7
La escala ordinal posee las propiedades de equivalencia aplicable a los miembros de una misma clase (escala nominal) y, adems, la relacin "mayor que" (>). - La relacin "Mayor que es irreflexiva (no es verdad que para cualquier x que x >x ). - La relacin "Mayor que" se e: presa, segn los casos, con trminos como "ms de acuerdo, "ms preferido", "ms estable". etc.
19
MDULO I
EVALUACIN EDUCATIVA
(dominio de la conducta o atributo) y el sistema numrico (nmeros reales), siendo arbitrarios nicamente el origen de la escala y la unidad de medida" (Arias, 1995, pg. 25). En trminos operativos y comparndola con la medida en escala ordinal, la medida en escala de intervalo permite determinar cun lejos se encuentran dos personas o dos cosas, pues permite especificar la magnitud de una diferencia. Por ejemplo, si la temperatura es 20 C el lunes, 22 C el martes y 26 C el mircoles, podemos decir la magnitud de la diferencia entre las temperaturas de esos das. En el caso de los temes de un test la escala de intervalo nos dice que tem tiene ms o menos de la cualidad juzgada y la magnitud de la diferencia entre los tems. Con relacin a la unicidad las mediciones en esta escala admiten como nica transformacin que conserva las propiedades de una escala de intervalo a la transformacin lineal general cuya forma es xT = bX + a, donde XT es la media original y a y b son constante aditivas y multiplicativas comprendidas en la transformacin (Nunally y Bernstein, 1995, pg. 18). Un ejemplo es la transformacin de temperaturas de Celsius (C) a Fahrenheit (F) por medio de la relacin F = 9/5 + 32. Otros ejemplos relacionados con escalas psicolgicas pueden verse en el Tema Normas. Estas transformaciones significan un cambio en la unidad de medida y en el origen asignado a la escala, que como sabemos son valores arbitrarios. Con relacin a la significacin las operaciones que pueden realizarse con las diferencias entre nmeros son las isomrficas con las operaciones correspondientes en aritmtica con la anotacin arriba descrita. A los datos de esta escala se les pueden aplicar tcnicas y pruebas de la estadstica paramtrica tales como la media aritmtica, la desviacin estndar, la varianza, el coeficiente de corre1acin de Pearson, la prueba "t" de Student, el anlisis de varianza (Anova), la correlacin mltiple, entre otras. Sin embargo, es de sealar que al ser la principal limitacin de esta escala el no tener un punto cero absoluto o "exacto", se puede sumar y restar las puntuaciones pero no es legtimo dividir un puntaje por otro, puesto que la divisin presupone precisamente la existencia de un punto "'cero" exacto. Ejemplos de escalas de intervalo son las de temperatura y los puntajes de las pruebas psicolgicas estandarizadas. Para lograr la medicin de variables psicolgicas en una escala de intervalo se ha partido de la observacin que despus de continuas mediciones de atributos humanos (por ejemplo, estatura, temperatura, fuerza de las manos) con instrumentos de medida objetivos que proporcionan datos en escalas de intervalos o de razn, los resultados se distribuyen aproximadamente de acuerdo a una distribucin normal (campana de Gauss). En vista de este hecho, se ha propuesto una hiptesis fundamental para la prctica de la construccin de tests, saber que si pudiramos medir la
20
MDULO I
EVALUACIN EDUCATIVA
diferencia entre los individuos en una escala de intervalos obtendramos una distribucin normal de los puntajes individuales. Hagamos que la fig. (a) represente un continuo de ejecucin de una variable psicolgica, por ejemplo, la capacidad de resolver problemas matemticos. Suponiendo que dicha capacidad sea una funcin monotnica (que crece o decrece continuamente) de la posicin en el continuo sabemos su direccin. Una persona que ha resuelto uri mayor nmero de temes se supone que tiene una posicin ms alta en el continuo, que un individuo que ha resuelto un nmero menor de temes. Por lo tanto, es posible medir dicha capacidad a nivel ordinal Otra propiedad importante, la de las unidades o intervalos iguales, es necesaria para determinar la magnitud de las diferencias entre distintas posiciones. Luego se elabora la distribucin hipottica normal en el continuo. (Fig a)
Ntese que ahora tenemos una distribucin hipottica colocada sobre un continuo de cuyas propiedades escalares conocemos solamente la direccin, la forma de la distribucin est basada nicamente en un supuesto: el de la normalidad (Campana de Gauss). El problema prctico ahora consiste en construir un instrumento de medida con las propiedades que puedan derivarse de este supuesto. Si bien no se soluciona el problema de la falta del punto cero, si construimos un instrumento que proporcione una distribucin normal de los puntajes obtenidos, podemos expresar las posiciones de los individuos sobre este continuo psicolgico en una escala de intervalo 8 (Tomado de Magnusson, 1969: 24-26). En esta direccin, dos pasos importantes para construir una escala de intervalos: 1) La suposicin de una distribucin normal de los individuos de una poblacin. 2) El uso de variacin de los individuos como una unidad de medida (lo cual llevar a que los temes del test tengan diferentes grados de dificultad, de intercorrelacin, etc).
3.1.4.4 Escala de razn, proporcin o cociente. Con relacin a la representacin esta escala de medicin posee todas las propiedades de las anteriores y, adems, posee un punto "cero" fijo, lo que en el sistema emprico supone un cero absoluto, lo cual quiere decir que si un objeto tiene el valor O, ese objeto no posee la propiedad que s esta midiendo. Con relacin a la unicidad, en trminos formales "si los nmeros de
8
En opinin de Tennan tenemos que asumir de antemano que el test se encuentra en una escala de intervalos, y que la escala o nivel de medicin slo se verifica cuando los puntajes son estandarizados (Terman. L. y Merril. N. (1963): Medida de la inteligencia. Mxico D.F., Mxico: Edinal, pg. 8).
21
MDULO I
EVALUACIN EDUCATIVA
un escala de razn n(x) son multiplicados por una constante positiva, dando lugar a n'(x). es decir: n'(x) = an(x), donde a>0, se preserva e! homomorfismo. Puesto que la escala tiene un origen natural, ste no puede cambiarse" (Martinez, 1995, pg. 25). Por ejemplo, se puede pasar de una medicin en metros a una medicin en yardas, son transformaciones mutuamente admisibles, ya que aunque cada una tiene su unidad de medida, ambas respetan el cero absoluto, que coincide con las dos, y representa la ausencia de esta caracterstica. Por ltimo, con relacin a la significacin, los valores de una escala de razn constituyen un sistema que es isomrfico con la aritmtica. De ah que con esos nmeros se pueden realizar todas las operaciones aritmticas. Se puede calcular con precisin la razn no slo entre dos intervalos, sino entre cualquier par de nmeros de la escala. Por ello, el tratamiento de datos en escala de razn admite todas las tcnicas y pruebas estadsticas apropiadas para el nivel intervalo de medicin, con adicin de la media geomtrica y el coeficiente de variacin, estadsticos que requieren para su clculo el conocimiento del verdadero punto 0 de la escala. 3.2 Medicin. 3.2.1 Definicin. Es un proceso de asignacin de nmeros que obedece a todo un conjunto de reglas y normas propias de los niveles o escalas de medida cuya validez puede probarse, que permiten legitimar el paso de la apreciacin de una caracterstica, atributo o constructo integrado en un contexto terico o modelo a un valor mtrico, o contexto emprico, que hace posible estudiar en forma cientfica dicha caracterstica, atributo o constructo (Magnusson, 1969; Carro, 1997).
En trminos de los sistemas relacionales, "medir implica traducir la informacin que contiene el sistema emprico (X) al marco del sistema relacional numrico (R) mediante una aplicacin u homomorfismo" (Aftanas, 1988, pag. 326). En otras palabras, el proceso de medicin de acuerdo a las escalas de medida pretende representar esencialmente con nmeros - aunque pudieran ser otros smbolos - de acuerdo a las propiedades numricas que tienen dichas escalas, las observaciones que se han tomado de la realidad. Posiblemente basados en la clasificacin de Torgerson (1958), algunos autores opinan que esta representacin (o asignacin) se realiza de manera que 1) represente cantidades o atribL:_os de forma numrica segn las reglas o normas de los niveles o escalas de medicin ordinal, de intervalo y de razn, o, 2) definan si los objetos caen en las mismas categoras o en otras diferentes con respecto a un atributo determinado segn las reglas o normas de la escala
22
MDULO I
EVALUACIN EDUCATIVA
nominal, "dando lugar a la clasificacin, que es al menos igualmente importante para la ciencia como lo es la medicin" (Nullally y Bernstein, 1995, pg. 5). Con el trmino "reglas" se seala que la asignacin de nmeros debe establecerse de manera explcita; y que con el trmino "atributo" se seala que la medicin siempre implica alguna caracterstica particular de los objetos. En efecto, los objetos no pueden medirse, se miden sus atributos. Esto significa que la medicin requiere primero de un proceso de abstraccin expresada generalmente en la elaboracin de "constructos", por ejemplo, el razonamiento verbal, el locus de control, que deben ser bien analizados en cuanto, a su naturaleza y en cuanto al conjunto de reglas para su medicin. 3.2.2. Propsito de la medicin en psicologa. Proporcionar una base objetiva, exacta y comunicable que permita describir, diferenciar y clasificar a las personas con referencia a sus atributos, caractersticas y conductas. Para clasificar primero se debe diferenciar. La diferenciacin precede a la clasificacin. En psicometra para diferenciar a los individuos sobre la base de una determinada variable se deben reunir dos requisitos: 1) se debe dar una definicin del constructo o variable (por ejemplo, la inteligencia); y 2) se debe dar una regla (o un conjunto de ellas) por la cual se establezcan las operaciones que permitiran diferenciar entre los sujetos (u objetos) (Levine y Freeman; 1973).
Cuanto ms especfica es la regla ms exacta es la medicin. Las reglas son un aspecto importante de la estandarizacin: a) deben ser claras; b) de aplicacin prctica; c) no requerir de gran habilidad del psiclogo para su administracin; d) Los resultados no deben depender del psiclogo administrador de la medida. Estas reglas aluden, por ejemplo, a las instrucciones de un test, para administrar, calificar e interpretar sus puntuaciones. El respeto de stas es imprescindible para una buena medicin, es decir para una medicin confiable y vlida. Gracias a este procedimiento, puede decirse que un test est bien estandarizado si diferentes examinadores obtienen puntajes similares al evaluar a un sujeto particular en un momento determinado (Nunnally y Benrstein, 1994).
4. INSTRUMENTOS DE MEDICIN
23
MDULO I
EVALUACIN EDUCATIVA
Un instrumento de recoleccin de datos es, en principio, cualquier recurso de que se vale el investigador para acercarse a los fenmenos y extraer de ellos informacin. Ya adelantbamos que dentro de cada instrumento concreto pueden distinguirse dos aspectos diferentes: forma y contenido. La forma del instrumento se refiere al tipo de aproximacin que establecemos con lo emprico, a las tcnicas que utilizamos para esta tarea. En cuanto al contenido ste queda expresado en la especificacin de los datos que necesitamos conseguir; se concreta, por lo tanto, en una serie de tems que no son otra cosa que los mismos indicadores que permiten medir las variables, pero que asumen ahora la forma de pregunta, puntos a observar, elementos a registrar, etc. De este modo, el instrumento sintetiza en s toda la labor previa de investigacin: resume los aportes del marco terico al seleccionar datos que corresponden a los indicadores y, por lo tanto, a las variables o conceptos utilizados; pero tambin expresa todo lo que tiene de especficamente emprico nuestro objeto de estudio pues sintetiza, a travs de las tcnicas de recoleccin que emplea, el diseo concreto escogido para el trabajo. Es medianamente una adecuada construccin de los instrumentos de recoleccin que la investigacin alcanza entonces la necesaria correspondencia entre teora y hechos; es ms, podramos decir que es gracias a ellos que ambos trminos efectivamente se vinculan. Si en una investigacin los instrumentos son defectuosos se producirn, inevitablemente, algunas de las dificultades siguientes: o bien los datos recogidos no servirn para satisfacer los interrogantes iniciales o bien so se podrn obtener los datos que necesitamos, o vendrn falseados, distorsionados, porque el instrumento no se adecua al tipo de hechos en estudio. En ambos casos habr, seguramente, uno o varios errores en las etapas anteriores del proceso de investigacin. Ser entonces necesario volver hacia atrs y revisar las diferentes tareas realizadas, hasta alcanzar una mejor aproximacin al problema. 4.1 TIPOS INSTRUMENTOS DE MEDICIN 4.1.1 ENCUESTAS El diseo encuesta es exclusivo de las ciencias sociales y parte de la premisa de que si, queremos conocer algo sobre el comportamiento de las personas, lo mejor, lo ms directo y simple, es preguntrselo directamente a ellas. Se trata por tanto de requerir informacin a un grupo socialmente significativo de personas acerca de los problemas en estudio para luego, mediante un anlisis de tipo cuantitativo, sacar las conclusiones que se correspondan con los datos recogidos. Cuando se recaba informacin a todas las personas que estn involucradas en el problema en estudio este diseo adopta el nombre de Censo. Los censos, por las dificultades materiales que implica su realizacin, son casi siempre trabajos de envergadura, que slo pueden ser acometidos por los Estados o
24
MDULO I
EVALUACIN EDUCATIVA
por instituciones de muy amplios recursos. Son sumamente tiles porque a travs de ellos tenemos una informacin general de referencia, indispensable para casi cualquier trabajo de indagacin social posterior. Por la gran cantidad de personas a entrevistar no es factible en ellos obtener informacin muy detallada, pues se convertiran en trabajos desproporcionadamente difciles de ejecutar y analizar. En su lugar se emplean las encuestas por muestreo, donde se escoge mediante procedimientos estadsticos una parte significativa de todo el diverso, que se toma como objeto a investigar. Las conclusiones que se obtienen para este grupo se proyectan luego a la totalidad del universo, teniendo en cuenta los errores maestrales que se calculen para el caso. De esta forma los hallazgos obtenidos a partir de la muestra pueden generalizarse a todo el universo con un margen de error conocido y limitado previamente por el investigador. El mtodo de encuestas ha alcanzado gran popularidad entre los investigadores sociales, lo que ha llevado a que muchas personas confundan encuestas con investigacin social como si fuera una misma cosa, siendo que en la realidad la encuesta es slo uno de los mtodos posibles de estudio de la realidad social y que presenta, como todos los mtodos, sus puntos a favor y en contra. Las principales ventajas que han ayudado a difundir el diseo encuesta son las siguientes: 1) Su conocimiento de la realidad es primario, no mediado, y por lo tanto menos engaoso. Al acudir directamente a la gente (a los actores sociales) para conocer su situacin, conducta u opinin, nos precavemos contra una multiplicidad de distorsiones y nos ponemos a salvo de interpretaciones que pueden estar altamente teidas de subjetividad. 2) Como es posible agrupar los datos en forma de cuadros estadsticos se hace ms accesible la medicin de las variables en estudio. De esta forma se puede cuantificar una serie de variables operando con ellas con mayor precisin, permitiendo el uso de correlaciones y de otros recursos matemticos; se supera as una de las dificultades bsicas de la investigacin social que es su limitada rigurosidad y la alta posibilidad de errores por un tratamiento poco exacto de los fenmenos. 3) La encuesta es un mtodo de trabajo relativamente econmico y rpido. Si se cuenta con un equipo de entrevistadores y codificadores convenientemente entrenado, resulta fcil llegar rpidamente a una multitud de personas y obtener una gran cantidad de datos en poco tiempo. Su costo, para los casos simples, es sensiblemente bajo. En los ltimos aos despus del relativo abuso precedente, la mayora de los investigadores ha comprendido que este diseo resulta del valor para determinado tipo de problemas pero que, en otros casos, aparecen una serie
25
MDULO I
EVALUACIN EDUCATIVA
de inconvenientes serios que le restan validez como diseo. Las desventajas mas frecuentes que se le han reconocido son: 1) La encuesta recoge la visin que la gente tiene de s misma; no puede dudarse de que sta es siempre una imagen singular y muy subjetiva y que, para algunos temas, puede ser deliberadamente falsa e imprecisa. No es lo mismo lo que las personas hacen, sienten o creen, que lo que ellas mismas dicen que hacen, creen o sienten. Existen algunos recursos para reducir la magnitud de este serio problema, entre los que se cuentan: omitir algunas preguntas que sabemos la mayora no desea o no puede contestar con veracidad, buscar formas indirectas de contrastacin, prestar cuidadosa atencin a la presentacin personal del encuestador, etc. A pesar de estas tcnicas de trabajo es imposible eliminar por completo el fenmeno antes sealado, por lo que el investigador tendr que tomar en cuenta, al momento de hacer el anlisis, las limitaciones que el mismo acarrea. 2) La encuesta no relata los hechos sociales desde el punto de vista de sus actores; puede, en este sentido, llegar a una cierta profundidad y sistematicidad, pero resulta poco apta para reconocer las relaciones sociales ya sean interpersonales o institucionales. 3) El diseo encuesta es bsicamente esttico. Tiende, de por s, a proporcionar una especie de imagen instantnea de un determinado problema, pero no nos indica sus tendencias a la variacin y menos an sus posibles cambios estructurales. Esta caracterstica reduce notablemente su eficacia predictiva, salvo para fenmenos de bastante simplicidad. 4) El tratamiento de la informacin es estadstico, lo que supone agrupar a todas las respuestas dndole a cada una igual peso relativo. Ello puede resultar muy democrtico y til en ciertos casos, pero casi nunca se corresponde con la realidad de los hechos sociales, donde el liderazgo y al asimetra de las posiciones sociales con por lo general la norma. De los comentarios expuestos puede inferirse cual es el campo de mayor utilidad de este diseo. Las encuestas resultan apropiadas casi siempre para estudios de tipo descriptivo, aunque no tanto para los explicativos. Son inadecuadas para profundizar ciertos aspectos psicolgicos o psico-sociales profundos pero muy eficaces para problemas menos delicados, como los del mercado masivo y las actitudes electorales. Resultan poco valiosas para determinar tipos de liderazgo y en general todos los problemas que se refieren ms a las relaciones y estructuras sociales que a las conductas ms simples o a los comportamientos, actitudes y opiniones masivas, donde s adquieren mayor eficacia. La lgica de la verificacin mediante encuestas se basa naturalmente en la correlacin estadstica que presentan las distribuciones de frecuencias (o los porcentajes) de dos o ms variables sobre las cuales se supone que existen relaciones de determinacin. De este modo se puede inferir si existe o no una asociacin entre los valores de las mismas, con lo cual queda establecida una
26
MDULO I
EVALUACIN EDUCATIVA
cierta relacin. Determinar, ms all de esto, el tipo de relacin que se ha detectado y el grado de influencia que ejerce una sobre otra requiere de otras nuevas pruebas que no siempre es posible realizar por medio de este diseo. 4.1.2 ENTREVISTA La entrevista, desde el punto de vista del mtodo, es una forma especfica de interaccin social que tiene por objeto recolectar datos para una indagacin. El investigador formula preguntas a las personas capaces de aportarle datos de inters, estableciendo un dilogo peculiar, asimtrico, donde una de las partes busca recoger informaciones y la otra es la fuente de esas informaciones. Por razones obvias slo se emplea, salvo raras excepciones, en las ciencias humanas. La ventaja esencial de la entrevista reside en que son los mismos actores sociales quienes proporcionan los datos relativos a sus conductas, opiniones, deseos, actitudes y expectativas, cosa que por su misma naturaleza es casi imposible de observar desde fuera. Nadie mejor que la misma persona involucrada para hablarnos acerca de todo aquello que piensa y siente, de lo que ha experimentado o proyecta hacer. Pero existe un inconveniente de considerable peso que reduce y limita los alcances de esta tcnica. Cualquier persona entrevistada podr hablarnos de aquello que le preguntemos pero siempre nos dar la imagen que tiene de las cosas, lo que cree que son, a travs de toda su carga subjetiva de intereses, prejuicios y estereotipos. La propia imagen que el entrevistado tiene de s mismo podr ser radicalmente falsa y, en todo caso, estar siempre idealizada de algn modo, distorsionada, mejorada o retocada segn factores que no es del caso analizar aqu, pero que nunca podemos prever en detalle. Este problema nos obliga a dejar fuera de esta tcnica a un campo considerable de problemas y de temas que, por lo anterior, son explorados mejor por medio de otros procedimientos que resultan ms confiables. Por otra parte nos obliga a utilizar, a veces, caminos indirectos, mediante preguntas que alcancen nuestro objetivo elpticamente, utilizando todo tipo de rodeos. Es clsico de ejemplo de que las personas nunca contestan la verdad respecto a sus ingresos personales en dinero, ya sea porque los disminuyen (ante el temor de estar frente a algn tipo de inspector de impuestos), o porque los aumentan (con fines de ostentacin social o para reforzar su autoestima). Tal como en este caso, el lector podr imaginar una amplia variedad de preguntas a las que los entrevistados slo nos proporcionaran respuestas inexactas o falsificadas, cuando no una reaccin adversa que interrumpa toda comunicacin. Para que una entrevista obtenga xito es preciso prestar atencin a una serie de factores aparentemente menores, pero que en la prctica son decisiones para un correcto desarrollo del trabajo. As, es importante que la apariencia exterior del entrevistador resulte adecuada al medio social donde habr de
27
MDULO I
EVALUACIN EDUCATIVA
formular sus preguntas, evitando innecesarias, reacciones de temor, agresividad o desconfianza. El entrevistador, aparte de este aspecto formal, deber ser una persona de por lo menos una cultura media, que comprenda el valor y la importancia de cada dato recogido y la funcin que su trabajo desempea en el conjunto de la investigacin. Tendr que ser mentalmente gil, no tener prejuicios marcados frente a ninguna categora de personas y, sobre todo, ser capaz de dejar hablar libremente a los dems, eliminando por completo todo intento de convencerlos, apresurarlos, o agredirlos por sus opiniones. La entrevista deber realizarse a las horas ms apropiadas para las personas que responden, teniendo en cuenta que su posible duracin no afecte la confiabilidad de los datos. Queremos destacar que las entrevistas no son excluyentes con respecto a las tcnicas de observacin, ya que ambos procedimientos pueden ser combinados sin ninguna dificultad, tratando precisamente de compensar sus ventajas y desventajas, con lo que se puede lograr una informacin mucho ms confiable y amplia. As, en muchas encuestas, hay datos que el entrevistador recoge mediante la observacin y no mediante preguntas, como por ejemplo las caractersticas de la vivienda, la edad del responderte, etc. Parece apropiado, adems, despejar aqu la confusin que siempre vincula a las entrevistas con las encuestas. Ni ellas son la misma cosa aunque las encuestas se realicen generalmente por medio de entrevistas ni ambas son tcnicas diferentes aplicables a distintos casos. La encuesta, es un modelo general de investigacin, un diseo o mtodo, que se apoya fundamentalmente en una tcnica de recoleccin que es la entrevista, aunque tambin utiliza observaciones y datos secundarios. Adems pueden utilizarse entrevistas en otros tipos de diseos, como en los estudios de caso y experimentos, sin que por ello estemos en presencia de una encuesta. Lo que vulgarmente se llama entrevista no estructurada y lo que suele llamarse encuesta es igual a lo que denominamos, en metodologa cientfica, entrevista estructurada. Por eso no tiene sentido hablar de entrevistas y encuestas como dos tcnicas diferentes sino de entrevistas estructuradas o no que se aplican dentro de determinados diseos de investigacin: encuestas, estudios de caso, etc. Pasando ahora a la clasificacin de los diversos tipos de entrevistas diremos que ellas pueden ordenarse como una serie, de acuerdo principalmente a un elemento: su grado de estructuracin o formalizacin. Las entrevistas ms estructuradas sern aquellas que predeterminan en una mayor medida las respuestas a obtener, que fijan de antemano sus elementos con ms rigidez, mientras que las entrevistas informales sern precisamente las que discurran de un modo ms espontneo, ms libre, sin sujetarse a ningn canon preestablecido. Los distintos tipos de entrevista quedan expuestos a continuacin: 4.1.2.1 Entrevistas no estructuradas De un modo general, una entrevista no estructurada o no formalizada es aquella en que exista un margen ms o menos grande de libertad para formular
28
MDULO I
EVALUACIN EDUCATIVA
las preguntas y las respuestas. No se guan por lo tanto por un cuestionario o modelo rgido, sino que discurren con cierto grado de espontaneidad, mayor o menor segn el tipo concreto de entrevista que se realice. Entre estos tenemos los siguientes: a. Entrevista informal: es la modalidad menos estructurada posible de entrevista ya que la misma se reduce a una simple conversacin sobre el tema de estudio. Lo importante no es aqu definir los lmites de lo tratado ni ceirse a algn esquema previo, sino hacer hablar al entrevistado, de modo de obtener un panorama de los problemas ms salientes, de los mecanismos lgicos y mentales del responderte, de los temas que para l resultan de importancia. Es de gran utilidad en estudios exploratorios y recomendable cuando se trata de abordar realidades poco conocidas por el investigador, tambin suele utilizarse en las fases iniciales aproximativas- de investigacin de cualquier naturaleza, recurriendo a informantes claves que pueden ser expertos sobre el tema en estudio, lderes formales o informales, personalidades destacadas o cualquier persona que, en general, posea informaciones de particular inters para la indagacin. Lo ms importante, en este tipo de entrevista, es dar al responderte la sensacin clara y definida de que puede hablar libremente, alentndolo y estimulndolo para que lo haga y cuidando de no influirlo demasiado con nuestras actitudes o las palabras que decimos. b. Entrevista focalizada: es prcticamente tan libre y espontnea como la anterior, pero tiene la particularidad de concentrarse en un nico tema. El entrevistador deja hablar sin restricciones al entrevistado, proponindole apenas algunas orientaciones bsicas pero, cuando ste se desva del tema original y se desliza hacia otros distintos, el entrevistador vuelve a centrar la conversacin sobre el primer asunto, y as repetidamente. Se emplea normalmente con el objeto de explorar a fondo alguna experiencia vivida por el entrevistado o cuando nuestros informantes son testigos presnciales de hechos de inters, por lo que resulta adecuado a la vez insistir sobre lo mismo, pero dejando entera libertad para captarlos en toda su riqueza. Esto ocurre tambin cuando se trata de interrogar a los actores principales de ciertos hechos o a testigos histricos. Tal tipo de entrevista requiere de gran habilidad en su desarrollo para evitar tanto la dispersin temtica como caer en formas ms estructuradas de interrogacin. c. Entrevistas por pautas o guas: son aquellas, ya algo ms formalizadas, que se guan por una lista de puntos de inters que se van explorando en el curso de la entrevista. Los temas deben guardar una cierta relacin entre s. El entrevistador, en este caso, hace muy pocas preguntas directas, y deja hablar al responderte siempre que vaya tocando alguno de los temas sealados en la pauta o gua. En el caso de que ste se aparte de ellos, o que no toque alguno de los puntos en cuestin, el investigador llamar la atencin sobre ellos, aunque tratando siempre de preservar en lo posible la espontaneidad de la interaccin. Se usan en situaciones parecidas a las anteriores y cuando se
29
MDULO I
EVALUACIN EDUCATIVA
presentan casos en que los sujetos investigados prefieren ms un desarrollo flexible que un rgido por sus propias actitudes culturales o necesidades personales. Son un complemento magnfico de las entrevistas ms estructuradas que se realizan en la encuestas por muestreo, pues permiten aadir a stas un tipo de informacin ms subjetiva o profunda que facilita el anlisis de los otros datos. Todas estas formas de entrevistas, que tienen en comn su poca formalizacin, poseen la ventaja de permitir un dilogo ms profundo y rico, de presentar los hechos en toda su complejidad, captando no slo las respuestas a los temas elegidos sino tambin las actitudes, valores y formas de pensar de los entrevistados, a veces inaccesibles por otras vas. Su principal inconveniente radica en que es poco prctico sistematizar un gran nmero de entrevistas de este tipo, organizndolas estadsticamente, pues pueden tener muy pocos puntos de contacto entre s. Otra dificultad que no debe omitirse es su costo, pues involucran la presencia de personal altamente especializado durante tiempos relativamente largos. Los problemas de registro pueden ser importantes, pues existe un gran nmero de palabras que es casi imposible registrar en su totalidad. Pueden utilizarse grabadores para solventar este inconveniente, aunque es preciso determinar previamente si la presencia de tales aparatos cohbe o no a los informantes. En todo caso es preciso realizar un esfuerzo especial para transcribir, organizar e interpretar cada una de las entrevistas realizadas, de modo de que sus datos puedan sintetizarse, posteriormente, en una forma adecuada. d. Entrevistas formalizadas Estas se desarrollan en base a un listado fijo de preguntas cuyo orden y redaccin permanece invariable. Comnmente se administran a un gran nmero de entrevistados para su posterior tratamiento estadstico. Por este motivo es la forma de recoleccin de datos ms adecuada para el diseo de encuesta, tanto que a veces provoca confusiones entre instrumento y mtodo. Entre sus ventajas principales mencionaremos su rapidez y el hecho de que pueden ser llevadas a cabo por personas con mediana preparacin, lo cual redunda en su bajo costo. Otra ventaja evidente es su posibilidad de procesamiento matemtico, ya que al guardar una estricta homogeneidad sus respuestas resultan comparables y agrupables. Su desventaja mayor estriba en que reducen grandemente el campo de informacin registrado, limitando los datos a los que surgen de una lista taxativa de preguntas. Esta lista de preguntas, que es el instrumento concreto de recoleccin empleado en este caso, recibe el nombre de cuestionario y puede ser administrado sin que necesariamente medie una entrevista. Debe ser cuidadosamente redactado, evitando preguntas demasiado generales, confusas o de doble sentido, y tratando de conservar un orden lo ms natural posible.
30
MDULO I
EVALUACIN EDUCATIVA
Segn el tipo de preguntas que se incluyan en un cuestionario las entrevistas resultantes sern ms o menos estructuradas. Para ello suelen dividirse las preguntas en dos grandes tipos: de alternativas fijas, de final abierto. Las preguntas de alternativas fijas, llamadas comnmente cerradas, formalizan ms el cuestionario, pues en ellas slo se otorga al entrevistado la posibilidad de escoger entre un nmero limitado de respuestas posibles. Si se pregunta cree Ud. En los OVNIS, s o no?, estaremos ante una tpica pregunta cerrada. Hay que tener sumo cuidado en la redaccin de estas alternativas ofrecidas, sean stas dos, tres, o veinte, si el responderte no puede elegir una respuesta que est fuera de la lista, la pregunta se habr de considerar cerrada. Hay que tener sumo cuidado en la redaccin de estas alternativas, procurando especialmente que ellas sean exhaustivas y mutuamente excluyentes, tal como ocurra para la confeccin en un sentido determinado. Las preguntas de final abierto, llamadas tambin simplemente abiertas, proporcionan una variedad ms amplia de respuestas pues stas pueden ser escogidas libremente por los respondientes. Su redaccin debe ser muy cuidadosa para evitar respuestas confusas o errneas, y para evitar adems que ellas predispongan a los entrevistados en uno u otro sentido. Un ejemplo de pregunta abierta sera: Qu opina Ud. Acerca de los OVNIS?; como resulta evidente, la respuesta aqu puede ser infinitamente variada, segn lo opinin de cada persona consultada. La informacin que se obtendr ser mucho ms completa y valiosa con esta pregunta que con la del ejemplo anterior, pero el trabajo de procesamiento de los datos, en compensacin, tendr que ser sin duda mucho mejor. Una vez que se redacta el conjunto de preguntas que constituyen un cuestionario es necesario revisar ste una y otra vez para asegurarse de su consistencia y eliminar los posibles errores u omisiones. Casi siempre se realiza lo que se denomina una prueba piloto, que consiste en administrar el cuestionario a un conjunto reducido de personas para calcular su duracin, conocer sus dificultades y corregir sus defectos, antes de aplicarlo a la totalidad de la muestra. Durante las entrevistas se utilizan frecuentemente ayudas visuales (fotografas, esquemas, tarjetas con frases o palabras, etc.), que contribuyen a veces a obtener conocimientos ms complejos y que, en otros casos, cumplen funcin de preservar la objetividad, evitando que la forma en que se pronuncia o describe algo introduzca un sesgo determinado en las respuestas. 4.1.3 CUESTIONARIOS Un cuestionario consiste en un conjunto de preguntas respecto a una o ms variables a medir. El contenido de las preguntas de un cuestionario puede ser tan variado como los aspectos que mida. Y bsicamente, podemos hablar de dos tipos de preguntas: cerradas y abiertas.
31
MDULO I
EVALUACIN EDUCATIVA
Las preguntas cerradas contienen categoras o alternativas de respuestas que han sido delimitadas. Es decir, se presentan a los sujetos las posibilidades de respuestas y ellos deben circunscribirse a ellas. Pueden ser dicotmicas (dos alternativas de respuestas) o incluir varias alternativas de respuestas. En las preguntas cerradas las categoras de respuestas son definidas a priori por el investigador y se le presentan al respondiente, quien debe elegir la opcin que describa ms adecuadamente su respuesta. Las escalas de actitudes en forma de pregunta caeran dentro de la categora de preguntas cerradas. Ahora bien, hay preguntas cerradas, donde el respondiente puede seleccionar ms de una opcin o categora de respuesta. Algunos respondientes pudieran marcar una, dos, tres, cuatro o cinco opciones de respuesta. Las categoras no son mutuamente excluyentes. En otras ocasiones, el respondiente tiene que jerarquizar opciones. O bien debe asignar un puntaje a una o diversas cuestiones. En otras se anota una cifra. En cambio, las preguntas abiertas no delimitan de antemano las alternativas de respuesta. Por lo cual el nmero de categoras de respuesta es muy elevado; en teora, es infinito. Tamao de un cuestionario No existe una regla al respecto; pero, si es muy corto se pierde informacin y si resulta largo puede resultar tedioso. En este ltimo caso, las personas pueden negarse a responder, o al menos, lo respondern en forma incompleta. El tamao depende del nmero de variables y dimensiones a medir, el inters de los respondientes y la manera como es administrado. Cuestionarios que duran ms de 35 minutos deben resultar tediosos a menos que los respondientes estn muy motivados para contestar. Una recomendacin que puede ayudarnos a evitar un cuestionario ms largo de lo requerido es: No hacer preguntas innecesarias o injustificadas.
4.1.3.1 COMO APLICAR CUESTIONARIOS Los cuestionarios pueden ser aplicados de diversas maneras: A. Autoadministrado. El cuestionario se proporciona directamente a los respondientes, quienes lo contestan. No hay intermediarios y las respuestas las marcan ellos. Obviamente que esta manera de aplicar el cuestionario es impropia para analfabetas, personas que tienen dificultades de lectura o nios que todava no leen adecuadamente. B. Por entrevista personal. Un entrevistador aplica el cuestionario a los respondientes (entrevistados). El entrevistador va hacindole las preguntas al respondiente y va anotando las respuestas. Las instrucciones son para el entrevistador. Normalmente se tienen varios entrevistadores, quienes debern estar capacitados en el arte de
32
MDULO I
EVALUACIN EDUCATIVA
entrevistar y conocer a fondo el cuestionario, y no deben sesgar o influir las respuestas. C. Por entrevista telefnica. Esta situacin es similar a la anterior, slo que la entrevista no es cara a cara sino a travs del telfono. El entrevistador le hace las preguntas al respondiente por este medio de comunicacin. D. Autoadministrado y enviado por correo postal, electrnico o servicio de mensajera. Los respondientes contestan directamente el cuestionario, ellos marcan o anotan las respuestas, no hay intermediario. Pero los cuestionarios no se entregan directamente a los respondientes (en propia mano) sino que se les envan por correo u otro medio, no hay retroalimentacin inmediata, si los sujetos tienen alguna duda no se les puede aclarar en el momento. 4.1.4 OBSERVACIN La observacin consiste en el registro sistemtico, vlido y confiable de comportamiento o conducta manifiesta. Puede utilizarse como instrumento de medicin en muy diversas circunstancias. Es un mtodo ms utilizado por quienes estn orientados conductualmente. Puede servir para determinar la aceptacin de un grupo respecto a su profesor, analizar conflictos familiares, eventos masivos, la aceptacin de un producto en un supermercado, el comportamiento de deficientes mentales, etc. 4.1.4.1 Pasos para construir un sistema de observacin Los pasos para construir un sistema de observacin son: 1. Definir con precisin el universo de aspectos, eventos o conductas a observar. Por ejemplo, si nuestro inters es observar los recursos con que cuentan las escuelas de un distrito escolar debemos definir lo que concebimos como recurso escolar. Un universo podra ser el comportamiento verbal y no verbal de un grupo de alumnos durante un semestre. Otro universo sera las conductas de un grupo de trabajadores durante sus sesiones en crculos de calidad o equipos para la calidad, en un periodo de un ao. O bien las conductas agresivas de un grupo de esquizofrnicos en sesiones teraputicas. 2. Extraer una muestra representativa de los aspectos, eventos o conductas a observar. Un repertorio suficiente de conductas a observar. 3. Establecer y definir las unidades de observacin. Por ejemplo, cada vez que se presenta una conducta agresiva, cada minuto se analizar si el alumno est o no atento a la clase, durante dos horas al da, el nmero de personas que leyeron el tablero de avisos de la compaa, etc. El concepto de unidades de anlisis es el mismo que en el anlisis de contenido, slo que en la observacin se trata de conductas, eventos o aspectos. 4. Establecer y definir las categoras y subcategoras de observacin.
33
MDULO I
EVALUACIN EDUCATIVA
Tipos de observacin La observacin puede ser participante o no participante. En la primera, el observador interacta con los sujetos observados y en la segunda no ocurre esta interaccin. Ventajas de la observacin Tanto la observacin como el anlisis de contenido tienen varias ventajas: 1. Son tcnicas de medicin no obstructivas. En el sentido que el instrumento de medicin no estimula el comportamiento de los sujetos (las escalas de actitud y los cuestionarios pretenden estimular una respuesta a cada tem). Los mtodos no obstruidos simplemente registran algo que fue estimulado por otros factores ajenos al instrumento de medicin. 2. Aceptan material no estructurado. 3. Pueden trabajar con grandes volmenes de datos (material). 4.1.5 ESCALA DE LIKERT Este mtodo fue desarrollado por Rensis Likert a principios de los treinta; sin embargo, se trata de un enfoque vigente y bastante popularizado. Consiste en un conjunto de tems presentados en forma de afirmaciones o juicios ante los cuales se pide la reaccin de los sujetos. Es decir, se presenta cada afirmacin y se pide al sujeto que externe su reaccin eligiendo uno de los cinco puntos de la escala. A cada punto se le asigna un valor numrico. As, el sujeto obtiene una puntuacin respecto a la afirmacin y al final se obtiene su puntuacin total sumando las puntuaciones obtenidas en relacin a todas las afirmaciones. Las afirmaciones califican al objeto de actitud que se est midiendo y deben expresar slo una relacin lgica, adems es muy recomendable que no excedan de 20 palabras. Ejemplo: Objeto de actitud medido El voto Afirmacin Votar es una obligacin de todo ciudadano responsable
En este caso la afirmacin incluye o palabras y expresa una sola relacin lgica (X Y). Las alternativas de respuesta o puntos de la escala son cinco e indican cunto se est de acuerdo con la afirmacin correspondiente. Debe recordarse que a cada una de ellas se le asigna un valor numrico y slo puede marcarse una opcin. Se considera un dato invlido a quien marque dos o ms opciones.
4.1.5.1 Como se construye una escala Likert lourdesreyna1613@hotmail.com 34
MDULO I
EVALUACIN EDUCATIVA
En trminos generales, una escala Likert se construye generando un elevado nmero de afirmaciones que califiquen al objeto de actitud y se administran a un grupo piloto para obtener las puntuaciones del grupo en cada afirmacin. Estas puntuaciones se correlacionan con las puntuaciones del grupo a toda la escala (la suma de las puntuaciones de todas las afirmaciones), y las afirmaciones cuyas puntuaciones se correlacionen significativamente con las puntuaciones de toda la escala, se selecciona para integrar el instrumento de medicin. Asimismo, debe calcularse la confiabilidad y validez de la escala. Maneras de aplicar la escala Likert Existen dos formas bsicas de aplicar una escala Likert. La primera es de manera autoadministrada: se le entrega la escala al respondiente y ste marca respecto a cada afirmacin, la categora que mejor describe su reaccin o respuesta. Es decir, marcan respuestas, la segunda forma es la entrevista; un entrevistador lee las afirmaciones y alternativas de respuesta al sujeto y anota lo que ste conteste. Cuando se aplica va entrevista, es necesario que se le entregue al entrevistador una tarjeta donde se muestran las alternativas de respuesta o categoras. Al construir una escala Likert debemos asegurar que las afirmaciones y alternativas de respuesta sern comprendidas por los sujetos a los que se les aplicar y que stos tendrn la capacidad de discriminacin requerida. Codificacin El objetivo de este procedimiento es agrupar numricamente los datos que se expresen en forma verbal para poder luego operar con ellos como si se tratara, simplemente, de datos cuantitativos. Para lograrlo se habr de partir de un cmulo de informaciones que tengan una mnima homogeneidad, lo cual es necesario para poder integrarlas. Pueden tratarse de cientos de respuestas a una misma pregunta o de una variedad de posibles situaciones observadas mediante un mismo tem de una pauta de observacin: en ambos casos existir una determinada variedad de respuesta o de observaciones que presenten las elecciones o los comportamientos de los objetos de estudio. El primer paso a dar frente a todos estos datos es realizar una revisin atenta de un subgrupo reducido de ellos con el objeto de encontrar una tipologa de respuestas posibles, en concordancia, por otra parte, con las formulaciones tericas que guan la investigacin y con los criterios adoptados en la etapa de operacionalizacin. A cada categora de respuestas habremos de darle un cdigo particular, un nmero o letra diferente, que servir para agrupar tras de s a todas las respuestas u observaciones que sean idnticas o que, al menos, aparezcan como equivalentes. Luego procederemos a sealar a cada uno de los cuestionarios o pautas con el cdigo que le corresponde en cada caso, con la que quedar sintetizada la respuesta que contiene. El proceso se facilita grandemente cuando se realiza mediante computadoras.
35
MDULO I
EVALUACIN EDUCATIVA
Supongamos que hemos preguntado, por medio de entrevistas estructuradas hechas a una muestra, la opinin que tienen las personas respecto a las Naciones Unidas. Si la pregunta ha sido abierta, cada responderte habr expuesto sus opiniones en algunas breves frases. La codificacin nos permitir agrupar sus respuestas, para poder evaluar cules son las opiniones ms salientes al respecto. Nuestros cdigos, por ejemplo, pondrn ser: 1. Es una institucin que garantiza (o protege) la paz mundial. 2. Es una institucin que debera ser reformada. 3. Es til por los servicios que presta a los pases menos desarrollados. 4. Es inoperante, ineficiente, etc. 5. No sabe o no opina al respecto. Por supuesto que podran elaborarse otros cdigos, categorizando ms o menos detalladamente las respuestas. Casi siempre que se encuentran ideas similares pero que se expresan a travs de palabras diferentes se procede a unificarlas en un mismo cdigo; excepcionalmente, cuando no slo interesa la idea sino adems los aspectos lingsticos con que sta se manifiesta, es necesario buscar un cdigo para cada respuesta tomada textualmente. Los casos difciles de ubicar, de respuestas que pudieran situarse en ms de una categora, slo pueden ser resueltos consultando con el marco terico. Cuando aparecen respuestas ambiguas, extraas o simplemente anmalas, es conveniente agruparlas en el cdigo otras respuestas, para no abrir demasiadas categoras simultneamente. 4.2 PROCEDIMIENTO QUE INSTRUMENTO DE MEDICIN SE SIGUE PARA CONSTRUIR UN
Existen diversos tipos de instrumentos de medicin, cada uno con caractersticas diferentes. Sin embargo, el procedimiento general para construirlos es semejante. El procedimiento que sugerimos para construir un instrumento de medicin es el siguiente: Pasos a. Listar las variables que se pretende medir u observar. b. Revisar su definicin conceptual y comprender su significado. Por ejemplo, comprender bien que es la motivacin intrnseca y que dimensiones la integran. c. Revisar como han sido definidas operacionalmente las variables, esto es, como se ha medido cada variable. Ello implica comparar los distintos instrumentos o maneras utilizadas para medir las variables (comparar su confiabilidad, validez, sujetos a los cuales se les aplic, facilidad de administracin, veces que las mediciones han resultado exitosas y posibilidad de uso en el contexto de la investigacin). d. Elegir el instrumento o los instrumentos (ya desarrollados) que hayan sido favorecidos por la comparacin y adaptarlos al contexto de la
36
MDULO I
EVALUACIN EDUCATIVA
investigacin. Para este caso slo deben seleccionarse instrumentos cuya confiabilidad y validez se reporte. No se puede confiar en una forma de medir que carezca de evidencia clara y precisa de confiabilidad y validez. Cualquier investigacin seria reporta la confiabilidad y validez de su instrumento de medicin. Recurdese que la primera vara de 0 a 1 para la segunda se debe mencionar el mtodo utilizado de validacin y su interpretacin. De no ser as no podemos asegurar que el instrumento sea el adecuado. Si se selecciona un instrumento desarrollado en otro pas, deben hacerse pruebas piloto ms extensas. Tampoco no debe olvidarse que traducir no es validad un instrumento, por muy buena que sea la traduccin. En este segundo caso, debemos asegurarnos de tener un nmero suficiente de tems para medir todas las variables en todas sus dimensiones. Ya sea que se seleccione un instrumento previamente desarrollado y se adapte o bien, se construya uno, ste constituye la versin preliminar de nuestra medicin. e. Indicar el nivel de medicin de cada tem y, por ende, el de las variables. Existen cuatro variables de medicin ampliamente conocidos. 1. Nivel de medicin nominal. En este nivel se tienen dos ms categoras del tem o variable. Las categoras no tienen orden o jerarqua. Lo que se mide es colocado en una u otra categora, lo que indica solamente diferencias respecto a una o ms caractersticas. Por ejemplo, las variables sexo de la persona tiene slo dos categoras: masculino y femenino. Ninguna de las categoras tiene mayor jerarqua que la otra, las categoras nicamente reflejan deferencias en la variable. No hay orden de mayor a menor. Si le asignamos una etiqueta o smbolo a cada categora, esto identifica exclusivamente a la categora. Por ejemplo: * = Masculino z = Femenino Si usamos numerales es lo mismo: 1 = Masculino es igual a 2 = Femenino 1 = Femenino 2 = Masculino
Los nmeros utilizados en este nivel de medicin tienen una funcin puramente de clasificacin y no se pueden manipular aritmticamente. Por ejemplo, la afiliacin religiosa es una variable nominal, si pretendiramos operarla aritmticamente tendramos situaciones tan ridculas como esta: 1 = Catlico 2 = Judo 1+2=3 3 = Protestante 4 = Musulmn Un catlico + un judo = protestante? 5 = Otros (no tiene sentido)
37
MDULO I
EVALUACIN EDUCATIVA
Las variables nominales pueden incluir dos categoras (dicotmicas), o bien, tres o ms categoras (categricas). Ejemplos de variables nominales dicotmicas sera el sexo y el tipo de escuela a la que se asiste (privada pblica); y de nominales categricas tendramos a la afiliacin poltica (Partido A, Partido B,), la carrera elegida, la raza, el departamento o provincia o estado de nacimiento y el canal de televisin preferido. 2. Nivel de medicin ordinal. En este nivel hay varias categoras, pero adems stas mantienen un orden de mayor a menor. Las etiquetas o smbolos de las categoras s indican jerarqua. Por ejemplo, el prestigio ocupacional en Estados Unidos ha sido medido por diversas escalas que reordenan a las profesiones de acuerdo con su prestigio, por ejemplo: Valor de escala 90 80 Profesin Ingeniero qumico Cientfico de ciencias naturales (excluyendo la qumica) 61 Actor 2) Operador de estaciones elctricas de potencia. 02 Manufactureros de tabaco
90 es ms que 80, 80 ms que 60, 60 ms que 50 y as sucesivamente; es decir, los nmeros (smbolos de categoras) definen posiciones. Sin embargo, las categoras no estn ubicadas a intervalos iguales (no hay intervalo comn). No podramos decir con exactitud que entre un actor (60) y un operador de estaciones de poder (50) existe la misma distancia en prestigio que entre un cientfico de ciencias naturales (80) y un ingeniero qumico (90). Aparentemente en ambos casos la distancia es 10, pero no es una distancia real. Otra escala clasific el prestigio de dichas profesiones de la siguiente manera: Valor de escala 98 95 qumica) 84 78 13 Profesin Ingeniero qumico Cientfico de ciencias naturales (excluyendo la Actor Operador de estaciones elctricas de potencia. Manufactureros de tabaco
Aqu la distancia entre un actor (84) y un operador de estaciones (78) es de 6, y la distancia entre un ingeniero qumico (98) y un cientfico de ciencias naturales (95) es de 3. Otro ejemplo sera la posicin jerrquica en la empresa: Presidente 10 Vicepresidente 9 Director general 8 Gerente de rea 7
38
MDULO I
EVALUACIN EDUCATIVA
Subgerente o superintendente Jefe Empleado A Empleado B Empleado C Intendencia
6 5 4 3 2 1
Sabemos que el presidente (10) es ms que el vicepresidente (9), ste ms que el director general (8), a su vez este ltimo ms que el gerente (7) y as sucesivamente; pero no puede precisarse en cada caso canto ms. Tampoco podemos utilizar las operaciones aritmticas bsicas: no podramos decir que 4 (empleado A) y 5 (jefe) = 9 (vicepresidente), ni que 10 (presidente) / 5 (jefe) = 2 (empleado C). Sera absurdo, no tiene sentido. 3. Nivel de medicin por intervalos. Adems del orden o jerarqua entre categoras, se establecen intervalos iguales en la medicin. Las distancias entre categoras son las mismas a lo largo de toda la escala. Hay intervalo constante, una unidad de medida. Por ejemplo: una prueba de resolucin de problemas matemticos (30 problemas de igual dificultad). Si Ana Cecilia resolvi 10, Laura resolvi 20 y Brenda 30. La distancia entre Ana Cecilia y Laura es igual a la distancia entre Laura y Brenda. Sin embargo, el cero (0) en la medicin, es un cero arbitrario, no es real (se asigna arbitrariamente a una categora el valor de cero y a partir de sta se construye la escala). Un ejemplo clsico en ciencias naturales es la temperatura (en grados centgrados y Fahrenheit): el cero es arbitrario, no implica que realmente haya cero (ninguna) temperatura (incluso en ambas escalas el cero es diferente). Cabe agregar que diversas mediciones en el estudio del comportamiento humano no son verdaderamente de intervalo, pero se acercan a ese nivel y se suele tratarlas como si fueran mediciones de intervalo. Esto se hace porque este nivel de medicin permite utilizar las operaciones aritmticas bsicas y algunas estadsticas modernas, que de otro modo no se usaran. Aunque algunos investigadores no estn de acuerdo en suponer tales mediciones como si fueran de intervalo. 4. Nivel de medicin de razn. En este nivel, adems de tenerse todas las caractersticas del nivel de intervalos (intervalos iguales entre las categoras y aplicacin de operaciones aritmticas bsicas y sus derivaciones), el cero es real, es absoluto (no es arbitrario). Cero absolutos implica que hay un punto en la escala donde no existe la propiedad. Ejemplos de estas mediciones sera la exposicin a la exposicin a la televisin, el nmero de hijos, la productividad, las ventas de un producto y el ingreso.
39
MDULO I
EVALUACIN EDUCATIVA
Desde luego, hay variables que pueden medirse en ms de un nivel, segn el propsito de medicin. Por ejemplo, la variable antigedad en la empresa. Nivel de medicin Categoras - De razn En das (0 a K das) - Ordinal Bastante antigedad Antigedad regular Poca antigedad Es muy importante indicar el nivel de medicin de todas las variables e tems de la investigacin, porque dependiendo de dicho nivel se selecciona uno u otro tipo de anlisis estadstico (por ejemplo, la prueba estadstica para correlacionar dos variables de intervalo es muy distinta a la prueba para correlacionar dos variables ordinales). As, es necesario hacer una relacin de variables, tems y niveles de medicin. f. Indicar como se habrn de codificar los datos en cada tem y variable. Codificar los datos significa asignarles un valor numrico que los represente. Es decir, a las categoras de cada tem y variable se les asignan valores numricos que tienen un significado. Por ejemplo, si tuviramos la variable sexo con sus respectivas categoras, masculino y femenino, a cada categora le asignaramos un valor. ste podra ser: Categora - Masculino - Femenino Codificacin (valor asignado) 1 2
As, Carla Magaa en la variable sexo sera un 2. Luis Gerardo Vera y Rubn Reyes seran un 1, Vernica Larios un 2 y as sucesivamente. Otro ejemplo sera la variable horas de exposicin diaria a la televisin, que podra codificarse de la siguiente manera: Categora Codificacin (valor asignado) 0 1 2 3 4 5 6 7 8 9
- No ve televisin - Menos de una hora - Una hora - Ms de un hora, pero menos de dos - Dos horas - Ms de dos horas, pero menos de tres - Tres horas - Ms de tres horas, pero menos de cuatro - Cuatro horas - Ms de cuatro horas
Es necesario insistir que cada tem y variable debern tener una codificacin (cdigos numricos) para sus categoras. Desde luego, hay veces que un tem no puede ser codificado a priori (precodificado) porque es sumamente difcil
40
MDULO I
EVALUACIN EDUCATIVA
conocer cuales sern sus categoras. Por ejemplo, si en una investigacin furamos a preguntar: Qu opina del programa econmico que recientemente aplico el gobierno? Las categoras podran ser muchas ms de las que nos imaginemos y resultara difcil predecir con precisin cuantas y cuales sern. En estos casos la codificacin se lleva a cabo una vez que se aplica el tem (a posteriori). La codificacin es necesaria para analizar cuantitativamente los datos (aplicar anlisis estadstico). A veces se utilizan letras o smbolos en lugar de nmeros (*, A, Z). g. Una vez que se indica el nivel de medicin de cada variable e tem y que se determina su codificacin, se procede a aplicar una prueba piloto del instrumento de medicin. Es decir, se aplica a personas con caractersticas semejantes a las de la muestra o poblacin objetivo de la investigacin. En esta prueba se analiza se las instrucciones se comprenden y si los tems funcionan adecuadamente. Los resultados se usan para calcular la confiabilidad y, de ser posible, la validez del instrumento de medicin. La prueba piloto se realiza con una pequea muestra (inferior a la muestra definitiva). Los autores aconsejamos que cuando la muestra sea de 200 o ms, se lleve a cabo la prueba piloto con entre 25 y 60 personas. Salvo que la investigacin exija un nmero mayor. h. Sobre base de la prueba piloto, el instrumento de medicin preliminar se modifica, ajusta y se mejora, los indicadores de confiabilidad y validez son una breve ayuda, y estaremos en condiciones de aplicarlo. Este procedimiento general para desarrollar una medicin debe adaptarse a las caractersticas de los tipos de instrumentos de que disponemos en el estudio del comportamiento. 4.4 Construccin de una escala de actitudes tipo Likert Introduccin Para medir un objeto se requiere una escala de medida: El consumo de electricidad se mide en kilowatios x hora, la temperatura en grados centgrados. Cmo medir la insatisfaccin, la anomia, la actitud de los trabajadores hacia la prevencin o hacia el trabajo en equipo? He aqu el gran problema metodolgico de las ciencias sociales. Cmo medir los fenmenos sociales? Qu escala usar para medir una actitud? Cmo construirla? Qu es una escala? Definimos una escala como una serie de tems o frases que han sido cuidadosamente seleccionados, de forma que constituyan un criterio vlido, fiable y preciso para medir de alguna forma los fenmenos sociales. En nuestro caso, este fenmeno ser una actitud cuya intensidad queremos medir. Qu es una actitud?
41
MDULO I
EVALUACIN EDUCATIVA
Actitud es un estado de disposicin psicolgica, adquirida y organizada a travs de la propia experiencia que incita al individuo a reaccionar de una manera caracterstica frente a determinadas personas, objetos o situaciones. Las actitudes no son susceptibles de observacin directa sino que han de ser inferidas de las expresiones verbales; o de la conducta observada. Esta medicin indirecta se realiza por medio de unas escalas en las que partiendo de una serie de afirmaciones, proposiciones o juicios, sobre los que los individuos manifiestan su opinin, se deducen o infieren las actitudes. Qu es un tem? Un tem es una frase o proposicin que expresa una idea positiva o negativa respecto a un fenmeno que nos interesa conocer. Por ejemplo, el tem: "Las normas sobre utilizacin de carretillas elevadoras dictadas por la empresa, en la prctica cotidiana, son de difcil cumplimiento." Expresa una opinin sobre un tema: la poltica normativa de la empresa, y se refiere concretamente al manejo de carretillas. La posicin valorativa de tal afirmacin hecha por un individuo se puede considerar como un indicador de su opinin sobre dicha poltica normativa, sobre el uso de carretillas elevadoras, sobre la seguridad en la empresa, etc. Tres criterios para la confeccin de los tems de una escala 1. Los tems deben facilitar respuestas relacionadas con el fenmeno medido, aunque dicha relacin no tiene porqu ser necesariamente manifiesta. 2. Cada tem debe declarar no slo las dos posturas extremas, sino tambin graduar las intermedias. A medida que la escala gane en sensibilidad, ganar tambin en precisin. 3. Los tems deben ser fiables y seguros. La fiabilidad con frecuencia se logra a costa de la precisin. Cuanto ms refinada es una medicin, ms probable es que en dos medidas repetidas obtengamos puntuaciones distintas. Escalas aditivas Las escalas aditivas estn constituidas por una serie de tems ante los cuales se solicita la reaccin del sujeto. El interrogado seala su grado de acuerdo o desacuerdo con cada tem (muy de acuerdo, de acuerdo, indeciso en desacuerdo, muy en desacuerdo). A cada respuesta se le da una puntuacin favorable o desfavorable. La suma algebraica de las puntuaciones de las respuestas del individuo a todos los tems da su puntuacin total que se entiende como representativa de su posicin favorable-desfavorable con respecto al fenmeno que se mide. La justificacin razonada de tales puntuaciones totales, corno base para la colocacin de los individuos en una escala, es la siguiente:
42
MDULO I
EVALUACIN EDUCATIVA
A un tem que puede ser admitido con diversos grados de aprobacin, se le pueden atribuir diversos "pesos", conforme a las frecuencias aprobatorias que reciba de acuerdo con la curva normal. Asimismo y por consiguiente, 1) cada individuo recibe una puntuacin proporcional a su aprobacin acumulada, y 2) cada tem recibe diversos pesos segn el grado con que es aprobado. La probabilidad de acuerdo o desacuerdo con cualquiera de las series de tems favorables o desfavorables, con respecto a un objeto, vara directamente con el grado de actitud de un individuo. Un individuo con una actitud favorable responder favorablemente a muchos tems (es decir, estar de acuerdo con muchos tems favorables al objeto y disentir a los desfavorables); de un individuo ambivalente puede esperarse que responda desfavorablemente a unos y favorablemente a otros; un individuo con una actitud desfavorable responder desfavorablemente a muchos tems. El tipo de escala aditiva ms frecuentemente utilizado en el estudio de las actitudes sociales es el de Likert. Construccin de una escala aditiva tipo Likert La escala de Likert es una escala ordinal y como tal no mide en cunto es ms favorable o desfavorable una actitud, es decir que si una persona obtiene una puntuacin de 60 puntos en una escala, no significa esto que su actitud hacia el fenmeno medido sea doble que la de otro individuo que obtenga 30 puntos, pero s nos informa que el que obtiene 60 puntos tiene una actitud ms favorable que el que tiene 30, de la misma forma que 40C no son el doble de 20C pero s indican una temperatura ms alta. A pesar de esta limitacin, la escala Likert tiene la ventaja de que es fcil de construir y de aplicar, y, adems, proporciona una buena base para una primera ordenacin de los individuos en la caracterstica que se mide. La construccin de esta escala comporta los siguientes pasos: 1) Se recoge una larga serie de tems relacionados con la actitud que queremos medir y se seleccionan, aquellos que expresan una posicin claramente favorable o desfavorable. En el ejemplo 1, presentamos algunos tems de una escala para medir la actitud hacia "La seguridad en el trabajo".
43
MDULO I
EVALUACIN EDUCATIVA
Estos tems pueden ser elaborados por personas conocedoras del tema que se pretende medir y conocedoras, as mismo, del colectivo de individuos que responder a la escala definitiva. Es conveniente partir de una coleccin de 100 a 150 tems para construir una escala de 15 a 30 tems. 2) Se selecciona un grupo de sujetos similar a aqul al que piensa aplicarse la escala. Estos responden, eligiendo en cada tem la alternativa que mejor describa su posicin personal. 3) Las respuestas a cada tem reciben puntuaciones ms altas cuanto ms favorables son a la actitud, dndose a cada sujeto la suma total de las puntuaciones obtenidas. El ejemplo n 2, tomado de una escala para medir la actitud de los adultos hacia la formacin, nos ilustra sobre la elaboracin de los tems: Exprese su posicin respecto a las siguientes afirmaciones: Los conocimientos de la escuela tienen poca aplicacin en la vida cotidiana.
Para estar al da en tu puesto de trabajo, la experiencia profesional es insuficiente.
T.A.= totalmente de acuerdo A.= de acuerdo en ciertos aspectos. I.= indeciso. D.= en desacuerdo en ciertos aspectos. T. D. = totalmente en desacuerdo. En los dos tems reproducidos, la valoracin de las respuestas sera 1, 2, 3, 4, 5, en el primero y 5, 4, 3, 2, 1, en el segundo.
44
MDULO I
EVALUACIN EDUCATIVA
Un individuo que contestara a estos tems en las dos respuestas marcadas con el crculo tendra una puntuacin de 2 puntos en el primer tem y de 1 punto en el segundo, su suma, 3, sera la posicin de este individuo. Si la escala estuviera formada por estos dos tems solamente, la puntuacin de los individuos ira desde 2, actitud ms negativa hacia la formacin, hasta 10, actitud ms positiva. El individuo que obtiene una puntuacin de 3, en principio parece que tiene una actitud baja o en contra del fenmeno que se mide, pero para poder decir esto hay que esperar a compararlo con la puntuacin obtenida en la misma escala, por otros individuos. 4) Para asegurar la precisin de la escala, se seleccionaran el 25 % de los sujetos con puntuacin ms alta y el 25 % con puntuaciones ms baja, y se seleccionan los tems que discriminan a los sujetos de estos dos grupos, es decir, aquellos con mayor diferencia de puntuaciones medias entre ambos grupos. 5) Para asegurar la fiabilidad por consistencia interna, se halla la correlacin entre la puntuacin total y la puntuacin de cada tem para todos los individuos, seleccionndose los tems con coeficiente ms alto. 6) Con los criterios anteriores de precisin y fiabilidad se selecciona el nmero de tems deseado para la escala. Para asegurar la validez del contenido, aproximadamente la mitad de los tems deben expresar posicin favorable y desfavorable la otra mitad. En ciertos casos, para obligar a los individuos a definir su posicin de forma ms clara, se puede suprimir la respuesta "indeciso". El nmero de tems de una escala Likert suele oscilar entre 15 y 30. Inconvenientes y ventajas de la escala de Likert Puede obtenerse una misma puntuacin con diferentes combinaciones de tems, lo que demuestra que la misma puntuacin puede tener significados distintos. (No obstante, la consistencia interna tiende a evitarlo). En cambio, la escala es de fcil construccin y aplicacin. Puede utilizar tems no relacionados manifiestamente con el tema (pero s de forma latente). A pesar de la ausencia de teora justificativa para la "escalabilidad", en la prctica, las puntuaciones del cuestionario Likert proporcionan con frecuencia la base para una primera ordenacin de la gente en la caracterstica que se mide. El problema est en determinar cundo tiene consecuencias para el significado de una misma puntuacin el hecho de poder ser alcanzada por distintos medios y cuando no las tiene.
EJEMPLO DE CONSTRUCCION DE UNA ESCALA LIKERT
45
MDULO I
EVALUACIN EDUCATIVA
1. Definicin conceptual del objeto de actitud. Esta definicin del objeto (concepto o propiedad) que se desea medir aparece en cierto contexto terico problemtico o practico, algunas veces esta definicin no es explicita, es decir no tiene un significado conocido o no es aceptada por consenso. Ejemplo: En una Escala de actitudes hacia la democracia, el objeto "DEMOCRACIA" fue definido del siguiente modo: "sistema de gobierno en el cual todos los ciudadanos son libres e iguales ante la ley y en el que el pueblo ejerce sus derechos ciudadanos gobiernas a travs de representantes elegidos mediante el voto universal masculino y femenino, directo secreto y, adems tiene canales de participacin a travs del referndum, la iniciativa legislativa, la revocacin de autoridades y el rendimiento de cuentas en la toma de decisiones en el mbito poltico, econmico social y cultural" (Ponce y Aliaga, 1999). En una Escala de actitudes hacia el curso de ingles, el objeto "Curso de ingles" fue definido del siguiente modo "Asignatura del idioma ingles que ser explicada durante cierto tiempo, en periodo de estudios en una institucin". 2. Operacionalizacin o Dimensionalizacin. Se determina los aspectos o dimensiones implicadas en la definicin conceptual del objeto. Este paso hace posible el abordaje del objeto, pues este se hace visible. Ejemplo: Si se nos ha encargado describir un televisor trataramos de determinar previamente algunos aspectos o dimensiones de este, tal vez el color, la forma, peso, funcin, de manera que se haga factible una mejor descripcin. Ejemplo: Ponce y Aliaga 1999, utilizando informacin de Morales 1988. Dimensionalizaron la democracia en: a. aceptacin de igualdad. b. Cauce de participacin ciudadana. c. Pluralismo por medio de los partidos polticos. d. Menor corrupcin. e. Rechazo a los sistemas autoritarios y dictaduras. 3. Elaboracin de una tabla de especificaciones. Es conveniente elaborar una tabla que considere los componentes de la actitud (Cognitivo - afectivo - conductual). . a. los componentes de la actitud Cognitivo - afectivo - conductual. b. Las dimensiones (si las hubieras). c. La cantidad relativa de tems que se atribuye a cada categora de dimensin y componente en la prctica, se da mayor importancia relativa al componente afectivo.
46
MDULO I
EVALUACIN EDUCATIVA
Tabla de especificacin para la escalas de actitudes. COGNITIVO Dimensiones AGRADO ANSIEDAD RECHAZO UTILIDAD TOTAL AFECTIVO CONDUCTUAL TOTAL
Los Componentes de las actitudes a. Componente Cognitivo: Ideas y creencias que el individuo tiene sobre el objeto de actitud. La percepcin informacin, idea, creencia pueden ser: i. Favorables ii. Desfavorables b. Componente Afectivo: Afecto que despierta recuerdo emotivo, emociones, sentimientos que movilizan el objeto actitudinal. Corresponde en general al abanico de reacciones emocionales generados hacia el objeto de actitud. Los sentimientos pueden ser: Agradables. Positivos Desagradables. Negativos c. Componente comportamental (Conativo): Son las inclinaciones de conductas, intenciones, compromisos y acciones con respecto al objeto de actitud. (Lameiras, 1997). Las conductas o las intenciones de conducta pueden ser: Apoyo. Hostiles. 4. Elaboracin de los tems Los tems deben ser elaborados teniendo cuenta algunos criterios (EDWAED, 1967). a. Eviten los tems que apunta al pasado en lugar del presente. b. Evitar tems que dan demasiada informacin sobre hechos, o aquellos que pueden ser interpretados como tales. c. Evitar tems ambiguos. d. Evitar tems irrelevantes con respeto a la actitud que quiere medir. lourdesreyna1613@hotmail.com 47
MDULO I
EVALUACIN EDUCATIVA
e. Los tems en la escala deben formularse segn expresen actitudes o juicios favorables o desfavorables con respecto a la actitud. No se trata de elegir tems que expresen distintivos puntos en el continuo. f. Evite tems con los cuales todos o prcticamente nadie concuerden. g. Los tems deben ser formulados en lenguaje simple, claro y directo. h. Solamente en casos excepcionales exceda de las 20 palabras cuando formule los tems. i. Los tems que incluyan palabras como "todos" "siempre" "nadie" etc. Omitirse. j. Un tem debe contener solo una frase lgica. k. Usar palabras que el entrevistado pueda comprender. 1. Combinen los tems formulados positivamente y negativamente de una proporcin aproximada de 50% - 50% 5. Administracin de los reactivos a un grupos de "jueces" . La primera versin de los tems (generalmente entre 30 a 50) se somete a un grupo de "jueces" quienes determinaran la congruencia entre el reactivo y el concepto de la actitud o sus dimensiones. Se entregara a cada juez una definicin especfica y sus dimensiones. El proceso es lgico y racional aunque existen algunos ndices estadsticos para valorar el grado de acuerdo de los jueces respecto a los reactivos. Este paso es opcional pero es conveniente realizarlo para determinar la validez del contenido. 6. Administracin de los tems a una muestra de sujetos. Los tems (30 o 50 generalmente) se distribuyen a una muestra de jueces (entre 50 a 100) seleccionados al azar de la poblacin de Inters. Los jueces respondern a cada uno de los tems segn su opinin. 7. Asignacin de puntajes a los tems segn la direccin positiva o negativa de los tems. Las afirmaciones pueden tener direccin favorable o positiva y desfavorable o negativa. Y esta direccin es importante para saber como se codifica las alternativas de respuesta. a. Afirmacin Positiva: Significa que califica favorablemente al Objeto de actitud, si, los sujetos estn mas de acuerdo con la afirmacin, su actitud es ms favorable, es decir, que estar ms de acuerdo implica una puntuacin mayor. Ejemplo: La Sunat ayuda a los contribuyentes a resolver sus problemas en el pago de impuestos. T.A A I D T.D
b. Afirmacin. Negativa: Significa que si califica desfavorable al objeto de actitud, si los sujetos estn mas de acuerdo con la afirmacin, su actitud esmeros favorable, es decir es
48
MDULO I
EVALUACIN EDUCATIVA
mas desfavorable. Ejemplo: La Sunat se caracteriza por obstaculizar al contribuyente en el pago de impuestos. T.A A I D. TD.
ANEXOS
49
MDULO I
EVALUACIN EDUCATIVA
Lectura Selecta N 1: De la Teora Clsica de los Tests a los Tests Adaptativos Computarizados: Una revisin. Resumen En los ltimos 30 aos, la metodologa y las tcnicas de elaboracin de tests han manifestado un desplazamiento cada vez ms marcado de los sistemas tradicionales de exmenes, fundamentados en la teora clsica de los tests, hacia los sistemas adaptativos de evaluacin. Esta transicin ha sido propiciada por los desarrollos que han tenido lugar en el contexto de la teora de los tests y, en particular, en la teora de respuestas por tem, as como por el desarrollo alcanzado por la tecnologa computacional. El desarrollo de la teora clsica de los tests ha evolucionado de una posicin pragmtica caracterizada por la elaboracin de reactivos y pruebas, cuyo nico requisito era mantener cierta consistencia entre s, hacia una fase en la cual las pruebas cuentan con un mayor sustento en postulados tericos acerca de la personalidad, el aprendizaje, el comportamiento y los principios que regulan la interaccin entre los factores estructurales hereditarios y los factores ambientales. La elaboracin de tests de acuerdo a la teora clsica, conlleva ciertas limitaciones debidas principalmente a la dependencia que hay entre cada reactivo y la prueba de que forma parte, as como la que existe entre cada reactivo y la poblacin utilizada para normar la prueba, lo que limita las posibilidades de predecir el comportamiento ante reactivos especficos. Nuevas aproximaciones, como la teora de respuestas por tem, han sido elaboradas para resolver las limitaciones planteadas por la teora clsica de los tests y han presentado nuevas tcnicas para el desarrollo de estos instrumentos de medida. Uno de los resultados de la teora de respuestas por tem es que al permitir establecer estadsticos para cada reactivo individual y de manera independiente, se proporciona un modelo terico excelente para la elaboracin de tests adaptativos computarizados, caracterizados bsicamente por presentar reactivos diferentes a cada examinado, dependiendo de sus respuestas a los reactivos anteriores. Otra de las herramientas que han sido de considerable valor para los nuevos tests adaptativos computarizados es el desarrollo de los sistemas de cmputo que permiten manejar grandes bases de reactivos de una manera interactiva y con una gran velocidad de proceso.
Introduccin Los ltimos treinta aos han visto un desarrollo acelerado de los sistemas adaptativos de evaluacin aplicados a diversas reas del conocimiento. Sin embargo, esta tecnologa para la evaluacin, no habra sido posible sin la evolucin de varias reas del conocimiento entre las que se encuentran la Teora de Respuesta por tem (Item Response Theory) y la tecnologa computacional que tanto en hardware como en software, ha permitido disponer de herramientas muy rpidas y con una gran capacidad de almacenamiento y recuperacin de informacin. Este trabajo comenta los principales desarrollos
50
MDULO I
EVALUACIN EDUCATIVA
que tuvieron lugar en la Teora Clsica de los Tests, sealando los problema que motivaron la emergencia de una nueva teora: la Teora de Respuestas por Item. Asimismo, relaciona las contribuciones de la Teora de Respuestas por Item y la tecnologa computacional con el desarrollo de los sistemas adaptativos de evaluacin. La Teora Clsica de los Tests. Se denomina Teora Clsica de los Tests (TCT) al conjunto de principios tericos y mtodos cuantitativos derivados de ellos, que fundamentan la construccin, aplicacin, validacin e interpretacin de distintos tipos de tests y que permiten derivar escalas estandarizadas aplicables a una poblacin (Hambleton, 1994). Los principios en que se basa son relativamente simples y se aplican tanto a las pruebas de desempeo, como a las de aptitud. Durante sus diferentes fases de desarrollo, se han elaborado procedimientos de anlisis cuantitativo que han sido de gran utilidad, destacndose en lo general, tres grandes etapas que se identifican por su objeto de inters primordial, as como por los mtodos cuantitativos y tipos de anlisis tericos que utilizan. La primera etapa que Cattell (1986b) denomina itemetra, se caracteriza principalmente por la construccin de pruebas conformadas por reactivos cuyas propiedades estadsticas eran el centro de atencin principal. Los tests se consideraban como el producto de la integracin de un conjunto de reactivos cuyas propiedades estadsticas tenan que ser determinadas antes de que se les incluyera en esa prueba particular. Esto propici que el concepto de confiabilidad adquiriera prominencia como la principal virtud de la escala y se meda a partir de la correlacin entre los reactivos individuales y el instrumento en su conjunto. Si la correlacin eral alta, se deca que los reactivos eran los adecuados. Sin embargo, con frecuencia resultaba que la correlacin no era tan buena, y el resultando era que se obtenan reactivos deficientes y la prueba en su conjunto era de escaso valor. El concepto mismo de confiabilidad implicaba al de error de la medida y tuvieron que desarrollarse procedimientos distintos para determinar la confiabilidad del test de una manera ms precisa. Tal fue el caso de los procedimientos de pruebas paralelas y de divisin por mitades. La itemetra hizo contribuciones valiosas a la psicologa debido al nfasis que puso en el anlisis del error. Entre sus contribuciones se encuentran varios conceptos sobre precisin de la medida, las tcnicas para el tratamiento del error y el uso generalizado del error estndar de la medida como la medida bsica del error (Kaplan & Saccuzzo, 1993). Adems, dio lugar a contribuciones tales como las frmulas de Spearman-Brown (Spearman, 1904), Kuder-Richardson (Kuder & Richardson, 1937), Alfa de Cronbach (Cronbach, 1951) y a varios principios bsicos de escalamiento, as como al uso generalizado de la curva normal, las pruebas de significancia, el uso de las correlaciones mltiples y la frmula de atenuacin, etc. Sin embargo, por lo que respecta a la teora de la personalidad, a decir de Cattell (1986b), "sta viva en
51
MDULO I
EVALUACIN EDUCATIVA
un mundo habitado por tems y apreciaciones subjetivas sobre conceptos tales como extraversin, superego, inteligencia, persistencia, etc."(p. 5) Es decir, la fase de desarrollo de reactivos y su agrupamiento para conformar tests, fue una fase fundamentalmente pragmtica, sin gran sustento en teoras de la personalidad que permitieran relacionar la parte cuantitativa con la conceptual acerca del comportamiento. La siguiente etapa es la que Cattell (1986b) denomina psicometra estructural y se caracteriza por el uso de las nuevas herramientas estadsticas tales como el anlisis factorial con sus variantes tcnicas R-, dR- y P- como un medio para encontrar la "estructura natural" de las habilidades en el contexto de los factores culturales, la dotacin gentica, la personalidad, los rasgos, los motivos dinmicos y las dimensiones que dan lugar a la accin y al comportamiento. Su objetivo primordial no era como tal, aplicar pruebas, sino determinar la relacin que hay entre los conceptos clnicos sobre personalidad, y los fundamentos de la investigacin experimental multivariada (cuantitativa por naturaleza), as como analizar las interacciones dinmicas entre los rasgos y los estados de la personalidad. Los tests se consideraban significativos en la medida que armonizaban con los constructos tericos (Marx, 1963) formulados conceptualmente. Sus mayores logros los obtuvo en los trabajos de Spearman(1927), Thurstone(1938), Horn(1967), Guilford(1956), Eysenck(1959) y otros que contribuyeron a crear una base uniforme y coherente de los procesos psicolgicos, lo cual dio a la teora de la personalidad una nueva imagen: cientfica y con mayor sustento experimental. La construccin de tests verdaderamente estructurados se produjo como resultado de esta etapa, por lo menos en lo que respecta a las fases iniciales de desarrollo de los tests. Un resultado marginal de la convergencia de esta concepcin ms elaborada de los tests y el desarrollo cuantitativo, hasta cierto punto desarticulado, de los procedimientos psicomtricos, fue que las nuevas teoras de la personalidad crecieron en un terreno ya ampliamente abonado por las primeras pruebas y mtodos de escalamiento. La etapa funcional en el desarrollo de los tests es aquella que "trasciende a las aplicaciones inmediatas y simplistas que identificaban a las estadsticas con factores conductuales, y profundiza en las leyes y formulaciones conceptuales del comportamiento: que relaciona rasgos, procesos y estados psicolgicos con las mediciones y estrategias estructurales" (Cattell, 1986b, p 6). Ese tipo de leyes, segn Cattell, se refieren a las relaciones sistemticas y consistentes obtenidas de los estudios empricos sobre el desarrollo, en el conocimiento acerca de los rasgos determinados en forma hereditaria, de los rasgos modificables por las experiencias y el aprendizaje y de la modulacin de los estados psicolgicos producidos por las relaciones psicofisiolgicas. De esta forma, el uso funcional de los tests es slo posible en el psiclogo formado con base en las modernas teoras de la personalidad y del aprendizaje y sustentadas en las tcnicas de medicin y experimentacin (Cattell, 1986a). En otras palabras, la observacin de correlaciones sistemticas, consistentes y
52
MDULO I
EVALUACIN EDUCATIVA
significativas entre las medidas obtenidas en diferentes tests se refiere (fuera de la explicacin trivial de covariacin), no slamente a una variacin concomitante entre medidas, sino a uno o varios posibles factores como el traslapamiento de componentes psicolgicos en el individuo o grupo que est siendo observado, la convergencia de condiciones ambientales que determinan patrones especficos de comportamiento, o la accin de factores genticos estructurales que determinan pautas especficas de comportamiento (Tryon, 1935; y Anastasi, 1970). As, el sustrato de la etapa funcional en el desarrollo de los tests hace referencia a rasgos que por lo regular connotan niveles de organizacin en el comportamiento que se manifiestan a travs de diferentes medidas captadas en los tests psicolgicos. En resumen, el desarrollo de la teora clsica de los tests ha procedido de etapas orientadas en forma pragmtica para desarrollar tests y validar reactivos, (donde a fin de cuentas, los constructos psicolgicos tericos se definan operacionalmente como "aqullo que mide la prueba x"); hacia etapas conceptualmente ms elaboradas en que los tests se derivan de teoras del comportamiento ms articuladas y donde cada reactivo tiene un significado conceptual definido en un contexto terico particular. Limitaciones de la Teora Clsica de los Tests. De acuerdo a la Teora Clsica de los Tests (TCT), la elaboracin de pruebas de desempeo mximo involucra la seleccin de reactivos de acuerdo a su contenido, nivel de dificultad y poder de discriminacin. Los reactivos ms deseables son los que poseen un nivel mayor de discriminacin. El nivel de dificultad por su parte, se ajusta de acuerdo a: 1. El propsito de la prueba, y; 2. El criterio preestablecido para el grupo al cual se aplicar la prueba. Los ndices estadsticos empleados por la TCT no se mantienen constantes cuando se aplican a poblaciones que difieren en habilidad respecto de la poblacin empleada para obtener las normas del test. Por lo tanto, el xito de las tcnicas clsicas de seleccin de reactivos depende de qu tan parecida es la poblacin con la cual se obtuvieron los ndices respecto de la poblacin a la que se pretenden aplicar. Si la diferencia es grande, los ndices obtenidos de los tems no sern apropiados para la poblacin objetivo. En otros trminos, la teora clsica de los tests no puede predecir cmo responder un individuo a los tems a menos que esos tems hayan sido previamente administrados a personas similares (Lord, 1980) Durante el trabajo prctico de elaboracin de tests, regularmente el grupo a partir del cual se obtienen los ndices y el grupo al cual el test va dirigido, difieren considerablemente. Un caso especial en el cual los ndices clsicos de los reactivos se obtienen a partir de grupos que difieren de la poblacin a la que van dirigidos, puede verse al estructurar bancos de reactivos. Al elaborar un banco de reactivos, las caractersticas de los tems que van a ser incluidos en el banco, deben ser determinadas. Los tems con frecuencia denominados "experimentales", se incluyen en un test que es administrado a un grupo de personas de tal manera
53
MDULO I
EVALUACIN EDUCATIVA
que se obtienen como resultado, los ndices de esos reactivos. Por supuesto, no todos los reactivos experimentales sern incluidos en un test particular. Por lo tanto, se crean mltiples formas del test, cada uno de los cuales contiene diferentes reactivos experimentales y las diferentes formas se aplican a grupos distintos de examinados. Dado que generalmente no es posible asegurar que las diferentes formas del examen sean administradas a grupos equivalentes, los ndices de los reactivos experimentales que se aplicaron a grupos distintos no pueden ser equivalentes (Hambleton & Swaminathan, 1985). Por lo tanto, si los reactivos fueron incluidos en el examen bajo el supuesto de que sus ndices eran comparables, entonces cualquier test construido a partir de ese banco de reactivos no podr ser apropiado para ninguna de las poblaciones que pudieran ser seleccionadas en un momento dado. Por otra parte, an cuando un banco de reactivos se encuentre bien conformado, otro problema de la teora clsica de los tests est en la precisin de la medicin. Y es que en la teora clsica de los tests, la contribucin de un tem a la confiabilidad de la prueba no depende de las caractersticas del reactivo solamente, sino que tambin depende de la relacin que hay entre el reactivo en cuestin y los otros reactivos del test. Por lo tanto, no es posible aislar la contribucin de un tem a la confiabilidad de la prueba y por lo consiguiente, tampoco su participacin al error estndar de la medida (Hambleton, Swaminathan, & Rogers, 1991). Finalmente, no obstante que el desarrollo de la teora clsica de los tests lleg, con la etapa funcional de los tests, a un punto en que la conceptualizacin de los resultados de los tests, y consecuentemente su proceso de desarrollo, permitan mediante sofisticados procedimientos estadsticos, sacar a los reactivos de los lmites impuestos por la prueba en su conjunto, la limitacin terica an permaneca y se haca necesario un nuevo marco conceptual para salvarlo. Este nuevo esquema para la conceptualizacin de los reactivos como unidades independientes del test y del grupo utilizado para normarlo, se obtuvo con la teora de respuestas por tem. No obstante, la contribucin principal de este nuevo esquema conceptual no est primordialmente, en el uso de constructos hipotticos o variables interventoras como explicacin del comportamiento; sino ms bien, en hacer referencia a las relaciones consistentes y sistemticas observadas por la investigacin experimental como un sustento sobre el cul fincar la elaboracin de los reactivos y su escalamiento para determinar a qu magnitud del rasgo definido corresponden. La Teora de Respuestas por tem. La literatura sobre tests registra en los ltimos 30 aos un desplazamiento progresivo del esquema proporcionado por la Teora Clsica de los Tests, hacia el contexto y los procedimientos delineados por la Teora de Respuestas por Item (TRI) [Del ingls: Item Response Theory - IRT]. Esta teora, fue desarrollada para resolver varios de los problemas que presentaba la Teora Clsica de los Tests (Hambleton & Swaminathan, 1985) y que no haban sido resueltos de una manera satisfactoria. Algunos de esos problemas son:
54
MDULO I
EVALUACIN EDUCATIVA
(1) El uso de ndices de los reactivos cuyos valores dependen de la poblacin particular de la cul fueron obtenidos, y (2) La estimacin de la habilidad del examinado depende del conjunto especfico de reactivos incluidos en la prueba. Es decir, las caractersticas del examinado y las caractersticas de la prueba no pueden separarse en un instrumento elaborado conforme a los principios de la Teora Clsica de los Tests; y por el contrario, cada uno slo puede ser interpretado en trminos del otro. Las caractersticas del examinado en las cuales la teora TRI est interesada, son la "habilidad" que mide el test. Para la TCT, la nocin de habilidad se expresa por medio del llamado puntaje verdadero que se define como "el valor esperado a partir de la destreza observada en la prueba en cuestin" (Hambleton, Swaminathan, & Rogers, 1991) La habilidad del examinado se define slo en trminos de una prueba especfica. Si el test es "difcil", el examinado parecer tener un nivel bajo de habilidad. Si el test es "fcil", el examinado parecer tener un mayor nivel de habilidad. Y el nivel de dificultad de la prueba se define como "la proporcin de examinados en el grupo de inters, que contest el reactivo correctamente" (Hambleton, et. al. 1991) Por lo tanto, el que un tem sea difcil o fcil depende de la habilidad de los examinados a quienes se aplic la prueba y a su vez, la habilidad de los examinados depende del nivel de dificultad de la prueba. De la misma forma, el nivel de discriminacin de los reactivos y los coeficientes de validez y confiabilidad de la prueba se definen tambin en base a las caractersticas del grupo particular de examinados. As, las caractersticas del test y de los reactivos cambian a medida que cambia el contexto de la prueba. Por lo tanto, es muy difcil comparar examinados a quienes se aplican diferentes tests; o an, comparar tems cuyas caractersticas se obtuvieron utilizando diferentes grupos de examinados. Esto significa que los coeficientes de los reactivos son dependientes del grupo al mismo tiempo que son dependientes del test. Esta clase de dependencia es la que se trata de eliminar mediante la TRI. Aunque se reconoce que tal dependencia no es imposible de romper mediante la TCT mediante el uso de tcnicas sofisticadas de anlisis estadstico (Cattell, 1986b), el problema conceptual an se mantiene. Otro problema de la TCT es que es centrada-en-el-test, ms que centrada-enel-reactivo. No se toma en consideracin cmo responde el exminado a un reactivo dado, y por lo tanto, no se tienen bases para determinar qu tan bien podra desempearse un examinado particular ante un reactivo individual. Es decir, la teora clsica de los tests no permite hacer predicciones acerca de cmo se comportar un individuo o grupo particular ante un reactivo dado. Esta
55
MDULO I
EVALUACIN EDUCATIVA
posibilidad de prediccin es importante en una gran variedad de situaciones como por ejemplo, cuando se intenta predecir el comportamiento de un profesional ante diferentes tipos de situaciones prcticas. De acuerdo a Hambleton, et. al., (1991), las principales caractersticas de la TRI como una alternativa a la teora clsica de los tests son: 1. Las caractersticas de los reactivos no dependen del grupo del cul fueron obtenidas; 2. Los puntajes que describen la habilidad del examinado no dependen del test en su conjunto; 3. El modelo se expresa al nivel del reactivo ms que al nivel del test; 4. El modelo no requiere de pruebas paralelas para determinar el ndice de confiabilidad; y 5. Provee una medida de la precisin de cada ndice de habilidad. Algunas otras ventajas de la TRI explican su popularidad, siendo la ms importante para fines prcticos, que los examinados no necesitan contestar el mismo conjunto de tems a fin de ser comparados con una misma escala (Ozen & Reise, 1994) Los dos principios bsicos que de acuerdo con Hambleton, et. al., (1991), sustentan a la TRI, son: "(1) La ejecucin de un examinado en una prueba pueden ser predichos por un conjunto de rasgos, rasgos latentes y habilidades; y (2) la relacin entre las respuestas de los examinados a los reactivos y el conjunto de rasgos que subyacen a la respuesta ante el reactivo, pueden describirse por una funcin monotnicamente incrementada llamada funcin caracterstica del reactivo o curva caracterstica del tem (CCI). Esta funcin especifica que a medida que el nivel del razgo incrementa, tambin incrementa la probabilidad de una respuesta correcta ante ese reactivo." (p.7) De acuerdo a los modelos matemticos utilizados por la TRI, la probabilidad de que un examinado responda correctamente ante un tem dado, depende de la habilidad del examinado y de las caractersticas del reactivo. Los modelos TRI incluyen supuestos acerca de los datos a los que se puede aplicar el modelo, an cuando la viabilidad de los supuestos no puede determinarse directamente. Evidencias adicionales deben ser reunidas y evaluadas. El ajuste global del modelo a los datos de la prueba puede por supuesto, ser tambin evaluados. Son supuestos de la TRI: 1. Slo puede medirse una habilidad por el reactivo que forma parte del examen; este es el supuesto de la unidimensionalidad; y, 2. La funcin caracterstica del reactivo refleja la relacin real que hay entre las
56
MDULO I
EVALUACIN EDUCATIVA
variables no observables (habilidades) y las variables observables (las respuestas a los reactivos; Hambleton, et. al., 1991) Si se construye una prueba a partir de la TRI, la dificultad de los reactivos y la habilidad del examinado se miden en la misma escala, haciendo posible seleccionar reactivos que son ms tiles en ciertos puntos de la escala de habilidades. Por ejemplo, si se desea determinar el punto de inflexin que separa a profesionales certificados de los profesionales no certificados, la TRI permite seleccionar reactivos para producir una prueba que tenga el nivel deseado de precisin para medir cualquier nivel de habilidad (Hambleton, et. al., 1991) Para construir una prueba de acuerdo a los principios de la TRI, es necesario construir un banco de reactivos con parmetros estimados para cada tem, de acuerdo al modelo seleccionado. El procedimiento recomendado por Lord (1977) consiste de los siguientes cuatro pasos: "1. Decidir acerca de la forma deseada de la funcin de informacin de la prueba o curva de informacin deseada (target information curve). 2. Seleccionar los reactivos del banco cuya curva de informacin deseada cae bajo el rea de la curva de informacin de la prueba, de tal manera que saturen el rea bajo la curva de la funcin deseada de la prueba. 3. Conforme se adicionan reactivos a la prueba, se recalcula la curva de informacin de la prueba con los reactivos seleccionados hasta ese momento. 4. Continuar la seleccin de los reactivos hasta que la funcin de informacin de la prueba se aproxime a la funcin de informacin deseada con un grado satisfactorio." (p. 23) Sin embargo, la TRI no se encuentra libre de problemas y su aplicacin contiene ciertos puntos riesgosos debido a que el uso de criterios estadsticos para la seleccin de los reactivos no asegura una prueba con contenidos completamente vlidos. Deficiencias en los procedimientos de seleccin de los contenidos pueden generar una prueba con un bajo nivel de validez de contenido (Hambleton, et. al., 1991). Otro problema de la TRI es que cuando se utilizan funciones de informacin de los reactivos durante el desarrollo de una prueba, es probable que los valores sean sobrevalorados y por lo tanto, la funcin de informacin podra sesgarse. Una prueba construda con tems de valores elevados puede ser que no corresponda a los de la prueba esperada. Como consecuencia, la funcin de informacin de la prueba ser sobrevalorada y por lo tanto, habr que aadir varios reactivos adicionales para compensar esta sobrevaloracin. Otra solucin podra ser emplear muestras ms grandes, de forma que se realice una estimacin ms adecuada de los parmetros de los reactivos (Hambleton, et. al., 1991).
57
MDULO I
EVALUACIN EDUCATIVA
En resumen, la TRI es una teora dirigida a establecer situaciones que permiten predecir el comportamiento del examinado ante tems particulares de un test, o ante test completos, con base en un rasgo o patrn de comportamiento. Los dos postulados bsicos son: que la ejecucin del examinado ante el test es parte de una sola habilidad o rasgo y que la relacin entre estos dos se manifiesta conforme a una funcin monotnicamente incrementada llamada funcin caracterstica del tem (o funcin de la respuesta). La TRI es consistente con la teora de las habilidades latentes que postula que los individuos varan en el rasgo o habilidad que mide el test y que stos se distribuyen en un contnuo que va de bajo a alto. La probabilidad de responder un tem correctamente vara con la habilidad y es baja si el nivel de habilidad es bajo y alto para niveles altos de habilidad. Esto se visualiza mediante la curva caracterstica de tem, la cual es diferente para cada reactivo y para el test en su conjunto. Los modelos de respuesta por tem tienen mltiples aplicaciones en pruebas de amplia aplicacin en los Estados Unidos de Norteamrica como son el Scolastic Assessment Test (SAT) y el General Educational Development (GED). Muchas empresas e instituciones utilizan los modelos de respuesta por tem en el desarrollo de sus tests, tales como Educational Testing Service (ETS), The Psychological Corporation, CTB/McGraw-Hill y otros importantes desarrolladores de pruebas. El Desarrollo de la Tecnologa de Computadoras. Varios eventos relacionados con la tecnologa computacional han sido significativos para permitir el desarrollo masivo de los sistemas adaptativos de evaluacin que pertenecen a la categora de exmenes hechos a la medida en virtud de que se adaptan a la capacidad de cada examinado. El primero de ellos es indudablemente el desarrollo que a partir de 1970 han tenido las computadoras personales, permitiendo cada vez ms una alta velocidad de proceso y una capacidad de almacenamiento muy por encima de lo que hubiera podido pensar en ese ao. Otro evento significativo es la fabricacin de software cada vez ms potente cuyo inicio se marc indudablemente, por una parte, con el desarrollo del sistema operativo MS-DOS (2), y por otra, por el sistema D-Base II (3), ambos para computadoras personales. Antes de estos dos desarrollos, tanto los sistemas operativos como las bases de datos operaban slo en computadoras de las llamadas mainframes y requeran de una capacidad de memoria y dispositivos de almacenamiento muy superiores a lo que las computadoras de aquellos tiempos podan razonablemente manejar. La principal ventaja que se obtuvo con el desarrollo de los modernos sistemas operativos fue la interactividad entre el usuario y la computadora, mientras que con las bases de datos, fue la posibilidad de almacenar y recuperar grandes cantidades de informacin por medio de procedimientos bastante simples. Ambos elementos con la capacidad para almacenarse en pequeas computadoras que se encuentran al alcance de cualquier usuario individual.
58
MDULO I
EVALUACIN EDUCATIVA
Recientemente, las bases de datos creadas con una filosofa orientada a objetos facilita el desarrollo de sistemas inteligentes de evaluacin que no slo permiten almacenar y recuperar informacin de una manera flexible, sino que adems, pueden programarse fcilmente de manera que pueden tomar decisiones en base a las respuestas de los usuarios y tomar la forma de sistemas inteligentes o sistemas expertos. Esto se debe a que la filosofa orientada a objetos permite replicar en el ambiente simblico del lenguaje de la computadora, las relaciones que se observan en los objetos en el ambiente natural de trabajo de una manera ms fiel de lo que suceda con los sistemas anteriores de programacin. De hecho, crear un sistema de cmputo implica crear en la computadora, una imagen de una parte del ambiente real al que ese sistema pretende aplicarse. Lo que sucede con los lenguajes orientados a objetos es que es posible crear en la computadora, entidades simblicas a las que se les asignan propiedades semejantes a las observadas en la realidad. Y tambin es posible hacer que esas entidades u objetos se comuniquen entre s conforme a las propiedades o reglas de interaccin que han sido definidas. As, algunas funciones humanas como el razonamiento deductivo observado en el silogismo y algunas otras operaciones lgicas, pueden reproducirse en el ambiente simblico de la computadora. En el caso de los sistemas adaptativos de evaluacin, se han identificado las funciones que una base de datos debe poseer para permitir una ptima utilizacin del sistema. En este caso, la base de datos se conforma en una buena parte por una base de reactivos, cada uno de los cuales es una entidad o registro que posee ciertos atributos. Los parmetros estadsticos bsicos del reactivo son los atributos del registro y cada vez que el reactivo es extrado de la base de reactivos y contestado por un examinado, se actualizan estos parmetros. Los bancos de reactivos fueron explorados por primera vez a fines de los sesenta y principios de los setenta en la Gran Bretaa, pero por lo general, terminaron en fracasos debido a las enormes cantidades de papel y recursos administrativos y de organizacin que se requeran (Hambleton, 1986). La segunda generacin surgi a mediados de los ochenta cuando las computadoras fueron capaces de almacenar, recuperar y evaluar los reactivos de una prueba. Con un banco de reactivos adecuadamente desarrollado y los reactivos convenientemente valorados, la construccin de las pruebas se convierte en el siguiente paso inevitable. De acuerdo con Hambleton (1986), las caractersticas deseables de un banco de reactivos computarizados son las siguientes: 1. Debe proporcionar mecanismos que permitan el fcil acceso a los reactivos as como a la informacin estadstica sobre su uso, representatividad y dificultad asociada con ellos.
59
MDULO I
EVALUACIN EDUCATIVA
2. Debe contener un conjunto de objetivos a los que sirve cada reactivo, as como un esquema adecuado para clasificar esos objetivos. 3. Debe contener algortmos rpidos de bsqueda y recuperacin de los reactivos que se usarn para aplicar las pruebas. 4. Debe poseer algortmos automatizados para configurar los exmenes. 5. Debe disponer de mecanismos interactivos de presentacin de los reactivos. 6. Debe contar con rutinas adecuadas para realizar el anlisis de los reactivos y el almacenamiento de los datos asociados con los tems del examen.
Los bancos de reactivos se hacen ms refinados a medida que los exmenes van siendo aplicados y conforme las estadsticas de los reactivos se van acumulando al evaluarse los reactivos. Esta propiedad de retroalimentacin es una caracterstica muy poderosa de los bancos de reactivos (Linden, 1986), puesto que cada vez que ese reactivo es administrado, se actualizan los atributos correspondientes de ese registro en la base. As, los tems que no identifican la habilidad que con ellos se pretende medir, se modifican o se desechan definitivamente.
Los Sistemas Adaptativos de Evaluacin Las pruebas adaptativas se aplicaron por primera vez a la medicin de diferencias individuales por Binet y Simon (DuBois, 1970) en lo que ms tarde vendra a ser conocido como las pruebas de inteligencia de Binet. En general, durante el proceso de administracin de la prueba, los tests adaptativos involucran la seleccin de un conjunto de items para cada examinado, que miden de una mejor manera algna caracterstica psicolgica de la persona. Binet operacionaliz el proceso adaptativo con un examinador experto. En el test de Binet, el examinador haca primero una estimacin del nivel de habilidad de un individuo para determinar un nivel de edad con el cual comenzar el test. Cada pregunta se calificaba a medida que era contestada y el examinador decida si el siguiente bloque de preguntas deberan ser ms fciles o ms difciles. Este proceso se repeta hasta que se obtena un efecto de tope y el nivel basal se haba establecido. Esos dos niveles, la edad mental en la cual el examinado contesta todos los reactivos incorrectamente y todos los tems correctamente, definen el rango de medicin adecuada para ese individuo. Los reactivos por debajo del nivel basal son demasiado fciles para el examinado y, por lo tanto, no se administran. Los tems por arriba del efecto de tope son demasiado difciles para el examinado y por lo tanto, tampoco se administran. Ninguno de esos dos conjuntos de reactivos proporciona informacin valiosa respecto de ese individuo y en realidad, son los tems que se encuentran entre
60
MDULO I
EVALUACIN EDUCATIVA
el nivel basal y el nivel de tope, los que proporcionan informacin til acerca del individuo en cuestin. Los exmenes adaptativos computarizados son una forma especial de los "tests a la medida" que involucran la seleccin de reactivos mientras el test est siendo administrado, y los reactivos administrados a cada individuo se escogen de acuerdo al nivel de dificultad que requiere el examinado (Weiss, 1983). La aplicacin de un exmen adaptativo se inicia con la aplicacin de un reactivo determinado por el examinador y los siguientes reactivos se determinan a partir de las respuestas del examinado a los reactivos anteriores. Los tests adaptativos no son como los tradicionales que aplicaban un conjunto fijo de reactivos a un grupo de examinados, sino ms bien, son exmenes individualizados para cada examinado. Los reactivos que se aplican a cada examinado se seleccionan del banco de reactivos dependiendo de la precisin con que respondi a las preguntas anteriores (ERIC, 1983). Cada reactivo de la base de tems est asociado con un nivel de dificultad, y por lo tanto, mientras el examinado responde correctamente, los siguientes reactivos que se presentan son de una dificultad mayor. Por el contrario, si responde en forma incorrecta, los siguientes reactivos son de menor dificultad. Entre las ventajas que presenta el uso de exmenes adaptativos est el que los resultados pueden proporcionarse inmediatamente despus del examen y que no hay problemas de seguridad de los exmenes dado que cada examen es diferente. Tambin est el hecho de que la estandarizacin de las condiciones de aplicacin del examen mejoran debido, principalmente, a la aplicacin computarizada. Entre las ventajas econmicas est el que no se necesita de personal especializado para la aplicacin de las pruebas (Martois, 1983) Entre las limitaciones para el uso de los exmenes adaptativos est el que se requiere de una gran capacidad de almacenamiento en grandes bancos de reactivos a fn de asegurar buenos resultados. Los resultados de los exmenes adaptativos dependen, adems, de la precisin con que han sido evaluados los reactivos que los conforman (ERIC, 1983). Es tambin importante contar con una base de reactivos suficientemente grande y correctamente cotejados con la distribucin de las habilidades que estn siendo evaluadas (Green, Bock, Linn, Lord y Reckase, 1985). Por lo tanto, se requiere de una base de reactivos considerablemente grande y adecuadamente dimensionada respecto de un nivel amplio del rasgo que est siendo medido. Una limitacin importante del uso de los tests adaptativos computarizados (TAC), se relaciona con el supuesto de la unidimensionalidad. Las pruebas adaptativas que se sustentan en la TRI requieren que se mida un slo rasgo y que la cuantificacin se d en torno a una sola dimensin, de lo contrario, la aplicacin podra ser cuestionable (Laurier, 1990). Otra limitacin radica en lo que en las pruebas de lpiz y papel se denomina
61
MDULO I
EVALUACIN EDUCATIVA
"omisin" y que se refiere al hecho de que la pregunta no es contestada. En el caso de los TAC, la prueba no puede continuar mientras no se seleccione una opcin. Por lo tanto, no hay nada previsto para las no respuestas (Wainer, 1993). Tampoco hay posibilidades de cambiar una respuesta una vez que sta se ha contestado, pues de inmediato aparece otro reactivo en la pantalla. Conclusiones La Teora Clsica de los Tests (CTT) ha mostrado diferentes grados de sofisticacin que han ido desde una fse prctica, caracterizada por la elaboracin de tems y tests sin otro fn que obtener relaciones consistentes entre las partes y los tests en su conjunto; hasta la fase, conocida como estructural, en la cual la elaboracin de tests se da a partir de los resultados de la investigacin empirica y conceptual obtenida de los diferentes campos de la psicologa, propiciando el desarrollo de test con un sustento terico y experimental ms slido. Han existido sin embargo, problemas conceptuales de la TCT que limitaban su aplicacin a condiciones especficas, tales como la dependencia que hay entre cada tem particular y la prueba de que forma parte, as como la que existe entre cada tem y la poblacin empleada para normalizar la prueba. Estas limitaciones entre otras, dieron lugar a la formulacin de la Teora de Respuestas por tems (TRI), cuyos procedimientos psicomtricos y conceptualizacines tericas permitieron superar estos problemas. Debido a que en un examen adaptativo cada examinado responde a un conjunto de reactivos particular que es diferente al que responden los otros examinados, un modelo que permite determinar los parmetros estadsticos de cada tem en forma independiente del test del que forma parte resulta ser el medio ms adecuado de anlisis, y esto es lo que se obtiene mediante el uso de la TRI. Por esta razn, ambos modelos conceptuales son complementarios. Por otra parte, aunque el concepto de tests adaptativos no es nuevo, sus posibilidades de implementacin se han visto renovadas a raz del desarrollo de la tecnologa computarizada que se populariza durante los 80's. Esta es otra razn importante por la cul es de esperarse que los tests adaptativos computarizados tengan ahora un desarrollo sin precedentes y se conviertan en la forma rutinaria de evaluacin a partir de los 90's. Finalmente, el uso generalizado de los tests adaptativos en educacin debe verse acompaado del desarrollo de sistemas computarizados que no slo permitan su aplicacin, sino tambin, contengan algoritmos de calificacin y actualizacin de los estadsticos bsicos de los reactivos conforme a los ltimos desarrollos en la teora de los tests y especficamente, de la teora de respuestas por tem.
62
MDULO I
EVALUACIN EDUCATIVA
Referencias. Anastasi, A. (1970). On the formation of psychological traits. American Psychologist, 25, 899-910. Cattell, R. B. (1986,a). Scales and the Meaning of Standardized Scores. In R. B. Cattell, and R. C. Johnson, (Eds). Functional Psychological Testing: Principles and Instruments. New York: Brunner/Mazel, Publishers. Cattell, R. B. (1986b). Structural Tests and Functional Diagnoses. In R. B. Cattell, and R. C. Johnson, (Eds). Functional Psychological Testing: Principles and Instruments. New York: Brunner/Mazel, Publishers. Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometryca, 16, 297-334. ERIC Clearinghouse on Tests, Measurement, and Evaluation. (1983). Computerized adaptive testing: ERIC Digest. Princeton, N.J.: ERIC Document Reproduction Service. DuBois, P. H. (1970). A history of psychological testing. Boston: Allyn and Bacon. Eysenck, H. J. (1959). Intelligence assessment: A theoretical and experimental approach. British Journal of Educational Psychology, 37, 81-98. Green, B. R., Bock, R. D., Linn, R. L., Lord, F. M. y Reckase, M. D. (1985). A plan for scaling the computerized adaptive Armed Services Vocational Aptitude Battery (ASVAB). San Diego, CA: Navy Personnel Research and Development Center, Manpower and Personnel Laboratory. Guilford, J. P. The structure of the intellect. Psychological Bulletin, (1956), 53, 267-293. Hambleton, R. K., & Swaminathan, H. (1985). Item response theory: Principles and applications. Boston, MA: Kluwer-Nijhoff Publishing. Hambleton, R. K. (1986). The changing conception of measurement: A commentary. Applied Psychological Measurement, 10 (4), 415-421. Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of Item Response Theory. (Vol-2). Newbury Park, CA: Sage. Hambleton, R. K. (1993). Principles and selected applications of Item Response Theory. In Linn, R. L. (Ed.) Educational Measurement. Phoenix, AZ: Oryx. Horn, J. L. (1967). Intelligence: Why it grows, why it declines. Trans-Action, November, 23-31.
63
MDULO I
EVALUACIN EDUCATIVA
Kapan, R. M. & Saccuzzo, D. P. Psychological testing: Principles, applications and issues. Pacific Grove, CA: Brooks-Cole. Kuder, G. F. & Richardson, M. W. (1937). The theory of the estimation of reliability. Psychometryca, 2, 151-160. Laurier, M. (1990, April). What we can do with computerized adapting testing... and what we cannot do. Paper presented at the Annual Meeting of the Regional Language Center Seminar, Singapore. Linder, van der, W. J. (1986). The changing conception of measurement in education and psychology. Applied Psychological Measurement, 10, 325-332. Lord, F. M. (1977). Practical applications of item characteristic curve theory. Journal of Educational Measurement, 14, 117-138. Lord, F. M. (1980). Application of Item Response Theory to practical testing problems. Hillsdale, N.J: Lawrence Erlbaum Associates. Marx, M. H. (1953). The General Nature of Theory Construction. In M. H. Marx (Ed.) Theories in Contemporary Psychology. New York: MacMillan, 1963. Martois, J. S. (1983). What is computer adaptive testing? Unpublished manuscript. Ozen, D. J., & Reise, S. P. (1994). Personality assessment. In L. W. Porter & M. R. Rosenzweig, Annual Review of Psychology. Palo Alto: Annual Reviews. Spearman, C. E. (1904). The proof and measurement of association between two things. American Journal of Psychology, 15, 201,-293. Spearman, C. E. (1927). The abilities of man. New York: Macmillan. Thurstone, L. L. (1938). Primary mental abilities. Psychometric Monographs, 1. Tryon, R. C. (1935). A theory of psychological components -an alternative to "mathematical factors." Psychological Review, 42, 425-454. Wainer, H. (1993). Some practical considerations when converting a linearly administered test to an adaptive format. Educational Measurement: Issues and practice, 12 (1), 15-20. Weiss, D. J. (1983). Introduction: Latent trait theory. In D. J. Weiss (Ed.) New Horizons in testing: Latent trait theory and computer adaptive testing (pp. 1-8). New York: Academic Press.
64
MDULO I
EVALUACIN EDUCATIVA
Weiss, D. J. and Vale, C. D. (1987). Computerized Adaptive Testing for Measuring Abilities and other Psychological Variables. In Butcher, J. N. (Ed). Computerized Psychological Assessment. New York: Basic Books.)
65
MDULO I
EVALUACIN EDUCATIVA
Anexo 1 UNA APLICACION AL ESTUDIO DE ACTITUDES HACIA LA MATEMATICA EN LA UNALM RESUMEN El propsito de este estudio es reportar los resultados del estudio psicomtrico de la escala de actitudes hacia la matemtica EAHM-U desarrollada por Bazn (1997) aplicada a ingresantes de la UNALM y discutir si existen diferencias en esa actitud considerando la edad, sexo y especialidad de ingreso. La EAHM-U es una escala tipo Lickert de 31 temes dividida en cuatro dimensiones:Afectividad, Aplicabilidad, Habilidad y Ansiedad. Del anlisis psicomtrico ejecutado se ha obtenido una escala confiable, vlida y que permite obtener diferencias por dimensiones y la escala segn la edad del ingresante a la UNALM en tres grupos: 16 aos, de 17 a 19, y mayores de 20 aos. En el estudio de la diferenciabilidad no existe distincin por sexo en la actitud hacia la matemtica en la escala y en sus dimensiones. Slo hay diferencias en la actitud hacia la matemtica para la dimensin de Aplicabilidad por especialidad y diferencias en la escala y en sus dimensiones de Afectividad y Habilidad por edad. INTRODUCCIN Un aporte importante de la Psicologa es sin duda los denominados Test. Estos se clasifican en formas diversas considerando su contenido, formato y caractersticas, sea en el diseo, construccin, anlisis estadstico y aplicacin. Un grupo de estos son las Escalas de Actitud, los cuales pretenden medir las aproximaciones o tendencias que tenemos las personas hacia un determinado objeto sea concreto o abstracto, animado o no, y que se valoran en trminos positivos (aproximacin) o negativos (rechazo). En la Universidad Nacional Agraria La Molina, estudios que reflejan una verdadera preocupacin de los docentes del Departamento de Matemtica, han postulado diversas variables explicatorias para el deficiente rendimiento alcanzado por los ingresantes en el curso de Matemtica I (porcentaje de desaprobados superior al 60 % en los ltimos semestres). Estas variables son exgenas a la universidad, como pueden ser: rendimiento escolar, ingresos econmicos, instruccin de los padres, tipo de colegio de procedencia, rendimiento en el examen de admisin, etc. o endgenas como pueden ser: valoracin de los profesores en trminos de diversos criterios, de los exmenes, de los contenidos del curso, de las evaluaciones, etc. (vase informes de investigacin financiados por el Fondo de Desarrollo Universitario). Estas aproximaciones se asientan en juicios y autoreflexiones tanto de los docentes en el primer caso como de los alumnos en el segundo. Nosotros slo vamos enfatizar un aspecto hasta ahora no apreciado, el de las variables internas, denotando con esto un conjunto de variables psicolgicas que
66
MDULO I
EVALUACIN EDUCATIVA
presentan los alumnos, que traen consigo a la universidad y que pueden afectar su rendimiento. Dentro de ellas se quiere enfatizar esta vez en las Actitudes y en particular las actitudes hacia la matemtica que traen los ingresantes. Es decir independientemente o antes que el profesor con mota y tiza en la pizarra d su clase de Matemtica I, viene, el alumno, predispuesto a rechazar al curso?. Dicha predisposicin vara con la edad, sexo o especialidad de ingreso?. Por tanto el propsito de este estudio es reflexionar sobre la aplicacin de la escala desarrollada por Bazn (1997), EAHM-U de actitudes hacia la matemtica, en ingresantes a la UNALM, y diferenciando sus resultados considerando la edad, sexo y especialidad de ingreso. REVISION DE LITERATURA En lo que respecta a nuestro medio, Yi Yi (1989), realiz un estudio de Actitudes hacia las Matemticas en una muestra de alumnos de sexto grado de primaria y quinto ao de secundaria del distrito de Jess Mara. Precis los niveles de actitud con respecto a variables como el sexo del profesor, el nivel de ayuda de padres y asesores, el tipo de colegio, entre otras. Asimismo us un estudio de validez de contenido usando jueces psiclogos para evaluar la pertinencia de los temes de la escala elaborada por ella en base a la revisin de la literatura pertinente. La versin final de su prueba comprende 32 temes. Bazn (1997) present el Modelo Psicomtrico de la Teora Clsica de los Test (MPTCT) para medidas paralelas en un nivel de intervalo con composicin lineal y aditiva; desarroll una Metodologa estadstica de construccin de pruebas (MECP) estudiando la validez, confiabilidad y diferenciabilidad de la prueba as como tcnicas para el anlisis estadstico de temes; y present la construccin de una Escala de Actitudes hacia la matemtica y su aplicacin en ingresantes a la UNALM. En dicho estudio el nfasis es metodolgico, parte de los resultados de la metodologa sobre el estudio psicomtrico de la EAHM-U y los resultados de la aplicacin sobre el estudio de la diferenciabilidad de la EAHM-U se presentan aqu, con nfasis en la discusin de los resultados de la aplicacin. Definicin de conceptos Tericamente, los componentes de toda actitud son: cognitivo, que est constitudo por los pensamientos, ideas, que tiene la persona sobre el objeto de la actitud, se incluye los conocimientos, las creencias, las opiniones y los prejuicios concernientes al objeto de la actitud; afectivo, que consiste en todos los afectos y emociones de la persona hacia el objeto social especficamente en tminos de las evaluaciones positivas y negativas; comportamental, que incluye la predisposicin de la persona a responder a la tendencia a comportarse con respecto al objeto. Se define la actitud hacia la matemtica como el fenmeno que involucra sentimientos (componente afectivo), creencias (componente cognitivo) y las tendencias de los alumnos a actuar de manera particular, acercndose o alejndose del objeto matemtica (componente comportamental).
67
MDULO I
EVALUACIN EDUCATIVA
En dicha actitud se hallan contenidos varios aspectos que definen dimensiones tales como: dimensin afectividad (I), que refleja el agrado o desagrado hacia el curso de matemtica, dimensin aplicabilidad (II), que refleja la valoracin al curso de matemtica. dimensin habilidad (III), que refleja la confianza en la propia habilidad matemtica y dimensin ansiedad (IV) que refleja las reacciones comportamentales de ansiedad frente al curso. Se postula que dichas dimensiones son aditivas y forman la actitud hacia la matemtica general (EAHM-U) MATERIALES Y MTODOS Procedimiento Estudio psicomtrico de la EAHM-U Se realiz un estudio psicomtrico de la EAHM-U en las diversas etapas de la metodologa de construccin de pruebas (Bazn, 1997), calculando los indicadores de validez por criterio de jueces, el anlisis de temes, la confiabilidad por alfa de Cronbach y la validez de contructo. Vase Anastasi (1968), Nunnally (1973, 1987) para una revisin de aspectos de la metodologa y a Bazn (1997) para el detalle metodolgico en la construccin de esta escala. Inicialmente se realiz un estudio de validez por criterio de jueces. Este, tiene el propsito de recoger el criterio de juez de los profesores titulares del curso de Matemtica I del Departamento de Matemtica, tanto antiguos y recientes con amplia experiencia. El criterio de juez consiste en valorar la pertinencia de un tem a determinada dimensin de la escala y se basa en la definicin de la dimensin y de la actitud hacia la matemtica en general. Posteriormente se realiz un anlisis estadstico de itemes. Este es una etapa de la metodologa de construccin de pruebas, consistente en criterios y tcnicas para la eliminacin de itemes, precede siempre a la estimacin de los parmetros de una prueba pues estos se obtienen con una versin denominada Prueba Final o Versin Final de la escala. El anlisis estadstico de temes permite un anlisis psicomtrico preliminar pues elimina temes que contribuyen poco a la bondad de los parmetros de la escala: tanto en la validez de constructo como en la confiabilidad. Este proceso puede obtenerse adecuadamente a partir del mdulo de confiabilidad del SPSS, especialmente con las estadsticas de tem y de la escala, as como de la escala si el tem es eliminado; covarianzas y correlaciones intertem, y sumarios de medias, varianzas, covarianzas y correlaciones, y especialmente el clculo del alfa de Cronbach como estimador de la consistencia interna de los temes. Sin embargo tambin interviene la pericia y criterio del investigador a fin de decidir que temes sern eliminados. Con la versin final de la escala se realiz el estudio de la confiabilidad. El ndice calculado es el alfa de cronbach para los temes dentro de las dimensiones de la escala as como de la escala general. Finalmente se realiz un estudio de la validez de constructo o de Construccin, relevante en
68
MDULO I
EVALUACIN EDUCATIVA
situaciones cuando no existe un criterio o universo de contenido aceptado, pero el investigador desea, a partir del puntaje en la escala, hacer inferencias acerca de desempeos que pueden ser agrupados bajo la etiqueta de un particular constructo psicolgico. Se realiza a travs las correlaciones que existen entre las diferentes dimensiones de la escala. Se ejecuta en la etapa final del estudio de la validez con la versin final de la escala, as como la correlacin entre dimensiones y con la escala general. Esta correlacin es tanto esprea (no se aisla el efecto de autocorrelacin cuando se correlaciona una parte con el todo) como corregida (cuando se asla la autocorrelacin). Estudio de la diferenciabilidad de la EAHM-U Se realiz un estudio de diferenciabilidad de la EAHM-U, evaluando estadsticamente, mediante la prueba no paramtrica del test de medianas, las diferencias en actitud hacia la matemtica general y por dimensiones de acuerdo a sexo, edad, y especialidad de ingreso. Vase Siegel (1980). Los anlisis estadsticos fueron procesados a travs del software estadstico SPSS versin 6.1 para windows. Obtencin de la muestra y recoleccin de los datos. Para la obtencin de la muestra no existi un diseo muestral estadstico debido a que el propsito era evaluar a toda la poblacin. En la segunda semana de clases, se aplic la EAHM-U, simultneamente en las seis aulas de ingresantes durante el horario del curso de Matemtica I, para ello se cont con la colaboracin de seis estudiantes de Psicologa del quinto ao instruidos convenientemente y con la presencia del profesor de aula respectivo. La poblacin de inters son los ingresantes a la UNALM. En el semestre 95- I, ingresaron 315, que de acuerdo a la modalidad de ingreso se distribuan de la siguiente manera: Tabla 1: Distribucin de ingresantes a la UNALM en el semestre 95-I segn modalidades Modalidades Nmero Examen de Admisin Centro Preuniversitario Primeros puestos Traslado de matrcula Becarios por Convenio 203 82 28 1 1
La muestra corresponde a un muestreo no probabilstico intencional y accidental y est conformada por 256 estudiantes el equivalente a
69
MDULO I
EVALUACIN EDUCATIVA
aproximadamente 81.26 % de la poblacin de ingresantes que se depuraron de 282 que contestaron la escala (16 pruebas fueron eliminadas por contener datos faltantes). A continuacin se presenta dos tablas. En la Tabla 2 se observa que el mayor porcentaje de evaluados corresponde a Economa y el menor a Metereologa que se corresponden por el nmero de sus ingresantes. Por el contrario considerando la cobertura lograda, definida como el % de la poblacin de ingresantes cubierto, se evalu a todos los ingresantes a Biologa y slo a un 69.69 % de los ingresantes a Ingeniera Agrcola. Tabla 2: Distribucin y cobertura de individuos en la muestra por especialidad Especialidad Agronoma Agrcola Biologa Economa Estadstica Forestales I. Alimentarias Metereologa Pesquera Zootecnia Total Casos 34 23 18 38 20 24 29 16 28 26 256 % 13.3 9.0 7.4 14.8 7.8 9.4 11.3 6.3 10.9 10.2 100 Cobertura 77.27 69.69 100 88.37 76.92 82.28 82.85 72.72 84.84 82.25 81.26
Tabla 3: Distribucin de individuos en la muestra por edad y sexo Edad Femenino Masculino Total % 16 3 3 6 2.3 17 36 32 68 26.6 18 48 49 97 37.9 19 13 26 39 15.2 20 12 16 28 10.9 21 1 9 10 3.9 22 1 4 5 2.0 23 1 1 2 0.8 24 1 0 1 0.4 Total 116 140 256 100 % 45.3 54.7 100 En la Tabla 3 se observa que en la muestra predomina ligeramente el grupo masculino y las edades de 17 y 18 aos en la muestra. Esto indica que se trata de una poblacin mixta y preferentemente adolescente (66.8 % hasta 18 aos). Descripcin del Instrumento
70
MDULO I
EVALUACIN EDUCATIVA
La Escala EAHM-U es de tipo Lickert, en su versin final es de 31 temes (vase Anexo). La aplicacin de la escala o prueba es individual y colectiva. La duracin es de 15 minutos como mximo, pues se espera una repuesta rpida sin posibilidad de elaborar juicios, enfatizando el aspecto valorativo antes que cognoscitivo. Las calificaciones se basan en la recodificacin que se hace de las expresiones TD (Totalmente en Desacuerdo), D (En desacuerdo), I (Indiferente), A (Acuerdo) y TA (Totalmente de Acuerdo) en base al sentido de la escala (si es negativo o positivo), asignndose un valor de 1,2,3,4 y 5 respectivamente y en ese orden si se trata de un tem negativo, y de 5,4,3,2, y 1 respectivamente y en ese orden si se trata de un tem positivo. Los puntajes altos, cuando ms altos denotan mayor actitud negativa y los puntajes bajos, cuando ms bajos, mayor actitud positiva. RESULTADOS I) Estudio Psicomtrico de La EAHM-U. En las siguientes tablas se recoge la distribucin de los temes por dimensiones, la confiabilidad de las dimensiones y la escala, las estadsticas descriptivas de la escala y sus dimensiones as como los valores que permiten distribuir los puntajes en cinco categoras respecto a la actitud. As se puede utilizar como criterio de clasificacin si se aplicara en otras oportunidades tanto en forma individual como grupal. Tabla 4: Distribucion de temes aceptados por dimensiones segn el estudio de validez por criterio de jueces y el anlisis estadstico de temes y Confiabilidad por Alfa de Cronbach para la EHAM-U y sus dimensiones Dimensiones Itemes aceptados I Afectividad II Aplicabilidad III Habilidad IV Ansiedad EAHM-U + 4 2 3 4 13 Total 8 8 8 7 31 Alfa de Cronbach 0.7640 0.7600 0.7800 0.7124 0.9063
1,5,9,13,17,21,25,29 4 2,6,10,14,18,22,26,30 6 3,7,11,15,19,23,27,31 5 4,8,12,16,20,24,28 3 1 al 31 18
itemes positivos: 1,2,3,6,8,9,10,11,16,17,18,19,22,24,25,26,27,31 Tabla 5: Validez de constructo: matriz de correlaciones muestral Dimensiones D1 D2 D3 D4 D1 1.0000 D2 0.6043 1.0000 D3 0.6712 0.5134 1.0000 D4 0.5789 0.4757 0.7213 1.0000 Tabla 6: Validez de Constructo en base a la correlacin de Pearson tem-total espuria y corregida, y de Spearman: D1 D2 D3 D4 EAHM-U 0.8397 0.7945 0.8771 0.8112 (0.7355) (0.6077) (0.7478) (0.6903) lourdesreyna1613@hotmail.com 71
MDULO I
EVALUACIN EDUCATIVA
0.8258
0.7736
0.8743
0.7928
Tabla 7: Estadsticas Descriptivas de la EAHM-U en Ingresantes a la UNALM Estadstica EAHM-U D1 D2 D3 D4 Media 105.39 27.63 29.01 25.77 22.08 Mediana 108 28 30 26 23 Moda 117 29 30 28 30 Mnimo 43 10 8 8 9 Mximo 148 40 40 40 34 Ds. Est. 17.85 5.48 5.82 5.502 4.60 Tabla 8: Categoras de Actitud en base a percentiles de la EAHM-U y de sus Dimensiones en Ingresantes a la UNALM Categoras de Actitud Muy Favorable(<P20) Favorable(P20P40) Indiferente(P40P60) Desfavorable(P60P80) Muy desfavorable (>P80) EAHM 31-89 90-102 103-111 112-119 120-155 D1 8-23 24-26 27-28 29-31 32-40 D2 8-24 25-28 29-30 31-33 34-40 D3 8-20 21-24 25-27 28-29 30-40 D4 7-24 25-28 29-30 31-32 33-35
II) Resultados del Estudio de la Diferenciabilidad de la Prueba A continuacin se reportan los anlisis que se ejecutaron con la EAHM-U para buscar si existen diferencias en la actitud considerando el sexo, la edad y la especialidad. A continuacin se presenta en detalle la distribucin de sujetos que puntuaron por encima (>med: ms negativas - ) y por debajo (<med: ms positivas + ) de la mediana, segn edades y para cada dimensin y la escala completa. Tabla 9: Prueba de Medianas del puntaje de la EAHM y sus dimensiones segn sexo, especialidad de ingreso y edad SEXO ESPECIALIDAD EDAD c2 valor p c2 valor p c2 valor p EAHM-U 0.1768 0.6742 12.5884 0.1821 16.3216 0.0380* D1 0.2618 0.6089 12.7993 0.1719 13.6382 0.0917** D2 0.7324 0.3921 19.4037 0.0220* 5.9563 0.6521 D3 0.0068 0.9342 14.3409 0.1107 14.3329 0.0735** D4 0.0035 0.9530 14.6303 0.1016 11.9014 0.1557 *: p < 0.05 **: p< 0.1
72
MDULO I
EVALUACIN EDUCATIVA
Tabla 10: Distribucin de sujetos que puntan por encima y por debajo de la mediana para la EAHM y sus dimensiones
Eda d 16 17 18 19 20 21 22 23 24
EHAM -U <Me >Me d d 1 5 40 28 53 14 26 13 10 18 3 7 2 3 0 2 0 1
D1 <Me >Me d d 3 32 45 23 51 46 23 16 11 17 4 6 1 4 0 2 0 1
D2 <Me >Me d d 4 1 37 31 56 41 24 15 15 13 5 5 1 4 1 1 0 1
D3 <Me >Me d d 5 1 36 32 51 46 28 11 11 17 5 5 2 3 0 2 1 0
D4 <Me >Me d d 5 34 34 57 40 23 16 12 16 3 7 3 2 0 2 0 1
En base a la Tabla 10 se encuentra ms estudiantes con actitudes ms positivas a la Matemtica en los ingresantes menores de 19 aos salvo en el grupo de 16 y ms negativas en los ingresantes de edades por encima de los 20 aos. Estos resultados justifican la formacin de baremos en tres grupos de edad: de 16 aos, de 17 a 19 y mayores de 20 aos. Se encuentran ms estudiantes con actitudes ms negativas en la dimensin 1 en los ingresantes con edades por encima de los 20 aos, y ms positivas por debajo de los 19 aos. Se encuentran ms estudiantes con actitudes ms negativas en la dimensin 2 en los ingresantes con edades de 16, 22 y 24, y ms positivas en la escala en los ingresantes de edades de 17, 18, 19 y 20. Se encuentran ms estudiantes con actitudes ms negativas en la dimensin 3 en los ingresantes con edades de 16, 20,22, y 23, y ms positivas en las edades de 17, 18,19, y 24. Se encuentra ms estudiantes con actitudes ms negativas en la dimensin 4 en los ingresantes con edades de 16, 20, 21, 23 y 24, y ms positivas en las edades de 18, y 19. Dado estos resultados, se form categoras de actitud considerando los grupos de edad que se formaron del anlisis anterior. As se identific a los de 16 aos, un segundo grupo entre 17 y 19 aos y un ltimo grupo por encima de 20 aos. Esto nos llev a la siguiente tabla. En la Tabla 11 se recoge los valores que permiten distribuir los puntajes en cinco categoras respecto a la actitud. As se puede utilizar como criterio de clasificacin si se aplicara en otras oportunidades tanto en forma individual como grupal. lourdesreyna1613@hotmail.com 73
MDULO I
EVALUACIN EDUCATIVA
Tabla 11: Categoras de Actitud en base a percentiles de la EAHM-U en Ingresantes a la UNALM considerando la edad. Categoras de Actitud Muy Favorable: 31-P20 Favorable: P20 P40 Indiferente : P40 P60 Desfavorable: P60 - P80 Muy desafavorable: P80 -155 16 aos 31-104 105-112 113-116 117-127 128-155 17-19 aos 31-89 90-101 102-110 111-120 121-155 ms de 20 31-96 97-110 111-118 118-127 128-155
DISCUSION La EAHM-U fu elaborada en base a los ingresantes a la UNALM que cursaban el curso de Matemtica I. El instrumento obtenido presenta alta confiabilidad para la escala general y para sus dimensiones. Lo mismo se d con respecto a la validez. A partir del instrumento se ha encontrado que en general la actitud hacia la matemtica es ms bien negativa. Si se detalla las actitudes en forma especfica a travs de la moda de respuestas se encuentra lo siguiente: Actitudes especficas de los ingresantes a la Unalm 95-I. Si se revisa la distribucin de frecuencias de los temes, y se considera la alternativa ms frecuente (la moda), se puede ofrecer una interpretacin ms especfica considerando las expresiones de estos temes. As se tiene que en el semestre 95-I, la mayora de ingresantes a la UNALM est en total desacuerdo de que necesitar de las matemticas para su trabajo futuro, (36.7%), sera feliz de obtener sus ms altas notas en matemticas (55.9 %)y lo que es grave, poder aprender cualquier concepto matemtico si lo explican bien (50 % ). Esto connota una actitud altamente negativa, tanto del sentido de utilidad del curso, como de la expectativa de logro en el. As mismo, la mayora de ingresantes, est en desacuerdo de que las Matemticas sea un curso valioso y necesario (45.3 %), de que las matemticas le resultan tiles para su profesin (44.1%), de que la matemtica les sirva para hacer estudios de especializacin (43.8 %), de que guardarn sus cuadernos de matemticas porque probablemente les sirvan (44.5 % ), de que el curso de matemticas sirva para ensear a pensar (44.1%), y finalmente de sentirse seguros al intentar hacer matemticas (39.1%),. Esto connota una actitud negativa, en la valoracin del curso en trminos de su aplicabilidad
74
MDULO I
EVALUACIN EDUCATIVA
presente y futura, en sus expectativas personales frente al curso y en su seguridad personal. De lo anterior se desprende una predisposicin negativa frente al curso de matemtica I, en trminos tanto de las valoraciones negativas de utilidad y aplicabilidad presentes y futuras de la matemtica que expresan, as como la falta de expectativas personales y de logro que traen consigo respecto de la matemtica, incluyendo inseguridad. Generalizando, el ingresante viene predispuesto negativamente. Sin embargo esta predisposicin antes que afectiva, de ansiedad o de habilidad se refiere especialmente a la aplicabilidad, un aspecto ligado al plano informacional, acadmico y curricular, susceptible de ser trabajado desde la universidad. En suma estas actitudes reflejan la predisposicin negativa frente a la Matemtica con que vienen los ingresantes a la UNALM. Cuando se trata de diferenciar estas actitudes por sexo, especialidad de ingreso y edad se encuentra que no hay diferencias por sexo ni por especialidades salvo en la dimensin 2 de Aplicabilidad. Esto se puede interpretar como que en general ni hombres ni mujeres presenta actitudes positivas, y que esta realidad tampoco es distinguible de acuerdo a la especialidad. Sinembargo cuando se trata de establecer el sentido de aplicabilidad de la Matemtica las actitudes se presentan diferentes por especialidades. Estos resultados pueden explicarse porque se trata de profesiones agrarias y porque estas son de comn inters para poblaciones mixtas. Sinembargo esta aparente homogeneidad de respuestas se hace distinguible cuando se establece la aplicabilidad que puede tener la matemtica para una profesin especfica. Las actitudes resultan diferentes cuando se considera la edad en la escala completa y en las dimensiones 1 de Afectividad y 3 de Habilidad; no as en las otras dimensiones. Estos resultados permiten diferenciar tres grupos de edad: los de 16, los de 17 a 19 y finalmente los que tienen ms de 20 aos. Se encuentra que con la edad las actitudes son ms negativas. Esto se puede explicar en base a la suposicin de que los ingresantes de estas edades son menos exitosos y que posiblemente ello ocurra en matemtica. Tambin se encuentra que entre los de 16 prevalecen actitudes ms negativas. Esto se puede explicar en base a la suposicin de que la mayora de los ingresantes de esta edad tienen menos informacin de la dinmica universitaria y por tanto del nivel del curso lo que parece predisponer a una actitud negativa. Como un dato adicional, de 312 matriculados, el resultado al finalizar el semestre fue de 209 (66.09 %) de desaprobados en el curso de Matemtica I, ingresantes. El propsito de la inclusin de este resultado es establecer la importancia que tienen los esfuerzos por explicarlos.
75
MDULO I
EVALUACIN EDUCATIVA
Lo establecido en este estudio permite afirmar que la prueba en cierta forma es predictiva al haber detectado apenas iniciado el semestre que el grupo de ingresantes mostraba actitudes desfavorables hacia la Matemtica, lo cual puede haber incidido en su desempeo acadmico en el curso, sin excluir la influencia de otras variables. Las dificultades para la enseanza de la matemtica que pueden inferirse de este estudio son bastante generales en nuestro sistema universitario. De alli que establezcamos la importancia de los enfoques interdisciplinarios, como este, para caracterizar ms adecuadamente esta realidad. Se invita a extender los resultados de este estudio en base a la aplicacin de la EAHM-U a otros contextos y universidades. Para detalles tcnicos respecto a algunos aspectos de la metodologa empleada se remite al lector a Bazn (1997). CONCLUSIONES La EAHM es un instrumento de 31 temes con cuatros dimensines en una escalamiento de tipo Lickert de cinco valores que es confiable, vlido y permite obtener diferencia por dimensines y la escala segn la edad del ingresante a la UNALM en tres grupos: de 16 aos, de 17 a 19 y mayores de 20 aos. A partir del instrumento se ha encontrado que en general la actitud hacia la matemtica es ms bien negativa en los ingresantes que llevan el curso de Matemtica I. 1. No hay diferencias por sexo en la actitud hacia la matemtica en la escala y en sus dimensiones. 2. Hay diferencias por especialidad en la actitud hacia la matemtica en la dimensin 2 (Aplicabilidad) a un nivel del 5% de significacin, pero no hay diferencias en la escala y las otras dimensines. 3. Hay diferencias por edades, en la actitud hacia la matemtica en la escala a un nivel del 5% de significacin, y en las dimensines 1 (Afectividad) y 3 (Habilidad) a un nivel del 10% de significacin. No hay diferencias en las dimensines 2 (Aplicabilidad) y 4 (Ansiedad).
REFERENCIAS Anastasi, A. (1968) Test Psicolgicos. Madrid: Aguilar. Bazn, J. (1997) Metodologia estadistica de construccion de pruebas. una aplicacin al estudio de actitudes hacia la matematica en la Unalm. Tesis para optar el Ttulo de Ingeniero Estadstico. UNALM Nunnally, J. (1987) Teora P s i c o m t r i c a , Mxico. Ed. Trillas. Nunnally, J. (1973). Introduccin a la Medicin Psicolgica. Buenos Aires: Paidos. Siegel, S. (1980). Estadsticas no paramtricas Aplicadas a las Ciencias de la Conducta. Mxico: Trillas. Yi Yi, P (1989) Actitudes hacia las Matemticas en un muestra de alumnos de quinto ao de secundaria y de sexto grado de primaria del distrito de Jess Mara. Memoria de Bachillerato de Psicologa. PUCP.
76
MDULO I
EVALUACIN EDUCATIVA
77
MDULO I
EVALUACIN EDUCATIVA
ANEXO ESCALA DE ACTITUDES HACIA LAS MATEMATICA EAHM-U NO COLOQUE SU NOMBRE, EL CUESTIONARIO ES ANNIMO. EDAD: SEXO : ESPECIALIDAD:
INSTRUCCIONES En este cuestionario no hay respuestas correctas ni incorrectas, slo deseamos saber si Ud. est de acuerdo o en desacuerdo con cada una de las siguientes afirmaciones. Por ejemplo ante la afirmacin: Me gustan las matemticas TD D I A TA Ud. indica su opinin haciendo un crculo en una de las 5 alternativas de la derecha. Estas alternativas significan lo siguiente: TD= Totalmente en Desacuerdo D = En Desacuerdo I = No sabe o no puede responder, indiferente. A = De Acuerdo TA= Totalmente de Acuerdo No tome mucho tiempo en ninguna de las afirmaciones, ms bien asegrese de responder a cada una de ellas. Trabaje rpidamente pero con cuidado. Recuerde que no hay respuestas correctas o incorrectas, lo que interesa es su opinin. Deje que su experiencia anterior lo gue para marcar su verdadera opinin. 1. Las matemticas son amenas y estimulantes para m. TD D I A TA 2. Matemticas es un curso valioso y necesario. TD D I A TA 3. Pienso que podra estudiar matemticas ms difciles. TD D I A TA 4. Las matemticas usualmente me hacen sentir incmodo y nervioso. TD D I A TA 5. Siempre dejo en ltimo lugar mi tarea de matemticas porque no me gusta. TD D I A TA 6. La matemtica me servir para hacer estudios de especializacin. TD D I A TA 7. Por alguna razn, a pesar que estudio, las matemticas me parecen particularmente difciles. TD D I A TA 8. Siempre soy capaz de controlar mi nerviosismo en los exmenes de matemtica. TD D I A TA 9. Yo disfruto con los problemas que me dejan como tarea en mi clase de matemticas. TD D I A TA
78
MDULO I
EVALUACIN EDUCATIVA
10. El curso de matemticas sirve para ensear a pensar. TD D I A TA 11. Los trminos y smbolos usados en matemticas nunca me resultan difciles comprender y manejar TD D I A TA 12. Algunas veces me siento tenso e incmodo en clase de matemticas. TD D I A TA 13. El curso de matemticas no es mi curso favorito TD D I A TA 14. Slo deberan estudiar matemticas aquellos que la aplicarn en sus futuras ocupaciones. TD D I A TA 15. El curso de matemticas es muy extenso, no puedo entenderlo. TD D I A TA 16. Generalmente me he sentido seguro al intentar hacer matemticas. TD D I A TA 17. No me molestara en absoluto tomar ms cursos de matemticas. TD D I A TA 18. Las matemticas me resultan tiles para mi profesin. TD D I A TA 19. Confo en poder hacer ejercicios ms complicados de matemticas. TD D I A TA 20. Slo en los exmenes de matemticas me sudan las manos o me duele el estmago. TD D I A TA 21. Prefiero estudiar cualquier otra materia en lugar de matemticas. TD D I A TA 22. Guardar mis cuadernos de matemticas porque probablemente me sirvan. TD D I A TA 23. Generalmente tengo dificultades para resolver los ejercicios de matemticas. TD D I A TA 24. Los exmenes de matemticas no provocan en m mayor ansiedad que cualquier otro examen. TD D I A TA 25. Sera feliz de obtener mis ms altas notas en matemticas. TD D I A TA 26. Necesitar de las matemticas para mi trabajo futuro. TD D I A TA 27. Puedo aprender cualquier concepto matemtico si lo explican bien. TD D I A TA 28. Mi mente se pone en blanco y soy incapaz de pensar claramente cuando hago matemticas TD D I A TA 29. Ojal nunca hubieran inventado las matemticas. TD D I A TA 30. Slo deberan ensearse en matemticas las cosas prcticas que utilizaremos cuando salgamos de la universidad.
79
MDULO I
EVALUACIN EDUCATIVA
TD D I A TA 31. Las matemticas no son difciles para m. TD D I A TA
Lectura Selecta N 2. Medicin La operacin de la medicin consiste en dar valores a los fenmenos que interesan en el marco de un planteamiento geogrfico. Por una parte, sirve inicialmente para caracterizar los atributos de los objetos que se estudian y entonces se emplea al comienzo de todo tratamiento. Por otra parte, interviene al final para caracterizar formas espaciales, describir la naturaleza y la intensidad de relaciones, calificar semejanzas, etc. En el primer caso la medicin est inserta en la fase de adquisicin de los datos e informaciones necesarios para tratar la cuestin estudiada. Estas informaciones provienen, ya sea de fuentes estadsticas de organismos pblicos o privados, ya sea de encuestas (relevamientos de terreno, sondeos, etc.). En el segundo caso, se trata de la ayuda de mediciones apropiadas, de rendir cuenta de resultados originados en tratamientos, estadsticos u otros. Elaborar un sistema de medicin supone identificar de antemano los objetos y los atributos pertinentes en relacin con las problemticas planteadas. Segn el fenmeno estudiado, los objetos pueden ser de naturaleza muy diferente: conceptos, entidades espaciales, individuos, grupos sociales, mapas, son ejemplos de objetos observables a los cuales se pueden asociar atributos. Segn las informaciones disponibles y/o medibles, puede haber un desfase ms o menos importante entre el fenmeno que se desea medir y lo que es efectivamente observable (oprima sobre ilustraciones para tener ejemplos). Se trata, en cada caso, de tener hiptesis slidas sobre la cadena de causalidad que vincula lo que es medible con el fenmeno estudiado. En numerosos casos, los objetos estudiados son entidades espaciales. stas pueden constituir una particin del espacio (el conjunto de las comunas de una regin, el conjunto de regiones de un continente, etc.), pueden ser segmentos de redes o simples puntos localizados (establecimientos, ciudades, ...). Se utiliza la expresin "matriz de informacin geogrfica" para describir la matriz que tiene, en lneas, el conjunto de las entidades espaciales consideradas y, en columnas, el conjunto de los atributos elegidos para caracterizar el fenmeno estudiado. En una tabla estadstica, se utilizan indistintamente los trminos "caracteres", "indicadores", "variables", para designar a los atributos. Segn el objetivo de la investigacin y la naturaleza de esos atributos, existen diferentes herramientas de representacin y de tratamiento. La principal distincin se refiere a la naturaleza cuantitativa (conteo, relacin, medida) o cualitativa (categora, orden) de las variables. Los tratamientos ms clsicos emplean mtodos
80
MDULO I
EVALUACIN EDUCATIVA
estadsticos. Cuando el objetivo es efectuar una tipologa, o poner en evidencia las interrelaciones dentro de un conjunto de variables, se recurre a los mtodos de anlisis de datos, anlisis en componentes principales si se trata de variables medibles, anlisis de correspondencias si se trata de variables cualitativas. En estos anlisis estadsticos las variables desempean papeles simtricos. Cuando se estudia la variabilidad de un fenmeno particular en funcin de otros factores, se utilizan los modelos estadsticos (regresin mltiple, anlisis de la varianza, anlisis de la covarianza, modelo logartmico, etc., segn la naturaleza de la variable llamada "para explicar" y de las variables denominadas "explicativas"). Hay diferentes niveles de integracin del espacio en los tratamientos estadsticos, segn los mtodos utilizados y los atributos elegidos para caracterizar los objetos estudiados. El espacio puede estar presente por el simple hecho de aplicar los mtodos estadsticos clsicos a individuos estadsticos que son entidades espaciales. A un nivel de integracin ms elevado, se pueden tomar en cuenta atributos que contengan una dimensin espacial: los ms clsicos son la distancia a un objeto estructurador y la caracterizacin de la vecindad. Por ltimo, existen mtodos de tratamiento que integran explcitamente el espacio (geoestadstico, estadsticas espaciales, medidas fractales, morfologa matemtica). Otros mtodos utilizan tambin la medicin. Tal es el caso de los modelos que estn formalizados por medio de ecuaciones matemticas, o de los que siguen reglas lgicas, o aun de aquellos construidos a partir de una combinacin de ambos. Tales modelos sirven para describir y para explicar el estado de un sistema, la evolucin de ese estado, o la intensidad de las interacciones entre diferentes objetos (por ejemplo, el modelo gravitatorio, si los objetos son entidades espaciales). Algunos modelos permiten efectuar simulaciones y son utilizados para controlar (mediante tests) argumentaciones y hacer previsiones (modelos dinmicos).
81
MDULO I
EVALUACIN EDUCATIVA
La validez de constructo en educacin. Alcances y lmites Gustavo Rosales Estrada* Introduccin
El concepto de validez es un problema central en toda investigacin cientfica. Tal importancia le permite vincularse a los conceptos de contrastacin, verdad, utilidad, de adecuacin a la realidad, etctera.
Desde este punto de vista, se habla de validez con referencia a conceptos, modelos, hiptesis, diseos experimentales, medidas, juicios de valor, evaluaciones, procesos, etctera (Bartolom, 1983).
La validez de un mtodo es la exactitud con que pueden realizarse procedimientos de medida en forma significativa y adecuada con l, en el sentido de que midan realmente los rasgos o variables que pretenden "... un test o instrumento de medicin, cuya (con) fiabilidad es conocida, ser vlido, si mide aquello para lo que fue construido..." (Magnuson, 1966: 153). Es claro que cuando requerimos estimar la validez de un instrumento de medida, necesitamos saber qu rasgo deseamos que se mida. A ste suele denominarse variable de criterio. Se requiere saber el grado en el cul se corresponden las posiciones de los individuos, en la distribucin de las puntuaciones obtenidas en el test a validar y los datos usados, con un grado conocido de certeza, como ndices para las puntuaciones de los individuos en la variable criterio. En la mayora de las mediciones de variables psicopedaggicas, "la distancia entre el objeto o variable a medir y el instrumento, es lo suficientemente grande como para que no sea evidente, ni siquiera fcilmente demostrable, la relacin entre ambos" (Prez-Juste, 1983). Bartolom (op. cit.: 3), afirma "... si la relacin entre el instrumento y las variables es evidente, el tema de la validez carece de importancia. Cuando tal evidencia no aparece es cuando debemos investigar profundamente el proceso de validacin..." El estudio de un rasgo o variable es complejo y presenta varios problemas: a) El carcter indirecto de la medicin (puesto que nunca se mide un rasgo directamente, sino algunas de sus manifestaciones conductuales). En este
82
MDULO I
EVALUACIN EDUCATIVA
sentido, no puede decirse que un instrumento sea vlido o no, sino en qu grado es vlido para precisar lo que pretende medir. b) Poblacin en que la validez es estimada. Un instrumento podr ser vlido (en un cierto grado) para una determinada poblacin y no (en el mismo grado) para otra distinta. Mltiples son los enfoques semnticos que se le ha asignado al proceso de validez: aparente, concurrente, de contenido, predictiva, de utilidad y de constructo; este ltimo tambin denominado de construccin, de hiptesis de trabajo, diferenciadora, etctera, sin duda es el ms importante desde el punto de vista cientfico. Los principales tpicos que pretende cubrir el estudio de la validez, son (Martnez, 1981 y Cronbach, 1971): adecuacin con lo que mide la conducta bajo estudio; capacidad de diagnosticar la conducta real de una persona; sensibilidad para detectar un objetivo; seguridad en las decisiones y utilidad. Con este enfoque podemos resumir que: 1. La validez no es un concepto nico, adopta diversas formas e interpretaciones segn la variable a validar, los objetivos del instrumento de medida, la poblacin a la que se le aplique dicho instrumento, etctera. 2. Lo que se valida no es estrictamente el instrumento, sino la interpretacin de los datos obtenidos por un procedimiento especfico (Cronbach, op. cit. y Magnuson, op. cit.). 3. La validez no debe entenderse como el clculo de un simple ndice que relaciona el test y el criterio, sino como un proceso continuo (Nunnally, 1978), que requiere la acumulacin de datos procedentes de distintas investigaciones empricas y de procesos lgicos. 4. La validez no puede determinarse en trminos absolutos respecto a ninguna variable de nuestro campo de estudio, sino que es una cuestin de grado. 5. La eleccin de uno u otro tipo de validez o de varios tipos a la vez, depender de las funciones tpicas u objetivos que cumplir el instrumento de medicin particular que sea estudiado. I. El concepto de validez de constructo y su problemtica El problema bsico de la validez de constructo ha radicado en la dificultad de comprobar los rasgos a medir con la conducta abierta, de una manera simple y directa.
Megarges (1971), pretende resolver esta cuestin al distinguir los conceptos de pertinencia y equivalencia de la conducta; es decir, si es imposible para el investigador encontrar una medida de criterio equivalente, puede recurrir a otras conductas observables que, aunque no son equivalentes al rasgo, estn relacionadas con l.
83
MDULO I
EVALUACIN EDUCATIVA
Se pretende verificar hiptesis sobre las relaciones de las variables con otras (surgidas de la propia teora), para tener confianza en el instrumento, a la vez que se pretende tambin validar la red de relaciones tericas que dicho rasgo estableci. Cronbach y Meehl (1967), definen un constructo como "... algn atributo postulado acerca de la persona, que supuestamente se refleja en la ejecucin de un test..."
Un constructo es un concepto, una abstraccin, y en este sentido el constructo de la personalidad misma descansa en la creencia de que las consistencias conductuales de los individuos existen con amplitud y justifican gran parte de la varianza de su conducta. Los constructos siempre estn insertos en una teora cientfica, pues para ser vlidos necesitan anclarse en un sistema (Bunge, 1976).
La validez de constructo -el nico tipo de validez completa- tiene como propsito fundamental validar la teora subyacente al sistema de evaluacin o medida, sea sta una teora de la personalidad o conductual. Los constructos son los que determinan qu conductas han de relacionarse para su observacin y la situacin en que se aplicarn.
Un instrumento de medida estar ligado al sistema de constructos dentro del que fue construido; es este tipo de validez el que nos indicar el grado en que el instrumento de evaluacin es una medida adecuada del constructo y hasta qu punto las hiptesis derivadas de l pueden confirmarse mediante la utilizacin del instrumento.
Fiske (1971), afirma que el investigador debe describir "la nica cualidad a la cual su constructo se refiere, es decir, debe establecer el "corazn" del constructo, semejando un camino que integre todas las manifestaciones que el conceptualizador desee incluir bajo la variable"; es decir, en el momento de la construccin del instrumento de evaluacin "es necesario establecer las especificaciones de los objetivos del mismo y el dominio conductual al que han de referirse los elementos del instrumento de evaluacin" (Martnez, op. cit.: 285). II. Aspectos relevantes en la validacin del constructo El proceso de validez requiere de todo el soporte metodolgico para llevar a cabo sus objetivos; es claro que no existe un tipo de tcnica de validez concreta, que responda a un tipo de procedimiento de validacin; generalmente son diversos y muy complejos los procedimientos usados para tal fin, incluso se
84
MDULO I
EVALUACIN EDUCATIVA
llegan a crear nuevos soportes metodolgicos especficos (tcnicas) para validar algn aspecto de la red de leyes lgicas, planteadas en la definicin de un constructo. De acuerdo a Nunnally (op. cit.), son tres los aspectos ms importantes a tomar en cuenta en la validacin de constructos: 1. Definicin del dominio del constructo. Este aspecto se refiere a la especificacin de los contenidos o conductas presumiblemente constitutivas del mismo. Sera algo semejante a la definicin de la red nomolgica del constructo, lo que Cronbach y Meehl (op. cit.) denominan "elucidacin de lo que es un objeto y exposicin de las leyes bajo las cuales ocurre". Este aspecto es de una importancia capital en la investigacin sobre variables de construccin, porque segn cmo se defina el dominio del constructo y cules sean sus contenidos definidos por hiptesis, depender en gran parte todo el trabajo posterior de validacin, as como la importancia de sus conclusiones.
Aunque todos los investigadores le dan un gran valor a este aspecto, no siempre se realiza con la precisin necesaria y con el suficiente rigor. Es claro que si no se tiene todava un criterio definido, en su lugar pueden utilizarse diversas muestras de conducta del rasgo fundamental o variable del constructo.
Esto suele ser necesario en las primeras definiciones de un constructo y ello est perfectamente justificado, debido a que cuando la teora no est suficientemente establecida en sus orgenes o cuando la orientacin del propio constructo es eminentemente prctica, "... las primeras formulaciones de las relaciones de la red pueden ser meramente descriptivas..." (Cronbach, 1971). Aun las denominadas ciencias duras, no pueden establecer con rigor y precisin el dominio del constructo en sus orgenes. En las ciencias (sociales en lo general y pedaggicas en lo particular), en la mayora de las ocasiones no disponemos de una red de relaciones consistente, ni siquiera de formulaciones absolutamente explcitas, que nos permitan la definicin inicial del dominio de un constructo. A medida que investigamos, en las siguientes fases del proceso de validacin podemos definir con precisin dicho dominio, as como las relaciones que se presumen entre distintos observables implicados en el constructo. En esta fase de continuas definiciones y redefiniciones del constructo, los modelos exploratorios de investigacin pueden orientar la definicin progresiva de hiptesis con certeza. 2. Los observables tienden a medir la misma cosa, algunas o muchas? Para resolver esta propuesta sealada por Nunnally (op. cit.) se utilizan bsicamente
85
MDULO I
EVALUACIN EDUCATIVA
mtodos analticos y correlacionales. Algunos de los procedimientos de la psicometra tradicional -tales como la validez predictiva y concurrente, estudios sobre consistencia interna de pruebas, de fiabilidad, de ndices de homogeneidad, dificultad o validez de elementos, etctera- apoyan tambin con frecuencia determinados aspectos de la red terica emanada del constructo, al permitir una mayor precisin en la definicin de hiptesis sobre el dominio del mismo. Cronbach y Meehl (op. cit.) sealan que "... al profesional que le interese la validez con fines prcticos (pedagogo, psiclogo) le concierne encontrar no un criterio imperfecto, sino un criterio de cualquier manera, en especial en el campo diagnstico, puesto que no puede esperar un claro y unitario criterio..." ms an cuando existen otros instrumentos de una dimensin o constructo en estudio; "... slo como medida de un criterio definido especficamente, un test puede ser validado con objetividad; pretender que un test mida algo ms que su criterio es pura especulacin"; "... los tests pueden ser interpretados provechosamente si conocemos la relacin entre la conducta examinada y otras muestras de conducta, sin que ninguna de stas ocupe necesariamente la posicin preeminente de un criterio..." Como respuesta a lo planteado, puede utilizarse la evidencia procedente de muchos tipos de estudios, tanto exploratorios como confirmatorios, pero pensamos que estos ltimos son los que ms luz pueden arrojar sobre el constructo y su medida; entendemos por estudio confirmatorio, no slo aquel que se realiza en contextos experimentales o causales, sino a todo aquel cuyo objetivo sea el de validar hiptesis tericas emanadas de una red nomolgica de un constructo; estudios exploratorios, seran aquellos en los que, por imposibilidad o dificultad, no han podido definirse hiptesis especficas sobre los datos o variables objeto de una investigacin concreta. 3. Hasta qu punto las medidas supuestas del constructo producen resultados que son predecibles a partir de hiptesis tericas altamente aceptadas, concernientes al constructo? Para dar respuesta, se precisa la integracin de evidencias procedentes de varios tipos de investigacin. El problema a resolver es la determinacin del comportamiento de las medidas supuestas del constructo, en investigaciones cientficas basadas en la teora subyacente en el constructo. Muchos pueden ser los procedimientos y tcnicas en estos estudios, pero no hay que olvidar que no son otra cosa que instrumentos usados para dar respuesta a las cuestiones especficas ms o menos complejas; por ello, la determinacin de qu tipo de procedimiento o qu tcnicas debern utilizarse en cada caso, depender del objetivo especfico de cada estudio, en concordancia con las hiptesis que se pretendan validar y del tipo de datos seleccionados.
86
MDULO I
EVALUACIN EDUCATIVA
En general, para abordar esta cuestin, desde la perspectiva de la validacin de constructo pueden utilizarse estudios experimentales o ex-post-facto, en los cuales se puede determinar el comportamiento diferenciador de las medidas supuestas del constructo, as como la forma, magnitud y direccin de las relaciones que mantiene con otras variables afines o implicadas en su teora. Los modelos confirmatorios (en contextos experimentales o no experimentales) son los que pueden ofrecer evidencias ms valiosas para la clarificacin de un constructo. De modo orientador, se presenta la siguiente clasificacin: Estudios exploratorios:

Validez de contenido Anlisis correlacionales y estudios de caractersticas tcnicas de instrumentos de medida Anlisis factorial exploratorio Anlisis de conglomerados Anlisis de correspondencias
Estudios confirmatorios:

Estudios experimentales Anlisis factorial como tcnica de validacin de constructo Matriz multirasgo-multimtodo Modelos estructurales causales Anlisis factorial confirmatorio Anlisis cluster confirmatorio Estudios diferenciales. III. Etapas en la validacin de un constructo
El proceso de validacin de un constructo no difiere en su esencia del proceso cientfico que se utiliza para desarrollar y contrastar teoras; tampoco difiere del propio proceso de la investigacin cientfica (problema, hiptesis, variables, diseo, etctera) aplicado a las ciencias sociales. Podemos definir el proceso de validacin de un constructo como un proceso iterativo, interactivo y de integracin de resultados. Iterativo, porque requiere la repeticin de un proceso esquemtico bsico para la confirmacin de hiptesis concretas y especficas, implicadas en la teora sobre un constructo. Y de integracin de resultados, porque los distintos estudios realizados sobre la base de un constructo ser necesario interpretarlos de forma integrada, y descubrir qu contradicciones se manifiestan en los resultados de los distintos estudios y qu coincidencias muestran estos estudios diversificados. IV. Explicitacin de la teora sobre el constructo
87
MDULO I
EVALUACIN EDUCATIVA
Este paso es similar a la definicin del problema en el proceso de la investigacin cientfica. No es posible admitir un constructo cientfico si no se define su contexto terico; es decir, no se define la red nomolgica (segn la terminologa de Cronbach y Meehl, op. cit.) mnima de asociaciones o proposiciones en torno al constructo. Si dicha red no hace contacto con las observaciones (si no hay definiciones operativas de variables), ni se explicita o manifiesta claramente, la validez de constructo no puede exigirse. Los constructos deben entenderse como compendios inductivos, es decir, la teora que subyace a ellos no tiene porqu estar establecida en sus orgenes; es ms, en las primeras etapas de desarrollo de un constructo y en ocasiones en las ms avanzadas, sobre todo cuando la orientacin es prctica, interviene poco o nada la teora entendida en su sentido usual, por lo cual las primeras formulaciones de las relaciones de la red pueden ser meramente descriptivas. Con la propia investigacin y las continuas redefiniciones del constructo, se formularn las leyes de la red con mayor precisin. La vaguedad de las leyes pedaggicas y/o psicolgicas suponen tambin una restriccin importante del esquema de la red. En la prctica, aun las ms avanzadas leyes de las ciencias fsicas slo se aproximan a este ideal y la pedagoga o las ciencias sociales en general, que trabajan con formulaciones crudas o semiexplcitas, se encuentran en bastantes ocasiones en la imposibilidad de establecer una red consistente. El significado de un constructo no est determinado cuando la red est incompleta o tiene muchas hebras perdidas o algunos constructos estn unidos slo por finos hilos, dado que su definicin explcita es poco precisa y por tanto no sabremos qu es determinado constructo; mientras tanto, nuestra hipottica red de relaciones est sin validar. En esta primera fase, los estudios exploratorios pueden ser una poderosa herramienta de investigacin, debido a que permitirn afinar las posibilidades de definicin de variables no implicadas directamente en la red. V. Formulacin de hiptesis derivadas de la red terica y de los estudios exploratorios sobre el constructo Este segundo paso es la consecuencia lgica de establecer la red terica de relaciones del constructo y de los primeros estudios exploratorios realizados sobre variables implicadas. La formulacin de dichas hiptesis exige la definicin operativa de las variables, sean propuestas como medidas del propio constructo o bien como variables explcitas en la red de relaciones del constructo. Los procesos de validacin del constructo se proponen como objetivo
88
MDULO I
EVALUACIN EDUCATIVA
fundamental, garantizar su existencia en las condiciones exigibles a cualquier otro modelo o teora cientfica, a travs de medidas (directas o indirectas) del mismo. Esta formulacin de hiptesis deber ser precisa, tanto si exigen posteriormente estudios experimentales o no experimentales de tipo confirmatorio, preferentemente. Es evidente que dichos estudios slo podrn aceptar o rechazar (en sentido amplio) las hiptesis que se propongan. VI. Puesta a prueba de hiptesis. Estudios confirmatorios El siguiente paso de todo proceso de investigacin cientfica -una vez definidos sus determinantes: problema, hiptesis y variables- es el diseo de un plan o estrategia de investigacin, cuyo objetivo es la prueba de las hiptesis definidas. Dicho diseo -en el amplio sentido que utiliza Kerlinger (1973)- exige la decisin sobre aspectos como muestreo, seleccin de instrumentos, control, eleccin de modelos estadsticos adecuados para el contraste de hiptesis, anlisis de los datos, marco interpretativo de los datos, etctera. En esta fase, las tcnicas confirmatorias que se han descrito (experimentales y no experimentales) sern la base del anlisis de resultados, aunque no se excluye que algunas hiptesis sobre la significacin de simples relaciones entre variables, puedan ser evaluadas a travs de tcnicas correlacionales o de estudios de caractersticas tcnicas de instrumentos de medida (tcnicas exploratorias). Si las evidencias experimentales o correlacionales muestran acuerdo con las hiptesis que se derivan de la red, el constructo se establece. Pero, qu ocurre si las predicciones del investigador y sus datos son discordantes con las derivaciones de la red? Esto se puede interpretar de tres formas: a) Los tests propuestos no miden la variable de constructo. b) La red terica que gener las hiptesis es incorrecta. c) El diseo experimental o correlacional (de validacin en trminos ms generales) fracas, por no haber probado adecuadamente las hiptesis. En funcin de cada interpretacin, la investigacin posterior deber corregir el error. Es decir, si el test no mide el constructo, no puede ser propuesto como medida del mismo, pues para ello se exige un fuerte ajuste positivo entre las predicciones y los datos subsecuentes. Si la red es incorrecta, habr que modificarla en el sentido oportuno y probar nuevas derivaciones. Si el diseo o procedimiento de validacin es incorrecto, se deber disear o ejecutar un nuevo estudio adecuado. VII. Evaluacin e integracin de resultados
89
MDULO I
EVALUACIN EDUCATIVA
De lo anterior se desprende la necesidad de investigar secciones separadas (independientes) de la red, pues cuanto ms diversificadas estn las predicciones del sistema, mayor confianza podremos tener en que solamente pequeas partes de la red total resultarn defectuosas, sin afectar la validez general del constructo establecido tericamente. Todo ello indica -segn Cronbach y Meehl (op. cit.) y Mischel (1977)- que la validez de constructo no puede expresarse en la forma de un coeficiente simple y que sera necesario realizar mltiples investigaciones para corroborar las distintas partes de la red total. La fase de evaluacin de resultados, provenientes de diversos estudios realizados sobre hiptesis derivadas de la red total, exige un esfuerzo lgico y terico de integracin, que debe realizarse a partir de la propia teora sobre el constructo. En ocasiones, estas tareas integradoras no se realizan con la frecuencia y minuciosidad necesarias, por lo que es comn observar la repeticin del mismo tipo de estudio (sobre la base de la misma hiptesis) por distintos autores o investigadores, y se diferencian nicamente las muestras de anlisis o bien la inclusin o no de alguna variable emprica en el estudio. Todo proceso de validacin de constructo exige la acumulacin de resultados procedentes de distintos tipos de estudios, pero tambin se precisa su integracin para que permitan dotarlo del marco terico que le proporcione cierta unidad. En la integracin de resultados, las tcnicas implicadas en el meta-anlisis pueden ser muy valiosas, debido a que permiten aplicar procedimientos formales para combinar los resultados de experimentos y estudios correlacionales, e inferir generalizaciones sobre la consistencia de una red terica subyacente a un constructo. El resultado final de esta fase de evaluacin o integracin de resultados, es la consolidacin de distintas hiptesis emanadas de la red, o bien, la formulacin de la propia red terica (siempre y cuando los resultados de las investigaciones sean consistentes). VIII. Formulacin de nuevas hiptesis, prueba a travs de estudios confirmatorios, evaluacin de resultados y reformulacin de la red de relaciones del constructo Es una vuelta al segundo paso del proceso de validacin y surge como resultado del proceso de evaluacin, que consolida o reformula la propia red del constructo. Estas nuevas hiptesis obtenidas debern ponerse a prueba a travs del diseo de estudios confirmatorios. Los resultados de dichos estudios debern evaluarse e integrarse entre s, con la consiguiente modificacin o consolidacin del constructo. IX. Anlisis. El estudio de constructos en el mbito pedaggico
90
MDULO I
EVALUACIN EDUCATIVA
Los estudios de validacin de constructo se han realizado principalmente desde la psicologa; el objeto fundamental es validar variables o dimensiones intelectuales, de aptitudes y de personalidad. En el campo educativo, las variables de rendimiento han sido el tipo ms estudiado. Aunque el producto educativo -en su sentido ms amplio- se presente como una realidad compleja, y en cierto grado evasiva por sus dificultades intrnsecas operacionales, no deja de ser cierto que sin su consideracin, gran parte de la razn de ser de la investigacin en las distintas reas pedaggicas se perdera. El rendimiento, como producto de la educacin, se considera en trminos de estructura como el ncleo de conductas organizadas y facilitadoras de los problemas y nexo entre distintas materias de enseanza y no slo como una simple adquisicin de datos y destrezas vinculadas a determinados contenidos (De la Orden, 1985). La reconsideracin del estudio de rendimiento, como variable dependiente por excelencia, supone un cambio radical en su medida y por ello el tema de la validez de constructo se hace ms imperioso. En realidad, se trata de validar variables o constructos que subyacen a otras variables representativas del producto educativo. Ello evidencia -como afirma De la Orden- el apoyo a la teora que sirve de base a la variable, tanto como a la medida de la misma. La validez de constructo expresar si las variables derivadas de una teora son adecuadas. El problema fundamental es que las variables utilizadas en la mayora de las ocasiones, y que representan el rendimiento, no han sido derivadas de una teora sino seleccionadas en forma eclctica y pragmtica, por lo que hablar de validez de constructo de dichas medidas no tiene sentido. Hasta ahora la metodologa general de investigacin en educacin ha acudido prioritariamente a los modelos experimentales (entendidos en su sentido ms amplio), cuando la metodologa exploratoria y confirmatoria en campos multivariados no ha sido suficientemente explotada. De la Orden (op. cit.) afirma que "... la validacin de constructo, especialmente para la interpretacin del producto de la educacin, con base en medidas de referencia criterial, es una necesidad inesquivable que puede abrir caminos prometedores hacia una conceptualizacin ms adecuada de los resultados de la instruccin..." X. Dificultades y posibilidades de los procesos de validacin de constructo en el mbito pedaggico Las dificultades inherentes a los procesos de validacin de constructo son, ciertamente, las mismas que afectan a la investigacin bsica en cualesquiera de las ciencias sociales, es decir, el ser un camino largo, lento y a veces oscuro que no siempre estn dispuestos a afrontar los investigadores y estudiosos de nuestro campo.
91
MDULO I
EVALUACIN EDUCATIVA
Un camino que exige la acumulacin de datos y resultados provenientes de mltiples fuentes y tipos de estudios, y que exige tareas arduas de integracin de resultados. En nuestro pas falta claridad en las lneas de investigacin, que tengan como objetivos finales la validacin de constructos, a lo que se suma la limitacin en los presupuestos y equipos de trabajo mnimos (personales y materiales) para afrontar este tipo de tareas. A lo anterior suelen sumarse dificultades de acceso a fuentes documentales (resuelto en la actualidad con el uso de las redes de comunicacin va internet, aunque no al alcance de todos los investigadores educativos) o instrumentales, bsicas para las tareas de recopilacin de informacin, aplicacin de instrumentos y procesamiento de datos. Las tcnicas estadsticas multivariadas, el uso de los paquetes estadsticos informticos (SPSS, OSIRIS, LISREL, SPADE, ADDAD, BMDP, etctera) y las tcnicas actuales de integracin de datos cuantitativos de la investigacin emprica (tcnica de meta-anlisis) son algunos elementos que facilitarn esta tarea. BIBLIOGRAFA Baltes, P. (1981). Mtodos de investigacin en psicologa evolutiva. Universidad de Barcelona, Barcelona. Bartolom, M. (1983). Validez de los instrumentos empleados en los procesos de medida. Universidad de Barcelona, Barcelona. Bechtold, H. (1959). "Validez de constructo: una crtica", en Mergargeb, E. Mtrica de la Personalidad. 2 Vols. Trillas, Mxico. Bunge, M. (1976). La investigacin cientfica. Ariel, Barcelona.
Campbell, D. y Fiske, D. (1957). "Convergent and Discriminant Validation by the Multitrait-Multimethod Matrix", en Memrens y Ebel (1967), pp. 273-302. Carlberg, C. (1984). "Meta-analysis in Education (a Reply to Slavin)", en Educational Researcher, 13 (8): 6-15. Cooper, H. y Rosenthal, R. (1980). "Statistical Versus Traditional Procedures for Summarising Research Findings", en Psychologycal Bulletin, Nm. 87. Cronbach, L. _____ y Meehl, P. (1967). "Construct Validity in Psichologycal Tests", en Mehrens: Principles of Educational and Psychologycal Measurements. A book of Selected Readings. Rand McNally, Chicago. _____ (1971). "Tesis Validation", en Thornike, R. (ed.); Educational
92
MDULO I
EVALUACIN EDUCATIVA
Measurement. American Council of Education, Washington. pp. 443-507. Cuadras, C. (1981). Mtodos de anlisis multivariado. Eunibar, Barcelona. De la Orden, A. (1985). Anlisis causal. La Investigacin Educativa, Madrid. Fiske, P. (1971). Measuring the Concepts of Personality. Aldine, Pub., Chicago. Garca-Ramos, J. (1984). Validacin y medida del constructo; dependenciaindependencia de campo perceptivo. Tesis doctoral. Universidad Complutense, Madrid. Glass, G. (1977). "Integratin Findings. The Meta-analysis of Research", en Review of Research in Education. Nm. 5. Haertel, E. (1985). "Construct Validity and Criterion-Referenced Testing", en Review of Educational Research. 5, 1. Joserskog, K. (1983). LISREL V y VI. Universidad Uppsala, Sweden. Kerlinger, F. metodologa. Magnuson, (1973). Investigacin del comportamiento. Interamericana, Teora de los tests. Tcnicas y Mxico. Mxico.
D.
(1966).
Trillas,
Martnez, A. (1981). "Validez de constructo", en Fernndez Ballesteros. Evaluacin Conductual. Pirmide, Madrid. Megarges, E. (1971). Mtrica de la personalidad. Trillas, Mxico.
Mischel, W. (1977). Personalidad y evaluacin. Trillas, Mxico. Nunnally, J. (1978). Psicometric Theory. McGraw-Hill, New York.
Prez-Juste, R. (1983). Pedagoga experimental. Unidad Didctica, Madrid. Popham, W. (1990). Problemas y tcnicas de la evaluacin educativa. MadridAnaya. Slavin, R. (1984). "Meta-analysis in Education: How has it been used?", en Educational Researcher. Psychological Bulletin. Nm. 83. USA. Witkin, H. (1977). "Field Dependence Revisted", en Princeton. Educational Testing Service. Research Bulletin. USA.
93

EVALUACION

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

EVALUACION

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL DE EDUCACIN ENRIQUE GUZMN Y VALLE Alma Mter del Magisterio Nacional

Mg. Lourdes Castaeda Solrzano 2012

Figura N 1: Componentes de la motivacin

Percepciones de dificultad de la tarea ......................... Competencia percibida especifica de la tarea

Autorregulacin Eleccin Persistencia

Creencias de eficacia, resultados

control Expectativas de xito

3. FUNDAMENTOS DE LA TEORA DE LA MEDICIN

4.1.5.1 Como se construye una escala Likert lourdesreyna1613@hotmail.com 34

Subgerente o superintendente Jefe Empleado A Empleado B Empleado C Intendencia

Para estar al da en tu puesto de trabajo, la experiencia profesional es insuficiente.

EJEMPLO DE CONSTRUCCION DE UNA ESCALA LIKERT

1,5,9,13,17,21,25,29 4 2,6,10,14,18,22,26,30 6 3,7,11,15,19,23,27,31 5 4,8,12,16,20,24,28 3 1 al 31 18

EHAM -U <Me >Me d d 1 5 40 28 53 14 26 13 10 18 3 7 2 3 0 2 0 1

TD D I A TA 31. Las matemticas no son difciles para m. TD D I A TA

La validez de constructo en educacin. Alcances y lmites Gustavo Rosales Estrada* Introduccin

También podría gustarte