Está en la página 1de 16

Repblica Bolivariana de Venezuela Ministerio de Educacin Superior Vicerrectorado Acadmico Universidad Bicentenaria de Aragua Faculta de ciencias Administrativas y Sociales

Escuela de Psicologa San Joaqun de Turmero

Confiabilidad y Validez
Prof. Arqumedes Ramrez Autores: Margret Montero C.I. 22.344.723 Jos Miguel Dona C.I. 24.387.127 Susana lvarez C.I. 19.586.975 Evelin Benavides C.I. 19.724.867 Anthony Simone C.I. 19.793.071

San Joaqun de Turmero, 19 de Julio de 2011

Introduccin

La palabra estadstica se deriva del latn Status que en la poca medieval se traduca como estado poltico, el significado de la estadstica era la exposicin sistemtica de las caractersticas ms destacadas del estado. Esta se ha utilizado desde los comienzos de la civilizacin, as pues, desde la antigedad ya se utilizaban formas sencillas de estadstica, como por ejemplo, representaciones grficas y otros smbolos en pieles y paredes de curva para contar el nmero de personas, animales y cosas.

Hoy en da la estadstica se ha convertido en un mtodo efectivo para describir con exactitud los valores de datos econmicos, polticos, sociales, biolgicos, Psicolgicos y fsicos, de una determinada poblacin. A raz de la estadstica nace una nueva ciencia llamada Psicoestadistica y de ella la Psicometra esta nos sirve como herramienta para seleccionar y analizar datos, en ciertos campos (psicologa sanitaria, social, experimental, neurociencias, etc.) por esta razn se hace necesario conocer una serie de elementos que intervienen de manera muy directa en los diferentes procesos Psicomtricos, los cuales algunos de estos elementos han sido investigados, para la elaboracin de el presente trabajo escrito. Los puntos destacados son: la confiabilidad y validez, temas que facilitan al psiclogo la implementacin de test, anlisis de los resultados y su clasificacin, destacando que la confiabilidad es un aspecto vital en los tests, ya que sin esta no se puede aplicar un test, no obstante es importante la validez ya que esta nos permite medir el propsito del test, sin embargo la confiabilidad es una condicin necesaria, pero no suficiente para la validez, esto quiere decir que una prueba o test puede ser confiable sin ser vlida, y no puede ser vlida sin ser confiable.

Para realizar este trabajo escrito tambin se usaron muchos conocimientos adquiridos en nuestros estudios, la utilizacin de fuentes de internet, libros tales como test psicolgicos y evaluacin, entre otros instrumentos de investigacin.

La validez y confiabilidad Validez Desde el punto de vista psicomtrico, la validez es el resultado de un proceso de recopilacin de evidencias empricas sustentado en supuestos tericos que, en suma, permiten emitir un juicio valorativo que afirme la pertinencia y la suficiencia de las interpretaciones basadas en los resultados de una prueba. Este juicio no depende nicamente de los temes de la prueba, sino tambin de la muestra sobre la que se efecte el test, y del contexto de aplicacin. Esta es la capacidad de un instrumento de medicin para cuantificar de forma significativa y adecuada el rasgo para cuya medicin ha sido diseado. De esta forma, un instrumento de medida es vlido si realmente mide aquello que pretende medir. Parsons seala que "la condicin ms decisiva para que un anlisis dinmico sea vlido, es que cada problema se refiera continua y sistemticamente al estado del sistema considerado como un todo" (en: Lyotard, 1989, p. 31). As, para Messick (1984, pp. 741), la validez unificada integra consideraciones de contenido, criterio y consecuencias en un marco de referencia de constructo para la evaluacin emprica de hiptesis racionales acerca del significado de las puntuaciones y de relaciones relevantes desde el punto de vista terico, incluyendo las de naturaleza cientfica y aplicada Tipos de Validez Existen diversos tipos de validez, estos mantienen una relacin de influencia recproca y conforman las diversas partes de un todo, que es lo que conocemos de forma genrica como "validez".

Validez de contenido La validez de construcciones es la ms importante, trata de establecer una medida operacional para los conceptos usados; en el campo psicolgico, por ejemplo, se tratara de que el instrumento mida la propiedad o propiedades psicolgicas aisladas que subyacen a la variable. Esta validez no es fcil de entender, ya que se encuentra inmersa en el marco de referencia cientfico de la investigacin y su metodologa. stos son los que le dan sentido. Se dice que una prueba o test cumple con las condiciones de validez de contenido si constituye una muestra adecuada y representativa de los contenidos y alcance del constructo o dimensin a evaluar. En el campo de la psicologa no siempre es posible disponer de poblaciones de contenidos bien definidas (por ejemplo, si se pretenden medir variables psicolgicas clsicas, como la extraversin, la inteligencia o el liderazgo). En estos casos suele recurrirse a un anlisis racional de tems, consistente en la evaluacin de los contenidos del test por parte de un grupo de expertos en el rea a tratar. La validez de contenido es esencial a la hora de realizar inferencias o generalizaciones a partir de los resultados del test. Un caso particular de la validez de contenido es la denominada validez aparente; una prueba posee una validez aparente adecuada cuando produce en los sujetos a los que se aplica la impresin de que efectivamente es una prueba adecuada. Validez predictiva Tambin conocida como validez relativa al criterio o validez de pronstico, se refiere al grado de eficacia con que se puede predecir o pronosticar una variable de inters (criterio) a partir de las puntuaciones en un test.

As pues, la operacionalizacin del concepto se realiza a partir del denominado coeficiente de validez, que es la correlacin entre el test y el criterio. A mayor correlacin, mayor capacidad predictiva del test. Existen distintos diseos experimentales que permiten determinar esta correlacin. La eleccin de un diseo u otro depender de las necesidades y circunstancias especficas de cada caso:

Validez concurrente o simultnea: El test y el criterio se miden al mismo tiempo. Puede utilizarse para validar un nuevo test por comparacin con otro ya validado previamente.

Validez de pronstico: El criterio se mide pasado un periodo de tiempo tras la aplicacin del test. Es el tipo ms habitual en los procesos de seleccin de personal, en los que se pretende predecir el rendimiento futuro de los sujetos.

Validez retrospectiva: El test se aplica un tiempo despus del criterio que se pretende evaluar. til cuando se pretende dilucidar mediante una prueba algn aspecto del pasado que actualmente no es accesible. La frmula general del coeficiente de validez es:

Donde "x" hace referencia a las puntuaciones obtenidas en el test, e "y" hace referencia a las puntuaciones obtenidas en la variable criterio.

Validez de constructo Para Messick (1980; p.1015) la validez de constructo es el concepto unificador que integra las consideraciones de validez de contenido y de criterio en un marco comn para probar hiptesis acerca de relaciones tericamente relevantes. Asimismo, Cronbach (1984; p.126) refiere que la meta final de la validacin es la explicacin y comprensin, y por tanto, esto nos lleva a considerar que toda validez es validacin de constructo. Los procedimientos metodolgicos ms utilizados para la obtencin de datos referentes a la validez de constructos psicolgicos han sido el anlisis factorial y la matriz multirrasgo - multimtodo. Validez convergente-discriminante Este tipo de validez se determina a partir de los resultados arrojados por la matriz multirrasgo - multimtodo (diseo MRMM, sistematizado por Campbell y Fiske en 1959). El sistema consiste en realizar mediciones de varios rasgos con distintos mtodos de medicin. De este modo podemos encontrarnos con varios resultados.

Validez convergente: existe validez convergente cuando las mediciones del mismo rasgo realizadas con distintos mtodos correlacionan entre s. El hecho de que un mismo rasgo sea detectado por igual con varias metodologas diferentes, es un indicador fiable de la existencia real de ese rasgo. Se dice que en este caso, las medidas convergen.

Validez discriminante: se refiere al grado de diferenciacin entre distintos constructos a partir de un nico sistema de medicin. Es decir, las medidas de

distintos rasgos por el mismo mtodo muestran una baja correlacin en comparacin con la que muestran las medidas del mismo rasgo con diferentes mtodos, seal de que los rasgos son independientes entre s, e independientes al sistema Muiz, Jos (1998). Confiabilidad. La confiabilidad en el instrumento psicomtrico mas que ser una caracterstica de una prueba, es una propiedad en las puntuaciones obtenidas cuando se administra la prueba a un grupo particular de personas en una ocasin determinada y bajo condiciones especficas. (Thompson, 1994, p. 85) Tambin la confiabilidad tiene dos caras, una interna y otra externa: hay confiabilidad interna cuando varios observadores, al estudiar la misma realidad, concuerdan en sus conclusiones; hay confiabilidad externa cuando investigadores independientes, al estudiar una realidad en tiempos o situaciones diferentes, llegan a los mismos resultados. En las ciencias humanas es prcticamente imposible reproducir las condiciones exactas en que un comportamiento y su estudio tuvieron lugar. Ya Herclito dijo en su tiempo que "nadie se baaba dos veces en el mismo ro"; y Cratilo le aadi que "no era posible hacerlo ni siquiera una sola vez", ya que el agua est fluyendo continuamente (Aristteles, Metafsica, iv, 5). La Confiabilidad est orientada hacia el nivel de concordancia interpretativa entre diferentes observadores, evaluadores o jueces del mismo fenmeno. Se considera un buen nivel de esta confiabilidad cuando alcanza un 70%. La confiabilidad interna es muy importante. En efecto, el nivel de consenso entre diferentes observadores de la misma realidad eleva la credibilidad que merecen las

estructuras significativas descubiertas en un determinado ambiente, as como la seguridad de que el nivel de congruencia de los fenmenos en estudio es fuerte y slido. La Teora Clsica de los Tests En el marco de la Teora Clsica de los Tests, segn el modelo lineal clsico propuesto por Charles Spearman (1904, 1907, 1913); la puntuacin emprica (X) que obtiene un sujeto en un test, es la suma de dos componentes: la puntuacin verdadera (V) y el inevitable error de medida asociado al instrumento. Es decir, si a la puntuacin emprica (obtenida en la prueba) se le elimina el error de medida, se obtendr la puntuacin verdadera. En este contexto, la fiabilidad hace referencia a la proporcin de la varianza verdadera, es decir, la parte de la varianza total que los tems discriminan por lo que tienen en comn. Siguiendo este razonamiento, obtendramos:

Donde xx' es el smbolo de la fiabilidad de las puntuaciones observadas (X); y , ,y son las varianzas de las puntuaciones

empricas, verdaderas y de error, respectivamente. Dado que no existe modo alguno de determinar la puntuacin verdadera directamente, existe una serie de mtodos para realizar una estimacin de la fiabilidad. Pruebas Paralelas Este procedimiento es el que se deriva naturalmente del modelo. Requiere que se utilicen dos pruebas o instrumentos paralelos, esto es, que midan lo mismo de forma diferente (por ejemplo, dos tests que con diferentes preguntas midan un determinado rasgo). Despus se comparan los dos tests, calculando el coeficiente de

correlacin de Pearson. Si la correlacin es alta, se considera que hay una buena fiabilidad. Al valor obtenido tambin se le conoce como coeficiente de equivalencia, en la medida en que supone un indicador del grado de equivalencia entre las dos formas paralelas de un test. La dificultad de este procedimiento radica en conseguir que dos instrumentos sean realmente "paralelos", dada la dificultad que supone realizar dos pruebas que midan exactamente lo mismo, pero con diferentes tems. No obstante, en condiciones ideales en las que se pueda garantizar el paralelismo de ambas formas, este es el mtodo ms recomendable. En estadstica, el coeficiente de correlacin de Pearson es un ndice que mide la relacin lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlacin de Pearson es independiente de la escala de medida de las variables. En el caso de que se est estudiando dos variables aleatorias x e y sobre una poblacin estadstica; el coeficiente de correlacin de Pearson se simboliza con la letra x,y, siendo la expresin que nos permite calcularlo:

Dnde:

XY es la covarianza de (X,Y) X es la desviaciones tpicas de la variable X Y es la desviaciones tpicas de la variable Y

Tambin se puede calcular este coeficiente sobre un estadstico muestral, denotado como rxy a:

Interpretacin El valor del ndice de correlacin vara en el intervalo [-1,1]:

Si r = 1, existe una correlacin positiva perfecta. El ndice indica una dependencia total entre las dos variables denominada relacin directa: cuando una de ellas aumenta, la otra tambin lo hace en proporcin constante.

Si 0 < r < 1, existe una correlacin positiva. Si -1 < r < 0, existe una correlacin negativa. Si r = -1, existe una correlacin negativa perfecta. El ndice indica una relacin inversa: cuando una de ellas aumenta, la otra disminuye en proporcin constante. Test-retest

Con este mtodo el coeficiente de fiabilidad se calcula pasando mismo test dos veces a los mismos sujetos. Se pueden pasar inmediatamente, o dejando un intervalo de tiempo entre el test y el retest. Despus se calcula la correlacin de Pearson entre las puntuaciones de ambas aplicaciones, y el resultado obtenido ser el coeficiente de fiabilidad. Se considera un caso especfico de formas paralelas, dado que evidentemente un test es paralelo a s mismo. Al resultado obtenido se le denomina coeficiente de estabilidad, al servir de indicador de hasta qu punto son estables las mediciones realizadas durante la primera aplicacin del test. Las diferencias en los resultados se atribuyen al grado de consistencia interna o muestreo de los tems de la prueba en el caso de pasar el retest de forma inmediata, y se le suman las fluctuaciones en el tiempo en el caso del intervalo temporal. Dejar transcurrir un espacio de tiempo excesivo entre ambas aplicaciones puede

suponer una amenaza a la validez interna por las posibles influencias externas a la que pueden estar expuestos los sujetos durante el intervalo, y que pueden afectar a su desempeo en la segunda aplicacin. En el extremo opuesto, una aplicacin demasiado apresurada del retest podra afectar igualmente a la validez interna, en este caso por los posibles efectos del recuerdo reciente de la primera aplicacin. La eleccin del intervalo de tiempo adecuado entre ambas aplicaciones depender en gran medida del tipo de test, ya que en funcin de su formato puede ser ms sensible al efecto de una u otra amenaza. Dos mitades Este mtodo slo requiere una aplicacin del test. Tras obtener las puntuaciones obtenidas por los sujetos en cada una de las dos mitades en que se habr dividido, se procede a calcular la correlacin entre las dos puntuaciones. El resultado obtenido ser un indicador de la covariacin entre ambas mitades, es decir, de la consistencia interna del test. Un sistema habitual es dividir el test entre los tems pares y los impares; no es recomendable dividirlo sin ms por la mitad, dado que muchos tests muestran un incremento gradual de la dificultad de sus tems. Otros mtodos basados en la consistencia interna

Alfa de Cronbach (1951): El coeficiente alfa () es un indicador de la fiabilidad de un test basado en su grado de consistencia interna. Indica el grado en que los tems de un test covaran.

Coeficientes de Kuder-Richardson (1937): Se trata de dos frmulas aplicables a sendos casos particulares de alfa. KR20 se aplica en el caso en que los tems del test sean dicotmicos, y KR21, en el caso de que adems de ser dicotmicos, tengan la misma dificultad.

Mtodo de Rulon (1939): Una estimacin de la fiabilidad de un test a partir de las puntuaciones obtenidas en sus dos mitades. Considera que la diferencia entre las dos mitades se debe slo al error aleatorio. Formula de Rulon: 2 2

= 1

Mtodo de Guttman/Flanagan (1945/1937): Otra frmula basada en la consistencia interna, equivalente a la de Rulon. Coeficiente beta (): Propuesto por Raju (1977) para calcular la fiabilidad de una batera compuesta por diversos subtests. En los casos en los que se desea calcular la fiabilidad de una batera, se trata a los distintos subtests como si fueran los tems de un nico test y se calcula el coeficiente alfa global. El problema surge en los casos en los que los distintos subtests no tienen el mismo nmero de tems, lo que suele ser lo ms frecuente, y que repercute en una infraestimacin del alfa global. El coeficiente beta permite sortear esta infraestimacin.

Coeficientes theta () y omega (): Basados en el anlisis factorial de los tems, son indicadores de la consistencia interna similares al coeficiente alfa. El coeficiente theta fue desarrollado por Carmines y Zeller (1979); y el coeficiente omega fue desarrollado por Heise y Bohrnstedt (1970).

Conclusin

La confiabilidad se refiere a la libertad relativa que tienen las calificaciones de las pruebas de los errores de medicin por tal esta se define como la razn de la varianza de las calificacin real en una prueba con la varianza de su clasificacin observada.

Tres mtodos tradicionales para estimar la confiabilidad de un instrumento de evaluacin son: test retest, pruebas paralelas y de dos mitades.

La confiabilidad a su vez es una prueba que vara directamente con el nmero de reactivos del grupo que la presenta. Tambin vara con el nivel de dificultad de los reactivos que componen la prueba, siendo ms alta con reactivos de dificultad intermedia.

La validez es el resultado de un proceso de recopilacin de evidencias empricas sustentado en supuestos tericos que, en suma, permiten emitir un juicio valorativo que afirme la pertinencia y la suficiencia de las interpretaciones basadas en los resultados de una prueba.

La informacin sobre la validez de una prueba puede obtenerse de varias maneras: analizando el contenido de la prueba (validez de contenido), correlacionando las calificaciones del test con calificaciones en un criterio medidas al mismo tiempo (validez concurrente), correlacionando las calificaciones de la prueba en un criterio, medidas en un momento posterior (validez predictiva) y por el estudio sistematico de lo adecuado de la prueba para valorar un constructo psicolgico especificando (validez de constructo). La validez concurrente y la de constructo son importantes para las pruebas de personalidad.

Las pruebas psicolgicas se aplican con propsitos de seleccin, clasificacin, promocin y valoracin peridica, en algunos de los procedimientos estadsticos que se utilizan son tablas de expectativas, razones de seleccin, mtodos de limites mltiples y regresin mltiple.

Recomendacin

La continuacin de la investigacin de los temas tales como confiabilidad y validez a los futuros estudiantes de psicologa con respecto a los temas pertenecientes a la asignatura de psicometra I, por ser un tema de suma importancia para el desarrollo de test y evaluaciones psicolgicas.

La formacin de psiclogo depende del buen desarrollo de los temas de psicometra I, y el profesionalismo de los docentes en la explicacin y evaluacin de los contenidos asignados para tal materia, como es el caso del profesor Arqumedes Ramrez, que motivo a la investigacin y estudio de estos temas tan importantes para el psiclogo.

Bibliografa

Tests psicolgicos y evaluacin, editorial: Pearson Educacin, 2003 Mxico Teora clsica de los tests (5 edicin). Editorial Pirmide.1998. Madrid Papeles del psiclogo Edicin empleado Espaa (Consejo General de Colegios Oficiales de Psiclogos) publicado el 16 de febrero de 2011. Aristteles (1973). Obras completas. Madrid: Aguilar.