Está en la página 1de 79
CAPITULOI LAS PRUEBAS PSICOLOGICAS Son muchas las definiciones propuestas para el término "prueba psicolégica”. Sintetizandolas, puede considerarse que una prueba psicolégica es un instrumento de medicién psicolégica que posee tres caracteristicas fundamentales: 1, Sirve de estimulo para extraer un segmento de la conducta de un sujeto. 2. Es rigurosamente estandarizado, o sea se construye, se administra y se califica segiin reglas preestablecidas. 3. Permite comparar estadisticamente la conducta de un sujeto con un grupo de sujetos de una poblacién definida y clasificarla cuantitativa, cualitativa y/o tipolégicamente. Asi, la medicion de una conducta implica "la utilizacion de determinados procedimientos (operaciones), segin reglas especificadas, para obtener como resultado la asignacién de valores numéricos a la ejecucion de una persona" (Brown, 1980, p8) La funcién basica de las pruebas psicoldgicas es medir diferencias de conducta entre los individuos o diferencias en la conducta de un , 1978). mismo individuo en distintos momentos (Anastasi. A. ORIGENES Aunque puede considerarse que Platon y Aristételes fueron los pioneros de la medicién psicoldgica, ésta adquirié importancia en el siglo XIX, con el aumento de la preocupacién por la identificacién y clasificacion de retrasados mentales. La obra publicada en 183 8, por el médico francés Esquirol, 17 sobre retraso mental, sus procedimientos para constituir algtin sistema de clasificacion de los diferentes grados de retraso y las ‘éenicas de adiesiramiento muscular y de los sentidos propuestos por Seguin en 1866, constituyeron los primeros pasos para la claboracién de una medida de la inteligencia, Sin embargo, fue Galton, en Inglaterra, quién, interesado en. estudiar ln hereneia humana, ided las primeras peucbas, para que feran utilizadas on el laboratorio antzopométricn que estableeié cn Ta Exposicidin Internacional de 1884, Estas, eran prucbas sensomotoras que median basicamente agudeza visual y auditiva, energia muscular, tiempo de rescci6n, ete. El ereia que las ‘mismas podian servir para medir la capacidad intelectual. Galton ‘contribu aun al desarrollo de métodos estadisticos para analisis de datos sobre las diferencias individuales y estuvo entre los primeros a aplicar las escalas de estimacidn (rating seales), los nétodes de cuestionario y la tenica de asociaci6n libre. En sus libros £/ genio Heredado e Investigaciin del desarrollo de las facultades Ihumanas relat sus ideas sobre las diferencias individuales y sus primeros intentos por medirlas. La expresion rest menial apareci® por primera vez en un articulo escrito por el psicblogo amenicano Cattell en 1890, donde describia las pruebas aplicadas a estudiantes universitarios para evalua su nivel intelectual. Fstas pruchas median capacidades sensorisles y otras funciones simples como: velocidad de movimiento, sensibilidad al dolor, energia muscular, agudeza de la vista y del oido, diseriminacin de ‘pesos, tiempo de reaccidn, memoria, ete En este mismo periodo, el psicdlogo experimental Alfred Binet, investigo activamente, junto con sus. colaboradores, ‘métodos de evaluacion de la capacidad intelectual. Pero fue en 1905 que, comisionada por la Seeretaria de Fdueacién Publica el gobierno franeés para estudiar la educacién de is nifos retrasados mentale, elaboro junto eon Simon la primera scala Binet-Simon, Esta escala contenia 30 problemas en orden reciente de dificultad que median, cntre otras, fnciones como: 'y comprension. En la segunda eseala (1908), se aument6 ef némero de test algunos de la primera version considerados no satisfactories. ‘Ademis, se agruparan los tests en niveles de edad, lo que permitié que li puntuacidn obtenida por un nif puaiors sr expresada como una edad mental (edad de los nios normales cuya ejecucidn se igualaba). La 3* version (1911) presents cambios menores: se afadieron tests en varios niveles de edad y la eseala se oxtendié hasta el nivel adulto, El Binet-Simon obtuvo gran éxito, habiend sido traducido y adapiado a varios ‘idiomas. La revision mas conocida fue realizada en E. U. A. por ‘Terman en la Universidad de Stanford y se Hams Stanford-Binet (1916), En esta kim fue wilizada por primera vez la nocion de cociente de inteligencia (C.L) obtenido por la Formula: €. [Edad Mental/ Edad cronologiea x 100. Otra revision fue hecha cn 1912 por Kuhimana, quien extendié a eseala hasta el nivel de eda de 3 meses. Con el desarrollo de los tests surgieron las primeras oficinas de Oriomacién Voeacional: Munich (1902), Francia (1906), E.UA. (1908), Bagiea (1914), Espaia (1916), Inglatema (1920), ete Los tests colectivos de inteligencia aparecieron en 1917, ‘cuando los E. U. A. decidieron participar en la primera guerra mundial y necesitaron clasificar intelectualmente millén y medio de reclutas, Los mis utilizados fueron el Alfa y Beta, el ‘primero se destinaba a la poblacién general y el segundo era empleado con analfabetos y extranjeros que no dominaban el inglés. La segunda revision del Beta (Beta II-R) es utilizada actualmente ‘Apparti de la primera guerra las prucbas psicologicas io experimentaron aun gran avanee. Ademis de los tests de intetigencia, que eran principalmente verbales, se desarrollaron tests de aptitudes espevifiens, de rendimiemto y de personalidad Los tests de aptitudes especifieas fueron construidos sobre todo para Ia orientacion y- selocciin profesional, Los mm ulilizados median aptitudes mecinicas, burocriticas, musicales y anisticas, Los avances metodologicas, principalmente el Analisis Factorial, aportaton mucho a la elaboracio de tests y en especial al desarrollo do las haterias de aptitud maltple, que aparecieron a partir de 1945, Otra vez la labor de los psiedlogos: mifitares en la segunda guerra mundial fue determinante para la cevolucidn de las pruebas psicolégicas. B.TIPOS DE PRUEBAS Las pruchas psivologicas pueden clasificane desde diversos puntos de vista, Compilando las ideas de algunos autores (Morales, 1973; Anastasi, 1978; Brown, 1980) se proponen las siguientes dimensiones de elasificacion: Li Sewin la condi que mien: + Pruchas de inteligencia + Prucbas de aptitudesshabi + Pruchas de personalidad temperament + Pruebas de intereses/preferencias + Prucbas de valores + Pruchas de actinides + Pruchas de rendimiento + Pruchas psicomotoras + Pruchas simacionales 2) Segiin eb abjotisa Pruchas de potencia o ejecucién maxima - Fxigen del cexaminado su miximo rendimiento en las distintas tareas que ‘componen la prueba. Este es el caso de las pruebas de inteligencia, habilidades, aptitudes especificas o miltiples y de rendimiento ~ Pruchas de ejeeucidn 0 rasgos (ejecucion tipica) - Fsias también son llamidas pruebas de chsifieacién tipolégica 0 cuulitativa, En esta elasificucién se sittin las es inventarios de personalidad, tests de ajuste, de temperament ue intereses o preferencias, de valores, de actitudes, proyectivas, pruebas situacionales, etc. 3) Sevion MaJaa 0 ebsipo de vespueste exteid + Pruchas objetivas - Son aquellas en que ef examinado lige una respuesta entre varias alternativas (reactivos de comparacién, verdadero/falsoo eleccion miltiple). Este es celeaso de las pruzbas de inteligencia y aptitudes. = Pruebas subjetivas - Son aguellas en que el sujeto pproporciona libremente la respuesta, como en las prucbas de personalidad, especialmente en las proyeetivas como Rorschae! ‘TAT (Prueba de Apercepcion Temitica), Frases Incompletas de Sacks, te 4) Sega Ladue de donisoracin: + Pruebas de aplic + Pruebas de aplic + Pruebas autoadministrables 5) Sewia du tibertad de sce: * Pruebas de poder - Son auellas que exigen que el sujeto cemplee toda su capacidad, realice lo mas que pueda. El tiempo limite a voces es conirolata, pero cuando esto sucede, se considera que éste es suficiente para que el sujeto demuestre su ‘maxima eapacidad, Pruchas de velocidad - Son las que exigen que el sujeto —— ejecute Ia tarea asignada, lo mas ripido posible. La duracin de la prueba es rigurosamente controlada, existe un tiempo limite strict, Sent sal il + Prueba de lipiz-papel + Prueba completamente verbal + Prucbatde gjecucidn (material visomotor) + Pruchas mixtas (combinacidn de diferentes materiales) 7) Sein La darma de dar las nstrcciones + Onles + Bseritas 8) Sewiia a forma de utistin: + Manual + Informatizada 9) Sexin (a pablaciin a la gue se destina: + Pruchas para hobés (haby-tests) + Prucbas para niios preescolares + Pruchas para nfios escolares: + Pruchas para adoleseentes + Prucbas para adults + Pruchas que se aplican a das 0 més etapas del desarrollo ‘Una prucha psicoligiva combina varias de estas dimensiones (de imtcligencia, para adultos, de poder, verbal, ete.) o diferentes aaspectos de una misma dimension (prueba verbal y de ejecue para adolescentes y adultos, etc.) C.USOS DE LAS PRUEBAS Una prucbapsicologica puede ser empleada con diferentes fi + Evaluacién: por ejempl ARR de evatuarse el rendimiento académico de alumnos. + Clasificacién: cuando, por ejemplo, se clasifica intelectualmente a los nifios de un determinado grado escolar, + Selecci6n: cuando se seleccionan candidatos para un puesto o alumnos para ms + Diagnostico: cuando se busca estudiar areas del comportamiento de un sujeto para detectar o no dificultades especificas. + Investigacién: cuando se busea verificar hipétesis, como por ejemplo, si el nivel de ansiedad de jovenes rogadictos es mas alto que el de jovenes no drogadictos. Se constata pues. que las prucbas psicoldugics dis ceducacional, industrial y social. Algunas son especificas de tuna sola area, otras pueden servir a cualquicra de ellas. En el area clinica, las pruebas no solo son utilizada basi-camente para diagnosticar—aspectos del comportamiento normal y patolgico, sino también para evaluar intervenciones terapeuticas. Fn el Grea escolar, som muchos los empleos: clasificacion de alumnes (nivel intelectual, rendimiento escolar), homogencidad de los grupos. deteccién de problemas de aprendizaje, orientacién vocacional, evaluacién psicomotora, etc. En el tea industrial son utilizadas para. seleccién, clasificacion y promocién de personal, evaluacion de capacitacion, evaluacion de productivided y calidad del trabajo, evaluacién de la propia organizacién, et. En el Area social son empleadas sobre todo para comprender y evaluar los procesos grupales y los patrones culturales y sociales. inalmente, en cualquiera de estas areas las prucbas psicologicas pueden ser unilizadas con fines de investigacién cientifica - — 1D. ASPECTOS ETICOS Son muchas las medidas adoptadas para controlar el uso inadecuado de las pruebas psivologicas. El Cédigo de Etica Profesional del Psicdlogo Ethicul Principles of Psycholo-gists and Code of Conduct ¥ el Standards for Educational and Psschological Testing, ambos editados por la A.P.A. (American Psychological Association), comtienen varios principios que roglamentan Ia publicacién, distribueim y-utilizacién de las pruebas psicologicas. Todo psicdlogo debe tener conocimiento de estos principios y euidar que los mismos sean rigurosamente ccumplidos, puesto que, som éstos los que permiten conservar la credibilidad en las prucbas. En seguida se mencionan algunos ‘puntos éticos importantes apuntades por Anastasi (1978): + La venta, distribucion y utilizacion de los tests debe restringirse a personas califieadas para ello, + No debe venderse un test en el mercado sin que éste este jentemente validado a través de Investigaciones, + No deben publicarse en periédico, revista o libro popular, ni tests ni parte de ellos, + No deben realizarse tests por correo, ni tampoco enviar resultados de los mismos. + La aplicacién, caliticacién, interpretacibn y cormunicacién de los resuliados de tests debe ser realizada por persona debidamente calificada y entrenada. + Todo west debe disponer de un mi informaciones detalladas. sobre su aplicaci interpretaciOn, dates precisos de confiabilidad y validez, ademas de alas de normas con informacién sobre el nimero y naturaleza de los sujetos a partir de los euales las mismas se cstablecieron, El manual debe ser una exposicion objetiva sobre cl test y no un instrumento de publicidad que busque presentaclo de manera mas favorable. + Es impreseindible aclarar al examinado sobre el objetive dl tes y a forma en que seran utilizados sus resultados, + Los resultados obtenidos en un test solo pueden ponerse & disposieiin de tereeros bajo dos condiciones: a) el examinado debe consentir que se proporeione la informacidin; b) Ia persona a la que se transite debe tener una necesidad legitima de la informacion (por ejemplo, profesores o futuros patrones). Sin embargo, hay algunos easos especiales, coma: a) en circunstancias que puedan implicar peligeo para un individuo o sociedad, el psicdlago tiene obligacién de revelar la informacion a proesionales 0 autoridades piilicas; b) el psicologo esta obligado a revelar la informacion de un west a los padres © guardianes de un menor o a las autoridades de su escuela Los puntos arriba mencionados no agotan tas medidas propuestas en el Cédigo de Etica Profesional del Psivlogo. demas, cada uno de ellos implica discusiones éticas importantes y debe ser sujeto de reflexion por parte de todo psicdlogo o estudiante de Psicologia. Proteger la imimidad de sus clientes y la eredibifidad de su material de trabajo es parte dl quehacer profesional del psicologo. Reforenci bibliogriticas Anasiasi, A. (1978). Tests psicoligicos (3° ed, 4* reimpresion) ‘Madrid: Editorial Aguilar, Brown, F.G. (1980). Prineipios de medicién en Psicologia y Educacion, México D.P.: Editorial El Manual Moderno, Morales, ML. (1993). Psicometria Aplicada (2 ed., 2 reimpre- sion) Mexico D.F-: Editorial Trllas. CAPITULO IL CONSTRUCCION Y EVALUACION DE LAS PRUEBAS PSICOLOGICAS Toda prueba psicolégica es construida de tal manera que represente 0 pueda predecir una determinada conducta. Segiin Brown (1980) una prueba psicolégica es una representacién cuando sus reactivos son similares a la conducta que desea medir y es predictiva cuando sus reactivos, aunque no son similares a la conducta, pueden predecirla Por lo tanto, la construccién de los reactivos de una prueba es fundamental, asi como su analisis y comprobacién. Conocer exactamente lo que se quiere medir es muy importante para la cconstruccién de "buenos reactivos". Al elaborarse una prueba, se proponen inicialmente una buena cantidad de reactivos, de los cuales solo se quedan aquellos que realmente miden lo que se pretende medir. Bacher (1981) advierte sobre los crores sistemiticos ‘queocurren en la construccién de reactives y hace varias sugerencias, entre ellas: (a) el vocabulario debe ser simple, accesible a todos, (b) se deben evitar los términos técnicos y palabras cuyo sentido varie segin la regidn o el grupo social, (c) se deben evitar formulaciones. muy abstractas pues pueden ser mal comprendidas, (d) se deben evitar reactives muy largos, sobre todo cuando son formulados en la forma interrogativa o cuando contengan negaciones, (d) en la formulacién de los reactivos, se debe evitar favorecer determinadas respuestas volviendo las demas menos probables, (e) no debe figurar en la formulacién de un reactivo mas de una idea pues, es imposible saber a cual de ellas contesta el sujeto. a de las pruebas sino informar sobre los diferentes procedimientos de evaluacion y comprobacidn de las ‘mismas, para que se puedan analizar los limites de éstas, A.ANALI DE LOS REACTIVOS Y COMPROBACI Elprimer procedimiento para analizar los reactivos de una prueba cconsiste en aplicarsela una muestra de personas, similares a las ‘que se pretenden examinar con [a misma, para verificar la roaceiin de éstas ante el instrumento, Con esta aplicacién puede verifiearss el nivel de dificultad de la. prucha, ol diseriminacién de sus reactivos asi como ambigiiedades El nivel de dificultad de la prueba depende de sus re de su distribucion en la prueba (Anastasi, 1978). Este puede ser ficado a través de la distribucion de las puntuaciones totales de una muestra de sujetos. Un nivel de dificultad normal proporeiona una curva de distribucién de las puntuaciones: Semejante a la curva normal (ligura 2.1), donde hay una acumulaeion de sujetos en el centro (puntuaciones medianas) y luna disminucién gradual de sujetos al acerearse de los extremos de la curva (puntuaciones altas 0 baja). ndmero deeases ‘pontuationes Figura 2.1: Curva de disteibucton normal Sila prucha es muy dificil, la curva de distribueiéin de las puntuaciones de los sujetos presenta una acumulacign en el extreme inferior o sea grin mimeno de sujetos con puntuaciones hajas (Figur 2.2), Esta indica que faltan la prucha suficientes raetives Files. in embargo, cuando la prucha es muy fil la acumen de puntuaciones seda en el extremo superior (puntuaciones alta) y por lo tanto le falta reactivos dificiles (Figura 2.3). Figura 2.2 Figura 2.3 Distribucion desviada Distibueion desviada (ala izquierda) (ala Derecha) ‘Cuando sucede uno de los dos casos arriba mencionadas sucks ‘modificarse el nivel de dfeultad de la prueba hasta que la grt de distribucidn de las puntuaciones se aproxime a la eurva normal Para tal, se pueden afladir reactivos mis faciles © mis dificiles, ‘cambiar la posicidn de reactivos, eliminar modifiear reactivos, revisar pesos o ponderaciones de las puntiveiones asimadas a ddoterminadas respuestas, ete. (Anastasi, 1978) La veriticaeidin del poder diseriminative de los reactivos es noch a través de un analisisestadistico que "indie Ia amplivud eon a que el reactivo mide lo que debe medit® (Brown, 1980, p. 31). EL procedimiento mas comin es el que, tilizando la califieacidn de la prueba como medida de criterio, cortelacions las respuestasa los eactivos individuales con las ealifieaciones totales obtenidas en la prueba. Se supone que las personas que obluvieron calif Tovales alas respondieron a un reactive en forma corr ‘mayor frecuencia que aquellas que obtuvieron calificaciones totales ‘bajas. Si esto ocusre, el reactive es considerado "bueno", o sea que diserimina relativamente bien lo que se desea medir. 29. Un tercer procedimiento en el que se verifica el porcentaje de personas que seleceionan cada una de las respuestas alternativas de um reaetivo. Las respuestas que son -muy poco 0 nunca cescogidas deberin ser revisadas, pues indican que no contribuyen al poder discriminativo del reactivo (Brown, 1980). Algunos otros procedimientos también son ities dependiendo del objetivo y tipo de prueba como: interelaciones entre reactivos: interrelaciones entre reactivos y las diferentes subescalas de una ‘nichat efectos de diferentes limites de tiempo, te En general, estos procedimientos son realizes en dos ‘muestsas independientes (validacion enuzada) para climinar ‘variaciones provenientes de errores en el muestre0. B. ANALISIS Y COMPROBACION DE. A PRUEBA El analisis de laprueba, como un todo, supone distintos procedimientos, que objetivan la minimizacién de las efectos de variables que pudieron intervenir en la medicion. En otras palabras supone el control de los errores. 1. Estandarizacion Este proceso, también llamado por algunos autores «ipificactén, implica la uilizacién del mismo material de prueba (o equivslente) bajo un procedimiento uniiorme de aplicacién y puntuacién (Anastasi, 1978), Solo asi pueden comparanse los resultados obtenidos por distintos sujetos en una misma ocasion @ por un ‘mismo sujeto en distialas ocasiones. En primer lugar, el material de la prueba debe ser siempre el ‘mismo. comprobadamente equivalent, En segundo lugar, las condiciones de aplicacion deben también ser, en la medida de lo posible idénticas. Para ta, las instrucciones de aplicacién, las demostraciones previas, los limites de tiempo, las formas de resolver duds, la disposicién del material ete. deben 0 ser Figurosamente las mismas para todos los sujctos. Por ello, cl ‘mannal de una prucba debe provecr estas informacioncs con cl ‘maximo de detalles, Adem, el aplicador debe cuidar aspectos como: tono ¢ inflexién de voz, expresion facial, reaccion: verbales del tipo "si" o "bien" quepucdcn dar la connotacién de *eorrecto”, entre otros, El ambiente de la aplicacidn debe proporcionar las condiciones fisicas adccuadas para que el resultado del sujeto no se vea afectado por variables extrahas como: falta 0 exeeso de luz, ruidos,intervenciones, ete. Finalmente, el provedimiento de calificacion debe ser lo mais ‘uniforme posible. Se necesita para tal un alto grado de objetividad cn la puntuacién y ealificacién de las respuestas de los sujetos. En ppruchas que utlizan reactivos de eleceién maitple es mis facil ‘sarantizar esta objetividad. Sin embargo, os reactivos que suponen ‘una respuesta libre del sujeto son més vulnerables. E mportante que el manual de la prueba proporcione ind detalladas para la asignavion de ealificaciones y que los, calificadores sean debidamente entrenados para esta tare. (tro aspecto importante de la estandarizacion del procedimiento de puntuacidn ¢s el establecimiento de normas. "Una norma es ls actuacién media 0 normal" (Anastasi, 1978, p. 24) de un grupo dle personas similar al que se destina la prucba. Al aplicarse la prueba a este grupo lamado norma de estandarizacién, muestra de tipicacié o grupo narmativo, se obliene el promedio de actin dol grupo, asi como los grados de desviacién por arriba y por abajo del promedio. La comparacién del resultado de un sujeto con la rnorma, permite determinar la posicién del mismo con respecto a este grupo. Muchas veces se necesita comparar ol resultado de un Stjeto con diferentes grupos (sewtin el sexo, la edad, el nivel de «scolaridad, la ocupacidn, ete.) y por lo tanto Son necesarios varios _gtupos normativos. Ademis, las normas pueden estar expresadas en diferentes unidades de’ calificacion: CI de desviacid percent, estanina, puntuacion T, puntuacién Z, ete. El proxime capitulo tratara con detalles las distintas unidades de ealficacion, 2. Validez La validez de una prueba es el grado en que ésta mide lo que se ‘quiere medi y solo lo que se quiere medir (Anastasi, 1978). Existen tres procedimientos que permiten verificar la validez de una prueba. {La ilizacién de uno w otro depende del objetiv y tipo de prucba, 2. Valdes de contenido Este tipo de validez es utilizado sobre todo en pruebas de rendimiento’ aprovechamiento, aungue también se aplica a otros tipos de pruebas psicologicas (Brown, 1980). A traves de la validez de contenido se verifica si fos reaetivos de Ia prueba realmente cconstituyen "una muestra representativa del universo de las conductas o de los contenidos” (idem, p. 154) que se quiere medi El procodimiento uiilizado para verificar la validee de eamtenida de tuna prueba consiste en: 1} Procisar las habilidades, conocimientos y comprensiones que correspondden al contenido ensciado y que ha sido el abjetive de un curso o entrenaiento. 2) Examinar euidadosamente la prueba (muestra de tareas) par ‘ver qué conocimientos,hubilidades y comprensiones requiere. 3) Verificar que tanto contenido de la prucha representa el contenido y Tos objetivos del curso o entrenamiento, ‘Una pnicha vilida debe estar campuesta de tareas que reprosenten fal maximo los contenidos y metas de la ensefianza. Este procedimiento no utiliza ningin indice ewantitative para verificar ka !adecuacidin de la muestra de tareas; I evaluacin se da através de un examen detallado y cuidadoso de la misma y por lo tanto implica un proceso de juicio y razonamiemo por pare del evaluador. Brown (1980) presenta algunos de los inconvenientes que puede presentar este tipo de validez: 2) no poder utilizar un indice euantitative pars verificar el grado de relacion,b) distns evaluadores pueden no estar de acuerdo en cuanto a la valider del contenido de la prueba y ¢) falta de claridad on la proeisisn del dominio difieultar los juicios 2 de validez de contenide. Murphy y Davidshofer (1994) hacen ademis Ihineapié on ot hecho de que “los estudios de valider de contenido no ‘pueden, por ellos mismo, garantiza la valdez de ls mecdda”(p. 113). 2.2. Valid lecriterio Est tipo de valdez esti retacionado con la prediccién de un resultado especifico futuro por ejemplo. el éxito en una futwra ‘ocupacidn 0 en un futuro programa de capacitacion. Por ello, se aplica a prucios uilizadas para pronosticar resultados por medidas de criterios muy claras y definidas (eg tests de seleceisn y clasifieacin de personal, Se elige asi una medida como eriterio (eg. desempeiio en el empleo) y se verifica cuanto la medida en la prueba (e.g. prueba de habilidad numérica) se relaciona con ls ‘medida del erterio. Existen varios métodos para veriticar la validez de crterio. El mas utilizado supone el siguiente procedimiento 1) Aplicar la prucba aun grupo, sntes de inicia el desempeno en tun trabajo o de ingresaren um programa de capacitacién 0 curs. 2) Definir un ctitetio que sirva de valoracion del éxito en cel empleo, programa de capacitacién o curso y obtener mis tarde, junto al mismo grupo, una medida de este criterio, 3) Caleular lacorrelacion éntee la califcaci6n en la prueba y la calificavién en el eriterio de valoracidn del éxito. El coeficiemte de corelacion puede variar de-1 a +1. Cuando el valor es eereano a 0 indica que no existe eorrelacion entre as dos medidas. Tanto un coe iente negative ind ‘elacion entre las medidas. Un eoeficiente positive indica que tambas medidas varian en la misma dieccitm (ambas alas 0 armbas bajas), mientras que un coeficiente negativo indica que si una ‘medida es alta, la otraes baja o viceversa. Tanto mayor es esta correlacidn, mis efeetiva ser la prucba para predecir este riterio yy consecuentemente mis valida. La gran dificultad de este procedimiento esti en la eleccin de tun eriterio adecuado de vabsracion. Thomaike (1975) propone cuatro cuales que debe tener un erterio de valoraciom: 33 + Adecuacisin « Un critetio es adecuado cuando la ealificacion, de éste esti dotorminada por los mismos factores que determinan cl éxito en ef trabajo‘curso/tarea, No hay ninguna prucha que permita verificar la adecuacion o no del crterio, Hay que confiar con ol juieio del profesional para clegirio. + Exencisn de prejuictos ~ la medida del eriteio debe proporcionar, a cada persona, la misma oportunidad de obtener ‘una buena calificacion. Por ello, debe ser exenta de prejuicios del evaluador. + Conflabilidad ~ La medida del eriterio debe ser estable y reproducible para que una prucba cualquiera pueda predecitia. Si la medida del criterio varia de una situacion a otra o de tiempo en tiempo, ésta no podri relacionarse con otras medidas y por lo tanto no habré prueba que la pueda predeci + Disponibilidad - En la eleecion del crterio debe tomarse en ‘cuenta los problemas pricticos de su utilizaci6n: disponibilidad, empo, costo, ete, Un segundo método para doterminar Ia valides de eriterio es ‘ver si las calificaviones predictoras dilerencian a Tos grupos ‘especificas por su ejecucion en el criterio" (Brown, 1980, p. 133). Por ejemplo, para determinar si una prueba de habilidad numérica ‘es un buen predieior del éxito de alumnos en un curso de dilgebra, se debe proceder de la siguiente manera en dos grupos: los aprobados y 1) Dividir los alumnos reprobados en e] curso deilgebra 2) Compara ls calificaciones, de esos dos grupos, en la prueba de ‘Habilidad Numerica para veritiear si hay una diferencia estadisticamemte signticativa entre sus calificaciones. El procedimiento generalmente ilizaco para verificar si a diferencia es signficativa ex Ia obtenciin de Taestadistica 1 Esta estadistiea "compara la diferencia en las medias com Ta medida del err de muesteo" (Brossn, 1980.p. 132), Siel valociobtenidoes significative (sez las tabs), quiere decir que los dos _arupos tienen califieacionessigniicativamente diferentes en la pruchs, ‘Un vator ino sigiticativo indica que Tas ealifieeiones de a prueba no discriminan entre los ee ‘grupos definidos segim el eriterio y eonseeuentemente, que la prueba no es vida. Un tercer método es la utitizacion de indices de exaetitud en ly toma de decisiones (Brown, 1980). El procedimiento, en este ea80, consiste 1) Chasificar las califieaciones de Ia prucba en dos 0 mi ccategorias independientes (ejemplo: iracaso VI exito 0 aceptable \sinaceptable) 2) Clasificar, segin las mismas categorias, las califieaciones, dol eriterio 3) Comparar el eonjunto de datos 4) Obtener la proporeidn de decisiones eorrectas (Pac) Por ejemplo, el cuadko 2.1 indica las prediceiones corectas incorrectas (falls). Se eonsideran en el euaro cuatro gTupos formados a través de la comparacién de dos eategorias de teri y dos categoria dela prueba prediciiva (Exito vy frueaso). CUADRO 2.1 Predicciones en las decisiones Tyecucion del entero Prediceién de a Prueba Psicoligiea_[~ EXITO_[ FRACASO, EXITO Aeienos (ay | Falla By FRACASO Falla (C) | Acieros (D) ‘Cuando los grupos obtienen éxito o fracaso en ambas medidas, la de la prueba y la del criterio, se considera una prediceion o decision ‘correcta 0 sea un aeierto (grupos Ay D). Los demas casos son isiderados uns falla (grupos B y C). Un indice importante en la toma de decisiones es la proporcion de decisiones correetas(P;,) en cl total de decisiones, Esta propareién se obtiene a través de la siguiente formula: Aciertos A+D __Aciertos «AciertosFallas A*D*B+C ON 35 Los valores A, B, C y D corresponden al numero de sujetos de cada uno de Tos cuatro grupos y N al total dv sujetos, La proporcién de decisiones correctas (Pc) indica la exactitud de las ddecisiones y puede ser utilizada como indice de validez de la prueba. Brown (1980) comenta sobre las variaciones en este procedimiento, como Ta que supone Ia determinaciin de la clificacién limite dptima, calificacion que separa 2 los grupos ‘para producir el admero maximo de decisiones eorrectas. 2.3. Valider de construccidn (o valde, ferns o estructural) Este tipo de valdez verifies el grado en que una prucha mide wn constnicto 0 asgo tesco, En realidad, no existe wn indice cuantitativo tinieo 0 s6lo un procedimiento de validez de construceién, La valde se evaiia mediante un canjumto de evidencias y métodos. Brown (1980) agrupa en einco categoria la variedad de tenieas y procedimientos uilizados para establecer la valde de construccion: @) Métodos inirapmecbas En esta categoria se encuentran las tenes utilizadas para estudiar la estructura interna de una prucha: su contenida, los procesos uilizados Pars contestar a lis preguntas, [a relseion entre sus reacties. relacion entre las subescalas. Se incluyen en esta categoria dese procedimientos de valider de contenido hasta estudios de homogeneidad de la prucba (coeficiente alfa, coeficieme Kuder- Richardson), que seri examinidos ms adelante. Estas indies indican sila prueba mide un solo o varios rasyos. 1b) Métadas interpruchus Estos métodos estin disefados para verifiear as relaciones entre varias pruebas o sea, si éstas miden o no el mismo rasgo. Algunos de los procedimientas wiilizadas son: 36 + Validez congruente - Fn este caso se verifiea la correlacidn entre las calificaciones de una nueva prueba y las obtenidas en una otra, ya validada, que mid el mismo ras Sila correlacion es alta significa que ambas prucbas miden el mismo rasgo y que pueden interpretarse los resultados de ka nueva prueba como los de aquella ya validada. + Valier factorial - Eswc es considerado uno de importantes de vatidez, Fs verfieada a través de un procedimiento estadistico—el anlivis factorial que permite determinar “cuantos factores (construcciones) se nevesitan para explicar las intercorrclaciones entre un conjunto de ealificaciones de varias pruchas” (Brown, 1980, p. 165). Fl andlisis fhetorial permite ‘obtener: 1) el niimero de factores que explican las intercorrelaciones entre las pruebas, 2) los Factores que componen cada prueba y 3) la cantidad de varianza en las ealificaciones de las pruebas que explican los factores. Asi, pueden determinarse las pruebas que jcomparten una varianza comin y que por lo tanto miden el mismo factor o sea la misma construccién. Ademds, la proporcién de ‘varianza total en las calificaciones de la prueba que es atribuida al factor, puede ser utilizada como indice de validez de construecién. + Validez diseriminante - En este caso ol objetivo es verifcar (que las ealifieaciones de una nueva prueba no se correlacionen con las obtenidas en otras pruebas que mid otros nisgos distintos Se demuestra asi que la medida de esta nueva prueba es independiente de la medida de otras construcciones rasgos. ©) Estudios relacionados con criterios Este metodo se basa en la predicci6n acerca de diferencias entre grupos, naturalmente separados 0 disenados experimentalm Por ejemplo, una teoria sugiere que algunas clases de grupos eben obiener puntuaciones elevadas o bajas vespecto al rasgo ‘medido por una nueva prueba. Al aplicarsela se verificara cuanto las ealificaciones en esta pruca separan a estos grupos, o sca pueden predecir las diferencias entre ellos 7 4 Manioalactin experimental En este procedimiento se manipula experimentalmente una variable _y se abserva sus efectos sobre las califienciones de Ta prucka o Ia relacion de éstas con algun criterio. Por ejemplo, una teotia puede sugerir que la expresion de un rasgo 0 conducta se modificara a ‘eonsceuencia de algunas eandiciones o tatamientas experimentales. Se aplica entonces la nueva prucba en la condicién experimental ‘para verifiear si las modifieaciones previstas ocurren, Seria el eas ‘de aplicarse una prueba de ansiedad a personas que estan por someterse una operacidn quisirgica para verificar si esta prueba puede detectar el nivel de ansiedad que supuestamente debe ‘encontrarse aumentado por la inminencia de la eirugia, ) Estudios de caida de penseralisasiins Segiin Brown (1980) se encuentran en esta categoria los estudios que " nalizan sistemticamente la prueba sobre una gama de condiciones & dimensiones —por ejemplo— en una variedad de poblaciones ‘ransferibiiad) 0 con diferentes condiciones de sdministracién’p. 167), El explica con detalles ef método propuesto por Campbell y Fiske llamado Muiriz de Multrasgo y Mulimérodo. Este procedimiento consiste bisicamente en exaiinar las corteaciones tenire los mismos rasgos medidos por diferentes méiodos (validez ‘convergemta) y las correlaciones entre diferentes rusgos, modides por tun mismo método (valider dseriminame) 3. Confiabilidad La confiabilidad es el "grado de consistencia de las mediciones (Brown, 1980, p.80). Es la consistencia de las puntuaciones ‘obtenidas por los mismos sujetos euando son examinados con Ia misma prueba o una forma paralela de ésta, en diferentes 38 ‘Toda medida implica un cierto ertor. El objetivo de una prucha psicolégiea os redueir, al minima, el error de medicion, Al redueirio se cleva el nivel de confiabitidad de la prucha. Thomdike (1975) apunta cuatro fuentes principales de error que resultan de 1) Variaciones surgidas dentro del proeedimiento mismo de medicion, ‘que pueden estat relacionadas con las condiciones de aplieacin dela prueba, tales como: Ja situacib isiea Tas insrucciones, los errres eel registro de tiempo, los fetores de distracibn, ete 2) Variaciones en cl sujeto mismo, a corto plazo (salud, atencin, motivacién, ansiedad, experiencia con ls prueba, etc.) 0 4 large plazo (maduracién, aprendizaje, cambios en su ambiente, etc). 3) Variaciones procedentes de la muestra especifica de tareas (reactivos) elegidas para representar el rea de la conducta que mide la prueba, 4) Variaviones en la velocidad de trabajo del sujeto. Existen diferentes procedimientos para examinar ls cantidad de erroren lu medicion, o sea, estimar el grado de eonsistencia dela misma, Brown (1980) diferencia dos tipos de consistencia, que ‘aunque estin relacionados, considera til separar para fines idicticos. La confiahilidad verfica Ia consistencia de Ia medida a ‘snivs del tiempo (estabilidad) y alo largo de formas equivalentes de Ja prueba (equivalencia). La liomogencidad 0 consistencta interna verifies si todos los reactivos de la prueba miden o no el mismo rasgo. Sern analizados, por separado, los distintos procedimientos 31. Procedimientos para verificar la confiabilidad de une prucha psicoligica Existen diferontes procedimientos que permiten verificar el nivel de contiabilidad de una prueba psicologie ©) Repicién dela miso prueba esRetestd Este procedimiento consiste en aplicar la misma prueba des veves. 3» La medida do confiabilidad es la correlacin entre las calificaciones obtenidas en la primera aplicaciin yen la reaplicacion, Esta medida se denomina cveficiente de esiabilidad. Este procedimiento puede ser realizado de dos maneras distintas: + Sin inrervato de riempo entre las dos medieiones, 0 sea, It reaplicacion es realizada en seguida de la aplicacién, En este caso son controlades dos tipos de emores provenientes de: (a) variaciones en el procedimicnto mismo de medicién y (b) variaciones en la velocidad de trabajo del sujeto, + Com intervalo de tiempo entre las dos mediciones, 0 sea, la icin se hace despuss de cierta tiempo, que puede ser de dias ‘hos, Tres errors son controlads en este pracedimienta, que resultan de: (a) variaciones en el procedimiento mismo de medicién, (b) variaciones en el sujeto de una vez a otra y (e) variaeiones en ks ‘velocidad de trabajo del sujeto. Este tipo de procedimienta no debe ser utlizada en el caso de rasgos que sean, por principio, inestables o cuando se produze algin tipo de apvendizaje diferencial entre las dos aplicaciones (por ejemplo un programa de estudios o entronamiento). Otto problema es el del elveto de la prictica, sobre todo cuando le aplicacion y reaplicacion son realizadas sin intervalo de tiempo 0 con un intervalo muy corto entre fas dos. En este aso "algunas personas pueden recordar sus respuestas o aprender algo sobre la teniea de pasar una prucha” (Brown, 1980, p. 85). ) Aplicucidn de formas parolelas (a equivalentes) dela prucha Para este pracedimiento hay que disponer de formas equivalentes de Ja pnichs, que sigan la misma espocifieacidn pera que sean compuestas de muestnis separadas de la eonducta que se pretende rmedit. Las formas paralelas deben por tanto cubsir el mismo contenido, uilizar el mismo nimero de reactives y poseer el mismo sgrado de dificuliad. La medida de confiabilidad es la correlacion centre las puntuaciones obtenidas en las dos formas de la prucba, Este procedimiento también puede ser realizado de dos maneras: + Sin imervato de tiempo entee la aplicacion de las dos formas ‘cquivalentes de 1a pruchs. En este easo la carrelacion entre las dos medidas offece un cocticiente de equivatencia. Los tipes de errores tomados en cuenta son los que provienen de: (a) variaciones en el procedimienta mismo de medicién, (b) variaciones en fa velocidad de ‘aaj del sujta y(c)variaciones procedentes de fa muestra de tarcas + Con intervaio de tiempo entre ls aplicacién de las dos formas. paralelas de la prucha, La correlacidn entre las dos medidas offec, fen este caso, un cveficionte de estabilidad ¥ equivalencia. Con este procedimiento puede controlarse los custro tipo de erores ‘mencionados anteriormente, que provienen de: (a) variaciones en el procedimiento mismo de medicién, (b) variaciones en el sujeto de tuna ver a otra, (c) variaciones en la velocidad de trabajo y (a) ‘variaciones procedentes de la muestra de tareas. El procedimiento que utiliza la aplicacién de formas paralelas eon intervalo de tiempo es el que proporeiona el cocticiente de cconliabilidad mis preciso y riguroso pues permite controlar las distintas fuentes de error. Por esta misma raz6n el provee el coeficiente de confiabilidad mis hajo. Sin embargo, él plantea problemas pricticos importantes, puesto que exige que se Gisponga de dos formas paralelas de la prucba y del tiempo necesario para aplicarselas por separado. ©) Combiabilidad por mitades Este procedimiento, también Ilamado de test subdivide (split hall, cs el mis ampliamente utilizado para estimar Ia confiabilidad a partir de una sola acministrickin de la prucha (Thomdike, 1975). Seatin Mumhy y Davidshofer (1994), este procedimiento soluciona los dos problemas preticas del método de formas paralelas: ls dificultad de desarrollar formas paralelas y la necesidad de tiempo para ls aplicaciones, Para realizarlo se aplica la prueba y después se divide en dos ‘mitades supuestamente equivalentes y equilibradas en relaeién al ‘contenido y nivel de dificuliad, Para la divisin puede prevederse de distintas maneras. La nis comin es la que utiliza los reactives pares, en una de las formas, y los impares en la otra. Sin embargo, teste tipo de division no puede ser manejada cuando existe alguna 12 y 1 posibilidad entre 100 de obtener un CD > 35. En general, se obtiene un valor cereano a 0, independientemente de Ta edad (Vrignaud en Aubret y col, 1991), Es importante sefalar que para el edleulo del cooticiemte de doterioro deben urilizarse las puntuaciones ponderadas obtenidas en las tables par wlud Este procedimiento elimina la deterioracion psicoldgica provocada por la edad y evalua inieamente la deterioracién patoldgiea 9. NORMAS Las normas del WAIS son presentadas en CI de desviacién, considerando una media de 100 y una desviacidn estindar de 15 puntos. Estas provienen de una muesira de 1,700 adultos de E.U.A (16-64 afios), prorratcados de acuerdo con el eenso de 1980. Los sujetas fueron tomades de cuatro Areas geogrifieas en que se dividis a los Estados Unidas y se establecieton 18 centros de aplicacién en diferentes sitios. Las fueron realizadas por examinadores, supervisadlos por psicalogos profesionales (Wechsler, 1955). Las normas del WAIS-R fueron extraidas de una muestra de 1,880 adultos (entre 16 y 74 aos y 11 meses), estratificada de acuerdo con el conso de E.U.A. realizado en 1970. Los sujetos fueron examinadas entre 1976 y 1980 en 115 centros localizados en 39 estados y Washington DC, Un grupo de individuos de esta muestra fue sometido a ambas formas de la eseala (WAIS y WAIS-R) (Wechsler, 198 1a). 10, CONFIABILIDAD Y VALIDEZ Anastasi (1978) resume los resultados reportados sobre la confiabilidad y valide? del WAIS. La confiabilidad de los subtests, de las subescalas y de la escala total fuc verifieada con los grupos de edad de 18-19, 24-34 y 45-54, En general, se utilizo el procedimiento de divisin en mitades, excepto en los casos cn que esic procedimicnto no eta apropiado: Repeticién de Dig iaitos y ¥y Simbolos se utiliz6 el procedimiento de test-retest y para Repeticion de digitos se obtuvo la correlacién entre kas puntuaciones de Digitos en Orden Progresivo y Digitos en ‘Orden Inverso, corregida por la formula dé Spearman- Brown. Fucron ealculados cocficientes de confiabilidad de las subescalas y de Ia eseala total a partir de los coeticientes ‘obtenidos para los subtests. EI CI de la escala total present cocficientes de confiabilidad de .97 en los tres grupos de ‘edad, cl CI de la subescala verbal, coeficientes de 96 en los tres grupos y el de la subescala de ejecucién, cocticientes centre .93 y 94. Los subtests presentaron coeficientes mis Jor bajos, variando de .60 a .90. Vocabulario demostrd ser el subtest ‘mas confiable. El ervor estandar de la medida es de 3 puntos (en cada grupo) para el CI Verbal, de 4 puntos para el Cl de Ejecucisn y de 2.60 para el CI Tonal La validez del WAIS fue demostrada por distintos procedimientos. Muchos estudios fueron realizados para estudiar la valider de criterio, utilizando: correlaciones con evaluaciones: de realizacién en el trabajo, con ealificaciones académicas, ete {a valde esuctral fae testads a raves de intereoreaciones centre los distintos subtests y sube Uno de los estudios facioriales, realizado por Cohen, identifico tues factores basicos: un factor de comprensién verbal. un factor de organizacién perveptual y un factor de memoria. Segiin Wechsler (19812) estos resultados confirman la adceuacién de la division en dos subescalas: una verbal y otra de ejecucion. Fueron también obtenidos coefivientes de vorrel de inteligencia. Con el Stanford-Binet, correlacidn variaron entre .80 y .90 dependiendo de la mueste. Con los tests coleetivos las correlaciones fueron un poco mas bajas, variando de 40 a .80 (Anastasi, 1978). Anastasi (idem) rolata, con detalles, varios de los estudio realizados para testa la validez de esta escala, EI WAIS-R presenté tambicn coefieientes de confiabitidad levados en nueve grupos de edad, Estos fueron abtenidas a través de Tos mismos proceddimientos utitizados para el WAIS, Los coefivientes promedio obtenidos fueron: .97 para la subescal verbal, 93 para la subescala de ejecucion y .97 para la escala total. Los eoeficientes de confiabilidad de los subtests variaron centre 52 y..96, lt eseaa de voeuibulario obiuvo cl coeficiente mas alto, En general, Tos subtest verbales presentaron una. mayor ccontiabilidad que los de gjecucion. El subtest de Repeticion de digitos present un coeficiente significativamente superior al dobtenido en la versién anterior 02 del WAIS. Fste resultado puede ser atribuido a los cambios realizados en este subtest. El error estindar de la medida es de 2.74 para la subescala verbal, de 4.14 para la subescala de ‘jecucién y de 2.53 para la escala tral (Wechsler, 19814). 1 manual del WATS-R no presenta ningéin estudio especitico sobre la validez de esta prueba, El autor comenta gue como el WAIS-R mide las mismas habilidades que sus precurseres CWAIS y WECHSLER-BELLEVUE), los resultados de los estudios realizados con estos diltimos pueden ser considerados relevantes para la escala revisada (idem). LL. COMENTARIOS FI WAIS ha demostrado gran utitidad y aceptacién. Su gram vventaja es proporcionar un diagndstico mucho mas fine de kas habilidades intelectuales de un individuo, comparado al offecido por la mayoria de las pruchas de inteligencia, Ademis, posibilia blros anilisis, a nivel cuantitativo y cualitativo, gue enriquecen enormemente Ia interpretacion de sus resultados, posibilitando hasta la formulacidn de hipdtesis diagndstieas de distunciones organicas y mentale. Mientras tanto, ésta es una prueba que silo puede ser aplicada individualmente 'y que requiere un tiempo de aplicacién importante. Necesita tambien, examinadores altamente cenirenads. Una observacidn importante, en Ia utilizacién de WATS- espaiiol, es el lich de que todavis no existen normas para Is poblacion mexicana. En México, desde 1964, vienen siendo realizados los primeros pasos para la estandarizaciin de la ceseala, ajo la direcciiin del doctor. Rogelio Diaz-Guerrem (Morales, 1993). 103 Referencias bibliogrificas Anastasi, A. (1978). Tests psicoldgicas (3° ed. 4" reimpresion), Aubret,F., Aubret, J, Chartier, D., Chaudagne, H.Francequin- Chartier, G., Huetau, M.,Porlier, FC, Rozenewajg, Py Vrignand, P. (1991). Frafuer Fintelligence. Manus-

También podría gustarte