La muestra normativa estaba formada por cuatro grupos:
Por un lado el grupo principal estaba constituido por 724 sujetos normales, varones y mujeres con una media de edad de 33 años y una escolaridad de nueve cursos y un nivel socioeconómico alto. Por otro lado se usaron 265 sujetos (152 varones) constituido por estudiantes, solteros, de 16 a 25 años. El tercer grupo lo formaban 265 varones de bajo nivel socioeconómico. Finalmente el último grupo estaba formado por 254 pacientes con diversas dolencias físicas. de este grupo se eliminaron los casos psiquiátricos. La muestra fue incidental y en estudios posteriores utilizando otro tipo de muestras se han obtenido resultados similares con lo que no se han cambiado los baremos. Conviene señalar que para la interpretación de las puntuaciones se toma el grupo normativo en su conjunto y no según profesión, estatus económico o edad. Éste hecho plantea problemas como se verá más adelante. VALIDEZ Y FIABILIDAD EN EL MMPI. Validez: 1.- Validez de contenido, relevancia de los ítems y sesgo: La APA (American psychological Asociation, 1995martínez arias), considera un criterio indispensable para evaluar la calidad de un test el que éste tenga validez de contenido. Por validez de contenido se entiende el que los ítems del test sean una muestra relevante y representativa del atributo que se pretende medir. Relevante en cuanto a que todos los ítems se refieran a ese atributo y representativa en cuanto a que los ítems cubran todas las áreas del atributo. Así, aunque Martínez Arias (1996, p. 337) reconoce que la validez de contenido se ha aplicado principalmente a tests educativos. Hemos creído conveniente comentar este aspecto en nuestra revisión. En primer lugar nos llamó la atención la baja validez aparente que presentaban algunos ítems. En otros tests de personalidad (Cattell, 1965fernandez ballesteros16pf) la validez aparente ha sido considerada y tenida en cuenta a la hora de construir el test. Ítems como el 154 “nunca he tenido un ataque o convulsiones (falso)” y el 193 “no tengo accesos de alergia o asma (verdadero)” que teóricamente miden personalidad depresiva, no parecen relevantes para el atributo que pretenden medir. Otro problema que presenta el test, es el sesgo de algunos ítems debido a cambios culturales que han ocurrido desde su creación. Puesto que el test se construyó hace casi ya medio siglo, es de esperar que el significado de algunos ítems haya cambiado culturalmente. Tal es el caso de la escala de masculinidad- feminidad, que se creó a partir de una escala de 1936 (Terman y Milles, 1936 ref mmpi) y que como señala Victoria del Barrio (1992 ferndez ballesteros) la interpretación de esta escala depende del grupo cultural al que se aplique. A título de ejemplo, se da el caso de algunos ítems que en su época sí podrían ser considerados como indicadores de masculinidad o feminidad y que actualmente no está clara su relevancia. Así el ítem 25 “me gustaría se cantante (falso)” y el ítem 99 “me gusta asistir a reuniones o fiestas donde hay mucha alegría o ruido (verdadero)”, que supuestamente medirían masculinidad se verían afectados por los cambios culturales que ha sufrido la sociedad. Como señala Anastasi (1980), el test también se vería afectado por variaciones subculturales. Así, estas variaciones pueden deberse por un lado al contexto particular para el que se redactó la muestra, o pueden ser provocadas por la ausencia de baremación según grupos culturales o grupos de profesión. Consideramos que el ítem 95, “voy a la iglesia casi todas las semanas (falso)”, y el ítem 98 “creo en la segunda venida de Cristo (falso)”, que teóricamente miden depresión, están fuertemente influidas porlaas creencias religiosas del sujeto que responda. Es decir, están sesgados. El problema de la falta de representatividad de la muestra normativa ha sido señalado por Anastasi (1980), y es quizá una de las críticas más duras que se puede hacer al test, aunque no haga referencia directamente a la validez de contenido. Puesto que se han apreciado diferencias en algunas escalas (Clark, 1954 anastasi) según la muestra sea universitaria o no, sería conveniente hacer una baremación según grupos de población y revisar si para estos se cumplen también los criterios de construcción de las escalas. Otro criterio que nos puede indicar la falta de relevancia y representatividad de algunos ítems, es el excesivo solapamiento que presentan algunas escalas. Psicastenia y Esquizofrenia tienen hasta 15 ítems comunes, y algunos ítems llegan a puntuar (con la misma respuesta) hasta en tres escalas diferentes. Este aspecto se volverá a retomar cuando se hable de la validez discriminante. La presencia de sesgo de algunos ítems (o funcionamiento diferencial) según la cultura o la edad; la falta de validez aparente de otros; el excesivo solapamiento de algunas escalas; y la ausencia de muestras normativas específicas según grupos, plantean problemas a la validez de contenido, a la relevancia y representatividad de los ítems elegidos y a la interpretación de los resultados.