Está en la página 1de 19

PRUEBAS DE APRESTAMIENTO ESCOLAR PARA

EL PRIMER GRADO: UNA EVALUACIÓN


PSICOMÉTRICA COMPARATIVA

CÉSAR MERINO,* LUIS HONORES, WALTER GARCÍA, JOSÉ LIVIA


UNIVERSIDAD NACIONAL FEDERICO VILLARREAL
Recibido: 4 de junio de 2008 Revisado: 4 de Julio de 2008 Aceptado: 6 de Julio de 2008

RESUMEN
El propósito de este estudio fue evaluar y comparar las características
psicométricas de cinco pruebas de habilidades pre-académicas: Test ABC, Test 5 y
6, Batería de Despistaje para el Primer Grado (BDPG), Batería Evaluadora de las
Habilidades Necesarias para el Aprendizaje de la Lectura y Escritura (BEHNALE),
y Prueba de Funciones Básicas (PFB). Para ello se hizo un análisis de los ítems, la
dimensionalidad, y consistencia interna de dichas pruebas tradicionales de
aprestamiento. Se encontraron pobres niveles de consistencia interna y débil
unidimensionalidad, excepto en la BDPG y BEHNALE. Estos resultados sugieren
la importancia de introducir la re-evaluación psicométrica en las mediciones
obtenidas de instrumentos antiguos. Se discuten las implicancias para la evaluación
psicológica aplicada a la educación y la investigación aplicada

Palabras clave: Aprestamiento escolar, dimensionalidad, consistencia interna.

ABSTRACT
The purpose of this study was to evaluate and compare the characteristics of five
psychometric tests pre-academic skills: ABC Test, Test 5 and 6, Battery Screening
for First Grade (BDPG), Battery Assessment of the Skills Necessary for Learning
Reading and Writing (BEHNALE), and Test Basic Functions (PFB). This was an
analysis of the ítems, the dimensionality, and internal consistency of these tests
traditional dressings. We found poor levels of internal consistency and weak
unidimensionality, except in the BDPG and BEHNALE. These results suggest the
importance of introducing the re-evaluation in psychometric measurements
obtained from old instruments. We discuss the implications for psychological
evaluation applied to education and applied research.

Key words: Schoolar preparation, dimensionality, internal consistency.

*Psicólogo, docente universitario en Universidad Nacional Federico Villarreal (UNFV), Universidad San Martin de
Porres (USMP) y Universidad Privada San Juan Bautista (UPSJB).
Investigador en el área de evaluación y medición psicológica, y métodos cuantitativos
Correo electrónico: sikayax@yahoo.com.ar.

Revista Peruana de Psicometría 1 (1), julio-diciembre 2008 ISSN 1995-9966


- 14 -
Las pruebas utilizadas en la edad preescolar, entre su administración, costo y eficiencia (Hasbrouck,
3 y 5 años de edad, han estado bajo la lupa de la 1990; Meisels, Marsden, Wiske & Henderson, 1997)
crítica respecto a sus características técnicas, ya que y pueden estar focalizados a diferentes áreas de
estas les ponen los límites en la interpretación de sus funcionamiento cognitivo, tales como las
resultados y, finalmente, a su utilidad en el terreno habilidades pre-académicas. Pero a diferencia de las
profesional y de investigación (Feldt & Brennan, pruebas de desarrollo, están bien vinculadas con los
1989). Bajo los criterios cuantitativos y cualitativos programas que enfatizan las habilidades básicas
desarrollados para evaluar sus características técnicas (Hasbrouck, 1990), las pruebas de despistaje del
en preescolares (Alfonso & Flanagan, 1999; Emmons aprestamiento o madurez escolar apuntan a
& Alfonso, 2005; Alfonso & Flanagan, 2006), la programas de enseñanza pre-académica (Hasbrouck,
evaluación de los componentes psicométricos de 1990), y se concentran en la identificación de niños
instrumentos cognitivos en preescolares ha arrojado en riesgo de presentar problemas futuros en el
resultados variables sobre su aceptabilidad como aprendizaje de la lectura, situación que siempre tuvo
herramientas psicométricamente efectivas. Otras los problemas de costo y tiempo para administrarlos
revisiones independientes tienden a llegar a las (Salvesen & Undheim, 1994).
mismas conclusiones; por ejemplo, la revisión de
Emmos y Alfonso (2005) sobre baterías de despistaje Las pruebas de despistaje se diferencian de las de
para preescolares, y la de Bracken (1987) sobre desarrollo en varios aspectos cualitativos y
instrumentos de diagnosis individual en preescolares, cuantitativos, como los costos, calificación,
concluyeron que muchas de las pruebas revisadas administración y el tipo de decisiones que sus
poseen un rango variable de niveles psicométricos que resultados facilitan (Hasbrouck, 1990; Woodburn &
van desde moderado hacia alto respecto a la Boschini, 1995; Meisels et al., 1997). También
difieren en la amplitud de los constructos evaluados.
consistencia interna y estabilidad test-retest.; y aunque
las evidencias de validez provinieron aceptablemente Por ejemplo, el Test de Desarrollo Psicomotor,
de múltiples fuentes, la magnitud de los coeficientes TEPSI (Haeussler & Marchant, 2003) es
de validez fueron inestables, ya que el tamaño de la ampliamente popular en Sudamérica y está
muestras evaluadas en los manuales de las pruebas relacionado con el desarrollo del lenguaje y
revisadas fueron pequeñas en muchos de los estudios motricidad; y el reciente Inventario de Despistaje
revisados (Emmos & Alfonso, 2005). Hay otros Preescolar de Minneapolis – Revisado, MPSI – R
aspectos que atemperan el entusiasmo por el uso (Minneapolis Public Schools, 2005) que seleccionó
acrítico de medidas en el nivel preescolar, como las tareas genéricas sobre el desarrollo general. Otras
normas antiguas, la disimilaridad de los contenidos de medidas abordan habilidades específicas pero
las diferentes pruebas (aun cuando sean nominalmente vinculadas genéricamente con el éxito en el
las mismas), la practicidad de su estructura, entre aprendizaje escolar, como el Test de la Escuela
otros (Hasbrouck, 1990). En general, parece que el Meeting Street (Woodburn & Boschini, 1995), o el
Bracken School Readiness Assessment (Bracken,
interés por evaluar la efectividad y las características
psicométricas de los instrumentos para niños no tuvo 2002). Este último es un instrumento más específico
un comparable entusiasmo con su proliferación y relativamente homogéneo al evaluar
(Salvesen & Undheim, 1994). conocimientos de conceptos básicos referidos como
parte esencial del aprestamiento, tal y como se
Dentro de los usos destinados de las pruebas en la planteó hace varias décadas respecto a su potencial
edad preescolar, el despistaje o tamizaje es predictivo del éxito escolar (Steinbauer & Heller,
aparentemente una de las funciones más frecuentes. El 1978).
despistaje,es un proceso de evaluación con ventajas en
Revista Peruana de Psicometría 1 (1), julio-diciembre 2008 ISSN 1995-9966
- 15 -
Otras evaluaciones destinadas al despistaje son habilidades relacionadas con las habilidades pre-
fuertemente dependientes del desarrollo biológico, académicas del niño, pero lo cierto es que tales áreas
como las pruebas de integración visomotora, en que de habilidades y conocimientos que se creen
las más conocidos son la Prueba de Integración predictores del éxito escolar, en un amplio rango de
Visomotora (Beery, 2000), y los sistemas de generalidad, incluyen el dominio de conceptos,
calificación adaptados de la Prueba Gestáltica de procesamiento de información auditiva, visomotor y
Bender para niños (Koppitz, 1984; Brannigan & conciencia corporal; razonamiento y comprensión
Brunner, 2002), y esta última particularmente para verbal, habilidades sociales y actividad motora y
niños ingresantes al primer grado (Parsons & fina (Condemarín, 1989; Hasbrouck, 1990;
Weinberg, 1993; Sugar, 1995). El lector bien Educational Testing Service, 1991); pero en un
informado con experiencia en la evaluación de niños rango estrecho de habilidades, los predictores más
ingresantes al primer grado de primaria podría conocidos para el aprendizaje de la lectura son la
verificar que, a esta variedad de diferencias conciencia fonológica y el conocimiento de letras,
estructurales entre las pruebas, se añaden otras memoria verbal, nombramiento rápido de objetos y
condiciones, por ejemplo la heterogénea tipología de conocimientos sintácticos-semánticos (Condemarín,
tareas seleccionadas para definir un instrumento de 1989; Muter, 2000). Una revisión de 81 pruebas
despistaje del aprestamiento basados en su poder publicadas desde 1945 hasta 1990 diseñadas para las
predictivo sobre el rendimiento lector, matemático o competencias del niño en aquellas áreas necesarias
de escritura. La experiencia profesional y la revisión para aprender a leer y para decidir sobre la
de las pruebas existentes concurren en señalar que el elegibilidad para el ingreso al nivel Kinder o primer
énfasis evaluativo se dirige hacia la predicción del grado, reveló que las áreas más citadas en la
éxito en lectura más que otras áreas de aprendizaje evaluación pre-académica fueron la percepción
escolar. Y aunque los instrumentos usados como visual, discriminación auditiva, identificación de
despistaje de habilidades varían respecto a la amplitud letras, reconocimiento de palabras y vocabulario, las
del constructo evaluado, el número de componentes cuales estarían asociadas a facilitar y expandir el
(subpruebas) relacionados entre sí, la heterogeneidad dominio las habilidades sintácticas y semánticas
de las tareas elegidas y el modo de administración, para el aprendizaje de la lectura inicial (Educational
una fuente esencial de la diferenciación entre ellas es Testing Service, 1991). Pero si hay que identificar a
la conceptualización que se tiene del constructo una de las habilidades más estrechamente vinculadas
evaluado; por ejemplo, medidas como la Prueba de con el rendimiento lector, según las investigaciones
Funciones Básicas (Berdicewski & Milicic, 1978), actuales, y que es uno de los predictores más
Test ABC (Filho, 1947; 1960), Prueba de Madurez poderosos validado en varios meta-análisis
Escolar de Irasek (Cabrera, Aguilar & Betancourt, internacionales es el desarrollo fonológico (Bravo,
1986), Batería de Inizan (Inizan, 1989) y los Test de 2002), que es el eje del umbral lector (Bravo, 2002,
Madurez Escolar del Instituto Gesell (Ilg, Ames, 2004; Velarde, 2004).
Haines & Gillespie, 1981) apuntan al ahora antiguo
constructo de madurez o aprestamiento, mientras que Varias de las pruebas en español evalúan las áreas
medidas como el BENHALE (Mora, 1999) o el señaladas, pero con contenido, número y formato de
Screening for Reading Success (Flynn, 2006) se las tareas solo moderadamente similares, y una
orientan su conceptualización hacia las habilidades y situación así hace difícil la comparación sustancial
el BADICBALE hacia el concepto de aptitudes entre las pruebas (Hasbrouck, 1990). Estas
(Molina, 1992). diferencias pueden estar exacerbadas por la
dispersión de los puntajes, ya que los ítems de una
Uno puede imaginarse una numerosa cantidad de subescala pueden ser calificados ordinalmente (ABC
Revista Peruana de Psicometría 1 (1), julio-diciembre 2008 ISSN 1995-9966
- 16 -
de Filho, 1947; 1960), mientras que otras tiene un Exceptuando los resultados de pobre validez
formato dicotómico (Merino, 2008b), o una predictiva del test ABC (Salazar, Amon & Ortiz,
combinación de estas como ocurre con las pruebas 1996), sobre las pruebas mencionadas, hasta la fecha
derivadas del modelo ABC de Filho (1947, 1960) en no hay una revisión cuantitativa ni cualitativa que
la Batería Evaluativa de las Habilidades Necesarias comparativamente realce las ventajas y limitaciones
para el Aprendizaje de la Lectura y Escritura, psicométricas que formalmente pueden impactar en
BENHALE (Mora, 1999) o la Batería de Inizan las prácticas de evaluación de los psicólogos
(Inizan, 1989). escolares. Dado que las propiedades psicométricas
de algunas de ellas tienen una larga antigüedad o no
A través de los años, ha sido aparente que la han sido comparativamente evaluadas, se hace
presentación y formato de las pruebas de necesario no solo re-evaluar estas propiedades, sino
aprestamiento ha ido diferenciándose; y una de las también crear instrumentos más sensibles,
pruebas más populares en esta área provino de Brasil, culturalmente relevantes, y que típicamente cubran
con la publicación del Test ABC (Filho, 1947; 1960), las recomendaciones de las mejores prácticas sobre
y que es una de las primeras pruebas latinoamericanas su elegibilidad y características cualitativas y
publicadas sobre la madurez escolar (Ardila, 2004; psicométricas en pruebas de despistaje de
Alarcón, 2004). Este es sin duda una de las más habilidades pre-académicas (Hasbrouck, 1990;
resistentes a través de los tiempo, aún cuando parece Bracken, 1987) y de las pruebas cognitivas en
que las normas preparadas en esa época se continúan general (Bracken, 1987; Alfonso & Flanagan, 1999;
utilizando y hay evidencias actuales de su Emmons & Alfonso, 2005).
cuestionable valor predictivo (Inizan, 1989; Salazar,
Amon & Ortiz, 1996; Mora, 1999; Ardila, 2004). Otra La validez es una de las áreas psicométricas más
prueba que parece ser resistente al desuso, por multifacéticas para la evaluación de las cualidades
ejemplo en el contexto peruano, es la Prueba de de una prueba, y dentro de ella, la evaluación de la
Aprestamiento de Jordany Massey (Jordan & dimensionalidad. Las recientes guías de uso de
Massey, 1967), así como las Pruebas 5 y 6 de origen pruebas psicológicas (AERA, APA y NCME, 1999;
uruguayo (Gastelumendi, Isasmendi, Slovak & International Test Commission, 2001) indican que
Semelong, 1977). Una revisión informal del lector las evidencias de validez en este aspecto deben ser
sobre el uso de estas pruebas, puede llevarlo a evaluadas durante su construcción y re-evaluadas
concluir que aún continúan en uso en tesis de pre- después de un determinado tiempo. Si un plan
grado, así como en los sílabos de estudios preventivo del bajo rendimiento escolar incluye una
universitarios en Psicología y Educación en evaluación de despistaje que responda a las
Latinoamérica (Suárez, 1999). Finalmente, otra exigencias de sensibilidad, especificidad, y un
generación de pruebas de aprestamiento proviene de balance ventajoso entre sus costos y los beneficios
la adaptación del Metropolitan Readiness Test de su uso, entonces la creación de un instrumento es
(Hildreth, Griffiths & McGauvran, 1969) en Chile necesaria en la situación actual del psicólogo y
(Abarca, Domberg, Montes & Peredo, 1965), y profesiones directamente vinculadas con el
posteriormente, la Prueba de Funciones Básicas rendimiento escolar del niño. Actualmente, hay una
(Berdicewski & Milicic, 1974, 2004). Más extensa y diseminada preocupación por la buena
recientemente, se han presentado las pruebas práctica profesional en el uso de herramientas de
experimentales del equipo de Bravo (1997) y una evaluación psicológica, y se estimula el buen uso y
adaptación normativa en niños peruanos entre 5 y 6 la aplicación de criterios técnicos psicométricos para
años de edad (Melendez & Morocho, 2007). el desarrollo y conceptualización de instrumentos de

Revista Peruana de Psicometría 1 (1), julio-diciembre 2008 ISSN 1995-9966


- 17 -
evaluación, así como de sus mejores prácticas están en instrucción escolarizada cuatro horas y
profesionales (AERA, APA & NCME, 1999; media durante cinco días a la semana en estos
International Test Comission, 2001). Bajo este centros, y las actividades de enseñanza son
contexto, las investigaciones psicométricas son los consistentes con la currícula escolar oficial; sin
métodos de elección para decidir sobre las pruebas embargo, cada grupo preescolar puede diferenciarse
más adecuadas. Excepto, en ciertas ocasiones; ya que por características de la didáctica y filosofía de
como mencionamos, no se han publicado enseñanza de cada profesora, además de la
comparaciones psicométricas sobre pruebas suficiencia de los materiales didácticos y de los
tradicionales de aprestamiento (por ejemplo, ABC, 5 textos de instrucción elegido. En la Tabla 1 se
y 6, PFB) en el contexto latinoamericano y menos pueden apreciar las principales características de la
aún comparándolas con nuevas propuestas (por muestra.
ejemplo, BENHALE). Por lo tanto, el presente estudio
se orienta a cubrir esta ausencia de evidencias Tabla 1
empíricas de las características de validez y
confiabilidad de estas medidas de la preparación Distribución de las características de los participantes
preacadémica. Nuestro estudio evaluará y comparará
Género Gestión Edad
las características psicométricas de varias pruebas Varón Mujer Estatal Privado
tradicionales de aprestamiento o habilidades pre- N (%) N (%) N (%)
Media (de)
N (%)
académicas, estas características incluyen el examen
ABC 30 (60.0) 20 (40.0) 50 (100) 0 (0.0) 66.4 (3.9)
de la dimensionalidad, distribución, ítems y 37 (50.0) 37 (50.0) 64 (86.4) 10 (13.6) 69.2 (3.9)
5y6
consistencia interna. PFB 32 (53.3) 28 (46.7) 50 (83.3) 10 (16.7) 66.6 (4.3)
BDPG 34 (46.6) 39 (53.4) 9 (12.3) 64 (87.7) 60.0 (3.5)
Método
BENHALE 27 (56.2) 21 (43.8) 48 (100) 0 (0.0) 67.9 (4.1)

Participantes
La muestra estuvo conformada por 305 niños y Instrumentos
niñas, seleccionados por conveniencia, cuya edad
promedio fue de 5 años 5 meses y fue similar en todas Batería de Despistaje para Primer Grado
las instituciones educativas en las cuales se hizo la (Merino, 2008a). Este instrumento explora
evaluación. Los participantes pertenecieron a nueve habilidades pre-académicas para niños que están
instituciones educativas orientadas al nivel preescolar, ingresando al primergrado de primaria; las
3 de ellas son de gestión privada y se encuentran habilidades evaluadas están en un estrecho rango de
ubicadas en los distritos de: Ate Vitarte, Villa el contenido sobre Conocimiento de letras y palabras
Salvador y Pachacamac. Las otras 9 instituciones (18 ítems), Habilidades fonológicas (17 ítems),
restantes son de gestión de pública y se ubican en los Percepción visual (21 ítems), Habilidades
distritos de: Cercado de Lima, Ate Vitarte, Barranco, cuantitativas (23 ítems) y Habilidades de
Breña, San Martin de Porres, Pachacamac, Comas, vocabulario y conceptualización (20 ítems); para
San Juan de Lurigancho y la Provincia constitucional cada una de estas áreas se obtiene un puntaje,
de Callao. Las características funcionales de estas además de un puntaje total basado en la suma de las
instituciones son similares: es decir, que en cada subescalas. Es una adaptación del PASS (Witheman,
centro los niños reciben instrucción en aulas de 25 a 1987), una prueba de 30 ítems creada para evaluar
30 alumnos aproximadamente; y una profesora y habilidades académicas en primer grado de primaria,
auxiliar, ambas mujeres, se encargan de la instrucción y luego adaptada ligeramente para usarse con niños
en todas las instituciones muestreadas. Los niños de 5 años (Hirsh-Pasek, Hayson y Lescorla, 1990);
Revista Peruana de Psicometría 1 (1), julio-diciembre 2008 ISSN 1995-9966
- 18 -
el estudio original concluyó que el puntaje total es el (1960) halló una aceptable confiabilidad basada en
resultado más confiable para la interpretación del aplicaciones sucesivas con intervalo de una semana.
rendimiento del niño (Witheman, 1987), y no su Para la validez predictiva, se correlacionó con el
hipotetizada estructura de dominios. El instrumento se aprendizaje obtenido al final del año escolar (r =
diseñó para ser aplicado en grupos pequeños. Los 0.75), junto con una prueba de lectura silenciosa,
ítems son de tipo opción múltiple y se califican con velocidad de lectura oral, velocidad y perfección de
uno o cero. Un estudio en Latinoamérica con una la escritura y prueba de dictado (r = 0.92, Filho,
versión temprana demostró que predice el 35% de la 1960). Usando un análisis factorial con el método
varianza de las notas en primer grado luego del primer Centroide de Thurstone, Filho halló una estructura
trimestre de instrucción (Merino, 2008b). Estudios oblicua tridimensional, que denominó X (test 3, 1 y
con la actual versión han aportado resultados 7), Y (test 8, 6, 7 y 2) y Z (test 5, 2 y 4).
satisfactorios sobre la validez de constructo con
diferentes estrategias (análisis factorial, comparación Batería Evaluadora de las Habilidades
de grupos extremos, correlaciones convergentes y Necesarias para el Aprendizaje de la Lectura y
divergentes), de criterio (concurrente y predictivo) y Escritura (Mora, 1993). Esta prueba permite estimar
de contenido, así como la confiabilidad, estabilidad y el nivel alcanzado en las habilidades para el
consistencia interna (Merino, 2008b). aprendizaje de la lectura y de la escritura. Se
compone de las subpruebas: Coordinación
Test ABC (Filho, 1947; 1960). Ha sido visomotora (2 ítems), Memoria motora (3 ítems),
desarrollado por L. Filho en los años de 1925 en Percepción y discriminación visual (10 ítems),
Brasil, y publicada por primera vez en español en Vocabulario (30 ítems), Articulación (10 ítems),
1947; tiene como fin el diagnóstico de un conjunto de Percepción y discriminación auditiva (4 ítems),
capacidades para el aprendizaje de la lectura y Estructuración espacio-temporal (4 ítems), Memoria
escritura para los niños que acuden a la escuela visual inmediata (10 ítems), Memoria auditiva y
primaria. Siendo usado como un instrumento lógica inmediata (7 ítems). De administración
propedéutico o reactivo preliminar. Este test evalúa individual, es aplicable para niños y niñas de cinco y
las siguientes 10 áreas: coordinación visual motora, seis años. Los materiales necesarios para la
resistencia a la inversión en la copia de figuras, aplicación son: una hoja de respuesta, un lápiz,
memorización visual, coordinación auditivo motora, lámina de memoria visual inmediata, una pelota, y
capacidad de pronunciación, resistencia a la ecolalia, hojas de papel blanco. En lo referente a las
memorización auditiva, índice de fatigabilidad, índice características psicométricas, a través del estudio
de atención dirigida, vocabulario y comprensión normativo se demostró la independencia de los
general. Estas áreas se distribuyen en ocho subtest: subtest con intercorrelaciones muy pequeñas
Reproducción de figuras (3 ítems), Evocación de (r=0.03) o bajas (r=0.37). La consistencia interna fue
figuras (7 ítems), Reproducción de movimientos (3 estimada a través del coeficiente alfa de Cronbach
ítems), Evocación de palabras (7 ítems), Evocación de que tuvo valores de moderados (α = 0.60 en
un relato (6 ítems), Reproducción de palabras (10 Percepción y discriminación visual) hasta altos (α =
ítems), Corte de un diseño (2 ítems), Punteado (1 0.88 en Estructuración espacio-temporal). Por otro
ítem). La duración de aplicación de la prueba es lado, la validez de contenido, fue específicamente de
alrededor de 10 minutos, y es aplicado de manera validez factorial, hallándose una solución
individual y colectiva. La puntuación general es tridimensional que explicó el 37.42% de la varianza
obtenida por la suma de los puntos alcanzados en la total: un factor de predominio perceptivo, uno de
prueba por parte de los evaluados (máximo: 24 predominio motriz y otro de predominio lingüístico.
puntos). Respecto a su respaldo psicométrico, Filho La validez predictiva,se hizo a través de dos estudios
Revista Peruana de Psicometría 1 (1), julio-diciembre 2008 ISSN 1995-9966
- 19 -
reportados en el manual, que tuvieron como criterio años y 6 meses aproximadamente. Se articula a
el éxito o el fracaso en el aprendizaje de la lectura y partir de 3 subtest con ítems dicotómicos cada uno:
escritura, y definido por los profesores de los niños, el Coordinación visomotora (16 ítems), Discriminación
primero alcanzó un 67.5% de las predicciones auditiva (28 ítems) y Lenguaje (14 ítems). La
concordantes, mientras que en el segundo estudio se administración es colectiva. Los materiales
alcanzó un 75.2% de concordancias en las necesarios consisten en: el cuadernillo de
predicciones. evaluación, lápiz, pizarra, tizas y mota para los
ejemplos, hoja de registro y cronómetro. En cuanto a
El Test 5-6, forma B (Gastelumendi, Isasmendi, sus propiedades psicométricas, el manual reporta
Slovak, & Semeleng, 1977). Esta viene a ser una una consistencia interna global de 0.82. La validez
prueba que hace una exploración a las áreas concurrente con el Test ABC de Filho alcanzó una
principales al iniciar el aprendizaje de las materias correlación de 0.62; la validez predictiva se analizó
básicas de la escuela, para identificar el grado de en dos estudios de 332 participantes en un plazo de 6
maduración del niño antes de empezar el aprendizaje meses, y en 135 niños y niña después de un año. En
escolar. Las áreas pre-académicas son las relacionadas ambos se tuvo como criterio el juicio de las
con la escritura, la lectura y el cálculo. Fue presentado profesoras, quienes clasificaron a los niños en
por Gastelumendi en el XII Congreso Interamericano lectura y escritura en tres categorías (rendimiento,
de Psicología realizado en Uruguay en marzo de 1969. regular y deficiente). Las autoras no cuantificaron
Este test se compone de dos formas paralelas: A y B. estos resultados y solo se presentó en el manual las
La Forma A se elaboró exclusivamente para tablas de expectativas para el rendimiento en el
Ministerio de Educación de Uruguay; mientras que la primer y segundo año escolar. La información
Forma B es la versión editada para los profesionales y normativa se basó originalmente en 948 chilenos,
la que estuvo a la venta. La batería esta conformada aunque hay normas peruanas en dos documentos no
por 4 subpruebas: Comprensión (7 ítems), Percepción publicados (Rubio, 1992; Espinoza, Piedra y
(24 ítems), Pre-cálculo, y Motricidad (5 ítems cada Sotomarino, 1995).
uno). Cada ítem se puntúa con uno o cero, y es una
prueba recomendada para la administración grupal. El Procedimiento
test muestra una correlación con una prueba de
rendimiento de lectura – escritura aplicada en el tercer Se hizo la evaluación de niños con las pruebas de
trimestre, dando un coeficiente de 0,72 (Gastelumendi habilidades como parte de las actividades del curso
et al., 1977). Además, da una comparación porcentual de medición psicológica del autor principal. Se
con el Test del Árbol y con la aplicación de test de tuvieron grupos de 5 a 7 estudiantes de pregrado
Goodenough dando resultados aceptables. Mientras la para la aplicación de las pruebas seleccionadas, y
validez de este test se encuentra expresada por los para ello se planificaron dos sesiones de
ajustados resultados estadísticos que pone en su presentación y práctica de las pruebas además de
manuscrito. Una de las autoras (Isasmendi, 2008: actividades de auto-práctica indicadas. Cada grupo
comunicación personal) manifiesta que este test debe seleccionó y coordinó con un colegio de educación
ser revisado con los actuales procesos estadísticos. inicial para la administración individualizada de las
pruebas. El espacio de evaluación fue una oficina o
Prueba de Funciones Básicas (Berdicewski & aula vacía, y en esta última situación, se evaluaron
Milicic, 1988). Fue creada en 1974 para predecir el separadamente entre dos o tres niños
rendimiento en el aprendizaje de la lectura y escritura, simultáneamente, cada uno con un evaluador;
en niños y niñas ingresantes al primer grado durante este proceso evaluativo, se siguieron los
cuyas edades fluctuarían entre los 5 años 6 meses y 7 procedimientos estandarizados de relación empática
Revista Peruana de Psicometría 1 (1), julio-diciembre 2008 ISSN 1995-9966
- 20 -
con el niño, de aplicación de pruebas y el de análisis (Stanley, 1971); por lo tanto, usaremos
seguimiento de las instrucciones. los puntajes de las subáreas para la estimación de la
consistencia interna, y mediante el coeficiente alfa
Efectuaremos un análisis de ítems usando los estratificado (Cronbach, Schonemann y McKie,
procedimientos tradicionales de la dificultad y 1965; Nunnally & Bernstein, 1995); este coeficiente
discriminación de los ítems. Anastasi y Urbina (1997) incluye en su cálculo la variabilidad de las
y Garret (1971) señalan que índices de discriminación subpruebas, de tal modo que ajusta el cálculo con la
aún de 0.20 son cuantitativamente aceptables en varianza propia de cada subprueba
algunas circunstancias, pero las recomendaciones más independientemente.
populares indican que 0.30 es un nivel mínimamente
aceptable (Thorndike, 1980; Nunnally y Bernstein, Usaremos la matriz de correlaciones inter-ítem e
1995). Para propósitos descriptivos usaremos ambos inter-subpruebas para la estimación de la
criterios en una separación relevante para tomar homogeneidad de los ítems mediante la correlación
decisiones sobre la validez de los ítems. La dificultad inter-ítem promedio (Cronbach, 1951), la varianza
del ítem se determinó por el porcentaje de examinados explicada retenida por el primer factor no rotado y la
quienes responden correctamente al ítem. Para la tasa del autovalor sobre el segundo. Estos dos
evaluación de los niveles apropiados de dificultad se últimos métodos son recomendados para estimar la
usó el criterio de Anastasi y Urbina (1997), en que se unidimensionalidad (Hattie, 1985). También
considera óptima una dificultad promedio de 0.50, e calcularemos la comunalidad de los subtest mediante
ideal una distribución de ítems entre 0.15 y 0.85, pero el método de ejes principales, que toma en cuenta la
ya que las pruebas de despistaje se indican para varianza común y no toda la varianza (única y
detectar a niños con futuros problemas, entonces los común) como lo hace el análisis de componentes
ítems deberían tener un nivel de dificultad cercano a principales (Nunnally y Bernstein, 1995); este
la tasa de de selección deseada (Anastasi y Urbina, método de extracción de ya factores se recomienda
1997) ya que una prueba de despistaje generalmente que es tolerante a la no normalidad multivariada, y
tiene el propósito de ayudar a identificar el 10% más extiende su cobertura para factores débiles (Briggs y
bajo de la población (Mathews, 1986), los ítems MacCallum, 2003). Como técnica, se lo sugiere en la
deberían ser respondidos correctamente por el 90% de evaluación de la estructura interna en instrumentos
la muestra. Los ítems con más frecuencia que el 90% psicológicos (Ford, MacCallum y Tait, 1986; Floyd
añaden poco valor discriminativo, tanto como los y Widaman, 1995).
ítems incorrectamente respondidos por menos del
40% de la población (A. Kline, comunicación Resultados
personal, Marzo 1980, citado en Simmons, 1988).
Análisis de ítems
Fuera del rango de dificultad entre 0.40 y 0.90, los
Dificultad de los ítems. La distribución de la
ítems podrían ser cuestionables para propósitos de
dificultad de los ítems ha sido más favorable para las
despistaje (Simmons, 1988).
prueba BDPG, pues el 70% o más de los ítems en
Para el cálculo de la consistencia interna se usará el cada subescala estuvieron un rango medio de
coeficiente alfa (Cronbach, 1951); su cálculo para las dificultad; en otras palabras, cada subescala
subpruebas usarán todos sus ítems, pero para el distribuye sus ítems consistentemente en el rango
puntaje de la prueba total, se evitará inflar medio que se considera óptimo. En segundo lugar,
espúreamente la confiabilidad debido al número de los ítems de la prueba 5 y 6 estuvieron casi
ítems (Nunnally & Bernstein, 1995), y mantendrá la completamente en el rango medio, exceptuando la
relativa independencia experimental de las unidades subescala Comprensión, cuya mitad de ítems fue
Revista Peruana de Psicometría 1 (1), julio-diciembre 2008 ISSN 1995-9966
- 21 -
muy fácil. El ABC y ni el BENHALE pudieron se cada una de ellas. El BENHALE acumulativamente
evaluados en estos aspectos ya que sus ítems son demostró que sus ítems se orientan a discriminar
politómicos. Los ítems del PFB estuvieron centrados mejor ya que tienden a estar en el nivel > 0.29. La
en el rango medio óptimo, pero repartidos también PFB posee casi la mitad de sus ítems en el nivel de
entre los ítems fáciles y difíciles; en esta misma moderada a baja discriminación. El ABC y el 5 y 6
prueba, mientras que Coordinación fue mostraron las peores propiedades discriminativas,
completamente adecuado en su rango de dificultad, la pues sus ítems modalmente se acumularon en el
escala Lenguaje tuvo casi la cuarta parte de sus ítems nivel bajo, y la cantidad de ítems distribuidos en los
en el nivel fácil. Debe observarse que la cantidad niveles medios y alto es apenas 1 en algunas
nominal de ítems en el PFB y BDPG, y la subescala subescalas, debido a la poca cantidad de ítems. La
Percepción del 5 y 6, supera alrededor de los 10 en el BDPG distribuyó sus ítems entre todos los niveles
nivel óptimo debido que contienen una mayor pero tendiendo al buen nivel de discriminación;
cantidad de ítems. excepto en la subprueba de Conceptos/Vocabulario,
el resto de sus subescalas más del 50% de sus ítems
Discriminación de los ítems. Los ítems de las se colocan en los niveles medio y/o alto. Los
pruebas han tenido un patrón general diferente en resultados del análisis de ítems se plasman en la
tabla 2.

Tabla 2

Distribución de dificultad y discriminación de ítems en cada subescala de las pruebas

Rangos de Dificultad Rangos de Discriminación


Pruebas < 0.40 0.40 – 0.90 > 0.90 < 0.20 0.20-0.29 > 0.29
N (%) N (%) N (%) N (%) N (%) N (%)
PFB
Coordinación Visomotora 0 (0) 16 (100) 0 (0) 2 (12.5) 5 (31.2) 9 (56.2)
Discriminación Auditiva 4 ( 14.2) 19 ( 67.8) 5 ( 17.8) 14 (50) 3 (10.7) 11 (39.2)
Lenguaje 1 ( 7.1) 9 (64.2) 4 (28.5 ) 8 (57.1) 1 (7.1) 5 (35.7)

5y6
Comprensión 0 (0) 4 (57.1) 3 (42.8) 5 (71.4) 1 (14.2) 1 (14.2)
Total percepción 4 (18.1) 18 (81.8) 0 (0) 8 (36.3) 8 (36.3) 6 (27.2)
Cálculo 0 (0) 5 (100) 0 (0) 5 (100) 0 (0) 0 (0)
Coordinación 0 (0) 5 (100) 0 (0) 2 (40) 1 (20) 2 (40)

BENHALE
Coordinación visomotora --- --- --- 0 (0) 0 (0) 2 (100)
Memoria motora --- --- --- 1 (33.3) 1 (33.3) 1 (33.3)
Percepción y discriminación visual --- --- --- 1 (10) 1 (10) 8 (80)
Vocabulario --- --- --- 7 (23.3) 6 (20) 17 (56.67)
Articulación --- --- --- 3 (30) 2 (20) 5 (50)
Percepción y discriminación auditiva --- --- --- 1 (25) 0 (0) 3 (75)
Estructuración espacio temporal --- --- --- 0 (0) 0 (0) 4 (100)
Memoria visual inmediata --- --- --- 2 (20) 2 (20) 6 (60)
Memoria auditiva lógica inmediata --- --- --- 1 (14.28) 3 (42.86) 3 (42.86)

BDPG
Conceptos – Vocabulario 0 (0) 14 (70 ) 6 (30) 13 (65) 3 (15) 4 (20)
Letras y palabras 0 (0) 18 (100) 0 (0) 4 (22.2) 6 (33.3) 8 (44.4)
Fonológica 0 (0) 17 (100) 0 (0) 5 (29.4) 3 (17.6) 9 (52.9)
Percepción visual 0 (0) 20 (95.2) 1 (4.7) 8 (38.1) 5 (23.8) 8 (38.1)
Habilidades cuantitativas 0 (0) 20 (86.9) 3 (13.0) 4 (17.3) 4 (17.3) 15 (65.2)

ABC --- --- --- 4 (50) 2 (25) 2 (25)

Revista Peruana de Psicometría 1 (1), julio-diciembre 2008 ISSN 1995-9966


- 22 -
Confiabilidad partes componentes de laescala poseen
La confiabilidad alfa del puntaje total de las confiabilidades alfa iguales a 0.56 para Percepción 1
pruebas ha tenido una amplia variación, y (6 ítems), 0.51 para Muñeca (11 ítems) y 0.54 para
generalmente orientada hacia los niveles bajos (Tabla Percepción 3 (5 ítems); la homogeneidad de sus
3); excepto el puntaje total de la BDPG (α > 0.80), las ítems es 0.18, 0.08 y 0.20, respectivamente. Por otro
demás pruebas proporcionan puntajes debajo de los lado, más de la mitad de las subpruebas del
estándares recomendados para medidas de despistaje BENHALE tienen confiabilidades α debajo de 0.70.
(Anastasi y Urbina, 1997); estas confiabilidades En el PFB, solo coordinación fue relativamente más
estuvieron por debajo de 0.57, lo que indica que cerca confiable (α > 0.70). Y la BDPG ha estado
del 50% de la variabilidad del puntaje total de estas consistentemente sobre 0.70, excepto una de sus
pruebas provienen del error de medición. Los subpruebas: la subprueba Conceptualización/Voca-
componentes de las pruebas también muestran bajas bulario es predeciblemente muy baja ya que el
confiabilidades, especialmente para la prueba 5 y 6, cálculo se hizo con solo dos componentes,
en que incluso una subprueba alcanza un α= 0.19. Las Conceptualización y Vocabulario.

Tabla 3

Consistencia interna y homogeneidad de las pruebas

Consistencia interna
M DE N ítems
Alfa Rii
ABC (N = 50) 10.0 2.71 8 0.33 0.08
ABC1 1.36 1.10
ABC2 1.50 .61
ABC3 .60 .67
ABC4 1.54 .61
ABC5 1.04 .83
ABC6 1.46 .68
ABC7 1.24 1.12
ABC8 1.26 .60
5 y 6 (N = 74)
Comprensión (COM) 5.36 1.16 7 0.30 0.04
Percepción (P) 12.79 3.54 22 0.66 0.08
Cálculo (CA) 3.12 1.14 5 0.19 0.04
Coordinación (CO) 3.28 1.45 5 0.59 0.23
Total 24.57 4.92 4 0.37 0.16
PFB (N = 60)
Coordinación (C) 9.93 3.32 16 0.71 0.13
Discriminación Auditiva (DA) 18.58 3.41 28 0.60 0.06
Lenguaje (L) 10.63 2.04 14 0.56 0.08
Total 39.15 6.45 3 0.53 0.31
BDPG (N = 73)
Letras y palabras (LP) 12.93 3.55 18 0.77 0.16
Fonológica (F) 11.58 3.23 17 0.72 0.13
Percepción visual (PV) 14.09 3.55 21 0.70 0.10
Habilidades Cuantitativas (HC) 17.83 4.25 23 0.83 0.17
Conceptos/Vocabulario (CV) 16.12 2.43 20 0.52 0.50
Total 75.57 13.25 5 0.82 0.48
BENHALE (N = 48)
Coordinación Visomotora (CVM) 6.60 2.11 2 0.68 0.52
Memoria motora (MM) 2.67 2.5 3 0.47 0.25
Percepción y discriminación visual (PDV) 82.56 9.66 10 0.71 0.25
Vocabulario (V) 21.42 8.13 30 0.77 0.10
Articulación (A) 6.10 2.18 10 0.62 0.14
Percepción y discriminación auditiva (PDA) 16.17 6.36 4 0.67 0.36
Estructuración espacio temporal (EET) 27.98 11.93 4 0.62 0.29
Memoria visual inmediata (MVI) 7.77 2.02 10 0.77 0.22
Memoria auditiva lógica inmediata (MALI) 8.83 2.58 7 0.50 0.13
Total 180.10 27.08 9 0.56 0.16

Nota. M = media, DE = desviación estándar, Rii = correlación inter-ítem

Revista Peruana de Psicometría 1 (1), julio-diciembre 2008 ISSN 1995-9966


- 23 -
Validez de constructo

Homogeneidad. La homogeneidad de los ítems explicó el 59.4% de la varianza; y la tasa del 1er
en las pruebas PFB, ABC y 5 y 6 indican que eigen con el 2do es 2.10. En la PFB, también se
contienen correlaciones cero entre ellas (Tabla 3). extrajo un solo autovalor mayor a 1 (λ = 1.62; el
Para la BENHALE, los ítems en cada subprueba 25.2% de la varianza), y la tasa 1er/2do autovalor
tienden a ser moderadamente homogéneas y sugieren fue 0.82. Los resultados del análisis de correlaciones
que están más cerca de evaluar constructos de para el ABC y el 5 y 6 fueron inferiores a las
reducido espectro, excepto en tres de sus subáreas: anteriores pruebas. El primer autovalor mayor a 1 en
Vocabulario, Articulación y Memoria lógica. La la prueba 5 y 6 capturó el 38% de la varianza común
BDPG, en cambio, muestra correlaciones inter-ítem (λ = 1.54), pero su matriz de correlaciones produjo
entre 0.10 y 0.20 (excepto Conceptualización/ un segundo autovalor mayor a 1 (λ = 1.02); la tasa
Vocabulario), y suponen estar midiendo constructos entre ambos fue 0.51. El ABC produjo 3 autovalores
internamente heterogéneos. De acuerdo a las mayores a 1 (2.18, 1.69 y 1.13); el primero explicó
sugerencias propuestas por Briggs y Cheek (1986) y únicamente el 27% de la varianza común, y la tasa
Clark y Watson (1995), valores alrededor de 0.15 o de los primeros dos eigen fue 0.48. Finalmente, el
menos indican heterogeneidad en los ítems y BENHALE explicó el 28.5% de varianza común con
posiblemente multidimensionalidad. el primer autovalor (λ = 2.56), pero emergieron dos
autovalores adicionales mayores a 1, 1.68 (18.7%) y
Dimensionalidad. El punto de partida de esta
1.34 (14.9%); la tasa de los primeros dos autovalores
sección está en la matriz de correlaciones de los
fue 1.52. En resumen, las pruebas ABC y 5 y 6
componentes de cada prueba (tabla 4), donde se puede
parecen pobremente representados por un solo factor
observar que la BDPG seguida de la BEHNALE
común, mientras que el BENHALE y el PFB lo
poseen intercorrelaciones mayores a 0.40, lo cual no
hacen incompletamente debido al número de
evidenciaría la independencia de los subtest de cada
autovalores mayores a 1 y a la tasa de los primeros
prueba. Respecto al porcentaje de varianza explicado
dos autovalores. La BDPG es la excepción, ya que
por el primer factor no rotado, para la prueba BDPG,
cumple con estos dos criterios (ver tabla 5).
se extrajo un único autovalor mayor a 1 (λ = 2.97) que

Revista Peruana de Psicometría 1 (1), julio-diciembre 2008 ISSN 1995-9966


- 24 -
Tabla 4 Tabla 5

Matriz de correlaciones entre los componentes de cada prueba Valores de Comunalidad, Varianza específica, de
error y única.
Subpruebas Correlaciones
BDPG LP F PV HC CV Subpruebas h2 Ves. Ver. Vun.
LP 1
5 y6
F 60** 1
PV 56** 51** 1 COM 0.20 0.10 0.70 0.80
HC 65** 63** 47** 1 P 0.37 0.29 0.34 0.63
CV 20 50** 26* 40* 1 CA 0.33 0.0 0.67 0.67
CO 0.17 0.42 0.41 0.83
PFB C DA L PFB
C 1 C 0.29 0.42 0.29 0.71
DA 21 1 DA 0.16 0.44 0.40 0.84
L 40** 30* 1 L 0.57 0.0 0.43 0.43
ABC
ABC1 0.34 --- --- 0.66
ABC ABC1 ABC2 ABC3 ABC4 ABC5 ABC6 ABC7 ABC8
ABC2 0.83 --- --- 0.17
ABC1 1
ABC3 0.26 --- --- 0.74
ABC2 -09 1
ABC4 0.15 --- --- 0.85
ABC3 19 29* 1 ABC5 0.66 --- --- 0.34
ABC4 -08 29* 04 1
ABC6 0.32 --- --- 0.68
ABC5 -43** 31* -08 27 1
ABC7 0.63 --- --- 0.37
ABC6 -17 46** 05 22 36** 1
ABC8 0.31 --- --- 0.69
ABC7 17 26 32** 01 -03 01 1 BDPG
ABC8 -05 19 -04 11 06 10 -30* 1
LP 0.58 0.19 0.23 0.42
5 y6 COM P CA CO
F 0.69 0.03 0.28 0.31
COM
PV 0.41 0.29 0.30 0.59
1 HC 0.64 0.19 0.17 0.36
P 21 1
CA
CV 0.21 0.31 0.48 0.79
14 33** 1 BENHALE
CO -01 13 19 1 CVM 0.31 0.37 0.32 0.69
MM 0.37 0.10 0.53 0.63
BENHALE CVM MM PDV V A PDA EET MVI MALI
PDV 0.31 0.40 0.29 0.69
CVM 1
V 0.80 0.00 0.20 0.20
MM 08 1 A 0.23 0.39 0.38 0.77
PDV 25 -06 1 PDA 0.77 0.00 0.23 0.23
V -13 26 26 1
EET 0.49 0.13 0.38 0.51
A 07 23 -12 12 1
MVI 0.28 0.49 0.23 0.72
PDA -08 51** -13 21 41** 1
MALI 0.48 0.02 0.50 0.52
EET 22 38** 05 32* 27 43** 1
MVI -17 19 08 37** 00 29* 20 1
MALI 11 10 37** 41** 17 -05 32* -07 1
Nota. h2 = comunalidad, Ves.= varianza específica,
Ver. = varianza del error, Vun.= varianza única.
Nota. Decimales omitidos, *p < 0.05, **p < 0.01

Discusión sultados de la confiabilidad indican una gran


Es posible pensar que más de un factor es influencia del error de medición, el estadístico
necesario para explicar las relaciones entre las elegido (coeficiente alfa), sin embargo no explica ni
subpruebas examinadas en el presente estudio, pero pondera las fuentes de error que están afectando los
son las cuestionables características psicométricas puntajes obtenidos; pero ello no cambia el hecho que
internas de las pruebas llevan a conclusiones inválidas las pruebas antiguas no evalúan confiablemente las
sobre el funcionamiento cognitivo del estudiante. Si tareas propuestas, y la integración de tareas en un
tomamos en cuenta solamente, por ejemplo, la puntaje compuesto parece de dudosa utilidad para
consistencia interna, nuestros resultados contradicen describir y predecir la disposición de aprendizaje
la posible utilidad de estos instrumentos. La para la lectura y escritura. Ítems que afectan la
confiabilidad baja de algunas de las pruebas utilizadas consistencia interna, y relacionados con su ritc
sugiere que sus puntajes no pueden ser replicables, y afectarán la confiabilidad, considerando que estos
el desempeño del niño puede ser explicado por otras ítems pueden requerir habilidades adicionales a los
condiciones que psicométricamente se consideran que se supone que la escala o área está diseñada a
error; estos errores pueden ser de varias fuentes intrín- medir unidimensionalmente (Simmons, 1988). En
secas y extrínsecas al examinado. Aunque nuestros re- nuestros resultados, las pruebas más recientes han
Revista Peruana de Psicometría 1 (1), julio-diciembre 2008 ISSN 1995-9966
- 25 -
tendido a mostrar distribuciones de discriminación profesional ni para la investigación, así que la
más aceptables que las pruebas antiguas, y el poder persistencia de uso debería cuestionar la
discriminativo de la prueba total, en consecuencia, competencia del examinador para poder discriminar
hace que los instrumentos de reciente creación sean y evaluar las herramientas técnicamente más
una opción de uso más razonable desde el punto de adecuadas. Aunque internamente superior a las
vista técnico. pruebas anteriores, el manual de PFB no reporta las
¿Pero actualmente se usan estas pruebas? Se ha decisiones sobre la elección de sus ítems, así que es
detectado aún el uso de las pruebas antiguas como el de dudosa construcción interna, y aunque su
ABC en Venezuela (Suarez, 1999) y Perú (Guerrero y variedad de tareas da un soporte de validez a su
Monsalve, 1991). La Prueba de Jordan y Massey contenido (Berdicewski y Milicic, 1974; 1978), su
también es resistente a su desuso (Calderón, 1999). Es puntaje total no parece ser un predictor confiable en
posible que el uso de instrumentos breves de la evaluación aplicada, y por lo tanto, la expresión
despistaje frente a otros para el mismo fin, pero más del aprestamiento del niño no es capturado
extensos, sea una de las motivaciones para su uso íntegramente por este puntaje. Por otro lado, la
continuado y recomendado (Morris y Chew, 1989; BENHALE parece una de las pruebas
Chef y Lang, 1990); pero hay más motivos para la recomendables desde el examen interno efectuado,
descontinuación de su uso, como son la débil pero el examinador debe balancear la aparente
unidimensionalidad, pobre consistencia interna y las unidimensionalidad de su puntaje total frente a su
normas que contienen. Ya que son medidas valor predictivo; no hay a la vista estudios empíricos
estandarizadas y su interpretación es normativa, las que respalden y repliquen su validez para el
normas antiguas pueden llegar a sobre-estimar las despistaje de habilidades en los niños ingresantes al
habilidades del niño; y estos puntajes espúreamente primer grado. Lo reportado por el manual (Mora,
inflados pueden llevan a generar falsos negativos y 1999) puede ser una de las pocas fuentes, sino la
otros errores de decisión instruccional. Otros aspectos única, informativas sobre su validez predictiva; sin
no hay sido evaluados en el presente estudio, así que embargo, la información de validez sólo se limita a
su inclusión en estudios posteriores dará una las relaciones internas de sus subescalas y a la
evidencia más de la adecuabilidad psicométricas de concurrencia con la percepción de las profesoras
los puntajes de estas pruebas. Además de los aspectos sobre el rendimiento académico de los niños de la
psicométricos críticos como la estandarización, muestra de estandarización. Finalmente, la BDPG ha
validez y confiabilidad (Bradley-Johnson y mostrado que su puntaje total es comparativamente
Durmusoglu, 2005), otros aspectos más modernos más confiable, así como una estructura de
tales como el efecto de piso y la gradiente del ítem componentes que puede ser reducido
(Bracken, 1987, 2000) deben ser evaluados como parsimoniosamente en un puntaje unidimensional de
otras características igualmente importantes para las valor descriptivo; nuestro estudio da soporte
pruebas de despistaje. comparativo a este instrumento frente a los otros, y
Nuestro estudio puede tener efectos sobre la parece ser la herramienta recomendable desde el
práctica y como valor técnico. Uno de ellos es alertar análisis interno. El lector debe observar que las
al lector sobre la relevancia de estos aspectos correlaciones entre las subescalas del BDPG
psicométricos. Por el lado técnico, varias de las sugieren alguna redundancia debido a la magnitud
pruebas examinadas no parecen evaluar constructos de sus correlaciones inter-subpruebas, y la
unitarios debido a los inferiores valores de interpretación del rendimiento del niño usando estas
consistencia y validez interna. Las pruebas 5 y 6, y subescalas se hace compleja. Otros estudios de
validez concurrente, de constructo y de criterio están
ABC no pueden recomendarse más para la práctica

Revista Peruana de Psicometría 1 (1), julio-diciembre 2008 ISSN 1995-9966


- 26 -
en progreso para dar soporte a su utilidad (Merino, alertar al investigador y al psicólogo aplicado sobre
2008a). las propiedades de los instrumentos en la presencia
de posible variabilidad de origen aleatorio en la
La dimensionalidad se sugiere como un paso administración de las pruebas. Existen otras
necesario y previo para examinar las propiedades de condiciones propias de los niños examinados y de
información de una prueba, la poca similitud de las las condiciones de examen que también pueden
tareas usadas en las pruebas puede ser una barrera haber añadido razonablemente varianza de error,
para no alcanzar una adecuada comunalidad entre pero la aplicación de las pruebas en nuestro estudio
ellas, pero aún con las diferentes tareas que componen reflejó grandemente las condiciones frecuentes en
las pruebas de despistaje estudiadas, en algunas que ocurre la evaluación de niños durante el periodo
investigaciones se han puesto en evidencia que se escolar, especialmente en instituciones educativas
puede lograr la comunalidad entre sus elementos que públicas. En instituciones públicas peruanas, la
están asociados para predecir el rendimiento escolar participación estable del psicólogo es menos
(Morris y Chew, 1989; Chef y Lang, 1990). frecuente, y no se está considerado como una parte
Indirectamente, no solo los aspectos de validez, estructural de organización del personal educativo
normas y confiabilidad de las pruebas más antiguas (Merino, Díaz, Zapata & Benites, 2006). Cuando su
han sido puestas en cuestionamiento en nuestros presencia es estable, sin embargo, los recursos
resultados, las habilidades que se consideran estructurales pueden llegar incluso a la
predictivas para el aprendizaje de la lectura, escritura improvisación.
o matemáticas. Estudios longitudinales (Juel, Griffith
y Gough, 1986) han confirmado que una de las El tamaño muestral en cada instrumento
habilidades más robustamente predictivas del inicio administrado no es un fuerte respaldo para
del aprendizaje lector son las habilidades fonológicas. generalizar confiablemente nuestros resultados, y
Sin esta habilidad explorada, la detección de niños en por lo tanto las estimaciones cuantitativas efectuadas
riesgo de problemas en el aprendizaje lector no será contienen un amplio error estándar (Chen y
precisamente válida, y más bien los constructos Popovich, 2002). Esta inestabilidad en las
examinados pueden ser más bien de otra finalidad estimaciones basadas en el modelo general lineal
predictiva. sugiere que nuestros resultados deberían ser
replicados para asegurar que nuestras conclusiones
Nuestros resultados pueden ser condicionados por no sean específicas a los grupos de niños evaluados
varios aspectos, como las variaciones en la aplicación en nuestro estudio. Esta limitación también se aplica
de los instrumentos. Dado que fueron 5 grupos de a las estimaciones derivadas del análisis factorial.
evaluación, cada uno compuesto por un promedio de Pero lo que balancea a favor de nuestro estudio es
8 estudiantes, la interacción entre el examinador y los que los pobres resultados psicométricos en algunos
niños puede haber introducido varianza de error en los de los instrumentos parecen ser un evento contrario
puntajes obtenidos, que es usualmente como fuente de a lo que ocurriría en instrumentos con sólidas
error (Nunnally y Bernstein, 1995). A ello se añade propiedades psicométricas, y cuyas relaciones
que las estimaciones de confiabilidad no diferencian internas no varíen tan severamente como las que
entre diferentes fuentes de error provenientes del hemos hallado en los instrumentos antiguos. Por lo
examinado, las condiciones del examen y el tanto, lo que hallamos puede ser razonablemente
examinador/material de examen (Stanley, 1971), ni de replicables, más aún si se ha detectado que las
las variaciones día a día que fluctúan aleatoriamente estimaciones de cargas factoriales son
(Feldt y Brennan, 1989); por lo tanto, nuestros aceptablemente estables en tamaños muestrales de
resultados tienen más un valor heurístico que debe 50, bajo modelos de uno o dos factores (Schultz y
Revista Peruana de Psicometría 1 (1), julio-diciembre 2008 ISSN 1995-9966
- 27 -
Tein, 2000). En este punto, la varianza explicada por do. Por ejemplo, en una de las subpruebas del
un factor latente fue elevada para uno solo de los BENHALE (Memoria Motora), el 33% de sus ítems
instrumentos (BDPG), que es el de más reciente tiene un nivel discriminativo medio, pero
construcción. No pretendemos que nuestros análisis nominalmente significa que un solo ítem está en esta
sean concluyentes sobre la validez de constructo, ya clasificación; en contraste, 6 ítems de la subescala
que el análisis de las relaciones internas con Letras y Palabras de la BDPG se hallan en el mismo
correlaciones y coeficientes ad hoc, no son sustitutos nivel. Esta situación tiene impacto en la
de la validez externa (Smith, 1974), y especialmente interpretación, ya que si los componentes de un
de la validez predictiva, considerando que este último puntaje total se diseñaron para poseer varianza
es uno de los más importantes en la evaluación de la específica interpretable, entonces el muestreo de
lectura temprana (Foorman, Fletcher y Francis, 2004). contenido debe ser lo suficientemente amplio y
Por lo tanto, una exploración que replique nuestros confiable (Nunnally y Bernstein, 1995). Finalmente,
resultados en una diferente muestra puede extender las y dado la evidencias de la estructura interna de las
conclusiones a un nivel de generalidad mayor; sin instrumentos examinados, sugerimos su
embargo, un desafío para los investigadores y descontinuación, y la elección de medidas
profesionales es llevar en su práctica los psicométricamente más robustas y actúales.
conocimientos que pueden extraer de nuestros
resultados para tomar decisiones sobre el uso y abuso Referencias
de las pruebas que fueron evaluadas
Abarca, S., Domberg, S., Montes, G., & Peredo, M.
psicométricamente aquí, e incluso de otras que se (1965) Adaptación y análisis estadístico del
igualan en antigüedad y trasfondo teórico. Metropolitan Readiness Test (forma s).
Memoria de prueba para optar al Título de
El nivel de dificultad de las pruebas con ítem Psicólogo. Pontificia Universidad Católica de
puntuados dicotómicamente fue general aceptable Chile, Escuela de Psicología.
para dos pruebas, pero no la PFB. Ya que la dificultad
de los ítems pone un límite al poder discriminativo, se Alarcón, R. (2004) Medio siglo de psicología
latinoamericana: Una visión de conjunto.
observó que este requisito solo es cumplido por la
Revista Interamericana de Psicología, 38 (2),
BDPG completamente, parcialmente por el 5 y 6. 307-316.
Combinando con el poder discriminativo, los ítems de
dificultad media permiten orientar la distribución Alfonso, V. C., & Flanagan, D. P. (1999).
empírica de los puntajes totales hacia la distribución Assessment of cognitive functioning in
normal teórica, y metodológicamente, las propiedades preescholers. En E. V. Nutall, I. Romero, & J.
Kalesnik (Eds.), Assessing and screening
estadísticas de instrumentos ajustados a la distribución
preschoolers (2a. ed., pp. 186-217). New
normal pueden ser estadísticamente generalizables. York: Allyn & Bacon.
Las propiedades discriminativas tendieron a ser
mejores en las pruebas más actuales, pero en general Alfonso, V. C., & Flanagan, D. P. (2006). Best
todas las pruebas demostraron ítems discriminativos. practices in the use of the Standford-Binet
Aunque los porcentajes usados para evaluar la Intelligence Scales, Fifth Edition (SB5) with
preschoolers. En B. A. Bracken & R. Nagle
discriminación y dificultad de los ítems hacen
(Eds.), Psychoeducational Assessment of
comparables estas conclusiones, debemos anotar que preschool children (4a. ed. pp. 267-295).
la cantidad nominal de ítems es mayor para algunas Mahwah, NJ: Erlbaum.
pruebas, así que el impacto de la distribución de ítems
con pobres cualidades es mayor en las pruebas y Anastasi, A. & Urbina, S. (1997). Psychological
testing (7a ed.). New York: McMillian.
subpruebas que tienen un pobre muestreo de conteni-
Revista Peruana de Psicometría 1 (1), julio-diciembre 2008 ISSN 1995-9966
- 28 -
Ardila, R. (2004). Psicología Latinoamericana: El Brandon, VT: Clinical Psychology Publishing.
primer medio siglo. Revista Interamericana de
Psicología, 38 (2), 317-322. Brannigan, G. G., & Brunner, N. A. (2002). Guide to
the Qualitative Scoring System for the
Beery, K. E. (2000). Prueba Beery-Buktenica del modified version of the Bender-Gestalt Test
Desarrollo de la Integración Visomotora, VMI (2a. ed.). IL: Charles C. Thomas.
(4a. ed.). México, D.F: El Manual Moderno.
Bravo, L. (1997). Prueba experimental pre-lectora
Berdicewski, O., & Milicic, N. (1974). Jardín infantil (PPL). Boletín de Investigación Educacional,
y su influencia en el rendimiento de 12, 79-90.
coordinación visomotora, discriminación auditi-
va y lenguaje, medidos con una prueba de Bravo, L. (2002). La conciencia fonológica como
funciones básicas. Revista Chilena de Pediatría, una zona de desarrollo próximo para el
45 (6), 505-508. aprendizaje inicial de la lectura. Estudios
Pedagógicos, 28, 167-177.
Berdicewski, O. & Milicic, N. (1978) Prueba de
Funciones Básicas. Santiago: Galdoc. Bravo, L. (2004). La conciencia fonológica como
una posible “zona de desarrollo próximo” para
Berdicewski, O., & Milicic, N. (2004). Prueba de el aprendizaje de la lectura inicial. Revista
Funciones Básicas (35a. ed.). Santiago: Latinoamericana de Psicología, 36 (1), 21-32.
Editorial Universitaria.
Bravo, L., Villalón, M., & Orellana, E. (2006)
Bracken, B. A. (1987). Limitations of preschool Predictibidad en el rendimiento de la lectura:
instruments and standards for minimal levels of Una investigación de seguimento entre primer
technical adequacy. Journal of Psychoeducatio- y tercer año. Revista Latinoamericana de
nal Assessment, 5, 313-326. Psicolología, 38 (1), 9-20.

Bracken, B. A. (2000) Maximizing construct relevant Briggs, S. R., & Cheek, J. M. (1986). The role of
assessment: The optimal preschool testing factor analysis in the develoment and
situation. En B. A. Bracken(Ed.), The evaluation of personality scales. Journal of
psychoeducational assessment of preschool Personality, 54, 106-148.
children (3a. ed.; pp. 33-44). Needham-Heights,
MA: Allyn & Bacon. Briggs, N. E., & MacCallum, R. C. (2003).
Recovery of weak common factors by
Bracken, B. A. (2002) Bracken School Readiness maximum likelihood and ordinary least
Assessment (BSRA). Texas: The Psychological squares estimation. Multivariate Behavioral
Corporation. Research, 38, 25-56.

Bradley-Johnson, S. & Durmusoglu, G. (2005) Calderón, J. (1991) Relación entre el examen de


Evaluation of floor and ítem gradients for ingreso a Primer Grado y el rendimiento
reading and math for young children. Journal of escolar en un grupo de niños de Primer Grado
Psychoeducational Assessment, 23, 262-278. de Educación Básica Regular de un colegio
particular de Lima Metropolitana. Tesis de
Brannigan, G. G., & Brunner, N. A. (1989). The Licenciatura, Universidad Femenina del
Modified Version of the Bender-Gestalt Test for Sagrado Corazón, Lima, Perú.
Preschool and Primary School Children.
Brandon, VT: Clinical Psychology Publishing. Chan, P. W. (2002). Relationship of the visual motor
development and academic performance in
Brannigan, G. G., & Brunner, N. A. (1996). The young children in Hong Kong assessed in the
Modified Version of the Bender-Gestalt Test for Bender-Gestalt Test. Perceptual and Motor
Preschool and Primary School Children – Revised. Skills, 90, 209-214.
Revista Peruana de Psicometría 1 (1), julio-diciembre 2008 ISSN 1995-9966
- 29 -
Chew, A. L. & Lang, S. W. (1990) Predicting Filho, L. (1960). Test ABC (6ª. ed.). Buenos Aires:
Academic Achievement in Kindergarten and Kapelusz.
First Grade from Prekindergarten Scores on the
Lollipop Test and Dial. Educational and Foorman, B.R., Fletcher, J.M., & Francis, D.J.
Psychological Measurement, 50 (2), 431-437. (2004). Early reading assessment. En W. Evers
(Ed.), Testing student learning, evaluating
Chen, P. Y., & Popovich, P.M. (2002). Correlation: teacher effectiveness, (pp. 81-125). Stanford,
Parametric and Nonparametric Measures. CA: The Hoover Institution.
Thousand Oaks, CA: Sage Publications.
Floyd, F. J., & Widaman, K. F. (1995). Factor
Clark, L. A., & Watson, D. (1995). Constructing analysis in the development and refinement of
validity: Basic issues in scale development. clinical assessment instruments. Psychological
Psychological Assessment, 7 (3), 309-319. Assessment, 7 (3), 286-299.

Condemarín, M. (1989). Lectura temprana: Jardín y Flynn, J. (2006) Screening for Reading Success:
primer grado. Santiago: Andrés Bello. Administration and interpretation guide.
Minnesota: Cognitive Technologies.
Cronbach, L. J. (1951). Coefficient alpha and the
internal structure of test. Psychometrika, 16, Ford, J. K., MacCallum, R. C., & Tait, M. (1986).
297-334. The application of exploratory factor analysis
in applied psychology: a critical review and
Cronbach, L.J., Schonemann, P., & McKie, D. analysis. Personnel Psychology, 39 (2), 291-
(1965). Alpha coefficients for stratified-parallel 314.
tests. Educational and Psychological
Measurement, 25, 291-312. Garret, H. B. (1971) Estadística en psicología y
educación. Buenos Aires: Paidós.
Educational Testing Service. (1989). Reading
readiness. Annoted bilbliography of test. Ilg, F. L., Ames, L. B., Haines, J., & Gillespie, C.
Princeton, NJ: Educational Testing Service. (1981) Tests de Madurez Escolar Instituto
Gesell. Buenos Aires: Paidos.
Emmons, M. R., & Alfonso, V. C. (2005). A critical
review of the technical characteristics of current Gastelumendi, E., Isasmendi, A., Slovak, G., &
preschool screening batteries. Journal of Semeleng, Z. (1977). Test 5-6, Forma B.
Psychoeducational Assessment, 23 (2), 111-127. Montevideo: Kapeluz.

Espinoza, J., Piedra, M & Sotomarino, J. (1995) Guerrero, B. & Monsalve, S. (1991). Correlación
Estandarización de la Prueba de Funciones entre la Prueba de Funciones Básicas y el Test
Básicas para la lectura y escritura en Lima ABC de Filho en un grupo de niños de
Metropolitana. Tesis de licenciatura, Educación Inicial. Tesis de licenciatura,
Universidad Femenina del Sagrado Corazón, Universidad Femenina del Sagrado Corazón,
Lima, Perú. Lima, Perú.

Feldt, L. S. & Brennan, R. L. (1989). Reliability. En: Haeussler, I. M. y Marchant, T. (2003) Test de
R. L. Linn (Ed.), Educational Measurement (3a. Desarrollo Psicomotor 2-5 Años (10ª. ed.).
ed.) (pp. 105-146). New York: American Santiago: Pontificia Universidad Católica de
Council on Education and MacMillan. Chile.

Filho, L. (1947). Test ABC de verificación de la Hasbrouck, J. (1990). Preschool assessment. En G.


madurez necesaria para el aprendizaje de la Tindal & D. Marston (Eds.), Classroom-based
lectura y escritura. Buenos Aires: Kapelusz. Assessment: Testing for teachers (pp. 273-
291). Columbus, OH: Merrill.
Revista Peruana de Psicometría 1 (1), julio-diciembre 2008 ISSN 1995-9966
- 30 -
Hattie, J.A. (1985). Methodology review: Assessing Prueba de Predicción Lectora (PPL): Aspec-
unidimensionality of tests and ítems. Applied tos teóricos y elaboración de un baremo:
Psychological Measurement, 9, 139-164. Estudio hecho en Lima, Perú. Investigación
Educativa, 11 (19), 79-88.
Hildreth, G. W., Griffiths, M., & McGauvran, M. E.
(1969). The Metropolitan Readiness Tests. Merino, C. (2006, Octubre). Confiabilidad inter-
NewYork: Harcourt Brace Jovanovich. jueces del sistema de calificación cualitativa
del Test Gestáltico de Bender para niños.
Hirsh-Pasek, K., Hyson, M. C., & Rescorla, L. (1990) Ponencia presentada en el II Congreso
Academic environments in preschool: Do they Iberoamericano de Psicología, Universidad
pressure or challenge young children. Early Garcilazo de la Vega, Lima, Perú.
Education and Development, 1 (6), 401-423.
Merino, C., Díaz, M., Zapata, L., & Benites, L.
Inizan, A. (1989). Cuando enseñar a leer: evaluación (2006) School psychology in Peru. En S. R.
de la aptitud para aprender a leer. Madrid: Jimerson, T. O. Oakland & P. T. Farell (Eds.)
Visor. The Handbook International of School
Psychology, (pp. 299 - 307). Oakland: Sage
International Test Commission (2001). International Publications.
guidelines for test use. International Journal of
Testing, 1, 93-114. Merino, C. (2008a). Estudio predictivo de una
prueba breve de despistaje del rendimiento
Jordan, F. L., & Massey, J. (1967). School readiness escolar en primer grado de primaria. Datos no
survey for preschool and kindergarten children publicados. Lima: Autor.
ages 4 to 6. Mountain View, CA: Consulting
Psychological Press. Merino, C. (2008b). Características psicométricas
de una batería de habilidades de aprendizaje
Juel, C., Griffith, P. L., & Gough, P. B. (1986) para el despistaje del bajo rendimiento
Acquisition of literacy: A longitudinal study of académico en lectura y matemáticas, en niños
children in first and second grade. Journal of de primer grado de primaria. Datos no
Educational Psychology, 78 (4) 243-255. publicados. Lima: Autor.
Koppitz, E. M. (1984). El Test Guestáltico Visomotor Minneapolis Public Schools (2005) Minneapolis
para niños. 10º ed. Bs. As.: Guadalupe. Pre-school Screening Instrument – Revised
(MPSI - R). Minneapolis: State and Federal
Marchena, C., Santos, M. (1986) Aprestamiento, Projects Office, Minneapolis Public Schools.
madurez y lecto-escritura en niños de un centro
educativo urbano-marginal: estudio piloto. Molina, S. (1992). BADICBALE: Batería diagnósti-
Anales de Salud Mental, 2 (1/2), 109-21. ca de la competencia básica para el
aprendizaje de la lectura. Madrid: CEPE.
Mathews, J. (1986). The professions of speech-
language pathology and audiology. In G. Mora, J. A. (1999). Batería Evaluadora de las
Shames, & E. Wiig (Eds.), Human Habilidades Necesarias para el Aprendizaje
communication disorders (2a. ed., pp. 3-26). de la Lectura y Escritura (BEHNALE).
Columbus, OH: Charles E. Merrill Publishing. Madrid: TEA.
Meisels, S. J., Marsden, D. B., Wiske, M. S., & Morris, J. D: & Chew, A. L. (1989) Predicting later
Henderson, L. W. (1997). Early Screening academic achievement from kindergarten
Inventory - Revised: Examiner's manual. Ann scores on the Metropolitan Readiness Tests
Arbor, Michigan: Rebus, Inc. and the Lollipop Test. Educational and
Psychological Measurement, 49 (2), 461-465.
Melendez, C. & Morocho, G. (2007) Aplicación de la

Revista Peruana de Psicometría 1 (1), julio-diciembre 2008 ISSN 1995-9966


- 31 -
Muter, V. (2000). Screening for early reading failure. Education.
En N. Badian (Ed.), Prediction and prevention Steinbauer, E. & Heller, M. S. (1978) The Boehm
of reading failure (pp. 1-30). Parkton, MD: Test of Basic Concepts as a predictor of
York Press. academic achievement in grades 2 and 3.
Psychology in the Schools, 15 (3), 357 - 360.
Nunnally, J. C. & Bernstein, I. J. (1995). Teoría
psicométrica. México, D. F.: McGraw-Hill. Suarez, M. (1999) Madurez escolar para la lecto-
escritura mediante el Test ABC y factores
Parsons, L., & Weinberg, S. L. (1993). The Sugar relacionados en niños preescolares de dos
Scoring System for the Bender-Gestalt. instituciones privadas y dos públicas. Tesis de
Perceptual and Motor Skills, 77, 883-893. especialista en higiene mental del desarrollo
infantil y juvenil, Universidad Centroccidental
Rubio, J. (1992) Estandarización de la Prueba de Lisandro Alvarado, Barquisimeto, Venezuela.
Funciones Básicas. Instituto de Investigaciones
Psicológicas. Universidad Nacional Mayor de Thorndike, R. L. (1989). Psicometría aplicada.
San Marcos, Lima, Perú. México, D. F.: Limusa.

Salazar, E., Amon, E., Ortiz, J. (1996) Pruebas que se Velarde, E. (2004). La conciencia fonológica como
usan para predecir adquisición de lectura en la zona de desarrollo próximo: Tesis
ciudad de Guatemala: Validez predictiva y revolucionaria de Luis Bravo Valdivieso.
reanálisis del ABC. Revista Latinoamericana de Educación, 1 (2), 83-94.
Psicología, 28 (2), 273-292.
Whiteman, T. A. (1987) The PASS first grade
Salvessen. K. A., & Undheim, J. O. (1994). Screening screening test: Statistical analysis and
for learning disabilities. Journal of Learning predictive validity. Manuscrito no publicado,
Disabilities, 27 (1), 60-66. Bryn Mawr College, EE.UU.

Schultz, A. S. & Tein, J.-Y. (Agosto, 2000) Woodburn, S. S. & Boschini, C. (1995) Los
Examining psychological constructs: Coefficient problemas de aprendizaje en niños. Heredia y
alpha versus factor analysis. One hundred and San José, Costa Rica: EU-EUNA.
eighth meeting of the American Psychological
Association, Washington, D. C.

Simmos, J. O. (1988) Fluharty Preschool Speech and


Language Test: Analysis of construct validity.
Journal of Speech and Hearing Disorders, 53,
168-174.

Smith, K. W. (1974) Forming composite scales and


estimating their validity through factor analysis.
Social Forces, 53 (2), 168-180.

Solan, H. A., Mozlin, R., & Rumpf, D. A. (1985).


Selected perceptual norms and their relationship
to reading in kindergarten and primary grades.
Journal of the American Optometric
Association, 56 (6), 458-466.

Stanley, J.C. (1971). Reliability. En R.L. Thorndike


(Ed.), Educational measurement (2a. ed.).
Washington, DC: American Council on
Revista Peruana de Psicometría 1 (1), julio-diciembre 2008 ISSN 1995-9966
- 32 -

También podría gustarte