Está en la página 1de 20

840382

Traducido del inglés al español - www.onlinedoctranslator.com


Artículo de investigación2019
LTJ0010.1177/0265532219840382Pruebas de idiomaKleijn et al.

Artículo

Pruebas de idioma
1–20
Pruebas de cloze para © El autor (es) 2019

Evaluación de comprensión: Pautas para la reutilización de artículos:

el HyTeC-cloze httpD
sagepub.com/journals-permissions
s://doh
Ioh:i1.o0r.gramo1/107.171/0772/605sesenta
25 98
y cinco352 324
21420
91083382

revistas.sagepub.com/home/ltj

Susanne Kleijn
Universidad de Utrecht, Países Bajos

Henk Pander Maat


Universidad de Utrecht, Países Bajos

Ted Sanders
Universidad de Utrecht, Países Bajos

Abstracto
Aunque existen muchos métodos disponibles para evaluar la comprensión de textos, la prueba
cloze no es ampliamente reconocida como uno de ellos. Las críticas a las pruebas cloze se centran
en su capacidad supuestamente limitada para medir la comprensión más allá de la oración. Sin
embargo, estas críticas no son válidas para todos los tipos de pruebas de cloze; la configuración
particular de un cloze determina su validez. Revisamos varias configuraciones de cloze y discutimos
sus fortalezas y debilidades. Proponemos un nuevo procedimiento de cloze diseñado
específicamente para medir la comprensión del texto: el cloze de comprensión de texto híbrido
(HyTeC-cloze). Emplea una estrategia híbrida de eliminación mecánico-racional y puntuación
semántica de respuestas. El procedimiento se probó en un estudio a gran escala en el que
participaron 2.926 estudiantes de secundaria holandeses con 120 pruebas de cloze únicas. Nuestros
resultados muestran que,

Palabras clave
Pruebas Cloze, evaluación de lectura, procedimientos de calificación, comprensión de textos, validez de pruebas.

Autor correspondiente:
Suzanne Kleijn, Instituto de Lingüística de Utrecht OTS, Universidad de Utrecht, Trans 10, Utrecht, 3512 JK, Países
Bajos.
Correo electrónico: s.kleijn1@uu.nl
2 Pruebas de idioma 00(0)

Como medida de comprensión de textos, la prueba cloze es a menudo criticada (p. ej., Klein-Braley y
Raatz, 1984; Pearson y Hamm, 2005; Shanahan, Kamil y Webb Tobin, 1982). Sin embargo, muchas
de estas críticas sólo son válidas para las pruebas cloze estándar en las que se ha eliminado cada X
palabra. En este artículo, presentamos un nuevo procedimiento de cierre que es especialmente
adecuado para comparar niveles de comprensión entre un gran número de textos y/o lectores.
Comenzaremos con una breve revisión de la discusión sobre el cierre. Luego, presentamos nuestro
nuevo procedimiento: “la prueba cloze de comprensión de texto híbrido” (HyTeC-cloze).
Terminaremos con una evaluación del procedimiento utilizando datos de un estudio a gran escala
con 120 pruebas cloze y 2926 estudiantes de secundaria holandeses.

La tan controvertida prueba del cloze

Las pruebas de Cloze vienen en varias formas. Tienen lo siguiente en común: “se omiten fragmentos
de algún discurso y la tarea asignada al examinado es restaurar las piezas faltantes” (Oller y Jonz,
1994b, p. 19). Posteriormente se puntúan las respuestas del examinado. La puntuación puede verse
como una medida de la legibilidad del texto, pero también como una medida de la capacidad de
lectura del examinado (por ejemplo, O'Toole y King, 2011; Taylor, 1953). Como tal, las pruebas cloze
han sido populares en los estudios de legibilidad, así como en los estudios de evaluación del
lenguaje. Como medida de comprensión de textos, la validez de las pruebas de cloze aún está en
discusión (p. ej., Brown, 2013; Chen, 2004; Gellert & Elbro, 2013; Greene, 2001; Kobayashi, 2002a,
2002b, 2004; Oller & Jonz, 1994a ; O'Toole y King, 2010, 2011; Trace, Brown, Janssen y Kozhevnikova,
2017). Los críticos creen que el cloze no es sensible a las restricciones entre oraciones y que mide
predominantemente habilidades de orden inferior (es decir, conocimientos gramaticales y
lingüísticos; Alderson, 1979a; Kintsch & Yarbrough, 1982; Klein-Braley & Raatz, 1984; Pearson &
Hamm, 2005; Shanahan et al., 1982). Una opinión consistente dentro de la literatura es que el cloze
no es una medida válida de comprensión de texto porque no mide las representaciones a nivel del
discurso.
Sin embargo, los defensores del cloze cuestionan este punto de vista y afirman que un
gran porcentaje de espacios en el cloze requieren procesamiento de información entre
oraciones (Brown, 1983; Chihara, Oller, Weaver, & Chávez-Oller, 1994; Cziko, 1983; Gellert &
Elbro, 2013; Henk, 1982; Jonz, 1994; McKenna & Layton, 1990; entre otros). Brown
([1983]1994) demostró que entre el 56% y el 70% de los ítems de cloze en las pruebas de cloze
estándar son ítems cohesivos (siguiendo la clasificación de Halliday y Hasan, 1976). Además,
Jonz (1994) encontró que en promedio el 32% de las brechas en las pruebas cloze estándar
requieren información más allá de los límites de la oración. Finalmente, los análisis de la
dificultad de los ítems muestran que las variables a nivel de pasaje influyen en la dificultad de
los espacios en blanco individuales (Chávez-Oller, Chihara, Weaver y Oller, 1994; Kobayashi,
2002a; Oller y Chen, 2007; Trace et al., 2017). .
A pesar de la controversia que aún los rodea, las pruebas de cloze tienen importantes ventajas sobre
otros métodos de evaluación. Primero, son relativamente fáciles de construir y pueden usarse en una
amplia gama de textos. Para estudios a gran escala, esto es una gran ventaja. Además, las pruebas de
cierre son muy adecuadas para investigaciones sistemáticas de la dificultad del texto. Todos los textos se
tratan de la misma manera y la dificultad de los ítems se transfiere directamente del texto (Klare, 1976;
Miller y Coleman, 1967). Por tanto, los textos pueden compararse según sus puntuaciones de cierre; Esto
es difícil de hacer con preguntas de comprensión estándar, ya que estas preguntas
Kleijn et al. 3

pueden diferir en dificultad. Otra ventaja es que, aunque puede resultar difícil formular incluso 10 preguntas
sensatas sobre un texto de 300 palabras, la prueba cloze proporciona muchos elementos que se distribuyen a lo
largo de todo el texto. Finalmente, cuando se utilizan en estudios experimentales, las pruebas de comprensión
cloze pueden ser más resistentes a los sesgos del experimentador. Aunque las preguntas de comprensión pueden
diseñarse para ser específicamente sensibles a ciertas manipulaciones del texto, las pruebas de cierre no lo son.

Por supuesto, todas estas ventajas sólo se aplicarán en una prueba cloze bien configurada. En nuestro
nuevo procedimiento de cierre, hemos maximizado los puntos fuertes de las pruebas de cierre y hemos
abordado problemas previamente informados en la literatura. Presentaremos el cloze de comprensión de
texto híbrido y su fundamento en la siguiente sección.

El cloze de comprensión de texto híbrido


El cloze híbrido de comprensión de textos (HyTeC-cloze) se desarrolló como una alternativa al
cloze estándar y otras medidas estándar de evaluación de la comprensión. Configuramos el
HyTeC-cloze de la siguiente manera:

•• una medida válida y confiable de comprensión de textos;


•• sin confusión (variables de confusión) entre la dificultad de la pregunta y la dificultad
del texto;
• • mínimamente sensible a las limitaciones intrasentenciales (locales);
• • aplicable a una amplia gama de textos;
• • fácil y rápido de crear;
• • sensible a las diferencias entre textos y entre versiones de texto sensible a las
• • diferencias entre examinados con diferentes habilidades de lectura; adecuado para
• • examinados de alto y bajo dominio.

En la Tabla 1 se ofrece una descripción general del procedimiento HyTeC-cloze.1Las motivaciones detrás del
diseño de HyTeC-cloze se describen en la siguiente sección.

Estrategia de eliminación

Las pruebas de cierre estándar siguen una estrategia de eliminación mecánica: se elimina cada X
palabra del texto. Suele ser una de cada cinco palabras, pero hay estudios que llegan hasta una de
cada 18 (Oller y Jonz, 1994a; Watanabe y Koyama, 2008). Excepto el título y la primera oración (que a
menudo se dejan intactos para brindar al lector algún apoyo contextual) y las palabras muy
impredecibles (como números y nombres propios), los espacios en blanco se eligen mecánicamente
y, por lo tanto, se dispersan a intervalos regulares a lo largo de todo el texto.
Aparte de estas exclusiones, el sesgo del experimentador se reduce al punto de partida. Con una
tasa de eliminación de cinco, el experimentador puede crear cinco pruebas diferentes. Estas
versiones cloze no tienden a diferir en la proporción de elementos léxicos, sintácticos y cohesivos
que muestrean (Bachman, 1982; Brown, [1983]1994; Jonz, 1994, O'Toole & King, 2010).3
Sin embargo, cambiar el punto de partida cambia toda la prueba porque se extrae una muestra diferente
de palabras del texto (Brown, 1993). Esto puede llevar a un error de muestreo (O'Toole & King, 2010),
donde las versiones cerradas del mismo texto difieren en niveles de dificultad (ver también
4 Pruebas de idioma 00(0)

Tabla 1.Procedimiento de cierre estándar (ver Oller y Jonz, 1994a) versus procedimiento de cierre HyTeC.

Características cierre estándar Cloze HyTeC

1. Estrategia de eliminación Mecánico Mecánico-racional


2. Tasa de eliminación 20% 10%
3. Distancia de eliminación Corregido: cada quinta palabra Variado: al menos 1 palabra
intermedia
4. Número de espacios en blanco (por cada 300 palabras) 60 30
5. Número de puntos de partida 3–5 2
6. Segmentos de texto excluidos • Título • Título
• Primera oracion • Primera oracion
7. Palabras excluidas • Nombres propios • Palabras localmente predecibles
• Números • Adivina palabras
8. Pruebas previas o posteriores al cierre2 Pre-cloze Pre-cloze
9. Formato de respuesta abierta o cerrada Abierto Abierto

10. Marcado de eliminación Marcado de longitud fija Marcado de longitud fija


11. Puntuación Errores exactos + ortográficos. Errores semánticos + ortográficos

Alderson, 1979a; Marrón, 2002; Portero, 1978). Para minimizar este “error”, los experimentadores
pueden utilizar más de una versión cerrada por texto (Bormuth, 1969; Porter, 1978; Staphorsius,
1994).
Otra opción es seguir una estrategia de eliminación racional, donde el experimentador
selecciona los espacios. La selección puede limitarse a una clase gramatical específica de palabras
(p. ej., artículos, preposiciones o conectores; Goldman y Murray, 1992) o basarse en una hipótesis
específica (p. ej., qué tipo de información se necesita para llenar el vacío; Bachman, 1985 ; Gellert y
Elbro, 2013; Levenston, Nir y Blum-Kulka, 1984). Además, en los estudios experimentales se prefiere
la eliminación racional: permite comparaciones directas entre versiones experimentales del mismo
texto. Considere un texto que se manipula sintácticamente como en (1) y se investiga mediante un
cierre mecánico, con el punto de partida en la quinta palabra y una distancia de eliminación de
cinco. Esto significa que en (1a) las palabrascreciendo, quemadoyheridas desaparecer (ver (2a)),
mientras que los espacios en (1b) caen enes nuevo, yparte(ver (2b)). Esto crearía una confusión
entre la versión cerrada y la versión de texto.

(1) a. El árbol, al hacer crecer nueva corteza sobre la parte quemada, curará sus propias heridas.
b. El árbol curará sus propias heridas haciendo crecer nueva corteza sobre la parte quemada.
(2) a. El árbol, con [………] nueva corteza sobre la parte [………], sanará su propia
[………].
b. El árbol curará [………] sus propias heridas haciendo crecer [………] corteza sobre el
quemado [………].

(Adaptado de Davison y Kantor, 1982, p. 192)

Por el contrario, los procedimientos racionales permiten al investigador elegir las brechas, evitando así la
confusión en (3). Por ejemplo:
Kleijn et al. 5

(3) a. El [………], al hacer crecer nueva corteza sobre el [………] quemado, curará el suyo
propio [………].
b. El [………] curará su propio [………] haciendo crecer nueva corteza sobre el
[………] quemado.

Otra ventaja de las pruebas de cierre racional es que sólo se pueden elegir aquellos espacios
que sean indicativos de comprensión del texto. De este modo, se puede eliminar una gran
cantidad de ruido de los datos. Por ejemplo, una crítica a las pruebas de cierre mecánico es
que normalmente contienen un número considerable de palabras funcionales y que los
espacios en blanco de las palabras funcionales aprovechan el conocimiento gramatical del
examinado en lugar de la comprensión del texto (por ejemplo, Abraham y Chapelle, 1992;
Aitken, 1977; Kobayashi, 2002a). Al evitar este tipo de palabras en el proceso de selección, los
investigadores intentan crear una medida "más pura" de comprensión del texto. Por ejemplo,
Gellert y Elbro (2013) y Levenston et al. (1984) seleccionaron elementos que indicaban
coherencia del texto. Bachman (1985) seleccionó palabras basándose en qué información era
necesaria para reconstruir la palabra.
El inconveniente de los procedimientos racionales es que la selección de brechas puede sufrir el
sesgo del experimentador. Si la justificación no se especifica clara y exhaustivamente, el mismo
procedimiento conducirá a diferentes pruebas cuando lo utilicen diferentes experimentadores (cf.
Jonz, 1994, réplica de Bachman, 1985). Además, el experimentador puede (sin querer) preferir
ciertas palabras sobre otras, lo que resulta en una selección que no “refleja” la dificultad general del
texto (Alderson, 1979a; Klare, 1976).
El procedimiento HyTeC-cloze combina las ventajas de la eliminación mecánica y racional en una
estrategia de eliminación híbrida:eliminación mecánico-racional. Primero, se utiliza una estrategia racional
para crear una medición más limpia de la comprensión del texto basada en consideraciones teóricas y
experimentales. Las palabras que no requieren comprensión a nivel de texto se dejan intactas. A
continuación, se utiliza una estrategia mecánica para extraer una muestra aleatoria de los candidatos
restantes.

Selección de candidatos para cerrar la brecha

La selección de candidatos para HyTeC-cloze se basa en las dos heurísticas que se presentan a
continuación.4

Heurística
1. Las brechas no pueden ser demasiado predecibles a nivel local; Excluimos palabras que pueden
reconstruirse mediante el conocimiento de la gramática o las convenciones de uso, ya que no requieren
comprensión a nivel del discurso (por ejemplo, Oller y Jonz, 1994b).
2. Las brechas no pueden ser demasiado impredecibles; excluimos palabras que sólo pueden
reconstruirse con “conocimiento extratextual” (Bachman, 1985; Levenston et al., 1984).

Heurística 1: palabras predecibles. Siguiendo la primera heurística, se excluyen muchas palabras


funcionales, incluidos artículos, preposiciones y verbos auxiliares. Sin embargo, las palabras funcionales
que marcan la cohesión referencial y la coherencia del discurso son útiles para evaluar la comprensión.
6 Pruebas de idioma 00(0)

a nivel del discurso (Alderson, 1979a; Gellert & Elbro, 2013; Goldman & Murray, 1992; Levenston et
al., 1984). Se permiten los pronombres anafóricos porque muestran coherencia referencial y a
menudo requieren integración interoracional. Además, a menudo pueden ser reemplazados por su
antecedente (p. ej., “Pedro estaba muy cansado.Él/Pedro Dormí hasta las doce.”). Por el contrario, se
excluyen los pronombres relativos e interrogativos, ya que siguen restricciones locales. Además,
permitimos la eliminación de la mayoría de las conjunciones y adverbios conjuntivos, ya que estos
elementos miden la comprensión del texto a nivel interoraciones. Se hace una excepción para las
conjunciones que unen frases nominales (por ejemplo, “Mary y Bill fueron al cine.”), que son muy
predecibles.
Partes de expresiones comunes, verbos compuestos o pares de antónimos también son muy predecibles.
Incluso sin contexto, la mayoría de los lectores sabrán por convención que la respuesta en (4) debe ser “tiempo” y
que en (5) la respuesta probablemente sea “malo.” Este tipo de palabras están excluidas.

(4) Érase una vez [………]


(5) Bueno y [………]

Heurística 2: palabras impredecibles. La segunda heurística excluye palabras que no están determinadas en
absoluto por el contexto. Estas “adivinas palabras” dependen únicamente del conocimiento extratextual. Definimos
cinco tipos de palabras adivinadas:

1. términos técnicos
2. nombres propios
3. unidades de medida (p. ej., hora, centímetro, año)
4. direcciones cardinales (por ejemplo, norte, oeste)
5. números

Como señalan Oller y Jonz (1994b) sobre los términos técnicos: “Dichos ítems, si se eliminaran,
normalmente generarían poca o ninguna variación y, por lo tanto, no podrían contribuir significativamente
a la calidad de la prueba” (p. 4). Lo mismo ocurre con los otros tipos de palabras adivinadas. Incluso cuando
aceptamos todas las respuestas siempre que estén en el mismo estadio, el riesgo de una variación nula o
baja es alto. Una prueba previa lo confirmó. Cuando se eligió una fecha como espacio vacío, ninguno de los
participantes pudo completar una respuesta aceptable (por ejemplo, otra fecha). Dejaron estos espacios en
blanco.
Para términos y nombres técnicos, el factor de conjetura sólo está presente en su primera
aparición. Por ejemplo, en la oración “Esto se llama TDAH”, la palabra “TDAH” sólo puede conocerse
si el lector tiene conocimientos previos sobre el tema o el texto mismo. Sin embargo, si el término
se repite en el texto (por ejemplo, “Esto se llama TDAH. El TDAH se puede controlar con dieta y
medicamentos.”), entonces la segunda mención del TDAH se puede inferir del discurso. Por lo tanto,
excluimos términos y nombres sólo la primera vez que se mencionan. Esta excepción no se hace
para los otros tipos de palabras adivinadas, ya que, por lo general, no se utilizan de forma
correferencial.

Fiabilidad de la selección de candidatos.. El procedimiento HyTeC deja poco espacio para el sesgo del
experimentador al especificar qué tipos de palabras no se adhieren a la heurística. Sin embargo,
Kleijn et al. 7

Decidir si una combinación de palabras es una expresión común sigue siendo difícil. Las notas de
Jonz muestran que en la mitad de los casos en los que no estuvo de acuerdo con Bachman, la razón
fue que pensaba que el ítem era una colocación o un “elemento léxico de varias partes”, mientras
que aparentemente Bachman no (Jonz, 1994, p. 321). . El mismo problema podría amenazar la
fiabilidad del procedimiento HyTeC-cloze. Por tanto, comprobamos la fiabilidad del procedimiento
de selección de candidatos. Un estudiante asistente sin conocimientos previos de pruebas de cloze
siguió el procedimiento y seleccionó todos los posibles candidatos para su eliminación de tres
textos diferentes. La concordancia entre su selección y la nuestra fue del 96% (Kappa de Cohen =
0,93).5

Determinar la tasa de eliminación

No todas las brechas de candidatos pueden terminar en una sola prueba. El procedimiento HyTeC utiliza selección
mecánica para seleccionar espacios entre los posibles candidatos. La cantidad de palabras que se pueden
muestrear depende de la tasa de eliminación.
En las pruebas de cierre mecánico, es una práctica estándar utilizar una proporción de eliminación de 1
en 5 (ver Oller y Jonz, 1994a).6Una proporción de 1 en 5 no es realista para HyTeC-cloze, porque el paso de
selección racional proporciona menos candidatos a eliminación en comparación con un procedimiento
mecánico en el que todas las palabras del texto son candidatas. Además, si se manipulan los textos
investigados, quedan aún menos candidatos, ya que las palabras que difieren entre versiones claramente
no pueden convertirse en lagunas. Otra consideración es que para los grupos de lectores menos capaces,
proporciones altas pueden dar lugar a un efecto mínimo y no se puede observar variación (Robinson, 1981;
Staphorsius, 1994).
Según Greene (2001) y Bachman (1985), las proporciones entre “1 en 9” y “1 en 11” son razonables. Probamos
previamente proporciones de 1 en 10 y 1 en 12 para ver cuál sería la mejor proporción para nuestra población de
prueba principal (es decir, adolescentes holandeses). Las medias y las desviaciones estándar de las puntuaciones
totales indicaron que ambas eran proporciones razonables para nuestros participantes. Dado que no hubo
diferencias entre las proporciones, HyTeC-cloze utiliza una proporción de 1 en 10. Esta proporción de eliminación
da como resultado un mayor número de observaciones por texto.

Seleccionar espacios

Con una proporción de 1 en 10 palabras, un texto de 300 palabras requeriría 30 espacios. Si el texto tiene
120 candidatos para espacios vacíos, podemos crear cuatro pruebas de cierre únicas, y cada prueba
muestrea palabras diferentes. El número de versiones viene determinado, por tanto, por la extensión del
texto, combinada con el número de candidatos.7Una vez determinado el número de versiones, los
candidatos se pueden distribuir entre las versiones contándolas. En el caso de cuatro versiones, el
candidato 1 termina en la versión 1, al igual que el candidato 5.
Una prueba previa mostró que todos los textos de prueba permitían la construcción de al menos dos
versiones diferentes del cloze. Algunos textos permitían incluso cinco versiones cerradas. Al igual que las
pruebas de cierre mecánico estándar, estas versiones de cierre pueden variar ligeramente en dificultad. Si
solo seleccionamos una versión de todas las muestras posibles, por casualidad podríamos terminar con
una muestra sesgada. Por lo tanto, recomendamos seleccionar aleatoriamente dos versiones de las
posibles y utilizar ambas.
8 Pruebas de idioma 00(0)

Repeticiones de palabras.La heurística excluye una gran cantidad de palabras. En la muestra más pequeña
resultante de candidatos de la brecha, algunos candidatos podrían estar sobrerrepresentados. En una de
nuestras pruebas preliminares, un lema que apareció siete veces en el texto terminó como un espacio en
blanco cinco veces. Por casualidad, todos los casos ocurrieron en la misma versión cloze. Para evitar estos
extremos, el procedimiento HyTeC utiliza un límite para las repeticiones de lemas. El número de
repeticiones de un lema dentro de una prueba cloze no debe exceder la proporción de repeticiones
presentes en la muestra candidata. Entonces, si un lema representa el 10% de los candidatos, ese lema se
puede elegir como un espacio tres veces en una prueba cloze con 30 espacios. Este límite relativo evita la
sobrerrepresentación de un lema en la muestra y al mismo tiempo permite que las repeticiones del lema
se reflejen en la prueba de cloze.

Formato de respuesta y procedimiento de puntuación.

El HyTeC-cloze utiliza un formato de respuesta abierto con espacios en blanco de longitud fija (ver (3)). A diferencia
de los formatos cerrados, como los de opción múltiple, las respuestas no se proporcionan ni se guían de ninguna
manera. Esto permite a los examinados responder libremente sin ser confundidos por distractores o señales (por
ejemplo, Abraham y Chapelle, 1992; Alderson, 2000) y les prohíbe adivinar la respuesta correcta por casualidad.

Hay dos posibles procedimientos de puntuación para las pruebas de cierre abierto. La forma
más eficaz de puntuar espuntuación exacta, en el que sólo se aceptan palabras eliminadas
originalmente (que normalmente incluyen errores ortográficos).Puntuación semántica(opuntuación
de palabras aceptable) permite palabras originalmente eliminadas, pero también alternativas
semánticamente correctas. La aceptabilidad de respuestas alternativas generalmente se califica de
acuerdo con laglobalcriterio de idoneidad, que significa que la respuesta tiene que cumplir “todos
los requisitos contextuales de todo el contexto discursivo en el que aparece” (Oller y Jonz, 1994a, p.
416). En cambio, cuando ellocalSi se cumple el criterio de idoneidad, la respuesta sólo tiene que
cumplir los requisitos contextuales de la oración inmediata.
La mayoría de los académicos coinciden en que la puntuación semántica tiene mayor validez aparente
que la puntuación exacta. Al medir la comprensión de un texto, parece ilógico culpar a un lector por
completar una respuesta aceptable (por ejemplo, un sinónimo), en lugar de la palabra original. Sin
embargo, muchos académicos prefieren el método exacto por su facilidad, dadas las altas correlaciones
entre las puntuaciones exactas y semánticas (r= .9; Alderson, 1979a; McKenna, 1976; Miller y Coleman,
1967; Estaforcio, 1994).
Optamos por la puntuación semántica siguiendo el criterio de idoneidad global por varias razones. En
primer lugar, nuestras pruebas previas mostraron correlaciones moderadas entre la puntuación exacta y
semántica (rango de 0,759 a 0,873) y no fueron tan altas como las correlaciones informadas en estudios
anteriores.8Además, se desconoce si las correlaciones de 0,9 son válidas para todos los tipos (o
combinaciones) de ítems, así como para textos y lectores de todos los niveles. Por ejemplo, McKenna (1976)
encontró que la puntuación semántica beneficiaba más a los estudiantes con alto dominio que a los de
bajo (ver también Brown (2002) para resultados similares para estudiantes de L2). McKenna también
encontró que las puntuaciones semánticas se correlacionaban significativamente más alto con las
puntuaciones de comprensión lectora del Stanford Achievement Test que con las puntuaciones exactas, lo
que indica una mayor validez concurrente de las pruebas cloze con puntuación semántica. Sin embargo,
O'Toole y King (2011) advierten contra la puntuación semántica, ya que
Kleijn et al. 9

puede llevar a una subestimación de la dificultad del texto y a una sobreestimación de la competencia
lectora. Aunque O'Toole y King (2011) hacen un comentario válido con respecto al anclaje y los efectos piso/
techo, en nuestra opinión se puede decir todo lo contrario respecto de la puntuación exacta. Es decir:
puede llevar a una sobreestimación de la dificultad del texto y a una subestimación de la competencia
lectora. Dados los resultados de estos estudios, no parece aconsejable generalizar sobre los métodos de
puntuación. Aunque se han encontrado altas correlaciones, la puntuación exacta no es equivalente a la
puntuación semántica.
Además, se ha demostrado que la puntuación semántica es más fiable que la puntuación exacta. En un
metanálisis de 24 estudios de ESL/EFL, Watanabe y Koyama (2008) encontraron una estimación de confiabilidad
media de .74 para la puntuación semántica (k=97) en comparación con .64 para la puntuación exacta (k=122).
Además, las estimaciones de confiabilidad para la puntuación semántica fueron más estables, oscilando entre 0,60
y 0,97, mientras que la puntuación exacta osciló entre 0,14 y 0,99.
Así, tanto desde un punto de vista conceptual como estadístico, la puntuación semántica es más
adecuada para medir la comprensión de un texto que la puntuación exacta. Por eso, aunque lleva
mucho más tiempo, las respuestas se puntuarán semánticamente.9

Evaluación del procedimiento HyTeC-cloze.


En esta sección final, evaluamos el procedimiento HyTeC-cloze sobre la base de los resultados de un
estudio a gran escala sobre 60 textos holandeses. Se crearon dos versiones cerradas para cada
texto (es decir, 120 pruebas únicas). Las pruebas de cierre contenían entre 30 y 42 espacios en
blanco dependiendo de la longitud del texto (rango de 300 a 420 palabras) y se presentaron
digitalmente en computadoras (ver Apéndice). Se administraron a 2.926 estudiantes de secundaria
holandeses de octavo a décimo grado. La mayoría de los estudiantes completaron un total de
cuatro pruebas cloze divididas en dos sesiones. Los estudiantes estaban matriculados en diferentes
niveles del sistema educativo holandés, desde el nivel prevocacional más bajo (“vmbo-bb”) hasta el
nivel preuniversitario (“vwo”).10Las respuestas fueron calificadas por dos jueces independientes y un
posible tercer juez para emitir el voto decisivo.
Los datos se utilizaron para abordar cuestiones relacionadas con el procedimiento de puntuación, la confiabilidad
interna, las tasas de respuesta, la sensibilidad a las restricciones locales, la validez concurrente y la validez de grupo

conocido.

Puntuación semántica versus exacta

Los datos se calificaron utilizando el procedimiento de puntuación semántica descrito en la sección "Formato de
respuesta y procedimiento de puntuación" anterior y utilizando un procedimiento de puntuación exacto para
comparar los resultados. Las puntuaciones exactas y semánticas se correlacionaron altamente (rs= .862;pag<
. 001), pero no tan alto como se informó anteriormente (consulte la sección “Formato de respuesta y
procedimiento de puntuación”). Además, la correlación no fue completamente estable; su fuerza
disminuyó desde el nivel de educación más bajo al más alto (de .859 a .789) y varió entre las pruebas
de cloze individuales (de .637 a .951; ver Tabla 2). Para fines de exhaustividad, informaremos los
resultados tanto del método de puntuación semántica como del método de puntuación exacta
siempre que sea posible, pero la puntuación semántica superó a la puntuación exacta en todas las
pruebas.
10 Pruebas de idioma 00(0)

Tabla 2.Resumen de las correlaciones rho de Spearman calculadas sobre las versiones de la prueba
cloze (k=120).

Correlación Señors SDrs mdnrs Mín.rs Máx.rs

Puntuación semántica/Puntuación exacta . 848 . 061 . 855 . 637 . 951

Tabla 3.Resumen de puntuaciones de confiabilidad interna calculadas sobre versiones de pruebas cloze.

Método de puntuación METROα Dakota del Surα mdnα Mín.α Máx.α


Semántico . 828 . 038 . 831 . 707 . 899
Exacto . 738 . 075 . 742 . 519 . 894

Fiabilidad interna
Para cada versión de prueba cloze (k=120), la confiabilidad interna se midió utilizando el alfa de Cronbach.
En la Tabla 3 se ofrece un resumen de los resultados. Tanto la puntuación semántica como la puntuación
exacta fueron relativamente confiables, pero la puntuación semántica fue sistemáticamente más confiable.
Además, la puntuación semántica fue más estable en las pruebas de cloze y nunca cayó por debajo de 0,70.
Estas puntuaciones son altas, especialmente teniendo en cuenta el hecho de que muchos estudios han
informado alfas dramáticamente bajos para las pruebas de cloze (Brown, 2013; Watanabe y Koyama, 2008).

Tasas de respuesta y pérdida de datos

La validez de cualquier prueba se ve amenazada cuando los examinados no responden seriamente o


cuando no responden en absoluto. Exploramos nuestros datos para ver si estas amenazas estaban
presentes.
En primer lugar, realizamos una verificación cualitativa de los espacios en blanco que quedaron en blanco
(9,3%). La mayoría de los espacios en blanco parecían quedar en blanco porque el estudiante no sabía la respuesta
a ese espacio en particular. Estos espacios en blanco estaban dispersos a lo largo de la prueba y rodeados de
respuestas serias. Probablemente un tercio de los espacios en blanco se dejó en blanco porque el estudiante no
estaba lo suficientemente motivado para continuar o se le acabó el tiempo. Los espacios en blanco también se
dejaron en blanco o durante la prueba el estudiante completó respuestas en su mayoría sin sentido. De todos los
espacios en blanco, sólo estos casos se consideran casos reales de pérdida de datos. Verificamos de la misma
manera los casos en los que los estudiantes completaron algo pero la respuesta no parecía ser seria (por ejemplo,
“adfgd” o “…”). Las pruebas que contenían comentarios como "Odio esta prueba" se eliminaron por completo. En
total, 9. Se eliminó el 66% de las pruebas de cloze completadas. Finalmente, verificamos si la pérdida de datos se
distribuyó equitativamente entre estudiantes con diferentes habilidades de lectura. Comparamos las puntuaciones
de legibilidad estandarizadas de los estudiantes que fueron eliminados con las de los estudiantes que
permanecieron en el conjunto de datos y no encontramos diferencias significativas (F(1,4756) = 0,028;pag= .866). La
pérdida de datos no resultó en una representación insuficiente de los estudiantes con baja capacidad.
Kleijn et al. 11

Tabla 4.Medias, desviaciones estándar y medianas para la probabilidad logarítmica hacia adelante y hacia atrás.

Palabras Probabilidad de registro directo Probabilidad de registro hacia atrás

METRO Dakota del Sur mdn METRO Dakota del Sur mdn
En general (norte=46274) No es un − 2.468 1.652 − 2,091 −2,461 1,790 −2,190
espacio cerrado (norte=38456) Huecos de − 2.239 1.573 − 1,826 −2,202 1,722 −1,864
cierre (norte=7818) − 3.594 1.566 −3,528 −3,734 1,556 −3,804

Medición del nivel de comprensión


La prueba HyTeC-cloze fue diseñada para medir la comprensión de textos. Otras pruebas de cierre han
sido criticadas porque sus lagunas parecen depender más de la previsibilidad lingüística local (sobre la
base del conocimiento gramatical y el conocimiento de las colocaciones) que de la comprensión
interoraciones o dependiente del contexto. Dado que las palabras predecibles no se incluyen como
espacios en blanco en el HyTeC-cloze (consulte la sección “Heurística 1: palabras predecibles”), la relación
entre la previsibilidad local y las puntuaciones de cloze debería ser débil. Se realizaron dos análisis para
comprobar esta afirmación.
Primero, examinamos si el procedimiento HyTeC-cloze tuvo éxito en seleccionar espacios de cloze que
no eran altamente predictivos a nivel local. Si el procedimiento tuvo éxito, las palabras que se utilizaron
como espacios en blanco deberían tener una probabilidad local menor en comparación con las palabras
que no se convirtieron en espacios en blanco. Se utilizó T-Scan, una herramienta para el análisis
automático de la complejidad del texto holandés (Pander Maat et al., 2014), para determinar la
probabilidad de registro directo (probabilidad denortepalabra dadaN-2y palabraN-1) y probabilidad logarítmica
hacia atrás (probabilidad de Wordnortepalabra dadaN+1y palabraN+2) de todas las palabras. Las probabilidades
de las palabras que se usaron como espacios en blanco fueron significativamente menores que las
probabilidades de las palabras que no se usaron como espacios en blanco (consulte la Tabla 4;
probabilidad directa:Ud.= 77859698.500;z= -67.300;pag< .001;r= −.31; probabilidad hacia atrás: Ud.=
75133694.500;z= -69.842;pag< .001;r= −.32). Invertir el registro10-La transformación nos muestra que las
palabras utilizadas como espacios en blanco son en promedio casi 23 veces menos probables (según las
dos palabras que las preceden) en comparación con las palabras no cerradas. Según las dos palabras que
las siguen, son 34 veces menos probables en comparación con las palabras no cerradas. De este modo, la
selección de palabras predictivas no locales fue un éxito.
En segundo lugar, las medidas de probabilidad se ingresaron en una regresión logística
para ver cuánta varianza pueden explicar como predictores de las puntuaciones cloze. La
combinación de las medidas nos da una ventana de cuatro palabras que rodean la brecha de
cierre. En conjunto, la probabilidad logarítmica hacia adelante y hacia atrás solo explicó el
2,4% de la varianza observada en las puntuaciones semánticas y el 7,3% para las
puntuaciones exactas (ver Tabla 5). Era de esperarse la diferencia entre las puntuaciones
semánticas y exactas. Las medidas de probabilidad indican la probabilidad de la palabra
exacta que se eliminó en el texto, no la probabilidad de todas las palabras semánticamente
correctas que podrían aparecer allí. Por lo tanto, esperábamos que las medidas de
probabilidad explicaran más varianza para las puntuaciones exactas que para las
puntuaciones semánticas. Todavía,
12 Pruebas de idioma 00(0)

Tabla 5.Varianza explicada mediante medidas de probabilidad logarítmica a nivel de artículo.

Método de puntuación Modelo Varianza explicada (r2 nortea)

Semántico Probabilidad hacia adelante y hacia atrás . 024


Probabilidad hacia adelante . 022
probabilidad hacia atrás . 018
Exacto Probabilidad hacia adelante y hacia atrás . 073
Probabilidad hacia adelante . 068
probabilidad hacia atrás . 046

Tabla 6.Resumen de las correlaciones rho de Spearman calculadas sobre las versiones de la prueba
cloze (k=120).

Correlación Señors SDrs mdnrs Mín.rs Máx.rs

Puntuación semántica – Capacidad de lectura . 606 . 137 . 621 . 161 . 856


Puntuación semántica – Vocabulario . 604 . 125 . 609 . 220 . 839
Puntuación exacta – Capacidad de lectura . 564 . 154 . 587 . 047 . 832
Puntuación exacta – Vocabulario . 558 . 143 . 569 . 105 . 870

Validez concurrente

Las correlaciones de las puntuaciones de cloze con otras medidas de comprensión de textos o con pruebas
de habilidad estandarizadas pueden darnos una idea de la validez convergente de nuestra prueba de cloze:
¿las pruebas miden el mismo constructo? Para la mayoría de los estudiantes, se disponía de puntuaciones
estandarizadas de capacidad de lectura y vocabulario. Estas puntuaciones se obtuvieron utilizando las
pruebas de capacidad de lectura y vocabulario de las baterías de pruebas RSM14 y VVO (“Sistema de
seguimiento de estudiantes de educación secundaria”) desarrolladas por Cito (“Instituto holandés para la
medición de la educación”), que se administraron al mismo tiempo o dentro de 90 días de las pruebas de
cierre.11
Las puntuaciones de cloze semánticas sumadas12correlacionó en promedio .606 con los puntajes de
capacidad de lectura y .604 con los puntajes de vocabulario (ver Tabla 6).13La puntuación exacta de cloze se
correlacionó ligeramente más baja (capacidad de lectura:significa rs= .564; vocabulario:significa rs= .558; cf.
McKenna, 1976). Dado que se ha descubierto que las pruebas estandarizadas y bien establecidas de
capacidad de lectura se correlacionan moderadamente entre sí, entre 0,31 y 0,79 (Cutting y Scarborough,
2006; Keenan, Betjemann y Olson, 2008); una correlación media de 0,60 (con una mediana aún más alta)
sugiere que la prueba HyTeC-cloze no tiene un rendimiento inferior al de otras pruebas de capacidad de
lectura establecidas.
Además de los puntajes de las pruebas estandarizadas, tenemos algunos datos que pueden indicar
cómo se habrían desempeñado nuestros participantes si hubiéramos utilizado los mismos textos pero un
método de evaluación diferente. En un estudio de seguimiento ocular se utilizó una selección de ocho
textos (ver Kleijn, 2018). En este estudio, la comprensión del texto se evaluó con preguntas de opción
múltiple. En este estudio participaron 181 estudiantes de noveno grado. Después de leer cada texto, los
estudiantes respondieron ocho preguntas que aparecieron una por una en la
Kleijn et al. 13

pantalla de computadora. Las preguntas fueron diseñadas para evaluar la comprensión de los puntos
principales del texto. Los estudiantes no pudieron mirar hacia atrás en el texto al responder estas
preguntas. Las puntuaciones medias se calcularon por texto y nivel educativo y luego se compararon con
las puntuaciones medias correspondientes. La puntuación de opción múltiple tuvo una correlación de .525
(pag= .008) con las puntuaciones de cierre semántico y .389 (pag= .060) con las puntuaciones exactas de
cloze.

Validez de grupo conocido

Un buen método de evaluación tiene que ser sensible a diferencias conocidas en los niveles de
comprensión (es decir, validez de grupo conocida). Los lectores de la muestra estaban matriculados
en diferentes niveles educativos y difieren en edades. Además, 30 textos cerrados procedían de
libros escolares escritos para diferentes niveles educativos y grados, los otros 30 eran textos de
información pública. Por lo tanto, tenemos fuertes razones para creer que debería haber mucha
variación en la muestra: entre estudiantes y entre textos. El HyTeC-cloze debe ser lo suficientemente
sensible como para mostrar esta variación. Debe poder discriminar entre estudiantes con diferentes
habilidades de lectura y también debe poder discriminar entre diferentes textos e incluso entre
versiones de texto en configuraciones experimentales.
Primero, investigamos la cantidad total de varianza en las puntuaciones cloze
trazando las distribuciones de frecuencia. Si los datos se distribuyen normalmente y no
hay evidencia de efectos piso o techo, podemos proceder a investigar la varianza
esperada entre grupos.
Como se muestra en la Figura 1, la distribución de frecuencia de las puntuaciones semánticas fue cercana a la
normal con una puntuación media de 16 de 30 ítems respondidos correctamente. La puntuación exacta media fue,
por supuesto, más baja (puntuación semántica = respuestas exactas + respuestas semánticamente correctas) y la
distribución tuvo una cola izquierda más intensa. Estas son distribuciones de todos los estudiantes. Cuando
comparamos las distribuciones de los diferentes niveles educativos de la muestra, encontramos que la puntuación
exacta fue particularmente problemática para los niveles más bajos del sistema educativo holandés, con muchas
observaciones de cero o cercanas a cero. Nuevamente, las puntuaciones semánticas se distribuyeron de manera
más normal y muestran variaciones, especialmente en los niveles educativos más bajos.
Existe mucha variación en la muestra, pero ¿podemos atribuir esta variación a diferencias conocidas
entre estudiantes y/o textos? Se utilizó un modelo lineal de efectos mixtos para responder a esta pregunta.
Los datos se estructuraron jerárquicamente: los estudiantes se anidaron en escuelas y las pruebas cloze se
anidaron en textos y se semicruzaron con los estudiantes. Esta estructura se probó mediante un
procedimiento paso a paso.Nivel de educaciónyCalificaciónfueron introducidos como factores fijos. El
modelo final se muestra en la Tabla 7.
Todos los factores mejoraron el ajuste del modelo. Como era de esperar, las puntuaciones variaron
entre estudiantes, textos y ligeramente entre versiones cerradas. Los factores fijos denivel de educación y
calificaciónexplica gran parte de la varianza entre estudiantes. El análisis mostró diferencias significativas
en las puntuaciones cloze entre todos los niveles y grados educativos. Los efectos fueron en la dirección
esperada: las puntuaciones cloze fueron más altas para los estudiantes matriculados en niveles y grados
de educación superior. El análisis muestra que HyTeC-cloze es sensible a estas diferencias conocidas.

Además de textos diferentes, los datos también incluían dos versiones diferentes de cada texto. Los
textos fueron manipulados de una de tres maneras: (1) se sustituyeron palabras por menos o más
14 Pruebas de idioma 00(0)

Figura 1.Distribución de frecuencia de puntuaciones sumadas semánticas y exactas.


Kleijn et al. 15

Tabla 7.Puntuación semántica del modelo final.

Efectos aleatorios Estimados Dakota del Sur

Escuela 1.562 1.250


Estudiante 5.838 2.416
Texto 10.586 3.254
Texto: versión Cloze 1.483 1.218
Residual 8.357 2.891

Efectos fijos Estimados SE t-valor pag


Interceptar 9.836 0.544 18.097 <.001
Nivel educativo: pre-voc. bajo Nivel 0a
educativo: prevocacional medio Nivel 2.620 0.257 10.207 <.001
educativo: prevocacional alto Nivel 4.934 0.271 18.200 <.001
educativo: general 7.555 0.341 22.139 <.001
Nivel educativo: preuniversitario 9.866 0.323 30.547 <.001
Grado 8 0a
Grado 9 1.159 0,149 7.771 <.001
Grado 10b 1.982 0.307 6.462 <.001

aEstablecer como nivel de referencia.bDesequilibrado, no hubo estudiantes prevocacionales de décimo grado en la muestra.

alternativas familiares; (2) la duración de la dependencia sintáctica aumentó o disminuyó; o (3) se


eliminaron o agregaron conectores. Se esperaba que cada manipulación influyera en la
comprensión del texto. En análisis separados, probamos si las puntuaciones de HyTeC-cloze
reflejaban estas manipulaciones sutiles de la dificultad del texto. Por razones de espacio no
entraremos en detalles aquí y solo señalaremos que HyTeC-cloze era sensible a las diferencias de
versión del texto (ver Kleijn, 2018). Sin embargo, no se pudieron observar todos los efectos en la
puntuación cloze sumada. Para algunas manipulaciones, fue necesario hacer zoom en los espacios
que rodean directamente la manipulación para encontrar un efecto significativo. Esto muestra que
HyTeCcloze también es capaz de detectar efectos localizados muy pequeños.

Discusión
Cloze es un método de evaluación popular en estudios de legibilidad y pruebas de dominio del idioma,
pero nunca ha sido ampliamente aceptado como una medida válida de comprensión de textos. Según sus
críticos, las pruebas de cloze están “plagadas de problemas” (Klein-Braley & Raatz, 1984, p. 134). La mayor
preocupación de los críticos parece ser que las lagunas se puedan responder correctamente sin
comprender el texto. Afirman que el procesamiento localizado de bajo nivel es suficiente para llenar los
vacíos con éxito y que no es necesario integrar oraciones en una representación a nivel del discurso. Sin
embargo, la mayoría de los “problemas” de cloze no se aplican a todos los tipos de pruebas de cloze y
pueden abordarse con éxito en el diseño de cloze. En este artículo presentamos un procedimiento de cloze
mejorado: el HyTeC-cloze. Este procedimiento de cierre híbrido combina los puntos fuertes de las pruebas
de cierre mecánicas y racionales. La estrategia racional se utiliza para excluir palabras que no dependen de
la comprensión a nivel de texto para que no se conviertan en palabras.
dieciséis Pruebas de idioma 00(0)

cerrar espacios (p. ej., artículos, cópulas, expresiones de varias palabras y adivinar
palabras). Las palabras restantes del texto son candidatas a ser eliminadas y se
selecciona mecánicamente una muestra de ellas. Este procedimiento da como resultado
una prueba de cloze que tiene una sensibilidad muy baja a la previsibilidad local y aún
así es rápida y fácil de producir ya que no requiere un análisis en profundidad de los
textos. Además, el procedimiento HyTeC es ampliamente aplicable. Se puede utilizar
para evaluar una amplia gama de textos sin confundir la dificultad del texto con la
dificultad de las preguntas y es adecuado para examinados con habilidades altas y
bajas, siempre que se utilice puntuación semántica. Lo más importante es que nuestros
resultados muestran que HyTeC-cloze coincide y, a veces, incluso supera las pruebas
estandarizadas de capacidad de lectura en lo que respecta a validez y confiabilidad.
Estas cualidades,

Declaración de intereses en conflicto


El(los) autor(es) declararon que no existen posibles conflictos de intereses con respecto a la investigación, autoría y/
o publicación de este artículo.

Fondos
El autor(es) reveló haber recibido el siguiente apoyo financiero para la investigación, autoría y/o
publicación de este artículo: La investigación presentada aquí fue parte del proyecto LIN (“Índice de
legibilidad en holandés”) financiado por NWO (“ The Dutch Organization for Scientific Research”),
Cito (“The Dutch Institute for Educational Measurement”) y Nederlandse Taalunie (“The Dutch
Language Union”) [subvención NWO número 321 89 002].

identificación ORCID

Susanne Kleijn https://orcid.org/0000-0003-3613-1507

Notas
1. Un manual de construcción paso a paso está disponible a pedido; póngase en contacto con el primer autor.
2. En una prueba posterior al cierre, el lector lee el texto original no cerrado antes de realizar la prueba del cierre. En las
pruebas previas al cierre, la primera vez que el lector ve el texto, los espacios en blanco ya están en su lugar.
3. Siempre que la prueba sea lo suficientemente larga, la muestra se aproximará naturalmente a la distribución de los tipos de
palabras en el texto.
4. Aunque existen similitudes con los niveles de restricción de Bachman (dentro de la cláusula; entre cláusulas
pero dentro de la oración; entre oraciones; extratextual; Bachman, 1985), nuestra clasificación no se centra
en los límites de las cláusulas o las oraciones.
5. Calculado sobre tres textos diferentes, con 1052 palabras en total.
6. Aumentar el contexto que rodea una brecha específica no parece influir en la puntuación (Alderson, 1979b,
MacGinitie, 1961; Rankin & Thomas, 1980; Taylor, [1956]1994), pero sólo para análisis en los que sólo los
ítems que están presentes en todas las versiones se comparan las tasas de eliminación. Algunos estudiosos
han encontrado un efecto del índice de eliminación en las puntuaciones totales relativas, pero la dirección de
este efecto parece impredecible (ver Alderson, 1979b).
7. Se divide el número de candidatos restantes por el número de huecos a elegir para ver cuántas
versiones se pueden hacer.
8. Esta diferencia era de esperarse ya que nuestro procedimiento de cierre no permite elementos gramaticales predecibles
(clase cerrada), mientras que las pruebas de cierre estándar en estos estudios sí lo hacen.
9. Incluyendo errores ortográficos y tipográficos.
Kleijn et al. 17

10. El sistema holandés distingue múltiples niveles de educación. Pasando de la educación orientada a la
práctica a la educación orientada a lo académico, los niveles incluidos en el estudio son los siguientes:
vmbo-bb, vmbo-kb, vmbo-gt, havo y vwo.
11. Las pruebas fueron escritas de opción múltiple. Las pruebas de vocabulario miden el tamaño y la profundidad
del conocimiento del vocabulario receptivo. Las pruebas de capacidad de lectura miden la capacidad de
comprender textos escritos y reflexionar sobre la función y los objetivos del texto. Las preguntas se dirigen a
procesos locales y globales, incluida la comprensión de las ideas principales de los textos, la comprensión de
palabras, oraciones, párrafos en contexto y las relaciones que existen entre ellos, y la comprensión de las
diferencias entre hechos, opiniones, afirmaciones, argumentos y conclusiones (Van Til y Van Boxtel, 2015).

12. Las puntuaciones sumadas se calcularon sumando las puntuaciones de las brechas de cloze de cada participante para
cada prueba de cloze. Debido a que las pruebas cloze tenían un número diferente de espacios, las puntuaciones
sumadas se normalizaron a una prueba de 30 espacios.
13. Las puntuaciones estandarizadas de capacidad de lectura y vocabulario se correlacionaron .569 entre sí.

Referencias
Abraham, RG y Chapelle, CA (1992). El significado de las puntuaciones de las pruebas cloze: la dificultad de un ítem
perspectiva.La revista del lenguaje moderno,76(4), 468–479. doi:10.1111/j.1540–4781.1992.
tb05394.x
Aitken, KG (1977). Utilizar el procedimiento cloze como prueba general de dominio del idioma.TESOL
Trimestral,11(1), 59–67.
Alderson, JC (1979a). El procedimiento cloze y el dominio del inglés como lengua extranjera.
TESOL Trimestral,13(2), 219–227.
Alderson, JC (1979b). El efecto sobre la prueba de cloze de los cambios en la frecuencia de eliminación.Diario de
Investigación en lectura,2(2), 108-119. doi:10.1111/j.1467–9817.1979.tb00198.x Alderson, JC (2000).Evaluación
de la lectura. Cambridge: Prensa de la Universidad de Cambridge. Bachman, LF (1982). La estructura de rasgos de
las puntuaciones de las pruebas cloze.TESOL Trimestral,dieciséis(1), 61–70.
doi:10.2307/3586563
Bachman, LF (1985). Rendimiento en pruebas de cierre con deleciones racionales y de proporción fija.TESOL
Trimestral,19(3), 535–556. doi:10.2307/3586277
Bormuth, JR (1969).Desarrollo de análisis de legibilidad.. (Informe Final, Proyecto No. 7–0052,
Contrato No. 1, OEC-3–7–070052–0326). Oficina de Educación, Departamento de Salud, Educación y
Bienestar de EE. UU., Oficina de Educación, Oficina de Investigación.
Brown, JD ([1983]1994). Una mirada más cercana a la validez del cloze. En JW Oller y J. Jonz (Eds.),cerrar
y coherencia(págs. 189-196). Lewisburg, PA: Prensa de la Universidad de Bucknell. (Reimpreso
de JW Oller (Ed.),Problemas en las pruebas de idioma(págs. 237-250). Rowley, MA: Newbury
House, 1983).
Marrón, JD (1993). ¿Cuáles son las características de las pruebas de cloze natural?Pruebas de idioma,10(2),
93–116. doi:10.1177/026553229301000201
Marrón, JD (2002). ¿Funcionan las pruebas de cierre? ¿O es sólo una ilusión?Estudios de segunda lengua,
21(1), 79-125.
Marrón, JD (2013). Mis veinticinco años de investigación sobre pruebas de cloze: ¿Y qué?Internacional
Revista de estudios del lenguaje,7(1), 1–32.
Chávez-Oller, MA, Chihara, T., Weaver, KA y Oller, JW (1994). ¿Cuándo se cierran los artículos?
sensible a las restricciones entre oraciones? En JW Oller y J. Jonz (Eds.),Cloze y coherencia(págs.
229-245). Lewisburg, PA: Prensa de la Universidad de Bucknell. (Revisado deAprendizaje de
idiomas,35(2), 181–206, 1985.)
Chen, L. (2004). Sobre estructura del texto, dominio del idioma y formato de prueba de comprensión lectora
Interacciones: una respuesta a Kobayashi, 2002.Pruebas de idioma,21(2), 228–234. doi:10.1191/0
265532202lt227oa
18 Pruebas de idioma 00(0)

Chihara, T., Oller, JW, Weaver, KA y Chávez-Oller, MA (1994). ¿Son sensibles los elementos cerrados?
a restricciones entre oraciones? En JW Oller y J. Jonz (Eds.),Cloze y coherencia(págs. 135-147).
Lewisburg, PA: Prensa de la Universidad de Bucknell. (Revisado deAprendizaje de idiomas, 27,
63–73, 1977.)
Corte, LE y Scarborough, HS (2006). Predicción de la comprensión lectora: correlación relativa
Las contribuciones del reconocimiento de palabras, el dominio del lenguaje y otras habilidades cognitivas
pueden depender de cómo se mide la comprensión.Estudios científicos de la lectura,10(3), 277–299.
doi:10.1207/ s1532799xssr1003_5
Cziko, GA (1983). Otra respuesta a Shanahan, Kamil y Tobin: más razones para mantener el
cierre la caja abierta.Investigación de lectura trimestral,18, 361–365.
Davison, A. y Kantor, RN (1982). Sobre el fracaso de las fórmulas de legibilidad para definir la lectura
Textos capaces: un estudio de caso a partir de adaptaciones.Investigación de lectura trimestral,17(2), 187–
209. doi:10.2307/747483
Gellert, AS y Elbro, C. (2013). Las pruebas de cloze pueden ser rápidas, pero ¿están sucias? Desarrollo y
Validación preliminar de una prueba cloze de comprensión lectora.Revista de Evaluación
Psicoeducativa,31(1), 16–28.
Goldman, SR y Murray, JD (1992). Conocimiento de los conectores como dispositivos de cohesión en el texto: A
Estudio comparativo de hablantes nativos de inglés y de inglés como segunda lengua.Revista
de Psicología Educativa,84(4), 504–519.
Greene, BB (2001). Prueba de comprensión lectora del discurso teórico con cloze.Diario
de Investigación en Lectura,24(1), 82–98.
Halliday, MAK y Hasan, R. (1976).cohesión en ingles. Londres: Longman.
Henk, WA (1982). Una respuesta a Shanahan, Kamil y Tobin: el caso aún no está cerrado.
Investigación de lectura trimestral,17(4), 591–595.
Jonz, J. (1994). Tipos de elementos cerrados y restricción de respuesta. En JW Oller y J. Jonz (Eds.),cerrar
y coherencia(págs. 317–344). Lewisburg, PA: Prensa de la Universidad de Bucknell.
Keenan, JM, Betjemann, RS y Olson, RK (2008). Las pruebas de comprensión lectora varían según el
Habilidades que evalúan: Dependencia diferencial de la decodificación y la comprensión oral.Estudios
científicos de la lectura,12(3), 281–300.
Kintsch, W. y Yarbrough, JC (1982). Papel de la estructura retórica en la comprensión de textos.
Revista de Psicología Educativa,74(6), 828–834.
Klare, GR (1976). Una segunda mirada a la validez de las fórmulas de legibilidad.Revista de alfabetización
Investigación,8(2), 129-152. doi:10.1080/10862967609547171
Kleijn, S. (2018).Acercándose a la legibilidad: cómo las características lingüísticas afectan y predicen la composición del texto
prensión y procesamiento en línea. Utrecht: MUCHO.
Klein-Braley, C. y Raatz, U. (1984). Una encuesta de investigación sobre la prueba C.Pruebas de idioma,1(2),
134-146.
Kobayashi, M. (2002a). Pruebas de Cloze revisadas: explorando las características del artículo con especial atención
a los métodos de puntuación.La revista del lenguaje moderno,86(4), 571–586.
Kobayashi, M. (2002b). Efectos del método en el rendimiento de las pruebas de comprensión lectora: organización del texto
formato de zación y respuesta.Pruebas de idioma,19(2), 193–220.
Kobayashi, M. (2004). Investigación de los efectos del método de prueba: organización del texto y preguntas de respuesta.
estera. Una respuesta a Chen, 2004.Pruebas de idioma,21(2), 235–244.
Levenston, EA, Nir, R. y Blum-Kulka, S. (1984). El análisis del discurso y la prueba de la lectura.
comprensión mediante técnicas cloze. En AJ Pugh y JM Ulijn (Eds.),Lectura con fines
profesionales: Estudios y prácticas en lenguas nativas y extranjeras.(págs. 202-212).
Londres: Libros educativos de Heinemann.
MacGinitie, WH (1961). Restricción contextual en párrafos en prosa en inglés.Diario de
Psicología,51, 121-130.
Kleijn et al. 19

McKenna, M. (1976). Puntuación sinónimo versus textual del procedimiento cloze.Diario de


Lectura,20(2), 141-143.
McKenna, MC y Layton, K. (1990). Validez concurrente del cloze como medida de intersentencial.
comprensión.Revista de Psicología Educativa,82(2), 372.
Miller, GR y Coleman, EB (1967). Un conjunto de treinta y seis pasajes en prosa calibrados para situaciones complejas.
idad.Revista de aprendizaje verbal y comportamiento verbal,6(6), 851–854.
Oller, JW y Chen, L. (2007). Organización episódica en el discurso y medición válida en el
ciencias.Revista de Lingüística Cuantitativa,14(2–3), 127–144.
Oller, JW y Jonz, J. (Eds.). (1994a).Cloze y coherencia. Lewisburg, Pensilvania: Universidad Bucknell
Prensa.
Oller, JW y Jonz, J. (1994b). ¿Por qué cerrar el procedimiento? En JW Oller y J. Jonz (Eds.),Cloze y
coherencia(págs. 1-20). Lewisburg, PA: Prensa de la Universidad de Bucknell.
O'Toole, JM y King, RAR (2010). Una cuestión importante: ¿puede el error de muestreo invalidar
¿Estimaciones cerradas de legibilidad del texto?Evaluación de idioma trimestral,7(4), 303–316.
O'Toole, JM y King, RAR (2011). El medio engañoso: puntuación conceptual de las entradas cloze
beneficia diferencialmente a los lectores más capaces.Pruebas de idioma,28(1), 127-144.
Pander Maat, H., Kraf, R., Van den Bosch, A., Van Gompel, M., Kleijn, S., Sanders, T. y Van der
Sloot, K. (2014). T-scan: una nueva herramienta para analizar texto holandés.Revista de Lingüística
Computacional en los Países Bajos,4, 53–74.
Pearson, PD y Hamm, DN (2005). La evaluación de la comprensión lectora: una revisión de
prácticas – Pasado, presente y futuro. En SG Paris y SA Stahl (Eds.),Comprensión y evaluación
de lectura infantil.(págs. 13–69). Mahwah, Nueva Jersey: Lawrence Erlbaum.
Portero, D. (1978). Procedimiento de Cloze y equivalencia.Aprendizaje de idiomas,28(2), 333–341.
doi:10.1111/j.1467–1770.1978.tb00138.x
Rankin, EF y Thomas, S. ([1980]1994). Las limitaciones contextuales y la validez de constructo de
el procedimiento de cierre. En JW Oller y J. Jonz (Eds.),Cloze y coherencia(págs. 165-175). Lewisburg,
PA: Prensa de la Universidad de Bucknell. (Reimpreso de ML Kamil y AJ Moe (Eds.), Perspectivas sobre
la lectura: investigación e instrucción.(págs. 47–55). Washington, DC: Conferencia Nacional de Lectura,
1980).
Robinson, CG (1981). Procedimiento de cierre: una revisión.Investigacion Educativa,23(2), 128-133.
doi:10.1080/0013188810230206
Shanahan, T., Kamil, ML y Webb Tobin, A. (1982). Cloze como medida de comprensión interoracional.
prensión.Investigación de lectura trimestral,17(2), 229–255.
Estaforcio, G. (1994).Leesbaarheid y leesvaardigheid. De ontwikkeling van een domeingericht
instrumento de reunión. Arnhem: Cito.
Taylor, WL (1953). Procedimiento de cierre. Una nueva herramienta para medir la legibilidad.Periodismo
Trimestral,30, 415–433.
Taylor, WL ([1956]1994). Desarrollos recientes en el uso del procedimiento cloze. En JW Oller &
J. Jonz (Eds.),Cloze y coherencia(págs. 81–90). Lewisburg, PA: Prensa de la Universidad de Bucknell.
(Reimpreso dePeriodismo trimestral,33, 42–48, 1956).
Trace, J., Brown, JD, Janssen, G. y Kozhevnikova, L. (2017). Determinar la dificultad del elemento cerrado
a partir de las características de los elementos y pasajes de todos los orígenes del alumno.Pruebas de idioma,
34(2), 151-174. doi:10.1177/0265532215623581
Van Til, A. y Van Boxtel, H. (2015).Wetenschappelijke verantwoording Toets 0 t/m 3, tweede
generativa. Arnhem: Cito. Obtenido de https://www.cito.nl/-/media/Files/kennisbank/citobv/
96_wetenschappelijke-verantwoording-volgsyteemvo-gen2.pdf?la=nl-NL
Watanabe, Y. y Koyama, D. (2008). Un metanálisis de la investigación sobre pruebas de cloze de segunda lengua.
Estudios de segunda lengua,26(2), 103-133.
20 Pruebas de idioma 00(0)

Apéndice.Ejemplo de una prueba HyTeC-cloze presentada en pantalla. A los campos se les dio un color de
fondo lavanda y se subrayaron. Todos los campos estaban en blanco cuando el participante
comenzó. (Fuente del texto original: RDW; (www.rdw.nl/Particulier/Paginas/Fiets.aspx).

También podría gustarte