Está en la página 1de 10

2.

Medición de lecturabilidad
Actualmente, la forma más utilizada para medir la complejidad de los diferentes tipos de
textos es aquella basada en el juicio de expertos, quienes en base al conocimiento de su
disciplina y su experiencia categorizan los materiales según la dificultad que ellos les asignen
(Ortúzar, 2011)1. En la página del MINEDUC, la sección de textos escolares presenta una
investigación sobre Política de textos escolares en donde se informa sobre un método de
elegibilidad, en el que docentes de establecimientos, que cumplan el requisito de estar
acreditados, revisan propuestas de textos y evalúan la pertinencia de estos. Sin embargo,
existen desarrollos complementarios basados en estudios que buscan entregar criterios
cuantitativos medibles, a través de la construcción de fórmulas matemáticas de
lecturabilidad, y la operativización de estas en sistemas computacionalmente automatizados
para calcularlos. Entre la fórmulas de lecturabilidad más conocida y usadas se encuentra la
de Flesh Reading Ease Readability Formula (Flesch, 1948).

Son diversos los elementos que pueden afectar la lecturabilidad, alrededor de 288
características de las cuales en su mayoría corresponden a variables lingüísticas, y el resto
son variables que se han derivado de estudios de lecturabilidad (Alliende y Condemarín,
1982). Parodi (1986), basándose en estudios anteriores que Goodman (1984) toma de Gray
y Leroy del año 1935, llega a la conclusión que son dos los factores del texto que se asocian
claramente a la comprensión: vocabulario y longitud de la oración. Parodi retoma lo
propuesto por Chall (1984) y considera que palabras con más de tres o cuatro sílabas se
catalogan en un nivel de complejidad alto. El largo oracional se refiere a que mientras más
larga sea la oración más compleja su comprensión, dada la cantidad de cláusulas y frases
proposicionales. Parodi trabaja en torno al gráfico de lecturabilidad de Edward Fry para el
idioma inglés presentado en 1963, intentando adaptarlo al español de Chile (1986). El
procedimiento utilizado por Fry establece el índice de lecturabilidad sobre el número de
sílabas y de oraciones en cien palabras. Sin embargo, en su estudio, Parodi determinó la
diferencia longitudinal de oraciones y palabras entre textos de inglés y castellano. Se
encontró una amplia diferencia entre los índices de textos en inglés y sus respectivas

1
Véase el documento Política de textos escolares realizado por el MINEDUC y publicado a través de la
página http://www.textosescolares.cl/ (Última revisión 03-09-2017).
traducciones en español (21 y 86 sílabas más), debido a que el español presenta mayor
cantidad de sílabas. De ahí surgió la necesidad de crear un procedimiento para textos
traducidos al español u originales de esta lengua, para lo cual el autor propone un gráfico.
Esto se llevó a cabo seleccionando treinta textos y determinando el índice de lecturabilidad
en cada uno de ellos, promediando números de sílabas y de oraciones.

2. 1. Adaptación de RES (Reading Ease Score) de Flesh.


Uno de los desafíos de los investigadores que trabajan con textos del mundo escolar es
cómo determinar si un texto específico se adecúa de mejor manera a un nivel escolar.

Fernández Huerta realizó una adaptación de la fórmula RES propuesta por Flesh para
analizar la dificultad sintáctica. Esta fórmula clásica se interpreta en base a una escala que
va de 0 a 100 puntos, divida en 7 tramos.

Figura 1: Fórmula clásica propuesta por Flesh en The Principles of Readability of William
H. DuBay (2004).

Tabla 1: Flesch’s Reading Easy Scores en The Principles of Readability of William H. DuBay
(2004).
Huerta utilizó los mismos factores de la fórmula original, pero cambió su ponderación a
través de un análisis de regresión múltiple, lo que permitió adecuarlo de mejor manera para
el español. La fórmula es la siguiente:

LECT = 206.84 – 0.60 P – 1.02 F

L= lecturabilidad
P = promedio de n° sílabas/100 palabras
F = promedio conjunto de frases/100 palabras

Esta fórmula reproduce la escala de interpretación de Flesch y hace una correlación


aproximada con los niveles educativos españoles para los que inicialmente fue elaborada.
Las calificaciones de la fórmula de Huerta (tabla 2) varían entre 0 a 100, siendo 0 lo más
difícil y 100 lo más fácil para leer. Una calificación menor a 30 se considera muy difícil,
mientras que una calificación de 70 se considera apropiada para lectores adultos (Fernández,
1959). Una de las ventajas principales de la Fórmula de Fernández Huerta es su aplicabilidad
para todo tipo de texto siempre y cuando el texto esté compuesto por 100 palabras o más.
Tabla 2: Tabla de interpretación de resultados de la fórmula RES de Flesh adaptada por
Fernández-Huerta.

A su vez, la fórmula RES de Flesch fue validada por Szigrizr-Pazos (1993), bajo el
nombre de Fórmula de perspicuidad, y corresponde a una de las referencias actuales para la
lengua española.

IFSZ = 206.835 – 62.3 S/P – P/F

S = las sílabas totales


P = las palabras totales
F = las frases totales del texto
Esta fórmula, además de analizar índices de legibilidad de un texto, también incorpora la
fórmula de Flesch- Fernádez huerta.

2. 2. Coh-Metrix
Coh-metrix es probablemente la herramienta computacional más sofisticada para medir
lecturabilidad. Surge producto de los avances tecnológicos actuales basados en sistemas
computacionales y el modo en que estos capturan las características lingüísticas de los textos.
Las computadoras han desarrollado la capacidad para explorar las medidas en comprensión
de textos que van más allá de componentes superficiales, tales como, longitud de palabras,
acceso a palabras de los diccionarios, sílabas, morfemas, etc. Coh-metrix va más allá del
plano superficial ya que es capaz de capturar niveles más profundos de análisis del lenguaje
como son coherencia y cohesión. Coh-metrix es una herramienta de análisis de lenguaje
desarrollada en la Universidad de Memphis cuyo objetivo fue mejorar la comprensión, la
escritura de textos y adecuar los textos a los lectores. La herramienta evalúa los textos a través
de la cohesión, las relaciones de coherencia y las medidas de lecturabilidad mediante un
sistema complejo que integra, por ejemplo, los siguientes elementos: lexicones semánticos,
clasificadores de patrones, etiquetadores de las partes de la oración, analizadores sintácticos,
interpretadores semánticos, entre otros. Esta herramienta computacional proporciona un
índice de la lecturabilidad de un texto, a partir de diferentes puntos de acceso al significado
del texto, infiriendo relaciones de cohesión. Este concepto se entiende como las referencias
que permiten al lector conectar las ideas del texto (Álvarez, 2001). De esta forma genera
índices de la representación lingüística y discursiva de un texto. Además, mide la cohesión y
dificultad de los textos según la variación lingüística de registros, yendo más lejos que las
medidas populares de lecturabilidad.

Omar Sabaj (2007), además de agrupar los 60 índices de Coh-metrix, organiza estos en
6 categorías generales.

1. Información general de identificación y referencia


2. Lecturabilidad
3. Información general sobre el texto y las palabras
4. Índices sintácticos
5. Índices semánticos y referenciales
6. Dimensiones del modelo de situación.

La importancia de Coh-Metrix radica en que posibilita a lectores, escritores, educadores


e investigadores la medición instantánea de la dificultad del texto escrito para el público al
cual va dirigido el texto.
Recientemente, se ha creado una nueva herramienta derivada de Coh-metrix, llamada
TAACO (Crossley et al., 2015). Corresponde a una medida para medir índices específicos
de coherencia. Los niveles que analiza son coherencia local, coherencia global y coherencia
total del texto. TAACO, analiza la cohesión local del texto en un nivel oracional, como por
ejemplo, sustantivos, solapamiento entre oraciones y vínculos entre oraciones a partir de
conectores. También, analiza cohesión global que se refiere a las relaciones entre los
párrafos. Y además, agrega un tercer análisis, que no se incluye en Coh-metrix, el que
corresponde a la cohesión global del texto, diferente de la cohesión global porque en este
caso alude a la incidencia de características de cohesión, no por párrafo, sino en un texto
completo. Los índices reportados por TAACO son los siguientes2:

- Semantic overlap: son índices de cohesión local y global que utilizan la base de datos
WordNet y miden la superposición entre palabras y conjuntos de palabras entre frases
y entre párrafos.
- Givenness: estos son índices de cohesión textual que calculan el número de
pronombres, el tipo de pronombre (es decir, primero, segundo, tercero, sujeto,
cantidad), artículos definidos y demostrativos.
- Type-toke ratio: son índices de cohesión de texto que miden la repetición de palabras
en el texto dividiendo el número total de palabras (tokens) por el número de palabras
individuales (tipos).
- Connectives: estos son índices de cohesión local que calculan el número de
conectivos positivos versus negativos; y los conectivos temporales, aditivos y
causativos.

Un aporte más específico de Coh-Metrix a la lecturabilidad de los textos escolares es


T.E.R.A (Text Ease and Readability Assessor, 2016). Esta herramienta utiliza ciertas
medidas de Coh-Metrix en torno a la facilidad del texto y su lecturabilidad, en cinco
dimensiones textuales:

2
Se ha decidido mantener el nombre de los índices en inglés porque algunos de estos no tienen un
equivalente exacto en el español.
1. Narratividad: mide el grado en que el texto es descrito como una narración o “historia”.
Mientras mayor es el grado de narratividad, la lectura es más fácil. Por el contrario, mientras
menos narratividad, el texto contiene información más compleja.

2. Simplicidad sintáctica: mide cómo se estructura la sintaxis, que está determinada por el
número de palabras y cláusulas en una oración, o el número de palabras antes del verbo
principal en la oración. Cuando la sintaxis es más compleja, los lectores pueden tener más
dificultad para generar una comprensión coherente del significado de la oración.

3. Palabras concretas: mide el número de palabras concretas (aquellas que son perceptible
por parte de los sentidos, por ejemplo, mesa, silla, niño etc.) en comparación con las palabras
abstractas (aquellas que no son perceptibles físicamente, por ejemplo, éxito, alegría, etc.). A
diferencia de las palabras abstractas, las palabras concretas ofrecen imágenes mentales claras,
que permiten que un texto sea más fácil de comprender.

4. Cohesión Referencial: mide cuántas palabras o conceptos se superponen dentro de un


texto. La baja cohesión referencial puede hacer que un lector tenga dificultades para conectar
ideas entre oraciones.

5. Cohesión Profunda: mide cómo se relacionan los acontecimientos y las ideas en todo el
texto a través de palabras que van conectando las diferentes. A medida que se produce más
superposición, esto supone mayor cohesión general.

T.E.R.A no solo realiza un análisis descriptivo de los elementos mencionados


anteriormente, sino que también estima la adecuación del texto en relación al nivel escolar,
vinculando esta información con la fórmula de lecturabilidad de Flesch-Kincaid Grade Level
(Kincaid, Fishburne, Rogers y Chissom, 1975).
Figura 1: Ejemplo del análisis que arroja la herramienta Coh-Metrix Common Core.

Esta función resulta útil para los educadores pues permite la selección de los textos con
los cuales sus estudiantes trabajarán en clases, precisando el modo en que los textos podrían
ser más o menos complejos para los estudiantes.

2. 3. Trunajod

Trunajod es un Software desarrollado en la Universidad de Concepción en Chile por


Mónica Véliz y Karelovic en el marco del proyecto Fondef D08i117. El software analiza de
forma automática textos escritos en español para obtener información acerca de su
lecturabilidad. Dicho proceso lo realiza mediante una herramienta computacional, Connexor
Machinese Syntax, que lleva a cabo el paso principal de descomponer el texto en un nivel
morfosintáctico. Esto se complementa utilizando la información léxica, que proporciona
Lifcach, un diccionario que da cuenta de la frecuencia de uso de las palabras del español en
Chile. La información obtenida se organiza de forma estadística, mediante índices léxicos,
sintácticos y semánticos. En el proceso de etiquetado automático de textos, la herramienta
analiza las palabras y las marca mediante etiquetas que indican sus características
gramaticales. Además de esta categoría, Connexor Machinese Syntaxis extrae información
acerca de la flexión nominal y verbal indicando número, género, modo, persona y tiempo de
las palabras, identificando sus dependencias sintácticas. A partir de esta información
arrojada por Connexor, Trunajod la utiliza para obtener cantidades (palabras, oraciones,
vocablos y cláusulas, palabras nocionales y proposiciones) e índices de complejidad textual:

LO: longitud de la oración, obtenida al dividir la cantidad total de palabras por el número de
oraciones del texto oraciones.

LC: longitud de la cláusula, calculada al dividir el total de palabras del texto por el total de
cláusulas.

IS: índice de subordinación, que se obtiene al dividir el total de cláusulas del texto por el total
de oraciones.

DeP: índice de densidad proposicional, cuya fórmula es 100*Prop/p, donde Prop son las
proposiciones que contiene el texto y P las palabras. Se expresa en término de porcentaje.

DeL: índice de densidad léxica, obtenido al dividir el número de palabras del texto,
multiplicado por cien. Se expresa en término de porcentaje.

DiL: índice de diversidad léxica, que se calcula para las primeras 100 palabras, dividiendo la
cantidad léxica entre la palabra N° 101 y la 200, después para las palabras entre la N° 201 y
300, y así sucesivamente de acuerdo al número total de palabras del texto. Finalmente, se
toman todos los valores para cada conjunto de cien palabras y se promedian.

DFN: densidad de la frase nominal, que calcula el número promedio de modificadores de las
frases nominales contenidas en el texto.
FP: frecuencia promedio de palabras, que promedia la frecuencia de las palabras por millón
según el diccionario LIFCACH.

FPL: frecuencia promedio logarítmica de palabras, similar al índice anterior, salvo que el
promedio es sobre el logaritmo de la frecuencia, logrando así que las palabras más frecuentes
no sean tan decisivas al momento de calcular el índice.

Trunajod ha demostrado su validez a partir de estudios que han permitido destacar su


importancia como instrumento para relacionar lecturabilidad y comportamiento lector
(Campos et. al, 2014).