Documentos de Académico
Documentos de Profesional
Documentos de Cultura
380-Article Text-1326-1-10-20110728
380-Article Text-1326-1-10-20110728
pp. 133-141
2010
133
UNICIENCIA 24, 2010 Felipe O., José Alberto R. Variación del índice de niebla usando un corpus (...)
de hileras de caracteres. Gracias a estas carac- cuando el usuario lo solicita. También analiza
terísticas, la lingüística computacional se ha la concordancia. Con estas herramientas lo
extendido rápidamente para constituirse en normal sería que un texto acabe sin estos
un campo de investigación importante. Nos errores. Esto no implica la presencia de otros
interesa para esta investigación el corpus lin- problemas que un filólogo hallaría al darle
güístico asistido por computadoras y obtenido una ojeada. Por ahora, este trabajo es para un
a partir de millones de libros digitalizados por experto humano. Los editores no lo pueden
Google. Un corpus lingüístico es un conjunto, hacer, pero en el futuro se irán acercando a
normalmente muy amplio, de ejemplos reales este objetivo. Algunas ayudas son sencillas, por
de uso de una lengua, en nuestra investigación ejemplo, el editor podría indicarle al usuario:
este conjunto está compuesto por las palabras (1) la palabra “que” está siendo muy usada
del idioma español (Cantos, 2001). y marcarlas. (2) la frase tiene demasiadas
palabras. (3) la palabra recién introducida no
Del carácter al párrafo es usual según el corpus del editor.
Cuando se escribe una columna para un Análisis de comprensión de un
diario lo usual es atenerse a cierta cantidad texto
de caracteres. Por ejemplo, 4 500 caracteres,
incluyendo espacios en blanco, es una columna Algunos periódicos, como el New York
típica. Podría someterse a una cantidad de Times y la revista Time, publican sus artículos
palabras, digamos 750. Sin embargo, el conteo luego de analizarlos y ajustarlos. El objetivo
de caracteres se adapta mejor al espacio de la consiste en que sean entendibles por lectores
columna casi sin cambios notables en el texto con cierta cantidad de años de educación, defi-
original. Cuando se trata de palabras, un texto nida según sus expectativas. Para este análisis
de 750 oscila entre los 4 200 y los 4 800 carac- consideré el Índice de Niebla de Gunning1,
teres. Los editores de texto muestran la cantidad (Gunning, 1973). Veamos de qué se trata.
de palabras y de caracteres. Word©, el editor
de Microsoft, presenta en el análisis, además Al escribir un texto es deseable que la
de la cantidad de palabras y de caracteres con lectura sea comprensible para la mayoría de los
y sin espacios, la cantidad de páginas, de pá- lectores. Constituye una tarea fundamental para
rrafos y de líneas. Esta información es útil para los editores de los periódicos y de los libros. En
adecuarse a ciertos formatos. En las últimas general, resulta una práctica sana. Existen, por
versiones de Word, la cantidad de páginas y supuesto, notables excepciones de escritores
de palabras está siempre en la esquina inferior que disfrutan escribiendo para un público al
izquierda. Word también ofrece estos datos cual le puede ofrecer textos complejos. No
para segmentos de texto marcados. Algunos es el caso habitual. En los agradecimientos
escritores profesionales suelen someterse al de su libro Historia del tiempo Stephen W.
rigor de escribir una cantidad de palabras cada Hawking (1988) cuenta que alguien le dijo
día, por ejemplo, el escritor norteamericano que cada ecuación incluida reduciría las ventas
Stephen King (2000) afirma que su cuota es a la mitad. Al final, no resistió la tentación,
de 2 000. Una novela promedio tiene 50 000 agregó la famosa equivalencia entre la masa
palabras impresas en unas 200 páginas. El y la energía dada por la expresión de la teoría
editor minimalista FocusWriter 1.3.1 permite de la relatividad de Albert Einstein E=mc2. Y
configurar, en las preferencias, el objetivo comenta: “Espero que esto no asuste a la mitad
diario cuyo valor por defecto es 1 000. de mis potenciales lectores”.
134
Felipe O., José Alberto R. Variación del índice de niebla usando un corpus (...) UNICIENCIA 24, 2010
escolaridad, velan para que sus publicaciones Marcamos, en los siguientes ejemplos,
cumplan con ese requisito. las palabras complejas en itálica para resal-
tarlas:
El Índice de Niebla de Gunning, un
buen intento, es una prueba de lectura que Ejemplo 1: Un pequeño texto, dos haikus de
permite conocer el grado de dificultad de Ovares (2010) para mostrar el cálculo de la
un texto. El resultado nos brinda un nivel de función
lectura o escolaridad. Cuanto mayor sea el
valor obtenido, mayor será la dificultad para 1
entender el texto. Sapos en coro,
celebrando la lluvia,
El índice se calcula con el siguiente toda la noche.
algoritmo (Gunning, 1973): 2
En una gota,
1. Seleccione un texto, uno o más párrafos por la rama del rosal,
completos, de alrededor de 100 palabras. cae la luna.
No omita oraciones. Las oraciones ter-
minan en un punto.
No. Oraciones Palabras Complejas
2. Determine la longitud media de las ora- 1 Sapos en coro, 9 1
ciones. Divida el número de palabras por celebrando la
el número de oraciones. lluvia, toda la
noche.
3. Cuente las palabras “complejas”, las que 2 En una gota, 11 0
tienen más de tres sílabas. por la rama
del rosal, cae
4. Añadir la longitud media de la oración y la luna.
el porcentaje de palabras complejas. Totales 20 1
Promedio 10
5. Multiplique el resultado por 0,4.
Índice de Niebla 6
Índice= 0,4 (
( ) (
palabras
oraciones palabras
)
+ 100 palabras complejas ) Tabla 1. Análisis del ejemplo 1
135
UNICIENCIA 24, 2010 Felipe O., José Alberto R. Variación del índice de niebla usando un corpus (...)
136
Felipe O., José Alberto R. Variación del índice de niebla usando un corpus (...) UNICIENCIA 24, 2010
de 13,4 años contra al anterior de 22,9. Vemos, Cambiamos las “palabras complejas” de la
con este ejemplo, como la evaluación castiga fórmula original por las “palabras descono-
las oraciones largas. Además, si cambiáramos cidas”. Así, cualquier palabra con un uso bajo
las “palabras complejas” por sinónimos más en el corpus la consideraremos “desconocida”
cortos el Índice continuaría disminuyendo. o poco familiar para un lector meta, obviando
la cantidad de sílabas. En la fórmula original
Algoritmos sustituimos las palabras complejas por las
desconocidas así:
( ) ( )
Para calcular el Índice de Niebla leemos el
texto desde un archivo plano, en nuestro caso es Índice= 0,4 ( palabras + 100 palabras complejas )
oraciones palabras
un archivo tipo txt. Lo separamos en oraciones
y las almacenamos en una base de datos. En esta Con este cambio podemos comparar los
investigación empleamos MySQL (Butcher & resultados y establecer si existe una variación
Maslakowski, 2001).Al finalizar la lectura del texto importante. Es interesante destacar que el nuevo
se tiene en la tabla todas las oraciones, si se hallan cálculo dependerá del valor establecido para
repetidas se guarda solo una. Para cada oración clasificar una palabra con uso bajo. Al estudiar el
se cuentan las palabras que forman la oración, las corpus obtenido vemos que este valor se puede
palabras complejas y las palabras desconocidas. establecer entre 10 000 y 20 000. Lo mismo
sucede con el Índice actual que considera a una
Para encontrar las palabras complejas palabra compleja cuando tiene tres o más sílabas,
es necesario dividir cada palabra en sílabas y el cálculo varía si fuera de cuatro o más.
luego contarlas. Si tiene tres o más, la palabra
se considera “compleja”. Entre más palabras Corpus lingüístico del español
complejas se hallen en un texto más alto será
el valor del Índice. Usamos un algoritmo que La modificación introducida para el
recibe una palabra y la devuelve dividida en cálculo consiste en agregar un corpus lingüís-
sílabas, por ejemplo, para almohada devuelve tico del español. Para el análisis, ahora, cada
al-mo-ha-da. Con otra función, contamos las palabra de la oración la buscamos en una tabla
sílabas, para este caso, devuelve 4. El índice de la base de datos que hemos denominado
considera “compleja” la palabra almohada, pero CorpusEsp, si no está registrada o tiene un
no lo hace con galgo (gal-go), con 2 sílabas. Sería valor bajo (por ejemplo 20 000) se le considera
difícil encontrar una persona que desconozca “desconocida”. Esta variante castiga aquellas
la palabra almohada, sucedería lo contrario palabras que en el corpus están registrados
con galgo, como se observa el Gráfico 1. Para, con un uso poco frecuente. En nuestro corpus
almohada-galgo, vemos que la consideración de “almohada” tiene un uso alto (registra 116
complejidad no es tan sutil como debería. Este 358 apariciones), mientras que “galgo” no (18
detalle nos hizo considerar una modificación 779), por lo tanto será considera una “palabra
en la forma de calcular el Índice de Niebla y desconocida” y almohada no. En el Gráfico 1
comparar los resultados. se muestra el uso de ambas palabras según el
Google Books Ngram Viewer.
Para efectuar la comparación, progra-
mamos el algoritmo
para el cálculo del
Índice de Niebla de
Gunning original con
la fórmula presen-
tada en (1). Lue-
go, usamos nuestra
propuesta mostrada
en (2), la cual con-
siste en buscar en el
corpus las palabras.
Grafico 1. Uso de las palabras almohada y galgo entre los años 1800 al 2000
137
UNICIENCIA 24, 2010 Felipe O., José Alberto R. Variación del índice de niebla usando un corpus (...)
138
Felipe O., José Alberto R. Variación del índice de niebla usando un corpus (...) UNICIENCIA 24, 2010
res no alfabéticos, que no nos interesan para El Quijote tiene frases muy largas, en el
nuestro análisis. Efectuamos la limpieza para capítulo I de la parte I el promedio es de 55
obtener un corpus final con 1 200 000 palabras. palabras y en el capítulo XLV de la segunda
Aunque sigue teniendo inconsistencias, por parte es 41,37. Las traducciones del inglés al
ejemplo, palabras inexistentes en el español, español tienen frases cortas, lo observamos en
decidimos trabajar con este corpus. el cuento de Agatha Christie La esmeralda del
Rajá con 13,05. En general notamos que las
Comparación de los índices frases fueron acortándose desde la edad media
hasta nuestros días.
Programamos una serie de algoritmos
para analizar el texto y calcular el Índice de Nie- División silábica
bla original de Gunning (I.N.) y el modificado
(I.N.+). Con estos resultados comparamos los Para el cálculo de la fórmula original del
índices y determinamos si existe una variación Índice de Niebla de Gunning programamos
notable. Observamos en el análisis que al pasar varios algoritmos que nos permitieran dividir
la constante de “palabras desconocidas” de 10 en sílabas las palabras obtenidas de los textos.
000 a 20 000 el resultado, en promedio, sube Es un ejercicio interesante para un curso de
un año. Aumentando el valor de esta constante Estructuras de Datos o de Lingüística Compu-
podemos acercarlo tanto como se quiera al tacional, pues requiere el manejo detallado de
valor del I.N. original. Lo hicimos. Para una varias funciones para el tratamiento de hileras
constante de 600 000 (la mitad de las palabras y caracteres, además del conocimiento de las
de la base de datos) los resultados se acercan reglas para la división silábica, (Ríos, 1999)
bastante en la mayoría de los casos analizados. y (Cuayáhuitl, 2004).
La constante se acomoda al gusto del analista
al definir su lector meta. Errores de digitalización
140
Felipe O., José Alberto R. Variación del índice de niebla usando un corpus (...) UNICIENCIA 24, 2010
141