Está en la página 1de 16

Diccionarios e informática

Bloque 2: Fuentes y corpus

Tema 6. Requisitos estadísticos: frecuencia, dispersión y uso a partir


de datos de corpus. La nomenclatura

Esta unidad atiende los objetivos siguientes:


Conocer los conceptos de corpus informatizado, tipos de corpus, corpus de referencia y corpus
específicos.
Saber extraer información lexicográfica de corpus de consulta libre: CREA, CORDE, Corpus
del español.
Saber proyectar un corpus en función de la información lexicográfica que se quiera extraer de
él.
Y a estos contenidos:
La constitución de un corpus: funciones, usuarios, fuentes, requisitos, codificación,
lematización, etiquetaje, etc.
Frecuencia, dispersión y uso a partir de datos de corpus: la nomenclatura.

Si es interesante toda la información que sobre las palabras se puede encontrar en la web, es
conveniente que nos demos cuenta de cómo se han ido conformando, construyendo,
implementando estos recursos que en el tema anterior (03) se han visto. A partir de ahora
plantearemos, no cómo podemos encontrar recursos informatizados y conocerlos —como hemos
propuesto hasta ahora—, sino cómo utilizarlos y los pasos que hay que dar para realizar un
diccionario con medios informáticos de ayuda.

La ayuda informática requiere siempre tener las ideas lingüísticas claras sobre el recurso que se
vaya a realizar. La informática está al servicio de los trabajos lingüísticos; ella sola no resuelve
nada. Si no se tiene claro el proyecto ni se conocen de primera mano las cuestiones que se
plantearán, la ayuda puede convertirse en una fuente de errores, ya que informáticamente se
trabaja siempre con grandes volúmenes de información que no se pueden contrastar de forma
convencional (por lectura, manualmente, etc.) una vez puestos en marcha los programas, como se
corrige habitualmente cualquier mala redacción de una página, por ejemplo.

Para entrar en el mundo de los corpus lingüísticos como recursos al servicio de los filólogos o
lingüistas, conviene explorar la página del profesor de la Universidad Autónoma de Barcelona,
Joaquim Llisterri (2007).

En este tema veremos en concreto cómo sirve un corpus lingüístico informatizado para establecer
la nomenclatura de un diccionario y cómo se puede establecer un orden de prioridades bastante
acertado para establecerla.

Hemos visto ya las ventajas que tienen los corpus como fuentes de los diccionarios. En los corpus
—también se ha visto— se almacenan millones de unidades léxicas junto a sus contextos. Para
trabajar con esta ingente cantidad de información se requiere la ayuda de tratamientos informáticos
y de algún cálculo estadístico que respondan a las necesidades del lexicógrafo. Si no se tienen
racionalmente ordenadas las preguntas y calibradas las posibles respuestas, trabajar con un
corpus de millones de datos no ayudaría en el trabajo ni suministraría seguridad de que lo que se
hiciera fuera lo buscado, es decir, fuera un acierto.

El establecimiento de una de las primeras claves de un diccionario es saber cuántas unidades


serán descritas y cuáles; es decir, la determinación de la nomenclatura del diccionario o del
vocabulario que se quiera elaborar. Los lexicógrafos llaman lemario al conjunto de la nomenclatura
establecida pues se codifica por lemas (este concepto se estableció en el primer ejercicio).

Antiguamente esto se hacía a partir del listado (lemario) de un diccionario más antiguo, sobre el
que se añadían unidades y del que se retiraban arcaísmos, regionalismos, etc., que no se

1
Diccionarios e informática
Bloque 2: Fuentes y corpus

consideraban adecuados para el diccionario proyectado. Hoy estos datos se extraen del corpus o
de los corpus a partir de los cuáles se trabaja.

Para que se puedan seguir las operaciones que conviene tener en cuenta en el establecimiento de
la nomenclatura a partir de los datos de un corpus se ha de trabajar cuantitativamente con
alguna noción de estadística, dada la cantidad grande de datos que hay que manejar: informática y
estadística al servicio de la lexicografía.

Hemos pensado que la lectura de un capítulo del volumen dedicado a la descripción de un


pequeño corpus, como es el Corpus 92, podría facilitar la comprensión de esta operación: cómo se
establece el listado de las voces que deben ser descritas en un diccionario a partir de un corpus, y
siempre, como vamos diciendo, teniendo en cuenta a quién vaya dirigido el diccionario, las
necesidades que se quieren cubrir de sus posibles usuarios.

El ejemplo que ponemos busca establecer el vocabulario útil en textos académicos con vistas a la
enseñanza del español como lengua materna, pero esta especificidad se puede cambiar a la
especificidad de un diccionario escolar, de un diccionario general dirigido a ciudadanos medios, a
un diccionario sincrónico de una época acotada, a un diccionario especializado en un tema, etc. El
modelo se puede adaptar al tamaño del corpus y a las necesidades de los usuarios del diccionario
proyectado

La referencia bibliográfica es:


Torner, S.; Battaner, P. (eds.) (2005). El corpus PAAU 1992: estudios descriptivos, textos y
vocabulario. Barcelona: IULA, 2005. ISBN: 84-934823-1-5. [334 p. + CD-ROM]

Conviene que lo leáis despacio, que acotéis los conceptos nuevos, que os hagáis preguntas sobre
lo que entendéis y lo que no. Hemos elegido un trabajo sobre un corpus de pocas unidades léxicas
para que sea más fácil de comprender y de seguir. Dado que lo presentamos en Word, podéis
cortar lo que os interese y formaros vosotros mismos un texto que sea de vuestro agrado e interés.

El capítulo que os presentamos ocupa las páginas 69-86

“Frecuencias y uso en el vocabulario del Corpus 92”


Paz Battaner

0. Introducción
1. Datos cuantitativos
1.1. Formas y lemas
1.2. La frecuencia
1.3. Empleos y categorías
1.4. Datos de uso: frecuencia y dispersión
2. Diccionario de frecuencia y dispersión del vocabulario del Corpus PAAU 1992 y Listado de uso
del vocabulario del Corpus PAAU 1992.
3. Comparaciones con otros recuentos

0. Introducción
El Corpus PAAU 1992 es un conjunto cerrado de datos lingüísticos que quiere ser representativo
de un tipo de discurso, el discurso académico previo a la entrada en la Universidad española según
fue establecida a partir de la Ley de educación de 1970 y que se ha mantenido en las leyes
posteriores. Este tipo de recurso lingüístico permite diferentes estudios y se ofrece a la
comparación con otros recursos que tengan características coincidentes. La finalidad del
establecimiento del Corpus 92 es el estudio lingüístico de su discurso escrito, no del conocimiento
en él representado, y un dato lingüístico es sin duda el vocabulario con el que se ha hecho.

2
Diccionarios e informática
Bloque 2: Fuentes y corpus

Una de las curiosidades más generales en la lingüística aplicada es determinar datos cuantitativos
del vocabulario; esta curiosidad responde a diferentes fines: enseñanza de la lengua, cálculo de
riqueza léxica, determinación de entradas en un diccionario según sus fines, estadística y
probabilidad de aparición de una unidad, etc. Desde hace más de treinta años el procesamiento de
las lenguas por medios tecnológicos ha hecho totalmente necesario estos recuentos de
frecuencias. También los estudios descriptivos pueden encontrar en estos cálculos datos que no se
pueden documentar con seguridad por otros métodos y tanto los diccionarios como la gramática
sacan partido de este enfoque.

En el tratamiento dado al Corpus 92 ha interesado obtener datos de las voces usadas, de las
voces más usadas, de las voces características de este discurso escrito. Para ello se han
confeccionado dos diccionarios, Diccionario de frecuencia y dispersión del vocabulario del Corpus
1
PAAU 1992 y Listado de uso del vocabulario del Corpus PAAU 1992.

1. Datos cuantitativos

El análisis del léxico del Corpus 92 que se presenta utiliza los analizadores (lematizador y
etiquetario) creados en el Institut Universitari de Lingüística Aplicada de la Universidad Pompeu
Fabra (http://bwananet.iula.upf.edu/). La herramienta se ha ido incrementando, afinando y
precisando progresivamente en un largo trabajo. El proceso y las decisiones que se han tenido que
tomar se pueden encontrar detalladas en J. Vivaldi et al. (1996), C. Bach et al. (1997) y J. Morel et
al. (1997) y en las ventanas de ayuda del programa.

El análisis automático puede presentar un nivel de errores que en un tratamiento manual no serían
aceptables, pero procesa una cantidad de texto suficientemente alta para que estos errores
2
puedan representar un porcentaje insignificante.

1.1. Formas y lemas

En este tipo de análisis conviene distinguir desde el principio los conceptos de forma y de lema.
Interesa precisar que forma se toma aquí como una unidad de procesamiento informático, limitada
por espacios en blanco. El lematizador reconoce también las formas flexivas de las unidades
léxicas simples y a estas diferentes formas morfológicas de una misma palabra les asigna un lema,
forma canónica con la que se suele representar dicha unidad léxica en los diccionarios. Por
ejemplo, el sustantivo ayuda y el verbo ayudar aparecen respectivamente bajo dos lemas, ayuda,
ayudar, que contabilizan 54 y 67 formas flexionadas de ellas respectivamente; en este caso,
diferenciadas por número gramatical (el nombre sustantivo ayuda) y por modos, tiempos y
personas (el verbo ayudar). Todas las formas contenidas en el Corpus 92 están, pues,
lematizadas, es decir, el análisis automático reconoce para cada una de ellas, un lema, que
representa a su vez todas las formas flexionadas que la voz toma a lo largo del Corpus. Entre
estas formas el lematizador del IULA reconoce tanto unidades univerbales, ayuda, como
pluriverbales, gracias al preprocesamiento de los textos del corpus; en el caso del Corpus 92 se
aísla como unidad pluriverbal, por ejemplo, a un olmo seco, al fin y al cabo, cogito ergo sum. El
tratamiento de algunas de las unidades léxicas pluriverbales ha sido realizado en el proceso de
marcado.

El Corpus 92 es un conjunto de 356.868 formas (100%) con el siguiente desglose por apartado:

Comunes = 120.153 (34%)


Humanidades = 142.466 (40%)
Ciencias = 94.249 (26%)
1
Conviene consultar la página: http://www.iula.upf.edu/recurs01ca.htm
2
Puede chocar en el listado alfabético, por ejemplo, la intercalación de nombres propios, simples y complejos,
que aparecen con el mismo tratamiento que el de las otras voces. No se trata de ofrecer una nomenclatura de
lemas de un diccionario de lengua; sino de ofrecer las unidades léxicas que encierra el Corpus 92, y esto
comporta tener en cuenta los nombres propios y otras unidades.

3
Diccionarios e informática
Bloque 2: Fuentes y corpus

Es comprensible que el apartado de Humanidades, que contiene las pruebas de Historia, Historia
del Arte y Literatura, presente más formas, por el tipo de discurso expositivo que suelen presentar
estas materias, y que el apartado menor en número de formas sea el de Ciencias, que contiene las
pruebas de Biología, Geología, Matemáticas, Física y Química, en el que muchas de ellas se
desarrollan con lenguaje algébrico, que no está recogido en el Corpus 92 (Ver Presentación, El
Corpus 92).

Los lemas que el Corpus encierra se reducen, naturalmente, en número de unidades. Si el total de
las formas del Corpus 92 es de 356.868, los lemas del Corpus 92 quedan reducidos a 12.775, que
se desglosan de la siguiente manera por apartado.

El Corpus 92 presenta un total de 12.775 lemas con el siguiente desglose por apartado:

Comunes = 4981 lemas


Humanidades = 7866 lemas
Ciencias = 4576 lemas.

Este desglose permite señalar algunas evidencias en cuanto a lo que se conoce como riqueza
léxica. La mayor variedad de lemas no se corresponde siempre con el número de palabras
contabilizadas como empleos. No coinciden los porcentajes por formas con el número de lemas en
los diferentes apartados. Humanidades, con un 40% de empleos, presenta un riqueza verbal
mucho más alta (7866 lemas) y Comunes, que supera en empleos a Ciencias, no presenta mucho
mayor número de lemas que Ciencias.

La riqueza léxica entre los tres apartados no interesa aquí, pero es un dato más que puede ser útil
en los diccionarios escolares también. Además, estos datos pueden ser comparados con otros
recuentos léxicos, lo que determinaría otro tipo de acercamiento al conocimiento de la
cuantificación léxica. La relatividad de la riqueza léxica por sí misma hace tiempo que fue
advertida. Obras de teatro de una duración temporal equiparable, las tragedias del teatro clásico
francés, por ejemplo, presentan más o menos riqueza léxica, como demostró hace ya años Müller
(1968) al estudiar estadísticamente el vocabulario utilizado en las tragedias de Corneille. Es decir,
a un número equiparable de formas no corresponde una misma relación en número de lemas y el
aumento de estos no se corresponde tampoco con el valor artístico reconocido por la tradición
literaria. El estudio de Müller advirtió ya ante la formulación de apreciaciones y juicios precipitados
apoyados sólo en datos numéricos.

Hay lemas, sin embargo, presentes en todas las tragedias estudiadas y esta sí que es una cuestión
que aquí interesa.

1.2. La frecuencia

El cómputo de las frecuencias de cada forma es hoy relativamente fácil con la ayuda de la
informática; para contabilizar los lemas se ha de tener también un programa que lematice. Los
datos de frecuencias en bruto para cada forma son el punto de partida, pero estos datos sólo son
3
relativamente informativos . Con un lematizador y un etiquetador el cómputo es mucho más rápido
y fiable, se pueden contabilizar las frecuencias absolutas de los lemas ayuda y ayudar, y de todas
sus formas flexivas, tanto en el conjunto como en los tres apartados establecidos. Así en el
Diccionario que presentamos se dan los datos de frecuencia por lemas y por formas. El tratamiento
cuantitativo recoge todas las formas flexionadas simples que encierra el Corpus, distinguiendo las
formas simples según los morfemas de persona, tiempo y modo:

3
Un acercamiento a la caracterización del Corpus 92, con formas exclusivamente, se hizo en Battaner, P.
(1996). ―Some features of the vocabulary used in the area of humanities‖. En Symposia in the 1996 European
Writing Conferences. EARLI Special Interest Group - Writing, Writing and Computers Association.

4
Diccionarios e informática
Bloque 2: Fuentes y corpus

- ayuda_n 54 * CO * HU * CI
23 27 4 54
· ayuda 21 25 4 50
· ayudas 2 2 0 4

- ayudar_v 67 * CO * HU * CI
34 28 5 67
· ayuda 11 6 2 19
· ayudaba 0 1 0 1
· ayudan 3 2 2 7
· ayudando 0 1 0 1
· ayudar 11 6 0 17
· ayudará 1 0 0 1
· ayudarán 1 2 0 3
· ayudaría 1 1 0 2
· ayudaron 0 3 0 3
· ayudas 1 1 0 2
· ayudasen 1 0 0 1
· ayudemos 1 0 0 1
· ayuden 2 0 1 3
· ayudó 1 5 0 6

Esta es la disposición como se presentan los lemas y las formas en el Diccionario de frecuencia y
dispersión del vocabulario del Corpus PAAU 1992, detalladas por los documentos de Comunes,
Humanidades y Ciencias.

En la enseñanza de lenguas se han buscado siempre las voces más útiles, las que sirven en
mayor número de ocasiones; en la enseñanza de lenguas se puede relacionar utilidad con
frecuencia alta. Las listas de las palabras más frecuentes, más usadas, han sido objeto siempre de
interés. Desde la popularización de la imprenta se respondió a esta necesidad creando
vocabularios temáticos seleccionados y ofrecidos por ‗centros de interés‘, establecidos por el
lexicógrafo o el editor. Para cada centro de interés se ofrecían las voces más típicas, las más
características y necesarias. Los manuales de lenguas extranjeras presentan varios tipos de este
método para conocer el vocabulario más necesario. En el siglo XX se intentó llegar a establecer
estas voces más útiles de forma objetiva por la determinación cuantificada de las voces de
frecuencia más alta en una lengua.

Desde esta última perspectiva son dos las líneas que se han seguido en los estudios cuantitativos
para confeccionar vocabularios de voces frecuentes, útiles en el aprendizaje de segundas lenguas:
a) el establecimiento de vocabularios mínimos entre unas 1000 y 2000 voces y b) el
establecimiento de vocabularios básicos de mayor número de voces, entre las 2000 y las 4000.

Los vocabularios mínimos para el inglés fueron las listas de palabras, establecidas en torno a los
4
años de la Segunda Guerra Mundial, que reducen a unas mil las voces necesarias en un primer
acercamiento a una lengua como el inglés. Sin embargo, al observar el resultado de la selección se
detecta una dificultad inherente, la de la ambigüedad de las voces determinadas. Las voces
recogidas en estos vocabularios mínimos son extraordinariamente polisémicas y multifuncionales, y
por tanto presentan dificultad para su aprendizaje y para su uso. Las voces que en ellas figuran
desempeñan cada una muchas funciones sintácticas (la misma voz tiene varias categorías
gramaticales) y muchos valores semánticos.

El establecimiento de vocabularios básicos se ha intentado por tres vías: una no cuantitativa, la vía
5
de confiar en ‗jueces‘ que elijan con su criterio las voces convenientes en una lengua , vía en la

4
Listas inglesas de Ogden (1930, 1968), Richard (1943) y West (1953, 1960).
5
Vocabulario básico establecido por jueces en español se encuentra en MEC (1989).

5
Diccionarios e informática
Bloque 2: Fuentes y corpus

que la objetividad viene de la ‗autoridad‘ de dichos jueces; y dos que recogen y cuantifican
6
unidades léxicas: la vía de las encuestas de disponibilidad entre los hablantes, en la que la
objetividad viene del número de informantes y del método de recogida y tratamiento de datos; y la
7
vía de la determinación de las voces más frecuentes a partir de un corpus establecido , en la que la
objetividad viene dada por la representatividad del corpus y por el recuento mecánico.

La dificultad para determinar las voces de forma objetiva de este último método no está tanto en el
recuento simple de los lemas en un corpus, sino en la determinación de lo que se presenta como la
lengua representada, es decir, la validez del corpus estudiado, sobre el que el recuento se efectúa,
de manera que asegure que el conjunto de voces recogido sea el certero. La cuestión básica se
traspasa a la determinación del conjunto de textos del que se extraen esas frecuencias. Este
conjunto de textos (corpus) tendría que reflejar proporcionalmente el discurso que se genera en la
comunidad lingüística que aspira a representar; cuestión esta que es extraordinariamente difícil.
Esta constatación obligó a refinar los cálculos simples de frecuencia, introduciendo otros elementos
cuantificables de diversificación.

1.3. Empleos y categorías

Según la muestra que sobre las frecuencias de ayuda y ayudar se ha dado, en el Corpus 92 se
encuentran 54 empleos u ocurrencias del nombre ayuda, distribuidos en 23 empleos en
Comunes, 27 empleos en Humanidades y 4 empleos en Ciencias. También se sabe la distribución
y los empleos que hay en singular y en plural del mismo lema en los mismos apartados. Es decir la
frecuencia es establecida por los empleos u ocurrencias de cada lema en el Corpus. Los empleos
del verbo ayudar son más altos y más variados que los del nombre ayuda. Es fácilmente
observable que los lemas ayuda, ayudar ofrecen muchos más empleos en Comunes y en
Humanidades que en Ciencias. Quedan contabilizadas así las frecuencias absolutas totales por
cada apartado.
8
Para conseguir esta fiel descripción , el tratamiento automático tiene que reconocer la categoría
gramatical de cada palabra, es decir, debe poder asignar a cada forma un lema y esto representa
asignarle al lema una categoría gramatical; los lemas del diccionario que se incluye sobre el
Corpus 92 se ofrecen etiquetados gramaticalmente como en los diccionarios. Las formas ayudar y
ayuda se diferencian por el morfema flexivo que presentan; sin embargo, ayuda, ayudas, 3ª y 2ª
persona del presente de ayudar, se diferencia de ayuda, ayudas, nombre singular y plural, por la
función que cada una de estas formas desempeña en la gramática de superficie, por el contexto
sintáctico en el que aparecen en cada empleo. La herramienta que permite etiquetar la categoría
de cada palabra reconoce las otras palabras que la rodean y en función de reglas y ponderación
estadística asigna el lema y otorga una categoría gramatical a cada forma. Unas concordancias
sobre la forma ayuda permiten verlo.

...y cuando los ricos ofrecen su ayuda económica a estos países


subdesarrollados,BA/CO/01
No nos engañemos, el planeta necesita una ayuda inmediata.BA/CO/17
En ayuda de la radio apareció el autorradio y el transistor MU/CO/08
Por supuesto el desarrollo nos ayuda en las tareas manuales que antes eran un rudo
oficio,MA/CO/03

6
Las encuestas buscan un vocabulario fundamental; además de los trabajos de López Morales y
colaboradores (López Morales 1999) para el español, véase Gougenheim et al. (1956), Mackey (1971a).
7
Para la determinación por recuento en un corpus: Buchanan (1927), Keniston (1941), Rodríguez Bou (1952),
García Hoz (1953), Gorosch y Pontoppidan-Sjoval (1966). Sobre diccionarios de frecuencias y diccionarios de
frecuencias para el español, Juilland y Chang-Rodríguez (1964), Halm y Barrera Vidal (1973), Márquez
Villegas (1975), Miguetto (1983), Rafel (1996). Véase también Alvar Ezquerra (1974) y (1977).
8
Esta fidelidad tiene siempre sus límites en un tratamiento automático y tiene sus ventajas, el manejo de
grandes cantidades de información. Hay estudios sobre los márgenes de error tolerables, Véase Badia et al.
(1998). El índice de error en la desambiguación de la categoría morfológica es del orden del 5 %.

6
Diccionarios e informática
Bloque 2: Fuentes y corpus

La forma de escribir, primero diciendo de forma rápida y concisa todas las ideas y pasando
después a demostrarlas es muy buena, ayuda a la comprensión del texto...MA/CO/05
Pero este tipo de vida no ayuda a que las personas se enriquezcan... MA/CO/07
...y esto nos ayuda a enriquecernos. MA/CO/07

En los dos primeros ejemplos ayuda aparece con determinante su, una y con un adjetivo
pospuesto en género femenino, concordado con el nombre ayuda (económica, inmediata). En el
tercero el sustantivo ayuda aparece exento, sin determinante, en un sintagma preposicional,
construcción que es incompatible con cualquiera forma verbal. El analizador reconoce en estos tres
empleos de ayuda un nombre sustantivo. En los siguientes ejemplos, ayuda está categorizado
como verbo a partir de los pronombres clíticos nos, del adverbio de negación, de los sintagmas
nominales anteriores (el desarrollo, la forma de escribir, este tipo de vida, esto); el analizador lo
categoriza pues como verbo. Sin embargo, en un análisis de superficie, los sintagmas
preposicionales que siguen a la forma ayuda verbo (en las tareas manuales, a la comprensión del
texto, a que las personas se enriquezcan, a enriquecernos) podrían ser también complementos
argumentales de ayuda nombre, y por tanto el analizador no los tiene en cuenta. De esta manera,
cada forma lleva una etiqueta de categoría gramatical y de subcategoría morfosintáctica si la
ofrece, como son los plurales, femeninos y los diversos morfemas de los verbos. La frecuencia, el
número de empleos, queda así mucho mejor analizada.

Este etiquetado de formas flexionadas puede despertar, además, cuestiones gramaticales que
pasan desapercibidas en la lectura convencional sin datos de frecuencia. Es interesante ver, por
ejemplo, qué tipo de verbos presentan formas de futuro o de condicional en la prosa académica
representada en el Corpus 92; o cuántas formas se dan de 3ª persona de singular de Pretérito
Imperfecto de Subjuntivo en –ra y cuántas formas en -se y con qué distribución. Al presentarse
etiquetado, el Corpus 92 permite ser cuestionado por preguntas puramente gramaticales y no sólo
léxicas, como qué condiciona el modo subjuntivo de ciertos verbos que lo presenten en frecuencia
relativamente alta, por ejemplo.

· tenga 18 7 18 43
· tengamos 5 0 1 6
· tengan 15 4 9 28
· tengas 2 0 1 3

Al ir a consultar en el Corpus 92 estas formas, se pueden encontrar las siguientes concordancias:

...no es demasiado grato que los pobres tengan que renunciar a oportunidades de
crecimiento.BA/CO/05
es inadmisible el hecho de que tengan que renunciar a sus posibilidades de crecimiento
para no perjudicar al medio, BA/CO/06
Todos los países se ven afectados por esta crisis aunque unos tengan más medios que
otros para combatirla. BA/CO/07
La idea de que los pobres tengan que renunciar a posibles oportunidades de crecimiento
resulta intolerable BA/CO/09
Respecto a la radio, es necesario potenciarla, quitándole anuncios, que tengan una
programación más dinámica y que vaya MU/CO/22
...por lo que ni el autor ni yo estamos de acuerdo en que las ofensas tengan tanta
importancia.SA/CO/15
Para que surjan unas condiciones de producción nuevas ha de verse y notarse que las
viejas son invalidadas, de ahí que tengan que surgir continuas contradicciones
entre...OV/FI/07

Las consultas a esta herramienta, que afina las frecuencias, permiten pues diversos acercamientos
y de ellos se puede beneficiar el lingüista o el lexicógrafo que esté interesado en describir
gramática de las voces tratadas.

7
Diccionarios e informática
Bloque 2: Fuentes y corpus

Para el objetivo actual de caracterizar cuantitativamente el vocabulario del Corpus 92, el


lematizador y el etiquetador permiten obtener cuantificados los lemas y las categorías
gramaticales de cada apartado del corpus, lo que es informativo en sí mismo. En el Corpus 92 hay:

Totales Comunes Humanidades Ciencias


Nombres 6.944 (54,3%) 27.367 35.711 23.133
Verbos 1.937 (15,1%) 19.800 19.244 13.425
Adjetivos 2.773 (21,7%) 11.291 14.434 10.575
Adjetivos verbales 402 (3,1%) 1.072 1.316 831
Adverbios 491 (3,8%) 6.809 6.795 3.650
(12.547) (66.339) (77.500) (51.614)

Los porcentajes de los totales están hechos sobre la cantidad de lemas dada al comienzo, 12.775
lemas. El resto son unidades de inventario cerrado, determinantes, pronombres, preposiciones y
conjunciones, que también pueden contabilizarse aunque aquí no se atiendan. Las frecuencias se
pueden establecer pues por forma, por lema y por categoría gramatical de los lemas.

1.3. Datos de uso: frecuencia y dispersión

Los cálculos de frecuencias absolutas de todo el Corpus 92 y de frecuencias absolutas por cada
uno de los tres apartados no agotan la caracterización cuantitativa del vocabulario hecha con estos
recursos. Una vez lematizado y etiquetado por categorías y subcategorías gramaticales, el
vocabulario del Corpus 92 permite otras caracterizaciones descriptivas que pueden tener interés.
Se ha advertido que las frecuencias absolutas no son datos siempre informativos, especialmente
en corpora pequeños y especializados. Los estudios cuantitativos del vocabulario han buscado la
matización y el refinamiento de estos datos absolutos.

A la pregunta ¿qué lemas son los más útiles, los más necesarios, los más usados en este tipo de
discurso escrito?, no le conviene una respuesta que tenga sólo en cuenta los datos de frecuencia,
pues todo hablante intuye que energía y electricidad tienen una frecuencia mucho mayor si se está
hablando de Física que si se habla de política, temas sociales o culturales. Los datos, por ejemplo,
que ofrece el recuento de estas dos unidades en el Corpus 92 son los siguientes:

CO HU CI
energía_n ( 291: 89/ 13/ 189/): 0.358 - 104.04
electricidad_n ( 16: 0/ 8/ 8/): 0.482 - 7.71

- energía_n 291 * 0.358 * 104.04


89 13 189 291
· energía 89 13 188 290
· energías 0 0 1 1

- electricidad_n 16 * 0.482 * 7.71


0 8 8 16
· electricidad 0 8 8 16

En los datos aquí representados, sobresalen los empleos de estas dos unidades en el supcorpus
de Ciencias, aunque se encuentran también algunos empleos en los otros apartados; energía
aparece con bastantes empleos en el apartado de Comunes y electricidad tiene la misma
presencia en el apartado de Humanidades que en el de Ciencias.

De manera que hay que introducir algún mecanismo para ajustar la repuesta intuitiva, que
impulsaba a contestar que energía y electricidad eran voces de Ciencias, a otra formulación como
¿qué voces son más útiles?

8
Diccionarios e informática
Bloque 2: Fuentes y corpus

Las frecuencias absolutas de cada voz son fáciles de contabilizar mecánicamente, pero ya se ha
señalado que la riqueza de lemas varía entre los apartados y que para tener calibrado el peso de
cada unidad en la competencia lingüística de los estudiantes y, por tanto, para aplicarlo después a
la enseñanza del discurso académico, conviene precisarlo con otros mecanismos correctivos.

No pueden tener la misma exigencia de saber ser usadas, desde el punto de vista de la
competencia lingüística, situación y elaborar que energía y electricidad, aunque presenten unas y
otras parecida frecuencia en el recuento simple por frecuencias absolutas del Corpus 92, porque
estas últimas tienen una presencia más homogénea en los tres apartados de este corpus:

CO HU CI
situación_n ( 270: 138/ 130/ 2/): 0.607 - 163.83
elaborar_v ( 18: 9/ 5/ 4/): 0.746 - 13.42

- situación_n 270 * 0.607 * 163.83


138 130 2 270
· situación 120 116 2 238
· situaciones 18 14 0 32

- elaborar_v 18 * 0.746 * 13.42


9 5 4 18
· elabora 3 1 1 5
· elaboran 0 2 0 2
· elaborar 6 0 3 9
· elabore 0 1 0 1
· elaboró 0 1 0 1

Equiparar ingenuamente frecuencia absoluta y conveniencia de establecer en función de ella las


unidades de la nomenclatura de un diccionario, por ejemplo, llevaría a un grueso error de
estrategia, como se ha ejemplificado aquí con el ejemplo de energía y electricidad frente a
situación y elaborar. Estas últimas están presentes en todos los apartados; energía y electricidad
son más irregulares en su dispersión.

El vocabulario del Corpus 92 se ha trabajado con la metodología utilizada por Juilland para
caracterizar el vocabulario de las lenguas románicas y concretamente la del español (Juilland-
Chang Rodríguez 1964). Juilland establecía que había que tener en cuenta las frecuencias
absolutas en función de su dispersión, es decir añadía un mecanismo relativizador del uso que se
hace de ellas al cómputo de frecuencias absolutas de las unidades, según la frecuencia esté
restringida en ciertas circunstancias o no. Por dispersión entendemos la constatación de que las
voces aparezcan empleadas en diferentes situaciones; y en concreto para los efectos del
vocabulario académico que se busca en este estudio, que estén presentes en los tres apartados
del Corpus 92.

Como el objetivo principal del estudio del Corpus 92 es conocer el uso del discurso académico con
el fin de poder establecer una enseñanza racional y efectiva de ese tipo de discurso, en esta
investigación se ha buscado aquilatar las voces que presentan un uso más extendido (dispersión),
no sólo muchos empleos (frecuencia). Así tendría que hacerse también para establecer la
nomenclatura de un diccionario. Esta es la razón por la que se han tenido en cuenta los datos de
frecuencia que cada lema obtiene en la división del corpus por sus tres apartados, Comunes,
Humanidades y Ciencias; y no solo en el total del Corpus.

Para el corpus de español que Juilland formó, los subapartados estaban constituidos por géneros
literarios (narración, teatro, ensayo, etc.). En el estudio del Corpus 92 se establecieron tres
apartados por afinidad de materias (Filosofía y Comentario de texto; Historia Contemporánea,
Historia del Arte, Literatura; Biología, Geología, Química, Física y Matemáticas) que coincidían con

9
Diccionarios e informática
Bloque 2: Fuentes y corpus

los tipos de pruebas en las PAAU en 1992 (prueba común: Comunes; y pruebas específicas:
Humanidades y Ciencias).

Estas tres subagrupaciones o apartados permiten matizar las frecuencias absolutas y obtener un
coeficiente de dispersión. La dispersión tiene en cuenta el número de empleos en cada apartado
de una voz, o la ausencia de empleos de esa misma voz en el resto de apartados. La dispersión se
aprecia bien en las voces que la tienen muy homogénea, pues, aunque tengan baja frecuencia,
presentan el mismo índice de dispersión; véase por ejemplo lemas que presentan dispersión
regular:
CO HU CI
acoplar_v ( 3: 1/ 1/ 1/): 0.883 - 2.65
adherir_v ( 3: 1/ 1/ 1/): 0.883 - 2.65
antecedente_n ( 3: 1/ 1/ 1/): 0.883 - 2.65

salto_n ( 6: 2/ 2/ 2/): 0.883 - 5.30


total_n ( 6: 2/ 2/ 2/): 0.883 - 5.30

diez_e ( 11: 4/ 5/ 2/): 0.874 - 9.62


seno_n ( 11: 4/ 5/ 2/): 0.874 - 9.62

Y confróntese con otros lemas de la misma frecuencia y dispersión irregular:

CO HU CI
cromático_j ( 3: 0/ 2/ 1/): 0.467 - 1.40
discrepancia_n ( 3: 0/ 2/ 1/): 0.467 - 1.40
eólico_j ( 3: 0/ 2/ 1/): 0.467 - 1.40

disfunción_n ( 6: 5/ 0/ 1/): 0.211 - 1.26


liberar_h ( 6: 5/ 0/ 1/): 0.211 - 1.26

anatomía_n ( 11: 0/ 11/ 0/): 0.097 - 1.06


arquitrabe_n ( 11: 0/ 11/ 0/): 0.097 - 1.06

Estos últimos reciben un coeficiente de dispersión más bajo y por ello se encuentran colocadas en
un rango inferior. Son voces menos generales, presentan una dispersión irregular.

La dispersión es independiente de la frecuencia. El uso, por el contrario, está condicionado por la


frecuencia

Se llama uso a la relación proporcional entre la frecuencia total de un lema y sus frecuencias en
cada apartado establecido del corpus, para lo que se tiene en cuanta también, en el caso del
Corpus 92, la diferencia de número de formas de cada apartado, dado que por su método de
constitución no son equivalentes en número de formas.

Ello se puede apreciar en ejemplos que presentan la misma frecuencia y diferente dispersión, lo
que hace cambiar el índice de uso:

CO HU CI
salvar_h ( 11: 3/ 4/ 4/): 0.849 - 9.34
descansar_v ( 11: 2/ 6/ 3/): 0.739 - 8.13

esencialmente_d ( 6: 2/ 3/ 1/): 0.828 - 4.97


coordinación_n ( 6: 1/ 3/ 2/): 0.744 - 4.46

adolescente_j ( 3: 1/ 2/ 0/): 0.540 - 1.62


aburrir_h ( 3: 2/ 1/ 0/): 0.476 - 1.43

10
Diccionarios e informática
Bloque 2: Fuentes y corpus

El método que establecieron Juilland y Chang-Rodríguez (1964) tenía en cuenta la frecuencia total
de una voz en su corpus y las frecuencias desglosadas en los subapartados que se habían
determinado en el corpus del que partían, lo que mostraba la dispersión que dicha voz tenía en el
conjunto del corpus.

Para acercarse mejor a lo que seleccionarían jueces expertos como vocabulario que los aspirantes
a la Universidad han de conocer o que profesores cuidadosos consideraran conveniente para
establecer una enseñanza racional del discurso especializado con fines académicos y hacerlo de
una manera objetiva, se ha tratado el Corpus 92 siguiendo, como se ha dicho, el método de
Juilland y Chang-Rodríguez (1964). Nos hemos ayudado también de una de las últimas
aplicaciones que se ha hecho de él, el tratamiento del corpus del catalán contemporáneo, a partir
de lo expuesto por J. Rafel en los trabajos del Institut d‘Estudis Catalans (Rafel 1996: XLV-LIX).

A la frecuencia absoluta f (número total de empleos por lema en el corpus, dado en números
absolutos), se añadió la frecuencia relativa f/F (el producto de la división entre frecuencia absoluta
de empleos por lema partido por el número total de palabras del corpus F). Además la dispersión D
representa la presencia de empleos de un lema en los diferentes apartados establecidos en el
corpus. La dispersión puede mostrarse regular o no entre los subapartados del corpus.

Según lo que se ha expuesto, la frecuencia ponderada con la dispersión asigna a cada lema un
índice que es llamado de uso, el cual permite luego listar el conjunto de lemas obtenido según este
índice; en orden decreciente, del más alto al menor. Cuanto más homogénea sea la dispersión de
una voz y por tanto su presencia en los tres apartados sea más regular en relación al número de
formas totales de cada apartado, más alto será el coeficiente de uso. Es básico pues en estos
cálculos determinar la dispersión.
9
Con estos presupuestos y con estas decisiones se ha aplicado la fórmula de Juilland para
determinar el índice de dispersión D a cada lema:

V
D 1 donde V n
,
n 1 Fri
i 1

n
n
2 i 1
( Fri Ft i ) 2
n
Nro.Lemasi
y Ft i Fri n
i 1
Nro.Lemasi
fórmula en la que se han establecido las siguientes invariantes y los siguientes valores:

V coeficiente de variación
desviación estándar de estas frecuencias
Fr frecuencia real o absoluta
Ft frecuencia teórica o relativa
n número de subconjuntos, 3 subcorpus o apartados

9
Se ha usado la fórmula indicada en Rayson 2003, según la adaptación indicada en el Diccionari de
freqüències del IEC. Debemos tener en cuenta que en la formula original de Juilland existe una condición para
la aplicación de esta fórmula: todos los corpora deben tener igual tamaño. Aunque la adaptación antes
mencionada busca superar esta restricción, en Porta et al. (2003) se indica que el índice no está acotado
entre 0 y 1 sino entre – y 1 sin alterarse por ello la interpretación de la medida.

11
Diccionarios e informática
Bloque 2: Fuentes y corpus

El valor de dispersión varía entre 0 y 1. A medida que este valor se aproxima a 1, mejor se puede
decir que la palabra estudiada se distribuye equitativamente entre los apartados establecidos. La
dispersión será 1 cuando la frecuencia en los tres subcorpora es igual; por ejemplo:

Lema Frecuencias Dispersión - Uso


observar_v ( 200: 66/ 83/ 51/): 0.976 - 195.25
de_p (22337:7230/ 8852/ 6255/): 0.975 - 21768.74
estabilidad_n ( 10: 3/ 4/ 3/): 0.937 - 9.37
hombre_n ( 563: 376/ 134/ 53/): 0.503 - 283.30
atravesar_v ( 16: 1/ 6/ 9/): 0.503 - 8.04
poema_n ( 175: 0/ 175/ 0/): 0.097 - 16.91
altruismo_n ( 1: 0/ 1/ 0/): 0.097 - 0.10

Una vez determinada la dispersión se pudo calcular el uso (U = F x D). El uso pone en relación la
frecuencia absoluta y la dispersión, calculada a través de su coeficiente, lo que da un índice que
calibra de una forma más equilibrada el peso que tiene un lema en el total del vocabulario presente
en el corpus. Si la determinación del uso tal como se ha expuesto es acertada, el índice de uso es
10
más informativo que las frecuencias absolutas .

2. Diccionario de frecuencia y dispersión del vocabulario del Corpus PAAU 1992 y Listado
de uso del vocabulario del Corpus PAAU 1992

En el CD Rom que presenta los datos del Corpus 92 se incluyen dos diccionarios: a) uno, el
Diccionario de frecuencia y dispersión del vocabulario del Corpus PAAU 1992, diccionario
alfabético por lemas con todas las informaciones de categoría gramatical, frecuencia absoluta por
lema y por formas, en el total del Corpus 92 y en cada apartado, el coeficiente de dispersión
obtenido con la fórmula transcrita y el índice de su uso; y b) otro segundo, Listado de uso del
vocabulario del Corpus PAAU 1992, que es una lista en orden decreciente por índice de uso, que
responde a los resultados de los cálculos explicados.

El primero, Diccionario de frecuencia y dispersión del vocabulario del Corpus PAAU 1992, puede
ser consultado palabra a palabra, salteadamente, y las informaciones que proporciona ofrecen, por
su ordenación alfabética, una lectura de datos exactos, particularizada para cada lema. El segundo
permite una consulta seguida, es informativo en su continuidad, en la cercanía o alejamiento que
presentan los lemas en la serie ofrecida; sin embargo, el dato del ranking de uso, es decir, la
ordenación ofrecida, está sometida a la aceptación del cálculo de la dispersión que se ha
explicado.

Con el objetivo de conocer el vocabulario de la lengua española utilizado en las pruebas de acceso
a la Universidad, la caracterización del vocabulario recogido está delimitado: a) a un tipo de
discurso escrito sobre temas académicos de la Enseñanza Secundaria, b) a un tipo de hablantes
muy homogéneo como son los aspirantes a universitarios, c) en un área geográfica circunscrita a
seis ciudades de la península, d) en un tiempo acotado a unos días de la segunda mitad de junio
del año 1992. Su representatividad es esta sola; aunque, por diferentes circunstancias y fines,
pueda proyectarse a otros supuestos.

La pretensión de representación de los datos ofrecidos aquí no es en absoluto generalizable a la


lengua española, sino particular al tipo de discurso exclusivo y delimitado que presenta el Corpus
10
Hay discusión sobre la fórmula y la representación de las variables. Se discute el índice de uso que no está
acotado pues varía entre () —- 1—)y por tanto puede tener valores negativos, como ocurre con los lemas
votante y televisión. En esta ponderación, y en la esfera limitada a lo contenido en el Corpus 92, conviene
aclarar que datos que presentan el mismo coeficiente de dispersión (en el ejemplo –0.002), se matizan en el
uso por el peso de su frecuencia y adquieren diferente índice de uso –0.00 y –0.29, lo que les hace estar a
una distancia considerable en el ranking de uso, siempre relativo al Corpus 92:
votante_n ( 1: 1/ 0/ 0/): -0.002 - -0.00
televisión_n ( 157: 157/ 0/ 0/): -0.002 - -0.29

12
Diccionarios e informática
Bloque 2: Fuentes y corpus

PAAU 1992. Por tanto este estudio se separa de los estudios sobre vocabularios básicos en que
no ofrece un vocabulario general de la lengua española.

2. Comparaciones con otros recuentos

El Diccionario de frecuencia y dispersión del vocabulario del Corpus PAAU 1992 y el Listado de
uso del vocabulario del Corpus PAAU 1992 permiten hacer observaciones no solo cuantitativas,
sino también descripciones cualitativas del vocabulario del Corpus 92.

W. Patterson y H. Urutibéheity (1975) estudiaron cuantitativamente el vocabulario de 5.000 lemas


establecido por Juilland y Chang-Rodríguez (1964) desde unos cuantos parámetros y por
conjuntos formados de 500 posiciones según el uso en su correlación decreciente. Se fijaron en las
categorías oracionales, el número de sílabas que las unidades ofrecían (sólo estudiaron palabras
gráficas univerbales), los patrones acentuales de los lemas, la distribución de frecuencias, la
genealogía de las voces a partir de su étimo y el siglo en que por primera vez se documentan en la
lengua española. Algunos de estos resultados son discutibles en función de la información
11
manejada para determinarlos ; pero la descripción que logran de las características del
vocabulario del español en estos parámetros es muy informativa.

Algunos primeros datos comparables entre las 5000 voces de Juilland y Chang-Rodríguez (1964) y
las 5000 primeras voces del Vocabulario del Corpus 92 son, por ejemplo, el empleo de las
categorías verbales entre los dos recuentos, si establecemos que el índice de uso 0.40 del
tratamiento dado al vocabulario del Corpus 92, equivale a los 5000 lemas seleccionados por
Juilland y Chang-Rodríguez, que son los tratados por Patterson y Urrutibéheity. Helos aquí:

5000 lemas en orden decreciente


Juilland y Chang-Rodríguez (1964) de uso en el Vocabulario del
Corpus 92
(índice de uso 0.40)
Nombres 2530 2289
Adjetivos 1199 955
Verbos 954 938
Adverbios 181 249

Patterson y Urrutibéheity (1975) observaron que, al cuantificar las frecuencias absolutas de estas
cuatro categorías, se adelanta el verbo con 56.112 empleos, seguido de los sustantivos con 54.781 y
siguen luego los empleos de los adjetivos con 36.739 empleos. A todos ellos adelantan naturalmente
las preposiciones con 67.934 empleos por la diferencia entre la selección abierta de las unidades
propiamente léxicas y la selección limitada entre las unidades gramaticales de inventario cerrado. Para
el Corpus 92 interesan, como se ha dicho, las categorías propiamente léxicas.

12
Patterson y Urutibéheity (1975) utilizan también el rango en que las voces aparecen por orden
decreciente de uso y desglosan estos análisis cada 500 posiciones (conjuntos de rangos 1-500,
501-1000, etc.). La observación en conjuntos de 500 palabras en orden de frecuencia o de uso, fue
algo estipulado en los trabajos de Thorndike y Lorge (1938 y 1944) para el vocabulario escolar del
inglés norteamericano.

11
Es muy discutible la información sobre su fecha de incorporación a la lengua española, que hoy por hoy no
está bien establecida para muchas de las 5.000 unidades determinadas en el diccionario de Juilland y Chang-
Rodríguez (1964).
12
Rango es un concepto establecido por Zipf (1949) que representa el ordinal que el lema o la voz adquieren
al ser clasificados por orden decreciente; en el caso de Zipf por orden decreciente de frecuencias. Los
conjuntos de 500 posiciones correlativas por frecuencias fueron utilizados también por Thorndike y Lorge
(1938 y 1944).

13
Diccionarios e informática
Bloque 2: Fuentes y corpus

Siguiendo este método, Patterson y Urutibéheity contabilizan, por ejemplo, el número de nombres
sustantivos entre los primeros 500 lemas, que son 175, y en los segundos 500 lemas (rangos 501-
1000) que crece hasta 248, lo que es totalmente explicable pues los primeros rangos están
ocupados por voces gramaticales, de inventario cerrado, y verbos auxiliares o soporte. En el
segundo conjunto se cuentan 248 sustantivos, 130 verbos, 93 adjetivos y 22 adverbios. Los
sustantivos se mantienen después regularmente entre los conjuntos de 500 rangos. Por el contrario,
los verbos alcanzan su máxima presencia en el segundo conjunto, y luego descienden suavemente,
los adjetivos por el contrario van subiendo gradualmente y alcanzan 156 lemas entre los 4500 y los
5000 rangos, es decir, al final del vocabulario seleccionado por Juilland como usual en el español que
él analizó. Los adverbios se mantienen sobre los 15 lemas en todos los conjuntos menos en el sexto
(de 2500-3000) en que bajan a 7 lemas.

El vocabulario del Corpus 92 ofrece ahora posibilidad de ser tratado con la metodología de
Patterson y Urutibéheity (1975) en alguno de sus aspectos, si interesara. Los lemas según
categoría entre los primeros 5000 rangos son, como se ha visto, comparables. En el Corpus 92
bajan relativamente los lemas de sustantivo y de adjetivo, lo que es esperable en el discurso
escrito de los no expertos; se mantiene el número de lemas verbales (954 y 938) y se incrementa
considerablemente el de adverbios (181 y 249).

También este vocabulario de textos académicos permite complementar los vocabularios recogidos
en los estudios de disponibilidad léxica que se vienen haciendo en español, principalmente con la
13
metodología de López Morales (1995, 1999) , pues sus resultados son contrapuestos y
complementarios.

La recogida del vocabulario disponible en los varios dialectos del español en que se está
realizando (López Morales 1999) y el tratamiento cuantitativo del Vocabulario del Corpus 92 nacen
de una misma preocupación, la enseñanza de la lengua materna; aunque responden a dos
objetivos bien diferentes: en uno la determinación de un vocabulario ‗fundamental‘, aplicable a la
programación y al syllabus de la enseñanza de la lengua materna; y en otro, el conocimiento del
nivel de competencia real de la lengua escrita con fines académicos, al final de los estudios
preuniversitarios en la variedad estándar española.

El vocabulario recogido en el Corpus 92 es de lengua escrita y se recoge del discurso escrito que
producen los estudiantes aspirantes a la Universidad española. La gran mayoría de estudios sobre
disponibilidad léxica en español también se han hecho en este nivel de edad y de escolarización, el
Curso de Orientación Universitaria.

El vocabulario del Corpus 92 se recoge de un conjunto de 700 textos, lo que permite decir que sus
informantes son también unos 700 estudiantes. Los vocabularios disponibles se recogen entre un
número variable de estudiantes; el modelo de estos estudios, el Léxico disponible de Puerto Rico
(López Morales 1999) cuestionó a 558 informantes.

El vocabulario del Corpus 92 recoge mayor número de unidades léxicas, más formas, 356.868, y
más lemas, 12.775. El estudio más completos de estos, el Léxico disponible de Puerto Rico (López
Morales 1999) trabaja con 107.276 palabras sin contextualización discursiva, que dan 7.311 lemas
(tratados como vocablos).

El vocabulario del Corpus 92 presenta menos repetición y más variedad que los vocabularios
disponibles. Los vocabularios disponibles atienden a la repetición y a la coincidencia de unidades
aportadas en las pruebas, dato fundamental en su tratamiento cuantitativo, junto al orden en que
esas voces se ofrecen.

13
Para una completa explicación de la metodología y el recorrido que ha seguido su perfeccionamiento, véase
López Morales 1999.

14
Diccionarios e informática
Bloque 2: Fuentes y corpus

El vocabulario del Corpus 92 presenta, por estar recogido del discurso real escrito, toda la variedad
de categorías gramaticales que la lengua tiene. Los vocabularios disponibles ofrecen
mayoritariamente sustantivos y en mucha menor proporción, verbos y adjetivos.

Los vocabularios disponibles buscan ―la norma léxica general de la comunidad‖ (López Morales
1999: 28) sobre ‗centros de interés‘ muy convencionales, siguiendo la línea de Gougenheim et al.
(1956). El vocabulario del Corpus 92 pretende representar el vocabulario usual en la exposición del
conocimiento, es decir, otra norma mucho más específica circunscrita al mundo académico y
delimitada a las materias demandadas en las pruebas de Selectividad.

Los vocabularios disponibles recogen datos sociolingüísticos (sexo, clase social, edad, lugar de
origen, nivel de estudios paternos) de los informantes. Desde los estudios de vocabulario
disponible se ha abordado recientemente también la perspectiva del paso a la Universidad de los
encuestados (Borrego y Fernández Juncal 2003), lo que puede ser informativo de los cambios
entre una y otra situación académica y lo que introduce una variable de edad, al tener datos de la
situación previa. La recogida de datos en los trabajos de vocabulario disponible está sirviendo hoy
día como fuente de estudio de variedades diatópicas y diastráticas de la lengua española (López
Morales 1999:19).

El vocabulario del Corpus 92 pretende representar un conjunto suficientemente homogéneo, al ser


extraído de las mismas pruebas de exámenes de la misma convocatoria en seis universidades
españolas, relativamente distantes, en las mismas fechas, y no requirió datos sociolingüísticos, al
ser anónimos y recogidos a posteriori.

El tratamiento que ha recibido el vocabulario del Corpus 92 le dispone para el cálculo de


probabilidades en el procesamiento de la lengua por medios tecnológicos. El procesamiento de la
lengua por medios tecnológicos necesita datos que puedan ser aplicados a fines específicos
acotados. El Vocabulario del Corpus 92, tratado informáticamente, puede representar un
vocabulario de uso por defecto, dado lo convencional y elemental de su redacción, con el que
comparar el vocabulario de textos en sus diferentes grados de especialización, alta investigación o
divulgación de diferente grado. Ofrece la posibilidad de calcular también porcentajes de uso para
desambiguadores de textos de estas características.

El vocabulario ofrecido del Corpus 92 se muestra pues útil para cuestiones lingüísticas como el que
establecen los cálculos de frecuencias y para cuestiones didácticas como el que establecen los
estudios de vocabulario disponible en niveles educativos de final de Secundaria. Sin alejarse de su
principal objetivo, que es conocer la competencia escrita de los estudiantes preuniversitarios y
mejorar la enseñanza del texto escrito académico en niveles de enseñanza secundaria, el
tratamiento informatizado que ha recibido el vocabulario del Corpus 92 puede permitir también el
tratamiento de pruebas para catalogar la riqueza y variedad de vocabulario, enfocar con precisión
la enseñanza de este tipo de textos específicos, su introducción en programas de redacción por
medios informáticos, etc. El conocimiento real del uso de vocabulario en los estudiantes al final del
Bachillerato que representa puede, sin pretenderlo, convertirse en norma de referencia para
evaluación.

Referencias bibliográficas

Alvar Ezquerra, A. (1974). ―Los diccionarios de frecuencia en español‖. Boletín de la Asociación


Europea de Profesores de Español 10. 3-27.
Alvar Ezquerra, A. (1977). ―Los diccionarios de frecuencia en español‖. Boletín de la Asociación
Europea de Profesores de Español 16. 43-54.
Bach, C.; Saurí, R.; Vivaldi, J.; Cabré, M. T. (1997). El Corpus de l’IULA: descripció. Barcelona, Papers
de l‘IULA, IULA-UPF.

15
Diccionarios e informática
Bloque 2: Fuentes y corpus

Borrego, J.; Fernández Juncal, C. (2003). ―¿En qué cambia la universidad la disponibilidad léxica de
los preuniversitarios?‖. En Moreno Fernández, F. et al. (coords.). Lengua, variación y contexto,
Estudios dedicados a Humberto López Morales. Madrid: Arco Libros. I, 167-178.
Buchanan, M. A. (1927). A graded Spanish word Book. Toronto.
Cosette, A. (1994). La richesse lexicale et sa mesure. París: Honoré Champion.
García Hoz, V. (1953). Vocabulario usual, vocabulario común y vocabulario fundamental. Madrid:
CSIC.
Gorosch, M.; Pontoppidan-Sjöval, K. (1966). Centrala Ordforradet Spanskan. Estocolmo: Almqwist &
Wiksell.
Gougenheim, G., Michéa, G.; Rivenc, R.; Sauvageot, A. (1956). L'élaboration du français élementaire.
Étude sur l’établissment d’un vocabulaire et d'une grammaire de base. París: Didier.
Halm, W.; Barrera Vidal, A. (1973). Spanisher Mindestwortschatzz. München: Hueber.
Herdan, G. (1964). Quantitative Linguistic. Londres: Butterworth.
Herdan, G. (1966). The Advanced Theory of language as choice and chance. Berlín: Springer.
Juilland, A; Chang Rodríguez, E. (1964). Frecuency dictionary of Spanish Words. La Haya: Mouton,
Keniston, H. (1941). A Standard List of Spanish Words. Lexington: Heath and Company.
López Morales, H. (1999). Léxico disponible de Puerto Rico. Madrid: Arco Libros.
Mackey, W. C. (1971a). Le vocabulaire disponible du français. 2 vols. París: Didier.
Mackey, W. C. (1971b). Le sondage dans les enquêtes de disponibilité. Québec: CIRB.
Márquez Villegas, L. (1975). Vocabulario del español hablado. Madrid: SGEL.
Ministerio de Educación y Ciencia (1989). Vocabulario Básico en la EGB. Madrid: Espasa Calpe.
Michéa, R. (1953). ―Mots fréquents et mots disponibles: un aspect nouveau de la statistique du
langage‖. Les Langues Modernes 47. 338-344.
Mighetto, D. (1983). Palabras gráficas españolas; lista y frecuencias en prensa española 1977,
Göteborg: Institutionem for Romanskce Spräk. 4 vols.
Morel, J.; Torner, S.; Vivaldi, J.; De Yzaguirre, L.; Cabré, M. T. (1997). El corpus de l’IULA: Etiquetaris,
Barcelona: Papers de l‘IULA, IULA-UPF.
Müller, C. (1968). Initiation à la statistique linguistique. París: Larousse.
Ogden, K. C. (1930). Basic English. A General Introduction. Londres: Kegan Paul, Trench and Trubner.
Ogden, K. C. (1968). Basic English. International Second Language. Nueva York: Harcourt Brace.
Patterson, W.; Urutibéheity, H. (1975). The Lexical Structure of Spanish. La Haya: Mouton.
Pujol, M.; Tuells, A.; Vivaldi, J.; De Yzaguirre, L.; Cabré, M. T. (1998). ―IULA‘s LSP Multilingual
Corpus: compilation and processing‖. Actas del First International Conference on Language
Resources and Evaluation (LREC'98).
Rafel, J. (1996). Diccionari de freqüències, 1 Llengua no literaria. Barcelona: Institut d‘Estudis
Catalans.
Richard, I. A. (1943). Basic English and its uses. Londres: Kegan Paul.
Richard, I. A. (1970). ―A psycolinguistic measure of vocabulary selection‖. IRAL 8 (2). 87-102.
Rodríguez Bou, L. (1952). Recuento de vocabulario español. Río Piedras: Universidad de Puerto Rico.
Thorndike, E. L.; Lorge, I. (1938). A Semantic Count of English words. Nueva York: Columbia
University Press.
Thorndike, E. L.; Lorge, I. (1944). The Teacher’s Wordbook of 30.000 words. Nueva York: Columbia
University Press.
Vivaldi, J.; De Yzaguirre, L.; Solé, X.; Cabré, M. T. (1996). Marcatge estructural i morfosintàctic del
Corpus Tècnic amb l’estàndard SGML. Barcelona: Papers de l‘IULA, IULA-UPF.
West, M. (1953). A General ServiceLlist of English Words. Londres: Longman.
West, M. (1960). Minimun Adequate Vocabulary. Londres: Logman.
Zipf, G. K. (1949). Human Behavior and the Principle of Least Efforc. Cambridge: Addison Wesley
Press Inc.

16

También podría gustarte