Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Dialnet ElBancoDeDatosDeLaRAE 2210249 PDF
Dialnet ElBancoDeDatosDeLaRAE 2210249 PDF
E l Banco de Datos de la Real Academia Española está constituido por dos grandes
corpus: el Cor pus de Referencia del Español Actual ( C R E A ) y el Cor pus Diacróni-
co del Español ( C O R D E ). Ambos conjuntos son complementarios, de manera que el
C R E A contiene textos pertenecientes a los últimos treinta años de historia del español,
mientras que el C O R D E se ocupa de todo lo demás. El carácter integrado de ambos
corpus se refleja en la previsión de que los textos pertenecientes a períodos que, por
el paso del tiempo, vayan quedando fuera del ámbito de C R E A pasarán a formar parte
de C O R D E .
Los corpus que integran el Banco de Datos constituyen la principal fuente de
documentación de la que se sirve el Instituto de Lexicografía de la Real Academia
Española para preparar los materiales que se discuten en Comisión y argumentar,
de este modo, las propuestas. Entre otras fuentes, el Banco de Datos ha servido para
la redacción de los últimos trabajos de la Real Academia Española: tanto el Dicciona-
rio del Estudiante como el Diccionario Panhispánico de Dudas, o más recientemente,
el Diccionario Esencial
Esencial, o la futura Nueva Gramática de la Lengua Española, incorpo-
ran ejemplos de uso real de la lengua española extraídos del Banco de Datos, princi-
palmente del C R E A .
Un corpus es un conjunto de textos seleccionados y ordenados de acuerdo con
una serie de criterios lingüísticos explícitos, de modo que pueda utilizarse como
muestra de una lengua. Hace ahora unos cuarenta años comenzó el desarrollo de
la lingüística de corpus, en oposición a la aproximación racionalista basada en la in-
trospección. En los años , los primeros corpus, los corpus de primera generación,
tenían un tamaño aproximado de un millón de palabras. Los textos que lo formaban
se introducían manualmente. Hacia los ochenta se desarrollaron corpus de segunda
generación: el C O BU I L D o el Longman-Lancaster ya tenían muchos más millones de
palabras y además ya se introducían los textos a través de escáneres y con programas
de Reconocimiento Óptico de Caracteres; en la actualidad se construyen y explotan
corpus como el Bank of English o el British Nacional Corpus, formados por cientos
de millones de palabras.
P E R A B BAT ( )
Un corpus puede entenderse como una biblioteca organizada, ordenada por ma-
terias, por zonas geográficas, por fecha, en cuyos textos podemos encontrar la forma
buscada perfectamente documentada: es la ficha de trabajo, la papeleta léxica, en la
que a la palabra acompaña, por completo, su referencia bibliográfica. Los textos que
forman parte de esa biblioteca se seleccionan siguiendo una serie de criterios, median-
te la distribución equilibrada entre España y América; entre lengua escrita y lengua
oral, entre libros y prensa, novelas y libros de ciencia… Todo ello permite diseñar un
programa informático capaz de realizar búsquedas seleccionando la información.
En la Historia de la Real Academia Española, don Alonso Zamora Vicente se re-
fiere a los corpus y sus aplicaciones con estas palabras:
E l b a n c o d e d a t o s d e l a A c a d e m i a e s, h o y p o r h o y, l a ú n i c a h e r r a m i e n t a
lingüística de g ran magnitud existente para nuestra lengua. No cabe duda,
p o r t a n t o, d e q u e h a b r á d e s e r e l p u n t o d e p a r t i d a f o r z o s o p a r a i n v e s t i -
g a c i o n e s d e d i v e r s o t i p o, a q u e l l a s e s t r i c t a m e n t e l é x i c a s, p e r o t a m b i é n d e
campos tan dispares como el de la publicidad, la ter minología, la sociolin-
g ü í s t i c a , e t c. , a s í c o m o p a r a l a e l a b o r a c i ó n d e u n a e n o r m e c a n t i d a d d e p r o -
d u c t o s d e r i v a d o s : g r a m á t i c a s, d i c c i o n a r i o s d e t o d o t i p o, m é t o d o s y s i s t e m a s
de didáctica del español, desarrollos infor máticos de traducción automática,
d i c c i o n a r i o s e l e c t r ó n i c o s, t e s a u r o s y c o r r e c t o r e s o r t o g r á f i c o s i n t e g r a d o s e n
p r o c e s a d o r e s d e t e x t o s, e t c.
LA N Ó M I N A D E AU T O R E S Y O B R A S D E L BANCO DE DATOS
. Consulta en C R E A : permite obtener datos relativos a los textos desde hasta
. La tipología de los textos que componen C R E A y C O R D E es diferente, tanto
temática como porcentualmente. En C R E A pueden obtenerse datos estadísticos, por
ejemplo, distribuidos al % entre España y América referentes a textos periodísticos
clasificados en política, o los registros procedentes de correos electrónicos, o, incluso,
de weblogs, cuadernos de bitácora de Internet que representan el material más reciente
del que da cuenta C R E A .
P E R A B BAT ( )
CR EA : C O R P U S D E R E FE R E N C I A D E L E S PAÑOL ACTUAL
El C R E A recoge las versiones electrónicas de textos producidos entre y ; es,
por tanto, un corpus electrónico de carácter sincrónico que sirve para mostrar ejem-
plos del uso real de la lengua española de los últimos años, tanto en España como en
América. Está formado por una amplia variedad de textos escritos y orales con gran
diversidad temática. En C R E A «conviven» un temario de oposiciones a enfermería
español, una obra sobre astrología, procedente de Uruguay, un manual de Informática
mexicano, la transcripción de la retransmisión de un partido de fútbol argentino o la
última novela de Gabriel García Márquez.
Características generales de C R E A
Puesto que C R E A pretende ser representativo del estado actual de la lengua, los
materiales que lo integran han sido seleccionados de acuerdo con los siguientes pa-
rámetros:
• Temático: cada uno de los tres grandes grupos de materiales («libros y prensa»,
«miscelánea» y «oral») se clasifica de modo independiente.
De los millones de formas que integran el C R E A , actualmente unos diez millo-
nes pertenecen a la parte oral. La incorporación de estos diez millones de formas se
distribuye en dos grupos completamente diferentes:
La búsqueda puede ser simple: en la línea de consulta escribimos, por ejemplo rap,
sin ninguna restricción por tema, lugar geográfico o medio. El sistema nos devuelve
un total de casos en documentos. La estadística nos permite observar que
se documenta por primera vez en , con un solo caso; en aparecen casos
y ya en . Cabe preguntarse sobre qué número de registros hemos realizado
nuestra consulta. Acudimos, para ello, a la nómina y vemos las estadísticas genera-
les. Queremos, además, saber cuántas palabras hay en el corpus correspondientes al
año . En la aplicación de la nómina escribimos «» en el criterio cronológico,
es decir, restringimos el número de registros por año. La estadística nos mostrará,
también, el medio del que proceden los registros. Con todo ello podremos determinar
la representatividad de rap y, después, en la aplicación de concordancias, seleccionar
ejemplos de uso.
La aplicación de nómina nos indica que se recogen .. registros del año
en el C R E A ; que unos dos millones proceden de América y el resto, de España,
y que provienen casi al % de textos de libros y prensa.
Por su parte, la aplicación de concordancias nos muestra ejemplos de uso; ahora
podemos restringir la búsqueda a libros de España de , pero podríamos seleccio-
nar prensa argentina o libros de música de Perú: eso lo haremos en los criterios de
selección. Recuperamos y seleccionamos, por ejemplo, esta concordancia que docu-
menta el uso de rap en libros procedentes de España y producidos en :
A s í q u e u n o e s p e r a q u e l o s n u e v o s r e b e l d e s h a g a n a l g o, m u e v a n e l c o t a -
r r o, l e s d e n m a r c h a a l o s d e a r r i b a , c o m o t ú h i c i s t e e n t u m o m e n t o. Y s í , l o
hacen, porque el rap no deja de ser una música de combate, el g rito deses-
p e r a d o d e l n e g r o q u e s e m u e r e e n e l g u e t o, p e r o. . . , e n t o n c e s v a l a i n d u s t r i a
y m e t e a l r a p e n l a d i s c o t e c a , y s a l e n h a s t a r a p e r o s b l a n c o s d e s c a f e i n a d o s.
( Jo r d i S i e r r a i Fa b r a , E l r e g r e s o d e Jo h n n y P i c k u p , M a d r i d : E s p a s a - C a l p e ,
).
Los corpus también pueden servir como banco de pruebas de hipótesis lingüísti-
cas; pueden realizarse búsquedas complejas y utilizar para ello operadores lógicos: por
ejemplo, la consulta «computadora o ordenador» nos devolverá todos los documen-
tos que contengan computadora u ordenador y comprobaremos el uso mayoritario
de «computadora» en América y «ordenador» en España.
CO R D E: C O R P US D I AC R Ó N I C O D E L E S PA ÑOL
Características generales de C O R D E
El Corpus diacrónico del español pretende ser un corpus representativo de la lengua es-
pañola a lo largo de la historia. Contiene diferentes variedades de textos distribuidos
cuantitativamente de forma proporcional para cada grupo establecido, en un intento
de recoger testimonios de todas la épocas y lugares en que se habló español, desde los
inicios del idioma hasta nuestros días.
El catálogo de obras que lo componen comprende títulos, de los que
son de autor anónimo y el resto corresponde a autores conocidos. Todo ello
supone, como ya hemos dicho, un total de más de millones de registros.
Las obras se han seleccionado siguiendo unos criterios muy concretos. En primer
lugar se introducen los textos en su integridad, incluyendo prólogos, aprobaciones,
tasas... Se han elegido aquellos considerados más representativos debido a su difusión,
a su influencia en obras posteriores o al uso que de ellos se ha hecho como apoyo de
autoridad en otras obras. Se prefieren las ediciones críticas o, en su defecto, buenas
ediciones anotadas, buenas transcripciones de un testimonio, aunque en determina-
das ocasiones no ha quedado más remedio que seleccionar la única edición existente.
Otro de los aspectos en el que se ha puesto especial cuidado ha sido la dimensión
lingüística del texto, la riqueza de vocabulario y su carácter divulgativo. Están, pues, en
el C O R D E , las grandes obras de la lengua española junto a otras que no se han vuelto
a editar desde su primera edición y que ahora se han digitalizado para el corpus.
Es importante advertir que el hecho de que la documentación del corpus sea escri-
ta no significa que sea exclusiva ni fundamentalmente literaria. Si se trata de recoger
la lengua general, hay que pensar que la literatura no es más que una parcela y no
necesariamente la más importante. Por tanto el C O R D E ha incluido la literatura como
uno más entre los apartados de la lengua escrita, pero sin desdeñar los documentos
o los textos científicos.
Sin perder de vista el aspecto temático, el C O R D E tiene una estructuración basada
fundamentalmente en criterios formales.
En primer lugar se da entrada al verso. Aunque conscientes de que el lenguaje poé-
tico es poco significativo para los estudios lingüísticos y por tanto tienen muy poca
P E R A B BAT ( )
presencia en los corpus sincrónicos, el período cronológico que abarca este corpus ha
obligado a su inclusión, ya que sin él se perdería gran parte de la literatura medieval y
clásica. El peso de los textos en verso se puede ver en la clasificación genérico-temá-
tica del corpus:
• Literarios ( %)
◦ Verso %
◦ Prosa narrativa %
◦ Prosa dramática %
• No literarios ( %)
◦ Didáctica %
◦ Ciencia y Técnica %
◦ Religión %
◦ Sociedad %
◦ Historia %
◦ Jurídica %
◦ Prensa %
. E DA D M E D I A (,%)
a. Orígenes–
b. –
. S I G L O S D E O RO (,%)
a. –
b. –
. É P O C A C O N T E M P O R Á N E A (%)
a. –
b. –
c. –
d. –
« d e x a t o d o s a q u é s t o s, t o m a d e n ó s s e r v i ç i o. »
L a s m o n j a s l e d i x i e r o n : « S e ñ o r, n o n a v r i a s v i ç i o :
son pobres bahar er os de mucho mal bolliçio;
s e ñ o r, v e t e c o n n u s c o, p r u e v a n u e s t r o c e l i ç i o. »
Por tanto, podríamos concluir que baharero parece significar «fanfarrón, embus-
tero»; es una palabra que nace en el siglo y llega hasta finales del , época en
la que desaparece para quedar tan solo en algunos diccionarios u obras de carácter
lexicográfico.