Está en la página 1de 4

El texto trata sobre la importancia de los corpus en los estudios diacrónicos de la lengua

española y cómo la llegada de los corpus informatizados ha cambiado la forma de trabajar en


algunos campos de la lingüística, incluyendo la lingüística diacrónica. El artículo evalúa varios
corpus útiles para el estudio diacrónico del español, con especial atención a los procesos de
gramaticalización, y se centra en los corpus diacrónicos de carácter general, como el CE de
Davies y CORDE, CREA y CORPES académicos. Aunque estos corpus son muy útiles para los
estudios históricos en español, se señalan algunos problemas y precauciones que se deben tener
en cuenta al utilizarlos.

El uso de corpus en los estudios de lingüística histórica es fundamental para comprender los
hechos lingüísticos de épocas pasadas. La utilización de corpus se ha mantenido a lo largo del
siglo XX, pero con el desarrollo de los medios informáticos, se han creado corpus
informatizados que ofrecen un conjunto de datos de gran interés para el estudio de la diacronía
del español. El acceso a un gran volumen de datos con un solo clic ha cambiado el modo de
enfrentarse a los estudios diacrónicos, lo que ha llevado en muchos casos a un retroceso en la
lectura directa y despojo manual del texto. Es importante señalar que existen distintos tipos de
corpus informatizados con distintas capacidades, y su utilidad será muy diferente en función de
su extensión, especialización, tipo de lematización y motor de búsqueda.

El texto describe la elaboración de distintos corpus informáticos que recogen textos de una
determinada diacronía y tipo. Estos corpus proporcionan un alto grado de fiabilidad en las
muestras que ofrecen y son muy útiles para estudios específicos sobre un determinado espacio
geográfico, cronológico o registro. Sin embargo, su utilidad está limitada a estos estudios
específicos y no son muy amplios en cuanto al número de textos que contienen. Los motores de
búsqueda que ofrecen son semejantes y útiles para la búsqueda léxica, pero menos para la
búsqueda gramatical. Los corpus que tienen mayor importancia para el estudio diacrónico son
los corpus generales, como el Corpus del Español de Davies y los corpus académicos como
CORDE y CDH, que recogen textos de todas las épocas del idioma y de distintos registros y
tipos muy variados de documentos. Estos corpus generales ofrecen una mayor rentabilidad para
el estudio diacrónico y son de gran utilidad para los investigadores.

El texto presenta una comparación entre diferentes corpus del español, incluyendo el Corpus
del español de Davies (CE), el CORDE académico, el CDH (Corpus del Nuevo diccionario
histórico del español), y los corpus académicos CREA y CORPES XXI. Se destaca que estos
corpus tienen un volumen mucho mayor de textos fichados, un registro temporal más amplio
desde el español medieval al moderno, y una variedad de tipos de textos mucho mayor. Estos
corpus son útiles para estudios históricos y permiten tener una visión más global y abarcadora
del estado de la lengua y su evolución a lo largo del tiempo. Además, se menciona la nueva
versión accesible en línea del Corpus del español de Mark Davies, que es el mayor corpus del
español disponible en la actualidad, pero tiene la limitación de estar constituido exclusivamente
por textos recogidos de la web en 2013-2014.

El texto aborda el uso de corpus diacrónicos, concretamente el CORDE, el CE y el CDH, en


estudios de carácter gramatical y sintáctico. Estos corpus presentan motores de búsqueda que
permiten realizar búsquedas complejas y ofrecen una lematización de las palabras que aparecen
en el corpus en función de su categoría gramatical. El CE es el que presenta una lematización
más detallada y flexible, lo que lo convierte en una herramienta poderosa para el estudio de
determinados hechos sintácticos. El CDH también incorpora una lematización, aunque no tiene
el mismo nivel de detalle que el CE, pero sí aumenta la capacidad de este corpus académico
para las búsquedas gramaticales. Por su parte, el CORDE presenta menos utilidad para algunos
estudios históricos de carácter gramatical, pero ofrece otras ventajas como su mayor volumen
de datos, la posibilidad de ofrecer los datos por países o la posibilidad de parcelar los períodos
cronológicos por años, frente a la posibilidad de hacerlo solamente por siglos que ofrece el CE.

El texto presenta una reflexión sobre la selección de textos y datos bibliográficos en la


elaboración de corpus lingüísticos, tomando como ejemplo algunos de los más grandes y
reconocidos en el ámbito del español, como el CORDE, el CDH o el CE. Se destaca que estos
corpus no siempre cuentan con transcripciones fiables de los textos, ya que estos son extraídos
de diversas fuentes y ediciones previas, lo que puede generar errores y omisiones en los datos.
Asimismo, se señala que la información bibliográfica y de contexto que acompaña a los textos
no siempre es precisa ni completa, lo que dificulta su uso para estudios lingüísticos y históricos.
En este sentido, se advierte sobre la importancia de revisar y contrastar los datos obtenidos en
estos corpus para evitar interpretaciones erróneas.

El texto hace referencia a posibles problemas que pueden surgir en la fiabilidad de los datos en
la interpretación y transcripción de ejemplos. En concreto, señala que estos problemas pueden
deberse a la digitalización incorrecta de una palabra o pasaje en los textos utilizados como
base. Como ejemplo, se menciona que algunos casos devueltos por el CORDE corresponden a
malas transcripciones, como el uso incorrecto de "inclusa" en lugar de "incluso" en un texto de
Forner. Además, se señala que algunos casos de "al igual que" en textos antiguos corresponden
en realidad a una errata por "al igual de".

El texto habla sobre las erratas encontradas en las ediciones digitalizadas del CORDE, un
corpus que recopila textos en español desde la Edad Media hasta la actualidad. A veces, estas
erratas o mala transcripción se encuentran en la edición base de la digitalización, y no siempre
es fácil detectarlas. Se ejemplifica el caso de la palabra "pronto", que se usaba como adjetivo
en el siglo XV y no como adverbio. El CORDE proporciona dos ejemplos del uso adverbial de
"pronto" en el siglo XV, pero en ambos casos se halla escrito en ellos "presto". Además, se
mencionan otros casos de erratas encontradas en las digitalizaciones de ciertos textos.

El texto habla sobre el uso de ediciones modernizadas en el Corpus Diacrónico del Español
(CORDE). En algunas ocasiones, el CORDE utiliza ediciones que modernizan el texto original,
lo que puede llevar a la inclusión de términos o construcciones que no existían en la época en
que se escribió el texto. Se da un ejemplo de cómo esto puede llevar a la inclusión de "sin
embargo" como conector contraargumentativo en textos antiguos, cuando en realidad se
utilizaba "pero". Se advierte que estas ediciones modernizadas no son válidas para ejemplificar
la lengua de la época.
El texto explica que algunas ediciones de textos antiguos contienen dos versiones: una que
mantiene fielmente el texto original y otra que moderniza el texto para el lector no
especializado. Sin embargo, los corpus históricos, como CORDE y CDH, deberían incluir solo
la versión que reproduce la transcripción del original y no la modernizada. Sin embargo, en
algunos casos, CORDE y CDH recogen solo la versión modernizada de algunos textos, lo que
lleva a encontrar muestras de lengua del siglo XX etiquetadas como si fueran de principios del
XVI. Además, se mencionan ejemplos de usos que no corresponden a la época en la versión
modernizada de algunos textos, como el uso de "sin embargo" como conector
contraargumentativo, que no estaba en el original, y el uso de la locución temporal "de
inmediato", que se documenta débilmente en el XVII pero se encuentra en textos modernizados
que se presentan como del siglo XVI.

En el texto se explica que algunas ediciones de textos antiguos contienen dos versiones: una
que mantiene fielmente el texto original y otra que lo moderniza para el lector no especializado.
En algunos casos, el CORDE y CDH recogen solo la versión modernizada de algunos textos
antiguos, lo que puede llevar a una etiquetación equivocada de la lengua. Además, en algunos
casos, los editores modernos añaden o modifican algunos pasajes, lo que hace que estos pasajes
no sean representativos de la lengua original del autor. Como ejemplo, se menciona un
fragmento de la traducción de "Orlando furioso" de Ludovico Ariosto por Jerónimo de Urrea,
en el que aparecen fragmentos en cursiva que corresponden a una modernización del editor del
siglo XIX y no al original del siglo XVI.

Este texto habla sobre el problema que surge cuando el CORDE digitaliza una edición que
respeta el texto original pero que incluye encabezamientos de capítulos, apartados o
información sobre el contenido de documentos editados, añadidos por un editor posterior. Estos
elementos añadidos no están indicados claramente como tales y pueden llevar a errores en la
datación de las palabras o frases que aparecen en ellos. Se presentan dos ejemplos de esto en
los que se utilizan conectores o palabras que no pertenecen a la época en la que se escribió el
texto original, pero que se encuentran en los encabezamientos añadidos por el editor posterior.

El texto discute la cuestión de cómo las ediciones posteriores a la fecha de composición del
texto pueden afectar la comprensión y la interpretación de los textos medievales y de épocas
posteriores. En algunos casos, los manuscritos que han conservado obras medievales son
posteriores a su fecha de composición, lo que hace necesario tener precaución al investigar la
fecha de la edición o manuscritos que nos han transmitido los textos. El autor da como ejemplo
el Libro de las Medicinas Caseras, que se cree que fue escrito entre 1611 y 1650, pero la
edición disponible es una copia tardía de alrededor de 1870 que probablemente modificó el
original. En algunos casos, las ediciones tardías pueden adulterar el texto o incluso ser
apócrifas. El texto también discute cómo la locución "en seguida" se consolidó como adverbio
de inmediatez en el siglo XIX, pero algunos ejemplos en CORDE son dudosos porque los
textos fueron reelaborados en una fecha posterior a la de su composición original.

El texto comenta sobre la inclusión de traducciones en los corpus que tienen un enfoque
histórico y menciona obras bien conocidas de la literatura y la cultura españolas. También se
destaca que algunas traducciones modernas se presentan en los corpus como textos originales
sin ninguna indicación de que son traducciones, lo que puede generar errores. Se mencionan
algunos ejemplos de textos que se presentan como originales en el corpus, pero que en realidad
son traducciones hechas en el siglo XIX. Por lo tanto, se sugiere que estos textos no deberían
ser utilizados como ejemplos de la lengua de la época correspondiente y lo mejor sería
eliminarlos del corpus.

El texto aborda el tema de los fragmentos escritos en otras lenguas en obras que en su mayoría
están en español. Se señala que en algunas ediciones modernas, estos fragmentos han sido
traducidos al castellano, pero en ocasiones se han registrado en bases de datos lingüísticas sin
advertir que se trata de una traducción moderna. Como resultado, ciertas construcciones
gramaticales que aparecen en estos fragmentos pueden ser malinterpretadas como
pertenecientes a la lengua del siglo XVI o XVII, cuando en realidad corresponden a la lengua
de la traducción posterior. El texto presenta algunos ejemplos de estas construcciones en obras
de Sigüenza y Góngora y Fray Bartolomé de las Casas.

El texto habla sobre el uso de los corpus históricos como indicadores para la verificación de
ejemplos lingüísticos. En particular, se menciona que al buscar un término o construcción en un
corpus, es común ver un aumento gradual de su uso a medida que se introducen en el idioma.
Es importante verificar la exactitud de las documentaciones aisladas o con pocos registros para
descartar posibles errores de fichado. El texto también menciona que la orientación temporal
que proporcionan los corpus puede ayudar a detectar posibles malas dataciones en otras fuentes
lingüísticas. Se presenta un ejemplo específico de la evolución de las interjecciones de
negación y rechazo, donde se cuestiona la corrección de un ejemplo temprano de la interjección
"ca" en el siglo XVII, utilizando los datos del corpus para verificar su veracidad y determinar
que la lectura correcta es en realidad "ea".

El texto habla sobre la importancia de los corpus informatizados para el estudio diacrónico del
español y recomienda el uso de los grandes corpus generales como CE, CORDE y CDH para el
estudio de los procesos evolutivos en la historia del español. Sin embargo, también se hace
hincapié en la necesidad de ser precavidos al utilizar estos corpus y revisar los ejemplos que
ofrecen para asegurarse de su autenticidad y fidelidad al original y a la lengua del periodo
estudiado.

Además, se señala que sería deseable que los grandes corpus históricos aumentaran el volumen
de textos fichados y que se equilibrara la representación de las distintas épocas de la historia
del español. Por ejemplo, se destaca que el siglo XVIII está muy poco representado en el
CORDE, a pesar de ser importante para el estudio de muchos de los cambios gramaticales y
procesos de gramaticalización en la historia del español.

Por último, se sugiere que sería muy útil dotar al CORDE de un motor de búsqueda similar al
del CORPES XXI y desarrollar la lematización del CDH, lo que supondría una importante
ayuda para el desarrollo de muchos estudios sobre la diacronía del español.

También podría gustarte