Kabatek Johannes - Linguistica de Corpus Y Linguistica Historica Iberorromanica

Lingüística de corpus
y lingüística histórica
iberorrománica
Editado por
Johannes Kabatek
Con la colaboración de
Carlota de Benito Moreno
ISBN 978-3-11-046022-3
e-ISBN (PDF) 978-3-11-046235-7
e-ISBN (EPUB) 978-3-11-046050-6
ISSN 0084-5396
Library of Congress Cataloging-in-Publication Data

A CIP catalog record for this book has been applied for at the Library of Congress.
Bibliografische Information der Deutschen Nationalbibliothek

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbiblio-
grafie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar.
© 2016 Walter de Gruyter GmbH, Berlin/Boston

Satz: jürgen ullrich typosatz, Nördlingen
Druck und Bindung: CPI books GmbH, Leck
♾ Gedruckt auf säurefreiem Papier
Printed in Germany
www.degruyter.com
Índice
Johannes Kabatek
Un nuevo capítulo en la lingüística histórica iberorrománica:
el trabajo crítico con los corpus. Introducción a este volumen 1
I. Contribuciones a la lingüística de corpus desde

las lenguas iberorrománicas
Andrés Enrique-Arias
Sobre la noción de perspectiva en lingüística de corpus: algunas ventajas de
los corpus paralelos 21
Santiago del Rey Quesada

Traducción y tradición en los corpus:
nuevas perspectivas para la lingüística histórica 40
Álvaro S. Octavio de Toledo y Huerta

Aprovechamiento del CORDE para
el estudio sintáctico del primer español moderno (ca. 1675–1825) 57
Joan Torruella
Tres propuestas en el ámbito de la lingüística de corpus 90
II. Corpus iberorrománicos
Rosario Álvarez y Ernesto González Seoane

Iluminar los Séculos Escuros: Gondomar, un corpus para el estudio
del gallego en la Edad Moderna 115
Maria Francisca Xavier

O CIPM – Corpus Informatizado do Português Medieval, fonte de um Dicionário
exaustivo 137
VI Índice
Vicente J. Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero

La documentación medieval de Miranda de Ebro: Presentación del corpus y
rasgos lingüísticos 157
Catarina Carvalheiro, Ana Luísa Costa, Rita Marquilhas, Clara Pinto,

Fernanda Pratas e Gael Vaamonde
A idade dos «desvios»: diacronia, variação social e linguística de corpus 175
Guillermo Rojo
Citius, maius, melius: del CREA al CORPES XXI 197
III. Corpus y análisis cuantitativos
Dorien Nieuwenhuijsen
Notas sobre la aportación del análisis estadístico
a la lingüística de corpus 215
Kim Schulte and José Luis Blas Arroyo

Entrenchment and frequency effects in the diffusion and replacement
of modal periphrases in Spanish: a diachronic variationist analysis 238
Miriam Bouzouita
La posposición pronominal con futuros y condicionales en el códice
escurialense I.i.6: un examen de varias hipótesis morfosintácticas 270
María Jesús Torrens Álvarez y Hiroto Ueda

El nacimiento de la letra jota como grafía consonántica 299
Mª Carmen Moral del Hoyo

El castellano en los orígenes del cambio gramatical: el pretérito
imperfecto de la 2ª y 3ª conjugación (–ié / –ía) 322
Inés Carrasco Cantos y Livia Cristina García Aguiar

Análisis de la sufijación en el corpus DITECA 358
Índice VII
IV. Cuestiones lingüísticas diacrónicas iberorrománicas y

lingüística de corpus
Beatriz Arias Álvarez y Juan Antonio Hernández Mendoza

Argumentos dialectológicos y sociolingüísticos que ayudan a la caracterización
del español en la nueva España en el siglo XVI 385
Marta Fernández Alcaide

Manifestaciones de la variación del español colonial en un corpus epistolar
multidimensional 401
Olivier Iglesias
«Se le quedó mirando»: la atracción de clíticos en un corpus
de idiolectos (s. XIX–XXI) 424
Johannes Kabatek
Un nuevo capítulo en la lingüística
histórica iberorrománica: el trabajo crítico
con los corpus. Introducción a este volumen
1 Introducción a la introducción
Mucho se ha escrito en los últimos años sobre la lingüística histórica y los corpus y
mucho se ha trabajado en el ámbito de las lenguas iberorrománicas para mejorar
tanto los corpus como los trabajos que se basan en ellos. El volumen que presen-
tamos a continuación se enmarca en una nueva etapa de la lingüística de corpus,
una etapa caracterizada por una visión crítica, tal vez menos entusiasta que hace
veinte o treinta años, pero también más refinada y más adecuada a su objeto de
estudio. Mientras que hace unos años la aparición de los primeros grandes corpus
históricos de las lenguas iberorrománicas (sobre todo del español) fue recibida
con general entusiasmo ante las posibilidades casi interminables de observar muy
fácilmente fenómenos cuyo estudio antes exigía un arduo y dificultoso trabajo a
mano, en la actualidad la disponibilidad masiva de datos y el fácil acceso a
ellos se considera algo ya completamente normal y forma parte del día a día de
investigadores y estudiantes. Al mismo tiempo, como es habitual en el avance de
una disciplina, junto con las nuevas posibilidades aparecieron también nuevos
problemas y surgieron nuevas tareas. Una mirada menos entusiasta, más sobria y
más crítica ha creado nuevas exigencias, basadas en (a) el cuestionamiento de la
relación entre datos primarios e historia de la lengua; (b) el cuestionamiento de
los mismos datos primarios; (c) la crítica hacia el diseño de los corpus; (d) la crítica
hacia las posibilidades ofrecidas por los corpus y los bancos de datos. Pero, como
es natural, los investigadores no solo se han dedicado a la crítica, sino también al
remedio. Gracias a ello, hoy en día ya disponemos de más y mejores corpus, de
más y mejores herramientas para el tratamiento de los datos y, finalmente, de una
serie de nuevos estándares más o menos establecidos en la comunidad, algunos
de ellos presentados a lo largo de las páginas de este libro.
Johannes Kabatek: Universität Zürich

2 Johannes Kabatek
2 Lenguas iberorrománicas
Antes de entrar en el debate acerca de los cuatro puntos mencionados, me parece
oportuno decir algo sobre el enfoque iberorrománico de este libro. Por un lado, las
limitaciones areales y tipológicas son en cierta medida arbitrarias y se deben a
circunstancias a veces casuales. Por otro lado, si frente a las visiones monolin-
gües existe, con amplia tradición, una filología románica bien establecida que se
justifica por el origen común de las lenguas neolatinas, no podemos decir lo
mismo de las lenguas romances de la Península Ibérica. Hay, sin embargo, una
serie importante de antecedentes, sobre todo en geografía lingüística (si pensa-
mos por ejemplo en el ALPI) o en obras que relacionan la historia de la lengua con
la historia de los espacios, como el famoso manual de Baldinger (1971). Aun así,
es más común que los espacios investigados tomen como punto de partida las
configuraciones políticas actuales y no las geográficas. Pero no hay que olvidar
que la consideración de un determinado espacio histórico a partir de espacios
nacionales actuales corresponde a la tan citada «teleología invertida» (Oesterrei-
cher 2007), difícilmente justificable desde la perspectiva de la emergencia histó-
rica y debida en gran parte a limitaciones derivadas de fronteras actuales y de
posibilidades de financiación de proyectos, marcadas por un pensamiento territo-
rial y político. Es fuera de los ámbitos políticos peninsulares —muchas veces por
falta de recursos y de posibilidades de crear departamentos separados, pero
también por una tradición que privilegia lo plural frente a lo monolítico y que es
consciente del provecho de la comparación— donde la iberorromanística es ya un
hecho establecido, y su tarea consiste precisamente en propagar el mensaje de
que la comparación de lo semejante puede ser altamente provechosa.1
Los corpus históricos no escapan al efecto de esta «teleología invertida»:
suelen estar hechos por instituciones nacionales o de un ámbito lingüístico actual
determinado y construyen el pasado a partir del presente, ignorando por tanto el
hecho de que los límites claros se van borrando conforme retrocedemos en el
tiempo. Así pues, juntar aquí trabajos sobre diferentes lenguas iberorrománicas
tiene una doble finalidad: por un lado, las razones están en los mismos objetos de
1 La base de la mayoría de las contribuciones a este volumen fueron los trabajos presentados en
el marco del Tercer Coloquio Internacional sobre Corpus diacrónicos en lenguas iberorrománicas
(CODILI III), celebrado en la Universidad de Zúrich en verano del 2014 (www.codili.ch). Algunas
de las reflexiones aquí presentadas también se deben a las discusiones llevadas al cabo durante
el curso de invierno ALPES (Abriendo Líneas en el Pasado del Español) en Kandersteg, Berna, en
enero de 2016. Agradezco a los participantes de ambos encuentros (en parte coincidentes) sus
valiosas contribuciones, y al Fondo Nacional Suizo y a la Confederación de las Universidades
Suizas su generoso apoyo.
Un nuevo capítulo en la lingüística histórica iberorrománica 3
estudio, en los datos y fenómenos relacionados, y, por otro lado, en el hecho de

que el intercambio y la comparación son útiles en sí mismos, especialmente en
una disciplina no muy antigua y a la vez muy dinámica como es la lingüística de
corpus.
3 Lingüística de corpus y lingüística con corpus

Resulta claro que el término «lingüística de corpus» hoy en día comprende
disciplinas relativamente diferenciadas (véase Parodi 2010 y Torruella, en este
volumen), en las que deberíamos distinguir al menos tres vertientes y finalidades:
por un lado, la lingüística de corpus se ocupa de la creación de corpus, es decir, de
los pasos que van desde la recolección de los datos primarios hasta su presen-
tación en una plataforma consultable (ver, p. ej. Rojo, con el caso del CORPES, o
Xavier, con el del CIPM, ambos en este volumen). Una segunda disciplina es la que
está en estrecha relación con la informática y se ocupa, por un lado, del tratamien-
to de los datos y de su etiquetaje, y por otro lado, de los análisis cuantitativos y
estadísticos a los que invitan los propios datos del corpus. Finalmente, la tercera
vertiente es la más presente en este volumen: la que hace una lingüística «con
corpus», ocupándose de fenómenos concretos de la historia de la lengua y
basando su análisis en datos de corpus. Entre las tres vertientes hay, obviamente,
una estrecha relación y, en tanto que un corpus no es un fin en sí, sino que se crea
para algo, se necesita un intercambio continuo del creador del corpus con los
usuarios que lo utilizan para un estudio concreto. Entre ambos puede haber
discrepancias, ya que sus objetivos y condicionamientos son diferentes: el usuario
pide el mayor número de datos posible, a poder ser libremente disponibles y
fielmente editados, etiquetados y con acceso a los textos plenos, mientras que el
que configura el corpus lucha con limitaciones técnicas, recursos de tiempo y de
personal, derechos de autores y, a veces, limitaciones institucionales. Afortunada-
mente, en el mundo de las lenguas iberorrománicas, los que crean corpus y los
que trabajan con ellos generalmente no están separados ni viven en mundos
diferentes; en varios de los trabajos de este volumen se ve que la creación del
corpus y la investigación de los fenómenos está en las mismas manos.
4 Corpus, lengua, representatividad

Tal vez el tema más discutido en los últimos años —y también presente a lo largo
de los trabajos de este volumen— sea el de la representatividad de los datos y la
cuestión de la relación entre los corpus y la historia de la lengua. Mientras que en
4 Johannes Kabatek
los albores de la lingüística de corpus moderna todavía era frecuente encontrar un

postulado abstracto de representatividad absoluta de un corpus para la historia de
una lengua, hoy en día ya pocos creen que algo así pueda existir y se habla más
bien de una representatividad relativa, es decir, una representatividad con respec-
to a algo. Aquí hay que introducir una serie de precisiones: en primer lugar, hay
que tener cuidado con la frecuente equiparación entre corpus y lengua y hay que
recordar siempre que la lengua no es un fenómeno comparable a los fenómenos
de la naturaleza que se limitan, en general, a la evolución material de lo física-
mente medible.
Los corpus son colecciones de textos que nos permiten tener una visión
indirecta de la lengua, ya que la producción de textos a partir de la competencia
lingüística de los individuos está condicionada por una serie de factores que el
corpus no permite ver (factores pragmáticos, sociales, individuales). Por ello, los
datos de los corpus no nos ofrecen la historia de la lengua como tal, sino que son
datos que hay que interpretar con respecto a todos los factores de su producción,
en el sentido de una recontextualización (Oesterreicher 2001). La recontextualiza-
ción es una tarea interminable, no limitable a dos o tres factores; es una tarea
hermenéutica y, por lo tanto, siempre abierta. El corpus contiene lengua, natural-
mente, pero el corpus no contiene la lengua, ni como objeto abstracto, ni como
objeto concreto y mental. El corpus se limita a una colección de producciones
casuales de lengua: nos ofrece una ventana que permite acceder a una parte de
esta, pero no al todo, y deja, por tanto, abierta la especulación acerca de lo que no
se puede ver. Aun así, incluso lo invisible tiene que suponerse como existente y los
principios de actualidad y de empatía2 nos llevan a identificar a partir del corpus
factores necesariamente existentes pero no aparentemente presentes: sabemos
que la lengua no es un sistema homogéneo y unitario y que los textos no son, pese
a lo que se haya creído en algún momento, producto de una competencia lingüís-
tica generadora de textos que se puede reconstruir directamente sobre la base de
estos. Sabemos también que una lengua histórica no es un solo sistema, sino un
diasistema complejo, y que cada hablar se determina diatópica, diastrática y
diafásicamente. También sabemos que el hablar no solo corresponde a una sinto-
pía, sinestratía y sinfasía, sino que también está inserto en tradiciones discursivas,
en moldes repetitivos anclados en configuraciones pragmáticas identificables y
semióticamente relevantes. Y sabemos, por último, que el hablar presenta rasgos
2 El llamado «principio de la actualidad» suele atribuirse hoy en día a Labov (1974) aunque fue
ya muy claramente formulado por Osthoff y Brugmann (1878, IX–X) en su manifiesto neogramá-
tico. Es este un principio que deriva de la empatía que tenemos como hablantes con cualquier
otro hablante y, a partir de ahí, con cualquier situación lingüística, presente o pasada (cf.
Kabatek 2015).
individuales, tradiciones que un mismo individuo crea y cultiva y que lo distin-

guen frente a los demás: su «estilo» personal.3
¿Y con todas estas precisiones queremos hacer lingüística histórica? ¿Puede
haber un corpus que nos permita distinguir tanta variación? ¿O es la lingüística
histórica basada en corpus simplemente una ilusión, una reducción a pocos
factores que nunca llegará a descubrir las dimensiones totales de su objeto? Me
parece que la respuesta debe ser la de todo trabajo científico: no llegaremos nunca
a una ciencia «total» o perfecta: nunca llegaremos a describir el objeto de nuestro
estudio de manera completa, pero la utopía debe ser la de un paulatino acerca-
miento al objeto y una continua distinción entre lo que se aproxima más a él y lo
que está más distante. En este sentido, llegamos también a lo que se ha venido a
llamar «la paradoja de Enrique» («Enrique’s paradox», cf. Enrique-Arias 2012, 96):
«Una paradoja de la composición de los corpus diacrónicos es que, por una lado,
deben ser heterogéneos (tienen que incluir textos de diferentes autores, épocas,
géneros, registros, dialectos) y a la vez deben ser homogéneos (es decir, los
diferentes cortes sincrónicos representados en el corpus tienen que ser compara-
bles entre sí)».4 La paradoja es solo aparente: para llegar a una descripción válida,
es imprescindible que identifiquemos los factores de heterogeneidad. Solo a partir
de esa identificación será posible garantizar que los factores heterogéneos estén lo
suficientemente representados y que no estemos comparando peras con manza-
nas. Por ejemplo, solo sabiendo cuál es el papel de las tradiciones textuales en un
caso concreto podemos averiguar si un cambio observado es un cambio de la
lengua o solo una particularidad de una tradición textual particular. Tenemos,
pues, que vivir con lo que parece ser una paradoja: en ella reside, en realidad, la
tensión de nuestro trabajo de reconstrucción histórica de los fenómenos.
3 Para dar cuenta de los hechos individuales, Mario Barra ha insistido últimamente en lo que ha
denominado el «método idiolectal» (Barra 2015; ver también Iglesias, en este volumen), consis-
tente en el estudio de la historia de la lengua basado en «gramáticas individuales». Aunque me
parece problemática la noción de «gramática individual», medir el espectro de posibilidades
gramaticales de las que dispone un individuo sí resulta un acercamiento muy interesante que
habría, en todo caso, que relacionar con su interacción con variedades y tradiciones discursivas
para la reconstrucción de lo que al final llamaremos diacronía.
4 Se desarrolla este principio en Rosemeyer/Enrique-Arias (en prensa): «Longitudinal analyses
of syntactic change, however, need language examples that differ with regard to the state of
development of the language rather than their usage contexts. This methodological challenge
has been formulated in terms of a comparability paradox in historical corpus design (Enrique-
Arias 2012, 97): a historical corpus has to be diverse because it must contain texts that represent
different periods, genres or dialects. At the same time this corpus must be uniform (that is, the
distribution of content type, genres or dialects along the different chronological sections in the
corpus must be as similar as possible so they can be compared).»
6 Johannes Kabatek
5 Nuevos estándares
5.1 La base: los documentos y las ediciones
Mientras que la primera fase de la lingüística moderna de corpus históricos

estaba basada en una tradición que venía de las ediciones tradicionales en
papel, en la actualidad en muchos casos los documentos se preparan ya con
vistas a su presentación en un corpus digitalizado. Esto cambia radicalmente la
concepción del corpus y abre toda una serie de posibilidades nuevas. Especial-
mente en el caso de los textos medievales, la edición en papel suponía siempre
una decisión por parte del editor entre fidelidad paleográfica, enmienda e
intervención y los corpus diacrónicos se basaban en ediciones de diversa índole.5
Al introducir los textos en el corpus, hubo generalmente que prescindir del
aparato de notas y de las variantes: así, lo que aparecía en la versión digitalizada
solía ser el resultado del escaneo de ediciones publicadas que habían pasado por
un proceso OCR y una corrección manual más o menos meticulosa, dependiendo
del caso. Esta técnica sigue contribuyendo a la ampliación de la cantidad de
datos históricos disponibles, aunque, obviamente, ha mejorado sustancialmente
y ahora nos encontramos a leguas de los problemas que presentaba el reconoci-
miento automatizado de texto hace no tantos años. Hoy en día, un sencillo
programa de reconocimiento que podamos manejar en nuestro ordenador da
mejores resultados que las técnicas más sofisticadas de hace no muchos
años, y la microtomografía está empezando a permitir incluso la lectura de
documentos sin abrirlos. Aun así, casos debidos a errores de reconocimiento,
como el muy citado de mafia en CORDE, siguen estando presentes en algunos
corpus.6
Sin embargo, existen también otras posibilidades y, en el mundo de la
lingüística iberorrománica histórica se puede decir que el estándar que encuentra
5 En el caso del español, un caso excepcional es el ya histórico ADMYTE, nacido en circunstan-

cias particularmente afortunadas y que desde el inicio trabajó con ediciones hechas para su
integración en el corpus, véase Marcos Marín 1993.
6 El italianismo mafia parece a primera vista ser muy temprano en español según el CORDE (ya
en el s. XVI hay ejemplos como «con mafia y trato de algunos de sus contrarios», de 1579), pero
su existencia se debe a malas lecturas del escaneo de maña. Aunque el caso es conocido sigue
presente en CORDE. También hay una serie de casos desde el siglo XVI en el Corpus del español
de Mark Davies. Sin embargo, en el Corpus del Nuevo Diccionario Histórico de la RAE, que
incorpora los textos del CORDE, el ejemplo citado está corregido por maña. Se ve aquí que la
nueva generación de los corpus académicos no solo da un salto con respecto a las herramientas
técnicas sino también con respecto a la calidad de los datos.
cada vez más aplicación hoy en día es el establecido por la red CHARTA,7 según
el cual el corpus no se limita a una edición cualquiera, sino que presenta una
«edición múltiple», con la versión paleográfica al lado de una edición crítica y
con acceso a la imagen de manuscrito, que permite comprobar la fiabilidad de
ambas versiones. Varios de los trabajos aquí presentes trabajan con datos de
CHARTA o de otros corpus relacionados con esta red, como CODEA (cf. Marcet
Rodríguez & Sánchez González de Herrero; Moral del Hoyo, en este volumen).8
5.2 La mirada crítica de los corpus existentes:

el «CORDEmáforo»
Como indicábamos más arriba, otro aspecto esencial de la nueva lingüística de

corpus es la mirada crítica hacia herramientas establecidas. En el mundo hispáni-
co, no cabe duda de que el corpus histórico más establecido es el CORDE de la
RAE,9 plataforma imprescindible para los estudios de la historia del español. Es
innegable que el CORDE permitió una enorme ampliación de la base de datos
históricos disponibles y, pese a cualquier posible crítica de detalles, es una
empresa que ha dado un enorme rendimiento. En los últimos años se ha observa-
do que el CORDE, además de las limitaciones técnicas del banco de datos,
presenta una serie de fuentes de posibles errores, las cuales, sin embargo, no son
7 Véanse los criterios de edición en http://www.charta.es/criterios-de-edicion-/ Cf. también

Sánchez-Prieto Borja/Torrens Álvarez (2012).
8 Otra de las innovaciones de los últimos años consiste en la llamada «edición social», en la que
varias personas colaboran según el principio wiki (Price 2016).
9 Desconozco si también es el más utilizado, ya que carecemos de datos sobre la utilización de
los corpus. Probablemente el corpus histórico español más usado sea el Corpus del español de
Mark Davies. Se trata de un corpus que, sobre todo en sus inicios, tuvo un impacto importante,
dada la enorme rapidez de su sistema de búsqueda. En una segunda fase, llamó la atención por
la presentación parcialmente etiquetada de los datos y por la integración de un módulo muy útil
de visualización y es usado bastante hasta la actualidad (véase Nieuwenhuijsen, en este volu-
men). Sin embargo, es también un corpus muy controvertido, en primer lugar por la falta de
fiabilidad filológica de parte de los datos y los criterios algo arbitrarios de su configuración.
Además, desde hace algún tiempo el corpus se presenta también con fines comerciales. En la
actualidad, Mark Davies anuncia en su página una nueva versión tanto del Corpus del español
como del Corpus do português (elaborado en colaboración con Michael Ferreira), modernizada y
ampliada: el corpus del español tendrá 2.000 millones de palabras y el del portugués, 1.000
millones. Ambos se pondrán a disposición del público en 2016. Estos corpus tendrán información
POS y anotación sintáctica y permitirán también el acceso a los textos planos. El aumento de la
cantidad de textos se refiere sobre todo a la época moderna. Véase la información en http://
corpus.byu.edu/neh2015.asp.
8 Johannes Kabatek
razón para el rechazo del CORDE como fuente, sino que exigen una utilización
crítica del corpus. Por ejemplo, como acabamos de señalar, existen casos de
erratas que se deben a errores de pasaje de los datos primarios y sería de agradecer
que hubiese un mecanismo de corrección continua del corpus.
Otra cuestión que se ha señalado (cf. Octavio de Toledo, en este volumen) es la
del desequilibrio textual: la cantidad de los textos varía considerablemente en las
diferentes épocas y también varía, lógicamente, la gama de tradiciones discursivas
disponible de cada época. No obstante, el mayor problema del CORDE tal vez sea,
por lo menos para las épocas remotas, el de las fechas de los documentos, que es
en realidad un problema no exclusivo del CORDE, sino de la lingüística histórica
como tal. Una práctica bastante general en la tradición de la disciplina (y no solo
en el mundo iberorrománico) solía ser suponer que la fecha de supuesta o compro-
bada composición de una obra era la relevante, proporcionándose solo esta, sin
importar que el texto manejado procediera de copias o de ediciones posteriores. La
RAE, poniendo a disposición del público el Corpus del Nuevo Diccionario Histórico
del Español (CDH / CNDHE), ha puesto remedio a ese defecto, indicando entre
corchetes la información sobre la fecha del «testimonio base», es decir, del manus-
crito, frente a la supuesta fecha de composición del texto «original». Sin embargo,
sigue siendo frecuente encontrar en trabajos de historia de la lengua un texto como
el Calila e Dimna, por poner un ejemplo, como representante del siglo XIII, aunque
sabemos que los dos manuscritos en los que se basan las ediciones son del
siglo XV y que el lapso de dos siglos no se produjo sin dejar huellas en el texto. Hay
suficientes estudios de originales y copias (cf. p. ej. Morala 2002; Santiago 2004;
Díez de Revenga 2012; Miguel Franco 2012) en diferentes ámbitos textuales como
para poder afirmar que la idea tradicional de que en el acto de copia del texto se
preserva lo fundamental (o que, como mucho, se cambian algunas grafías) carece
de fundamento empírico. Para poner remedio a ese problema, Octavio de Toledo /
Rodríguez Molina (en prensa) han preparado una lista de los documentos conteni-
dos en el CORDE en la que se evalúa la calidad de estos para los estudios
diacrónicos, llegando a establecer una tripartición entre documentos perfectamen-
te válidos y bien fechados (luz verde), documentos algo problemáticos (ámbar) y
documentos muy problemáticos (rojo) —en los que la fecha de composición no
coincide con la fecha del documento utilizada en el corpus—. Tal «Cordemáforo»
permitirá, pues, limitar los estudios a los documentos fiables o, incluso, comparar
un estudio que no aplique el filtro de calidad de documento con otro que sí lo tome
en consideración, lo que seguramente ofrecerá resultados sorprendentes en algu-
nos casos. Evidentemente, la diferencia entre las tres categorías no es tajante, sino
relativa, pero permite en todo caso establecer «jerarquías de fiabilidad» de los
textos: un original siempre es más fiable que una copia, un fenómeno basado en
varios testimonios es siempre más fiable que un hápax, etc.
5.3 Nuevos corpus, nuevas herramientas
Más allá de los corpus grandes de generaciones anteriores, en el presente estamos

asistiendo a tres tendencias en cuanto a la configuración de los corpus históricos:
primero, hay una nueva generación de grandes corpus históricos que, desde el
punto de vista técnico, superan ampliamente a los corpus anteriores; segundo,
asistimos a una masificación de los datos disponibles en los corpus, sobre todo de
la lengua actual, que permite la elaboración de estudios microdiacrónicos y la
observación de las tendencias actuales en la evolución de la lengua,10 y, por
último, están apareciendo cada vez más corpus especializados, ya sean regionales
o con finalidades particulares. Al mismo tiempo, los trabajos de corpus permiten,
dada la gran amplitud de la base de datos, incluir más factores, que pueden tanto
derivar de variables propiamente gramaticales como tener un carácter más bien
«externo», como la importancia de una distinción clara de las distintas variedades
o tradiciones discursivas, algo que, particularmente en los estudios de las lenguas
iberorrománicas, se ha hecho prácticamente general. La mayor cantidad de datos
disponibles abre también nuevas vías para los análisis cuantitativos: el «giro
cuantitativo» se hace notar también en la lingüística histórica iberorrománica, sin
que por ello se pierda de vista la base filológica de los textos.
5.4 Nuevos datos, nuevos factores, nuevas posibilidades
Si intentamos resumir las tendencias predominantes en la lingüística iberorromá-

nica histórica basada en corpus tal como se presenta ahora en comparación con
las épocas anteriores (cf. p. ej. Pusch/Kabatek/Raible 2005), vemos una particula-
ridad interesante: si con la llegada de las nuevas técnicas de búsqueda de datos
algunos pensaban que la lingüística histórica iba a ser más sencilla y más fácil, la
realidad ha demostrado lo contrario. Así, los problemas tradicionales de recons-
trucción siguen siendo los mismos y el acceso a más datos ha causado nuevos
desafíos. Las cuestiones de la frecuencia, de la estadística y de la ponderación de
datos se han planteado de forma nueva y, al mismo tiempo, nuevos factores se
han añadido a la lista larga de posibles condicionantes del cambio lingüístico: la
teoría del cambio lingüístico ha ido identificando, en las últimas décadas, un
número creciente de factores sintácticos, semánticos, fónicos y pragmáticos que
pueden condicionar los cambios y, dependiendo del fenómeno estudiado, la lista
10 Rojo (en este volumen) menciona, al lado del CORPES XXI, el Gigacorpus esTenTen, el mayor
corpus del español disponible actualmente.
10 Johannes Kabatek
puede ser larga (cf. p. ej. Bouzouita, o Schulte/Blas Arroyo, en este volumen).
A los factores lingüísticos se añaden factores extralingüísticos (históricos, socia-
les, culturales). Así, al considerar las dimensiones de variación arriba menciona-
das, además de la tradicionalidad discursiva de los fenómenos y la posible
individualidad de su uso concreto, puede parecer que los árboles son tan nume-
rosos y diversos que ya no hay bosque visible. Esto no es así, sin embargo: una
lingüística histórica con una base de datos fiables más amplia es precisamente la
que produce los análisis más complejos y completos de las evoluciones y permite
que nos acerquemos más a la reconstrucción adecuada del cambio.
Por otro lado, resulta evidente que no todos los factores tienen el mismo peso
en cada cuestión empírica concreta y que la tarea del lingüista no consiste
únicamente en la recolección de datos y la enumeración de factores, sino en su
ponderación e interpretación. Nos hallamos, pues, en una fase de la lingüística
histórica en la que hay más complejidad, más datos y más factores de lo que solía
haber, pero también nuevas posibilidades de ordenar los datos y de presentarlos
de forma que nos ofrezcan una imagen cada vez más acertada de lo ocurrido en la
historia de las lenguas.
6 Los trabajos de este volumen

Los 18 trabajos reunidos en este volumen se inscriben en esta nueva generación
de la lingüística histórica basada en corpus. Hemos dividido los trabajos en
cuatro apartados, sin que la repartición corresponda a una separación tajante. La
primera sección contiene trabajos cuyo objetivo consiste en reflexionar, a partir
de casos y cuestiones empíricas concretas, acerca de problemas generales de la
lingüística de corpus. La segunda sección se dedica a la presentación de corpus;
la tercera, a los análisis cuantitativos y la cuarta se ocupa de análisis diversos
(cualitativos, variacionales, idiolectales) basados en trabajos con corpus.
El libro se abre con las reflexiones de Andrés Enrique-Arias acerca de lo que el

autor llama el «parámetro perspectiva». Se trata de «la perspectiva de sus usuarios
[los del corpus], es decir, la manera en que los estudiosos acceden a los datos
lingüísticos». Con el ejemplo del corpus Biblia medieval, Enrique-Arias muestra
las ventajas de los corpus paralelos, enumerando toda una serie de factores que
conforman el valor heurístico añadido de estos: mientras que habitualmente un
corpus solo nos permite encontrar aquello que buscamos explícitamente (según el
procedimiento semasiológico de la búsqueda), en un corpus paralelo de textos
traducidos, dado que la traducción pasa por una fase semasiológica y otra onoma-
siológica, encontramos también soluciones inesperadas para el mismo contenido
o un contenido semejante. Claro está que los corpus paralelos no son de por sí
mejores que otros corpus, pero permiten otro tipo de acercamiento a la materia y
complementan en el estudio diacrónico a los corpus que el autor llama «conven-
cionales».
En la misma línea, Santiago del Rey Quesada también subraya la utilidad de
los corpus paralelos: su aportación es una apología de los estudios de traducción
basados en corpus (Corpus-based Translation Studies o CTS) para el estudio de la
historia de la lengua. Sus reflexiones se basan en un corpus paralelo de los
Colloquia de Erasmo de Rotterdam y desarrollan temas como la relevancia de la
lengua de origen, las tradiciones discursivas y el estilo personal en las traduccio-
nes. El autor postula la necesidad de disponer de más corpus paralelos con textos
traducidos para poder medir el impacto de la traducción en comparación con las
producciones originales de una lengua en diferentes épocas.
La contribución de Álvaro Octavio de Toledo y Huerta tiene, por un lado,
una finalidad práctica y ejemplar, a saber, la de mostrar cómo se puede sacar
provecho del CORDE como herramienta para el estudio del «primer español
moderno» —definido por él como el español del periodo que comprende desde
finales del siglo XVII hasta principios del XIX—. Así, el autor insiste en la
importancia de esa época para el estudio de la historia del español, a pesar de la
tendencia de la lingüística histórica de prestarle poca atención. Pero, más allá de
la finalidad empírica (demostrada con una serie de ejemplos), el trabajo insiste en
la necesidad de la ponderación de los datos y de la preparación equilibrada de lo
que en el corpus se encuentra de una forma más bien desequilibrada, e identifica
diferentes tipos de «difusión de los fenómenos y su dinámica variacional». Estas
reflexiones van mucho más allá del periodo estudiado y muestran retos importan-
tes para la lingüística diacrónica basada en trabajos con corpus.
También son de índole general las reflexiones de Joan Torruella, que, aunque
versan acerca de una serie de propuestas concretas de mejora del Corpus Informa-
titzat del Català Antic (CICA), tratan también de la cuestión general de la represen-
tatividad del corpus y del equilibrio de los datos contenidos en él. Torruella se
refiere a la cuestión de los cortes diacrónicos en un corpus (para lo que propone
cortes de 50 años), el equilibrio textual (en una línea parecida a de Octavio de
Toledo) y la comparabilidad de diferentes secciones de corpus, intentando ofrecer
soluciones a la paradoja entre homogeneidad y heterogeneidad arriba menciona-
da. Además, el autor discute la pertinencia de diversos parámetros lexicométricos,
diseñados con el fin de que el corpus represente, en la medida de lo posible, la
mayor riqueza léxica posible de la lengua estudiada.
Abre la segunda sección, dedicada a la presentación de nuevos corpus o de

proyectos de corpus, el trabajo de Rosario Álvarez Blanco y Ernesto González
12 Johannes Kabatek
Seoane, quienes presentan el corpus gallego Gondomar. Como es sabido, el

gallego, después de una primera fase de producción escrita en la Edad Media
(documentada en los corpus TMILG y COTAGAL), pasa a través de la época que se
suele denominar los séculos escuros (‘siglos oscuros’), con escasa producción
escrita hasta el llamado rexurdimento del siglo XVIII. GONDOMAR recoge todo
tipo de testimonios de esa época, clasificados según los parámetros que imponen
los propios textos e incluyendo parodias del gallego y textos gallegos en el
contexto del castellano, arrojando así algo de luz sobre esa época y permitiendo
crear un eslabón entre la época medieval y la contemporánea.
Por su parte, Maria Francisca Xavier dedica su contribución a la presentación
de la historia y las posibilidades del CIPM, Corpus Informatizado do Português
Medieval, de la Universidade Nova de Lisboa. Es este un corpus diseñado ya en
los años 1990 y ampliado y completado desde entonces. En este corpus, como en
otros (por ejemplo, el CDH para el español), existe un vínculo directo entre corpus
y lexicografía, ya que el CIPM sirve como base para el Dicionário do Português
Medieval, un diccionario modular (con partes dedicadas a los verbos, los nombres
propios y comunes y los términos) que viene publicándose desde 1999.
Otro corpus medieval, esta vez de ámbito regional, es presentado por Vicente
Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero. Se trata de un
proyecto reciente, lanzado hace solo unos años, de recogida de la documentación
de la zona —de gran importancia para la historia del castellano— de Miranda de
Ebro, en el norte de Burgos. El corpus está formado por un total de 203 documen-
tos de dos archivos, elaborados según los criterios de la red CHARTA. En este
trabajo se presentan dichos documentos y se analizan teniendo en cuenta varia-
bles gráficas y morfosintácticas.
El corpus Post Scriptum, de la Universidade de Lisboa, es presentado por
Catarina Carvalheiro, Ana Luísa Costa, Rita Marquilhas, Clara Pinto, Fernanda
Pratas y Gael Vaamonde, y recoge datos tanto del portugués como del español
moderno: cartas privadas de ambos lados del atlántico, conservadas en la docu-
mentación oficial de los tribunales españoles y portugueses. Los autores mues-
tran la utilidad de este corpus para estudiar la geografía y la diacronía de ciertos
fenómenos lingüísticos mediante tres ejemplos: el marcador discursivo pois y el
relativo cujo en portugués así como la cuestión de leísmo, laísmo y loísmo en
español.
Frente a los corpus que se dedican a la documentación de épocas remotas, el
trabajo de Guillermo Rojo traza la línea entre el CREA y el CORPES XXI, los dos
corpus del español actual de la RAE. El autor, responsable de los proyectos de
corpus en la Academia, no solo presenta el último de estos corpus, sino que trata
también cuestiones generales de gran importancia, como la representatividad o el
salto cuantitativo y cualitativo que hay entre la versión original del CREA (lan-
zada en 1998) y la nueva plataforma del CORPES XXI: la nueva generación de los
corpus de la RAE permite búsquedas mucho más sofisticadas; visualizaciones de
diferentes épocas y de diferencias regionales; búsquedas por formas, lemas y
categorías gramaticales. Es fundamental resaltar que la interfaz del CORPES XXI
no se ha creado únicamente para este corpus, sino que también se ha usado para
la modernización de los corpus anteriores: así, la nueva versión de CREA presenta
los textos hasta 2000 con la misma anotación que el CORPES XXI (que enlaza con
el CREA a partir de 2000) y el CDH presenta los textos de CORDE con las nuevas
herramientas de búsqueda. Por último, es de notar que el CORPES XXI, puesto
que se presenta en diferentes secciones de cinco años cada una, ofrece también el
acceso inmediato a la microdiacronía y el «change in progress».
En la tercera sección se discuten cuestiones cuantitativas y se presentan análisis

frecuenciales de diferentes fenómenos. Dorien Nieuwenhuijsen muestra la utili-
dad del trabajo estadístico al presentar un análisis cuantitativo de las oraciones
subordinadas interrogativas indirectas y negadas dependientes del verbo
saber, que se investigan a la luz de diversas variables (tipo de interrogación,
modo verbal, tiempo, región), llegando así a dar una imagen de la evolución del
fenómeno a ambos lados del atlántico.
El trabajo de Kim Schulte y José Luis Blas Arroyo se dedica a la evolución de
cinco perífrasis modales. Los autores trabajan con un amplio corpus propio de
textos de «inmediatez comunicativa» (Koch/Oesterreicher 2007) del siglo XVI al
XX y efectúan un análisis multifactorial y frecuencial que les permite identificar
correlaciones estadísticamente relevantes.
Miriam Bouzouita, por su parte, estudia un fenómeno concreto en el corpus
Biblia medieval, interesándose por los futuros y condicionales sintéticos medieva-
les seguidos de pronombre. La autora evalúa tres hipótesis que condicionan dicha
construcción, aplicando un análisis estadístico que permite reconstruir la casuís-
tica que rige las posiciones pronominales y que incluye factores sintácticos,
factores morfológicos y factores condicionados por las fuentes de la traducción.
Siguiendo con los análisis frecuenciales, pero en un ámbito muy distinto, el
trabajo de María Jesús Torrens Álvarez y de Hiroto Ueda se ocupa de la grafía <j>
cuando esta tiene valor consonántico. El análisis estadístico con el programa
LETRAS (diseñado por el propio Ueda) permite trazar la línea del «nacimiento», en
el corpus CORHEN, de dicha letra, que, a partir de ciertas variantes gráficas de la
, se especializa en la representación de la consonante. Este trabajo no muestra
solo la importancia de la estadística, sino también de la paleografía como base de
datos fiables, fundamento imprescindible para el análisis cuantitativo.
También analiza datos del CORHEN el trabajo de Carmen Moral del Hoyo:
sobre la base de una selección de 278 documentos procedentes de este corpus y
14 Johannes Kabatek
elegidos según criterios diatópicos y diacrónicos, la autora muestra convincente-

mente cómo la variación y la evolución de las formas –ié / –ía de imperfecto
evoluciona en una interacción entre factores espaciales y factores estructurales.
La productividad léxica es el tema del artículo de Inés Carrasco Cantos y de
Livia Cristina García Aguiar, que está dedicado al análisis del total de los sufijos
contenidos en el corpus DITECA (Diccionario de textos concejiles de Andalucía), un
corpus de textos jurídicos del siglo XIII al siglo XVIII. El análisis frecuencial
permite tanto identificar el grado de productividad de los diferentes sufijos anali-
zados como observar cómo los diferentes sufijos se van especializando funcional-
mente a lo largo de los siglos.
En la cuarta sección encontramos diferentes cuestiones de la lingüística diacróni-

ca iberorrománica, planteadas a partir de los datos de corpus. Del español en el
siglo XVI se ocupan tanto el trabajo de Beatriz Arias Álvarez y Juan Antonio
Hernández Mendoza como el de Marta Fernández Alcaide: el primero, del español
de Nueva España, y el segundo, de la comunicación entre el Nuevo Mundo y
España. Así, Arias Álvarez y Hernández Mendoza presentan el Corpus Electrónico
del Español Colonial Mexicano (COREECOM) y muestran cómo, a partir de los
datos de este corpus, puede estudiarse la variación y evolución de ciertos fenóme-
nos. Fernández Alcaide, en cambio, combina un pormenorizado análisis textual
con algunas observaciones de índole general, que destacan la importancia del
acceso a información sobre las primeras décadas de la colonia —infrarrepresen-
tadas en los grandes corpus—, acceso solo recientemente alcanzable gracias a la
recuperación de textos en proyectos como CHARTA o CORDIAM.
Por último, el citado método idiolectal es aplicado por Olivier Iglesias para
investigar la evolución de la subida de clíticos —es decir, la variación entre lo
puedo decir y puedo decirlo— en los últimos dos siglos. El autor investiga produc-
ciones textuales de seis individuos y confirma lo que con otros métodos se había
observado con respecto de la evolución del siglo XIX al XX, pero no lo que se
había supuesto para la evolución posterior, dando la razón, por tanto, a lo dicho
arriba (ver nota 3): el método idiolectal presenta nuevos retos y complementa los
resultados obtenidos a partir de otros enfoques.
En suma, el panorama presentado en este libro es amplio y permite ver algunas

de las principales áreas de los estudios que, con datos de corpus, intentan
reconstruir la historia de las lenguas iberorrománicas. Estos trabajos dan muestra
de una fase nueva de la lingüística histórica, una fase en la que se plantean
nuevos retos, pero en la que, al mismo tiempo, se perfilan nuevas soluciones.
7 Lista de corpus y bancos de datos citados

ADMYTE – Archivo Digital de Manuscritos y Textos Españoles,
http://www.admyte.com.
ALPI – Atlas Lingüístico de la Península Ibérica,
http://westernlinguistics.ca/alpi/more_info.php?global_lang=sp.
Biblia medieval – Andrés Enrique-Arias, Corpus Biblia medieval,
http://www.bibliamedieval.es.
CHARTA – Corpus Hispánico y Americano en la Red: Textos Antiguos,
http://www.charta.es/.
CICA – Joan Torruella, Corpus Informatitzat del Català Antic,
http://cica.cat.
CIPM – Corpus Informatizado do Português Medieval,
http://cipm.fcsh.unl.pt.
CODEA – Corpus de Documentos Españoles anteriores a 1700,
http://demos.bitext.com/codea/.
CODEA+2015 – Corpus de Documentos Españoles Anteriores a 1800,
http://textoshispanicos.es.
CODEMA – Corpus diacrónico de documentación malagueña,
http://www.corpuscharta.es/grupos.html.
CORDE – Real Academia Española, Corpus Diacrónico del Español,
http://corpus.rae.es/cordenet.html.
CORDEREGRA – Corpus diacrónico del español del reino de Granada (1492–1833),
CORDIAM – Virginia Bertolotti / Concepción Company, Corpus Diacrónico y Diatópico del
Español de América, http://www.cordiam.org.
COREECOM – Corpus electrónico del español colonial mexicano,
http://www.iifl.unam.mx/coreecom/.
CORHEN – Corpus Histórico del Español Norteño,
CORPES XXI – Real Academia Española, Corpus del español del siglo XXI,
http://web.frl.es/CORPES/view/inicioExterno.view.
CORPUSDELESPANOL – Mark Davies, Corpus del Español,
http://www.corpusdelespanol.org.
CORPUSDOPORTUGUES – Mark Davies/Michael Ferreira, Corpus do português,
http://www.corpusdoportugues.org.
COSER – Inés Fernández-Ordóñez, Corpus Oral y Sonoro del Español Rural,
http://www.lllf.uam.es/coser/index.php.
COTAGAL – Corpus de Textos Antiguos de Galicia,
CDH – Real Academia Española, Corpus del Nuevo diccionario histórico del español,
http://web.frl.es/CNDHE/view/inicioExterno.view.
CREA – Real Academia Española, Corpus de referencia del español actual,
http://corpus.rae.es/creanet.htm.
CREA (anotado) – Real Academia Española, Corpus de Referencia del Español Actual (CREA.
Versión anotada), http://web.frl.es/CREA/view/inicioExterno.view.
16 Johannes Kabatek
DITECA – Diccionario de Textos Concejiles de Andalucía,

http://www.arinta.uma.es.
esTenTen – Sketch Engine, Spanish Gigacorpus,
https://www.sketchengine.co.uk
GONDOMAR – Corpus dixital de textos galegos da Idade Moderna,
http://ilg.usc.es/gl/proxectos.
IMPACT-es – Diachronic corpus of historical Spanish,
http://www.digitisation.eu/tools-resources/language-resources/impact-es/.
P.S. – Post Scriptum – Arquivo digital da escrita quotidiana em Portugal e Espanha na época
moderna, http://www.clul.ul.pt/pt/recursos/462-post-scriptum-home.
TMILG – Tesouro Medieval Informatizado da Lingua Galega,
https://ilg.usc.es/tmilg/.
8 Referencias bibliográficas
Baldinger, Kurt, La formación de los dominios lingüísticos en la Península Ibérica, trad. de
E. Lledó y M. Macau, 2a. ed. corr. y aum., Madrid, Gredos, 1971.
Barra Jover, Mario, Método y teoría del cambio lingüístico: argumentos en favor de un «método
idiolectal», in: García Martín, José María (dir.), Actas del IX Congreso Internacional de
Historia de la Lengua Española (Cádiz 2012), Madrid, Iberoamericana/Vervuert, 2015,
263–292.
Díez de Revenga, Pilar, La tradición textual en la Edad Media: una muestra de los siglos XIII y XIV,
in: Torrens Álvarez, María Jesús/Sánchez-Prieto Borja, Pedro (edd.), Nuevas perspectivas
para la edición y el estudio de documentos hispánicos antiguos, Bern et al., Lang, 2012,
47–58.
Enrique-Arias, Andrés, Dos problemas en el uso de corpus diacrónicos del español: perspectiva y
comparabilidad, Scriptum Digital 1 (2012), 85–106.
Kabatek, Johannes, ¿Es posible una lingüística histórica basada en un corpus representativo?,
Iberoromania 77 (2013), 8–28.
Kabatek, Johannes, Lingüística empática, Rilce 30–3 (2014), 705–723.
Kabatek, Johannes, reseña de Torrens Álvarez/Sánchez-Prieto Borja, Nuevas perspectivas para
la edición y el estudio de documentos hispánicos antiguos, Bern et al., Lang, 2012, Roma-
nische Forschungen 128 (2016), 243–248.
Koch, Peter/Oesterreicher, Wulf, Lengua hablada en la Romania: francés, italiano, español, trad.
de Araceli López Serena, Madrid, Gredos, 2007.
Labov, William, The use of the present to explain the past, in: Heilmann, L. (ed.), Proceedings of
the 11th International Congress of Linguistics, Bologna, il Mulino, 1975, 825–851.
Marcos Marín, Francisco, La biblioteca electrónica en el Archivo Digital de Manuscritos y Textos
Españoles, Lexis XVII, (1993), 33–56.
Miguel Franco, Ruth, Documentos originales y cartularios del archivo de la Catedral de Toledo:
propuestas para un estudio comparativo, in: Torrens Álvarez, María Jesús/Sánchez-Prieto
Borja, Pedro (edd.), Nuevas perspectivas para la edición y el estudio de documentos
hispánicos antiguos, Bern et al., Lang, 2012, 197–218.
Morala, José Ramón, «Originales y copias», El proceso de castellanización en el área leonesa, in:
María Teresa Echenique Elizondo/Juan Sánchez Méndez (edd.), Actas del Quinto Congreso
Internacional de Historia de la Lengua Española (Valencia, 31.1.–4.2. 2000), vol. 1, Madrid,

Gredos, 2002, 1335–1345.
Octavio de Toledo y Huerta, Álvaro/Rodríguez Molina, Javier, La imprescindible distinción entre
texto y testimonio: el CORDE y los criterios de fiabilidad lingüística, Scriptum Digital 5 (2016)
(en prensa).
Oesterreicher, Wulf, La «recontextualización» de los géneros medievales como tarea hermenéu-
tica, in: Jacob, Daniel/Kabatek, Johannes (edd.), Lengua medieval y tradiciones discursivas
en la Península Ibérica. Descripción gramatical – pragmática histórica – metodología,
Frankfurt am Main/Madrid, Vervuert/Iberoamericana, 2001, 199–232.
Oesterreicher, Wulf, Mit Clio im Gespräch. Zu Anfang, Entwicklung und Stand der romanistischen
Sprachgeschichtsschreibung, in: Hafner, Jochen/Oesterreicher, Wulf (edd.), Mit Clio im
Gespräch. Romanische Sprachgeschichten und Sprachgeschichtsschreibung, Tübingen,
Narr, 2007, 1–35.
Osthoff, Hermann/Brugmann, Karl, Morphologische Untersuchungen auf dem Gebiete der indo-
germanischen Sprachen, Leipzig, Hirzel, 1878.
Parodi, Giovanni, Lingüística de Corpus: de la teoría a la empiria, Frankfurt/Madrid, Iberoameri-
cana, 2010.
Price, Kenneth M., Social Scholarly Editing, in: Schreibman, Susan/Siemens, Ray/Unsworth,
John, A New Companion to Digital Humanities, New York, Wiley, 2016, 137–149.
Pusch, Claus D./Kabatek, Johannes/Raible, Wolfgang (edd.), Romance Corpus Linguistics II.
Corpora and Diachronic Linguistics, Tübingen, Gunter Narr, 2005,
Rosemeyer, Malte/Enrique-Arias, Andrés, A match made in heaven. Using parallel corpora and
multinomial logistic regression to analyze the expression of possession in Old Spanish,
Language Variation and Change, 2016 (en prensa).
Santiago Lacuesta, Ramón, Originales y copias en la documentación del monasterio de Sahagún,
in: Orígenes de las lenguas romances en el Reino de León. Siglos IX–XII, León, Archivo
Histórico Diocesano, 2004, 533–563.
Torrens Álvarez, María Jesús/Sánchez-Prieto Borja, Pedro (edd.), Nuevas perspectivas para la
edición y el estudio de documentos hispánicos antiguos, Bern et al., Lang, 2012.
I. Contribuciones a la lingüística de corpus
desde las lenguas iberorrománicas
Andrés Enrique-Arias
Sobre la noción de perspectiva en lingüística
de corpus: algunas ventajas de los corpus
paralelos
1 Introducción1
La investigación en diacronía del español se ha visto beneficiada en los tiempos
recientes por la disponibilidad de grandes bases de datos textuales de uso libre
en la red. La funcionalidad más inmediata de estos recursos —la posibilidad de
rastrear en un instante a lo largo de millones de palabras de textos históricos— ha
facilitado la aplicación de análisis cuantitativos a gran escala en los estudios de
la historia del español.
La amplia aceptación de estos nuevos recursos entre los investigadores se ha
visto acompañada de un número apreciable de trabajos que examinan diversos
problemas metodológicos relacionados con la aplicación de los corpus informati-
zados a investigaciones de orientación diacrónica. En términos generales estos
análisis críticos se centran en señalar problemas relacionados con los parámetros
de representatividad (carencias de la composición de los corpus) (Kabatek 2013);
calidad (cuestiones filológicas relacionadas con los criterios de edición y presen-
tación de los textos) (Sánchez-Prieto Borja 2012) y acceso (inconvenientes que
dificultan ciertos tipos de búsquedas) (Rojo 2010; Davies 2009).
Sin embargo, no es tan frecuente detenerse a analizar el aspecto de los corpus
informatizados que sin duda conlleva el cambio metodológico más radical respec-
to de los medios tradicionales; me refiero al parámetro de perspectiva, entendido
como la manera en que el usuario del corpus accede a los datos lingüísticos. En el
1 Una parte sustancial de las investigaciones reflejadas en este trabajo se llevaron a cabo
durante una estancia de investigación en el Departamento de Lingüística de Harvard University
(2013–2015). Quisiera expresar mi gratitud a Francisco J. Pueyo Mena, autor de los desarrollos
informáticos del proyecto Biblia Medieval, por su continuado apoyo y por sus atinadas observa-
ciones. También estoy en deuda con Luis M. Girón Negrón por su asesoramiento en cuestiones
relacionadas con la Biblia Hebrea, con Malte Rosemeyer por los análisis estadísticos del trabajo
de los posesivos y con Claudio Garrido Sepúlveda por haberme proporcionado los ejemplos de
estructuras condicionales. Cualquier error es la sola responsabilidad del autor.
Andrés Enrique-Arias: Universitat de les Illes Balears

22 Andrés Enrique-Arias
ámbito de la visión en el espacio físico entendemos que la perspectiva es el

«conjunto de objetos que desde un punto determinado se presentan a la vista del
espectador». En la investigación a base de corpus definiré perspectiva como el
conjunto de estructuras lingüísticas que una técnica metodológica nos permite
observar (y simultáneamente el conjunto de estructuras que quedan fuera de
nuestro alcance). Los corpus informatizados suponen un cambio drástico en lo
que se refiere al parámetro de perspectiva pues, frente a la lectura lineal del texto
completo que se daba en las investigaciones anteriores a la llegada de los grandes
corpus en línea, en estas nuevas herramientas se accede a los datos mediante una
máquina de búsqueda. Esta vía de acceso a los datos condiciona de manera
fundamental la investigación de fenómenos de variación y cambio diacrónicos a
partir de los corpus informatizados.
En este trabajo me propongo llamar la atención sobre los problemas metodo-
lógicos del uso de corpus que tienen relación con el parámetro de perspectiva a
partir del análisis de fenómenos diversos de la diacronía del español. Al mismo
tiempo me propongo mostrar cómo el estudio de la variación lingüística a partir de
versiones paralelas permite encontrar vías alternativas para aliviar estos proble-
mas. El artículo está estructurado como sigue. En la sección 2 presento una
descripción general de los corpus diacrónicos del español de uso más frecuente así
como las características del corpus Biblia Medieval (en adelante BM), un corpus
paralelo de traducciones bíblicas medievales. A continuación en la sección 3 me
centro en la noción de perspectiva e identifico las diferentes características que
respecto de este parámetro caracterizan a la investigación tradicional con textos
impresos, con corpus informatizados convencionales y con un corpus paralelo
como BM. Seguidamente en la sección 4 muestro algunos ejemplos concretos de
investigaciones de fenómenos de la historia del español a partir de datos extraídos
del corpus BM para mostrar cómo la comparación de textos paralelos puede
ayudar a superar algunas de las limitaciones de los corpus convencionales.
2 Corpus convencionales y corpus paralelos

Las grandes bases textuales de uso común entre los investigadores de la dia-
cronía del español, como los corpus académicos (CORDE <www.rae.es> y CDH
<www.frl.es>) o el Corpus del español de Mark Davis (en adelante CE) <www.
corpusdelespanol.org> además de otros corpus de menor tamaño que han ido
surgiendo en los últimos años constituyen ejemplos prototípicos de lo que puede
considerarse un corpus convencional. Tales corpus constan de una base de datos
informatizada que contiene textos históricos de diferentes épocas y una herra-
mienta de búsqueda para recuperar información de los textos. Con el fin de
Sobre la noción de perspectiva en lingüística de corpus 23
acceder a los datos, los usuarios necesitan introducir una palabra o frase en un
cuestionario de consulta y la aplicación de búsqueda crea una concordancia que
muestra todos los ejemplos del texto buscado en el corpus junto a su contexto de
aparición, con información básica sobre el texto de origen, como título, autor y
fecha de composición.
A diferencia de las bases de datos textuales que acabo de describir, BM es un
corpus paralelo, es decir, una colección de textos originales y sus equivalentes de
traducción. En los corpus paralelos los textos están alineados de tal forma que es
posible identificar palabras o frases en el texto original y emparejarlas con la
expresión correspondiente en las demás versiones paralelas.2 En el caso de BM el
corpus está compuesto por la Biblia hebrea y la Vulgata Latina, que son los textos
originales, y las versiones en español medieval.3 Así, cuando el usuario introduce
una consulta para cualquiera de las versiones paralelas en el corpus, ya sea en el
texto original, o en cualquiera de las trece versiones en español medieval que
contiene, la aplicación de búsqueda muestra todas las ocurrencias de la consulta
en la versión correspondiente al lado de los equivalentes de traducción en todas
las demás versiones.
El corpus BM, consta de más de cinco millones de palabras de textos com-
puestos entre ca. 1200 y 1450, y va acompañado de 17.000 imágenes digitales de
los códices bíblicos medievales. El corpus permite dos tipos básicos de búsque-
das: por pasaje y por palabra. Cuando se busca por pasaje el usuario selecciona el
libro y el capítulo correspondiente a la sección que quiere consultar y la pantalla
muestra todas las versiones disponibles para ese pasaje en particular. Todo el
texto que aparece en la interfaz web es, al mismo tiempo, un enlace que descarga
imágenes digitales del manuscrito en que aparece el texto en cuestión.
Además de las consultas sencillas que muestran las diferentes versiones de la
Biblia en un pasaje concreto, también es posible realizar búsquedas de una
palabra o frase en una versión particular, o en el latín o el texto hebreo, para a
continuación, comparar la forma en que la palabra o frase se expresa en las otras
versiones de la Biblia. Es posible además hacer búsquedas con parámetros com-
plejos, como por ejemplo buscar los versículos que contienen una expresión dada
en una de las versiones que coinciden con otra expresión en otra versión, o incluso
búsquedas negativas (por ejemplo buscar los versículos que no contengan deter-
minada expresión). Otra funcionalidad importante es que tanto la totalidad del
2 Para un estado de la cuestión sobre la metodología de los corpus paralelos véase McEnery /
Xiao (2007).
3 Para cuestiones relacionadas con la solidez metodológica del uso de textos bíblicos en la
investigación lingüística, véase Resnik et al. (1999); Kaiser (2005); De Vries (2007); Enrique-Arias
(2008, 2009, 2012).
corpus como las búsquedas concretas hechas por el usuario se pueden descargar
como archivo de texto; de este modo el investigador puede modificar o analizar
los textos usando los programas de su preferencia.4
3 Perspectiva
El diseño y la arquitectura de un corpus condicionan la perspectiva de sus
usuarios, es decir, la manera en que los estudiosos acceden a los datos lingüísti-
cos. Como ya he señalado, los formatos electrónicos han supuesto un cambio
sustancial desde el punto de vista del acceso al texto por parte de los destinatarios
(Enrique-Arias 2015a, 398). En el libro impreso en soporte físico la vía de acceso a
los datos históricos se produce mediante la lectura lineal, de la que se pueden
derivar incursiones en los elementos auxiliares (aparato crítico, glosario, índice,
concordancias); es decir, el lector va procesando los contenidos del texto en su
orden de aparición para, en su caso, detenerse a hacer un análisis más detallado
de formas o estructuras lingüísticas concretas. En el texto electrónico es mucho
más habitual acceder al texto a través de una concordancia generada por una
máquina de búsqueda. Así pues, el usuario accede a un listado de formas concre-
tas con información contextual limitada para, de acuerdo con sus intereses,
seleccionar las formas relevantes y consultar por extenso su contexto de ocurren-
cia en el texto. Dicho de manera más esquemática, en la lectura lineal se accede a
las estructuras lingüísticas en el orden contexto → forma, mientras que en el
corpus informatizado se accede en el orden contrario, es decir, forma → contexto.
La principal limitación del acceso a las estructuras lingüísticas en el orden forma
→ contexto, típico de los corpus electrónicos, es que obliga a conocer de ante-
mano, a partir de gramáticas históricas, diccionarios o estudios previos, cuáles
son las formas utilizadas para expresar la función que el investigador se propone
rastrear en el corpus (Enrique-Arias 2012, 88). El mayor inconveniente es que, las
formas desconocidas, no documentadas o que no están en un formato reconocible
quedan fuera de los resultados de las búsquedas y por tanto no son recuperables;
por el contrario, en la lectura lineal de textos impresos en soporte físico no existe
esta limitación. Por ello, el modo de acceso a las estructuras lingüísticas en los
medios electrónicos es un elemento crucial que no puede ignorarse a la hora de
entender las limitaciones de la lingüística de corpus.
4 En la web donde está alojado el corpus se pueden descargar manuales en los que se explican
con detalle todas las funcionalidades del corpus así como los criterios empleados en la trans-
cripción de los textos.
En la metodología de los textos paralelos informatizados como Biblia Medie-

val también se accede a los resultados mediante una herramienta de búsqueda;
no obstante el acceso a las versiones paralelas nos proporciona una perspectiva
más abarcadora e inclusiva que la de los corpus convencionales. En el corpus
paralelo partimos de ejemplos específicos integrados en su contexto y observa-
mos las formas utilizadas en los equivalentes de traducción de las versiones
paralelas. Se trata de búsquedas orientadas a descubrir la variedad de formas que
comparten el significado o la función del elemento (i.e. palabra o frase) que se ha
introducido en la casilla de búsqueda. Es decir, en el corpus paralelo procedemos
en el orden función → forma.
La otra característica esencial de las versiones paralelas es que nos aseguran
la existencia de un tertium comparationis —ya sea en el texto original o en alguno
de sus equivalentes de traducción— a partir del cual podemos establecer de
manera directa relaciones de equivalencia entre dos comparanda. En otras pala-
bras, si dos estructuras A y B funcionan como equivalentes de traducción de Y
podemos concluir que tales estructuras están en una relación de equivalencia, es
decir, son elementos intercambiables en un mismo contexto de ocurrencia. En
cambio, cuando dos estructuras A y B aparecen en dos pasajes o textos diferentes
en un corpus convencional, en ausencia de un tertium comparationis es más difícil
establecer esa relación de equivalencia. Dado que para estudiar cualquier fenóme-
no variable (y por ende el cambio lingüístico) es crucial definir el contexto de la
variación, es decir, qué formas son intercambiables en un mismo contexto de
ocurrencia, la perspectiva que nos proporciona un corpus paralelo es una herra-
mienta metodológica de extraordinario valor.
En las páginas que siguen paso a exponer y ejemplificar las ventajas que
ofrece la perspectiva de los corpus paralelos.
4 Ventajas de los corpus paralelos

4.1 Recursos para la comprensión del texto
Un aspecto de gran importancia a la hora de evaluar la utilidad de un corpus

informatizado es el relativo a los recursos de los que dispone el usuario para
llegar a una mejor comprensión de los textos de un corpus. Los textos medievales
son difíciles de entender porque quedan muy lejos lingüística y culturalmente de
las convenciones del lector actual; este problema se ve agravado por el hecho de
que en muchos casos no tenemos acceso al contexto en que se produce el texto
pues desconocemos por completo información como el perfil social del autor y
sus destinatarios o la fecha y lugar de composición. Todo ello hace que existan
numerosos pasajes de difícil interpretación o que en ocasiones sea imposible

distinguir errores de copista de lo que son lecturas genuinas no documentadas
(Kabatek 2013). En lo que respecta a este aspecto, bases de datos como el CORDE
y el CE nos dan una información mínima, pues contienen textos en una única
versión y no incluyen facsímiles de los originales. Ello supone que cuando el
investigador se encuentra ante una lectura desconcertante, aparentemente erró-
nea o de difícil interpretación no tiene los medios para siquiera verificar que no
hay un error de edición.
Una ventaja evidente de BM frente a los corpus convencionales es que, al
tratarse de un corpus paralelo de equivalentes de traducción, ofrece una informa-
ción más completa para facilitar la interpretación de las estructuras que contiene.
Ante una lectura cuestionable o de dudosa interpretación el investigador puede,
en primer lugar, consultar el facsímil para asegurarse de que la transcripción es
correcta; si una vez descartado un error de edición la lectura todavía suscita dudas
se puede aclarar su significado consultando el texto subyacente y las versiones
paralelas. Por ejemplo, en BM resulta inmediatamente evidente que la lectura
estruirá en la versión de Isaías 10:19 de E4 (una criatura los estruirá) es un error de
copia por escrevirá, pues en el original hebreo tenemos yiktəbēm y en el latino
scribet ‘escribirá’. Además en las versiones paralelas de Arragel, E3, Santillana y
General Estoria encontramos las formas escrevirá o escrivirá.5
El caso de la Biblia es especial pues nos encontramos ante el texto más
traducido, comentado y analizado de la literatura universal; a lo largo de su
historia el texto bíblico ha sido sometido a análisis meticulosos desde diferentes
tradiciones. Consideremos por ejemplo la lectura e llorólo su abuelo que en la
Biblia de Arragel traduce Génesis 37:35 (wa-yevekh oto aviw ‘y su padre lo lloró’).6
A la vista del texto fuente (aviw ‘su padre’), del contexto de la historia, y de las
demás traducciones (E3 e llorólo su padre; E7 tomó duelo por él su padre; E4 e lloró
lloró su padre) todo parece señalar que la lectura abuelo en la traducción de
Arragel es un error. Y sin embargo el análisis del fondo exegético de este pasaje
nos permite ver inmediatamente que estamos ante una lectura genuina; el traduc-
5 Todos los ejemplos de traducciones bíblicas medievales en castellano proceden del corpus BM
y han sido normalizados siguiendo en términos generales las normas de presentación crítica de
la red CHARTA (Corpus Hispánico y Americano en la Red: Textos Antiguos), disponibles en www.
charta.es. Para información completa sobre los manuscritos que han transmitido traducciones de
la Biblia y las abreviaturas que empleo para referirme a ellos, consúltese la página del proyecto
Biblia medieval (www.bibliamedieval.es).
6 El pasaje se refiere al momento en que los hermanos de José le muestran a su padre las ropas
rasgadas y ensangrentadas de su hermano dando a entender que ha sido devorado por una fiera
salvaje.
tor ha aprovechado la ambigüedad del posesivo de tercera persona en aviw ‘su

padre’ para introducir la interpretación, recogida en el Génesis Raba 84:22 y en los
comentarios a este pasaje de Rashi y Quimhi entre otros, que considera que el que
llora no es Jacob, padre de José, sino Isaac, padre de Jacob y por tanto abuelo de
José. Esta interpretación deriva de la opinión de algunos exégetas de que Jacob
tenía poderes proféticos y por tanto debía saber que su hijo no estaba muerto; en
tal caso no tenía motivos para llorar su muerte, así que siguiendo esa lógica su
padre se refiere al padre de Jacob, Isaac.7 Los textos bíblicos tienen por tanto la
ventaja de contar con una ingente cantidad de elementos para su análisis e
interpretación.8
4.2 Valor heurístico
Una de las ventajas principales de los textos paralelos es su función heurística,

que no tiene equivalente en otras fuentes de datos. Como ya hemos mencionado,
en un corpus convencional el investigador necesita conocer de antemano las
formas que son relevantes para rastrear el fenómeno que desean investigar. La
principal desventaja de este proceder es que, por muy bien que hagamos nuestro
trabajo previo de investigación de materiales de referencia, siempre existe el
riesgo de pasar por alto alguna forma relevante por no haber sido estudiada con
anterioridad: es decir, el valor heurístico del corpus queda severamente limitado
por la vía de acceso a los datos, que solamente nos permite rastrear lo que ya nos
es conocido. Por ejemplo, supongamos que queremos estudiar la evolución histó-
rica de los elementos exceptivos (es decir, los recursos lingüísticos utilizados para
expresar excepción). Si queremos usar un corpus convencional, primero tenemos
que consultar materiales de referencia y elaborar una lista de elementos que
puedan expresar esta función (por ejemplo, excepto, salvo, menos, fueras, etc.). A
continuación, realizamos búsquedas de estas formas y utilizamos, finalmente, los
resultados para examinar ejemplos específicos en su contexto funcional. Al proce-
7 Para un análisis de varios casos semejantes en los que las opciones de los traductores bíblicos
responden a un fondo exegético véase Girón Negrón / Enrique-Arias (2012).
8 Las herramientas de análisis lingüístico del corpus y el acceso al texto subyacente y a las
versiones paralelas no solamente sirven para aclarar pasajes oscuros sino que además son un
recurso efectivo para enfrentarse a problemas de autoría y de filiación de los textos. Por ejemplo,
Pueyo Mena / Enrique-Arias (2013) han podido determinar a partir de un análisis exhaustivo de
28 lemas hebreos y de sus correspondientes traducciones al castellano cuántas traducciones
diferentes hay en los once códices medievales que contienen romanceamientos cuatrocentistas
de la Biblia Hebrea.
der de esta forma estamos adoptando una perspectiva del tipo forma → función; la
consecuencia inmediata es que no hay manera de saber si el corpus contiene otros
elementos que pueden ser utilizados con la misma función y en los mismos
contextos, pues solamente exploramos las formas que conocemos de antemano.
El basarse exclusivamente en la literatura descriptiva existente equivale a dar por
hecho que la lengua medieval ya ha sido descrita de manera exhaustiva, una
afirmación que ningún lingüista se atrevería a suscribir.
La perspectiva de los textos paralelos es radicalmente diferente en este
aspecto. En un corpus como BM no es necesario partir de una lista exhaustiva de
las formas relevantes pues la exploración del corpus y las comparaciones con las
versiones paralelas nos guiarán en la búsqueda de las unidades de expresión
posibles para la estructura que se está investigando. En BM tenemos varias vías
para extraer los pasajes que contienen los elementos que son relevantes para
nuestra investigación. Podemos, por ejemplo buscar en el original latino formas
exceptivas conocidas como absque, praeter, nisi, non . . . sed, o hacer lo propio
con cualquiera de las palabras relevantes en la versión hebrea, o buscar las
formas que conozcamos en cualquiera de los textos en español, y luego observar
las formas que se utilizan en el mismo contexto y con las mismas funciones en las
versiones paralelas. A su vez, podemos buscar las formas que encontramos en
estos escarceos, lo cual dará lugar a más formas que pueden ser utilizadas para
nuevas búsquedas. Esta perspectiva, en que partimos de determinados conteni-
dos incorporados en el texto y observamos las formas empleadas en las versiones
paralelas (es decir, función → forma), facilita la observación de elementos que de
otro modo habrían sido ignorados.
Siguiendo este mismo sistema podemos, por ejemplo, rastrear la variedad de
elementos que expresan condicionalidad en el español medieval a partir de
búsquedas de las conjunciones condicionales del latín (si, nisi), o de conjuncio-
nes concesivas o temporales con esa función. En el ejemplo a continuación se
ilustra una búsqueda de antequam en 2Samuel: 3:13.
Vulg non videbis faciem meam antequam adduxeris Michol filiam Saul
E8 no me vengas veyer ata que traigas a Micol fija de Saúl
GE faré yo contigo amiztad muy buena a pleito que me traigas a Micol, fija de
Saul, e non nos veremos antes
E3 non veas mi rostro salvo que antes me traigas a Migal Fija de Saúl
E5 non parescas ante mí sin que me trayas delante ty a Mihal la fija de Saúl
Oxford non veas la faz mía ante que primera mente me trayas a Mical fija de Saúl
Santillana non veas mi rostro sin que traigas a Mical fija de Saúl
Arragel non veas mi cara a menos que tú contigo trayas a Micol fija de Saúl
En los resultados tenemos junto a los conocidos elementos temporales ata que,
ante que y los exceptivos salvo que, sin que, a menos que la expresión a pleito
que en la General estoria. Se trata de una forma que no hubiéramos buscado en

primera instancia y que posiblemente no haya sido registrada en materiales de
referencia. A su vez podemos hacer búsquedas de estas expresiones en el roman-
ce para encontrar otras o conocer mejor sus valores; por ejemplo, la búsqueda de
a pleito que nos permite encontrar otros dos pasajes de la General estoria que
confirman el valor condicional de esta estructura:
Ex 8:24 Dixo·l Faraón essora: Dexar vos é salir fasta alli a pleito que non vayades
d’allí adelant
1Sam 11: 2 lo faría a pleito que se le diesen todos a sacar los diestros ojos
Hay que destacar, no obstante, que un corpus paralelo como BM nunca debe ser
la única fuente de información en un estudio diacrónico. Otras fuentes, tales
como diccionarios, gramáticas, estudios, y sobre todo grandes corpus convencio-
nales, como CORDE o CE, son fuentes indispensables para asegurarse de que las
formas que descubrimos gracias al corpus paralelo no son solo palabras emplea-
das en traducción bíblica, sino que tienen empleo en otros géneros. Una búsque-
da de a pleito que en el CORDE revela que la forma aparece con valor condicional
en otras obras del corpus alfonsí.
4.3 Perspectiva abierta
Otra ventaja de la perspectiva función → forma empleada en la metodología de los

corpus paralelos de equivalentes de traducción es que, por ser mucho más abierta
que la de los corpus convencionales, permite analizar cualquier forma de expre-
sar un contenido de la lengua fuente. Como ya se ha comentado más arriba, en la
metodología de los corpus paralelos las búsquedas no están limitadas a marcado-
res explícitos ni a un número limitado de formas. Por ejemplo, si queremos
estudiar cómo se formaliza la pregunta retórica en el español medieval a partir de
un corpus convencional nos encontramos con el problema de que no hay una
forma fácil de rastrear estas estructuras automáticamente ya que se expresan de
múltiples maneras (Enrique-Arias / Burguera 2010); la única opción sería buscar
los pocos elementos explícitos que pueden expresar esta función (¿acaso. . .?
¿por ventura. . .? etc.). Por el contrario, en un corpus paralelo el acceso a las
fuentes es de gran ayuda en la localización de ocurrencias de esta estructura: un
rastreo de la partícula interrogativa hǎ– en la versión hebrea o numquid en la
latina nos permite localizar automáticamente un gran número de casos de pre-
guntas retóricas en el texto subyacente y examinar cómo están expresadas en las
versiones castellanas. Las traducciones de Job 6:5 en el ejemplo a continuación
ilustran esta funcionalidad del corpus paralelo.
Job 6:5
Vulgata numquid rugiet onager cum habuerit herbam

E8 Non brinará el asno salvaje cuando yerba oviere.
GE ¿Si non roerá el asno montés cuando oviere yerva?
E3 ¿Si gime el zebro sobre la yerva?
E7 ¿Quiçá rebuzna el zebro por la yerva?
Santillana ¿Si rebuzna el asno montés sobre la yerva?
Arragel Nunca ruge el zebro yerva fallando.
Ayala ¿Pues roerá el asno quando toviere yerva?
En las traducciones de Job 6:5 podemos observar la amplia variedad de expresio-

nes utilizadas para formalizar la interrogativa retórica: si non en GE, si en E3 y
Santillana; el marcador epistémico de duda quiçá en E5. El caso de la traducción
de E8 y Arragel es peculiar porque han optado por emplear una aserción con
cambio de polaridad (la pregunta retórica es una aserción encubierta: ‘¿acaso
gemirá el asno teniendo hierba?’ se interpreta como ‘nunca gime el asno cuando
tiene hierba’). La perspectiva de los corpus paralelos es tan abierta que nos
permite observar cualquier tipo de equivalente para la interrogativa retórica del
original, incluso cuando ese contenido no se expresa mediante una oración
interrogativa sino con una aserción.
Encontramos un caso semejante en el estudio de formas de expresar la
condicionalidad. Una de las búsquedas que podemos hacer en BM es localizar la
conjunción si en una versión romance y observar sus equivalentes en las versio-
nes paralelas. En las traducciones de Génesis 9:6 que presento a continuación se
ilustran las posibilidades de este tipo de búsqueda:
Gén 9:6
GE Otrossí, si alguno de vós esparziere sangre de otro omne, d’él la requiriré yo.
E3 El que vertiere la sangre del omne por omne, su sangre será vertida.
E7 E el que derramare sangre de omne por omne, su sangre sea derramada.
Santillana: E el que derramare la sangre del omne por los omnes, su sangre sea derramada.
Arragel Qualquier que sangre humana derramare, la su sangre derramada será.
Vulgata quicumque effuderit humanum sanguinem fundetur sanguis illius
En este caso solamente la General estoria emplea el si condicional mientras que

las demás versiones expresan la condicionalidad con una subordinada relativa
sustantivada. Se trata de estructuras condicionales muy frecuentes en el corpus
bíblico y de indudable interés para estudiar la expresión de la condicionalidad
pero que en ausencia de una conjunción condicional difícilmente podrían locali-
zarse mediante corpus convencionales.
4.4 Posibilidad de rastrear formas no explícitas y variables

ausentes
La perspectiva abierta de los corpus paralelos nos permite también localizar estruc-
turas en que no se emplea un marcador explícito. Esta es sin duda la característica
más singular de este tipo de corpus. Si, pongamos por caso, nos proponemos
emplear un corpus convencional para estudiar las formas de expresar la posesión
de tercera persona en español medieval nos encontramos con el problema de que
no es posible hacer un rastreo automático. Mientras que puede ser relativamente
sencillo extraer ejemplos que contengan formas del adjetivo posesivo (su casa, la
su casa, la su casa de él, la casa suya) las cosas se complicarán a la hora de extraer
los casos en que la posesión se expresa con dativo posesivo (le quemaron la casa, se
quitó el sombrero) pues nos vemos obligados a buscar todos los casos de le, les con
sus variantes formales (li, –l apocopado, ge) así como los casos de se, y a continua-
ción discriminar cuáles tienen una interpretación posesiva. Por último sería mate-
rialmente imposible extraer automáticamente los casos en que se da expresión de
la posesión con el artículo determinado o sin marca explícita.
Un corpus paralelo como BM nos permite superar este problema pues el
acceso al texto fuente nos guiará en la localización de ocurrencias del fenómeno
estudiado. Introduciendo la siguiente búsqueda en BM podemos localizar auto-
máticamente un gran número de casos de estructuras posesivas y examinar cómo
están expresadas en las versiones castellanas:
suus | sua | suum | sui | suae | suorum | suarum | suo | suis | suam | suos | suas | sue | eius | eorum
| illius | illorum | earum | ipsius | illarum
Los resultados de esta búsqueda nos permiten extraer ejemplos de todas las
maneras de expresar posesión, incluso los casos en que el traductor emplea un
pronombre de dativo o un sustantivo con artículo determinado. El ejemplo de
1Sam 17:49 a continuación ilustra cómo las traducciones de ‘su mano’ y ‘su
zurrón’ incluyen varios casos sin posesión explícita:
1Sam 17:49
E8 E metió la mano en su talega e sacó una guija.

GE Metió Ø mano a su çurrón e sacó una de aquellas cinco piedras.
E3 E tendió David su mano al alfaja e tomó d'ella piedra.
E5 E metió David su mano al çurrón e tomó dende una piedra.
Oxford E tendió David la mano suya al çurrón e tomó dende una piedra.
Santillana E estendio David su mano al çurrón e tomó dende una piedra.
Arragel E tendió David su mano al su çurrón e tomó dende una piedra.
El estudio de equivalentes de traducción nos permite extraer de manera inmedia-

ta ejemplos de las variantes que expresan posesión, incluso aquellas sin un
marcador posesivo explícito, en idénticos contextos de ocurrencia: su mano (E3,
E5, Santillana, Arragel), la mano (E8), la mano suya (Oxford) e incluso mano (GE).
Del mismo modo podemos observar la variación entre el çurrón/alfaja (E3, E5,
Oxford, Santillana) su çurrón/talega (E8, GE) y el su çurrón (Arragel). Esta funcio-
nalidad del corpus paralelo tiene gran interés para el estudio de la variación, pues
un elemento fundamental de la metodología variacionista es el principio de
responsabilidad (Labov 1982, 30). Este principio motiva la necesidad de conside-
rar todas y cada una de las realizaciones de una variable en relación a todos los
contextos posibles de ocurrencia en los datos examinados. Ello quiere decir que
el investigador debe considerar también las realizaciones sin marca explícita.
Además sería necesario incluir en el análisis cuantitativo los casos en que hay
ausencia de la variante, es decir, el número de ocurrencias de una variante se
calcularía a partir del total de contextos en que podría haber ocurrido (Taglia-
monte 2006, 72). En definitiva, los corpus paralelos están mejor equipados que
otras fuentes de datos a la hora de definir las realizaciones posibles de una
variable y delimitar sus contextos de ocurrencia.
4.5 Definición del contexto variable
Es un hecho aceptado en prácticamente todos los modelos teóricos de la lingüísti-

ca histórica que los cambios lingüísticos se dan en tres etapas: un estadio original
anterior al cambio, una fase en la que triunfa la nueva estructura y una etapa
intermedia en la que coexisten el sistema innovador y el original. Ese estadio
intermedio en el que compiten la forma innovadora y la original es el más
interesante para el investigador, ya que el estudio de los contextos que favorecen
la aparición de una forma frente a la otra permite obtener información sobre los
factores que motivan el cambio, los contextos en los que se ha originado y los
canales por los que se ha extendido. En consecuencia, los métodos cuantitativos
—sobre todo los análisis de coocurrencias de las variantes lingüísticas que compi-
ten en los mismos contextos de aparición— son la herramienta esencial en el
empleo de los corpus para investigar cambios lingüísticos.
Si el cambio lingüístico consiste, en esencia, en diferencias en la distribución
de las construcciones que compiten en un mismo contexto de ocurrencia, antes de
proceder al análisis cuantitativo necesitamos identificar y describir cuáles son las
construcciones en cuestión. En lingüística variacionista sincrónica esta definición
del contexto variable se lleva a cabo habitualmente mediante una combinación de
análisis cualitativo e introspección. Sin embargo, ninguno de estos métodos es
satisfactorio en la lingüística histórica; primero porque cuando se trata de datos

históricos no tenemos posibilidad de acceder directamente a las intuiciones de los
hablantes y en segundo lugar porque, como ya hemos mencionado, la perspectiva
de los corpus convencionales nos restringe a la búsqueda de formas conocidas de
antemano, y a partir del análisis de ejemplos aislados de esas formas nunca
podremos estar seguros de que hemos identificado todas las construcciones con
una función determinada. Por el contrario, la metodología de los corpus paralelos
permite aliviar el problema de la definición del contexto variable pues permite
rastrear una estructura lingüística y contrastarla con las expresiones que alterna-
tivamente pueden aparecer en el mismo contexto.
Consideremos como ejemplo la expresión de la posesión en español antiguo.
La mayor parte de la investigación sobre las construcciones posesivas se ha
centrado en la variación en el uso del posesivo precedido de artículo definido (la
mi casa) en contraposición al posesivo solo (mi casa) apelando a factores estilísti-
cos (Lapesa 2000 [1970]), estructurales (Wanner 2005, 39–40) o sintáctico-discur-
sivos (Company Company 2006). Hay sin embargo un aspecto fundamental que
se pasa por alto en estos trabajos: el hecho de que en español antiguo hay otras
construcciones que también sirven para expresar posesión, como la frase genitiva
con un pronombre personal (la casa de él), el adjetivo posesivo pospuesto (la casa
suya) o incluso un sintagma nominal sin marcador posesivo explícito (metió la
mano / metió mano) (Enrique-Arias 2015b).
La tendencia a estudiar solamente dos variantes en fenómenos de variación
morfosintáctica se debe a que así resulta más fácil controlar los factores que
influyen en la variación lingüística. El problema es que las investigaciones de
este tipo nos dan una imagen incompleta del fenómeno variable pues constru-
yen sus argumentos sobre la suposición de que el hablante tuviera solamente
dos opciones a la hora de expresar una relación de posesión. Y sin embargo,
como hemos visto en las traducciones de 1Sam 17:49 en la sección anterior, no
cabe duda de que en el mismo contexto de ocurrencia puede alternar un
número más alto de variantes (para abundante ejemplificación véase Enrique-
Arias 2015b).
En Rosemeyer / Enrique-Arias (2016) aprovechamos las ventajas metodológi-
cas de las versiones paralelas para hacer un estudio diacrónico de la expresión de
la posesión y superar los problemas que acabo de exponer. En lo que respecta al
problema de la definición del contexto variable, BM permite la comparación
directa de las versiones paralelas y confirmar mediante la observación empírica
cuáles son las variantes de la expresión de la posesión que alternan en los
mismos contextos de ocurrencia y que en nuestro caso hemos reducido a cuatro:
artículo más posesivo (la su casa), posesivo solo (su casa), construcción genitiva
(la casa de él) y sintagma nominal sin marcador posesivo explícito (la casa).
Ahora bien, nuestro objetivo de estudiar la interacción entre las cuatro

variantes seleccionadas se encuentra con otro problema: los medios estadísticos
habituales de cálculo de regla variable trabajan con dos variantes (análisis
binomial). Para superar este problema hemos aplicado un análisis de regresión
logística multinomial que permite calcular la probabilidad del empleo de cada
una de las variantes frente al posesivo sin determinante (su casa) que considera-
mos variante por defecto por ser la más frecuente. No nos cabe duda de que este
modelo es mucho más cercano al uso lingüístico real ya que refleja el hecho de
que los hablantes pueden optar por más de dos variantes en la expresión de la
posesión.
La combinación del corpus paralelo de traducciones y el análisis de regresión
logística multinomial nos permite modelar la variación en la expresión de la
posesión en castellano medieval teniendo en cuenta la interacción de las cuatro
variantes consideradas de acuerdo con doce factores explicativos. Para cada uno
de los contextos estudiados el análisis nos dice qué estructura alcanza un nivel
de probabilidad lo suficientemente alto como para constituir un competidor del
posesivo sin determinante. Por ejemplo, el artículo más posesivo (la su casa)
compite con el posesivo solo (su casa) en primera y segunda persona, cuando el
poseedor es Dios y en pasajes líricos. En otros contextos de uso, en particular
cuando el poseedor es inanimado, cuando hay un pronombre dativo o cuando se
trata de posesión inalienable la estructura que aumenta su probabilidad hasta
rivalizar con el posesivo solo es el sintagma nominal sin marcador posesivo
explícito (la casa).9 Al mismo tiempo, en lo que respecta a la evolución diacróni-
ca, los resultados del análisis probabilístico demuestran que en el paso del
siglo XIII al XV pierden peso los factores de tipo estructural pero se mantienen los
de tipo estilístico.
No es este el lugar de explicar en detalle los resultados, que son extensos y
complejos; quisiera fundamentalmente destacar que la perspectiva de los corpus
paralelos permite solucionar algunos de los problemas asociados con el estudio
de la variación en textos antiguos y así investigar con bases empíricas sólidas y
perspectivas novedosas casos complejos de variación y cambio en la historia del
español.
9 En nuestro análisis consideramos también las interacciones entre los distintos factores pues
estos no son enteramente independientes. Por ejemplo, la animacidad del poseedor se solapa con
la persona y el estatus pues cuando se trata de la primera o la segunda persona, o cuando es un
ser de estatus superior como Dios o el rey, el poseedor es necesariamente animado. Lo mismo
sucede con la presencia de un pronombre dativo o la posesión inalienable, factores que están
estrechamente asociados con la estructura sin marcador posesivo explícito.
4.6 Elementos relacionados por significado o función en

común
Los resultados de las búsquedas en los corpus convencionales, organizados en

concordancias, nos abocan a observar las formas investigadas en su contexto
sintagmático inmediato. En la perspectiva de los corpus paralelos la existencia de
un tertium comparationis (típicamente en el original pero también en las versiones
paralelas) permite establecer relaciones entre formas a partir de valores, funcio-
nes o significados afines. A nivel léxico, por ejemplo, podemos localizar las
diferentes traducciones de un mismo lema en el original latino o hebreo y obtener
listas de términos relacionados semánticamente. Si rastreamos exhaustivamente
las traducciones de sar y nasí ‘capitán’ en el corpus podremos obtener un
inventario de palabras relacionadas con el liderazgo en el ámbito militar: adelan-
tado, alcalde, alférez, alguazil, cabdillo, cabecera, capitán, carcelero, cavallero,
condestable, contado, escogido, familiar, grande, juez, mayor, mayoral, mayordo-
mo, mensajero, oficial, príncipe, varón. Del mismo modo, si queremos estudiar el
vocabulario de las estructuras sociales o comunitarias podemos buscar edá y
cahal ‘congregación’ y extraer la siguiente lista de voces: ayuntamiento, cabildo,
compaña, colación, concejo, concilio, congregación, egleja, gente, pueblo, repúbli-
ca, sinagoga (Pueyo Mena/Enrique-Arias 2013). Este mismo principio puede apli-
carse a otros elementos, como marcadores del discurso, conjunciones, preposi-
ciones o palabras gramaticales y así observar relaciones que no podemos captar
desde la perspectiva del corpus convencional.
También es posible hacer el ejercicio inverso y rastrear a qué términos del
original corresponde una misma voz romance. Esta posibilidad puede servir para
trazar cómo a través de la actividad traductora se incorporan nuevos términos y
acepciones al acervo léxico del castellano. Por ejemplo, a comienzos del siglo XV
la palabra nación empieza a adquirir un significado político innovador como
‘agrupamiento humano de un mismo país y regido por un mismo gobierno’ (Sonia
Fellous (2001, 92) señala que en el Libro de los exemplos, de 1421–1423 el término
nación se emplea con ese significado). ¿Reflejan los romanceamentos bíblicos
del XV esta nueva acepción? Revisemos la Biblia de Arragel, que es la versión
cuatrocentista en la que mejor se aprecian los anticipos de la modernidad prehu-
manista latinizante (Pueyo Mena/Enrique-Arias 2015). Arragel emplea el término
en 41 ocasiones lo cual es un número bastante alto comparado con las demás
versiones del hebreo que prefieren términos como gente o pueblo. En 37 casos
nación se corresponde con palabras hebreas que expresan el significado ‘plurali-
dad de personas’ sin una connotación política: 28 ocurrencias de nación traducen
goy ‘extranjero’, cinco se corresponden con areŝ ‘tierra, región’, en dos ocasiones
traducen ‘am ‘pueblo’ y en una reflejan ’umim ‘pueblo’ y mišpaḥah ‘clan’. Arragel
es además consciente de la asociación de la palabra con nacer, pues la emplea

tres veces para traducir šegar ‘prole, crías’ e incluso biṭnam ‘útero’ en una
ocasión.10 El empleo de nación en la traducción de Arragel a diferencia de otras
traducciones de la época se explicaría como resultado de su tendencia a incorpo-
rar latinismos para acercar el romance al texto de la Vulgata (Enrique-Arias 2004,
2006) y no tanto con la intención de adoptar el significado político del término: la
palabra coincide en 19 ocasiones con la presencia de natio en la traducción de
Jerónimo.
5 Conclusión
En este trabajo he presentado una serie de problemas metodológicos del uso de
corpus informatizados que tienen relación con el parámetro de perspectiva para
mostrar cómo la vía de acceso a los datos condiciona de manera fundamental la
investigación de fenómenos de variación y cambio en la historia del español. En
este sentido el corpus BM constituye un complemento útil y valioso de los corpus
existentes por ofrecer una perspectiva que conlleva ventajas metodológicas
sustanciales. En primer lugar, la perspectiva abierta de los corpus paralelos
permite extraer y analizar sin restricciones las formas utilizadas para expresar
una función o significado. Del mismo modo, los textos paralelos facilitan el
estudio de la variación, pues permiten la comparabilidad inmediata de estructu-
ras que se insertan en los mismos contextos de ocurrencia. En el cuadro a
continuación se presentan resumidas las características de los corpus paralelos
en lo que respecta al parámetro de perspectiva y se contrastan con las caracterís-
ticas de los corpus convencionales.
10 Enumero a continuación los pasajes concretos en que aparecen estas voces: goy ‘extranjero’:
Génesis 10:5, Isaías 5:26, 11:12, 14:9, 25:7, 33:3, Ezequiel 25:10, 28:25, 29:12, 30:23, 30:26, 36:3,
Oseas 8:10, Joel 4:2, Amos 9:9, Zacarías 14:14, Salmos 18:50, 22:28, 22:29, 44:12, 79:10, 106:27,
106:47, 110:6, 147:20, 149:7, Crónicas 2 32:23, 33:2; areŝ ‘tierra, región’: Isaías 14:9, Ezequiel 22:15,
25:7, 36:19, 36:24; ‘am ‘pueblo’: Ezequiel 28:19, Ester 3:6; ’umim ‘pueblo’: Salmos 108:4; mišpaḥah
‘clan’: Amos 3:2; šegar ‘prole, crías’: Deuteronomio 7:13, 28:4, 28:18; biṭnam ‘útero’: Oseas 9:16.
Hay además dos casos en que Arragel utiliza la palabra en amplificaciones sin correspondencia
en el texto fuente: Génesis 6:4, Crónicas 1 16:29.
Cuadro 1: Parámetro de perspectiva: características de los corpus paralelos
Corpus convencionales: forma → función Versiones paralelas: función → forma
elementos mínimos para comprender el texto más recursos para comprender el texto
limitación a buscar y encontrar lo que ya es valor heurístico: las versiones paralelas nos
conocido permiten descubrir formas relevantes
búsqueda de una lista cerrada de elementos perspectiva abierta: búsqueda de cualquier

elemento
rastreo de elementos explícitos rastreo de cualquier forma de expresión
formas en diferentes contextos de ocurrencia análisis de formas en competición en el mismo

contexto de ocurrencia
acceso a colocaciones (relaciones acceso a relaciones de diversos tipos

sintagmáticas en el contexto inmediato) (sintagmáticas, paradigmáticas, significados
afines o funciones)
Es de esperar que la disponibilidad de BM facilite la aplicación del método de los

corpus paralelos en los estudios de historia de la lengua y permita enriquecer
desde una perspectiva teórica la comprensión de los fenómenos de cambio y
variación del español en perspectiva diacrónica.
6 Bibliografía
Company Company, Concepción, Persistencia referencial, accesibilidad y tópico. La semántica
de la construcción artículo + posesivo + sustantivo en el español medieval, Revista de
Filología Española 86:1 (2006), 65–103.
Davies, Mark, Creating Useful Historical Corpora: A Comparison of CORDE, the Corpus del
Español, and the Corpus do Português, in: Enrique-Arias, Andrés (ed.), Diacronía de las
lenguas iberorromances: nuevas perspectivas desde la lingüística de corpus, Frankfurt am
Main/Madrid, Vervuert/Iberoamericana, 2009, 137–66.
De Vries, Lourens, Some remarks on the use of Bible translations as parallel texts in linguistic
research, in: Cysow, Michael/Wälchli, Bernhard (edd.), Parallel Texts: Using translational
equivalents in linguistic typology, Sprachtypologie und Universalienforschung 60 (2007),
95–99.
Enrique-Arias, Andrés, Texto subyacente hebreo e influencia latinizante en la traducción de la
Biblia de Alba de Moisés Arragel, in: Alsina, Victòria et al: Traducción y estandarización. La
incidencia de la traducción en la historia de los lenguajes especializados, Frankfurt am
Main/Madrid, Iberoamericana/Vervuert, 2004, 99–111.
Enrique-Arias, Andrés, Sobre el parentesco entre la Biblia de Alba y la Biblia de la Real Academia
de la Historia ms. 87, Romance Philology 59 (2006), 21–43.
Enrique-Arias, Andrés, Biblias romanceadas e historia de la lengua, in: Company, Concepción/

Moreno de Alba, José (edd.), Actas del VII Congreso Internacional de Historia de la Lengua
Española, vol. 2, 2008, 1781–1794.
Enrique-Arias, Andrés, Ventajas e inconvenientes del uso de Biblia medieval (un corpus paralelo
y alineado de textos bíblicos) para la investigación en lingüística histórica del español, in:
Enrique-Arias, Andrés (ed.), Diacronía de las lenguas iberorrománicas: nuevas aportaciones
desde la lingüística de corpus, Frankfurt am Main/Madrid, Iberoamericana/Vervuert, 2009,
269–283.
Enrique-Arias, Andrés, Dos problemas en el uso de corpus diacrónicos del español: perspectiva y
comparabilidad, Scriptum digital 1 (2012), 85–106.
Enrique-Arias, Andrés, Edición digital y corpus diacrónicos: problemas en la edición de textos
históricos producidos en un entorno bilingüe, in: Sánchez Méndez, Juan Pedro/Torre,
Mariela de la (edd.), Problemas y métodos en la edición y el estudio de documentos
hispánicos antiguos, Valencia, Tirant lo Blanch, 2015, 395–406 (= 2015a).
Enrique-Arias, Andrés, La metodología de los corpus paralelos aplicada al estudio de fenómenos
complejos de variación morfosintáctica. El caso de los posesivos del español medieval, in:
García Martín, José María, et al. (edd.), Actas del IX Congreso Internacional de Historia de la
Lengua Española, vol. I, Madrid, Iberoamericana, 2015, 731–745 (= 2015b).
Enrique-Arias, Andrés/Burguera, Joan, Variación y cambio en la formalización de la interrogación
retórica en la historia del español, Comunicación leída en el XXVI Congreso Internacional de
Lingüística y Filología Románicas (Universidad de Valencia, 6–11 de septiembre 2010).
Enrique-Arias, Andrés/Camargo Fernández, Laura, Problemas en torno a la caracterización de un
marcador del discurso en español medieval: el caso de he, in: Borreguero Zuloaga, Marga-
rita/Gómez-Jordana Ferary, Sonias, (edd.), Les marqueurs du discours dans les langues
romanes: une approche contrastive, Limoges, Lambert Lucas, 2015, 323–331.
Girón Negrón, Luis M./Enrique-Arias, Andrés, La biblia de Arragel y la edición de traducciones
bíblicas del siglo XV, Helmantica 63 (2012), 291–309.
Kaiser, Georg A., Bibelübersetzungen als Grundlage für empirische Sprachwandeluntersuchun-
gen, in: Pusch, Claus D./Kabatek, Johannes/Raible, Wolfgang (edd.), Romance Corpus
Linguistics II. Corpora and Diachronic Linguistics, Tübingen, Gunter Narr, 2005, 71–83.
Labov, William, Building on empirical foundations, in: Lehmann, Winfred P./Malkiel, Yakov
(edd.), Perspectives on Historical Linguistics, Amsterdam/Philadelphia, John Benjamins,
1982, 17–92.
Lapesa, Rafael, Sobre el artículo ante posesivo en castellano antiguo, in: Cano, Rafael/Echeni-
que, M. Teresa (edd.), Estudios de morfosintaxis histórica del español, Madrid, Gredos,
2000 [1971], 413–435.
McEnery, Tony/Xiao, Zhonghua, Parallel and comparable corpora: The state of play, in: Kawagu-
chi, Yuji, et al. (edd.), Corpus-Based Perspectives in Linguistics, Amsterdam/Philadelphia,
John Benjamins, 2007, 131–145.
Pueyo Mena, Francisco J./Enrique-Arias, Andrés, Los romanceamientos castellanos de la Biblia
Hebrea compuestos en la Edad Media: manuscritos y traducciones, Sefarad 73:1 (2013),
165–224.
Pueyo Mena, Francisco J./Enrique-Arias, Andrés, Innovación y tradición en el léxico de las
traducciones bíblicas castellanas medievales: el uso de cultismos y formas patrimoniales
en las versiones del siglo XV, Anuario de Estudios Medievales 45:1 (2015), 357–392.
Resnik, Philip/Olsen, Mari B./Diab, Mona, The Bible as a Parallel Corpus: Annotating the «Book
of 2000 Tongues», Computers and the Humanities 33:1–2 (1999), 129–153.
Rojo, Guillermo, Sobre codificación y explotación de corpus textuales: Otra comparación del
Corpus del español con el CORDE y el CREA, Lingüística 24 (2010), 11–50.
Rosemeyer, Malte/Enrique-Arias, Andrés, A match made in heaven. Using parallel corpora and
multinomial logistic regression to analyze the expression of possession in Old Spanish,
Language Variation and Change, 28.3 (2016).
Sánchez-Prieto Borja, Pedro, Desarrollo y explotación del «Corpus de Documentos Españoles
Anteriores a 1700» (CODEA), Scriptum Digital 1 (2012), 5–35.
Tagliamonte, Sali, Analysing Sociolinguistic Variation, Cambridge: Cambridge University Press,
2006.
Wanner, Dieter, The corpus as a key to diachronic explanation», in: Pusch, Claus D./Kabatek,
Johannes/Raible, Wolfgang (edd.), Romance Corpus Linguistics II. Corpora and Diachronic
Linguistics, Tübingen, Gunter Narr, 2005, 31–44.
Santiago del Rey Quesada
Traducción y tradición en los corpus:
nuevas perspectivas para la lingüística
histórica
1 Introducción1
Los Corpus-based Translation Studies (CTS) se perfilan como un paradigma prome-
tedor que gravita en torno a dos conceptos no fáciles de definir: corpus y traduc-
ción. Mientras los corpus se han incorporado ya de manera casi constitutiva a gran
parte de los estudios lingüísticos desde diversos enfoques, la traducción es un
fenómeno que aún dista de estar plenamente integrado en las distintas disciplinas
lingüísticas más cultivadas. Y es que la traducción como disciplina de estudio
científico se ha sentido frecuentemente como independiente de la Filología o, en
el mejor de los casos, como una herramienta auxiliar de esta. La cada vez más
acusada parcelación del saber en el ámbito universitario ha contribuido a este
distanciamiento que, solo desde hace algunas décadas, y sobre todo en el marco
de los estudios literarios, ha tendido visiblemente hacia la reconciliación. En el
caso de la Hispanística, la traducción como objeto de estudio, teórico y analítico,
no tuvo en los siglos XIX y XX la extensión y la profundidad científica que alcanzó
en otros países europeos, lo que resulta especialmente evidente si lo comparamos
con la atención que se le ha dedicado al fenómeno en Alemania (cf. Schleierma-
cher 1813 [2000]).2
Por este motivo entre otros, puede afirmarse que la relación entre traducción
y lingüística todavía se halla en una etapa inicial (cf. Coseriu 1978 [1988], 295).
Como acaba de apuntarse, la vertiente literaria de este campo de estudios está
más desarrollada (cf. Albrecht 2003a, 16), mientras que no se han extraído las
innumerables posibilidades de estudio que ofrece el hecho y el proceso de traduc-
1 Este trabajo forma parte del proyecto de investigación «Tradiciones discursivas, tradiciones
idiomáticas y unidades de análisis del discurso en la historia del español moderno» (FFI2014-
51826-P). Agradezco a Araceli López Serena los comentarios hechos al borrador de este trabajo.
2 Vienen, quizá, aquí al caso las palabras de García Yebra (1982 [1989], 329): «nunca ha tenido
entre nosotros la traducción el aprecio que goza en otros países, señaladamente en Alemania».
Santiago del Rey Quesada: Fundación Alexander von Humboldt/Ludwig-Maximilians-Universität

München
Traducción y tradición en los corpus 41
ción considerados desde un enfoque meramente lingüístico, tanto en un sentido

amplio, abarcador, como concreto, referido a casos particulares y a subdiscipli-
nas específicas (cf. Albrecht 2005).
Respecto de la relación que guarda la traducción con la historia de la lengua,
los investigadores deberíamos reclamar una atención más profunda y meditada y
dejar de contemplar el fenómeno de la traducción como un capítulo accesorio o
un subapartado circunstancial en la descripción de las lenguas sincrónica o
diacrónicamente consideradas. Muy al contrario, como apunta Albrecht (2003b,
1), la traducción o, más correctamente, la historia de la traducción está a punto de
convertirse, si no lo ha hecho ya, en una subdisciplina dentro de la más abarca-
dora disciplina de la «historia de la lengua».3
Los procesos de elaboración y estandarización lingüísticas en las lenguas
románicas están estrechamente relacionados con la actividad traductora desde
sus orígenes. Las mismas reglas discursivas (cf. Koch 2008, 54; 1997, 45) que
funcionan en el nivel histórico del lenguaje se conciben como pautas transferibles
de lengua a lengua, con tal de que se dé una continuidad de diversa índole, ya sea
formal o de contenido, o de ambos tipos, de acuerdo con el esquema representado
en la figura 1 tomado de Kabatek (2003, 6)4. La idea de repetición inherente al
3 Tal vez una de las principales causas que han llevado a la dispersión o incluso a la indebida
desatención por parte de los filólogos de los estudios traductológicos haya sido la dificultad de
delimitación del concepto y de explicación satisfactoria del fenómeno. Preguntas como «¿Cuáles
son los límites entre traducción, adaptación, exégesis, paráfrasis, etc.?» (en alemán, Übersetzung,
Anpassung, Exegese, Bearbeitung, etc.) o «¿Cuáles son los límites de la traductibilidad?», «¿Cuál
es la tarea del traductor?» no son en absoluto fáciles de responder. Por lo demás, la respuesta a
estas preguntas varía según la época para la que estén formuladas. Por eso, una postura más o
menos conservadora (cf. Albrecht 2003a, 47) como la de García Yebra (1982 [1989], I, 43), «[l]a
regla de oro para toda traducción es, a mi juicio, decir todo lo que dice el original, no decir nada
que el original no diga, y decirlo todo con la corrección y naturalidad que permita la lengua a la
que se traduce» o una de base más semántica como la de Coseriu (1978 [1988], 299), «[d]ie
Aufgabe der Übersetzung ist es nun, in sprachlicher Hinsicht, nicht die gleiche Bedeutung,
sondern die gleiche Bezeichnung und den gleichen Sinn durch die Mittel (d. h. eigentlich durch die
Bedeutungen) einer anderen Sprache wiederzugeben», son difícilmente aplicables a momentos
históricos en que tales propósitos están subordinados a otros de diversa naturaleza, tanto
lingüística (estilística, retórica, etc.) como extralingüística (contexto cultural, características del
encargo de la obra traducida, etc.). Estos parámetros, familiares a los analistas del discurso, son
frecuentemente obviados por parte de los teóricos de la traducción, muchas veces obcecados en
la formulación de reglas aplicables a cualquier situación.
4 En este sentido, la continuidad de forma o de contenido motiva en la lengua de acogida de la
tradición nuevos moldes lingüísticos y características textuales que redundan en la elaboración
intensiva (cf. Koch/Oesterreicher 1990 [2007], 187). Kabatek (2003, 16) resume bien la idea de que
el componente tradicional-discursivo de una lengua está íntimamente ligado al fenómeno de la
traducción: «[p]arece que las tradiciones discursivas no son más que textos, enunciados concretos
42 Santiago del Rey Quesada
concepto de continuidad conforma la base definitoria que subyace al término

tradición discursiva (TD)5, para cuya explicación el propio Kabatek (cf. n. 4)
recurre al símil de la traducción por lo que respecta a los procesos de adopción de
nuevas tradiciones en otras lenguas.
Figura 1: Tipos de tradiciones discursivas
Estas distintas clases de tradiciones resultan enormemente difíciles de discernir

en corpus electrónicos al uso. Su reconocimiento, sin embargo, es fundamental si
queremos entender el cambio lingüístico de una manera no falseada. Por todo
ello, la relación entre traducción y corpus no está exenta de los problemas que se
abordan en el siguiente apartado.
2 Lingüística de corpus y traducción:

Corpus-based Translation Studies (CTS)
La lingüística de corpus es entendida por sus teóricos como una disciplina
«empírica», basada en textos «naturales» e interesada por el uso y los registros
con formas transferibles de lengua en lengua. Se podría decir que la adopción de nuevas
tradiciones discursivas es simplemente una especie de traducción, procedimiento por excelencia
de adopción de textos de otras culturas sin mayores consecuencias para la lengua. Sin embargo,
[. . .] la introducción de nuevos contenidos y de nuevas formas textuales produce necesidades
expresivas que llevan a la formación de nuevos elementos lingüísticos».
5 Para una revisión bibliográfica del concepto, cf. Del Rey (2015b, 47–60) y Vincis/Miotto
(2016).
(cf. Biber/Conrad/Reppen 1998, 2, 4).6 Aunque no hay acuerdo absoluto acerca

de si se trata de una teoría o de una metodología (cf. Parodi 2010, 14–15), lo cierto
es que su asiento en corpus ha supuesto un avance incuestionable para las
disciplinas lingüísticas anejas. La rentabilidad de los corpus en lingüística histó-
rica, cada vez más y pese a las razonables reticencias que se han esgrimido, está
fuera de toda duda (Enrique-Arias 2009a, 12). Especialmente los corpus históricos
deben poder ofrecer datos ricos en material variacional que aporten información
sobre el estilo y el género (cf. Baker 1995, 230), el dialecto y la extensión temporal
de los diversos textos que los componen (Enrique-Arias 2009b, 272).
Si la voluntad de estudio de la variación lingüística es claramente manifiesta
por lo que respecta a la lingüística de corpus y en ella se pone de acuerdo la gran
mayoría de los teóricos de la disciplina, el acuerdo no es tan unánime cuando se
trata de la discusión sobre lo que es un corpus. Prototípicamente, la lingüística de
corpus trabaja con colecciones de textos digitalizadas y sometidas a procesos de
marcación informática que permita búsquedas de palabras y combinaciones sin-
tagmáticas, a veces con un elevado grado de sofisticación (cf. Kennedy 1998, 3). En
cualquier caso, numerosos autores (cf. Parodi 2010, 25–26; Biber/Conrad/Reppen
1998, 12), aun considerando más representativos y explotables los corpus electró-
nicos, ofrecen una definición más abarcadora de corpus como un conjunto de
textos que comparten ciertos rasgos. En el ámbito de la traductología, aunque
desde hace algunos años se han creado corpus electrónicos que incorporan ad hoc
textos traducidos, la noción de corpus ha diferido de la habitual en la lingüística
de corpus. Para uno de los teóricos de la traducción más reconocidos, Gideon
6 Aunque pretendidamente empírica, la lingüística de corpus dista de ser tal en sentido estricto,
es decir, en el sentido en que es empírico el estudio de los objetos de las ciencias naturales. Es
cierto que, como apunta Kabatek (2013, 5), «la lingüística se está volviendo una de las disciplinas
de las humanidades de más éxito precisamente por su cercanía a las ciencias naturales, por el
simple hecho de que el lenguaje humano es un fenómeno también natural. Pero lo que tiene éxito
es sobre todo la lingüística que imita o adopta los modelos de las ciencias naturales, y hay que
preguntarse si esto corresponde realmente al objeto de estudio en cuestión». Sin duda la
connotación positiva del adjetivo empírico (cf. López Serena 2011, 428) motiva su a veces excesivo
empleo en los estudios lingüísticos, en una manifestación del «innecesario complejo de inferio-
ridad de los lingüistas frente a las ciencias llamadas ‹exactas›» (Kabatek 2013, 13). Frente a los
que intentan trazar a toda costa paralelismos entre las ciencias naturales y las ciencias sociales,
Kabatek (2014, 711) arguye que «[e]s falso [. . .] suponer que las hipótesis en ciencias naturales son
iguales que en la investigación lingüística y es un profundo error pensar que el experimento o el
análisis cuantitativo funciona de la misma manera en las ciencias naturales y en las ciencias del
hombre». Por ello, hablar de empirismo strictu sensu en lingüística es temerario, pues, incluso en
la lingüística de corpus, pese a quien le pese, es necesaria (o inevitable) la intuición, que
constituye un «acto epistémico completamente opuesto a la observación propia de lo empírico»
(López Serena 2011, 438). Cf. asimismo López Serena (2014b, 733).
Toury, un corpus puede constituirlo un compendio de textos manualmente reuni-

dos y analizados de acuerdo con unos criterios específicos (Laviosa 2002, 12–13).
Baker (1995, 225) reacciona contra esta idea más difusa de corpus típica de los
estudios traductológicos y apunta que, en los últimos tiempos, los corpus han ido
incorporando ciertas características definitorias que los restringen y los particula-
rizan como objetos lingüísticos: a) son conjuntos de textos informatizados y sus-
ceptibles de ser analizados automática o semiautomáticamente; b) los corpus no
se limitan a textos escritos sino que incluyen manifestaciones orales efectivas, y
c) los corpus incluyen un extenso número de textos provenientes de diversas
fuentes, producidos por multitud de escritores y/o hablantes y referidos a múlti-
ples temas. Según la autora, la característica determinante a la que debe responder
un corpus es la de ser representativo de una determinada área o tipo lingüístico.
Así, elabora una definición de corpus en los siguientes términos:
I intend to use corpus to mean any collection of running texts (as opposed to examples/
sentences), held in electronic form and analysable automatically or semi-automatically
(rather than manually) (Baker 1995, 226).
Partiendo de este concepto de corpus, Mona Baker inaugura en 1993 una corriente
de estudios sobre traducción que va a alcanzar gran éxito en los años siguientes:
los CTS. Interesada por la lingüística de corpus, la investigadora se queja de la
escasa atención prestada por los lingüistas de corpus hacia los textos traducidos.
Esa falta de atención se sustentaba, según la autora, en un prejuicio que justifica-
ba para algunos especialistas la exclusión sistemática de los textos traducidos de
los estudios científicos sobre una lengua dada, en tanto que las traducciones
serían textos «de segunda mano»:7
Given that translated texts play such an important role in shaping our experience of life and
our view of the world, it is difficult to understand why translation has traditionally been
viewed as a second-rate activity, not worthy of serious academic enquiry, and why trans-
lated texts have been regarded as no more than second-hand and distorted versions of ‘real’
texts (Baker 1993, 233).
Aunque en la actualidad han sido ampliamente explotados en disciplinas como la

enseñanza de L2 o la lexicología (cf. Laviosa 2002, 3; Baker 1995, 224; Corpas
7 Cf. también Baker (1996, 175, 176; 1998, 5). Chesterman (2004, 36–37) entiende esta margina-
ción del texto traducido como una manifestación de la «ruta peyorativa», una de las sendas a las
que conduce el intento de generalización teórica acerca de la traducción. Por su parte, Olohan
(2002, 419) descubre la escasa consideración mostrada a los textos traducidos por parte de la
lingüística de corpus a partir del hecho de que estos no han sido incorporados a varios corpus de
referencia, como el British National Corpus.
2008), los CTS nacen de la mano de otra corriente de estudios en traductología

asociada por antonomasia a Gideon Toury: los Descriptive Translation Studies
(DTS). Esta disciplina abanderaba dos ideas fundamentales que son asumidas
por los CTS: a) las traducciones son hechos que pertenecen a la cultura meta y que
pueden incluso constituir (sub)sistemas propios (cf. Toury 1995, 29) y b) las
traducciones son textos de pleno derecho, no solo representaciones o manifesta-
ciones de otros textos. Alejándose de las vías prescriptiva y peyorativa que habían
dominado desde hacía siglos los estudios y reflexiones sobre la traducción (cf.
Chesterman 2004), los DTS abogan por una rama descriptiva que permita dotar
a los investigadores de planteamientos teóricos y metodologías en las que
enmarcar las hipótesis de trabajo. Estas hipótesis parten de descripciones empíri-
cas de las que se deducen comportamientos y reglas. El establecimiento
de estas últimas recibirá a partir de los 90 un espaldarazo crucial con los CTS,
pues a partir de entonces las hipótesis pretenden ser corroboradas con datos
cuantitativos.
Por supuesto, los CTS no significan una mera continuación, con cambio de
procedimientos metodológicos, de los DTS. Existen diferencias sobresalientes
entre ambas corrientes de estudio. La imbricación de los CTS con la lingüística de
corpus provoca que, en numerosos casos, los aspectos extralingüísticos sean
desatendidos del análisis, algo que no ocurre en los DTS, en los que, por lo
demás, la recurrencia a la intuición como herramienta heurística no está descar-
tada.8 Por lo demás, como destaca Laviosa (2002, 17), para Toury el objetivo
último de los DTS es la formulación de una teoría general basada en la acumula-
ción de hechos y teorías parciales, mientras que la lingüística de corpus acepta
las elaboraciones teóricas parciales como válidas per se, en tanto que reflejan la
heterogeneidad y el dinamismo del uso lingüístico, o de las diferentes manifesta-
ciones de la traducción, en el caso de los CTS.
Para la reivindicación del texto traducido, los CTS se basan principalmente en
la conocida como teoría polisistémica, de raigambre literaria, formulada por Even-
8 La legitimidad de la intuición como herramienta en la descripción lingüística, también en

lingüística histórica, es defendida por autores como Kabatek (2014). El objeto de la lingüística, la
lengua, incorpora una serie de características que lo diferencian del abordado por otras ciencias:
«los experimentos lingüísticos nunca se hacen investigando un objeto desconocido; los experi-
mentos se diseñan desde el conocimiento del hablante-participante y sirven para confirmar o
rechazar algo que el hablante-participante juzga como cuestión relevante desde su postura
empática» (Kabatek 2014, 711). Sobre todo en lingüística histórica, aunque con el tiempo el
término ha adquirido connotaciones peyorativas, la intuición ha funcionado, más implícita que
explícitamente, como forma de conocimiento respaldada por los investigadores (cf. López Serena
2014a, 691–692). En cualquier caso, se trata de una actividad cognoscitiva radicalmente diferente
a la de la observación, propia de las ciencias naturales (cf. n. 6 y López Serena 2014b, 733).
Zohar (1978) al final de los años setenta. De acuerdo con este autor, la literatura
traducida es contemplada como un sistema de pleno derecho que interactúa con
sus co-sistemas y con polisistemas literarios de otras culturas. De esta manera,
como señala Baker (ibid.), se cambió la tendencia de prestar atención a las
traducciones literarias individuales para estudiar un mayor número de traduc-
ciones de manera que pudieran establecerse sus características sistemáticas.
Al conceder estatus propio a la literatura de traducción, la teoría polisistémi-
ca reconocía a los textos traducidos la capacidad de influir en la configuración
literaria y lingüística de la cultura meta. Se destacaba también que la traducción
es una actividad creativa más que derivativa y postulaba la idea de que existen
normas entendidas como elecciones sistemáticas tomadas por el traductor en
un momento determinado de la historia y en una cultura dada (Laviosa 2002, 20).
Las posibilidades de estudio variacional que ofrecía este marco teórico no han
sido suficientemente explotadas por los CTS, especialmente interesados por el
estudio y establecimiento de los universales de traducción.9
Varios investigadores, como Chesterman (2004, 46), han puesto de manifiesto
el avance metodológico que han representado los CTS. Ello se percibe en los
numerosos corpus creados desde hace dos décadas que incorporan total o parcial-
mente textos traducidos o que, sin contenerlos, se consideran herramientas de
trabajo útiles para el traductor en virtud de su vocación comparativa interlingüís-
tica —cf. §2.2—. Esta clase de corpus, basados en textos literarios y no literarios
contemporáneos, posee, según sus creadores e investigadores, características
específicas que los diferencian de corpus monolingües al uso. Mona Baker (1995,
229s.) distingue tres tipos de corpus que habría que tener en cuenta en los CTS y
que describimos en los siguientes subapartados.10
9 En efecto, la mayoría de los trabajos adscribibles a la nueva disciplina traductológica se

empeña en asumir consideraciones de tipo cognoscitivo más que descriptivo o empírico. Desde
este punto de vista abstracto, la traducción se entiende como un tercer código (Frawley 1984) que
«est une forme de communication unique, et non [. . .] une forme de communication fautive,
déviante ou non conforme à la norme» (Baker 1998, 3); «le code (ou la langue) qui évolue pendant
la traduction, et dans lequel le texte cible est rédigé, serait unique. Il s’agit d’un compromis entre
les normes ou structures de la langue source et ceux de la langue cible» (ibid, 3). Este tercer
código se convierte en una hipótesis explicativa muy rentable para la postulación de supuestas
leyes y reglas universales de la traducción, tales como la de estandarización creciente, la de
interferencia, la de nivelación, la de explicitación o la de simplificación (cf. Del Rey 2015a).
10 Una tipología de corpus más exhaustiva puede leerse en Laviosa (2002, 34–38).
2.1 Corpus paralelo
Un corpus paralelo consiste en el original —textos de la lengua fuente (LF) o

lengua A— y sus versiones traducidas en lengua B. Dice Baker que este tipo de
corpus es el que relacionamos por antonomasia con los estudios traductológicos
y que, en este contexto, ha servido para operar el cambio de perspectiva desde la
prescripción hacia la descripción.
Aunque Baker no hace alusión a ningún corpus histórico de este tipo, en
España disponemos del corpus Biblia Medieval [BM] que, gracias a su condición
de paralelo, ofrece ciertas ventajas al investigador que no se observan en los
corpus monolingües tradicionales.11 Por ejemplo, en un corpus histórico paralelo
el reconocimiento de errores en los testimonios traducidos de que disponemos es
más sencillo (cf. Enrique-Arias 2009b, 277–278), pues se cuenta con el texto
original para comprobar si una lectura es certera o equivocada (por supuesto,
cuestiones de crítica textual entran también aquí en juego). En el siguiente
ejemplo extraído de un corpus12 de traducciones renacentistas de los Colloquia
erasmianos (corpus que, aunque no ofrece datos estadísticos, sí permite búsque-
das sencillas), observamos cómo el empleo de conjunciones difiere según los
11 Véase también Enrique-Arias, en este volumen.

12 El corpus se compone de ocho traducciones diferentes de tres Colloquia erasmianos: el Uxor
mempsigamos, el Senile y el Pietas puerilis. Para su referencia en los ejemplos que se incorporan
en este artículo me baso en la numeración que de los testimonios impresos entre 1528 y 1529
establece Bataillon (1966 [2007], LII–LIII). De esta forma, «Bat. 479» quiere decir que el ejemplo
proviene del documento que Bataillon identificó con esa numeración; «lín.» indica la línea o las
líneas del ejemplo en cuestión, y «f.» el folio («r» = recto, «v» = vuelto). De los tres coloquios
analizados, se comparan, como he advertido, ocho traducciones diferentes: cuatro del Uxor
mempsigamos, dos del Senile y dos del Pietas puerilis. Mientras que «[Bat. 474]» siempre se refiere
a la versión de Morejón del Uxor mempsigamos y «[Luj]» a la de Pedro de Luján, Coloquios
matrimoniales, 1550 —la versión más tardía de las que constituyen el corpus—, «[Bat. 479]» puede
referirse a) a la traducción del Uxor mempsigamos debida al corrector anónimo de Morejón, b) a
una de las traducciones anónimas del Senile y c) a la traducción anónima del Pietas puerilis, pues
todas ellas se hallan en el mismo documento impreso. Por su parte, el testimonio de [Bat. 478]
integra a) la traducción de Virués del Uxor mempsigamos, b) la traducción del mismo autor del
Pietas puerilis y c) la otra traducción anónima del Senile. Pese a esta coincidencia en la identifica-
ción de las traducciones, no cabe la posibilidad de que el lector ignore a qué coloquio se refiere
un determinado ejemplo, pues todos ellos comienzan con el segmento original del que derivan
las versiones y en el que se indica cuál es el coloquio del que se toma el ejemplo, de acuerdo con
las abreviaturas Um = Uxor mempsigamos, Sen = Senile o Pp = Pietas puerilis, junto con la línea y
la página del que se extrae el fragmento según la edición crítica de Léon-E. Halkin, Franz
Bierlaire y René Hoven (edd.) (1972). Para el texto de Luján reproduzco fragmentos correspon-
dientes a una copia de 1589 hecha en Zaragoza y conservada en el Fondo Antiguo de la Biblioteca
de la Universidad de Sevilla.
traductores y cómo es fácil determinar cuál es la interpretación errónea de

acuerdo con el original latino:
(1) E. Quod si quando commotior erat, aut blando sermone leniebam aut silentio concede-
bam iracundiae, donec ea refigerata, tempus se daret vel purgandi, vel admonendi [Um,
lín. 146–148, p. 305].
―E. Y quando le via mas fuera de razon: alagauale con blandas palabras: o con callar
daua lugar asu yra: haunque aquella amansada: ouiesse tiempo de corregirle: o de
amonestarle [Bat. 474, lín. 18–21, f. a5r].
―E. y quando lo via masfuera de razon, alagaua lo con blandas palabras: o con callar
daua lugar a su yra :hasta que aquella amansada ouiesse tiempo de corregirlo:o de
amonestar lo [Bat. 479, lín. 4–7, f. CIXv].
―O. Si alguna vez via que estaua enojado o con blandas palabras le amansaua/o
callando sufria/todo lo que me dezia/hasta que viendole mas manso hallaua tiempo
de satisfazelle o de dezille mi parecer [Bat. 478, lín. 16–20, f. g6r].
Otra ventaja de los corpus paralelos, ya sean de índole sincrónica o diacrónica, es

que su metodología resulta «más abierta, pues permite analizar cualquier forma
de expresar un contenido en la lengua fuente» (Enrique-Arias 2009b, 276). Esto
redunda en la posibilidad de proceder onomasiológicamente en los análisis, lo
que supone una diferencia fundamental respecto de los trabajos sustentados en
corpus monolingües, principalmente de vocación semasiológica (cf. Del Rey
2010). Así se puede constatar cómo los resultados de una determinada partícula
discursiva en la lengua de origen se plasman en diferentes realizaciones idiomáti-
cas en versiones diferentes, algo que sin duda supone una gran ventaja a la hora
de estudiar fenómenos como la cohesión del discurso, las relaciones interoracio-
nales, la modalización, etc. Un fragmento de nuestro corpus puede servir para
ejemplificar este último aspecto:
(2) Po: Post rescitum est meae Gallae Gallum esse maritum, vnde pridem se subduxerat.
E: Ergo nunc habes vxorem? [Sen, lín. 220–222, p. 381]
―Po: Despues vino a oydos de mi gallina que el gallo era ya marido de aquella de
quiense auia apartado.
E: Luego agora mugertienes? [Bat. 479, lín. 10–13, f. XXIIIv]
―Po: Despues se descubrio que mi francesa estaua casada con vn frances/ alla en su
tierra.
E: Segun esso muger tienes ahora [Bat. 478, lín. 11–13, f. x8r].
2.2 Corpus multilingüe
Un corpus multilingüe está conformado por un conjunto de corpus monolingües

en distintas lenguas elaborado según criterios de diseño semejantes. Como se
puede colegir de esta caracterización, los corpus multilingües no incorporan
textos traducidos, sino que sirven para ayudar en su formación al intérprete al
ofrecer un marco comparativo idóneo entre tipos de textos similares. Estos corpus
permiten investigar el cotexto de determinadas unidades léxicas en las distintas
lenguas y establecer características que se perfilan en el contorno de aparición de
los diversos ítems. Sin embargo, los corpus multilingües no satisfacen los inte-
reses teóricos fundamentales de los CTS que, según Baker, se orientan a explicar
el fenómeno de la traducción per se.
2.3 Corpus comparable
Este tipo de corpus es propuesta pionera de Mona Baker. Responde a la necesidad

enunciada por la autora de «effect a shift in the focus of theoretical research in
the discipline, a shift away from comparing either ST [source text] with TT [target
text] or language A with language B to comparing text production per se with
translation» (Baker 1995, 233). Los corpus comparables consisten en dos colec-
ciones separadas de textos en la misma lengua: un corpus de textos originales en
la lengua en cuestión y otro que integra traducciones en esa lengua desde una(s)
lengua(s) dada(s). Además Baker (ibid: 234) advierte de que estos corpus deben
cubrir un dominio, variedad de lengua y período de tiempo similares, así como de
que los dos subcorpus deben poseer una longitud parecida y de que estos deben
ser representativos por lo que se refiere al rango de los autores de textos
originales y a los traductores. Suponemos que con esto se refiere a la pericia de
los intérpretes (¿pero qué hay de los diferentes estilos?) y a la valoración que se
les da a diferentes autores literarios.
Para Baker, la principal contribución de este tipo de corpus es la de identificar
pautas específicas de los textos traducidos, independientemente de cuál sea la
lengua de origen de cada texto. El interés, pues, reside en el proceso de traducción
en sí, como actividad cognitiva que se refleja en la selección de determinadas
estrategias compartidas entre distintos sistemas lingüísticos. Estas estrategias son
manifestaciones de tendencias que diferencian los textos traducidos de los no
traducidos. Dada su orientación a la indagación teórica, Baker señala que los
corpus comparables tienen escasa aplicación en la pedagogía y en la formación de
traductores. Pero, desde la propia perspectiva teórica, cabe preguntarse qué
entiende Baker por que los corpus deben pertenecer a un «similar domain, variety
of language», pues muchos de los corpus comparables que han sido reunidos con
posterioridad han obviado las diferencias entre géneros y clases textuales, de tal
forma que muchos corpus comparables inventariarían textos muy heterogéneos. A
esta reticencia apunta Kenny (1998, 53) cuando alude a un aspecto crucial en el
devenir histórico de las lenguas en contacto con otras: el de que los nuevos géneros
se trasvasan de una literatura a otra en virtud de la actividad traductora, de manera
que puede no haber nada «comparable» en la literatura receptora con un texto
introducido en ella a partir de la traducción desde otra tradición textual previa-
mente inexistente (por ejemplo, en gaélico existen numerosos tipos textuales —no
literarios— que solo existen en la lengua como traducciones, fundamentalmente
del inglés).
En la actualidad, hasta donde mis conocimientos alcanzan, no existen corpus
diacrónicos comparables, y sin duda su existencia contribuiría a perfilar más
integralmente las supuestas características que comparten los textos traducidos de
una lengua frente a los originales. Los corpus diacrónicos que conocemos incor-
poran sin duda material traducido, pero si lo hacen, sobre todo en épocas como la
medieval, no es más que porque la cultura literaria de las lenguas romances no se
forja sino por emulación y tutela de la lengua latina (y, eventualmente, sobre todo
en épocas más tardías, también de lenguas de territorios vecinos). Para elaborar un
corpus comparable del español, por ejemplo, quizás «bastaría» con cribar aún más
la naturaleza de las obras y textos incorporados, aunque eso sin duda conduciría a
un laberinto de difícil salida: el de determinar qué es literatura traducida y qué
literatura recreada, adaptada, etc. En cualquier caso, sin duda para los historia-
dores de la lengua sería de gran utilidad la creación y desarrollo de corpus
paralelos y comparables en distintas lenguas.
3 Reticencias a la teoría y métodos de los CTS

Aparte de las reservas que pueden ponérseles a los distintos tipos de corpus, los
CTS han recibido también variadas objeciones por parte de los analistas y teóricos
de la traducción. Una de las principales es la que se refiere a que seguramente
existen características de los textos traducidos que no pueden ser rastreadas
según el procedimiento de concordancias informáticas (KWIC = Key Words in
Context), en el sentido de que estas no ofrecen suficiente contexto lingüístico
como para investigar cuestiones que afectan a textos completos o a la semántica
textual como las estrategias de expresión de información, ideas y conceptos
(Laviosa 2002, 28; cf. también Kenny 1998, 53). Las características lingüísticas que
particularizan a las traducciones, por lo demás, no son independientes de las
tradiciones discursivas que participan en el intercambio lingüístico ni de factores
extralingüísticos como los que atañen al proceso de edición y/o de transmisión

textual en que se ve envuelta la versión heterolingüística de cualquier texto
(sobre todo, una vez más, en épocas pretéritas) (cf. Olohan 2002, 425).
Otro problema que comparten los CTS y la lingüística de corpus es el de la
representatividad de estos. Puesto que es imposible estudiar todos los textos
traducidos,13 siempre deberemos conformarnos con muestras más o menos
representativas (cf. Chesterman 2004, 42). Pero, ¿representativas de qué? A partir
de la lingüística de corpus, la idea de representatividad viene asociada a la de
extensión, de manera que cuanto más extenso es un corpus más representativo
parece ser de esa lengua.14 Visto así, esta concepción anula igualmente la
naturaleza cambiante y poliédrica de las lenguas históricas que comprenden
un espacio variacional propio. El prejuicio de la extensión15 de los corpus es
contradicho por muchos teóricos que no lo consideran un factor determinante y
absolutamente válido en los estudios sobre traducción. Así, un investigador
como Kock (1997, 292, apud Corpas/Seghiri 2008, 12) afirma que «no es necesario
disponer de corpus tan amplios si estos son homogéneos en cuanto al registro de
lengua, el área geográfica y la época». Efectivamente, no sería justo decir que un
corpus como el de Biblia Medieval [BM] no es un corpus representativo16 por el
hecho de que se limita a versiones bíblicas (cf. Enrique-Arias 2009b, 278–280).
Más allá de la influencia que estas versiones y, en general, los textos bíblicos
ejercieron en la configuración del castellano antiguo, es indudable que ese
corpus es representativo de un tipo de lengua determinado y es sumamente útil
y apropiado para tomarlo como marco de referencia, también cuantitativa, del
estudio de la lengua elaborada medieval. Es decir, hay que desterrar el prejuicio
según el cual la lengua (pre)existe como entidad independiente a los textos a
manera de absoluto que sirve de tertium comparationis ilusorio para cualquier
estudio textual, prejuicio que lleva a formulaciones del tipo La lengua de X autor
no es representativa de la lengua de X época o la tradición discursiva X presenta
características que se alejan de la lengua típica de X siglo/comunidad.17 La lengua
13 «Un corpus es sólo una colección finita de un universo infinito» (Parodi 2010, 24).
14 Algunos autores, como Francis (1992, citado por Laviosa 2002, 6), se refieren también a
dialectos y tipos de lengua, incorporando así en la definición de corpus aspectos variacionales:
«[a corpus is] a collection of texts assumed to be representative of a given language, dialect or
other subset of a language, to be used for linguistics analysis».
15 Notado, entre otros, por Davies (2009, 137).
16 Al concepto de representatividad, muchas veces determinado en la reflexión científica sobre
las lenguas por el elenco de autores y/o géneros canonizados en las distintas épocas del idioma,
se refiere también Lola Pons (2006).
17 El mismo Enrique-Arias (2009b, 280) parece caer en este prejuicio cuando escribe que «[h]oy
día no consideraríamos que las traducciones bíblicas en una lengua constituyen un corpus
es un conjunto de variedades,18 y cada una de estas, por poco extendidas que

estén o aparentemente marginales que sean, es digna de consideración y estu-
dio. Llevar hasta sus últimas consecuencias las determinaciones variacionales
de todo tipo de textos, incluidos los traducidos, conduciría a una senda ingrata
a los CTS: la de la imposibilidad de admitir la existencia de universales de la
traducción.
4 Conclusión
Los corpus han permitido la aducción de datos cuantitativos que se consideran
prueba irrefutable de la constatación de tendencias susceptibles de ser postula-
das como leyes. Así, desde Baker (1993, 1995, 1996) y Toury (1995), numerosos
autores han hablado de universales como los de normalización, explicitación y
simplificación, que se cumplirían en todas las leguas independientemente de la
naturaleza de la lengua fuente (cf. Del Rey 2015a). Para que esto pueda ser
posible, los CTS parten del convencimiento de que las traducciones son textos de
una índole particular que reflejan, por un lado, los complejos procesos cogniti-
vos y los contextos sociales particulares en que nacieron, pero que, por otro,
comparten características que los distinguen de otros tipos de textos (Mauranen
2008, 45).
Cabe preguntarse hasta qué punto una lingüística de la variación es compa-
tible con una concepción universalista de las tendencias traductoras. Los condi-
cionamientos variacionales que influyen a la hora del proceso traductor han
representativo de la lengua en cuestión». Cabría apuntar que ningún corpus, por extenso que
sea, es representativo de todas las manifestaciones posibles de una lengua, pues siempre habrá
factores históricos y variacionales que no sean tenidos en cuenta en la composición del corpus:
o, como apunta Kabatek (2013, 1), «un corpus representativo para la historia de una lengua es
una construcción teóricamente imposible ya que la lengua, aunque solo se manifieste en textos,
no es la suma de los textos sino algo distinto». En parte este contraargumento al primer
enunciado de Enrique-Arias se verbaliza en la continuación del párrafo del autor (ibid.): «[p]ero
también es cierto que cualquier análisis lingüístico se basa en ejemplos concretos obtenidos de
textos concretos (texto aquí incluye interacciones orales) lo que siempre nos deja con la duda de
si los ejemplos son representativos de la lengua en conjunto o solamente de las tipologías
textuales en que se insertan». En fin, estamos de acuerdo con Kabatek (2013, 19) cuando afirma
que «no existe representatividad cuantitativa de un corpus, lo que (teóricamente) podría existir
es una cierta representatividad cualitativa: un corpus con (casi) toda la gama de posibilidades de
una lengua en un momento dado».
18 O, como quiere Kabatek (2013, 9), una «lengua histórica no es un sistema sino un conjunto de
sistemas».
hecho que algunos investigadores, en clave sarcástica, pongan en duda la validez

de las conclusiones extraídas de corpus de textos traducidos cuando el papel del
traductor en el proceso es tan determinante, así como incluso el estado fisiológico
en que este emprende su labor interpretativa:
Of course, any particular translation will contain a number of idiosyncrasies and the
translator in trying to get the best overall translation may have to make compromises […] in
order to get the best overall result. The translator has to strive for an optimal solution for a
translation in the face of competing pressures. The way in which a work is translated in a
particular instance will depend on a number of factors, including the form of the previous
discourse and other contextual influences, including perhaps how much wine the translator
had at lunch time (Barlow 2000, 110–111, apud Olohan 2002, 420).
El factor temporal, con las constricciones retórico-estilísticas e ideológicas que el

hecho traductor conlleva, la variación según registros y géneros, la idiosincrasia,
pericia y estilo personal del traductor, son, en efecto, coordenadas que deben ser
tenidas muy en cuenta y que desvirtúan sensiblemente la regularidad de la
actividad traductora en diversas épocas. El establecimiento de universales enten-
didos en sentido laxo sí puede ser rentable explicativamente, y, de hecho, se
perciben ciertas tendencias también en la historia de la lengua, aunque no sean
absolutamente determinantes19 (cf. Del Rey 2015a). Sí habría que insistir en la
necesidad de abandonar una postura teóricamente estrecha, en el sentido de que
en la actualidad los universales se establecen sin tener en consideración las reglas
idiomáticas y las reglas discursivas que afectan tanto a la lengua fuente como a la
lengua meta. Tener en cuenta estas reglas exigiría, además, un cambio terminoló-
gico: no podríamos llamar universales a lo que son tendencias en la actividad
traductora más o menos extendidas, pues se trata en cualquier caso de tendencias
históricamente determinadas o normas. Por ello, no concibo en absoluto regula-
ridades que se den en los textos traducidos independientemente de la tradiciona-
lidad de esos mismos textos —es decir, los textos de una época, de una TD, de una
corriente ideológica se parecen entre sí, aun cuando, incluso dentro de un con-
texto más o menos homogéneo, habría que contar con la originalidad y personali-
dad de traductores individualizadamente—.
Por último, pese a la dificultad que este reto representa para los historiadores
de la lengua, sería necesario contribuir a aumentar el número de corpus basados
en traducciones, ya sean paralelos, como el corpus Biblia Medieval [BM], o
19 La rentabilidad del concepto de universal puede derivar, sin embargo, en contradicción

intrínseca si se pretende combinar en él aspectos lingüísticos efectivamente universales y a su
vez otros tradicionales o normativos en el sentido coseriano.
comparables, todavía inexistentes, al menos hasta donde yo sé. Naturalmente la

existencia de estos corpus no confirmará ni desmentirá de manera tajante la
existencia de leyes universales en traducción pero quizá nos permitirá trazar
similitud de comportamientos lingüísticos en traducción delimitando coordena-
das de tiempo, registro, género, etc. Solo los estudios que tengan en cuenta de
manera explícita y sistemática estos factores variacionales podrán aportar luz
sobre la naturaleza del texto traducido respecto del texto original y de otros textos
originales en la misma lengua.
Albrecht, Jörn, Die Berücksichtigung des Faktors ,Übersetzung‘ in der Sprachgeschichtsschrei-
bung, in: Gil, Alberto/Schmitt, Christian (edd.), Aufgaben und Perspektiven der romanischen
Sprachgeschichte im dritten Jahrtausend, Bonn, Romanistischer Verlag, 2003, 1–37
(= 2003a).
Albrecht, Jörn, Können Diskurstraditionen auf dem Wege der Übersetzung Sprachwandel auslö-
sen?, in: Aschenberg, Heidi/Wilhelm, Raymund (edd.), Romanische Sprachgeschichte und
Diskurstraditionen. Akten der gleichnamigen Sektion des XXVII. Deutschen Romanistentags,
Tübingen, Narr, 2003, 37–52 (= 2003b).
Albrecht, Jörn, Übersetzung und Linguistik, Tübingen, Narr, 2005.
Baker, Mona, Corpus Linguistics and Translation Studies – Implications and Applications, in:
Baker, Mona/Francis, Gill/Tognini-Bonelli, Elena (edd.), Text and Technology: In Honour of
John Sinclair, Amsterdam/Philadelphia, John Benjamins, 1993, 233–250.
Baker, Mona, Corpora in Translation Studies: an Overview and Some Suggestions for Future
Research, Target 7:2 (1995), 223–243.
Baker, Mona, Corpus-based Translation Studies: The Challenges that Lie Ahead, in: Somers,
Harold (ed.), Terminology, LSP and Translation. Studies in Language Engineering in Honour
of Juan C. Sager, Amsterdam/Philadelphia, John Benjamins, 1996, 175–186.
Baker, Mona, Réexplorer la langue de la traduction: une approche par corpus, Meta: journal des
traducteurs 43:4 (1998), 480–485.
Baker, Mona (ed.), Routledge Encyclopedia of Translation Studies, London/New York, Routledge,
1998.
Barlow, Michael, Parallel texts in language teaching, in: P. Botley, Simon/McEnery, Tony/Wilson,
Andrew (edd.), Multilingual Corpora in Teaching and Research, Amsterdam/Atlanta, Rodopi,
2000, 106–115.
Bataillon, Marcel, Erasmo y España, Traducción de Antonio Alatorre, México, D.F., Fondo de
Cultura Económica, 11966 [12007].
Biber, Douglas/Conrad, Susan/Reppen, Randi, Corpus Linguistics. Investigating Language
Structure and Use, Cambridge, Cambridge University Press, 1998.
BM – Corpus Biblia Medieval [en línea] <http://corpus.bibliamedieval.es>.
Chesterman, Andrew, Beyond the Particular, in: Mauranen, Anna/Kujamäki, Pekka (edd.), Trans-
lation Universals: Do They Exist?, Amsterdam, John Benjamins, 2004, 33–49.
Corpas Pastor, Gloria, Investigar con corpus en traducción: los retos de un nuevo paradigma,
Frankfurt am Main, Peter Lang (Band 49), 2008.
Corpas Pastor, Gloria/Seghiri Domínguez, Míriam, El concepto de representatividad en lingüísti-

ca de corpus: aproximaciones teóricas y consecuencias para la traducción, Málaga, Servicio
de Publicaciones de la Universidad de Málaga, 2008.
Coseriu, Eugenio, Falsche und richtige Fragestellungen in der Übersetzungstheorie, in: Albrecht,
Jörn, et al. (edd.), Energeia und Ergon. Sprachliche Variation – Sprachgeschichte – Sprach-
typologie, 1, Tübingen, Narr, 1978 [1988], 295–309.
Davies, Mark, Creating Useful Historical Corpora: a Comparison of CORDE, the Corpus del
Español, and the Corpus du Português, in: Enrique-Arias, Andrés (ed.), 2009, 137–166.
Del Rey Quesada, Santiago, El estudio histórico de los marcadores del discurso: ¿un problema de
perspectiva?, Revista de Historia de la Lengua Española 5 (2010), 105–128.
Del Rey Quesada, Santiago, Universales de la traducción e historia de la lengua: algunas
reflexiones a propósito de las versiones castellanas de los Colloquia de Erasmo, Iberoroma-
nia 81 (2015), 83–102 (= 2015a).
Del Rey Quesada, Santiago, Diálogo y traducción. Los Coloquios erasmianos en la Castilla del
s. XVI, Tübingen, Narr, 2015 (= 2015b).
Enrique-Arias, Andrés, Introducción. Lingüística de corpus y diacronía de las lenguas iberorro-
mánicas, in: Enrique-Arias, Andrés (ed.), Diacronía de las lenguas iberorrománicas: nuevas
aportaciones desde la lingüística de corpus, Madrid/Frankfurt am Main, Iberoamericana/
Vervuert, 2009, 11–21 (= 2009a).
Enrique-Arias, Andrés, Ventajas e inconvenientes del uso de Biblia Medieval (un corpus paralelo
y alineado de textos bíblicos) para la investigación en lingüística histórica del español, in:
desde la lingüística de corpus, Madrid/Frankfurt am Main, Iberoamericana/Vervuert, 2009,
269–283 (= 2009b).
desde la lingüística de corpus, Madrid/Frankfurt am Main, Iberoamericana/Vervuert, 2009
(= 2009c).
Even-Zohar, Itmar, The Position of Translated Literature within the Literary Polysystem, in:
Holmes, James S./Lambert, José/van den Broeck, Raymond (edd.), Literature and Transla-
tion, 1, Leuven, ACCO, 1978, 17–27.
Francis, Nelson W., Language corpora B.C., in: Svartvik, Jan (ed.), Directions in Corpus Linguis-
tics, Berlin/New York, De Gruyter, 1992, 17–32.
Frawley, William, Prolegomenon to a Theory of Translation, in: Frawley, William (ed.), Translation:
Literary, Linguistic, and Philosophical Perspectives, London/Toronto, Associated University
Presses, 1984, 159–175.
García Yebra, Valentín, Teoría y práctica de la traducción, Madrid, Gredos, 11982 [11989].
Halkin, Léon-E./Bierlaire, Franz/Hoven, René (edd.), Opera omnia Desiderii Erasmi Roterodami,
Ordinis primi tomus tertius: Colloquia, Amsterdam, North-Holland Publishing Company,
1972.
Kabatek, Johannes, Tradiciones discursivas y cambio lingüístico, 2003, [en línea]
<http://www.kabatek.de/discurso>.
Kabatek, Johannes, Lingüística empática, RILCE 30.3 (2014), 705–723.
Kennedy, Graeme, An Introduction to Corpus Linguistics, London/New York, Longman, 1998.
Kenny, Dorothy, Corpora in translation studies, in: Baker, Mona (ed.), Routledge Encyclopedia of
Translation Studies, London/New York, Routledge, 1998, 50–53.
Koch, Peter, Diskurstraditionen: zu ihrem sprachtheoretischen Status und ihrer Dynamik, in:
Frank, Barbara/Haye, Thomas/Tophinke, Doris (edd.), Gattungen mittelalterlicher Schrift-
lichkeit, Tübingen, Narr, 1997, 43–79.
Koch, Peter, Tradiciones discursivas y cambio lingüístico: el ejemplo del tratamiento vuestra
merced en español, in: Kabatek, Johannes (ed.), Sintaxis histórica del español y cambio
lingüístico: Nuevas perspectivas desde las Tradiciones Discursivas, Madrid/Frankfurt am
Main, Iberoamericana/Vervuert, 2008, 53–87.
Koch, Peter/Oesterreicher, Wulf, Lengua hablada en la Romania: español, francés, italiano.
Versión española de Araceli López Serena, Madrid, Gredos, 11990 [12007].
Laviosa, Sara, Corpus-based Translation Studies: Theory, Findings, Applications, Amsterdam/
New York, Rodopi, 2002.
López Serena, Araceli, ¿Es empírico el estudio de la (des)cortesía verbal? El estatus epistemológi-
co de la lingüística de la (des)cortesía, in: Fuentes, Catalina/Alcaide, Esperanza/Brenes,
Ester (edd.), Aproximaciones a la (des)cortesía verbal en español, Bern, Peter Lang, 2011,
425–442.
López Serena, Araceli, Historia de la lengua e intuición. Presentación del volumen, RILCE 30:3
(2014), 691–704 (= 2014a).
López Serena, Araceli, Selección natural, explicación racional y cambio lingüístico: Hacia una
fundamentación epistemológica no evolucionista de la teoría de la gramaticalización,
RILCE 30.3 (2014), 724–775 (= 2014b).
Mauranen, Anna, Universal Tendencies in Translation, in: Gunilla/Rogers, Margaret (edd.),
Incorporating Corpora: The Linguist and the Translator, Clevedon/Buffalo/Toronto, Multi-
lingual Matters LTD, 2008, 32–48.
Olohan, Maeve, Corpus Linguistics and Translation Studies: Interaction and Reaction, Linguistica
Antverpiensia (2002), 419–429.
Parodi, Giovanni, Lingüística de Corpus: de la teoría a la empiria, Madrid/Frankfurt am Main,
Iberoamericana/Vervuert, 2010.
Pons Rodríguez, Lola, Una reflexión sobre el cambio lingüístico en el siglo XV, in: Luque Durán,
Juan de Dios (ed.), Actas del V Congreso Andaluz de Lingüística General. Homenaje a J.A. de
Molina Redondo, Granada, Granada Lingvistica (Serie Collectae), III, 2006, 1563–1577.
Schleiermacher, Friedrich, Sobre los diferentes métodos de traducir. Traducción y comentario de
Valentín García Yebra, Madrid, Gredos, 11813 [12000].
Toury, Gideon, Descriptive Translations Studies and Beyond, Amsterdam, John Benjamins, 1995.
Vincis, Valentina/Miotto, Carla, Algunas consideraciones en torno al concepto de tradiciones
discursivas, in: Albertin, Chiara/Del Rey Quesada, Santiago (coords.), Hispanica Patavina.
Estudios de historiografía e historia de la lengua española en homenaje a José Luis Rivarola,
Padova, CLEUP, 2016, 199–215.
Álvaro S. Octavio de Toledo y Huerta
Aprovechamiento del CORDE para el estudio
sintáctico del primer español moderno (ca.
1675–1825)
1 El primer español moderno1

Empieza a abrirse paso la idea de que el español conoció una fase evolutiva con
entidad propia entre el fin del periodo clásico y la época contemporánea,2
periodo que desde hace algunos años vengo denominando (en la línea de la
periodización clásica de Lapesa y —como señala Girón 2008, 2248— «a falta de
un nombre mejor») primer español moderno.3 Gracias a un conjunto creciente de
1 Este artículo se incluye entre los trabajos financiados por el proyecto de investigación «Proce-
sos de Gramaticalización en la Historia del Español (ProGramEs) IV», de referencia FFI2012-
31427.
2 Suele hacerse coincidir el límite del español clásico con las postrimerías del Siglo de Oro
literario, esto es, con el lapso que media entre la muerte de Gracián en 1658 y la de Calderón en
1681 (cf. sobre todo Eberenz 1991, Girón 2004a). Adoptamos en este trabajo de manera convencio-
nal una fecha intermedia, la de 1675, que marca igualmente el inicio de la actividad de los
novatores (cf. principalmente Mestre 1998, Pérez Magallón 2002 y, para los aspectos lingüísticos,
Álvarez de Miranda 1990, 1996). En cuanto a la época contemporánea, su arranque podría
hacerse corresponder con el triunfo del Romanticismo en la tercera década del siglo XIX y la
consolidación del sistema parlamentario (y, por tanto, del discurso político y el periodismo) o la
ciencia moderna, con la consiguiente aparición de un conjunto amplio de tradiciones discursivas
sociohistóricamente características (para la necesidad de buscar correspondencias entre los
periodos de la historia lingüística y la configuración de nuevas constelaciones discursivas, cf.
Eberenz 2009; Kabatek 2012). Propongo aquí, de nuevo convencionalmente, la fecha de 1825.
3 Cf. Octavio de Toledo (2007; 2008; 2014a; 2014b; 2016). Para la periodización lapesiana y su
motivación, cf. Martínez/Quilis (1996), Abad (1998) o, más recientemente, Arenas (2007). El
marbete de primer español moderno ha conocido cierta fortuna (cf. principalmente García Godoy
2012a), pero conviene señalar que hay igualmente quien niega a esta franja cronológica una
identidad lingüística suficiente como para poder constituirla en un nuevo periodo (cf. sobre todo
Sánchez Lancis 2012). En cualquier caso, la cuestión de cómo conceptuar historiográficamente la
evolución del español a partir de 1650 (esto es, a lo largo de los últimos 365 años, nada menos)
no es trivial y debe acometerse: como apunta Weber (2011, 225–226), «periodization is historically
constructed, ideologically laden, cognitively necessary, and provisionally useful for teaching and
research».
Álvaro S. Octavio de Toledo y Huerta: Ludwig-Maximilians-Universität München

58 Álvaro S. Octavio de Toledo y Huerta
estudios,4 conocemos hoy día mucho mejor que hace apenas diez años la
morfosintaxis de ese siglo y medio al que previamente apenas se había prestado
atención, sobre todo en España.5
Es fácil identificar las causas de este abandono relativo. En la historiografía
tradicional del español (la venerable tradición de las «historias de la lengua» y las
monografías que siguen su método), «los criterios de periodización […] correspon-
den en lo esencial a la historia literaria y, como esta, reflejan los de los historiado-
res generales» (Marcos Marín 1995, 329). Para la segunda mitad del siglo XVII y la
primera del XVIII, en especial, la mutua implicación de la historia social y
política, la historia literaria y la historia lingüística ha tenido como consecuencia
una visión muy negativa de este periodo, caracterizado, especialmente por parte
de los historiadores españoles del siglo XIX y la mayor parte del XX, como una
época de colapso institucional y postración frente a las potencias extranjeras
(encarnadas metonímicamente en la pálida figura de Carlos II y la supuesta
atmósfera de extenuación finisecular que precede a las querellas por su sucesión
en el trono), de marasmo económico y social y, por consiguiente, de hundimiento
cultural, especialmente en la literatura, donde la escasez de grandes autores de
4 La bibliografía va camino de ser muy abundante: baste citar aquí, sin ánimo de exhaustividad,
las contribuciones de Company (2007), Company (2012), Espinosa (2012), Girón (2004a; 2012),
Guzmán/Sáez (en prensa), Melis/Flores/Bogard (2003) o Ramírez (2011; 2012). En lo que atañe al
desarrollo en este periodo de algunos grandes procesos sintácticos, cf. ya Company (2002) o
Girón (2002) y, más recientemente, Melis/Flores (2009), así como varios de los trabajos en los
volúmenes colectivos citados. Hace tiempo que se atiende, por otra parte, a la caracterización de
(aspectos de) la sintaxis de autores concretos —cf. por ejemplo Ariza (1981), Ramírez (2002), Sáez
(2003), Girón (2004b; 2008), Octavio de Toledo (2016)—, mientras es más reciente la atención a la
sintaxis de ciertas tradiciones discursivas o conjuntos de producción textual (cf. entre otros
Octavio de Toledo/Pons 2009; García Godoy 2012b; Sáez 2014). Mediante aportaciones como
estas, el estudio de la morfosintaxis ha logrado acortar la distancia muy considerable que lo
separaba del análisis del léxico y la producción metalingüística en este periodo.
5 Como apunta Girón (2012, 30), «[h]asta hace poco era general el lamento de que la historia de
la lengua estaba por hacer» para este periodo. En efecto, hace pocos años una destacada
especialista podía quejarse de que «[s]olo unos pocos estudios sobre determinados rasgos
morfosintácticos de las modalidades americanas constituyen fértiles parcelitas de ese gran erial
que, todavía hoy, es el español de los siglos XVIII y XIX» (García Godoy 2008, 33), mientras otro
invitaba a investigar una época que «resulta interesantísima para la historia del español por dos
razones: suponemos que es el germen de la modernidad lingüística y resulta una casi absoluta
zona ciega de datos y estudios» (Sáez Rivera 2003, 327). La asimetría que produce el estudio en
detalle de las variedades americanas (cf. ya la presentación panorámica de Fontanella 1994) o de
algunas variedades del español peninsular (cf. por ejemplo Isasi 2006) frente a las carencias en el
análisis de la lengua estándar supone un obstáculo a la hora de obtener el contraste y el refrendo
necesarios para formular observaciones de mayor precisión y alcance en torno al elenco de usos
generalizados en este periodo.
Aprovechamiento del CORDE para el estudio sintáctico del primer español moderno 59
referencia contrasta dolorosamente con el esplendor del Siglo de Oro.6 El modo

en que esta imagen sombría se proyecta sobre las ideas acerca de la lengua del
periodo puede seguirse en la más conocida de las historias del idioma (Lapesa
1981): tanto el imparable desmedro político y socioeconómico (1) como la intole-
rable mediocridad de los autores (2) se habrían aunado en detrimento de una
lengua deteriorada, que exigía la intervención salvífica que vino, junto con la
nueva dinastía, de la mano de la Real Academia Española.
(1) Tras la serie de adversidades que habían jalonado los reinados de Felipe IV y Carlos II,
[España] quedaba sacrificada en la paz de Utrecht. Todas las actividades parecían
muertas. Se imponía una tarea de reconstrucción vivificadora (Lapesa 1981, 418)
(2) Nunca, en verdad, estuvo más justificada que en el siglo XVIII la preocupación por el
idioma. En los dos primeros tercios del Setecientos se prolongaban, envilecidos, los
gustos barrocos de la extrema decadencia [. . .]. Una caterva de escritorzuelos bárbaros
y predicadores ignaros emplebeyecía la herencia de nuestros grandes autores del
siglo XVII (Lapesa 1981, 424)
La Academia no solo habría depurado la lengua, sino que también la habría

fijado, de tal forma que a partir del Setecientos no resulta fácil, siempre según
6 La palabra clave para referirse a este tramo de la historia de España es, en definitiva,
decadencia, la misma que titula el panorama historiográfico de estos años dentro de la prestigio-
sa Historia de España Menéndez Pidal (Molas 1993) y la misma también que asoma en el título del
libro en que Kamen (2006) trata de desmontar el mito del progresivo hundimiento de España a lo
largo del XVII, íntimamente ligado a la construcción de una cierta idea de la «España imperial»
y, naturalmente, a la idea de un empeoramiento sucesivo del gobierno de los «Austrias meno-
res», que solo podría rescatarse con el benéfico advenimiento de la nueva dinastía Borbón. Esta
visión hace tiempo que ha sido matizada y corregida por los historiadores: en palabras de Kagan
(1996, 442), existe desde hace dos décadas «a willingness to challenge the old teleology of
Spanish economic backwardness and decline», acometida por «scholars less interested in the
ups and downs of the Spanish empire than in the internal character of Spanish society and
culture». El impacto de las tesis decadentistas en la historia de la lengua, sin embargo, no ha sido
aún eficazmente corregido, quizá por su mayor afinidad con la historia literaria, donde no hace
tanto que los estudiosos se afanan por manifestar la existencia de un ideario creativo propio del
periodo (cf. Bègue 2010; Pérez Magallón 2001; 2008; 2012), que no puede despacharse sin más
como el escenario de una pugna maniquea entre el tardobarroco anquilosado y una protoilus-
tración balbuciente. Resume acertadamente la orientación estética de este tiempo Bègue (2008,
35–36): «con la progresiva difusión del estilo llano en el siglo XVII, la rota Virgilii cojea hasta
romperse y quedar hecha pedazos. La escritura de las últimas décadas del siglo XVII y primeras
del XVIII es una escritura de transición, todavía llena de fórmulas gongorizantes confrontadas
con otras, triviales, sencillas, hasta vulgares, pero cuyo contraste con las primeras resultaba
altamente significativo. […] [S]entimos prefigurarse ya una poética de lo común, de lo «llano», de
lo «sencillo», de lo familiar, de lo cotidiano». Y no es poco, en fin, lo que cambia la teoría del
estilo de la Agudeza de Gracián (1648) a la Poética de su paisano Luzán (1737).
esta visión tradicional (que, por lo demás, se extiende hasta el presente), encon-
trar ya cambios morfosintácticos, y si los hay, resultan triviales (3).7 A esta
impresión coadyuva, sin duda, la escasa distancia lingüística que nos separa aún
de aquella época (4).
(3) Es evidente que el hecho de que el español parezca definitivamente hecho en el

siglo XVIII obedece a la nivelación impuesta por la Academia y por la política unifor-
madora de los Borbones, y parece cierto que […] lo que se llama español, es decir, la
fonética, la morfología y la sintaxis, no se ha movido desde entonces (Perona 2000,
369; énfasis del autor)
(4) al lector actual no extraña prácticamente nada de los textos del siglo XVIII (Narbona
2004, 1023; énfasis del autor)
Afirmaciones como las que acabamos de citar no contribuyen excesivamente a

estimular el interés por historiar la evolución del español entre las últimas
alegorías de Gracián y los primeros pinitos periodísticos de Larra. Hoy por hoy, no
obstante, es cada vez más pujante la convicción de que, lejos de destacar por su
fijeza, el español de aquel tiempo se encontraba en un estado de «ebullición»
lingüística no inferior, desde luego, al que Lorenzo (1994) supo ver en el español
del último tercio del siglo XX, y aumenta a cada rato la nómina de fenómenos y
ámbitos (aparentemente nada marginales) de la gramática para los que se postu-
lan cambios determinantes dentro de este marco cronológico.8 En las próximas
páginas pasaremos revista a varios de ellos, que hemos podido explorar en los
últimos años gracias a la explotación sistemática de los datos del corpus CORDE,
no sin antes detenernos brevemente en las dificultades específicas que presenta
dicho corpus para la investigación de la morfosintaxis del primer español moder-
no.
7 El pasaje de (3) parafrasea, empeorándolo notablemente, este otro de Cano (1988, 255): «Con el
siglo XVIII puede decirse que concluyen los grandes procesos históricos constitutivos de la
lengua española. A partir de entonces, […] las grandes líneas de la estructura idiomática no han
variado: ni en el plano fónico ni en el morfosintáctico puede señalarse en este periodo ninguna
alteración fundamental». En sentido similar se manifiesta Lapesa (1996, 61) a propósito de la
segunda mitad del Seiscientos: «La grave crisis política sufrida por España a partir de 1640 no
repercutió directa ni indirectamente en el espíritu ni en las estructuras formales de nuestra
lengua. No es que hayan dejado de producirse cambios fonéticos, gramaticales ni léxicos después
de aquel desastre, sino que se han debido a otros factores».
8 Cf. ahora, sin ir más lejos, el caso del dequeísmo, oportunamente explorado por Serradilla
(2014).
2 Los datos del CORDE para el periodo 1675–1825

El Corpus diacrónico del español ha supuesto una verdadera «revolución instru-
mental» (cf. Rojo 2012, 433–434) en la investigación diacrónica,9 por cuanto ha
facilitado extraordinariamente el acceso ordenado a grandes masas de datos que
se extienden cronológicamente desde los orígenes de los iberorromances centrales
hasta la muerte del dictador Franco.10 Este carácter holocrónico hace del CORDE, a
día de hoy, la única herramienta mínimamente fiable desde el punto de vista
filológico11 que permite recabar cantidades significativas de datos con los que
ensayar un acercamiento cuantitativo a la historia de los fenómenos sintácticos
individuales durante el primer español moderno.12 No obstante, el tiempo entre
9 También ha propiciado investigaciones de índole diversa por parte de especialistas en otras

áreas del saber, pues se ha empleado, por ejemplo, para la atribución de autoría literaria (cf.
Blasco/Ruiz Urbón 2009 o, con una visión crítica, Suárez Figaredo 2011) o la localización de datos
para la historia política y social (cf. Carrasco 2011).
10 Para las características del CORDE, cf. Sánchez/Domínguez (2007), Rojo (2010), Rojo (2012).
Para su aplicabilidad a la exploración de procesos de gramaticalización (particularmente los que
suponen la fijación de esquemas léxicos), cf. Buenafuentes/Sánchez Lancis (2012). La indagación
de otros fenómenos sintácticos que afectan a piezas con una gran frecuencia global (los clíticos
de objeto o los principales verbos auxiliares, por ejemplo) presenta mayores dificultades, pues la
cantidad de datos recuperables desborda en ocasiones las posibilidades del corpus (cf. Garacha-
na/Artigas 2012). No obstante, incluso en estos ámbitos pueden obtenerse de esta clase de corpus
datos cruciales para trazar la tendencia evolutiva de un fenómeno: cf. por ejemplo García Salido/
Vázquez Rozas (2012) a propósito del doblado clítico de objetos.
11 Se han puesto de manifiesto, con argumentos que creo razonables, los problemas a que se ve
enfrentado el investigador en razón de las deficiencias filológicas de una parte de los documentos
medievales incluidos en el CORDE: cf. ya Lucía (2003) o, más recientemente, Garachana/Artigas
(2012), Lleal (2013), Octavio de Toledo/Rodríguez Molina (en prensa). Con todo, esta clase de
inconvenientes no solo son significativamente menos acuciantes para el periodo que aquí nos
interesa, sino que, en cualquier caso, son decididamente mucho menores en el CORDE que en su
gran competidor holocrónico, el Corpus del español de Mark Davies, herramienta realizada
enteramente de espaldas al más elemental rigor filológico, hasta el punto de que, con frecuencia,
no es posible conocer la fuente de la que procede el fragmento textual recuperado por la
búsqueda. Para el contraste de las virtudes del CORDE con las del Corpus del español, cf. Davies
(2010) y Rojo (2010), así como Nieuwenhuijsen (2009) y García Salido/Vázquez Rozas (2012). Para
el tramo inicial del primer español moderno (hasta 1748) resulta igualmente de utilidad (a pesar
de su tamaño modesto) la consulta del corpus IMPACT-es, recientemente activado: cf. Sánchez
Martínez/Martínez Sempere/Ivars/Carrasco (2013). En el momento de escribir estas líneas no se
encuentra aún plenamente operativo el corpus histórico de español americano CORDIAM (cf.
Bertolotti/Company 2014).
12 A pesar de que el CORDE, como señala Rojo (2012, 437), más que invitar, «obliga a intentar un
examen exhaustivo de la documentación», dichos análisis exhaustivos no han sido hasta la fecha
tan abundantes como cabría esperar en el terreno de la sintaxis (cf. ya no obstante el trabajo
1675 y 1825 (y, particularmente, la franja 1675–1750) constituye claramente en este

corpus un periodo infrarrepresentado: la Tabla I y el Gráfico 1 muestran la enorme
diferencia con los tramos temporales anteriores (el Siglo de Oro) y siguientes (del
Romanticismo a nuestros días).13 Las causas de ese notable desequilibrio no son
ajenas al relativo desinterés tradicional de los historiadores (generales, de la
literatura o de la lengua) por este periodo, desapego que hemos tratado de ilustrar
sumariamente en la sección anterior: una época que se estudia poco14 y que carece
de un canon de autores amplio y firmemente establecido15 es de necesidad una
época cuyos textos apenas se editan, al menos en editoriales de amplia difusión y
colecciones prestigiadas que los hagan fácilmente accesibles. Al basarse principal-
mente en ediciones preexistentes (y, en buena medida, en determinadas coleccio-
nes de textos clásicos), el CORDE se enfrentaba para este periodo, de entrada, a un
problema de disponibilidad limitada; y, por otra parte, la voluntad de incrementar
pionero de Sánchez Lancis 2001 y, más recientemente, Sánchez Lancis 2009). Menos frecuente
aún es la consideración específica de los hechos de frecuencia, esto es, el estudio de la difusión
de los esquemas sintácticos (cf. ahora Rojo 2014 para la distinción crucial entre frecuencia global
y de inventario). Y aún menos habitual es la reflexión en torno a la posibilidad de obtener curvas
de frecuencia auténticamente representativas a partir de las frecuencias parciales obtenidas a
través del CORDE para cada periodo (cf. igualmente Rojo 2014): a este último empeño pretende
contribuir el presente trabajo.
13 En la Tabla I figura, en la segunda columna y expresado en porcentajes, el volumen textual
que representa cada uno de los periodos señalados sobre el total para 1541–1975: para el tramo
1661–1700, por ejemplo, dicho volumen es unas 6 veces inferior al del tramo 1541–1580 y unas
7,5 veces inferior al del tramo 1861–1900. En la tercera columna se ofrece el número de documen-
tos de extensión media o superior (más de 250 apariciones de la palabra de; considero extensos
los documentos con más de 500 casos de de). Como puede apreciarse, las cifras resultan
especialmente reducidas entre 1660 y 1740. El Gráfico 1 representa los datos de la segunda
columna de la Tabla I. En esta tabla y gráfico, al igual que en los siguientes, el volumen textual
se ha calculado a partir del número de apariciones de la palabra de en cada periodo: es posible
hoy día consultar directamente el número exacto de palabras para cada periodo que se desee
delimitar a través de la «Nómina de autores y obras» del CORDE (agradezco esta importante
observación a Guillermo Rojo); los datos que se obtienen mediante esas consultas no difieren
sustancialmente, sin embargo, de los que ofrezco aquí.
14 Basta consultar los elocuentes datos de Montaner (2011) acerca del espacio dedicado en los
manuales recientes de literatura española a cada periodo histórico individual: con cierta diferen-
cia, el tramo más desatendido es el siglo XVIII, cuyo peso en el canon literario es, así, mucho más
limitado que el de otras épocas.
15 Para los problemas de canonicidad que presentan los autores del siglo XVIII y para la
relación entre cristalización del canon y actividad editorial, cf. Lorenzo (2008). La gestación del
canon literario influye en la selección de los textos editados y difundidos y, por lo tanto,
determina la nómina de documentos con mayores posibilidades de ser empleados para la
investigación diacrónica, como ha mostrado Pons (2006a) para el caso del Cuatrocientos caste-
llano.
la base textual tuvo como resultado, a falta de una nómina extensa de escritores
consagrados por el canon a los que acudir, el aumento del volumen textual
representado por un puñado de autores de referencia.16 Así, por ejemplo, aproxi-
madamente una de cada cuatro palabras que ofrece el CORDE para la primera
mitad del siglo XVIII pertenece a las obras de Feijoo, y el 38 % de los documentos
extensos de este mismo periodo (29 de un total de 76) se debe a tan solo cuatro
autores (Torres Villarroel, Mayans y Luzán, además de Feijoo).17
Tabla I: Volumen de datos (%) y documentos medios y extensos por periodos de 40 años
(CORDE, 1541–1975)
Periodo Peso Documentos medios o extensos
1541–1580 12,6 % 501
1581–1620 15,4 % 517
1621–1660 7,2 % 319 (208 ad 1640)
1661–1700 2,0 % 69
1701–1740 2,7 % 64
1741–1780 3,6 % 152
1781–1820 3,8 % 176
1821–1860 6,0 % 268
1861–1900 15,4 % 444
1901–1940 13,5 % 496
1941–1975 17,8 % 496
16 Dicha voluntad es manifiesta, por ejemplo, en la digitalización, directamente a partir de los

ejemplares de las primeras ediciones custodiados en la Academia, del Teatro crítico universal y
las Cartas eruditas y curiosas de Feijoo, no disponible en su integridad en ninguna edición
moderna hasta la fecha de la última actualización textual del CORDE (2005). En una época con
un volumen total de datos relativamente escaso, sin embargo, la inclusión de estas obras
convierte a Feijoo en el autor individual con más peso en el CORDE en relación con su periodo
histórico correspondiente (excluyendo los siglos XIII–XIV): el 28 % del volumen textual total
entre 1720 y 1760 corresponde a las obras de este autor.
17 Otros 23 textos (el 30 % de los de este periodo) son documentos extensos de carácter
administrativo, de modo que solo 24 textos (un 32 %) son debidos a autores distintos de los
cuatro indicados. Si se contemplan solo los textos muy extensos (con más de 1000 apariciones de
la palabra de), las obras de Feijoo, Torres, Mayans y Luzán pasan a representar, por sí solas, más
de la mitad de los textos (23 de 44 o un 52 %).
Gráfico 1: Distribución relativa de la masa textual en el CORDE (y = %, datos de la Tabla 1)
Semejante escoramiento hacia la lengua de unos pocos autores individuales puede

tener consecuencias imprevistas para el análisis de los datos. En uno de los
primeros trabajos dedicados a la sintaxis del siglo XVIII, Ariza (1981) comparó el
uso de las formas verbales en las oraciones condicionales de Feijoo y Torres
Villarroel, subrayando un fuerte contraste entre ambos en dos fenómenos: en
Feijoo, pero no en Torres, la forma simple –ra puede referirse al pasado; y, por otro
lado, «es clara la preferencia de Feijoo por la forma en –SE […]. La estructura más
usada por Feijoo es la de SE–RÍA (diez casos) y en Torres RA–RA (ocho casos)»
(Ariza 1981, 218).18 En fecha mucho más reciente, Bartol (2005, 2006) ha abordado
idéntica cuestión mediante una exploración exhaustiva de los datos del CORDE
para la primera mitad del Setecientos, concluyendo que se produjo en este tiempo
una reducción drástica del esquema con –ra en ambos miembros (su frecuencia
alcanza solo el 32 %) y una notable progresión del condicional –ría en la apodosis
(hasta el 47 % de los casos). Sin embargo, los análisis recientes de este fenómeno
en autores o conjuntos documentales concretos de los dos primeros tercios del
siglo XVIII (el teatro de Ramón de la Cruz: Ramírez/Rubio 2003; los documentos de
Quito y Venezuela: Sánchez Méndez 2012; la prosa de Antonio Muñoz: Octavio de
Toledo 2016)19 señalan de manera constante la gran vitalidad, cuando no la
18 Ariza empleó en su investigación los dos tomos (CXLI–CXLII) de la Biblioteca de Autores

Españoles que contienen discursos de Feijoo, así como el tomo X de las Obras de Torres, dedicado
a los almanaques y pronósticos.
19 Ramírez/Rubio (2003, 275–276) detectan un 79 % de selección de –ra en la prótasis de las
potenciales: algo menos de la mitad de esos casos (el 37 % del total) llevan también –ra en la
apódosis, de modo que «es el esquema si –ra, –ra el predominante o canónico para la expresión
de las potenciales de simultaneidad/posterioridad al origen». Según Sánchez Méndez (2012,
1154), si –ra . . . –ra «es el periodo condicional típico y más frecuente que ofrece la documentación
de ambas zonas [Venezuela y Quito] para la expresión de un presente o futuro irreal». En las
preponderancia del esquema si tuviera, diera en este periodo, esto es, la tendencia
a emplear los tiempos en las condicionales a la manera de Torres, que continúa la
tendencia dominante en el siglo anterior. Cabe preguntarse, pues, si el fuerte
descenso de dicho esquema detectado por Bartol, con el consiguiente avance
de –ría en la apódosis, no es más aparente que real, pues podría deberse al
extraordinario peso en la muestra de los datos de Feijoo, que rechazaba las formas
en –ra en este entorno, posiblemente de acuerdo con su origen noroccidental.20 El
idiolecto feijoniano,21 así, podría distorsionar notablemente los datos de este
fenómeno para la primera mitad del Setecientos, hecho tanto más grave cuanto
que, en principio, tendemos a otorgar a los datos del CORDE, por su mera abun-
dancia, una fiabilidad mayor a efectos de generalización estadística que a los de
las búsquedas en autores u obras individuales.22
Hechas estas precisiones, creemos no obstante que el CORDE proporciona
materiales de gran valor para abordar el estudio cuantitativo de los fenómenos
sintácticos que caracterizan el primer español moderno, bien por darse solo dentro
de sus límites, bien por haber conocido entonces una difusión significativamente
mayor que en tiempos anteriores y posteriores. Esto es, pensamos que el CORDE es
una herramienta irrenunciable para contribuir a un intento de periodización del
Aventuras de Muñoz (1739), en fin, he contabilizado un 69 % de presencia de –ra en los dos

miembros, el doble del que calcula Bartol sobre los datos del CORDE.
20 Feijoo, como es sabido, nació en Orense y se crió entre esta provincia y Lugo. La aversión del
gallego (y, por lo tanto, de una parte importante de los hablantes del español de Galicia) por el
empleo de las formas en –ra en entornos de subjuntivo dura hasta nuestros días (cf. ahora el
detallado estudio de Rojo/Vázquez 2014), y se conecta sin duda con la supervivencia histórica de
los valores indicativos de –ra. Ello pudo llevar a Feijoo a preferir el esquema con –se … –ría, que
fue y sigue siendo el más difundido en gallego, como en portugués. Su origen dialectal quizá
explique también el otro uso característico de Feijoo en este ámbito, esto es, el empleo (ya muy
inhabitual en su tiempo) de cantara en las hipótesis referidas al pasado, pues el occidente
peninsular es conocidamente refractario al desarrollo de los tiempos compuestos (cf. con carácter
general Veiga 1991 y Rodríguez Molina 2010; y, específicamente respecto del carácter exclusiva-
mente oriental de habría cantado en la Edad Media, Bartol 2012). La forma en –ra sin duda era
más aceptable con valor de pasado para un hablante que en su variedad tanto de gallego como
de español seguramente empleaba cantara indicativo con ese significado temporal.
21 La noción de idiolecto ha sido empleada en relación con la exploración de la alternancia –ra/
–se en general por Barra (2011). En efecto, más allá de los factores dialectales y de registro, las
preferencias individuales parecen desempeñar un papel importante en la selección de estas
formas, al menos a partir del siglo XVII.
22 En segmentos temporales como este, pues, la representatividad del corpus —el equilibrio entre
textos de distinta procedencia dialectal, genérica, de registro, etc. que garantiza que «las peculiari-
dades individuales se diluyen en la masa de datos» (Rojo 2012, 441; cf. las consideraciones de
Kabatek 2013)— puede verse algo menoscabada por el excesivo peso cuantitativo de un(os) autor
(es) concreto(s).
primer español moderno basado en la evolución misma de los fenómenos, lo que

en ocasiones se denomina (con discutible acierto, pero notable éxito) «historia
interna» de la lengua.23 En las próximas páginas, pues, trataremos de ofrecer,
mediante ejemplos de fenómenos que conocen una evolución peculiar durante el
periodo 1675–1825, algunas posibilidades muy sencillas de paliar en lo posible el
problema que supone comparar las frecuencias de un mismo hecho sintáctico en
tramos cronológicos con masas textuales muy distintas dentro de un mismo
corpus, problema que, como acabamos de ver, afecta de manera decisiva a la
época que aquí nos interesa: propondremos, en definitiva, algunas formas básicas
de cuantificar los datos sintácticos del CORDE, asunto (y práctica) que hasta donde
sabemos no ha merecido aún gran atención por parte de los investigadores.
3 Frecuencias absolutas y frecuencias correlativas

En algunos casos, los datos del CORDE para el primer español moderno pueden
resultar muy elocuentes incluso en bruto. Las cifras absolutas, por ejemplo,
informan de la eclosión entre 1675 y 1725 y de la regresión de 1775 a 1825 de los
esquemas en los que el contraste de polaridad entre dos oraciones (que funciona,
semánticamente, como una relación adversativa restrictiva, equivalente a la que
expresa el nexo sino: cf. 5a) se hace explícito mediante el adverbio de polaridad
positivo reforzado por un adverbio focal (solo) o con valor adversativo (antes)
(cf. 5b).24 Puesto que el periodo 1675–1750 se encuentra especialmente infrarre-
presentado en el corpus, es de sospechar que el contraste entre épocas es aún más
pronunciado que el que representa el Gráfico 2. No hacen falta más cálculos,
pues, para llegar a dos conclusiones acerca de la difusión de estas secuencias: se
trata de innovaciones muy circunscritas en el tiempo, que aparecen y se desvane-
cen a lo largo del primer español moderno (y, por tanto, son indetectables si no se
23 Para un intento semejante en otro límite cronológico crucial, el que separa el español
medieval del (proto)clásico, cf. de nuevo Sánchez Lancis (2001, 2009).
24 El refuerzo puede ser igualmente también para el caso de la relación aditiva con no solo: «Es
constante que el ojo no solo ve aquel punto del objeto donde se termina el exe óptico, sí también
un espacio mui dilatado en torno de él» (Feijoo, Teatro crítico III, 1729). Para la gramaticalización
de antes con valor adversativo, cf. Azofra (2010) y Nieuwenhuisjen (2012). El fenómeno de (5a) se
gestó en la lengua barroca de la distancia (en el sentido de Koch/Oesterreicher 2011) y empieza a
menudear a mediados del Seiscientos. Además de sí solo existe, con una historia levemente
diferente (por su mayor longevidad, principalmente), la combinación solo sí: «No vengo triste e
infeliz suplicante a desarmar en favor de esos reos la justicia; sólo sí a implorar vuestra piedad»
(Pedro Montengón, Eusebio, 1786). Ofrezco algunos detalles más acerca de estos esquemas en
Octavio de Toledo (2008).
presta atención a este periodo);25 y, de los dos esquemas, el reforzado con antes
posiblemente alimentó la difusión del reforzado con solo, pues su auge es previo,
mientras que el declive de ambos se produce de manera acompasada, según lo
esperable si la difusión de un esquema B está condicionada por la de un esquema
A: antes de que B llegue a manifestarse, A experimenta un crecimiento aprecia-
ble, y en caso de que A se hunda, B le sigue sin excesiva demora.
(5) a. Halló lo primero que la bacanal estancia no se componía de doradas salas, sino de
ahumadas çaurdas, no de quadras de respeto, sí de ranchos de vileza (Baltasar Gracián,
El Criticón III, 1657).
b. no hallé […] que el cometa se acercase más aprisa al occidental horizonte que la
estrella, ni esta con más velocidad que el cometa, antes sí que ambos casi guardaron
un mismo tenor de movimiento (Carlos de Sigüenza y Góngora, Libra astronómica y
filosófica, 1690).
Gráfico 2: Cifras absolutas en el CORDE para las construcciones adversativas antes sí y sí solo
Suele ser bastante más útil, sin embargo, poder acceder a una curva evolutiva
libre del efecto deformante que introducen las diferentes masas textuales corres-
pondientes a cada periodo. Un primer modo de obviar este efecto consiste en
obtener frecuencias correlativas. Para ello es necesario poder definir un ámbito
de variación (ing. envelope of variation) que conste de un número cerrado de
alternativas. Cada una de las alternativas posee entonces una frecuencia respecto
de las otras, de modo que todas juntas suman 1 o un 100 % de los casos. El ámbito
25 Esto no quiere decir, naturalmente, que los cambios no se encuentren conectados con procesos
de más amplio recorrido: el ascenso de antes sí a fines del XVII y principios del XVIII coincide en el
tiempo con el de antes bien y con el declive del simple antes adversativo, cuyo empleo había
alcanzado su cenit en el siglo XVI (Nieuwenhuijsen 2012, 1003), lo que sugiere que la pérdida de
terreno de antes dio lugar a un proceso de especialización que explica la génesis de los esquemas
reforzados, de los que antes bien perdura, aunque con frecuencias escasas, hasta hoy día.
de variación puede ser binario, si la oposición entre las variantes tiene la estruc-
tura de un par mínimo. Es lo que ocurre con las dos opciones que presentan los
indefinidos negativos en español, que activan la concordancia negativa cuando
se posponen al verbo finito, pero no cuando se anteponen: así, en el caso de
nada, el esquema del tipo nada sé se opone de forma constante al del tipo no sé
nada, de modo que para cada periodo puede obtenerse una correlación porcen-
tual entre los dos esquemas, que naturalmente es independiente del número
concreto de casos. Una cuantificación de este tipo permite observar como nada
SV, apenas presente en la Edad Media, avanzó a lo largo del español clásico
respecto de no SV nada para alcanzar cotas máximas de difusión, por encima
incluso de su competidor, justamente durante el primer español moderno, perio-
do a partir del cual ha entrado en un lento abandono (Gráfico 3).26
Gráfico 3: Frecuencias correlativas de los esquemas nada SV y no SV nada en el CORDE
En otras ocasiones, el ámbito de variación puede estar constituido por un número

mayor de alternativas, por ejemplo, por todas las fases sucesivas de una cadena
de gramaticalización (cf. Heine 1992). A partir de la locución adverbial en el ínterin
‘mientras tanto’, que se adoptó en español a mediados del siglo XVI, surgió un
uso relacional en el ínterin que SV (6a) que a lo largo del primer español moderno
26 En el gráfico 2, la curva de trazo continuo mide el porcentaje correlativo del esquema del tipo
nada sé respecto del esquema alternativo no sé nada (una línea discontinua a la altura del 50 %
permite apreciar con mayor claridad cómo aquel supera a este justamente entre 1650 y 1850). La
curva discontinua de trazo corto mide el porcentaje de textos que en cada periodo presentan más
casos de nada SV que de no SV nada. Aunque las dos curvas discurren paralelamente, confirman-
do la misma cronología para la fase de mayor éxito del fenomeno, la segunda corresponde a un
cálculo distinto, pues relaciona el uso del fenómeno con su grado de difusión textual. Una tercera
curva, discontinua de trazo alterno, muestra el porcentaje de textos en los que está totalmente
ausente la anteposición de nada al verbo. Para más detalles sobre la evolución de estos esquemas
y la información que proporciona la curva del Gráfico 3, cf. Octavio de Toledo (2014a).
fue reduciendo su estructura, perdiendo primero el artículo y luego la preposición

y el nexo que (6b) hasta que emergió un ínterin con función nexual propia,
equivalente de mientras o en tanto (6c), que no sobrevivió a la primera mitad del
siglo XIX (cf. Octavio de Toledo 2007; Herrero 2005, 245–246). El Gráfico 4, de
frecuencias correlativas, muestra a las claras como se escalona cronológicamente
la aparición de los sucesivos esquemas, y cómo la adquisición del último estadio
evolutivo supone el auge del ínterin nexual (6c) en detrimento de todas las
alternativas previas (6a, b), que desaparecen velozmente a lo largo del siglo XVIII.
Puesto que el ámbito de variación está constituido en este caso por todos los
entornos sintácticos de contenido temporal en que ha participado la voz ínterin
en español, el Gráfico 4 constituye además una especie de «mapa construccio-
nal» de esta palabra, proyectado en términos diacrónicos y de frecuencia.
(6) a. comenzaron a poner fuego en la ciudad en el ínterin que los vecinos estaban
embebecidos en matar enemigos (Francisco Cervantes de Salazar, Crónica de la Nueva
España, 1560)
b. para que descansasen de las fatigas del viaje, en ínterin que disponían casa para su
habitación (Fray Gaspar de San Agutín, Conquistas de las Islas Filipinas, 1698)
dio orden […] que escoltasse a los trabajadores de los ranchos y se mantuviesse en
aquellos parages, ínterin que llegava para disponer su entrada (Juan de Villagutierre
Sotomayor, Historia de la conquista de la provincia del Itzá, 1701)
c. y que dichos 100 ducados se le mantengan ínterin le dure la voz (Documentos sobre
música en la catedral de Sigüenza, 3. 1. 1738)
Gráfico 4: Evolución de los usos relacionales de ínterin y comparación con el sintagma adverbial
en el ínterin
4 Frecuencias ponderadas e índice de difusión

textual
El análisis de las frecuencias correlativas, sin embargo, no ofrece información

alguna acerca de la relación que el volumen de casos para un fenómeno dado en
un periodo determinado establece con el volumen de casos para otro periodo:
podría ocurrir, por ejemplo, que el número de esquemas del tipo nada sé fuera
bastante inferior para la primera mitad del XIX que para la segunda, mientras
que, en cambio, su proporción frente al tipo no sé nada resultara, por escasez
relativa de este, bastante más abundante.27 Dicho de otro modo, el historiador de
la lengua puede basarse en las frecuencias correlativas para saber en qué época
un esquema fue dominante frente a otros esquemas en competencia, pero no para
averiguar en qué época(s) fue más frecuente en términos globales. Esta pregunta
requiere del desarrollo de un procedimiento que permita comparar entre sí masas
textuales desiguales, pues la misma frecuencia absoluta puede suponer una gran
presencia del esquema en un periodo con un volumen de texto relativamente
escaso y una presencia residual, en cambio, en otro tramo con un gran volumen
textual. El trazado de una curva global de frecuencias fiable pasa, pues, por el
establecimiento de frecuencias ponderadas, esto es, relativas al peso de cada
periodo sobre el conjunto de la masa textual del corpus.
Dos clases de cálculos pueden ser útiles en este sentido: por un lado, las
frecuencias ponderadas se obtienen sin dificultad a partir del CORDE establecien-
do la proporción de apariciones de un elemento sobre el total de palabras de un
periodo o, si se quiere, frente a la frecuencia en ese periodo de una palabra
especialmente abundante (como la preposición de en español); el mismo cálculo
se puede realizar con relación al número de documentos del periodo o a un
subconjunto que se considere pertinente (por ejemplo, los textos medios y exten-
sos, que cabe definir arbitrariamente como aquellos que presentan más de 250 ocu-
rrencias de la palabra de; o solo los extensos, con más de 500 ocurrencias de de; o
únicamente los muy extensos, que superarían las 1000); se puede igualmente, en
fin, calcular la proporción de textos (o subconjunto de textos) por periodo que
27 De hecho, esto es justamente lo que ocurre: el tipo nada sé presenta 3167 casos en la primera
mitad del Ochocientos y más del doble (6554) en la segunda mitad, pero la proporción frente a no
sé nada es casi veinte puntos superior en el primero de estos periodos (71 % frente a 52 %). Lo
mismo ocurre con el ínterin nexual, que ofrece 98 casos para el periodo 1751–1800, 86 para el
tramo siguiente (1801–1850) y un número máximo, 114, para 1851–1900; en cambio, la frecuencia
correlativa frente al resto de esquemas es máxima para el segundo de estos periodos (65,2 %),
seguido del tercero (61,3 %) y del primero (44,5 %).
presentan el fenómeno, con independencia del número de veces que este se

manifiesta en cada texto: el resultado de este cálculo, que es independiente de la
frecuencia (absoluta, correlativa o ponderada) del fenómeno —aunque, natural-
mente, es esperable que mantenga un cierto grado de proporcionalidad directa al
menos con las dos últimas—, puede denominarse índice de difusión textual.28
Aplicando al caso de ínterin los dos primeros cálculos (Tabla II) se obtienen
resultados que contribuyen a afianzar la descripción de esta evolución: la palabra
ínterin, en efecto, fue especialmente frecuente, tanto respecto del volumen de
palabras como respecto del de documentos, en la primera mitad del siglo XVIII,
esto es, en el mismo periodo en que fue más intensa la progresión de la frecuencia
correlativa del ínterin nexual frente a otros esquemas. De ello parece deducirse
que una frecuencia muy elevada del conjunto de esquemas con la palabra ínterin
pudo favorecer el desarollo del estadio más avanzado de la gramaticalización de
este elemento, de acuerdo con las predicciones usuales entre quienes han anali-
zado la relación de la gramaticalización con la frecuencia de uso.29 La Tabla II
ofrece además resultados de otra clase adicional de cálculo, el de la frecuencia
para cada periodo de un elemento o esquema sintáctico frente a otros con función
semejante, esto es, las frecuencias correlativas de elementos onomasiológicamen-
te relacionados: de nuevo, la observación de la frecuencia de ínterin respecto de
la de mientras o entretanto parece indicar que el primero de estos elementos ganó
terreno especialmente en la primera mitad del Setecientos.30
28 Es sencillo ver que la ventaja de este tercer cálculo frente al anterior es que excluye el efecto
de la posible concentración, para cualquier periodo dado, de un número muy elevado de casos
de un fenómeno en un grupo muy reducido de documentos, lo que fácilmente puede ocurrir por
razones de adscripción diatópica, de registro, de tradicionalidad discursiva, etc.
29 Me refiero en particular a Joan Bybee y algunos de sus discípulos y colaboradores: cf. en
especial Bybee/Hopper (2000), Bybee (2003), Bybee (2011), Schwenter/Torres (2010). En este
último trabajo se define incluso el proceso mismo en términos de incrementos de frecuencia:
«Grammaticalization is the diachronic process whereby existing constructions with particular
lexical items gain frequency and become new constructions, following cross-linguistic evolution-
ary paths» (Schwenter/Torres 2010, 15).
30 Naturalmente, el problema de este último tipo de cálculo es que mientras o entretanto poseen,
al igual que ínterin, su propia dinámica histórica, de modo que no puede darse por hecho que sus
frecuencias sean diacrónicamente constantes, ni que puedan compararse sin más, por ello
mismo, las cifras de los distintos periodos: de hecho, los datos de la Tabla II, especialmente para
el periodo 1550–1650 y para los siglos XIX–XX, sugieren que existen diferencias entre estas dos
piezas, pues la proporción de ínterin no crece (en el caso del primero de esos periodos) o
disminuye (en el segundo tramo) a la misma velocidad respecto de una y otra. Ello se debe
principalmente al hecho de que entretanto conoció una difusión particularmente alta en el
siglo XVI, pero perdió presencia a continuación y se volvió claramente recesiva (aunque no de
forma tan pronunciada como ínterin) a partir del siglo XIX (cf. Eberenz 1982; Herrero 2005, 240).
Tabla II: peso cuantitativo de ínterin en el CORDE y comparación con mientras
1550– 1600– 1650– 1701– 1751– 1801– 1851– 1901+

1599 1649 1700 1750 1800 1850 1900
Frec1 4 24 38 72 43 20 10 1 1
Frec2 2 14 18 29 11 9 11 1 0,05
Frec3 % 2,5 7,7 11,7 28,6 11,8 3,3 1,7 0,2 0,1
Frec4 % 3,5 23,8 39,6 59,7 26,3 9,7 8,5 3,4 2,5
Frec1 = número de casos de ínterin por cada 100.000 casos de la palabra de

Frec2 = número de apariciones de ínterin por cada 100 documentos
Frec3 % = frecuencia de ínterin respecto de mientras (en porcentaje sobre la suma de casos
de ínterin y mientras para cada periodo)
Frec4 % = frecuencia de ínterin respecto de entretanto (en porcentaje sobre la
suma de casos de ínterin y entretanto para cada periodo)
Otro ejemplo interesante lo proporciona la extensión del artículo ante oraciones

completivas (cf. sobre todo Lapesa 1984). La Tabla III muestra las frecuencias
absolutas por periodos del esquema en que el precede al nexo completivo que (en
adelante, AC: Te agradezco el que vengas, El que vinieras me encantó, etc.); entre
paréntesis figura el aporte porcentual de cada periodo a la frecuencia total; en la
columna de la derecha, el peso de cada periodo sobre el volumen textual total del
corpus. El Gráfico 5 representa el comportamiento de las frecuencias absolutas a
lo largo del tiempo.
Tabla III: Datos globales de frecuencia de la construcción AC
1541–1580: 12 (0,1 %) Peso: 12,6 %
1581–1620: 45 (0,6 %) Peso: 15,4 %
1621–1660: 228 (2,9 %) Peso: 7,2 %
1661–1700: 901 (11,5 %) Peso: 2,0 %
1701–1740: 1027 (13,1 %) Peso: 2,7 %
1741–1780: 1095 (13,9 %) Peso: 3,6 %
1781–1820: 564 (7,2 %) Peso: 3,8 %
1821–1860: 644 (8,2 %) Peso: 6,0 %
1861–1900: 988 (12,6 %) Peso: 15,4 %
1901–1940: 764 (9,7 %) Peso: 13,5 %
1941–1975: 1587 (20,2 %) Peso: 17,8 %

Gráfico 5: Valores globales de AC por periodos, en tantos por ciento sobre el total
El Gráfico 5 no devuelve una curva diacrónica fácilmente interpretable: el fenó-

meno, en apariencia, crece en el primer español moderno, decrece al concluir este
y repite un ciclo similar a lo largo del Ochocientos para acabar aumentando de los
años 40 del siglo XX en adelante. Sin embargo, al obtener las frecuencias ponde-
radas mediante la división del porcentaje de frecuencias absolutas (columna
izquierda de la Tabla III) por el porcentaje de peso de cada periodo (columna
derecha de la misma tabla) se desecha el efecto distorsionador que ocasiona la
gran masa textual de los tramos más recientes del CORDE (a partir de 1860), y la
curva resultante es la representada en el Gráfico 6, donde el fenómeno queda
inequívocamente retratado como característico del primer español moderno. El
índice de difusión textual (Tabla IV) confirma de manera independiente la eclo-
sión del fenómeno en la segunda mitad del Seiscientos y su fuerte declive a partir
del último tercio del XVIII.
Gráfico 6: Difusión de AC en frecuencias ponderadas por periodos

Tabla IV: Grado de difusión textual del AC por periodos
Periodo Textos medios/extensos con AC (en %)
1581–1620 27/517 (5,2 %)
1621–660 78/319 (24,5 %)

[hasta 1639: 33/208 (15,9 %); desde 1640: 45/111 (40,5 %)]
1661–1700 47/69 (68,1 %)
1701–1740 49/64 (76,6 %)
1741–1780 91/152 (59,9 %)

[hasta 1765: 61/93 (65,6 % ); desde 1766: 30/59 (51 % )]
1781–1820 85/176 (48,3 %)
1821–1860 105/268 (39,2 %)
1861–1900 190/444 (42,8 %)
1901–1940 153/496 (30,8 %)
1941–1975 193/496 (38,9 %)
La curva del Gráfico 6 cobra verdadero sentido si se la compara con la difusión

(medida según el mismo procedimiento) del artículo ante oraciones de infinitivo
con al menos un argumento o adjunto asociado (El relinchar de los caballos, El
comerse las uvas, El pasear por las calles, etc.), que figura en el Gráfico 7 (cf.
Torres 2009). En él hemos resaltado, en color más claro, el periodo coincidente
con el del brusco aumento del fenómeno AC (cf. el Gráfico 6). Puesto que dicho
aumento viene precedido del éxito previo, más sostenido (desde finales del
siglo XVI), de la construcción con artículo ante el infinitivo, cabe suponer, una
vez más, que las altas frecuencias de esta última constituyeron el terreno abonado
en que pudo aflorar y ascender muy velozmente el esquema AC. La hipótesis
tradicional (cf. ya Cuervo 1874, 891) de que el artículo se extendió de los infiniti-
vos a las oraciones con que se ve, así, confirmada en términos de frecuencias: de
nuevo, el auge en la difusión de un elemento que participa en una determinada
construcción (aquí, el artículo ante un SV) favorece su ulterior evolución, propi-
ciando igualmente su extensión a nuevos entornos sintácticos.
Gráfico 7: Difusión del artículo ante oraciones de infinitivo (frecuencias ponderadas por
periodos). Muestra: todos los infinitivos comenzados por a– o por r– (cf. Octavio de Toledo 2014b)
Por otro lado, la comparación de los gráficos 6 y 7 muestra, de forma semejante al

Gráfico 2, un descenso de frecuencias parejo en las dos construcciones, que en
este caso es estrictamente simultáneo: el fenómeno B (en este caso, el esquema
AC) parece necesitar del éxito previo de un fenómeno A pero, además, desciende
en frecuencia con celeridad en el momento mismo en que A empieza a retroceder.
No se trata aquí tanto de una relación de «arrastre», en que A facilita tanto el auge
como la caída de B, sino de una relación de perfecto acoplamiento entre dos
fenómenos cuyas curvas de frecuencia se comportan al unísono, si bien con un
arranque y un declive más pronunciados en el caso del fenómeno B o «fenómeno
auxiliado» por A.
La extensión diacrónica del artículo ante oraciones no es el único caso en que
puede observarse este patrón de perfecto acoplamiento entre la curva de un
fenómeno relativamente frecuente y la de otro de documentación más escasa.
Hemos encontrado un comportamiento similar en otro continuo de gramaticaliza-
ción,31 el que lleva del desarrollo de un valor exceptivo de la secuencia sino es
‘salvo, a excepción de’ (7a) a la aparición de un valor adversativo exclusivo de esa
misma secuencia, que pasa a equivaler a sino (7b).32 La relación entre los dos
31 Para la extensión del artículo de las oraciones de infinitivo a las completivas con que como
último paso en un continuo o cadena de gramaticalización y para la naturaleza de las fases o
etapas de dicho continuo, cf. Octavio de Toledo (2014b).
32 Esta evolución se da a través del tránsito inferencial desde la excepción débil que representa
(7a) a la excepción total o fuerte que representa (7b) en entornos donde las dos entidades
presentan un contraste de propiedades suficiente como para que deje de resultar preferible la
interpretación en que ambos pertenecen a un ámbito (o frame semántico) común, y se destaque
la lectura que asigna a una y otra entidad ámbitos diferenciados. Para este proceso, por lo demás
muy común en las lenguas, cf. Octavio de Toledo (2008).
esquemas es exactamente de la misma naturaleza que en el caso anterior, con la

diferencia de que con sino es tiene lugar una extensión por contigüidad semánti-
ca, mientras que el artículo el se extiende sintácticamente de los infinitivos con
propiedades nominales a los infinitivos con propiedades verbales y de ahí a las
oraciones encabezadas por que.
(7) a. los mas tienen ya recibida paga, sino es los portugueses («Carta escrita en Sevilla al
Rey de Portugal por Sebastián Álvarez su factor», 1519)
b. no son pobres sino es ricos (Manuel Lanz, Diálogos de Chindulza, 1761)
Gráfico 8: Frecuencias ponderadas de los esquemas con sino es exceptivo (sino es 1) y

adversativo (sino es 2)
En estos casos, el establecimiento de frecuencias ponderadas que permitan situar

en pie de igualdad, a efectos de comparación, los tramos cronológicos seleccio-
nados en el CORDE es esencial no solo para un correcto trazado de la curva de
difusión —con su cronología específica— que verdaderamente corresponde a
cada fenómeno, sino también para la detección de relaciones de correspondencia
en la dinámica de fenómenos emparentados, como son aquellos que pueden
inscribirse en un mismo continuo de gramaticalización. Sin el recurso al cotejo de
frecuencias ponderadas, dichas relaciones serían indemostrables o incluso, en
muchos casos, pasarían inadvertidas.
5 Formas de difusión y dinámica variacional

La posibilidad de extraer frecuencias ponderadas del CORDE abre la puerta a la
consideración de un aspecto importante del cambio lingüístico no siempre
debidamente atendido: el papel que en él desempeñan los fenómenos recesivos.
Al menos en el modelo de gramaticalización, tan en boga hoy día, no existen
formulaciones claras acerca de la relación entre la activación o el desarrollo
de un cambio y la disminución en frecuencias de los fenómenos implicados en
Gráfico 9: Curvas de difusión del fenómeno AC (pico máximo ca. 1700), del relativo el que no
oblicuo (pico máximo ca. 1750) y del relativo el que oblicuo (curva «en S» o de incremento gradual)
él.33 Sin embargo, como ha mostrado Postma (2010), un cambio fracasado (esto
es, un fenómeno que pierde frecuencia bruscamente) puede no obstante contri-
buir, antes de quedar marginado o extinguirse, a activar la gramaticalización de
un esquema formal o semánticamente afín. Es lo que pudo ocurrir, según
propuesta de Girón (2004c), con el fenómeno AC y la consolidación del relativo
compuesto homónimo el que (Gráfico 9); y parece fuera de duda, a la vista
igualmente del Gráfico 9, que el relativo compuesto no oblicuo o de sujeto
(llamamos un coche, el que [= el cual] nos llevó a nuestro destino), cuyo auge y
pérdida se produce dentro de los límites del primer español moderno, estimuló
33 Es evidente en muchos autores la asimetría entre el tratamiento teórico de las frecuencias

crecientes, que se consideran características de las gramaticalizaciones, y el de las decrecien-
tes, que más bien se consideran al margen del proceso de gramaticalización propiamente
dicho. Cf. por ejemplo, de forma muy sintomática, Bybee (2011, 77): «As long as frequency is on
the rise, changes will move in a consistent direction […]. When a grammaticalization construc-
tion ceases to rise in frequency, various things happen, but none of them is the precise reverse
of the process» (Bybee 2011, 77). La ausencia de predicciones acerca de los fenómenos cuyas
frecuencias decaen puede ponerse en relación con la creencia muy extendida de que los
cambios sintácticos evolucionan sistemáticamente de acuerdo con una curva de difusión de
crecimiento gradual o «curva en S» (cf. sobre todo Kroch 1989, Blythe/Croft 2012). Tal creencia
parece, como muestra la mayor parte de las evoluciones aquí comentadas, infundada, al menos
si se formula en términos categóricos: cf. también las críticas de Denison (2003) o Winter-
Froemel (2014).
decisivamente el incremento en frecuencias del relativo compuesto tras preposi-

ción (el chico del que te hablé).34
En la mayor parte de los fenómenos aquí analizados, la aparición de una
nueva fase en la cadena de gramaticalización (ínterin nexual, sino es adversativo,
fenómeno AC) o la extensión —generalmente de naturaleza analógica—35 de una
marca sintáctica a nuevos entornos (fenómeno AC, esquema adversativo sí solo) se
encuentra en clara correlación con un incremento abrupto en la frecuencia de uso
de la construcción de partida desde la que se produce la extensión o la gramatica-
lización secundaria: en algunos casos (fenómeno AC, sino es y sí solo adversati-
vos), además, la frecuencia de uso del último esquema desarrollado comienza a
descender solo cuando disminuye también la del esquema de partida.36 Ello
suscita, claro está, la pregunta de si es posible plantear una relación causal, no
meramente accidental, entre estas frecuencias que se antojan mutuamente impli-
cadas. Una posible respuesta afirmativa la ofrece el mecanismo cognitivo de la
replicación o priming, por el que el locutor tiende a expresarse reproduciendo en
parte la estructura lingüística que ha oído recientemente en torno a sí.37 Un
esquema que, por muy repetido, se hace más presente en el fuero interno del
locutor se presta mejor, con toda probabilidad, a probaturas en entornos formal-
mente análogos y/o semánticamente anejos,38 lo que puede dar cuenta de la
conocida conexión entre el incremento de frecuencias y el desarrollo de los
34 Para los cálculos que sustentan las cifras del Gráfico 9, de la misma naturaleza que los Gráficos
6–7, cf. Octavio de Toledo (2014b). Para la homonimia como fuente de cambios sintácticos, cf.
Espinosa (2008). Para la historia del relativo compuesto en español, cf. Girón (2009). Conviene
advertir que las curvas de Gráfico 9 no demuestran la interrelación entre los fenómenos citados,
aunque sí la apoyan: naturalmente, dicha interrelación es más probable si existe, además de
homonimia, homofuncionalidad, como en el caso de los dos entornos del relativo compuesto.
35 Para el papel de la analogía en la actualización de cambios sintácticos sucesivos derivados
de la gramaticalización de una marca (sí adversativo, el como elemento de rección), cf. sobre todo
Fischer (2010) y De Smet (2012).
36 Se trata en todos los casos, en efecto, de desarrollos a partir de un elemento ya gramaticaliza-
do, proceso que se conoce con el término de gramaticalización secundaria o ulterior (further
grammaticalization: Lehmann 2002) para diferenciarlo de la gramaticalización primaria o a partir
de unidades léxicas. Para las diferencias entre gramaticalización primaria y secundaria, cf.
Traugott (2002), Detges/Waltereit (2002), Norde (2012), Breban (2014), Breban (2015).
37 Para el priming desde un punto de vista psicológico y las dificultades en el manejo experi-
mental y metodológico de esta noción, cf. por ejemplo Cesario (2014). Para el priming lingüístico,
cf. con carácter general Jäger/Rosenbach (2008); para la selección mediante priming entre formas
morfológicas alternantes, cf. Mackenzie (2012); para una aplicación reciente de esta noción a la
historia de la extensión de estar + participio en español, cf. Marco (2012).
38 Como señala Traugott (2004, 151), «[i]ndividual cases of grammaticalization always originate
in exploratory uses of lexical items, constructions, or grammatical forms».
continuos de gramaticalización (cf. de nuevo Bybee 2011). Pero, además, el pri-

ming, a diferencia de la gramaticalización, sí es reversible: una menor exposición a
un esquema A puede tener como resultado una tendencia al abandono por el
locutor no solo de este esquema, sino también del esquema B que procede de A por
vía de extensión formal o semántica. Un mismo mecanismo cognitivo podría
explicar, pues, tanto la extensión que da lugar a la gramaticalización secundaria
como la retracción (Haspelmath 2004) por la que, en ocasiones, los valores desa-
rrollados en el extremo de las cadenas de gramaticalización pueden llegar a
desaparecer: la condición para tal retracción sería —de resultar correcta esta
hipótesis— el descenso previo de las frecuencias del esquema de partida.
Hipótesis de esta índole permiten vincular la innovación sucesiva que caracte-
riza las cadenas de gramaticalización con la dinámica de la difusión de cada
cambio, asunto del que el modelo apenas se ha preocupado hasta la fecha. Los
cambios aquí analizados muestran, en efecto, formas diversas de difusión: en el
caso de sí solo, la extensión de la marca sintáctica (el sí adversativo) podría
calificarse de «vírica», pues el acceso a nuevos entornos se produce tras un brusco
incremento en frecuencias del esquema inmediatamente anterior en la cadena de
propagación, como si se tratase de «contagios» sucesivos a partir de entornos con-
tiguos que desarrollan abruptamente la marca; la posterior pérdida de esa marca se
produce también en forma de oleada, de modo que el esquema cronológicamente
precedente entra en recesión antes que el esquema al que ha «contagiado»: el inicio
del decaimiento de A viene a concidir, así, con el auge o «acmé» de B (cf. el periodo
1726–1775 en el Gráfico 2). En el caso del ínterin nexual, el triunfo de la fase más
desarrollada de la cadena (el último eslabón de la gramaticalización) se produce,
en términos de frecuencias, a costa de todos los esquemas anteriores, que entran
en declive hasta desaparecer a medida que triunfa la solución más avanzada:
podría hablarse, pues, de una difusión «fagocítica», en que el esquema triunfante
«devora» a los anteriores. En los casos del sino es adversativo o el fenómeno AC,
por último, tanto el éxito como el fracaso del esquema surgido por extensión
semántica (sino es) o sintáctica (AC) se acompasan estrictamente con el apogeo y
el declive del esquema de partida, que siempre resulta mucho más abundante en
frecuencias absolutas: sugiero para estos casos la noción de «difusión parasítica»,
en la que el aumento de frecuencias de un esquema A abre la puerta a una ulterior
gramaticalización secundaria B que permanece constantemente subordinada, en
términos de difusión, al esquema de partida, pues el descenso en frecuencia de A
provoca la retracción de B (en el sentido de Haspelmath 2004).39 Resulta, en
39 Naturalmente, los términos fagocítica, vírica y parasítica deben entenderse en sentido trasla-
ticio y ceñido exclusivamente a las analogías parciales entre fenómenos naturales y procesos
definitiva, sugerente la posibilidad de relacionar tipos concretos de cambio con

formas características de difusión: así, es posible que los fenómenos recesivos
resultantes de la extensión analógica sin gramaticalización ulterior de un elemen-
to ya gramaticalizado (el sí adversativo, por ejemplo) adopten característicamente
una forma de difusión vírica, mientras que la recesión asociada a la extensión
analógica con gramaticalización secundaria (sino es adversativo, fenómeno AC)
parece poder asociarse a una difusión de carácter parasítico. No puedo sino dejar
apuntada aquí esta hipótesis, necesitada, claro está, de una comprobación basada
en la observación de un número crecido de evoluciones.
Gráfico 10: Tipos de difusión y dinámica variacional de tres cambios típicos del primer español
moderno
Los datos del CORDE para el primer español moderno, una época con un espectro
notable de formas de producción textual distintas, permiten, en fin, abordar una
faceta crucial del cambio lingüístico en que se viene insistiendo repetidamente en
los últimos años: la difusión de los fenómenos se inserta en un espacio comunica-
tivo históricamente determinado y concebible como un continuo marcado por los
polos de la inmediatez y la distancia (cf. Koch/Oesterreicher 2011).40 Las diferentes
lingüísticos que subrayo aquí. Dichas analogías no implican isomorfismo ni correspondencia

esencial con el mundo biológico, esto es, el uso de estos términos no supone una visión
«naturalista» del cambio lingüístico por gramaticalización (para los peligros de este enfoque, cf.
ahora López Serena 2014), del mismo modo que el empleo de los términos masa, volumen y peso,
que he usado aquí como intercambiables en conexión con el adjetivo textual, no admitiría
extrapolación al ámbito de la física, en que esos términos expresan nociones sustancialmente
distintas entre sí. Creo legítima esta apropiación parcial y restringida del vocabulario científico
de otras disciplinas, que por lo demás tiene una larga tradición en los estudios lingüísticos.
40 Como señala Moore (2007, 117), «research has focused more on the directionality of grammati-
calization than on the ways that grammaticalized forms spread through the genres of a language».
Es error grave, pues, como indica Oesterreicher (2006, 146), «la pregunta por las estrategias de
creación y las llamadas vías de gramaticalización debería siempre ir seguida de preguntas acerca
de las vías discursivas de difusión y de adopción sucesiva de estas innovaciones por parte de los
hablantes», puesto que el proceso de adopción (Übernahme, en el sentido coseriano) es funda-
mental para considerar alcanzado (o fracasado) el cambio, que cristaliza (o se diluye) a través de
tradiciones discursivas en que se manifiestan los fenómenos tienden a ocupar

posiciones características dentro de este continuo: hay, así, tradiciones «altas» o
propias de la lengua elaborada y tradiciones «bajas» o asociadas a la inmediatez
comunicativa (piénsese, por ejemplo, en un manual de doctrina teológica frente a
una carta informal entre amigos). Un cambio que se difunde desde las tradiciones
«altas» en dirección a las medias y bajas es un cambio «de arriba abajo», mientras
un cambio en sentido inverso es un cambio «de abajo arriba» (cf. Jacob/Kabatek
2001; Pons 2006b). El Gráfico 10 muestra cómo el sí adversativo se desempeñó
siempre en el ámbito de la extrema distancia comunicativa, mientras que otro
esquema adversativo, el de sino es, apenas accedió durante un siglo (precisamente
durante el primer español moderno) a tradiciones situadas en posiciones interme-
dias del continuo, que fueron las que acogieron siempre al ínterin nexual.41 La
dificultad de estos fenómenos para generalizarse (ya hacia abajo, ya hacia arriba)
a todo el espectro variacional delata su carácter diafásicamente (si no, incluso,
diastráticamente) marcado, y ofrece nuevas pistas sobre las razones (en este caso,
sociohistóricas) de su breve existencia.
El establecimiento de vínculos entre la difusión de los fenómenos y su
dinámica variacional es tarea imprescindible en la reconstrucción integral de la
historia de una variedad, concebida como construcción diasistemática compleja
(cf. Kabatek 2012). Se trata, además, del único modo de periodizar eficazmente,
señalando las circunstancias históricas concretas en cualquier época dada para
los fenómenos de largo recorrido (el marcado diferencial del objeto directo o el
doblado de dativos mediante clíticos, por ejemplo) e identificando, al tiempo,
aquellos otros fenómenos que, como los aquí analizados, son característicos de
un tiempo determinado y constituyen, por tanto, señales o balizas diacrónicas
útiles para acotar los núcleos y los límites de los periodos.42 Esta tarea, sin duda,
puede y debe complementarse con el empleo de materiales no incluidos en los
las tradiciones discursivas: «Erst wenn eine Übernahme der Innovation erfolgt (was in der Regel in
Etappen über bestimmten Diskurstraditionen geschieht), dann ist tatsächlich Sprachwandel ein-
getreten» (Koch 2005, 248). Para la aplicación de estas ideas a la historia del español, cf.
principalmente Kabatek (2004, 2005, 2012) y Oesterreicher (2007).
41 Para la distribución textual que lleva a esta caracterización individual de los fenómenos, cf.
Octavio de Toledo (2007) y Octavio de Toledo (2008).
42 Como bien dice Eberenz (2009, 196), «el estudio de la periodización nos obliga a plantear con
toda claridad las cuestiones del edificio variacionista en los distintos momentos de la historia, y
del lugar que en él ocupa la norma de prestigio reflejada en las tradiciones discursivas». Para una
discusión teórica acerca de las formas de periodización perfectamente aplicable a la historia del
español, cf. Curzan (2012). La idea de una periodización inspirada en la noción semántica del
prototipo, esto es, integrada por periodos con núcleos estables y bordes o periferias con rasgos
más difusos, procede —hasta donde sé— de Fife (1992).
corpus en red disponibles; pero, en lo que atañe al menos al primer español

moderno, el CORDE permite empezar a acometerla, una vez asumidas las cautelas
y procedimientos adecuados, con mayores garantías que ninguno de sus competi-
dores.
Abad Nebot, Francisco, Problemas de periodización y caracterización en historia de la lengua
literaria española, Revista de Filología Románica 15 (1998), 13–33.
Álvarez de Miranda de la Gándara, Pedro, Palabras e ideas: el léxico de la Ilustración temprana
en España (1680–1760), Madrid, Real Academia Española, 1990.
Álvarez de Miranda de la Gándara, Pedro, La época de los novatores, desde la historia de la
lengua, Studia Historica. Historia Moderna 14 (1996), 85–94.
Arenas Olleta, Julio, Pidal y Lapesa: dos historias de la lengua, in: Hafner, Jochen/Oesterreicher,
Wulf (edd.), Mit Clio im Gespräch: Romanische Sprachgeschichten und Sprachges-
chichtsschreibung, Tubinga, Narr, 2007, 233–254.
Ariza Viguera, Manuel, Materiales para el estudio de las oraciones condicionales y concesivas en
Feijoo y Torres Villarroel, in: II Simposio sobre el Padre Feijoo y su Siglo, vol. 1, Oviedo,
Centro de Estudios del Siglo XVIII, 1981, 205–218.
Azofra Sierra, María Elena, Antes y ahora en la diacronía del español. Sintaxis histórica y
aplicación lexicográfica, Revista de Historia de la Lengua 5 (2010), 3–34.
Barra Jover, Mario, Variantes invisibles, emergencia y cambio lingüístico, in: Castillo, Mónica/
Pons, Lola (edd.), Así se van las lenguas variando: nuevas tendencias en la investigación
del cambio lingüístico en español, Berna et al., Peter Lang, 2011, 75–105.
Bartol Hernández, José Antonio, Condicionales: del español clásico al español moderno, Verba
32 (2005), 371–383.
Bartol Hernández, José Antonio, La expresión de la irrealidad condicional en el siglo XVIII, in:
Bustos, José Jesús de/Girón, José Luis (edd.), Actas del VI Congreso Internacional de
Historia de la Lengua Española, vol. 1, Madrid, Arco Libros, 2006, 469–488.
Bartol Hernández, José Antonio, Habría dado con el valor dedissem, in: Montero Cartelle, Emilio
(ed.), Actas del IX Congreso Internacional de Historia de la Lengua Española, vol. 1, Santiago
de Compostela, Meubook, 2012, 643–657.
Bègue, Alain, «Degeneración» y «prosaísmo» de la escritura poética de finales del siglo XVII y
principios del XVIII: análisis de dos nociones heredadas, Criticón 103–104 (2008), 21–38.
Bègue, Alain, Albores de un tiempo nuevo: la escritura poética de entre siglos (XVII–XVIII), in:
Egido, Aurora/Laplana, José Enrique (edd.), La luz de la razón. Literatura y cultura del siglo
XVIII, Zaragoza, Institución Fernando el Católico, 2010, 37–69.
Bertolotti, Virginia/Company Company, Concepción, El Corpus Diacrónico y Diatópico del Es-
pañol de América (CORDIAM). Propuesta de tipología textual, Cuadernos de la ALFAL 6
(2014), 130–148.
Blasco Pascual, Javier/Ruiz Urbón, Cristina, Evaluación y cuantificación de algunas técnicas de
«atribución de autoría» en textos españoles, Castilla, Estudios de Literatura 0 (2009), 27–47.
Blythe, Richard/Croft, William, S-curves and the mechanisms of propagation in language chan-
ge, Language 88:2 (2012), 269–304.
Breban, Tine, What is secondary grammaticalization? Trying to see the wood for the trees in a
confusion of interpretations, Folia Linguistica 48 (2014), 469–502.
Breban, Tine, Refining secondary grammaticalization by looking at subprocesses of change,
Language Sciences 47 (2015), 161–171.
Bybee, Joan, Mechanisms of change in grammaticization: The role of frequency, in: Joseph,
Brian/Janda, Richard D. (edd.), The Handbook of Historical Linguistics, Oxford et al., Black-
well, 2003, 602–623.
Bybee, Joan, Usage-based theory and grammaticalization, in: Narrog, Heiko/Heine, Bernd
(edd.), The Oxford Handbook of Grammaticalization, Oxford, Oxford University Press, 2011,
69–78.
Bybee, Joan/Hopper, Paul J., Introduction to frequency and the emergence of linguistic structure,
in: Bybee, Joan/Hopper, Paul J. (edd.), Frequency and the emergence of linguistic structure,
Amsterdam, John Benjamins, 2000, 1–24.
Buenafuentes de la Mata, Cristina/Sánchez Lancis, Carlos, Procesos de gramaticalización y
lexicalización a la luz de los corpus académicos, in: Jiménez Juliá, Tomás, et al. (edd.), Cum
corde et in nova grammatica: estudios ofrecidos a Guillermo Rojo, Santiago de Compostela,
Universidad de Santiago de Compostela, 2012, 153–165.
Cano Aguilar, Rafael, El español a través de los tiempos, Madrid, Arco Libros, 1988.
Carrasco Manchado, Ana Isabel, Nuevas herramientas para la historia de la Edad Media hispá-
nica: los corpus textuales informatizados, En la España Medieval 34 (2011), 343–372.
Cesario, Joseph, Priming, replication, and the hardest science, Perspectives on Psychological
Science 9:1 (2014), 40–48.
Company Company, Concepción, Gramaticalización y dialectología comparada: Una isoglosa
sintáctico-semántica del español, Dicenda 20 (2002), 39–72.
Company Company, Concepción, El siglo XVIII y la identidad lingüística de México, México,
UNAM/Academia Mexicana de la Lengua, 2007.
Company Company, Concepción, El español del siglo XVIII. Un parteaguas lingüístico entre
México y España, in: García Godoy, Ma Teresa (ed.), El español del siglo XVIII: cambios
diacrónicos en el primer español moderno, Berna et al., Peter Lang, 2012, 255–291.
Cuervo, Rufino José, Notas [1874], in: Andrés Bello, Gramática de la lengua castellana, ed.
Trujillo, Ramón, vol. 2, Madrid, Arco Libros, 1988, 837–973.
Curzan, Anne, Periodization in the history of the English language, in: Bergs, Alex/Brinton, Laurel
(edd.), English historical linguistics: an international handbook, vol. 2, Berlín/Nueva York,
De Gruyter, 2012, 1233–1255.
Davies, Mark, Creating useful historical corpora: A comparison of CORDE, the Corpus del Español,
and the Corpus do Português, in: Enrique, Andrés (ed.), Diacronía de las lenguas iberorro-
mances: nuevas perspectivas desde la lingüística de corpus, Madrid/Frankfurt am Main,
Iberoamericana/Vervuert, 2010, 137–166.
De Smet, Hendrik, The course of actualization, Language 88:3 (2012), 601–633.
Denison, Daniel, Log(ist)ic and simplistic S-curves, in: Hickey, Raymond (ed.), Motives for
Language Change, Cambridge, Cambridge University Press, 2003, 54–70.
Detges, Ulrich/Waltereit, Richard, Grammaticalization vs. reanalysis: a semantic-pragmatic ac-
count of functional change in grammar, Zeitschrift für Sprachwissenschaft 21:2 (2002),
151–195.
Eberenz, Rolf, Las conjunciones temporales del español. Esbozo del sistema actual y de la
trayectoria histórica de la norma peninsular, Boletín de la Real Academia Española 62
(1982), 289–385.
Eberenz, Rolf, Castellano antiguo y español moderno: reflexiones sobre la periodización en la

historia de la lengua, Revista de Filología Española 71 (1991), 79–106.
Eberenz, Rolf, La periodización de la historia morfosintáctica del español: propuestas y apor-
taciones recientes, Cahiers d’Études Hispaniques Médievales 32 (2009), 181–201.
Espinosa Elorza, Rosa María, Los conflictos de homónimos en el ámbito gramatical del español.
Descripción de algunos casos y resoluciones en las épocas medieval y clásica, in: Company,
Concepción/Moreno de Alba, José G. (edd.), Actas del VII Congreso Internacional de Historia
de la Lengua, vol. 2, Madrid, Arco Libros, 2008, 1243–1261.
Espinosa Elorza, Rosa Mª, Novedades del siglo XVIII en aspectos relacionados con los cambios
gramaticales, in: García Godoy, Ma Teresa (ed.), El español del siglo XVIII: cambios diacróni-
cos en el primer español moderno, Berna et al., Peter Lang, 2012, 85–109.
Fife, James, On defining linguistic periods: gradients and nuclei, Word 43:1 (1992), 1–14.
Fischer, Olga, An iconic, analogical approach to grammaticalization, in: Conradie, Jac, et al.
(edd.), Signergy, Ámsterdam/Filadelfia, John Benjamins, 2010, 279–98.
Fontanella de Weinberg, Mª Beatriz, El español de América a partir de 1650, in: Actas del
Congreso de la Lengua Española, Madrid, Instituto Cervantes, 1994, 754–765.
Garachana Camarero, Mar/Artigas, Esther, Corpus digitalizados y palabras gramaticales, Scrip-
tum Digital 1 (2012), 37–65.
García Godoy, Mª Teresa, La reconstrucción del sistema de tratamientos en el español de
Andalucía (siglo XIX), in: López Vallejo, Mª Ángeles/Montoro del Arco, Esteban/Sánchez
García, Francisco José (edd.), Nuevas perspectivas en torno a la diacronía lingüística.
Actas del VI Congreso Nacional de la AJIHLE, Granada, Universidad de Granada, 2008,
31–65.
García Godoy, Mª Teresa (ed.), El español del siglo XVIII: cambios diacrónicos en el primer
español moderno, Berna et al., Peter Lang, 2012.
García Godoy, Mª Teresa, Una tradición textual en el primer español moderno: los tratados de
misivas, Études Romanes de Brno 33 (2012), 357–376.
García Salido, Marcos y Victoria Vázquez Rozas, Los corpus diacrónicos como instrumento para
el estudio del origen y distribución de la concordancia de objeto en español, Scriptum
Digital 1 (2012), 67–84.
Girón Alconchel, José Luis, Procesos de gramaticalización del español clásico al moderno, in:
Echenique, Ma Teresa/Sánchez Méndez, Juan (edd.), Actas del V Congreso Internacional de
Historia de la Lengua Española, vol. 1, Madrid, Gredos, 2002, 103–121.
Girón Alconchel, José Luis, Cambios gramaticales en los Siglos de Oro, in: Cano, Rafael (ed.),
Historia de la lengua española, Barcelona, Ariel, 2004, 859–893.
Girón Alconchel, José Luis, El hombre práctico (1686) de Gutiérrez de los Ríos: el español de
finales del XVII, in: Lerner, Isaias, et al. (edd.), Actas del XIV Congreso de la Asociación
Internacional de Hispanistas, vol. 1, Newark, Juan de la Cuesta, 2004, 251–264.
Girón Alconchel, José Luis, Gramaticalización y estado latente, Dicenda 22 (2004), 71–88.
Girón Alconchel, José Luis, La lengua de un embajador y un marino del siglo XVIII: ¿español
moderno ya, o todavía clásico?, in: Company, Concepción/Moreno de Alba, José G. (edd.),
Actas del VII Congreso Internacional de Historia de la Lengua Española, vol. 2, Madrid, Arco,
2008, 2243–2254.
Girón Alconchel, José Luis, Las oraciones de relativo II. Evolución del relativo compuesto el que,
la que, lo que, in: Company, Concepción (ed.), Sintaxis histórica de la lengua española,
vol. 2:2, México, Fondo de Cultura Económica/Universidad Nacional Autónoma de México,
2009, 1477–1590.
Girón Alconchel, José Luis, El cambio y el no cambio gramatical en el relato histórico en la

transición del siglo XVII al XVIII, Cuadernos Dieciochistas 13 (2012), 29–49.
Guzmán Riverón, Marta/Sáez Rivera, Daniel (edd.), Márgenes y centros en el español del
siglo XVIII, Valencia, Tirant lo Blanch, 2016.
Haspelmath, Martin, On directionality in language change with particular reference to gram-
maticalization, in: Fischer, Olga/Norde, Muriel/Perridon, Harry (edd.), Up and down the
cline – the nature of grammaticalization, Ámsterdam/Filadelfia, John Benjamins, 2004,
17–44.
Heine, Bernd, Grammaticalization chains, Studies in Language 16 (1992), 335–368.
Herrero Ruiz de Loizaga, Francisco Javier, Sintaxis histórica de la oración compuesta en español,
Madrid, Gredos, 2005.
Isasi, Carmen, Seseo vizcaíno en documentos del siglo XVIII, in: Bustos, José Jesús de/Girón, José
Luis (edd.), Actas del VI Congreso Internacional de Historia de la Lengua Española, vol. 3,
Madrid, Arco Libros, 2006, 2461–2471.
Jacob, Daniel/Kabatek, Johannes, Introducción: lengua, texto y cambio lingüístico en la Edad
Media iberorrománica, in: Jacob, Daniel/Kabatek, Johannes (edd.), Lengua medieval y
tradiciones discursivas en la Península Ibérica: descripción gramatical – pragmática histó-
rica – metodología, Frankfurt am Main/Madrid, Vervuert/Iberoamericana, 2001, vi–xviii.
Jäger, Gerhard/Rosenbach, Anette, Priming and unidirectional language change, Theoretical
Linguistics 34:2 (2008), 85–113.
Kabatek, Johannes, Tradiciones discursivas jurídicas y elaboración lingüística en la España
medieval, Cahiers de Linguistique Hispanique Médiévale 27 (2004), 249–261.
Kabatek, Johannes, Las tradiciones discursivas del español medieval: historia de textos e historia
de la lengua, Iberoromania 62 (2005), 28–43.
Kabatek, Johannes, Nuevos rumbos en la sintaxis histórica, in: Montero Cartelle, Emilio (ed.),
Actas del VIII Congreso Internacional de Historia de la Lengua Española, vol. 1, Santiago de
Compostela, Meubook, 2012, 77–100.
Kagan, Richard L., Prescott’s paradigm: American historical scholarship and the decline of Spain,
The American Historical Review 101 (1996), 423–446.
Kamen, Henry, Del Imperio a la decadencia: los mitos que forjaron la España moderna, Madrid,
Temas de Hoy, 2006.
Koch, Peter, Ein Blick auf die unsichtbare Hand: Kognitive Universalien und historische romanis-
che Lexikologie, en Stehl, Thomas (ed.), Unsichtbare Hand und Sprecherwahl. Typologie
und Prozesse des Sprachwandels in der Romania, Tubinga, Narr, 2005, 245–275.
Koch, Peter/Oesterreicher, Wulf, Gesprochene Sprache in der Romania: Französisch, Italienisch,
Spanisch, Berlín/Nueva York, De Gruyter, 22011 (primera ed. 1990).
Kroch, Anthony, Reflexes of Grammar in Patterns of Language Change, Language Variation and
Change 1 (1989), 199–244.
Lapesa Melgar, Rafael, Historia de la lengua española, Madrid, Gredos, 91981 (primera ed.
Madrid, Escelicer, 1942).
Lapesa Melgar, Rafael, El uso de actualizadores con el infinitivo y la suboración sustantiva en
español: diacronía y sentido, in: Schwartz, Lia/Lerner, Isaias (edd.), Homenaje a Ana María
Barrenechea, Madrid, Castalia, 1984, 65–89.
Lehmann, Christian, Thoughts on grammaticalization, Erfurt, Universität Erfurt, 22002 (primera
ed. Múnich, Lincom, 1995).
Lleal Galcerán, Coloma, Rigor metodológico e investigación filológica, Scriptum Digital 2 (2013),
107–121.
López Serena, Araceli, Selección natural, explicación racional y cambio lingüístico: hacia una
fundamentación epistemológica no evolucionista de la teoría de la gramaticalización,
RILCE 30 (2014), 724–775.
Lorenzo Álvarez, Elena de, Hacia un siglo XVIII «con comento»: la edición como construcción y
difusión del canon, in: Calzón García, José Antonio, et al. (edd.), Actas del I Congreso
Internacional de Filología Hispánica: jóvenes investigadores. Orientaciones metodológicas,
Oviedo, Universidad de Oviedo, 2008, 313–328.
Lorenzo Criado, Emilio, El español de hoy, lengua en ebullición, Madrid, Gredos, 41994 (primera
ed. 1966).
Lucía Megías, José Manuel, La informática humanística: notas volanderas en el ámbito hispáni-
co, Incipit 23 (2003), 91–114.
Mackenzie, J. Lachlan, Cognitive adequacy in a dialogical Functional Discourse Grammar, Lan-
guage Sciences 34 (2012), 421–432.
Marcos Marín, Francisco, La periodización, in: Homenaje a Félix Monje: estudios de lingüística
hispánica, Madrid, Gredos, 1995, 325–334.
Martínez Alcalde, Mª José/Quilis Merín, Mercedes, Nuevas observaciones sobre periodización en
la historia de la lengua española, in: Alonso, Alegría, et al. (edd.), Actas del III Congreso
Internacional de Historia de la Lengua Española, vol. 1, Madrid, Arco Libros/Fundación
Duques de Soria, 1996, 873–885.
Melis, Chantal/Flores, Marcela/Bogard, Sergio, La historia del español. Propuesta de un tercer
periodo evolutivo, Nueva Revista de Filología Hispánica 51 (2003), 1–56.
Melis, Chantal/Flores, Marcela, On the interplay between forces of erosion and forces of repair in
language change. A case study, Folia Linguistica Historica 30 (2009), 271–310.
Mestre Sanchis, Antonio, La aportación cultural de los novatores, Torre de los Lujanes 37 (1998),
99–118.
Molas Ribalta, Pere (ed.), La transición del siglo XVII al XVIII: entre la decadencia y la recons-
trucción, Madrid, Espasa Calpe, 1993.
Montaner Frutos, Alberto, Factores empíricos en la conformación del canon literario, Studia
Aurea 5 (2011), 49–70.
Moore, Colette, The spread of grammaticalized forms: the case of be + supposed to, Journal of
English Linguistics 35 (2007), 117–131.
Muñoz Armijo, Laura, Herramientas para la investigación sobre lingüística diacrónica en la
web, in: Romero Aguilera, Laura/Julià Luna, Carolina (edd.), Tendencias actuales en la
investigación diacrónica de la lengua, Barcelona, Universitat de Barcelona, 2009,
103–116.
Narbona, Antonio, Cambios y tendencias gramaticales en el español moderno, in: Rafael Cano
(ed.), Historia de la lengua española, Barcelona, Ariel, 2004, 1011–1035.
Nieuwenhuijsen, Dorien, El rastreo del desarrollo de algunos pronombres personales en
español: (im)posibilidades de los corpus diacrónicos digitales, in: Enrique-Arias,
Andrés (ed.), Diacronía de las lenguas iberorrománicas. Nuevas aportaciones desde la
lingüística de corpus, Madrid/Frankfurt am Main, Iberoamericana/Vervuert, 2009,
365–384.
Nieuwenhuijsen, Dorien, No es temporal, antes es adversativo: historia del valor adversativo de
antes, in: Montero Cartelle, Emilio (ed.), Actas del VIII Congreso Internacional de Historia de
la Lengua Española, vol. 1, Santiago de Compostela, Meubook, 2012, 995–1005.
Norde, Muriel, Lehmann’s parameters revisited, in: Davidse, Kristin, et al. (edd.), Grammaticali-
zation and language change. New reflections, Ámsterdam/Filadelfia, John Benjamins, 2012,
73–110.
Octavio de Toledo y Huerta, Álvaro S., Un rasgo sintáctico del primer español moderno (ca. 1675–
1825): las relaciones interoracionales con ínterin (que), in: Fernández Alcaide, Marta/López
Serena, Araceli (edd.), Cuatrocientos años de la lengua del Quijote: estudios de historiogra-
fía e historia de la lengua española, Sevilla, Universidad de Sevilla, 2007, 421–442.
Octavio de Toledo y Huerta, Álvaro S., Un nuevo esquema adversativo en el primer español
moderno (h.1675–1825): la historia del nexo sino es, in: Company, Concepción/Moreno de
Alba, José G. (edd.), Actas del VII Congreso Internacional de Historia de la Lengua, vol. 1,
Madrid, Arco Libros, 2008, 877–908.
Octavio de Toledo y Huerta, Álvaro S., Entre gramaticalización, estructura informativa y tradicio-
nes discursivas: algo más sobre nada, in: Girón Alconchel, José Luis/Sáez Rivera, Daniel
(edd.), Procesos de gramaticalización en la historia del español, Madrid/Frankfurt am Main,
Octavio de Toledo y Huerta, Álvaro S., Espejismo de la frecuencia creciente: gramaticalización y
difusión del artículo ante oraciones sustantivas, RILCE 30:3 (2014), 916–958.
Octavio de Toledo y Huerta, Álvaro S., Antonio Muñoz y la sintaxis de la lengua literaria durante
el primer español moderno (ca. 1675–1825), in: Guzmán Riverón, Martha/Sáez Rivera,
Daniel M. (edd.), Márgenes y centros en el español del s. XVIII, Valencia, Tirant Lo Blanch,
2016, 201–299.
Octavio de Toledo y Huerta, Álvaro S./Pons Rodríguez, Lola, ¿Mezclando dos hablas? La imitación
de la lengua medieval castellana en la novela histórica del XIX, La Corónica 37 (2009),
157–183.
Octavio de Toledo y Huerta, Álvaro S./Rodríguez Molina, Javier, La necesaria distinción entre
texto y testimonio: el CORDE y los criterios de fiabilidad lingüística, Scriptum Digital 5,
2016.
Oesterreicher, Wulf , La historicidad del lenguaje: variación, diversidad y cambio lingüístico, in:
Bustos, José Jesús de/Girón, José Luis (edd.), Actas del VI Congreso Internacional de historia
de la Lengua Española, vol. 1, Madrid, Arco Libros, 2006, 137–158.
Oesterreicher, Wulf, Gramática histórica, tradiciones discursivas y variedades lingüísticas –
Esbozo programático, Revista de Historia de la Lengua Española 2 (2007), 109–128.
Pérez Magallón, Jesús, Hacia un nuevo discurso poético en el tiempo de los novatores, Bulletin
Hispanique 103 (2001), 449–480.
Pérez Magallón, Jesús, Construyendo la modernidad, la cultura española en el tiempo de los
novatores, (1675–1725), Madrid, CSIC, 2002.
Pérez Magallón, Jesús, Góngora y su ambigua apropiación en el tiempo de los novatores, Criticón
103–104 (2008), 119–130.
Pérez Magallón, Jesús, ¿Calderón y Zamora: un Barroco ilustrado?, Edad de Oro 31 (2012),
241–256.
Perona, José, Historias de la lengua, Revista de Investigación Lingüística 2 (2000), 355–378.
Pons Rodríguez, Lola, Canon, edición de textos e historia de la lengua cuatrocentista, in: Pons,
Lola (ed.), Historia de la lengua y crítica textual, Madrid/Frankfurt am Main, Iberoamerica-
na/Vervuert, 2006, 69–126.
Pons Rodríguez, Lola, Una reflexión sobre el cambio lingüístico en el siglo XV, in: Luque, Juan de
Dios (ed.), Actas del V Congreso Andaluz de Lingüística General, vol. 3, Granada, Granada
Lingvistica, 2006, 1563–1577.
Postma, Gertjan, The impact of failed changes, in: Breitbarth, Anne, et al. (edd.), Continuity and
change in grammar, Ámsterdam/Filadelfia, John Benjamins, 2010, 269–302.
Ramírez Luengo, José Luis, El pretérito de subjuntivo en la Venezuela de la Independencia:
alternancia –RA/–SE en el epistolario de Bolívar, Anuario de Lingüística Hispánica 17–18
(2002), 257–272.
Ramírez Luengo, José Luis (ed.), La lengua que hablaban los próceres: El español de América en
la época de las independencias, Buenos Aires, Voces del Sur, 2011.
Ramírez Luengo, José Luis (ed.), Por sendas ignoradas: estudios sobre el español del siglo XIX,
Lugo, Axac, 2012.
Ramírez Luengo, José Luis/Rubio Heras, Laura, Contribución al estudio de la oración condicional
en el siglo XVIII: el caso de Ramón de la Cruz, Res Diachronicae 2 (2003), 272–280.
Rodríguez Molina, Javier, La gramaticalización de los tiempos compuestos en español antiguo:
cinco cambios diacrónicos, Madrid, Universidad Autónoma de Madrid, 2010 (tesis doctoral).
Rojo, Guillermo, Sobre codificación y explotación de corpus textuales: otra comparación del
Corpus del Español con el CORDE y el CREA, Lingüística 24 (2010), 11–50.
Rojo, Guillermo, El papel de los corpus en el estudio de la historia del español, in: Montero
Cartelle, Emilio (ed.), Actas del IX Congreso Internacional de Historia de la Lengua Española,
vol. 1, Santiago de Compostela, Meubook, 2012, 433–444.
Rojo, Guillermo, Frecuencia de inventario y frecuencia de uso en los elementos gramaticales,
Revista Española de Lingüística 41:2 (2014), 5–43.
Rojo, Guillermo y Victoria Vázquez Rozas, Sobre las formas en -ra en el español de Galicia, in:
Enrique-Arias, Andrés, et al. (edd.), Perspectives in the study of Spanish language variation.
Papers in honor of Carmen Silva-Corvalán, Santiago de Compostela, Universidade de
Santiago de Compostela, 2014, 237–270.
Sáez Rivera, Daniel M., El doblado de clíticos en la obra de Francisco Sobrino, Res Diachronicae 2
(2003), 327–337.
Sáez Rivera, Daniel M., The interplay of object clitic doubling and the grammaticalization of
address forms in the genre of collections of letters in Spanish (Peliger, 1599; Páez, 1630;
Sobrino, 1720), in: Girón Alconchel, José Luis/Sáez Rivera, Daniel M. (edd.), Procesos de
gramaticalización en la historia del español. Madrid/Frankfurt am Main, Iberoamericana/
Vervuert, 2014, 321–360.
Sánchez Lancis, Carlos, Historia de la lengua, gramática histórica y periodización en español,
Estudi General 21 (2001), 395–412.
Sánchez Lancis, Carlos, Corpus diacrónicos y periodización del español, Cahiers d’Études
Hispaniques Médievales 32 (2009), 159–180.
Sánchez Lancis, Carlos, Periodización y cambio gramatical: el siglo XVIII, ¿frontera temporal del
español?, in: García Godoy, Mª Teresa (ed.), El español del siglo XVIII: cambios diacrónicos
en el primer español moderno, Berna et al., Peter Lang, 2012, 21–51.
Sánchez Marco, Cristina, Tracing the development of Spanish participial constructions: an empiri-
cal study in semantic change, Barcelona, Universitat Pompeu Fabra, 2012 (tesis doctoral).
Sánchez Martínez, Felipe/Martínez Sempere, Isabel/Ivars-Ribes, Xavier/Carrasco, Rafael C., An
open diachronic corpus of historical Spanish, Language Resources and Evaluation 47
(2013), 1327–1342.
Sánchez Méndez, Juan, Tiempos verbales y tipos de expresión condicional en documentos
coloniales novogradinos de los siglos XVII y XVIII, in: Montero Cartelle, Emilio (ed.), Actas
del IX Congreso Internacional de Historia de la Lengua Española, vol. 1, Santiago de
Compostela, Meubook, 2012, 1147–1158.
Sánchez Sánchez, Mercedes/Domínguez Cintas, Carlos, El banco de datos de la Real Academia

Española: CREA y CORDE, Per Abbat 2 (2007), 137–146.
Schwenter, Scott/Torres Cacoullos, Rena, Grammaticalization paths as variable contexts in weak
complementarity, in: Walker, James (ed.), Aspect in grammatical variation, Ámsterdam/
Filadelfia, John Benjamins, 2010, 13–26.
Serradilla Castaño, Ana, El auge del dequeísmo en el siglo XVIII o la desestabilización del
sistema: historia de una variación lingüística, Zeitschrift für romanische Philologie 130
(2014), 928–955.
Suárez Figaredo, Enrique, Sobre la atribución del Quijote apócrifo a José de Villaviciosa, Lemir 15
(2011), 135–146.
Torres Cacoullos, Rena, Las nominalizaciones de infinitivo, in: Company, Concepción (ed.),
Sintaxis histórica de la lengua española, vol. 2:2, México, Fondo de Cultura Económica/
Universidad Nacional Autónoma de México, 2009, 1673–1738.
Traugott, Elizabeth Closs, From etymology to historical pragmatics, in: Minkova Donka/Stock-
well, Robert (edd.), Studies in the history of the English language, Berlín/Nueva York, De
Gruyter, 2002, 19–49.
Traugott, Elizabeth Closs, Exaptation and Grammaticalization, in: Akimoto, Minoji (ed.), Linguis-
tic Studies Based on Corpora, Tokyo, Hituzi Syobo, 2004, 133–156.
Veiga, Alexandre, Le système verbal du galicien. Survivance d´un état proto-romain occidental?,
in: Actes du XVIIème Congrès International de Linguistique et Philologie Romanes, vol. 3,
Tubinga, Niemeyer, 1991, 77–96.
Weber, Alison, Golden Age or Early Modern: what’s in a name?, Proceedings of the Modern
Language Association (PMLA) 126 (2011), 225–232.
Winter-Froemel, Esme, What does it mean to explain language change? Usage-based perspecti-
ves on causal and intentional approaches to linguistic diachrony, or: On S-curves, invisible
hands, and speaker creativity, Energeia 5 (2014), 123–142.
Joan Torruella
Tres propuestas en el ámbito de la
lingüística de corpus
1 Presentación1
En este trabajo se presentan algunas propuestas de reflexión sobre cuestiones que
creemos que son de debate en este momento en el campo de la lingüística de
corpus y más concretamente en el del diseño y construcción de estos.2 Dichas
reflexiones las hacemos a propósito de pensar en la manera de mejorar una nueva
versión del Corpus Informatitzat del Català Antic (CICA)3 de modo que la organiza-
ción de los materiales que lo configuran sea más eficiente y productiva y, a la vez,
pueda proporcionar la posibilidad de obtener datos de carácter lexicométrico que
alcancen cotas más interesantes que el puro recuento y distribución de frecuen-
cias. Estas reflexiones, a pesar de haber estado hechas para un corpus en particu-
lar, creemos que pueden ser extrapolables a los diseños de otros corpus textuales
y, en especial, a los de otros corpus histórico-diacrónicos.
En concreto, nos proponemos plantear una serie de consideraciones sobre
tres aspectos que creemos que pueden mejorar la construcción de algunos de los
corpus actuales y ser útiles si se tienen en cuenta en la elaboración de nuevos. Se
trata de: a) los criterios para la segmentación del eje diacrónico, b) el sistema para
establecer el reparto de los textos en los distintos apartados en que un corpus se
estructura, pensando en su representatividad, y c) cómo ofrecer información de la
riqueza léxica de los textos que componen un corpus y poderlos situar en una
escala de clasificación que permita establecer comparaciones entre ellos. A estos
tres puntos que aquí se plantean, inconexos a primera vista, les une la finalidad
de querer avanzar en algunos aspectos y ofrecer nuevas aportaciones en el campo
del diseño de corpus, siempre pensando en que en esta disciplina, la de la
lingüística de corpus, como en todas, constantemente se puede mejorar y buscar
nuevas posibilidades.
1 Esta investigación ha podido desarrollarse gracias a las ayudas de la DGICYT (FFI2014-51904-P)

y del Comissionat per Universitats i Recerca de la Generalitat de Catalunya (SGR2014-1328).
2 El término Lingüística de corpus tiene dos acepciones: por una parte, la que hace referencia a
la metodología de diseño y recopilación de un corpus y, por otra, a la de su explotación.
3 El CICA se halla a disposición de la comunidad científica en http://www.cica.cat.
Joan Torruella: ICREA – Universitat Autònoma de Barcelona

2 El Corpus Informatitzat del Català Antic

Como ya he indicado, las tres reflexiones que aquí propongo son fruto de buscar
mejoras en el Corpus Informatitzat del català Antic (CICA). Se trata de un corpus
que responde, entre otros parámetros, a los de textual, pequeño, histórico, diacró-
nico y concerniente a la lengua en general.
Es textual porque de cada obra seleccionada para el corpus se recoge el texto
completo y no solamente partes de ellos, como haría un corpus de referencia.
Pequeño o restringido puesto que no llega ni a 50.000.000 ni a 20.000.000 de
palabras, que son las cantidades que los tratados de lingüística de corpus definen
como límite para considerar que un corpus es pequeño4, frente a los medianos,
que llegan hasta 100.000.000 de palabras, y a los grandes, que sobrepasan esta
cifra. Histórico puesto que recopila textos de la lengua del pasado. Diacrónico por
el hecho de que organiza los textos en etapas temporales sucesivas. Y, final-
mente, general, pues pretende reflejar la lengua en todos sus ámbitos y se interesa
por coleccionar tipos de textos que respondan a cuantas más variedades lingüís-
ticas distintas mejor.
El CICA reúne una colección de textos que van desde el siglo XI (primeros
documentos de la lengua catalana) hasta el siglo XVII (frontera con el catalán
moderno). Los textos están tratados y dispuestos de tal manera que, gestionados
con el programa de consulta Estación de Análisis Documentales (EAD), desarrolla-
do en el Seminario de Filología e Informática de la Universidad Autónoma de
Barcelona, puede facilitar a sus usuarios una serie de datos y de informaciones
útiles para estudios tanto de carácter lingüístico como documental.
El CICA no quiere ser el «gran corpus» del catalán antiguo, sino un «corpus
textual y de referencia»5 (quizás sería mejor decir «textual y representativo»),
basado en el equilibrio y la representatividad de sus componentes. Equilibrio en
cuanto a la cantidad de textos y palabras incluidas en cada uno de los apartados
de los ejes en que está estructurado el corpus (diacrónico, tipológico y dialectal);
representativo en tanto que los textos seleccionados deben reflejar las caracte-
rísticas lingüísticas de los distintos apartados a los que corresponden. Así, por
4 Alain Guerreau (2014) considera corpus pequeños hasta 5.000.000 de palabras.

5 En este punto «de referencia» no se usa, como en muchos tratados de lingüística de corpus, en
el sentido de corpus que recopila fragmentos de obras en vez de obras enteras, sino en el sentido
que le atribuye la Real Academia Española cuando define el CREA y el CORDE como corpus que
tienen el objetivo de «proporcionar información exhaustiva acerca de una lengua en un momento
determinado de su historia y, por tanto, ha de ser lo suficientemente extenso para representar
todas las variedades relevantes de la lengua en cuestión».
92 Joan Torruella
ejemplo, el Tirant lo Blanch responde a los parámetros segunda mitad del

siglo XV, prosa de ficción y occidental valenciano.
Es importante tener en cuenta que, a pesar de que se pretende que el CICA sea
un corpus equilibrado entre sus diferentes apartados, esto no siempre ha sido
posible, puesto que, como sucede en todas las lenguas románicas, el número de
documentos que han llegado hasta nosotros anterior a la segunda mitad del
siglo XIII es bastante pequeño y, a pesar de haber incluido todos estos textos en
el corpus, se llega a unas cifras de muestras muy exiguas.
El CICA está formado por 414 obras, las cuales aportan al corpus más de
9.000.000 de palabras, mayoritariamente catalanas, pero también latinas, caste-
llanas, aragonesas, francesas, occitanas, etc., debido a que, como ya se ha
mencionado, el corpus está constituido por textos enteros y, por tanto, no se han
excluido las partes que en algunas obras están redactadas en otras lenguas.
La procedencia de los textos es, en su mayoría, de ediciones ya publicadas,
aunque, cuando no hemos encontrado una edición que se adaptara a las con-
diciones requeridas para el corpus (calidad de la edición, tipo de edición, integri-
dad del texto, distancia entre el original y la copia, etc.), se ha recurrido a editar
los textos expresamente para nuestro proyecto. En cuanto a los textos publicados
que se han incluido, se ha procurado que las ediciones seleccionadas fueran
ediciones solventes desde el punto de vista filológico, que procedieran de un solo
manuscrito y que, en caso de ser copia, la fecha de redacción del mismo no
excediera más de 50 años de la del original.
El CICA está estructurado en tres ejes principales, que responden a las clasifi-
caciones de los textos según su diacronía, su tipología y su carácter dialectal.
Cada uno de estos ejes está a su vez dividido en apartados, de manera que cada
obra que compone el corpus se clasifica dentro de un apartado de cada eje. De esta
manera es viable, cuando se está estudiando la posible evolución de un hecho
lingüístico, establecer la variable dependiente y las posibles variables indepen-
dientes necesarias para llevar a cabo la investigación. Por ejemplo, si se quiere
estudiar en qué época se pasó de la estructura del posesivo en español, «artículo +
posesivo + nombre» (la mi casa) a la estructura «posesivo + nombre» (mi casa), se
usan como variable independiente los distintos apartados del eje temporal y se
observa si el fenómeno en cuestión, la estructura del posesivo (la variable depen-
diente), cambia según estos apartados. Téngase en cuenta que, en las investiga-
ciones a partir de corpus, si hay voluntad de seguir un método científico y se
pretende poder aplicar técnicas estadísticas en el análisis, es necesario disponer
de variables que permitan la experimentación, de manera que, cuando cambie
alguna de las variables independientes, se pueda observar cómo reacciona la
variable dependiente.
2.1 Eje diacrónico
Por lo que respecta a la diacronía o periodización adoptada en el CICA, para

conseguir la máxima neutralidad y no predisponer los resultados de antemano,
los apartados de este eje se han confeccionado dejando a un lado criterios
lingüísticos y usando, en cambio, criterios externos a la lengua. En cuanto a estos
criterios diré que, para no prejuzgar nada por el hecho de haber adoptado algún
tipo de división temporal ligada a aspectos históricos o socioculturales, se ha
dividido el eje diacrónico en estrictos periodos de 50 años. Así cada siglo se divide
en «primera mitad de…» y en «segunda mitad de…».
El equilibrio de los distintos apartados del eje diacrónico se decidió que fuese
equivalente (cantidad de muestras más o menos igual en cada apartado) y no
proporcional (cantidad de muestras en cada apartado en relación a su porcentaje
en la población), puesto que para establecer una correlación proporcional se
necesita conocer la dimensión del todo (total de la población) y de cada una de
las partes que lo configuran (en nuestro caso de cada medio siglo), algo que en
corpus generales no es posible, y menos en corpus de carácter histórico-diacróni-
co. Por ello, se ha pretendido coleccionar para cada apartado alrededor de un
millón de muestras, es decir, de palabras. Sin embargo, como se puede observar
en la tabla 1, a partir de la segunda mitad del s. XIII en algunos apartados no se
llega a este número de palabras y en otros nos hemos excedido,6 pero, conside-
rando que no trabajamos con frecuencias absolutas sino que lo hacemos con
frecuencias relativas, en términos estadísticos las cantidades se pueden conside-
rar aceptables, a pesar de que, por ejemplo, el siglo XV tenga el doble de palabras
que el siglo XVI y represente casi el 40 % (39,199) del total del corpus. No es así,
en cambio, en el caso de los primeros siglos (del s. XI hasta la primera mitad del
s. XIII), puesto que en todos los periodos que los componen el número de
palabras que se han podido incluir al corpus es manifiestamente pequeño, pero
no puede crecer por no existir más. En tal caso, los resultados obtenidos se deben
considerar solamente indicativos de una posible tendencia, pero no permiten
hacer extrapolaciones de las características de la lengua ni comparaciones entre
apartados.
6 Es muy difícil equilibrar de manera completa los distintos ejes de un corpus, puesto que
cuando se equilibra uno, si no se está atento, se desequilibran los otros.
94 Joan Torruella
Tabla I: Frecuencia absoluta de palabras y porcentaje respectivo en el corpus
Periodo Frecuencia absoluta Tanto por ciento
XIa 798 0,0971
XIb 3.296 0,0401
XIIa 1.238 0,0150
XIIb 2.107 0,0256
XIIIa 22.096 0,2691
XIIIb 937.067 11,4131
XIVa 934.994 11,3879
XIVb 1.323.976 16,1256
XVa 1.462.865 17,8172
XVb 1.897.994 23,1169
XVIa 742.595 9,0445
XVIb 881.358 10,7346
2.2 Eje tipológico
El eje tipológico está organizado en 11 apartados que cubren todo muestrario de

tipos de obras que tenemos hasta el siglo XVII. El eje se estructuró a partir de la
tipificación de los textos que los especialistas habían seleccionado para compo-
ner el corpus y de los conocimientos e intuiciones que sus diseñadores tenían al
respecto. De ello resultó la siguiente clasificación:
A – Prosa de ficción
B – Crónicas y obras historiográficas
C – Obras religiosas y morales
D – Prosa de la cancillería
E – Textos administrativos
F – Textos jurídicos
G – Libros de corte
H – Textos científicos y técnicos
I – Epistolarios y dietarios
J – Poesía
L – Obras gramaticales y lexicográficas
2.3 Eje dialectal
Aunque para el establecimiento del eje diacrónico y para el del eje tipológico se
han usado criterios extralingüísticos, en el caso del eje dialectal esto no ha sido
posible, puesto que el lugar de la copia o la zona geográfica del autor no son
elementos válidos para determinar la variedad dialectal de una obra. Por ello, en
este caso, para clasificar las obras se ha tenido que recurrir a criterios lingüísticos
sustentados en el análisis previo de las características dialectales de cada obra.
Por este motivo, el eje dialectal del CICA está estructurado siguiendo las divisiones
dialectales actuales establecidas en el siglo XIX y a principios del XX. De esta
manera el eje se organiza en dos grandes bloques: Catalán oriental y Catalán
occidental, con diferentes apartados en cada bloque. De todos modos, se debe
considerar que el catalán no es una lengua que en sus escritos presente grandes
diferencias dialectales, ya que «es uno de los idiomas más unitarios de la Romania
[. . .]; las diferencias que se observan están en función de la cronología de la
redacción más que de la procedencia geográfica de los autores» (Veny 1998, 11).
Con todo, el eje presenta los siguientes apartados:
CAT = Català
Oc = Occidental
NO = Nord occidental
V = Valencià
Or = Oriental
A = Alguerès
S = Septentrional
B = Balear
C = Central
Existen algunas obras que se consideró importante que estuviesen representadas

en el CICA pero que no se podían inscribir en ninguna variedad dialectal, las
cuales figuran en el corpus con la etiqueta de CAT. Del mismo modo que, por
norma general, temporalmente situamos los textos en el periodo de la copia que
se ha usado y no en el de su original, también en el eje dialectal clasificamos cada
texto según la variedad lingüística de la copia utilizada, no según la de su original
correspondiente. Así, por ejemplo, la obra Tractat de confesió, de Antoni Canals
escrita en 1413 en catalán occidental, en el CICA se clasifica dentro del dialecto
oriental, puesto que la lengua de la copia que se ha usado, que es del año 1420,
así lo indica.
96 Joan Torruella
3 Criterios para la segmentación del eje

diacrónico
En la organización de los textos que deben configurar un corpus diacrónico

existen dos tipos de criterios que se pueden utilizar: criterios internos de la lengua
(criterios lingüísticos: evolución de fenómenos lingüísticos, cambios de fonemas,
etc.) y criterios externos a la lengua (criterios extralingüísticos: dinastías, aconte-
cimientos notables, siglos, etc.). Como se ha dicho, el CICA se organiza a partir de
criterios externos a la lengua, a pesar de que, actualmente, gracias a que el corpus
ha servido para la extracción de datos en la redacción de la Gramàtica del Català
Antic, ya se podrían obtener algunas informaciones de evoluciones lingüísticas
que hicieran posible una primera organización del corpus siguiendo criterios
internos de la lengua. Con todo, preferimos mantener el sistema inicial de organi-
zar el eje diacrónico siguiendo criterios externos para no prejuzgar nada y ser el
máximo de neutrales a la hora de obtener datos, para que sea el usuario quien, a
la vista de los resultados que obtenga, describa las etapas lingüísticas que detecte.
De hecho, todos los corpus diacrónicos iberorrománicos que existen actualmente
siguen, con diferentes escalas, este sistema.
Dentro de los criterios externos, es decir, de los no lingüísticos, desestimamos
regirnos por criterios históricos, histórico-literarios o histórico-sociales como los
clasifica Marcos Marín (1992, 602) y nos decantamos por seguir ofreciendo al
usuario unas divisiones temporales pautadas en intervalos de medio siglo. De
esta manera será el usuario el que deberá buscar la relación que pueda existir
entre las fechas en que se producen ciertas evoluciones y cambios lingüísticos
con los acontecimientos históricos pertinentes. La división temporal por interva-
los numéricos es la que permite más fácilmente la observación del ritmo de las
transformaciones, del crecimiento de unos rasgos y la disminución de otros, sobre
todo si estos se plasman en gráficos.
El CICA, decíamos, está estructurado en periodos de 50 años, susceptibles de
convertirse en periodos de 25 años si en el futuro el volumen del corpus aumenta.
¿Por qué organizar las divisiones temporales en franjas de 50 años y no de 100 o
de 25, por ejemplo? A nivel teórico, la división óptima sería la de 25 años, puesto
que, tal como explican Arias y Hernández (2013, 6), los períodos de 25 años
pueden ser considerados como cortes generacionales y, desde la perspectiva del
cambio léxico, se consideran como los espacios mínimos para poder registrar
variaciones. Sin embargo, en nuestro caso, el motivo de seguir ofreciendo franjas
de 50 años y no de 25 es porque consideramos que el volumen de palabras que
deben tener los distintos apartados de este eje tiene que ser, por un lado,
suficientemente representativo, pero, por otro lado, también tiene que ser mane-
jable, puesto que si el volumen de los distintos apartados es muy grande, la

cantidad de ocurrencias que se obtendrán en algunas consultas muchas veces
será excesiva para que puedan ser analizadas. Por el contrario, si el corpus está
dividido en muchos apartados de poco volumen cada uno de ellos, el número de
ocurrencias que se obtendrán será escaso y, consecuentemente, poco representa-
tivo. Por ello, es conveniente adaptar el número de apartados del eje diacrónico
al volumen general de este, de manera que, para contener un número razonable
(representativo y manejable) de palabras en cada apartado, se deberá aumentar o
disminuir el número de estos según el volumen total del corpus; es decir, cuanto
mayor sea el corpus más apartados será conveniente que tenga y viceversa. Por
este motivo, el CICA está preparado para que, en caso de aumentar el volumen del
corpus, se doble el número de apartados del eje diacrónico y se pase así de franjas
de medio siglo a franjas de cuarto de siglo.
En el mismo orden de cosas, el hecho de establecer franjas de 50 años y no de
25 facilita la inscripción de los documentos en su apartado correspondiente,
puesto que cuando se trata de corpus históricos que abarcan épocas muy anti-
guas, muchas veces es difícil saber la fecha exacta de los documentos y es más
probable poder establecer si un documento pertenece a la primera mitad o a la
segunda de un siglo que establecer si pertenece al primer cuarto o al segundo.
Respecto a este tema, se tiene que tener en cuenta también el problema de la
distancia temporal que pueda existir entre la copia que se usa (de la mayoría de
textos literarios no disponemos del original) y su original. En la selección de
documentos que no sean originales y que se integran en un corpus, es importante
recurrir, siempre que sea posible,7 a copias «contemporáneas»; en nuestro con-
texto, consideramos contemporánea una copia que no exceda a un máximo de
50 años del original.
A este respecto, Inés Fernández-Ordóñez (2006, 1790–1791) hace notar que
la preservación de los manuscritos medievales de autor (o de las copias directas de ellos) no

suele ser sino extraordinaria rareza, privilegio con el que no podemos contar habitualmente.
Por ello, parece sensato admitir como fuente de datos de la lengua de una época aquellas
copias que sean contemporáneas de la composición del texto. El problema está en determi-
nar qué entendemos por contemporáneas. Atendiendo a las constataciones que hoy nos
proporciona la sociolingüística sobre el período mínimo de difusión de los cambios estudia-
dos en tiempo aparente, me atrevería a proponer a copias que no hayan rebasado la frontera
del medio siglo entre la composición de la obra y la transcripción del códice.
7 En algunos pocos casos que considerábamos que una obra era importante que estuviese
presente en el corpus y no se podía disponer (por no existir) de una copia «contemporánea», se
ha incluido al corpus una copia más tardía advirtiendo de ello en su ficha de filiación.
98 Joan Torruella
Respecto a la periodización del eje diacrónico, también es importante plantearse

la posibilidad de ofrecer al usuario un sistema de periodización abierto, esto es,
que sea este el que establezca, a partir de la fecha de cada documento, el año de
inicio y el año final de cada franja temporal que desee estudiar, puesto que, como
apunta Guillermo Rojo (2010, 20),
si la distribución temporal es importante (y, sin duda, lo es), lo lógico sería estructurar en
períodos que se correspondieran con los habitualmente utilizados en los trabajos sobre
historia del español. Todavía mejor: dado que esa estructuración resulta siempre discutible
y los elementos evolucionan en épocas distintas y a ritmos diferentes, lo realmente útil y lo
único adecuado a las cambiantes necesidades de la investigación es que la determinación
de las fechas esté abierta a lo que precise quien hace la consulta y no que sea establecida de
modo innegociable simplemente porque esa es la única forma de poder precalcular las
frecuencias de cada tramo.
De todos modos, en el caso del CICA, finalmente, a pesar de estar de acuerdo con
los argumentos de Guillermo Rojo, después de sopesar pros y contras de cada uno
de los dos sistemas, el de franjas temporales establecidas o el de fechas abiertas,
nos hemos decantado por el primero, puesto que el sistema abierto implica que
todos los documentos que componen el corpus deben ir datados con una fecha
precisa, cosa que, al tratarse de un corpus histórico que abarca desde los orígenes
de la lengua, en nuestro caso no es posible, debido a que de una buena parte de
los documentos que usamos no sabemos la fecha exacta de su redacción y
solamente podemos saber su fecha aproximada (más aún cuando usamos la fecha
del documento que utilizamos y no la fecha en que se redactó el original). Lo ideal
sería que todos los documentos componentes de un corpus tuvieran una fecha
concreta, pero, siendo realistas, en el caso de la mayoría de corpus históricos esto
obligaría a dejar aparte un sinfín de documentos, algunos de ellos de gran interés,
de los que se desconoce la fecha exacta en que se copió.
4 Representatividad: reparto de textos

proporcional o igualitario
Otra de las cuestiones que nos hemos planteado, pensando en el carácter repre-
sentativo que se pretende que tenga el CICA, es la de si el reparto de textos en los
distintos apartados de cada eje debía ser igualitario o proporcional.
Se debe tener presente que «la investigación a partir de corpus es un tipo de
investigación de carácter inductivo que pretende extraer, desde determinadas
observaciones particulares, el principio general que en ellas está implícito»
(Torruella, en prensa). Ello implica que el corpus ha de reflejar las características
del universo lingüístico (la población en términos estadísticos) que quiere repre-
sentar. Para que un corpus refleje a partir de las distintas muestras que lo
componen las características del total de la población, tiene que basarse en la
representatividad de sus componentes. Así, un corpus, para ser apto para trabajos
científicos, ha de mostrar, a partir de la suma de las particularidades de cada
apartado en que está estructurado, las características del universo lingüístico que
quiere simbolizar. Por ello, cuando se diseña el corpus y especialmente cuando se
organiza la selección de las obras que lo van a configurar, se debe pensar en que
estas serán la base que permitirá que los estudios que se hagan a partir de él se
sustenten sobre datos empíricos cuantificables.
En la concepción de un corpus la representatividad es un componente muy
importante, ya que valida las investigaciones realizadas a partir de este. Tal
como ya advirtieron en su momento Biber, Conrad y Reppen (1998, 246), «the
representativeness of the corpus, in turn, determines the kinds of research
questions that can be addressed and the generalizability of the results of the
research».
Sin embargo, en el tema de la representatividad de los corpus y especial-
mente de los corpus históricos, lo primero que debemos plantearnos es la
capacidad representativa que estos pueden tener, puesto que, al estar limitados
a utilizar solamente textos escritos, hemos de cuestionarnos forzosamente si el
hecho de estudiar la lengua a partir de material escrito es estudiarla en su
manifestación más natural y, consecuentemente, si ello posibilita extraer con-
clusiones respecto de la lengua en general. En este sentido, ya Chafe (1992, 88)
pronunció que
speaking is natural to the human organism in ways that writing can never be. It is plausible
to suppose that humans are ‹wired up› to speak and listen, than the evolution of speech was
inextricably interwoven with the physical evolution of our species. The same cannot be true
of writing. It is only for a brief moment in the scale of evolution that writing has been with us
at all, and widespread literacy, extending beyond a few scribes or a small elite, is more
recent still.
El texto escrito, aunque sólo sea por la distancia comunicativa entre emisor y
receptor, suele ser más formal y está más controlado que el acto de hablar, que,
por su naturaleza, implica proximidad comunicativa y una relación diferente
entre emisor y receptor.8 En este sentido se debe tener presente que, según la
8 Claro está que existen diferentes niveles de formalidad que implican una mayor o menor
aproximación al lenguaje más natural o a lo que en realidad fué la lengua hablada, aunque
nunca se puede tener el testimonio auténtico de la lengua hablada, porque, como han demos-
trado Eberenz/La Torre (2003), ni las transcripciones de diálogos habidos en juicios conservadas
100 Joan Torruella
teoría del cambio lingüístico, gran parte de las innovaciones lingüísticas suelen
tener su origen en registros no formales, de difusión oral, para extenderse poste-
riormente a los registros más formales de difusión escrita.
Además, el problema de la representatividad de los corpus históricos es
mayor si pensamos en que podemos disponer solamente de textos escritos y, de
entre estos, únicamente de aquellos que se han conservado (una número muy
pequeño en algunas épocas).
Diversos autores han cuestionado la representatividad de los corpus por
diferentes motivos, entre ellos:9
En el ámbito documental, porque:

– Los textos conservados representan una mínima parte de la producción total (Kabatek
2013b, 9).
– No tenemos muestras de algunos tipos de texto producidos (Kabatek 2013b, 9).
– Se hace imposible recrear los múltiples factores que en su simultaneidad contribuyen a
la configuración de una situación comunicativa (Caravedo 1999, 70).
– Conocemos muy deficientemente la fuente del dato, cosa que hace difícil la estratifica-
ción del corpus (Caravedo 1999, 70).
En el ámbito filológico se puede argumentar que:
– No se puede asegurar la autenticidad y la homogeneidad de los textos que componen

un corpus para que sean testimonio del lenguaje de una época determinada (Jacob
2001, 155).
– La lengua en su dinamismo y heterogeneidad es mucho más rica de lo que se puede
imaginar y no logra ser captada en un solo corpus, por gigante que sea su tamaño
(Parodi 2008, 104–105).
– Cuando un manuscrito forma parte de una tradición textual continua, no siempre
es posible determinar el grado de transformación que el texto ha sufrido dentro de
esa tradición, ni cuál ha sido la intervención de los copistas y compiladores ni a
qué etapa de la transmisión pertenece un rasgo determinado del texto (Jacob 2001,
155).
– Existe desconocimiento de la influencia de las relaciones intertextuales, puesto que
muchos de los textos son refundiciones, adaptaciones o traducciones de originales en
otras lenguas y muchas veces no es posible delimitar la influencia del texto fuente en el
lenguaje del texto de llegada (Enrique-Arias 2012a, 423; Jacob 2001, 155).
– Por muy representativos que sean los corpus, tienen muy poca capacidad para tratar
los fenómenos negativos (Kabatek 2013a, 86; Jacob 2001, 153–158).
en las actas de los procesos se libran de «las manipulaciones que los escribanos someten tales
secuencias» (Eberenz/La Torre 2003, 12).
9 Para una descripción más completa y detallada de cada uno de estos argumentos, véase
Torruella (en prensa).
En otros ámbitos, porque:
– La lengua no es la suma de los textos (Kabatek 2013b, 9).

– Todavía hacen falta más estudios al respecto para poder establecer parámetros de
representatividad (Aquilino Sánchez 1995).
– Es imposible delimitar la población de los textos, cosa que hace irrelevante la aplica-
ción de la estadística (Baker 1995, 239).
– Muchos de los criterios que se deben usar para la selección de los textos, por ejemplo,
formal vs. informal, tienen un grado más o menos amplio de subjetividad (Baker 1995,
239).
– Las restricciones lógicas de los recursos disponibles (ya sean físicos, financieros o
humanos) significan que es prácticamente imposible garantizar la cobertura de todas
las características de la población (Baker 1995, 239).
Así, pues, debemos de ser conscientes de que el grado de representatividad de

los corpus históricos es limitado, algo que, a veces, puede poner en peligro las
conclusiones que se extraigan de ellos. Kučera (2007, 1) expresa la problemática
de la siguiente manera:
The concept of representativeness of a diachronic corpus has not been discussed in great
detail so far, but it seems that in the end it can only be based on the body of preserved texts
and the authenticity of those included in the corpus. However, the linking up of representa-
tiveness of diachronic corpora to the body of preserved texts means that the corpora reflect,
in fact, the skewed stylistic, genre and other proportions in the body of texts rather than the
characteristics of the real language of the time. This holds especially for the early periods of
history of languages, where the number of texts is usually very limited and very often of the
kind which was undoubtedly far removed from common communication (particularly texts
written in verse).
Con todo, no nos debemos desanimar por estos inconvenientes; a pesar de ellos,
tenemos que seguir intentando alcanzar la máxima representatividad posible en
la construcción de corpus históricos. Los inconvenientes presentados son aspec-
tos que se deben tener en mente a la hora de crear un corpus y, sobre todo, a la
hora de explotarlo, aceptando de entrada que la representatividad total es sola-
mente una ilusión y que nos debemos conformar, con una representatividad
condicionada, cosa que en muchos casos no es poco.10
Siguiendo con el tema de la representatividad, sabemos que en lingüística se
relaciona con el valor que tiene este término en sociología, el cual,
10 No es así en el caso de los corpus cerrados en los que se puede disponer de la totalidad del
material que existió. Por ejemplo, un corpus para estudiar la lengua literaria de Don Camilo José
Cela sí que puede contener todas las obras que este autor escribió.
102 Joan Torruella
deriva de la identificación de parámetros correlacionables que condicionan el comporta-

miento humano. Tales parámetros permiten reducir la investigación de un fenómeno
supuestamente relevante para una población exhaustiva a una porción reducida de la
población, la cual refleja porcentualmente los parámetros relevantes (Kabatek 2013b, 14).
La cuestión está en que en sociología se puede saber el valor y las características

de la población (número de alumnos de una clase, sexo, nivel social, etc.),
mientras que en lingüística de corpus, especialmente de corpus históricos, muchas
veces esto no es posible. El problema al diseñar un corpus es que a menudo se
necesita establecer una muestra representativa de una población que se desco-
noce, no solamente en número, cosa que afecta a su representatividad cuantitati-
va, sino en diversidad y complejidad, algo que ya afecta a su representatividad
cualitativa. Por ejemplo, si se va a estudiar la lengua de los periódicos españoles
del siglo XIX, se puede saber cuál es el total de la población y todas sus caracter-
ísticas (como pueden ser la edad y sexo de los autores de los artículos, las distintas
secciones de los periódicos, sus registros, etc.), pero no se puede conocer si se va a
estudiar la lengua en general del siglo XVII o, mucho menos, si el tema va a ser la
lengua de la Edad Media. Esto se debe a que el total de la población en estos casos
es indefinido, ya que, por un lado, siempre es posible que aparezcan nuevas obras
y nuevos documentos con estilos, tipos textuales, tradiciones discursivas, etc., no
previstos o desconocidos hasta el momento y, por otro, aunque sean conocidos,
puede ser que no se conserven obras de estos tipos y, por lo tanto, sus característi-
cas no podrán estar representadas en el corpus.
La intención de la representatividad de un corpus se relaciona con su finali-
dad predictiva, puesto que, «a corpus must be ‹representative› in order to be
appropriately used as the basis for generalizations concerning a language as a
whole» (Biber 1993, 243). La representatividad de los corpus está relacionada con
el aspecto cualitativo de las obras que se seleccionan (representatividad cualitati-
va) pero, sobre todo, lo está con el aspecto cuantitativo (representatividad cuanti-
tativa).
Son diversos los factores que pueden influir en la representatividad de un
corpus, los cuales siguen el esquema siguiente:
– Representatividad
– Representatividad cualitativa
– Calidad de las muestras
– Diversificación de las muestras
– Representatividad cuantitativa
– Equilibrio externo: relación entre el número de muestras y la población
– Equilibrio interno: relación del número de muestras entre apartados
– Proporcional
– Equivalente
La representatividad cualitativa viene determinada por la «calidad» de las mues-

tras (selección de ediciones apropiadas) y la «diversificación» de estas en tanto
que han de cubrir todas y cada una de las variedades lingüísticas que el corpus
quiere reflejar, puesto que «representativeness refers to the extent to which a
sample includes the full range of variability in a population» (Biber 1993, 243). La
representatividad cuantitativa viene determinada, por un lado, por el equilibrio
externo, es decir, por la relación numérica (tanto por ciento) entre el número de
muestras (textos o palabras) seleccionadas para componer el corpus y el volumen
total de la población que quiere describir el corpus y, por otro lado, por el
equilibrio interno, esto es, la correlación del número de muestras entre los dife-
rentes apartados en que se distribuye el corpus.
A su vez, el equilibrio interno de un corpus se puede organizar o a partir de
una correspondencia «proporcional» de las muestras entre los distintos apartados
o bien a partir de una correspondencia «equivalente».11 La finalidad del equilibrio
interno de un corpus no es otra que la de que sus datos sean comparables entre
los distintos apartados y apropiados para ser trabajados con técnicas estadísticas.
Por ello, tan importante como el número de muestras que se recolectarán para
todo el corpus (equilibrio externo) es su distribución cuantitativa en los diferentes
apartados (equilibrio interno),12 «lo que se relaciona con aspectos referidos a la
propia construcción del corpus en tanto espacio mediador entre teoría y realidad»
(Caravedo 1999, 69).
El reparto proporcional requiere conocer o intuir (poder hacer una estima-
ción) el total de la población, es decir, del universo textual que quiere represen-
tar, puesto que implica que las muestras que van a componer cada apartado del
corpus se repartan en proporción numérica a su distribución real en este total,
11 Se tiene que tener en cuenta que, si bien el equilibrio de un corpus suele establecerse a partir
del número de palabras contenidas en sus distintos apartados, también es conveniente procurar
un cierto equilibrio en cuanto al número de textos del que se extraen estas palabras. No es
aconsejable que un apartado esté compuesto por pocos textos de gran extensión sino que es
preferible que esté formado por un buen número de textos aunque sean de extensión más
reducida.
12 Sin embargo, el equilibrio entre todos los apartados de un corpus histórico no siempre es
posible, puesto que, a veces, por falta de material, no se puede disponer del volumen de obras o
de palabras necesarias para llegar a la cantidad mínima requerida establecida por la estadística.
En la mayoría de las lenguas románicas, por ejemplo, para las etapas anteriores a la segunda
mitad del siglo XIII no existen suficientes obras que permitan llegar a un número de palabras
aceptable para cada uno de los apartados de los distintos ejes que configuran el corpus. Cuando
el número de muestras posibles es pequeño e insuficiente, los resultados obtenidos se deben
considerar solamente indicativos de una posible tendencia pero no permiten hacer extrapola-
ciones de las características de la lengua ni comparaciones entre apartados.
104 Joan Torruella
mientras que el reparto equivalente no requiere conocer el total de la población,

ya que pretende que las cantidades de muestras que componen cada apartado del
corpus sean iguales o parecidas entre ellas, prescindiendo de que haya corres-
pondencia entre las partes y el todo. A veces, ante la imposibilidad de conocer la
proporción en que se reparten las distintas variedades que configuran el total de
la población, el reparto proporcional se aplica no en función de la distribución
real de la variedad lingüística que representan los distintos apartados del corpus
en el total de la lengua que este quiere reflejar, sino en función de la importancia
que los diseñadores del corpus quieran otorgar a cada una de estas variedades.
Por ejemplo, el CORDE se estructura según el reparto proporcional y establece
para las franjas temporales el 21 % de palabras para la Edad Media, el 28 % para
el Siglo de Oro y el 51 % para la Edad Contemporánea, o, respecto a las tipolo-
gías, el 44 % para la ficción y el 56 % para la no ficción, o, para la procedencia
geográfica marca el 26 % para el español de América y el 74 % para el español
peninsular.13 Por su parte, el CICA estipula un reparto equivalente de aproxima-
damente un millón de palabras en cada apartado temporal y en cada apartado
tipológico, mientras que establece un reparto proporcional en los apartados
dialectales, en función de la importancia que los diseñadores han decidido
otorgar a cada dialecto.
De todos modos, se tiene que tener presente que, como ya hizo notar Sán-
chez-Prieto (2012, 451):
el equilibrio ideal de un corpus no es algo que pueda establecerse previamente de acuerdo
con parámetros externos y objetivos, sino que, a nuestro entender, las decisiones que se
tomen al respecto son el resultado de una hipótesis histórica sobre los textos mismos y su
representatividad acerca de la lengua de cada época, por referirnos a la orientación que aquí
nos interesa más. Todo corpus tendrá sesgos evidentes, entre otras cosas, porque la con-
servación de tal o cual testimonio depende de la casualidad. Por razones históricas, o por
los avatares debidos al paso del tiempo, no todos los siglos estarán igual de bien representa-
dos. No cabe, pues, una respuesta única; así, ¿sería ‹proporcional› un corpus para la sintaxis
de la Edad Media que tuviera igual de texto en verso que en prosa? ¿Cuáles son, para el
s. XIX, las proporciones adecuadas entre textos de España y de cada país de América? Sin
embargo, existe una solución operativa al problema, pues, independientemente de las
decisiones de los elaboradores, el usuario ha de poder llevar a cabo sus búsquedas en la
parte del corpus que le interese, y establecer así las proporciones que le parezcan más
razonables, que podrán variar de acuerdo con sus objetivos particulares en cada momento.
Por ello, en cuanto al equilibrio en los corpus, especialmente en los corpus

grandes, se debería dejar abierta la posibilidad de que sea el usuario el que, en
última instancia, cree su propio subcorpus y en él establezca las proporciones
13 Véase también Octavio de Toledo, en este volumen.

que estime más adecuadas según sus conocimientos y necesidades. Sin embargo,
cuando el corpus es pequeño, los diseñadores son los que tienen que procurar
que, ya sea de manera proporcional o ya sea de manera equivalente, cumpla este
requisito, puesto que el usuario no tiene mucho margen de selección si quiere que
los resultados sean representativos.
¿Cuál de los dos sistemas, el proporcional o el equivalente, es el más apropia-
do? Al ser el CICA un corpus histórico y diacrónico dedicado a la lengua en
general difícilmente se puede saber el volumen total que tendría la población en
el uso real de la lengua (tendiendo al infinito), y, como es obvio, si no se conoce
el total no se puede establecer la proporción, por lo que no es posible precisar
ningún tanto por ciento para delimitar las muestras necesarias para que sean
representativas. Por ello, en el CICA, a la hora de establecer el volumen de las
muestras en los distintos apartados de los ejes diacrónico y tipológico, se ha
aplicado el sistema de correspondencia «equivalente», es decir, un número de
muestras iguales (o parecidas) en cada uno de ellos. En cambio, en el eje
dialectal, se ha aplicado el sistema de correspondencia «proporcional» a partir de
toda la producción que nos ha llegado, considerando que puede haber alguna
relación entre el peso de la producción en cada variedad y el total de la lengua.
5 Riqueza léxica
Otro tema de reflexión metodológica general acerca de los corpus es cómo
representar la riqueza léxica de la lengua que se refleja en sus textos tanto a nivel
individual como en relación con todos los otros textos que componen el corpus.
En el campo de la lingüística cuantitativa, y más concretamente en el de la
lexicometría, la medida de la riqueza léxica es un tema tratado bastante amplia-
mente. Diferentes autores han desarrollado su propuesta de índice para poder
resumir con la simplicidad de un número la complejidad lingüística de un texto,
de manera que se puedan ordenar y comparar los diversos textos que componen
un corpus según la profusión de su vocabulario.
Existen diversas denominaciones y matices a este respecto: variación o diver-
sidad léxica, que tiene que ver con la medida de la variedad del vocabulario;
sofisticación léxica, que se refiere a la selección de vocabulario de frecuencia baja;
densidad léxica, que trabaja con la proporción entre palabras con contenido y
palabras funcionales, etc. Sin embargo, no entraremos aquí en este tema y
consideraremos la riqueza léxica como la abundancia de vocabulario que tiene un
texto.
Las diferentes propuestas de medición de la riqueza léxica están encamina-
das no a ser aplicadas a textos de manera individual sino para poderse utilizar en
106 Joan Torruella
todo un corpus textual, de manera que se puedan establecer comparaciones entre

textos y constituir una clasificación pautada del grado de riqueza léxica de cada
uno de ellos dentro del conjunto del corpus.
Si se trata de medir la riqueza léxica de un texto de modo aislado, es decir, el
número de palabras necesario para que aparezca un vocablo nuevo, la fórmula es
sencilla: se debe dividir el total de tokens (número total de palabras) que tiene el
texto por el total de types (número de palabras distintas). De esta manera, un texto
que tenga 50.000 palabras pero que de ellas solamente 2.000 sean diferentes
presentaría una riqueza léxica de 25, es decir, cada 25 palabras aparecería una de
nueva, mientras que un texto de 50.000 palabras que tuviese 4.000 de diferentes
presentaría una riqueza léxica de 12,5, que sería el número de palabras necesarias
para que aparezca una de nueva. En este cómputo, cuando más pequeño es el
número resultante mayor es la riqueza léxica del texto, siendo 1 el valor máximo,
el cual representaría un texto en el que todas las palabras fuesen diferentes. El
índice que realiza este sencillo cálculo se llama TTR (type-token ratio), pero tiene
el inconveniente de que no podemos valorar el número resultante puesto que este
solamente tendría sentido cuando se comparara con otros textos que tuviesen
exactamente el mismo número de palabras, algo poco probable en el conjunto de
un corpus.14
Para superar este inconveniente, el de la distinta longitud de los textos, se
debe buscar un índice que relativice su extensión. En este sentido ha habido
diferentes propuestas, las cuales cada vez se aproximan más a la superación del
problema (uso de radicales y logaritmos, cálculos por segmentos, muestras
aleatorias, distribución hipergeométrica, distribución de frecuencias de palabras,
modelos de probabilidad, etc.).15
Para analizar la riqueza léxica de las obras que configuran el CICA nos
basamos en la utilización conjunta de la información que proviene de los dis-
tintos índices que en nuestras pruebas obtuvieron mejor valoración de «compor-
tamiento» y en el uso de herramientas estadísticas, con la finalidad de conseguir
un tratamiento estadístico global que supere el estudio aislado de un texto y
alcance un análisis de carácter relativo de este dentro del conjunto del corpus al
que pertenece.
14 Se podría realizar el cálculo a la inversa, dividiendo el número de types por el de tokens, lo

que daría siempre un número entre 0 y 1, siendo el mayor el que representaría una riqueza
superior (0,04 y 0,08 para el ejemplo mencionado), sin embargo el problema seguiría siendo el
mismo: solamente se podrían comparar textos de idéntica extensión.
15 Para una explicación detallada de cada uno de estos sistemas véase Capsada / Torruella (en
prensa).
Para poder seleccionar los índices que después de las pruebas realizadas a
nuestro parecer se adaptan mejor para establecer comparaciones entre textos, se
definieron tres cualidades que creíamos importantes que tuviesen los índices:
estabilidad, sensibilidad y coherencia. Así, tal como se expone en Capsada /
Torruella (en prensa), un buen índice:
1. Debe ser estable, esto es, que para un texto determinado su valor se ha de mantener
constante independientemente del tamaño de la muestra.
2. Debe ser sensible, es decir, debe poder tomar una gama con una gradación de valores
suficientemente amplia que permita diferenciar todos los textos, también los que
tengan riqueza similar.
3. Debe ser coherente con los demás índices, de manera que los valores de un buen índice
calculados en conjuntos amplios de textos deben estar fuertemente relacionados con
los valores obtenidos con otros índices buenos, y no lo deben estar con los valores de
índices no buenos.
La interpretación conjunta de los resultados obtenidos con esta triple valoración

de la estabilidad, de la sensibilidad y de la coherencia, nos hizo concluir que, de
los 16 índices analizados,16 existen cinco índices medidores de la riqueza léxica
que cumplen de manera aceptable las cualidades deseables: MTLD, HD-D, K de
Yule, Honoré y Mass.17
El índice K de Yule, fue propuesto por G. U. Yule en 1944, y está basado en un
modelo probabilístico, suponiendo que la aparición de las diferentes palabras en
un texto se rige por el azar.
El índice Maas, fue propuesto por H.D. Maas en 1972, y está basado en la
relación entre los types y tokens de un texto con trasformaciones logarítmicas.
El índice H, fue propuesto por A. Honoré en 1979, y también está basado en la
relación entre los types y tokens de un texto pero utilizando unas trasformaciones
logarítmicas diferentes.
El índice MTLD (Measure of Textual Lexical Diversity) fue propuesto por P. M.
McCarthy en 2005, y está basado en la división del texto en segmentos de
diferente longitud y con un mismo nivel de riqueza léxica.
El índice HD-D, (Hypergeometric Distribution D parameter) fue propuesto por
P. M. McCarthy y S. Jarvis en 2007, y está basado en la utilización de la distribu-
ción hipergeométrica a partir de la división del texto en segmentos aleatorios.
A partir de los resultados de estos cinco índices, que en las pruebas realiza-
das resultaron aceptables, establecimos dos nuevos índices llamados NOMC
16 Sin ánimo de ser exhaustivos, en nuestro trabajo se analizaron 16 índices diferentes para
medir la riqueza léxica de un texto: TTR, RTTR, CTTR, Herdan, Somers, Maas, Dugast, Honoré,
MSTTR, MATTR, MTLD, parámetro D, HD-D, Z de Zipf, Sichel y K de Yule.
17 Para más detalles sobre el proceso de selección, véase Capsada y Torruella (en prensa).
108 Joan Torruella
(Número de Orden Medio en el Corpus) y NOMC % (Número de Orden Medio en el

Corpus Percentil). Se trata de unos índices eclécticos, puesto que manejan las
informaciones que nos aportan los cinco índices mencionados. De esta manera se
utiliza el máximo de información disponible de cada texto y se compensan, o
cuanto menos se minimizan, los posibles malos comportamientos de alguno de
los cinco índices en algunos textos. Además, el índice NOMC % permite definir
una escala de referencia en la que poder colocar los resultados obtenidos de cada
texto.
Tal como se explica en Capsada / Torruella (en prensa), para calcular el
índice NOMC se procede de la siguiente manera:
1. Para cada uno de los cinco índices se calculan los resultados y se hace una ordenación
de todos los textos del corpus de menor a mayor según el valor que tiene cada uno en el
índice.
2. Como consecuencia, a cada texto se le asocian cinco números de orden según las
ordenaciones obtenidas en cada índice.
3. Para cada texto, se calcula la media aritmética de estos cinco números de orden. A esta
media la llamamos Número de Orden Medio en el Corpus (NOMC).
4. Se ejecuta una nueva ordenación de todos los textos del corpus, de menor a mayor
según el NOMC. El número de orden que corresponde a cada texto según esta nueva
ordenación lo llamamos Número de Orden Medio en el Corpus Relativo (NOMCr).
5. Para estandarizar este nuevo índice y conseguir una referencia convencional que
permita observar qué posición relativa tiene cada texto respecto a la totalidad del
corpus, se convierte el valor del NOMCr de cada texto en percentiles según el cálculo
que se indica a continuación. A este número lo llamamos Número de Orden Medio en el
Corpus Percentil (NOMC %).
NOMCr
N O M C % = N: total textos · 100
Para su aplicación en corpus textuales, el NOMC tiene la ventaja de ser un índice

complejo, global y relativo. Es un índice complejo puesto que parte del uso
conjunto de cinco índices. También es un índice global ya que se elabora con
información no solo procedente de un texto aislado, sino del conjunto de textos
que configuran el corpus al que este pertenece. Así mismo es un índice con valor
relativo, ya que se expresa en forma de percentiles,18 obteniéndose así la posición
relativa de cada texto respecto al conjunto total.
18 Valor que divide un conjunto ordenado de datos estadísticos de forma que un porcentaje de
tales datos sea inferior a dicho valor. Así, un individuo en el percentil 80 está por encima del
80 % del grupo a que pertenece (DRAE, sv. percentil). De esta manera, por ejemplo, hablando del
parámetro riqueza léxica, en un corpus, cuando un texto ocupa el percentil «x» significa que un
«x %» de textos del corpus tienen una riqueza léxica igual o menor que él y que un «(100 – x) %»
tienen una riqueza léxica superior.
Una vez establecida la posición de cada texto en relación a los demás textos
del corpus, para poder atribuir un calificativo al nivel de calidad de la riqueza
léxica de los distintos textos, se han establecido 7 niveles de riqueza léxica, uno
central y tres por encima y tres por debajo, colocados simétricamente (véase el
gráfico siguiente). Este tipo de clasificación, que está inspirado en la escala de
Wechsler, puesto que utiliza el número de desviaciones típicas que el valor del
índice está alejado respecto a la media, ha sido propuesto y utilizado por diversos
autores para clasificar en diferentes grados los valores de variables estadísticas
que siguen una distribución Normal, especialmente en el campo de la psicología
para establecer escalas de medición del nivel de inteligencia.
En el gráfico siguiente se representa la distribución Normal a partir de los
números obtenidos en los 414 textos que componen el CICA, con estas 7 zonas.
Gráfico 1: Distribución de los textos en CICA
El nivel de calidad intermedio, el «normal», corresponde a los valores más

frecuentes, que son aquellos que están cercanos a la media, y, a medida que los
valores se separan de esta media, la frecuencia de los valores va disminuyendo y,
por tanto, su nivel de calidad se hace más extremo, ya sea en positivo o en
negativo. Como la desviación típica19 nos indica lo alejados que se encuentran los
diferentes valores respecto de la media, será precisamente esta desviación la que
dará los criterios para saber el nivel de calidad de cada valor.
19 La desviación típica mide la dispersión de los diferentes valores de una variable, es decir, si
son muy diferentes o muy iguales entre sí, y lo hace calculando cuál es por término medio la
desviación de cada valor de la variable respecto a su valor medio.
110 Joan Torruella
De esta manera, a partir del índice NOMC % que proponemos, podemos no

solamente situar cada texto en una posición con respecto a los otros textos de un
corpus según su riqueza léxica, sino establecer cuáles tienen una riqueza léxica
normal, cuáles están por encima en un grado alto, superior o supremo y cuáles
están por debajo en un grado bajo, inferior o ínfimo.
Así, por ejemplo, en el CICA, según el índice NOMC %, la obra Històries e
conquestes del reialme d'Aragó e Principat de Catalunya tiene un valor de riqueza
léxica de 148,6; la obra Greuges dels homes d'Hostafrancs tiene un valor de 27,2; el
Libre dels bons amonestaments d'Amselm Tormeda lo tiene de 389,4; la obra
Memòries de Jeroni de Saconomina lo tiene de 285,8 y la obra Començaments de
medicina de Llull de 74,0. Esto nos permite establecer una clasificación de menor
a mayor, o a la inversa, de estas obras según el grado de riqueza léxica de sus
vocabularios, pero, además, observando donde se situan estos números en la
escala de Wechsler, nos permite afirmar que en el conjunto del corpus la obra
Greuges dels homes d'Hostafrancs tiene un nivel de riqueza «inferior», la obra
Començaments de medicina de Llull lo tiene «bajo», la obra Històries e conquestes
del reialme d'Aragó e Principat de Catalunya lo tiene «normal», la obra Memòries
de Jeroni de Saconomina lo tiene «alto», y, finalmente, la obra Libre dels bons
amonestaments de Amselm Tormeda lo tiene «superior».
6 Conclusiones
La lingüística de corpus es una disciplina relativamente nueva, con metodología
y presupuestos teóricos propios, que ha cambiado enormemente la manera de
llevar a cabo los estudios lingüísticos. Precisamente, por ser nueva, en muchos
aspectos se encuentra aún en una fase de experimentación y revisión de sus
postulados. Sin embargo, la novedad de la disciplina ha provocado que a veces
estructuremos y usemos los corpus un poco irreflexivamente, sin que previa-
mente se haya hecho una especulación sobre las posibilidades y los peligros que
su uso indiscriminado puede acarrear y sin tener en cuenta las características del
diseño de cada corpus. Como consecuencia de esto, puede que en la explotación
de corpus se lleguen a obtener resultados no representativos y a interpretar
erróneamente los datos obtenidos.
En este trabajo hemos querido aportar algunas reflexiones referidas a cues-
tiones que se están debatiendo actualmente en el campo de la lingüística de
corpus, en general, y en el del diseño de corpus, en particular. Su aplicación
puede ayudar a que podamos disponer de corpus más representativos y fiables.
Las primeras reflexiones están referidas a los corpus que tratan la lengua en
general y, más concretamente, a los de carácter histórico-diacrónico. Este tipo de
corpus, por sus características, presenta unos problemas específicos en cuanto a

la segmentación del espacio temporal que abarcan (periodización abierta o
cerrada, periodos relacionados con avatares histórico-sociales o periodos estricta-
mente temporales, etc.), así como al reparto de los textos dentro de este espacio
temporal (reparto proporcional o reparto equivalente). La última propuesta, que
trata de la cuantificación de la riqueza léxica en los textos que componen un
corpus, es aplicable a todo tipo de corpus, y creemos que puede representar
un buen punto de partida para trabajos de este tipo. Con ello esperamos haber
aportado unas soluciones, fruto de la experiencia en la construcción de corpus,
que ayuden a mejorar su diseño y a avanzar en la disciplina de la lingüística de
corpus.
Arias, Beatríz/Hernández, Juan Antonio, Importancia de la incorporación de los parámetros
diastráticos y diafásicos en la elaboración del corpus electrónico del español colonial
mexicano, Scriptum Digital 2 (2013), 5–20.
Baker, M., Corpora in Translation Studies: An Overview and Suggestions for Future Research,
Target 7:2 (1995), 223–244.
Biber, Douglas, Representativeness in Corpus Design, Literary and Linguistic Computing 8:4
(1993), 243–257.
Biber, Douglas/Conrad, Susan/Reppen, Randi, Corpus Linguistics. Investigating Language
Structure and Use, Cambridge, Cambridge University Press, 1998.
Capsada, Ramon/Joan Torruella, Métodos para medir la riqueza léxica de un texto. Revisión y
propuesta. Aplicación en el Corpus Informatizado del Catalán Antiguo, (en prensa).
Caravedo, Rocío, Gramática española: enseñanza e investigación. Apuntes metodológicos. Lin-
güística del corpus. Cuestiones teórico-metodológicas aplicadas al español, Salamanca,
Ediciones Universidad de Salamanca, 1999.
Chafe, Wallace, The importance of corpus linguistics to understanding the nature of language,
in: Svartvik, Jan (ed.), Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82,
Stockholm, 4–8 August, 1991), Berlin/New York, Mouton de Gruyter, 1992, 79–97.
CICA – Corpus informatitzat del català antic, Joan Torruella, M. Pérez Saldanya y J. Martines
(dirs.). http://www.cica.cat.
CORDE – REAL ACADEMIA ESPAÑOLA: Banco de datos (CORDE) [en línea]. Corpus diacrónico del
español. http://www.rae.es.
Enrique-Arias, Andrés, Biblia medieval: diseño y aplicación de un corpus paralelo y alineado del
español medieval, in: Montero, Emilio (ed.), Actas del VIII Congreso Internacional de
Historia de la lengua española (Santiago de compostela, 14–18 de setiembre de 2009), vol.
I, Santiago de Compostela, Meubook, 2012, 421–431 (= 2012a).
Enrique-Arias, Andrés, Dos problemas en el uso de corpus discrónicos del español: perpectiva y
comparabilidad, Scriptum Digital, 1 (2012), 85–106 (= 2012b).
Fernández-Ordóñez, Inés, La historiografía medieval como fuente de datos lingüísticos. Tradi-
ciones consolidadas y rupturas necesarias, in: Bustos Tovar, José Jesús de/Girón, José Luis
112 Joan Torruella
(edd.), Actas del VI Congreso Internacional de Historia de la Lengua Española, Madrid, Arco,
2006.
Guerreau, Alain, École d’été Création et utilisation de corpus de textes médiévaux. COST:
European Cooperation in Science and Technology, 2014.
Jacob, Daniel, ¿Representatividad lingüística o autonomía pragmática del texto antiguo? El
ejemplo del pasado compuesto, in: Jacob Daniel/Kabatek, Johannes (edd.), Lengua medie-
val y tradiciones discursivas en la Península Ibérica: descripción gramatical – pragmática
histórica – metodología, Frankfurt am Main/Madrid, Vervuert/Iberoamericana, 2001,
153–176.
Kabatek, Johannes, Nuevos rumbos en la sintaxis histórica, in: Actas del VIII Congreso Internacio-
nal de Historia de la Lengua Española, vol. I, Santiago de Compostela, Meubook, 2013,
77–100 (= 2013a).
Iberoromania 77 (2013), 8–28 (= 2013b).
Kučera, Karel, Mapping the Time Continuum: A Major Raison D’être for Diachronic Corpora, in:
Matthew, Davies/Rayson, Paul/Hunston, Susan/Danielsson, Pernilla (edd.), Proceedings
of the Corpus Linguistics Conference CL2007, University of Birmingham, 2007,
http://ucrel.lancs.ac.uk/publications/CL2007.
Marcos Marín, Francisco, Spanisch: Periodisierung. Periodización, in: Holtus, Günter/Metzeltin,
Michael/Schmitt, Christian (edd.), Lexikon der Romanistischen Linguistik, Band VI, 1, Tübin-
gen, Max Niemeyer, 1992, 602–607.
Parodi, Giovanni, Lingüistica de corpus: una introduccion al ambito, Revista de Lingüística
Teórica y Aplicada 46:1 (2008), 93–119.
Corpus del español con el CORDE y el CREA, Lingüística, 24 (2010), 11–50.
Sánchez, Aquilino, Definición e historia de los corpus, in: Sánchez, Aquilino, et al. (edd.),
Cumbre: Corpus lingüístico del español contemporáneo, fundamentos, metodología y apli-
caciones, Madrid, SGEL, 1995, 7–24.
Sánchez-Prieto Borja, Pedro, Un corpus para el estudio integral de fuentes documentales
(CODEA), in: Montero, Emilio (ed.), Actas del VIII Congreso Internacional de Historia de la
lengua española (Santiago de compostela, 14–18 de setiembre de 2009), vol. I, Santiago de
Compostela, Meubook, 2012.
Torruella, Joan, Lingüística de corpus: génesis y bases metodológicas de los corpus (históricos)
para la investigación en lingüística, (en preparación).
Veny, Joan, Els parlars catalans (síntesi de dialectologia), Mallorca, Moll, 1998.
II. Corpus iberorrománicos
Rosario Álvarez y Ernesto González Seoane
Iluminar los Séculos Escuros: Gondomar, un
corpus para el estudio del gallego en la Edad
Moderna
1 Introducción1
En la historiografía lingüística y literaria gallega viene empleándose la etiqueta
de Séculos Escuros para designar el período de tres siglos comprendido entre el
final de la Edad Media y los inicios de la Edad Contemporánea. Esta denomina-
ción contrasta aguda y dolorosamente con las etiquetas, de connotaciones ine-
quívocamente positivas, que estos mismos siglos reciben en otras tradiciones
historiográficas nacionales o internacionales (Renacimiento, Siglo de Oro, Siglo de
las Luces, Edad Moderna. . .).
La oscuridad a que se refiere esta denominación hace referencia, como es
sabido, a la pérdida de visibilidad del gallego que deriva de la práctica desapari-
ción de su cultivo como lengua literaria y, más en general, como lengua escrita.
Esta desaparición lleva además aparejada una fuerte estigmatización social,
algunos de cuyos efectos todavía son perceptibles hoy en día.
Este apagamiento coincide, por otra parte, con el período en que se gestaron
muchos de los rasgos lingüísticos que acabarían cristalizando en el gallego actual
(en sus diferentes registros y variedades), y en el que se consolidaron algunas
formas y tendencias ya apuntadas en el gallego medieval. De otra parte, es
también este el período en que se acentúa el distanciamiento del gallego con
respecto al portugués.
Ni que decir tiene que la escasez de testimonios complica enormemente el
trabajo de descripción, datación y análisis de estas transformaciones. Por esta
1 Esta contribución se inscribe en el proyecto de investigación Gondomar. Corpus dixital de

textos Galegos da Idade Moderna. Catalogación, multiedición, glosario e estudo, que se desarrolla
en el Instituto da Lingua Galega de la Universidade de Santiago de Compostela con financiación
del Ministerio de Economía y Competitividad (referencia FFI2013-47589-P) <http://ilg.usc.gal/gl/
proxectos/gondomar-corpus-dixital-de-textos-galegos-da-idade-moderna-catalogacion-multiedi
cion>.
Rosario Álvarez: Instituto da Lingua Galega (Universidade de Santiago de Compostela)

Ernesto González Seoane: Instituto da Lingua Galega (Universidade de Santiago de Compostela)
116 Rosario Álvarez y Ernesto González Seoane
razón, para llenar en lo posible este vacío y, sobre todo, para construir un marco
general que nos permita interpretar adecuadamente los datos de que disponemos,
por escasos que estos sean, surge el proyecto Gondomar. Corpus dixital de textos
galegos da Idade Moderna. En las páginas que siguen trataremos de abordar
algunos de los problemas que entraña la definición y construcción del corpus,
dirigiendo nuestra atención en una doble dirección, y deteniéndonos, por una
parte, en la caracterización de los textos que lo integran, en la definición de los
parámetros que deben ser tenidos en cuenta a la hora de realizar una clasificación
tipológica aplicable a ellos y en las implicaciones de carácter lingüístico que se
derivan de la diversidad de tipos de texto existente; por otra, en el análisis de
algunas muestras relevantes de cómo el trabajo sistemático con estos textos puede
arrojar luz sobre la génesis y datación de fenómenos lingüísticos de amplísima
difusión en el gallego actual o en alguna de sus variedades.
2 Los textos
2.1 Caracterización general
Tal como señalábamos poco más arriba, el nivel de cultivo alcanzado por el
gallego a lo largo de la Edad Moderna presenta unas cifras absolutas muy modes-
tas y, por otra parte, una trayectoria notoriamente irregular. El reducido volumen
de textos producidos (o conservados) en un período tan dilatado determina por sí
solo una muy baja densidad de textos por unidad de tiempo. Si además tenemos
en cuenta que la producción textual no se distribuye de manera homogénea a lo
largo del eje cronológico, podremos observar que existen numerosas lagunas
temporales, algunas de ellas muy extensas, para las que no contamos con ningún
testimonio directo.
Por otra parte, cabe decir que se trata de textos en su mayoría breves, muchos
de ellos poemas de unas pocas líneas, aunque con alguna que otra excepción
notable, entre las que destaca sin duda el Coloquio de veinticuatro gallegos
rústicos de Sarmiento, integrado por mil doscientas una coplas. Una buena parte
de ellos comparte el hecho de ser textos de circunstancias, creados para conme-
morar un acontecimiento destacado o bien para concurrir a un certamen, o
efímeros, concebidos específicamente para ser empleados en una celebración o
en una fecha señalada, pero no para ser conservados para la posteridad. De
hecho, solo el azar o la intervención providencial de personajes como el conde de
Gondomar, cuya pasión bibliófila le llevó a construir una monumental biblioteca
y archivo privados, posibilitó que algunos de estos textos efímeros consiguiera
sobrevivir.
Iluminar los Séculos Escuros 117
En otro orden de cosas, una buena parte de los textos que han conseguido
llegar hasta nosotros es de autor desconocido. En algunos casos, esta circunstan-
cia es consustancial al propio género o tradición textual. Tal es lo que acontece,
por ejemplo, con los villancicos. En otros, en cambio, la anonimia viene impuesta
de algún modo por la finalidad para la que el texto fue creado. Así se explica, por
ejemplo, que los textos efímeros, destinados para ser consumidos de forma
inmediata y en un acto único, sean también, por regla general, anónimos.
Por lo que se refiere a los autores conocidos, cabe destacar que se trata en
todos los casos de productores letrados, funcionarios algunos de ellos, como Juan
Gómez Tonel o Pedro Vázquez de Neira, al servicio de la Real Audiencia del Reino
de Galicia; pertenecientes a sectores eclesiásticos otros, como el Padre Sarmiento
o Diego Antonio Cernadas y Castro, cura de Fruíme, o, en fin, vinculados a casas
nobles, como es el caso de algunos autores del círculo del conde de Gondomar.
Todos ellos son cultivadores solo ocasionales de la escritura en gallego, casi
siempre autores de una única pieza, por más que algunos cuenten con obra
extensa en castellano.
En algunos casos, el empleo del gallego viene impuesto por la tradición
textual. Podría decirse que la adopción del gallego constituye una de las conven-
ciones del género. Esto es lo que sucede, muy notoriamente, en los villancicos en
gallego o de gallegos, pero también en los parlamentos en gallego (o en algo que
se le parece) insertados en entremeses y comedias, que permiten a los autores
caracterizar un personaje, un tipo humano estereotipado (el criado, arriero o
mozo de cuerda gallego que sirve en la capital). En otros casos, en cambio, y
singularmente en las piezas literarias de más porte o ambición, la adopción del
gallego entraña otras implicaciones que de ningún modo convendría ignorar,
pues, como indica Joseph (1987, 76), «literature begins at the moment of con-
sciousness of language as a vehicle that can be manipulated to produce qualitati-
ve effects». Por consiguiente, el empleo del gallego en determinadas piezas es
indicador de una convicción firme por parte de su autor acerca de su dignidad
estética y de su aptitud para ser vehículo de expresión de sentimientos elevados.
En este sentido, no es casual tampoco que un conjunto no despreciable de los
textos que conservamos aparezca vinculado a determinados círculos en los que es
dado suponer que la escritura en gallego era favorecida o, al menos, considerada.
Uno de ellos es, sin duda, el creado alrededor de la figura de Diego Sarmiento de
Acuña, primer conde de Gondomar. Él es, con toda seguridad, el promotor,
incitador, apreciador o coleccionista de diversas piezas literarias, como el Diálogo
de Alberte e Bieito (ca. 1600) o la Canción galega en loor de don Diego das Mariñas
Parragués (ca. 1594). Además, su querencia por el gallego es también lo que
explica que entre su correspondencia figure un pequeño número de cartas dirigi-
das a él redactadas completa o parcialmente en gallego.
Otros círculos que es factible identificar corresponden a pequeños grupos de

ilustrados, como el que reúne a tres de los hermanos Feijoo Montenegro (Benito,
Plácido y Anselmo) y a Sarmiento, por una parte, y el formado por María Francisca
de Isla y Losada, Diego Antonio Cernadas y Castro y José Cornide Saavedra, por
otra.
Finalmente, otro de los núcleos productores de textos en gallego aparece
vinculado a la Compañía de Jesús. Contamos con algunos indicios que mues-
tran que el gallego ocupaba un cierto papel, que todavía está por determinar
con precisión, en algunas de las actividades desarrolladas en los colegios que
la Compañía tenía en Galicia, y en particular en el teatro escolar producido en
Lemos y Monterrei (cf., respectivamente, Cortijo Ocaña 2001 y González Monta-
ñés 2007). A estas muestras cabe añadir otros textos recientemente exhumados,
como el Romancillo da cea do cordeiro, junto con una serie de noticias acerca
del empleo del gallego con ocasión de festividades y celebraciones especiales,
además de con la constatación de que muchos de los cultivadores del gallego
en el período son miembros de la Compañía (cf. Álvarez/González Seoane 2015,
esp. 21–23).
2.2 Tipología textual
Atendiendo ya a aspectos de carácter cualitativo, y, más específicamente, tipoló-

gico, una aproximación superficial es suficiente para percatarnos de que, con
independencia de cuál sea la clasificación que se adopte, son muchos los géneros
o tipos de texto para los que no contamos con ninguna muestra. Aun así, se
advierte también una cierta dispersión tipológica y, consecuentemente, una muy
baja densidad por tipo de texto. Este desarrollo irregular e incompleto del cultivo
del gallego a lo largo de la Edad Moderna no resiste la comparación, desde un
punto vista ni cuantitativo ni cualitativo, con el que presentan en este mismo
período lenguas con tradiciones consolidadas e ininterrumpidas, como pueden
ser la española o la portuguesa. En cualquier caso, consideramos que es del
máximo interés profundizar en una caracterización tipológica sistemática de los
textos del corpus, fundamentalmente por las implicaciones de carácter lingüístico
y sociolingüístico que comporta.
En este sentido, debe tenerse en cuenta que el abanico de tipos textuales
cubierto por una lengua en un momento dado de su historia ha venido siendo
considerado, junto con el tipo de temas desarrollados en ellos, un claro indicador
del nivel de cultivo y de elaboración alcanzados por esa lengua, así como de la
función que esta desempeña y de la consideración social de que goza dentro del
marco de la propia comunidad (Kloss 1967, 34; Joseph 1978, 76–79). Pero además,
como han puesto de relieve las propuestas metodológicas desarrolladas en el

marco de las llamadas «tradiciones discursivas», las clasificaciones textuales
adquieren una relevancia que va mucho más allá del mero interés taxonómico. Así,
por más que de ningún modo se deba identificar «tradición discursiva» y «tipo de
texto», ya que, como indica Kabatek (2006, 165), «textos supuestamente del mismo
ámbito pueden estar bien diferenciados y pertenecer a TD bastante diversas», la
identificación y caracterización del tipo de texto nos pueden proporcionar el marco
referencial primario o básico para una correcta valoración de los datos lingüísti-
cos:
Las clasificaciones textuales muestran que la lengua no se realiza de manera espontánea y

exenta de tradición, sino en textos que se parecen entre ellos y que corresponden a tipos.
Estos tipos textuales son determinados por su función comunicativa, la respectiva constela-
ción de entornos, los procedimientos o estrategias textuales, su estructura de cohesión y de
coherencia y ciertos esquemas prototípicos (Kabatek 2007, 337).
A este respecto, conviene tener presente, por una parte, que el tipo de texto puede
imponer ciertos elementos estructurales o formales. Piénsese, por ejemplo, en los
condicionantes métricos, rítmicos y estróficos de los textos poéticos, o en la
estructura recurrente que caracteriza los epistolares. Pero además, en ocasiones,
el género o tipo de texto puede propiciar la aparición de ciertas formas lingüísti-
cas, o dificultar la de otras. Así, por ejemplo, los textos teatrales y, en general, los
textos dialogados favorecen la aparición de formas de primera y segunda perso-
nas o de determinados tiempos verbales, como el imperativo, que en general
tienen más difícil encaje en textos narrativos puros. Del mismo modo, el tipo de
texto puede determinar la adopción por parte de su autor de una cierta variedad o
registro en función de su estrategia discursiva. Estas consideraciones tienen una
importancia especial en casos como el que nos ocupa, en que el cultivo de una
lengua aparece fuertemente restringido tanto cuantitativa como cualitativamente
a una serie muy limitada de tipos de texto.
A lo largo de las últimas décadas han sido muchas y muy diversas las
tentativas de clasificación de tipos de texto que se han propuesto, como muchos
son también los criterios empleados para fundamentarlas. Sí parece, en todo caso,
que la tendencia dominante en la actualidad apunta a la adopción de «enfoques
multinivel, capaces de considerar rasgos internos y externos» (Ciapuscio 1994,
16). No es nuestra pretensión abordar aquí un análisis crítico de estas propuestas,
y mucho menos proponer una clasificación con valor general. Nuestro objetivo en
este trabajo, mucho más modesto, consiste simplemente en identificar, con carác-
ter preliminar, los parámetros de clasificación que resultan pertinentes para la
identificación de tipos de texto dentro de nuestro corpus y señalar algunos
ejemplos que pueden resultar representativos. Somos conscientes, en todo caso,
de que solo un análisis lingüístico sistemático de los textos podrá validar o

impugnar la relevancia de estos parámetros.
2.2.1 Adscripción genérica
Una primera clasificación, bien conocida y habitual en las tipologías adoptadas

en la construcción de corpus textuales, es la que permite distinguir entre textos
literarios y no literarios. Por lo que a nuestro corpus se refiere, entre los primeros
cabe establecer los siguientes grupos:
– Poesía culta, de corte académico, dentro de la que ocupa un lugar central la poesía de
circunstancias. Pertenecerían a este grupo las piezas compuestas para festejar un
acontecimiento gozoso o para lamentar uno luctuoso (como, por ejemplo, los sonetos
compuestos en 1612 con motivo de las exequias de la reina Doña Margarita), para
participar en justas y certámenes literarios (como los poemas que concurrieron a las
Fiestas Minervales celebradas en Santiago de Compostela en 1697), o simplemente para
halagar a un personaje poderoso (como la canción compuesta alrededor de 1594
en honor de Diego das Mariñas Parragués). Por más que en este grupo sea factible
encontrar algún que otro poema de temática religiosa, como el Romancillo da cea do
cordeiro (ca. 1680), o los versos compuestos a comienzos del siglo XVIII en honor de
Nosa Señora de Reza, los textos conservados son en su mayoría de naturaleza profana.
La poesía culta está representada prácticamente a lo largo de toda la Edad Moderna,
desde finales del siglo XVI hasta las postrimerías del siglo XVIII. En todo caso, cabe
señalar que la concentración de textos se incrementa a medida que avanzamos en el
tiempo, hasta alcanzar una mayor densidad en la segunda mitad del setecientos.
– Poesía popular y popularizante. Se trata por lo general de pequeñas piezas, mayorita-
riamente coplas, transmitidas oralmente y registradas por algún autor a lo largo del
período de referencia (cf. por ejemplo las registradas por diversos autores en la
segunda mitad del siglo XVIII recogidas en Blanco 1992). A ellas podrían añadírseles
las compuestas a imitación de este modelo, como las coplas que integran el Coloquio
de veinticuatro gallegos rústicos de Sarmiento (1746).
– Poesía cancioneril. Integrarían este grupo los poemas presentes en diversos cancione-
ros hispánicos, mayoritariamente castellanos, del siglo XVI. Se trata, por lo general, de
textos de transmisión dudosa, escritos en un gallego estereotipado o fuertemente
hibridado.
– Villancicos. Conforman este grupo las composiciones «en gallego» o «de gallegos» que
eran cantadas, sobre todo en Navidad y Reyes, en iglesias y catedrales, por lo general
fuera del territorio gallegófono, en España, Portugal o la América Hispánica. Aunque
los villancicos comparten algunas de las características señaladas a propósito de otros
grupos (transmisión irregular, hibridación lingüística y, ocasionalmente, intencionali-
dad paródica), constituyen una tradición bien diferenciada que, por esta razón, debe
ser mantenida como tipo aparte.
– Textos dramáticos y dialogados. Se trata de un género poco representado en el corpus.
De hecho, contamos únicamente con dos pequeñas piezas completas, el Diálogo de
Alberte e Bieito, anónimo, compuesto alrededor de 1600, y la Contenda dos labradores

de Caldelas, un entremés compuesto en 1671 por Gabriel Feixoo de Araúxo. A estas
piezas habría que añadir los fragmentos y parlamentos en gallego incluidos en obras
teatrales en castellano o plurilingües, producidas tanto dentro como fuera de Galicia.
– Textos en prosa. La producción conocida es muy escasa, apenas unas páginas del
Theatro moral y político de Mendoza de los Ríos (1731). Por otra parte, el encaje de esta
pieza entre los textos literarios resulta cuando menos discutible.
Por lo que se refiere a los textos no literarios presentes en el corpus, cabe

distinguir los siguientes grupos:
– Prosa documental, mayoritariamente notarial. Constituye la manifestación epigonal de

una tradición iniciada en el siglo XIII y mantenida de manera continuada hasta el
comienzo de su declive en la segunda mitad del siglo XV. Aun así, el gallego subsiste,
aunque marginalmente, en este tipo de textos hasta el último cuarto del siglo XVI. El
texto de datación más tardía recogido en el TMILG es un documento de 1577 de Santa
María do Camiño (Pontevedra).
– Correspondencia privada. Este tipo está representado en el corpus, fundamentalmente,
por dos pequeños grupos de cartas privadas fechadas entre 1527 y 1530 y entre 1567 y
1626, y dirigidas, respectivamente, a Pedro Álvarez de Soutomaior, nieto de Pedro
Madruga y tercer conde de Camiña, y a Diego Sarmiento de Acuña, conde de Gondo-
mar.
– Textos historiográficos. A este tipo corresponderían algunas memorias y textos cronís-
ticos, como la Memoria da fundación do gremio dos Cambeadores (anterior a 1624) o la
Historia de don Servando (ca. 1630), que constituyen falsificaciones de textos pretendi-
damente antiguos realizadas a lo largo del siglo XVII. Contamos también con algunos
otros textos, como las Constituciones de Santa Tegra (1591), que llegaron hasta nosotros
a través de copias realizadas con posterioridad a su composición.
– Refranes y proverbios. De este tipo de textos se conservan algunas compilaciones de
refranes, como la realizada por Hernán Núñez hacia mediados del siglo XVI.
– Glosas y anotaciones marginales. Se trata de fragmentos, frases o palabras integradas
en textos escritos en otro idioma o anotadas al margen de escritos y documentos.
2.2.2 Ámbito de difusión
Si la filiación genérica constituye un primer parámetro para la clasificación, otro

criterio de gran relevancia por sus implicaciones, tanto en la esfera de lo estricta-
mente lingüístico como en el dominio sociolingüístico, es el ámbito de difusión
primario de los textos. Este criterio nos permite establecer un eje opositivo en
cuyos extremos se situarían, respectivamente, los textos concebidos originaria-
mente como privados y los creados para su difusión pública. Un ejemplo prototí-
pico de los primeros serían las cartas personales, escritas en principio para ser
leídas exclusivamente por su destinatario inmediato. En contraposición, los
textos publicados, difundidos a través de la imprenta, constituirían los ejemplos
más representativos de textos públicos. En medio se situarían los textos de

contenido no estrictamente privado que, aun así, no fueron creados para su
difusión pública (sería el caso de buena parte de la prosa documental) y, por otra
parte, los textos que, por razones que habría que analizar detalladamente, no
fueron dados a la imprenta (y en muchos casos ni siquiera concebidos para
ello), pero sí fueron creados para ser leídos por un círculo restringido de personas
(sería el caso de obras ya mencionadas, como el Diálogo de Alberte e Bieito, las
coplas de Sarmiento o los fragmentos en gallego insertos en algunas piezas
teatrales).
Como fácilmente se puede comprender, la contraposición entre textos públi-
cos y textos privados se solapa parcialmente con la distinción entre impresos y
manuscritos. Por razones obvias, los textos privados y los dirigidos a un público
restringido aparecen comúnmente en forma manuscrita. Sin embargo, lo contra-
rio no es necesariamente cierto, es decir, no todos los textos que llegaron a
nosotros en forma manuscrita tienen carácter privado o semipúblico. Paralela-
mente, los textos impresos tienen por regla general carácter público, si bien no
todos los textos creados para su difusión pública aparecen forzosamente en forma
impresa.
2.2.3 Autonomía
Otro parámetro sin duda relevante para una clasificación de los textos es su grado
de autonomía. Tomando como base este criterio podemos distinguir tres grupos:
– Textos autónomos, completos e independientes, que no forman parte de una obra más
extensa. En esta misma categoría se podrían integrar también los textos autónomos
que figuran en antologías o compilaciones de diverso tipo, pero que no mantienen una
relación formal o temática directa con otros textos contenidos en el mismo volumen.
Cabría incluir en esta categoría también obras como el Coloquio de Sarmiento, incluso
a pesar de tratarse de una obra concebida como punto de partida o pretexto para el
comentario filológico de las formas empleadas en sus coplas. De este modo, conside-
ramos que el Coloquio en sí mismo puede considerarse, tanto desde un punto de vista
formal como temático, una pieza autónoma, por más que su composición esté guiada
en buena medida por el propósito de seleccionar soluciones que den juego para el
comentario. Así, podría decirse que, contrariamente a lo que por lo general sucede, en
el caso de Sarmiento es el texto el que está al servicio de la glosa, y no la glosa al
servicio del texto.
– Textos autónomos integrados en antologías o volúmenes colectivos junto con otros
textos con los que comparten rasgos formales o temáticos. Tal sería el caso, por
ejemplo, de los sonetos incluidos en la Relación de las exequias de la reina doña
Margarita (1612) o de los romances gallegos que concurrieron al «asumpto segundo» de
las Fiestas Minervales de 1697.
– Textos incluidos en obras más extensas e integrados en ellas en mayor o en menor

medida. Tal sería el caso, por ejemplo, de los fragmentos, pasajes o parlamentos en
gallego presentes en textos dramáticos, como los mencionados más arriba.
2.2.4 Variedad lingüística
Atendiendo a la variedad lingüística empleada en los textos podemos establecer

los siguientes tipos:
– Gallego. Constituye la categoría no marcada del corpus. En consecuencia, se adscribi-

rían a este tipo los textos escritos en gallego que no participan de las características de
hibridación o falsificación que definen los siguientes tipos.
– Hibridación gallego-castellano. Es la que se registra en textos escritos sobre una base
gallega fuertemente interferida por elementos tomados del castellano. Esto es lo que
sucede, por ejemplo, en muchos villancicos y, por lo general, en los poemas incluidos
en los cancioneros hispánicos.
– Hibridación gallego-portugués. De modo análogo al citado anteriormente, se adscribi-
rían a este tipo los textos que presentan una base gallega con una significativa presencia
de elementos del portugués, como sucede con muchos de los villancicos cantados en
Portugal.
– Gallego arcaizante. Corresponderían a este tipo los textos pretendidamente medievales
que, como parte de su estrategia falsificatoria, intentan imitar, con desigual pericia, el
gallego antiguo para de este modo resultar más verosímiles.
– Gallego paródico. Se adscribirían a este tipo los parlamentos puestos en boca de per-
sonajes gallegos que aparecen en comedias y entremeses de los siglos XVII y XVIII y
que, siempre con intención paródica, tratan de remedar el gallego seleccionando,
acertadamente o no, rasgos estereotipados supuestamente representativos.
No será necesario insistir demasiado en la importancia de este parámetro para

una valoración ajustada de los datos lingüísticos extraídos del corpus.
2.3 Dificultades para el establecimiento del corpus
Nos encontramos, por tanto, ante un corpus textual no muy extenso, a pesar de
abarcar un amplio arco temporal de tres siglos, y muy heterogéneo, sea cual sea
el parámetro que utilicemos, de forma que en algunas de las posibles subclasifi-
caciones faltan muestras y en ninguna las hay en número suficiente para poder
definir un modelo de referencia; el problema de la escasez aumenta y muestra un
corpus verdaderamente lagunar si combinamos dos o más parámetros. De todos
modos, estas características determinan solo algunas de las dificultades de esta-
blecimiento del corpus.
Uno de los problemas más graves para la constitución del corpus textual es la
dispersión física y la invisibilidad de sus piezas. Por lo general estos textos
sobrevivieron ocultos en archivos y bibliotecas, en su mayoría fuera de Galicia, de
modo que uno de los objetivos de Gondomar es hacer y ampliar el inventario,
localizando y dando a conocer nuevas muestras de escritura en esta época.
La dispersión física dificulta la búsqueda sistemática en archivos y bibliote-
cas. La observación de este corpus muestra hasta qué punto el marasmo de Galicia
en los Séculos Escuros fue perjudicial para su lengua y cultura, incluida la pérdida
de su patrimonio documental. El que se salvó de la destrucción se conserva con
frecuencia fuera de Galicia: bien por el traslado de los archivos familiares de las
grandes familias nobiliarias, que buscaron poder y fortuna más cerca de la corte o
que en sus sucesivas alianzas familiares dejaron de tener presencia en los domi-
nios gallegos; bien por el expolio de gran parte de los archivos eclesiásticos, sobre
todo a consecuencia de la expulsión de los jesuitas y de la desamortización; bien
por otras acciones públicas tendentes a concentrar la documentación de Galicia
en la meseta. Únase el hecho de que una buena parte de estos textos no fue
producida en Galicia (de forma singular, los villancicos) o no nació destinada a un
receptor residente en el país (por ejemplo, la correspondencia o las obras manus-
critas remitidas al conde de Gondomar).
Las razones de la invisibilidad son múltiples, pero creemos necesario señalar
el escaso valor como objeto patrimonial y la recurrente falta de autonomía, por lo
que los textos forman parte de cartapacios misceláneos, facticios con diversos
grados de homogeneidad, colecciones documentales no clasificadas o, simple-
mente, anotaciones usando los huecos en blanco en la obra principal; por eso no
son catalogados como piezas autónomas y solo merecen una anotación en fichas
catalográficas muy elaboradas. Contribuye al ocultamiento el hecho de no ser
literarios o ser muestras de literatura efímera, de estar en buena parte manuscritos
(autógrafos o copias) y de no estar pensados para la difusión pública o, por lo
menos, no a través de edición autónoma. Valgan como ejemplos una hoja que
contiene un poema en gallego (el Romancillo ya aludido, ca. 1680) en un volumen
de 248 páginas manuscritas titulado Poesías varias escritas principalmente por
jesuitas, compilado probablemente en Aragón, del que, por fortuna, el catálogo de
la Biblioteca Nacional de España (Mss/4103) advierte «Algunos textos en latín,
catalán y gallego»; el poema satírico dedicado a María Pita (1619–1620), ejercicio
con que entretiene las horas muertas el escribano que toma notas durante un
juicio y que por eso quedó ligado al expediente; un villancico que es el tercero en
el folleto publicado como Divinos elogios, alegres villancicos que al nacimiento
del maior senor, al Dios humano cantò la Capilla de la parrochia de la Virgen
siempre santa Maria, cantados e impresos en Écija, en 1640; o el fragmento en
gallego, puesto en boca de un hidalgo, que ocupa las páginas 118–119 del Theatro
Moral y Político de la Noble Academia Compostelana, de Pablo Mendoza de los

Ríos (1731).
La irregular custodia del patrimonio documental produjo pérdidas que espe-
ramos no sean todas definitivas. Hay piezas que solo se conservan en copias muy
posteriores en el tiempo y que no siempre inspiran la misma confianza en su
fiabilidad. Es el caso, por ejemplo, de la Regla de las Constituciones de la gloriosa
santa Trega de la villa de la Guarda (texto de 1591, presuntamente a partir de otro
anterior), desaparecido junto con otros tesoros documentales y bibliográficos del
monasterio de Oia, por lo que solo llega a nosotros a través de copias tardías
(1780 y 1807, antes de la desamortización), hechas por monjes castellanos que no
dominan la lengua gallega. De otras solo nos llegan noticias, por veces fidedig-
nas, pero hasta hoy nadie ha conseguido localizarlas; resaltamos, a modo de
ejemplos valiosos, un cancionero de la condesa de Altamira (siglo XVI) que al
parecer formó parte del acervo de la Biblioteca Nacional de España (Álvarez
Blázquez 1959, 220), y las obras autónomas As Galegadas y A historia de Galicia,
para las que su autor, Gregorio de Lobariñas Feixoo, solicitó licencia de impresión
en 1616 y 1626, respectivamente (Bouza 2009).
Una vez hecho el inventario y localizadas las piezas del corpus textual, es
labor del filólogo editarlos para establecer la forma lingüística que mejor respon-
de al original dado por su autor y a los intereses del variado conjunto de
estudiosos interesados. Los problemas son recurrentes y no muy diferentes de los
que se encuentran al enfrentarse con cualquier otro corpus: el distinto grado de
formalidad en la versión o versiones supervivientes, la variación lingüística, la
heterografía dominante, etc. En nuestro caso hay dos dificultades adicionales que
merecen resaltarse y tener en cuenta para proceder con el rigor metodológico
adecuado.
Un serio problema es la frecuente transmisión lingüística en territorio no
gallegófono o por copias realizadas por personas que no conocen la lengua.
Es por ello difícil determinar hasta qué punto «alteraciones» lingüísticas de
distinto tipo se deben a una hibridación real (del castellano o del portugués) y en
qué casos son simples modificaciones grafemáticas debidas a la transmisión.
Y aún más, es difícil determinar en qué casos una cierta forma, no registrada
anteriormente pero verosímil, es atribuible al texto original y en qué casos es
hipercaracterización galleguizante, hecha desde la óptica del castellano o del
portugués.
Las dificultades derivadas podrían resolverse, aunque no sin dificultad, si el
problema anterior no se aliase con la falta recurrente de referentes contemporá-
neos y la inexistencia de un canon, debidas a una transmisión escrita irregular.
Esta circunstancia dificulta la lectura interpretativa del texto, pues generalmente
no es posible determinar hasta qué punto algunas formas «extrañas» se deben a
ensayos grafemáticos que, en aras de la fidelidad, hacen autores carentes de

convenciones adecuadas para el gallego, o simplemente se deben al hecho de
aplicar al gallego convenciones gráficas del castellano o del portugués.
Así, cuando leemos «touda de frores» en un villancico gallego cantado en
Málaga (1683) tendemos a pensar que se trata de una hipercaracterización como
‘gallego’ (la regla es simple: si toro = touro, luego toda = touda), y podemos
atribuir al mismo impulso la forma toudo recurrente en los supuestos traslados de
la Relazon da carta xecvtovria (ca. 1515) y del Pranto da Frouseira (ca. 1500),
publicados en Granada en 1674 dentro del Memorial de la casa de Saavedra (p. ej.,
«Que de Lugo à Ribadeo toudos me tinan temor»); pero la conclusión no puede ser
firme sin descartar previamente que pueda tratarse de una tentativa de grafiar de
forma inequívoca una vocal velar más cerrada que cast. /o/ y no tanto como /u/.
Cuando encontramos queiro en distintos poemas y canciones, como en los versos
«sois muyto fidalgo / muyto cabaleiro / e por ende queiro / vos praçer enalgo»
(Carmelo de Valladolid, 1590–1606), la primera impresión es que también se trata
de una hipercaracterización, en este trecho ayudada por la rima; esta es, desde
luego, una explicación plausible para la superabundancia de queiro en el corpus
de villancicos (Sevilla 1642, Lisboa 1646, Jerez 1649, Toledo 1673, Madrid 1675. . .),
pero también hay base para conjeturar que una forma antigua para la P1 del
Presente de Indicativo perviviese e incluso aumentase su presencia en esta época
ayudada por la consolidación de queira en el Presente de Subjuntivo.2 Finalmente,
aun reconociendo que la interferencia lingüística es muy frecuente en los villanci-
cos,3 porque se originan y difunden fuera del territorio gallegófono, hay que
advertir de que no siempre la interpretación más simple y cómoda es la más
adecuada. Por ejemplo, en «Ay, de la miña terra / beño eu contente» (Lisboa 1640)
y «Ay! De la miña terra veño ca» (Toledo 1641) es fácil ver una preposición de
seguida de un artigo castellano la, en lugar de la forma gallega de + a > da, pero el
editor riguroso debe contemplar que pudiera tratarse de dela, amalgama de prep.
des ‘desde’ y art. a (cf. trala y pola, con las prep. tras y por). Para llegar a la
solución más adecuada es preciso no solo el análisis de las características internas
del texto y de la posición de su transmisor ante la hibridación lingüística, sino el
conocimiento de las soluciones recurrentes en el mismo contexto; así, el análisis y
2 Queiro está dentro del sistema aunque debía ser muy infrecuente en la Edad Media, a juzgar
por el escaso número de atestaciones, solo 4, registradas en TMILG. Repárese en que gall. mod.
quero/queira es una excepción en el cumplimiento de la regla gramatical que iguala el tema de
las formas atemáticas, P1 del Presente de Indicativo y todo el Presente de Subjuntivo (collo e colla
/o/, caibo y caiba, fago y faga, vexo y vexa, veño y veña, etc.
3 Incluso en los más fácilmente clasificables como «gallego» se da en algún grado, al menos a
nivel gráfico y en palabras gramaticales muy frecuentes: es, lo, mi, etc.
comparación de distintas versiones permite conjeturar que el castellanismo de

«Beña nora buena / o ceo para a terra» (Lisboa 1640) no es original sino una
alteración, producida por incomprensión en territorio castellanófono, de «Veña
embora, veña / o ceo para a terra», bien documentada en otros lugares (Toledo
1641, Lisboa 1645).
Por ello, Gondomar asume como compromiso la lectura, la transcripción y, de
forma escalonada en el tiempo, la edición rigurosa y sistemática de los textos
compilados, en dos versiones alineadas, una conservadora y otra interpretativa.
Las dos ediciones irán acompañadas de un aparato de notas relativas a la lección
y sus problemas, diferenciado del conjunto de notas con información comple-
mentaria o justificativa.
2.4 Los textos como fuente de información lingüística
Si uno repasa la bibliografía lingüística gallega —producida casi íntegramente en

los últimos cincuenta años— podrá comprobar que los estudios descriptivos e
interpretativos se centran o en la lengua medieval, en un arco temporal más o
menos amplio pero con fin inevitable en el final del siglo XV, o en el gallego
moderno, con un inicio que raramente va más atrás de los comienzos del siglo -
XIX. La causa de esta discontinuidad está en que los autores de los pocos trabajos
que se aventuran en una descripción que salve el lapso temporal de algo más de
tres siglos poco más pueden hacer que lanzar hipótesis plausibles y proponer
cronologías verosímiles para llenar el hiato y explicar la conexión entre el estado
de la lengua en el inicio de la Edad Moderna y el estado de la lengua en el
comienzo de la Edad Contemporánea. Y esto es así porque faltan datos fiables o
porque no están disponibilizados debidamente.
Algunos de los avances más significativos de la lingüística gallega se relacio-
nan de una manera u otra con la construcción y explotación de corpus lingüísti-
cos, en particular con el TMILG y el TILG. El primero, que tiene como objetivo
reunir textos desde los primordios de la escritura en gallego hasta 1600, acoge
«unhas 16.000 unidades textuais distribuídas nun total de 82 obras, representati-
vas das tres grandes categorías recoñecibles na produción textual da Galicia
medieval: a prosa notarial, a prosa non notarial e a poesía (verso)», según
información facilitada por los editores en las páginas descriptivas. Gracias a la
dimensión del corpus, el discutible rigor con que, a juicio de los filólogos, fueron
editadas algunas colecciones documentales se compensa con la abundancia de
testimonios, que se autorizan o enmiendan mutuamente; ahora bien, ese acopio
de datos corresponde al período medieval, y no al trecho temporal que nos ocupa:
en números redondos, solo el 1 % de los registros corresponde al siglo XVI y el
último documento es de 1577. Por lo que se refiere al TILG, según declaran los
responsables en las páginas descriptivas, «a versión actual inclúe 1.958 obras de
704 autores e autoras, producidas todas elas entre 1612 e 2013, e permite realizar
consultas nunha base integrada por máis de 26 millóns de palabras, correspon-
dentes a 95.409 lemas diferentes». Pues bien, los registros del TILG anteriores a
1800 suponen en cifras redondas el 0,1 % del corpus; únase a esta escasez el
hecho de que en el estado actual ninguno de los dos corpus incluye textos datados
entre 1577 y 1612.
Los datos anteriores pretenden mostrar hasta qué punto carecemos de fuen-
tes para describir el estado y evolución de la lengua gallega en una dilatada época
histórica en que se producen las grandes transformaciones que derivan en el
gallego moderno, tal y como lo conocemos hoy o desde principios del siglo XIX.
Compárese con la historia evolutiva de las lenguas más próximas, singularmente
el castellano y el portugués, y se comenzará a comprender la magnitud del
problema; si a esto le sumamos que la progresiva minorización del gallego desde
las últimas décadas de la Edad Media colocó esta lengua en una posición
subalterna respecto del español, y, por lo tanto, en situación de previsible
hibridación durante toda la Edad Moderna, la importancia del período se multi-
plica. Reconstruir la evolución lingüística del gallego durante estos algo más de
trescientos años requiere de algo más que de hipótesis: son necesarios datos,
testimonios, fuentes fiables. Por ello, es preciso localizar todos los textos que
lograron sobrevivir, editarlos con el máximo rigor, difundirlos y elaborar recursos
a partir de ellos.
Con el objetivo de mostrar la importancia lingüística de este corpus, que no
siempre se corresponde con la importancia artística ni patrimonial de las piezas
que lo integran, vamos a mostrar algunos testimonios que se comprueban en estos
textos y que ayudan a datar hechos lingüísticos. Seleccionamos para este fin tres
fenómenos de tipología diversa, ilustrados preferentemente con el testimonio de
textos que hasta el momento no fueron valorados debidamente por los estudiosos.
1. En la lengua oral espontánea, coloquial, de algunas áreas, y de algunos grupos

de hablantes dentro de ellas, es frecuente la epéntesis de un sonido —generalmen-
te [j], pero en el SE también [w] > [β̞ ]— entre dos vocales contiguas, para evitar una
contracción fonética que conllevaría la pérdida o el oscurecimiento de un segmen-
to morfológico relevante. Uno de los casos paradigmáticos es la epéntesis entre la
/a/ del artículo femenino o de otro determinante (o bien la contracción á) y la /ˈa/
inicial de la palabra siguiente: a i-alma, a i-auga. Hoy es más habitual en hablan-
tes no influenciados por la representación gráfica de la lengua, pero también se
oye a cualquier tipo de hablantes en expresiones repetidas, como «(un porquiño)
fóra a i-alma», pronunciadas con voluntad de remarcar su carácter popular. Saco
Arce (1868, 146) se hacía eco del fenómeno en el apartado de «consonantes

eufónicas», dando como ejemplo la siguiente canción popular: «Probes vaquiñas
miñas, / S’o meu coidado, / Como pesa na y-alma / Pesa n-o carro». Actualmente
no se representa gráficamente, pero a mediados del siglo XIX y durante las
primeras décadas del XX pasó a la lengua escrita de la mano de algunos autores,
entre ellos la propia Rosalía de Castro (1863)4 («Levaba na frente á yalma»); en el
TILG no encontramos ningún registro hasta este de 1859: «Queridiño e esposo da
ialma, ven», del compostelano Antonio de la Iglesia.
Nada vemos en la bibliografía gallega a propósito del origen y datación del
fenómeno que, a juzgar por la instalación en el cancionero, en el refranero y en la
fraseología popular, debe ser antiguo. Apoya su antigüedad el hecho de que sea
un fenómeno transfronterizo compartido por los dos territorios que conformaron
la antigua Gallaecia, según informan Gonçalves Viana, que con la fineza que le
caracteriza advierte del bajo prestigio social fuera de su circunscripción dialectal,
y Leite de Vasconcellos, que precisa un poco más los límites de ese territorio;
respectivamente:
a˳ + à = a˳à, àà ou ā, qui est ma prononciation habituelle. Dans le nord on intercale ı̊ , pour

eviter l’hiatus ou la crase; cet ı̊ , serai ridicule à Lisbonne (Gonçalves Viana 1941, 203).
L’hiatus entre deux voyelles orales est évité par l’intercalation d’un i ou d’un u, par ex. a i
água (Nort et Centre) (Leite de Vasconcelos 1987, 77).
De esta solución fonética para resolver el encuentro /aa/, así como de su carácter
dialectal ya había dado cuenta Barretto (1671, 72–73):
He esta letra a fatal para os de entre Douro, & Minho, & Beyrões, siguindoselhe outro a
porque nã os podem pronunciar ambos ũ detras do outro, sẽ lhes meter de permeyo ũ y, &
assi havendo de dizer, a agua, a alma, infalivelmente hã de dizer ay agua, ay alma.
Pues bien, sin perjuicio de que sobre otros textos se puedan ofrecer dataciones
anteriores, nosotros daremos, a modo de ejemplo, estas dos que confirman y
anticipan la de Barretto. El primer testimonio procede del parlamento que hace en
gallego la representación de Lugo en la Comedia de la invención de la sortija,
representada en Monforte de Lemos en el año 1594. Los otros dos proceden de un
mismo villancico gallego cantado en la Navidad de 1666 en la Capela Real de
4 El autor del glosario que acompaña la primera edición de Cantares Gallegos se ve en la

obligación de aclarar: «YALMA , para hacer mas suave la palabra y evitar la cacofonía, suelen decir
á yalma, en vez de á alma» (Castro 1863, 183). El autor —es comúnmente aceptado que M es
Manuel Murguía— se excluye de esa práctica; no es posible identificar el sujeto de «suelen»: ¿el
vulgo, los hablantes de la comarca compostelana o padronesa?
Lisboa; el editor advierte en nota del fenómeno «comum ao português do norte e

ao galego, representado na grafia dêste último, minha y-alma» (Lapa 1930, 57).
1. Ay, Xan, cata, non te enfermes / Nen sentencies con malicia, / Cata que ay alma perdes.
2. Garulho da minha y alma, / non choreis com tanto afeito / (. . .) / Ay, Ay, Ay, / tocay,
tocay, / a gaita do fole / que a y-alma me bolle.
2. En la morfología dominante en el gallego moderno y en el gallego estándar, las

formas verbales acabadas en diptongo se combinan con el alomorfo /no, na, nos,
nas/ del pronombre personal de tercera persona acusativo no reflexivo: viuno ‘lo
vio’, mirouno ‘lo miró’, fiteino ‘los miré fijamente’, etc. Se diferencia en esto tanto
de la morfología testimoniada por los textos medievales (feriuo, ferioo, feryo, ferio
‘lo hirió’; destroyoa ‘la destruyó’…) como de la descrita para todas las variedades
de portugués, que presentan distintas soluciones pero resuelven el encuentro
vocálico sin incorporar una consonante nasal.
Uno de los asuntos pendientes de la gramática histórica gallega es dar una
explicación aceptable para el origen, difusión y cronología de este alomorfo con
consonante nasal, que al parecer no forma parte de la gramática medieval
testimoniada por los textos hasta fines de la Edad Media pero que vemos plena-
mente instalado en el sistema cuando, a principios del siglo XIX, comienza a
despertar la escritura en lengua gallega. Los datos geolingüísticos del gallego
actual confirman el proceso de difusión de la forma innovadora y la progresiva
sustitución de la solución tradicional: (a) mirouno ocupa una gran área central,
compacta, que representa la mayor parte del territorio gallego; (b) las formas sin
consonante nasal, más antiguas, ocupan áreas marginales, cumpliendo así un
principio básico de la estratigrafía lingüística; (c) en el margen occidental, el área
de –(u)o es ya discontinua (grosso modo: NW, Costa da Morte / SW, Baixo Miño) y
está fracturándose y desapareciendo bajo la presión de la forma general; (d) en el
margen oriental, la isoglosa se va desplazando hacia el E, al tiempo que solucio-
nes centrales van o bien creando formas híbridas (miróunol por miróuol ~ miróul ~
miróol, en el N5) o bien fracturando internamente el área resistente (mirouno por
miróuo ~ miróo ~ miróu, en el S); (e) en el ángulo SW de Ourense se dan soluciones
coincidentes con las hablas portuguesas fronterizas, pero también aquí se advier-
te el proceso de sustitución a favor de las gallegas más comunes. Vemos, por
tanto, un proceso de difusión de la forma innovadora mirouno muy avanzado, con
áreas marginales relativamente pequeñas en las que el proceso de sustitución
parece estar en vísperas de concluir.
5 Téngase presente que en el gallego hablado en Asturias la forma dominante es miroulo, sin
pérdida de la lateral, y por tanto sin el problema de la resolución de un encuentro de tres vocales.
¿Cuándo comenzó este proceso? Hasta fechas muy recientes, veníamos dan-
do como registro más antiguo botouno ‘lo echó’, en la Historia de don Servando
(ca. 1630), como destaca su editor:
É de grande interese a ocorréncia do alomorfe no para o obxecto directo de terceira persoa:

‹botouno› [27]. De feito, é o máis antigo testemuño dese alomorfe que surxe aqui após forma
verbal rematada en ditongo. Tratando-se de contexto único non podemos, infelizmente,
xeneralizar sobre a extensón desta variante na língua do autor. Só nos permite afirmar que
en inícios do XVII xa se podia rexistar, polo menos, precedida de –ou no noroeste ourensano
(Souto Cabo 2007, 214).
El descubrimiento de un nuevo cancionero de poesía gallega compuesto entre

1380 y ca. 1430 permite datar el inicio de este fenómeno en fecha mucho más
temprana: «É de salientar o uso do alomorfo –no en seynos (XXIII, 13), unha
innovación típica do galego» (Monteagudo 2013, 88). Según el editor, el manus-
crito contiene evidencias «que convidan a situar a copia dos textos en Ferrol ou as
súas proximidades por volta de 1434» (Monteagudo 2013, 51). Tanto si el rasgo
morfológico es atribuible al autor, que podría escribir solo unas décadas antes,
como si se debe al copista, el área geográfica seguiría siendo la misma. Por tanto,
el primer testimonio conocido, del occidente del área mindoniense, se anticipa en
alrededor de dos siglos al del orensano. Adviértase, con todo, que se trata de otro
diptongo y que las formas verbales de P1 acabadas en –ei desarrollaron una nasal
que se fijó morfológicamente vinculada al morfema de persona y número, con una
cronología que todavía está por precisar (cantei > cantein, de donde cantén e cantín
en el pretérito de indicativo, pero también sein, hein); por lo tanto, ¿estamos
delante de sei + no o de sein + o? Las formas verbales acabadas en –ou no
experimentaron un proceso semejante en el morfo de P3, pero no se descarta que
cantou + no siga la senda de canteino, y, por consiguiente, la difusión y consolida-
ción debería ser más tardía; por otro lado, la presencia de la consonante es más
eficaz tras –ou, ya que evita reducciones vocálicas como las que podemos cons-
tatar todavía hoy (cantouo > cantoo, cantou), en tanto que eso no es preciso tras
–ei. Por esta razón, en nuestra opinión, aunque estén relacionados, debemos
datar el fenómeno tomando por separado los distintos diptongos implicados.
En consecuencia, es necesario indagar en los testimonios de nuestro período.
A la espera de un análisis más demorado del corpus, y solo a modo de ejemplo,
ofrecemos estos datos de mediados del siglo XVII, tomados de dos versiones de un
villancico cantado en Castilla en fechas próximas. Se colocan en un punto inter-
medio entre el testimonio de la Historia de Don Servando (c. 1630) y los siguientes
localizados hasta ahora, ya en la Fiestas Minervales (1697), uno del compostelano
Joseph Antonio Gil Taboada (arrolouno ‘lo meció’) y otro de un Ignacio Rodríguez
que todavía no hemos conseguido identificar (librouna ‘la libró’).
3. Mirouno todo nas pallas Anton / o Neno dos Ceos o irse à deitar / e penado de velo
afrigido, / co a gaytiña o quer alegrar (Toledo 1656).
4. Mirouno todo nas pallas, Antón, / o neno dos ceos o irse deitar / e penado de velo
afligido, / coa gaitiña o quer alegrar (Segovia 1657).
3. Otra de las singularidades de la lengua gallega es el «dativo de solidaridad»,

una innovación que no vemos descrita para ninguna de las variedades de portu-
gués. El pronombre dativo de segunda persona (che / vos) —o de tercera persona
en contexto de cortesía (lle / lles)— es usado no para la función sintáctica que le
es característica (OI), sino para introducir al alocutario en el mensaje como si
fuese uno de los participantes en los hechos relatados, sabiendo de antemano
que no ha intervenido en ellos. Se trata de una función pragmática: se pretende
en última instancia que se sienta implicado y provocar en él una reacción
favorable al sentimiento o la posición del emisor. Está completamente extendido
por todo el territorio gallegófono, con mucha vitalidad entre hablantes de toda
condición, hasta el punto de que forma parte también de las características del
castellano hablado en Galicia por amplios grupos sociales.
Ese altísimo grado de difusión territorial y de implantación social hace supo-
ner que el origen es muy antiguo. Cuando nos ocupamos de este asunto, hace ya
un par de décadas (Álvarez 1997), manifestábamos que nuestras indagaciones en
textos medievales habían sido infructuosas y que los testimonios más antiguos
que podíamos aducir en aquel momento procedían de fray Martín Sarmiento
(1746). Valgan como muestras los siguientes:
5. No dia càtorce / dò mes e ano mesmo / que foy quinta feira / se bem che me lembro
(copla 267).
6. Elle tan bizarro / anque è pasteleiro / que dobrons á pote / gastòu sen receo (copla 725).
Gracias a la construcción de los corpus lingüísticos a que ya nos hemos referido,

se disponibilizaron enormes cantidades de datos al servicio de los investigadores,
facilitando la investigación y la localización de testimonios. En recientes encuen-
tros científicos celebrados en Bahía (Brasil) y en Santiago de Compostela, la
investigadora Cecilia Farias de Souza6 presentó sendas comunicaciones sobre el
pronombre dativo gallego a partir de datos de corpus, con especial atención al
dativo de solidaridad. En su base de datos, confeccionada a partir del TMILG, el
testimonio más antiguo procede de la Crónica Xeral e Crónica de Castela (ca.
1295–1312):
7. et nõ lles faças nẽhũu mal, ca elles nõ che am y culpa nẽhũa (Lorenzo 1975, 129).
6 Es preciso dejar constancia de nuestro agradecimiento por su generosidad a la hora de

facilitarnos sus datos con anterioridad a la publicación de los respectivos trabajos.
El ejemplo es dudoso, pues en una interpretación se trata efectivamente de un

dativo de solidaridad y en otra de un clítico que marca una relación personal con
la culpa, y por consiguiente sí estaría de algún modo en la esfera de los partici-
pantes en los hechos relatados (de ahí que pueda alternar con las otras personas:
«o rapaz non me/che/lle ten culpa»). Los siguientes testimonios, por orden de
antigüedad, fuera ya de toda duda, están tomados del TILG y corresponden al
siglo XVIII. He aquí el primero de ellos, de los Versos gallegos à nuestra Señora de
Reza, de Joseph Noguerol y Camba (1708):
8. Dò Fiscal Dios cheme libre.
Pues bien, también en este caso nuestro corpus textual ofrece ejemplos con que
llenar el vacío e iluminar la lengua de los Séculos Escuros, como se puede
comprobar en la siguiente muestra. El primero procede del Diálogo de Alberte e
Bieito (ca. 1600): de los 10 registros de che en el texto, solo dos escapan a este
uso, en nuestra opinión en consonancia con la caracterización popular y colo-
quial que el autor quiso imprimir a todo el texto (Álvarez/Montederramo 2002,
265, 292). El segundo, procedente de un villancico cantado en Lisboa en la
Navidad de 1640 (Lapa 1930, 35), es dudoso: en la interpretación más probable,
que nosotros sostenemos, es un complemento de solidaridad, pero también
podría tratarse de un benefactario (‘para vós’). El tercero, con un verso repetido
en cinco estrofas diferentes, procede de un villancico cantado en Jerez de la
Frontera en la Navidad de 1649; «dochome» debe ser interpretado como dóu-
cheme:7
9. Pois eu non che desbarío (ca. 1600).

10. Ay, beñobos co sayo / chouteiro, chouteiro / para dar la bolta / bolta a lo ligeyro
(Lisboa 1640).
11. Ay cachopiño belo / dochome a Deus / como sois Galego (Jerez de la Frontera 1649).
3 Conclusión
En las páginas anteriores nos hemos ocupado de la caracterización del corpus
textual producido en lengua gallega durante los Séculos Escuros, hasta donde ha
podido ser ya desvelado, así como de mostrar su extraordinario valor como fuente
de información con que lingüistas y filólogos puedan abalizar tres siglos de
oscuridad.
7 Cf., por exemplo, «¡Ai Canté! pero doume a Dios si a ti te deixan emprensar nada; nin ti sabes
parolá-lo para levar a pór no deáreo» (Diálogo en la Alameda 1836, apud TILG).
Es preciso realizar un catálogo exhaustivo que ofrezca detalladamente la

información bibliográfica y archivística de todos los textos: datos bibliográficos
completos, localización de originales, noticia de ediciones y reproducciones facsi-
milares, etc. Para la realización de este catálogo resulta imprescindible acometer
un trabajo de investigación adicional que revise, como mínimo, la autenticidad, la
autoría y la datación. Un catálogo en permanente actualización, que incorpore
nuevos datos —acompañando los avances del conocimiento— y, esperamos, nue-
vos textos.
Es preciso informar de las características tipológicas de cada documento,
vista su importancia para la interpretación del propio texto y para la utilización
de los datos —lingüísticos o de otra naturaleza— que proporcionan a los estudio-
sos. Un dato que consideramos fundamental es la información sobre la fiabili-
dad de los textos: manuscritos autógrafos o copias (contemporáneas o posterio-
res), falsificaciones, imitaciones paródicas, traducciones, etc. En el segundo
apartado hemos propuesto cuatro parámetros de clasificación que consideramos
básicos: el estudio del corpus a esta luz revelará si son suficientes y los más
adecuados.
Es preciso un repositorio de textos que dé acceso público en línea tanto a un
corpus textual fiable, integrado por ediciones realizadas con criterios filológicos
rigurosos y homogéneos, como a facsímiles o copias digitales de los originales.
Proponemos dos tipos de lectura alineadas, la más conservadora (paleográfica) y
la más adecuada desde el punto experto del editor, pues creemos que de este
modo se resuelve el viejo dilema —hasta ahora difícil de resolver a causa de las
tiranías del papel— y se atiende el amplio abanico de necesidades de los diferen-
tes posibles consultantes.
Es precisa la elaboración de recursos a partir de las ediciones filológicas a
que nos hemos referido, de forma fundamental un corpus lematizado y un
glosario con información léxica y gramatical, y de estudios realizados a partir de
este corpus.
Con estos cuatro objetivos trabaja el equipo de Gondomar. Corpus dixital de
textos galegos da Idade Moderna. Catalogación, multiedición, glosario e estudo en
el Instituto da Lingua Galega. Tareas a corto, medio y largo plazo, en permanen-
te actualización, con la finalidad última de recuperar, poner en valor y difundir
todas las piezas que ayuden a iluminar la extrema oscuridad en que contem-
plamos hasta ahora tres siglos decisivos para la configuración del gallego
moderno.
Álvarez, Rosario, O complemento de solidariedade. A complicidade entre os interlocutores, in:
Fernández Salgado, Benigno (ed.), Proceedings of the 4th International Conference of
Galician Studies/Actas do IV Congreso Internacional de Estudios Galegos (Universidade
de Oxford, 26–28 Setembro 1994), vol. 1, Oxford, Center for Galician Studies, 1997, 37–53.
Álvarez, Rosario/González Seoane, Ernesto, O «romancillo» da cea do cordeiro, texto galego do
século XVII, in: Dubert García, Francisco/Rei-Doval, Gabriel/Sousa, Xulio (edd.), En memoria
de tanto miragre. Estudos dedicados ó profesor David Mackenzie, Santiago de Compostela,
Universidade de Santiago de Compostela, 2015, 21–40.
Álvarez, Rosario/Rodríguez Montederramo, Xosé Luís, O «Diálogo de Alberte e Bieito». Drama-
turxia, elites letradas e escrita en galego a fins do século XVI, Boletín da Real Academia
Galega 363 (2002), 241–311.
Álvarez Blázquez, Xosé María, Escolma de poesía galega, 4 vol., Vigo, Galaxia, 1959.
Barretto, Joam Franco, Ortografia da Lingua Portugueza, Lisboa, Officina de Joam da Costa,
1671.
Blanco, Domingo, Textos do século XVIII, in: Blanco, Domingo, A poesía popular en Galicia
(1745–1885), vol. 1, Vigo, Xerais, 1992, 119–144.
Bouza Álvarez, Fernando, Dar Galicia y el gallego a la imprenta: As Galegadas y A História de
Galicia de Lobariñas Feijoo, La Verdadera descripción de Ojea y algunas iniciativas histori-
gráficas de la primera mitad del siglo XVII, Obradoiro de historia moderna 18 (2009), 9–49.
Castro, Rosalía de, Cantares Gallegos, Vigo, Imp. de D. Juan Compañel, 1863.
Ciapuscio, Guiomar Elena, Tipos textuales, Buenos Aires, Universidad de Buenos Aires, 1994.
Cortijo Ocaña, Antonio, Un texto galego descoñecido do século XVI: a «Comedia de la invención
de la sortija» da Bancroft Library (Berkeley), Anuario de Estudios Literarios Galegos (2001),
17–49.
Farias de Souza, Cecilia, Estudos em corpora de dados do pronome dativo galego, in: Actas do I
Encontro Brasileiro de Estudos Galegos. Homenaxe a Rosário Suárez Albán, Salvador
(Bahia, Brasil), 13 a 15 de abril de 2015 (en prensa).
Gonçalves Viana, Aniceto dos Reis, Essai de phonétique et de phonologie de la langue portugaise
d’après le dialecte actuel de Lisbonne, Boletim de Filologia 7:2 2(1941), 161–243 (Roma-
nia 12, 1883, 29–98).
González Montañés, Julio I., La égloga «De Virgine Deipara» y el teatro de los jesuitas en Galicia
durante la Edad Moderna, Anuario del Instituto Ignacio de Loyola/Loiolako Inazio Institu-
tuen Urtekaria 14 (2007), 247–286.
Joseph, John Earl, Eloquence and power. The rise of language standards and standard langua-
ges, London, Frances Pinter, 1987.
Kabatek, Johannes, Tradiciones discursivas y cambio lingüístico, in: Ciapuscio, Guiomar, et al.
(edd.), Sincronía y diacronía de tradiciones discursivas en Latinoamérica, Madrid, Iberoa-
mericana/Vervuert, 2006, 151–172.
Kabatek, Johannes, Las tradiciones discursivas entre conservación e innovación, Rivista di
Filologia e Letterature Ispaniche 10 (2007), 331–345.
Kloss, Heinz, «Abstand languages» and «Ausbau languages», Anthropological Linguistics 9:7
(1967), 29–41.
Lapa, Manuel Rodrigues, Os vilancicos. O vilancico galego nos séculos XVII e XVIII, Lisboa, Seara
Nova, 1930.
Lorenzo, Ramón, La traducción gallega de la Crónica General y de la Crónica de Castilla, vol. 2,

Ourense, Instituto de Estudios Orensanos Padre Feijoo, 1975–1977.
Monteagudo, Henrique, En cadea sen prijon. Cancioneiro de Afonso Paez. Poesía galega postro-
badoresca (1380–1430 ca.), Santiago de Compostela, Xunta de Galicia, 2013.
Saco y Arce, Juan Antonio, Gramática gallega, Lugo, Imprenta de Soto Freire, 1868.
Souto Cabo, José António, A História de Don Servando, Santiago de Compostela, Cabido da
S.A.M.I. Catedral/Seminario de Estudos Galegos, 2007.
TILG = Santamarina, Antón (dir.), Tesouro informatizado da lingua galega, Santiago de Compos-
tela, Instituto da Lingua Galega <http://ilg.usc.es/TILG/> [última consulta: 15. 09. 2015].
TMILG = Varela Barreiro, Xavier (dir.), Tesouro medieval informatizado da lingua galega, Santia-
go de Compostela, Instituto da Lingua Galega <http://ilg.usc.es/tmilg> [última consulta:
15. 09. 2015].
Vasconcelos, José Leite de, Esquisse d’une dialectologie portugaise, Lisboa, Instituto Nacional
de Investigação Científica/Centro de Linguística da Universidade de Lisboa, 31987 (Paris,
Université, 1901).
Maria Francisca Xavier
O CIPM – Corpus Informatizado do
Português Medieval, fonte de um
Dicionário exaustivo
1 Introdução
Em finais de 1992 um grupo de linguistas da Universidade Nova de Lisboa
estabeleceu como objetivo desenvolver estudos linguísticos diacrónicos, os quais
viriam a ser complementados por um Dicionário e uma Gramática, tendo por base
corpora textuais dos primeiros tempos da História da Língua Portuguesa. A
preparação para o desenvolvimento destes projetos iniciou-se com a decisão sobre
a necessidade de proceder ao levantamento de edições fiáveis de textos medievais
que pudessem servir de fonte para a análise gramatical e lexical programada pela
equipa. Começou-se então, já em 1993, a seleção e digitalização de uma coleção de
textos antigos representativos do Português Medieval (PM) —séculos XII a XVI—,
a que se deu o nome de CIPM – Corpus Informatizado do Português Medieval.
Para a constituição do CIPM foram identificadas e listadas, por ordem crono-
lógica, as edições existentes na altura, as quais estavam apenas publicadas em
papel. Deu-se assim prioridade à digitalização dos textos portugueses e galegos
mais antigos, então conhecidos: Notícia de Torto (1214?); Testamento de D. Afon-
so II (1214); Documentos Portugueses da Chancelaria de D. Afonso III (1255–1279);
Foro Real (1280?); Tempos dos Preitos (1280?); Textos Notariais da Galiza e do
Noroeste de Portugal (1262–1300). Este primeiro corpus de textos digitalizados do
século XIII permitiu de imediato constituir-se como fonte primária para os come-
ços da desejada investigação linguística diacrónica do Português programada
pela equipa. Através de uma comunicação ao Congresso Nacional da Associação
Portuguesa de Linguística foram apresentados os motivos e os objetivos da criação
e do desenvolvimento previsto do CIPM (cf. Xavier/Brocardo/Vicente 1994). Ini-
ciou-se, então, a elaboração de um dicionário de verbos do corpus textual já
informatizado. Os critérios estabelecidos para o dicionário de verbos foram publi-
cados em artigo por Xavier/Vicente (1997). Foi também defendida a primeira
dissertação de Mestrado com dados do corpus do século XIII (cf. Fiéis 1997).
Lançou-se o primeiro Dicionário de Verbos Portugueses do Século 13 (cf. Xavier/
Vicente/Crispim 1999).
Maria Francisca Xavier: Universidade Nova de Lisboa

138 Maria Francisca Xavier
A divulgação da constituição do CIPM e dos projetos da equipa que visavam o

seu alargamento e estudo tiveram como consequência feliz e imediata o conheci-
mento de outras edições de textos portugueses antigos, já digitalizadas, que
vinham sendo publicadas apenas em dissertações académicas. As primeiras edi-
ções digitalizadas, oferecidas pelas suas editoras para integrar o CIPM, após este
ter sido divulgado, datam de 1992: Foros de Garvão (1267–1280) e Dos Costumes de
Santarém (1294).
O desenvolvimento do CIPM, incluindo progressivamente textos até ao início
do século XVI, acompanhado de algumas ferramentas informáticas, foi permitin-
do obter resultados da análise de dados históricos que foram sendo publicados,
por membros da equipa, em teses de Doutoramento e de Mestrado, em particular
por: Fiéis (2003); Silva (2003); Oliveira (2008) e em comunicações e artigos, de
que se salientam os seguintes: Xavier et al. (1999); Xavier/Vicente/Crispim
(1999), Xavier (2008); Fiéis/Lobo (2011); Xavier/Crispim (2012); Fiéis/Madeira
(2013).
Iniciada em 2001, a disponibilização na Internet de textos integrais do CIPM
tem possibilitado a sua utilização também por investigadores de diversos países
de vários continentes. O CIPM tem tido, certamente, um papel relevante por
constituir uma fonte valiosa e facilmente acessível para estudiosos de diferentes
temáticas da Linguística, da História, da Cultura e da Literatura medievais portu-
guesas.
Na secção seguinte descreve-se a constituição do CIPM (cf. 2) bem como as
decisões tomadas relativamente aos diferentes critérios de transcrição das edições
selecionadas para integrar o corpus textual (cf. 2.1). Em 2.2 relata-se o resultado da
utilização em textos do CIPM de três ferramentas informáticas: etiquetador mor-
fossintático, analisador sintático e extrator de expressões relevantes ou multipa-
lavras. Na secção 3 apresenta-se o projeto em curso de um dicionário exaustivo do
PM, a metodologia de elaboração (cf. 3.1), bem como a ilustração de alguns
problemas e respetivas soluções ilustradas por entradas já realizadas (cf. 3.2). Em
4 aponta-se para o desenvolvimento dos vários projetos e o aprofundamento de
colaborações indispensáveis.
2 O CIPM e as Ferramentas Informáticas

O CIPM é constituído por um conjunto de textos medievais de diferentes temáticas
e tipos, incluindo fontes literárias e não literárias: cantigas, documentos nota-
riais, foros, chancelarias, crónicas, textos didáticos e religiosos, vidas de santos,
produzidos entre os séculos XII e XVI e provenientes de diversas regiões da Galiza
e de Portugal. Este corpus textual informatizado contém muitos dos textos portu-
O CIPM – Corpus Informatizado do Português Medieval 139
gueses mais antigos, conhecidos e transcritos nos nossos dias (cf. Xavier/Crispim
2003).1
O maior problema que a equipa teve de enfrentar e resolver logo no início da
constituição do CIPM consistiu no facto de as edições a integrar o corpus, embora
fossem todas elaboradas por especialistas, apresentarem diferentes critérios de
transcrição dos textos manuscritos e, consequentemente, diferentes sinais de
notação, os quais levantaram alguns obstáculos à digitalização, bem como à
utilização de ferramentas informáticas para extração de dados dos textos. Acresce
que os editores são de formações diversas: uns são linguistas, outros historiado-
res e outros estudiosos de literatura. Por esta razão, realizam edições com diferen-
tes objetivos, destinando-as a públicos diferenciados. Umas edições resultam
muito conservadoras, sendo os textos transcritos completamente fiéis aos textos
manuscritos, estas são destinadas a especialistas, em particular linguistas; outras
são modernizadoras, nas quais o editor intervém, por exemplo, atualizando a
grafia, separando palavras e introduzindo pontuação moderna, visando facultar
uma leitura acessível a um público mais vasto.
Deste modo, embora sejam respeitadas as decisões dos editores ao preparar
os textos para incluir no CIPM, revelou-se necessário proceder à redução dos
sinais de notação de algumas edições mais conservadoras. Considerou-se impres-
cindível, por um lado, obter alguma uniformização das transcrições, por outro,
facilitar a utilização de um primeiro sistema de concordâncias, oferecido por
Stephen Parkinson, o OCP – Oxford Concordance Program, assim como de outras
ferramentas informáticas, nomeadamente um etiquetador morfossintático, um
analisador sintático e um extrator de expressões relevantes. Estas haviam sido
desenvolvidas para o Português Contemporâneo e adaptadas para o Português
Medieval pelo grupo de investigação de Tecnologias de Linguagem Natural da
Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa (Cf. Xavier et
al. 1999; Xavier/Vicente/Crispim 1999; Rocio et al. 2003).
No entanto, a utilização pelos membros das equipas dos corpora de textos do
CIPM associados a um ágil sistema de concordâncias mais recente do que o
anterior tem sido o método mais produtivo para facilitar e possibilitar a extração
dos dados necessários para a concretização de diferentes projetos de investiga-
ção.
1 A maior parte dos textos do CIPM encontra-se integralmente acessível em: http://cipm.fcsh.
unl.pt.
2.1 Anotações do CIPM
Os textos a incluir no CIPM são identificados por um conjunto de Referências e

Comentários. Para cada texto é elaborado um relatório em que se indica a
eventual intervenção do editor nas maiúsculas/minúsculas ou na separação de
palavras e na pontuação. São também descritas substituições de sinais de nota-
ção de acordo com as Normas de Transcrição do CIPM que tenham sido aplicadas
aos textos.
2.1.1 Referências e Comentários dos textos
As Referências de cada texto fazem parte da lista seguinte: Texto; Século; Data;
Região (província); Lugar (proveniência do texto); Notário/Autor; Documento e
nº do texto; Livro/Parte; Título/Capítulo; Lei. Quando a informação é duvidosa, é
seguida de ponto de interrogação ou apresentam-se duas alternativas, por exem-
plo: Século: 13?; Século: 13/14; Data: 1214?; Lugar: Guarda?
Os Comentários existentes na edição são transcritos entre (( )), por exemplo:
((Assunto: Carta de foro de Telões de Aguiar)) assunto

((Livro I, fl. 9r AB)) localização do texto
((D 1255 07 10)) data completa do texto
((Costumes de Garvão comunicados de Alcácer)) título
((L001)) linha do manuscrito
((P001)) página
((a)) divisões internas do texto
Sempre que uma palavra esteja partida por uma referência ou comentário no
texto editado, fonte do CIPM, a referência ou comentário encontra-se no texto
integrado no CIPM a seguir à palavra e esta mantém-se inteira antes da referência
ou comentário, por exemplo: mã((L003))do → mãdo ((L003)).
2.1.2 Critérios de Transcrição dos Textos e Sinais de Notação
No sentido de respeitar os direitos de autor dos editores, as informações sobre o

aparato crítico das edições —textos introdutórios e notas— não são introduzidas
no CIPM juntamente com os textos informatizados. No entanto, a inclusão no
CIPM de textos editados respeita as Normas de Transcrição seguidas pelos seus
editores. É, portanto, imprescindível fazer a leitura atenta daquelas informações
para se poder interpretar notações e desambiguar aquelas que no CIPM podem
corresponder a sinais diferentes. Por exemplo, numa mesma edição, parênteses

curvos podem indicar intervenção de outra mão no manuscrito ou intervenção do
editor, substituindo ou permutando grafemas. Nestes casos, os parênteses curvos
são substituídos por sinais diferentes de um conjunto de Normas delineadas pela
equipa para os textos informatizados do CIPM, com o intuito de se obter alguma
uniformização dos sinais de notação. Assim, foram incluídos neste conjunto de
Normas os sinais mais comuns que são utilizados pelos editores, dos quais se
apresentam alguns exemplos a seguir:2
(i) Desenvolvimento das abreviaturas transcreve-se entre ( ). Ex. m(orador).

(ii) Desenvolvimento duvidoso marcado no fim da palavra e sem espaço, por (?). Ex.
fr(atre)s(?).
(iii) Não desenvolvimento marcado por (—?). Ex. Eo(—?)
(iv) Reconstituições de partes ilegíveis, palavras ou grafemas raspados ou tingidos por
acidente do suporte. Ex. [Co]noç[u]da.
(v) Preenchimento de lacunas ou acrescentos correspondentes a grafemas ou palavras.
Ex. podero[so]; [por]
(vi) Leitura duvidosa de palavras ou símbolos assinalada imediatamente a seguir à palav-
ra ou símbolo por /?/. Ex. nahu~a/?/.
(vii) Palavra com erro não corrigido ou forma estranha seguida de /sic/. Ex. erda/sic/
(viii) Grafemas ou palavras riscados figuram entre { }. Ex. {M(a)r(avedi)}
(ix) Pontuação: caldeirão → $
2.2 Ferramentas Informáticas e o CIPM
Algumas ferramentas informáticas têm sido implementadas, adaptadas e experi-

mentadas para serem utilizadas nos textos do CIPM (cf. Xavier/Crispim/Vicente
1999). Porém, no CIPM online existe apenas um sistema de busca de palavras em
todo o corpus textual. Este devolve uma lista de textos em que a palavra
pesquisada se encontra e permite, ao clicar sobre cada um dos textos da lista,
encontrar facilmente a palavra que surge colorida no(s) contexto(s) em que
ocorre. No CIPM online é também possível acionar instruções que se encontram
no rodapé de cada texto e que possibilitam esconder comentários, colorir
comentários e/ou abreviaturas e combinar diacríticos. Uma falta importante, que
se espera venha a ser ultrapassada brevemente, é a não existência de um sistema
de concordâncias acoplado ao CIPM online que possibilite a extração de listas
ordenadas das ocorrências em contexto de todas as formas gráficas e que
2 A lista completa das Normas de Transcrição dos textos do CIPM encontra-se disponível em/
/http//cipm.fcsh.unl.pt.
permita ainda, através de um duplo clique, o acesso aos textos completos em

que aquelas se encontram. É contudo possível copiar os textos na íntegra para
qualquer computador e utilizá-los com quaisquer sistemas de concordâncias ou
outros.
2.2.1 Três Ferramentas Informáticas
Em colaboração com investigadores computacionais tem-se procurado adaptar e

utilizar diferentes ferramentas que possam facilitar a preparação, extração e
análise dos dados necessários para as investigações sobre o Português Medieval.
Começou-se por um etiquetador morfossintático, a que se seguiu um analisador
sintático e um sistema de extração de expressões relevantes ou multipalavras. O
etiquetador morfossintáctico, preparado por Nuno Marques e Gabriel Pereira
Lopes, utiliza uma rede neuronal e um dicionário. Este sistema foi escolhido por
constituir uma das técnicas mais eficientes na aprendizagem a partir de um
corpus de treino muito reduzido, com apenas 10.000 palavras classificadas ma-
nualmente (cf. Xavier 1999 et al.). Trata-se de um trabalho de difícil execução que
exige pessoas com formação específica, cuja preparação é morosa. A análise
morfológica dos corpora de treino implica um bom conhecimento tanto do léxico
como da estrutura das frases e os textos antigos não são fáceis de analisar. A par
de diferentes ordens de constituintes, algumas atualmente inexistentes em Portu-
guês, e da existência de muitos constituintes pesados com vários apostos e
coordenações, muitos textos do CIPM conservam a variação gráfica e não têm
pontuação moderna, são características que dificultam seriamente a análise e o
correspondente tratamento computacional.
A constituição de vários corpora de treino etiquetados manualmente para
fazer correr a rede neuronal permitiu extrair automaticamente os primeiros dicio-
nários. Estes têm a vantagem de poderem ser enriquecidos tanto automaticamen-
te como manualmente e revelam-se extremamente importantes para o sucesso do
processo de etiquetagem automática. Verifica-se, compreensivelmente, que quan-
to maior for o dicionário melhor será o resultado da etiquetagem. À rede neuronal
cabe, no entanto, a tarefa de colocar a etiqueta certa e de tomar decisões nos
casos de ambiguidade. Vinte e quatro etiquetas de classes de palavra constituem
o conjunto que o etiquetador morfossintático distribui pelas palavras dos textos
portugueses medievais. Todavia, o desempenho do etiquetador na análise mor-
fossintática do PM revela-se variável entre 81 % e 93,5 %, dependendo a variação
da percentagem de acerto, essencialmente, de três fatores: a eficiência do treino
da rede neuronal, a adequação do dicionário ao corpus textual e o volume de
palavras ambíguas existente nos textos.
Observe-se um excerto da Notícia de Torto (1214?) etiquetado automaticamen-

te. Após a etiquetagem, este excerto continha 12 etiquetas erradas, que foram
corrigidas manualmente.
<pf 813> D(e)_P noticia_NC d(e)_P torto_NC que_C fece(ru~)_V a_P Laure~ci(us)_NP Ferna~
diz_NP por_P plazo_NC qve_C fec(e)_V Go~cauo_NP Ramiriz_NP antre_P suos_POS fi-
lios_NC e_C Loure~zo_NP Ferrna~diz_NP q(u)ale_QU podedes_V saber_VINF : e_C oue_V
au(e)r_NC , d(e)_P erdad(e)_NC e_C [[dau(e)r]]DE=_P=HAVER_NC , ta~to_PI q(u)ome_C
uno_PI d(e)_P suos_POS filios_NC , [daq(u)a~to]]DE=_P=AQUANTO_QU podes(e~)_V au(e)
r_VINF d(e)_P bona_NC d(e)_P seuo_POS pater_NC ; e_C [[fiolios]]FIOU=_V=LHE_P-
CL=OS_PCL seu_POS pater_NC e_C sua_POS mater_NC . E_C d(e)pois_ADV fecer(u~)_V
plazo_NC nouo_A e_C co~ue~_V uos_PCL a_P saber_VINF q(u)ale_QU : <pf 814> in_P
ille_PES seem_V taes_PD firmam(en)tos_NC q(u)ales_QU podedes_V saber_VINF
As palavras identificadas com a etiqueta morfossintática correspondente consti-

tuem, só por si, um auxílio considerável para facilitar a recolha de dados para os
estudos linguísticos. Aquelas palavras podem ser consultadas em listagens glo-
bais ou por texto, e dentro destas por ordem alfabética ou por etiquetas. O texto
etiquetado fica ainda apto a ser submetido a análise sintática. Realmente, as
experiências de análise sintática automática anteriormente realizadas sobre tex-
tos portugueses atuais revelaram que os resultados obtidos pelo analisador sintá-
tico são significativamente melhores quando o texto de input se encontra previa-
mento etiquetado. Deste modo, experimentou-se sobre texto medieval etiquetado
um analisador sintático probabilístico, baseado em regras, o qual tinha sido
concebido para analisar textos escritos em Português Contemporâneo (PC) (cf.
Rocio et al. 2003). Numa primeira fase, a preparação de uma gramática para o PM
revelou-se desnecessária, uma vez que a maioria das frases poderia ser analisada
pelas regras da gramática concebida para o PC. De facto, os métodos desenvolvi-
dos e aplicados assentam em análise lexical não determinística e em análise
sintática parcial, para poder satisfazer o objetivo de permitir a utilização do
sistema em textos de qualquer língua, de qualquer estado de língua ou de
qualquer variedade linguística. Utilizou-se então o analisador sintático apetrecha-
do com uma gramática do Português Contemporâneo em textos escritos em PM.
Este analisador sintático apresenta três níveis hierarquisados. Em primeiro lugar,
são identificadas por meio de um sistema de estados finitos estruturas de nomes
próprios compostos, datas, números escritos por extenso, locuções preposicionais
e adverbiais. Em segundo lugar, é feita a análise nos principais constituintes de
frase: sintagmas nominais, verbais, preposicionais, adjectivais e adverbiais. E,
finalmente, o sistema utiliza o formalismo de uma gramática que analisa as frases
que envolvem determinados movimentos de constituintes, nomeadamente consti-
tuintes interrogativos, relativos e topicalizados. Este sistema de análise sintática é
uma ferramenta de dedução e pode ser utilizado para diagnosticar causas de
problemas, o que permite tentar soluções melhores. Por exemplo, a frase relativa
« que este scripto uire~ y oyre~ » foi primeiramente mal analisada devido a falta de
informação sobre a morfologia flexional verbal, o que levou a que o sintagma
nominal SNsn[este scripto] fosse considerado sujeito de [uire~ y oyre~], em vez de
objecto direto posicionado à esquerda do verbo, construção que é frequente no
PM. A introdução da flexão verbal veio então permitir uma análise bastante
melhor daquela frase:
<que> < este scripto uire~ y oyre~>

[pronrelque[f [SNsn(nucleo(det(este)), scripto)], verbo([uire~,oyre~],activa)]].
Também a sequência « Aras Dias, filo de Diago La'á », que contém um aposto, foi
inicialmente mal analisada como sendo a coordenação de dois sintagmas nomi-
nais. A deteção deste problema permitiu que se procurasse o modo de obter uma
análise mais satisfatória. Procedeu-se à neutralização da vírgula por meio de
parênteses duplos —« Aras Dias ((,)) filo de Diago La'á »—, o que, de facto,
resultou. A análise sintática obtida automaticamente foi então satisfatória, embo-
ra a estrutura de aposição não esteja ainda completamente conseguida:
< Aras Diaz > *** *** < filo de Diago La'á >
[SNsn (name(det([ ])),[Aras, Diaz])] ***
*** [SNsn(nucleo(det([ ])),filo),[SPsp(de,[SNsn(name(det([ ])),[Diago, La'á])])]]
Os resultados da aplicação deste analisador sintático a textos portugueses dos

séculos XIII e XIV foram considerados bem sucedidos pelos investigadores compu-
tacionais (Rocio et al. 2003), são, contudo, ainda insatisfatórios do ponto de vista
da sua utilidade para a investigação linguística. Os problemas encontrados deri-
vam, por um lado, da falta de regras da gramática para analisar algumas constru-
ções próprias dos textos em PM, que não encontramos nos textos atuais, por outro
lado, de limitações do léxico ou de etiquetagem incorreta ou insuficiente. É no
sentido de resolver estes problemas que deverá prosseguir este trabalho. Entre-
tanto, a construção de um banco sintático para o Português Medieval (PM) tornou-
se, para esta equipa, um objetivo a médio prazo tendo em conta a multiplicidade
de questões a resolver antes de se conseguir uma eficiência verdadeiramente
económica.
Paralelamente, um sistema de extração totalmente automática de expressões
(estatisticamente) relevantes ou unidades multipalavra, preparado por Joaquim
Ferreira da Silva e Gabriel Pereira Lopes, foi aplicado a um texto extenso do CIPM,
com cerca de 400.000 palavras – Crónica Geral de Espanha (CGE).3 Observem-se
3 Cf. Silva et al. (1999).

alguns exemplos de sequências de expressões que foram extraídas em sucessão

da Crónica Geral de Espanha: ãno da ẽcarnaçõ; ãno da ẽcarnaçon; ãno da
encarnaçõ; anno da encarnaçom; anno da encarnaçom do Nosso Senhor Jhesu;
encarnaçõ de Nosso Senhor Jhesu Cristo; encarnaçõ do Nosso Senhor Jhesu Cristo;
encarnaçon de Nosso Senhor Jhesu Cristo; encarnaçon do Nosso Senhor Jhesu
Cristo.
Verifica-se, nos exemplos acima, que algumas sequências têm apenas grafias
diferentes em um ou dois dos seus elementos. É de salientar que o problema da
variação gráfica conservada nos textos portugueses medievais do CIPM é facil-
mente avaliável através das listagens extraídas por este sistema, o que possibilita
a compreensão das variantes gráficas em lexias complexas. Por exemplo, a
expressão particularmente longa «anno da encarnaçon do Nosso Senhor Jhesu
Cristo» é construída em sucessões de sequências menores, tantas vezes repetidas
quantas as variantes encontradas. A observação das listagens mostra ainda que se
formam conjuntos de expressões multipalavra, que para além de serem interes-
santes do ponto de vista do léxico também são úteis para o estudo dos nomes
próprios dos textos medievais. Observe-se a amostragem seguinte de nomes
próprios complexos:
Reymõ de Barcellona Garcia Fernandez

conde de Barcellona Garcia Fernandez de Castella
conde dõ Reymõ conde dõ Garcia Fernandez
conde dõ Reymõ de Barcellona conde dom Garcia Fernandez
conde dom Reymõ de Barcellona conde dom Garcia Fernandez de Castella
As listagens de expressões que são obtidas de forma totalmente automática,

deixando apenas correr o sistema sobre o corpus selecionado, facilitam conside-
ravelmente um primeiro levantamento para preparação de índices, glossários,
terminologias e dicionários. Outra utilização possível deste sistema consiste na
extração de sequências de etiquetas morfossintáticas a partir de textos etiqueta-
dos, o que constitui informação importante para a perceção das regras da gramá-
tica necessárias, por exemplo, para o analisador sintático. O sistema de extração
automática permite ainda obter apenas partes de palavras —inícios e fins—, o que
pode ser utilizado para identificar prefixos e sufixos ou mesmo regularidades de
sequências de grafemas.
3 Um dicionário exaustivo de um corpus textual

do PM
Um subcorpus de textos do CIPM datados entre o século XII e o século XVI

constitui a fonte primária para a elaboração de um Dicionário da Língua Portugue-
sa Medieval.4 Este Dicionário contem todos os vocábulos e respetivas variantes
gráficas e morfológicas existentes no corpus textual.5 É de salientar, no entanto,
que a decisão inovadora de tratar exaustivamente as formas gráficas dos vocábu-
los constantes num corpus textual de um período histórico e culturalmente
longínquo, o qual incorpora textos editados com base em aparatos críticos dife-
rentes, adotando anotações e sinais distintos, se revelou uma tarefa bastante
complexa. Para além de os textos medievais apresentarem construções frásicas e
pontuação diferentes das atuais,6 a diversidade temática, os usos metafóricos e as
palavras desconhecidas, tanto dos membros da equipa como dos dicionários
consultados, exigiram e ainda obrigam, ao rever os artigos, extensas pesquisas
bibliográficas e consultas a especialistas, nomeadamente historiadores, estudio-
sos de literatura, latinistas e arabistas. Problemáticas são ainda, em muitos casos,
a forma das vedetas quando há múltiplas variantes de um vocábulo, a identifica-
ção de locuções e expressões nominais, verbais e adjetivais, a seleção das abona-
ções a incluir em cada artigo do Dicionário e, também, os confrontos entre artigos
(cf. Xavier/Crispim 2013).
4 Têm vindo a ser incorporados no CIPM mais textos pelo que este Dicionário tem como fonte
textual um subcorpussibcorpus do atual CIPM.
5 A dimensão do subcorpus do CIPM constituído para fonte do Dicionário é, em número de
palavras, a seguinte:
Nº. de palavras
(i) Corpus textual dos sécs. 12, 13 e 13/14 612.613
(ii) Corpus Textual dos sécs. 14, 15 e 16 2.735.303
Total 3.347.916
As referências das fontes textuais apresentam-se no final deste texto.
O projeto deste Dicionário é coordenado por João Malaca Casteleiro da Academia de Ciências de
Lisboa, por Maria de Lourdes Crispim e por mim própria, ambas investigadoras do Centro de
Linguística da Universidade Nova de Lisboa. Vários bolseiros da Fundação para a Ciência e a
Tecnologia elaboraram a primeira versão das fichas lexicográficas. Na atual fase de revisão dos
verbetes, a equipa conta com M. Alexandra Fiéis, Investigadora do CLUNL, Miguel Magalhães e
Sandro Dias, Bolseiros da FCT, enquanto, entre 2005 e 2010, a equipa de elaboração dos artigos
era constituída por mais quatro bolseiros: João Loureiro, M. de Fátima Martins, Raquel Oliveira e
Ricardo Duarte, também financiados pela FCT.
6 Xavier/Silva/Fiéis (2002).
Nas secções seguintes, apresenta-se a metodologia seguida, acompanhada de

uma breve reflexão sobre os critérios estabelecidos e as decisões tomadas para a
elaboração do Dicionário, cujo objetivo último visa facilitar a sua consulta por um
público diversificado, incluindo investigadores e estudantes, sem contudo serem
desvirtuados o rigor e a qualidade da informação a disponibilizar nos artigos do
Dicionário.
3.1 Metodologia
Três edições do DVPM – Dicionário de Verbos do Português Medieval, coordena-

das por Xavier/Vicente/Crispim 1999; 2002; 2003a. . . online, permitiram testar e
afinar a metodologia para a elaboração de dicionários tendo por base os textos do
CIPM, o que facilitou avançar com a elaboração do DLPM – Dicionário da Língua
Portuguesa Medieval.
Tendo por base o corpus de textos selecionados dos séculos XII a XVI foram
extraídas as listagens de palavras por ordem alfabética; agruparam-se as varian-
tes gráficas e morfológicas e realizaram-se as respetivas concordâncias com
15 palavras à esquerda e à direita de cada palavra a descrever. As abonações
extraídas pelas concordâncias incluem a sigla correspondente ao texto-fonte
assim como a data deste, quando esta é conhecida, ou na ausência desta o século
a que pertence. Uma vez dispondo destes dados, assim como de diversos dicioná-
rios, nomeadamente etimológicos, de Espanhol, de Francês, de Galego, de Latim,
e de Português, tornou-se possível a preparação dos artigos do DLPM.
À semelhança dos artigos do DVPM os artigos do DLPM apresentam: vedeta;
classificação gramatical; etimologia ou formação morfológica; aceção/ões; abo-
nação/ões; variantes quando existem; remissões para outros artigos quando
existem vedetas de variantes.
A informação sobre a origem da palavra ou a sua formação, que se segue à
vedeta e respetiva classificação gramatical, tem sido muito útil, em particular,
para a interpretação de palavras inexistentes atualmente e que ocorrem nos
textos medievais em contextos muito pouco claros, por exemplo:
ESPIR v. (Do lat. expedìre). Despir [séc. 15 DSG] E el fez todolos outros sair da
camara e espio-se entom e deu-lhe a estamenha e rogou-lhe por a fé que devia a
Deus que o nom dissesse a ninguém. Cf. despir.
As aceções das palavras correspondem, sempre que possível, a homónimos
modernos, a sinónimos ou curtas descrições. As abonações das palavras são
extraídas a partir de concordâncias e representam as atestações mais antigas e as
últimas encontradas nos textos do CIPM, assim como ainda outras que possam
ajudar a clarificar o significado das palavras. As variantes gráficas de um vocábu-
lo constituem artigos quando são alfabeticamente distantes e remetem umas para

as outras por Cf., indicado no final dos artigos. Por exemplo: o verbo atual
imaginar Cf. emaginar, esmaginar; o substantivo doçura Cf. dolçor, dolçura, duçu-
ra, dulcidõ, dulçor, dulçura.
3.2 O levantamento exaustivo das palavras do CIPM
O grande número de variantes gráficas existentes nos textos antigos obrigou a

estabelecer um conjunto de Regras de Conversão de Grafemas que operam unica-
mente na forma das vedetas. São, contudo, introduzidas nos artigos do DLPM
todas as variantes gráficas e morfológicas que se encontram atestadas no corpus
textual. A palavra defesa é um bom exemplo para ilustrar variantes gráficas e
morfológicas:
defesa s. f. (Do lat. dēfensa-). (Var. defemsa, defemsã, defemsão, defemsaom,
defemsõ, defemsom, defemssam, defemssão, defemssaõ, defemssom, defensa,
defensam, defensaõ, defensõ, defensom, defenson, defensyõ, defenssa, defens-
sões, defenssom, defesa, defessa, defessam, deffemssa, deffemsam deffemsaom,
deffemsom, deffensiõ, deffensõ, deffensoes, deffensões, deffensom, deffensyoes,
deffensyõ, deffesa, deffẽsoes, deffessa). Cf. defendimento, desfensão, difinde-
mento.
Considera-se que a vedeta de um artigo constitui uma forma abstrata que
identifica a palavra definida e é tão próxima quanto possível da forma atual.
Assim, a grafia das vedetas obedece a critérios de dois tipos: (i) linguísticos, os
quais incluem regras de substituição e supressão sistemática de grafemas, quan-
do não ocorre nenhuma forma idêntica à atual; (ii) de funcionalidade, os quais
procuram alguma regularização de variantes gráficas na constituição das vede-
tas, reduzindo o número de artigos da mesma palavra e aproximando a grafia das
vedetas da grafia atual. Ilustram-se algumas regras a seguir:7
<ç> antes de <e> ou → <c>

<s> intervocálico com valor de sibilante surda → <ss>
<ll> ou <l> com valor de líquida palatal → <lh>
<n>, <nn> ou <gn> <~h> com valor de nasal palatal → <nh> (alynnador → alinhador)
<r> intervocálico com valor de vibrante múltipla → <rr>
 com valor consonântico → <v>
7 O conjunto completo das Regras de Conversão de Grafemas encontra-se em/ /http//:cipm.fcsh.

unl.pt.
 com valor consonântico → , quando o étimo e a forma moderna tiverem b (uure →
ubre, do lat. ubere, port. actual úbere). <gu> antes de <a>, <o> → <g> (acesseguado →
acessegado)
<v> com valor vocálico → ;
<~> ou <m> representando a nasalação da vogal antes de consoante não labial → <n>
<n>, <m> ou <~> representando a nasalação do ditongo → <~> (absolviçaom → absolvição)
-grafemas duplos, iniciais ou internos, com o mesmo valor fonético dos correspondentes
simples → grafemas simples, exemplos: – <ss> em posição inicial de palavra → <s> (sse →
se); <ss> em ataque de sílaba interna depois de consoante → <s> (uerssa → uersa); <rr>
intervocálico com valor de vibrante simples → <r> (barroes → barões).
3.2.1 Variantes gráficas e fonéticas
Se é verdade que as Regras de Conversão de Grafemas cumprem o objetivo de

agrupar as variantes graficamente semelhantes, reduzindo, assim, o número de
artigos de uma palavra, também é verdade que a alteração da forma gráfica
atestada, representada pela vedeta, nem sempre facilitará a procura dessa forma.
Por exemplo, com base nas seis variantes atestadas da palavra atual bezerro
(beçeros, beçerros, beserros bezero, bezerro, veserra) deram entrada no DLPM dois
artigos, um com a vedeta bezerro, e o outro veserro, por serem alfabeticamente
distantes, mas também por revelarem a alternância fonética —[b] / [v]—, ainda hoje
existente em Portugal:
bezerro s. (Talvez do ibér. *ibicirru). Bezerro [séc. 13 CSM031] Pois creceu
aquel bezerro e foi almall' arrizado, / [1350?a ssa moller o vilão diss': « Irei cras a
mercado [1350? PP] teemos por bẽ que os bispos ponhã homẽs bõõs enas sazõ que
conuẽ e das cousas de que o deuẽ filhar e nõ das outras assi como dos fruitos dos
gaados (. . .) filhando vacas por beçerros e ouelhas por cordeyros e porcos por
leitões. [1488 S] Vitulus, bezero por que foy sacrificado pello nosso pecado. » (Var.
beçeros, beçerros, beserros bezero, bezerro). Cf. veserro.
veserro s. f. Bezerro [1414 HGP042] Item me deue Roy Lourenço, arçipreste de
Narla et de Parrega, seseẽta mrs de moneda vella et hũa vaca cõ hũa veserra que
ten de mjn en guarda et mays o pan et djneyros deste Agosto et anno en que
estamos. Cf. bezerro.
Embora os critérios estabelecidos e seguidos na elaboração dos artigos sejam
linguisticamente motivados, resta a dúvida sobre se alguns utilizadores do DLPM
não irão ter dificuldade em encontrar formas gráficas estranhas, como por exem-
plo beçeros, incluído no artigo de bezerro. Na secção seguinte apresentam-se as
decisões tomadas para facilitar a procura de variantes morfológicas e gráficas.
3.2.2 Variantes morfológicas
As vedetas de variantes morfológicas confrontam entre si e também com even-

tuais vedetas de variantes gráficas. As primeiras são consideradas palavras
sinónimas diferentes, porque divergem na sua etimologia ou formação, sendo
descritas no DLPM em artigos completos; as vedetas de variantes gráficas são
apresentadas em artigos reduzidos, sem etimologia ou formação e sem aceção,
remetendo para o artigo completo da vedeta principal assinalada com + alceado.
Os artigos completos incluem todas as informações previstas, por exemplo:
duvidança s. f. (Do lat. dubitantia). Dúvida [séc. 14 LM] he por fazerem
espertar o porco e que, ante que os caães venham a achar, que ante senta que os
homes estam por aquelle lugar e que ajam duvidança de ir por alli e que, por
aquella duvidança que assi ouver, tome en vontade sair ante pollas armadas en que
non ouve nenhum, ca de ir por onde estam os que son de vozaria. Cf. dolta, dovida,
dovidança, dubda, dubea, duda dulda, duldança, dulta, dultança, duvida.
duvida s. f. (Regr. de duvidar). Dúvida [1269 TOX011] & por isto fosse mais
firme e non podesse uí√r en duuida nos de suso ditos rogamos áos Alcaldes de Auis
que dessen esta carta aberta séélada do séélo do Conçelho pẽdente á Domĩgos
iohanis [1488 S] aqui entemdo dizer das duuydas que açerqua deste sacramento
podem acomteçer. ◊ sem duvida [séc. 13 CSM235] E pois a Monpisler vẽo e tan mal
adoeceu / que quantos fisicos eran, cada hũu ben creeu / que sen duvida mort' era
[séc. 13/14 VS4] e os que te veem e buscam cõ puro coraçom achan-te sem duvida
ca tu senpre stas com hos humildosos e dereytos de coraçom. [1453? LTV] E assi he
çerto E he sem duuida boom costume (Var. duuida, duuída, duujda, duuyda,
duvida, duvyda). Cf. dolta, dovida, dovidança, dubda, dubea, duda, dulda,
duldança, dulta, dultança, duvidança.
Os artigos reduzidos não incluem nem etimologia nem aceção, porque reme-
tem para o artigo assinalado como principal, incluem, no entanro, as suas
variantes gráficas e os confrontos para as variantes morfológicas e gráficas que
constituem vedetas, como se vê no exemplo seguinte:
dovida s. f. [1350? PP] Outrossy preytos mayores todos que acaecerẽ ena Sãta
Jgreia a elle os deuẽ enuiar que deliure, assy como quando veer algũa douida
sobrelos artigoos da fe ou algũũs preitos graados. (Var. douida, douvida, douyda).
Cf. dolta, dovidança, dubda, dubea, duda, dulda, duldança, dulta, dultança,
duvida+, duvidança.
A decisão de introduzir artigos reduzidos para variantes alfabeticamente
distantes que confrontam entre si parece ter sido uma decisão acertada, porque
possibilita, por um lado, encontrar facilmente formas gráficas estranhas ao leitor
pouco habituado aos textos antigos que apresentam forte variação gráfica e
morfológica, por outro, introduzir abonações de mais variantes.
4 Uma nota final

É objetivo firme deste projeto continuar o alargamento do CIPM, tanto offline
como online, mediante inclusão de mais textos já editados e de outros que vão
sendo editados. Textos de diferentes regiões e temáticas permitirão futuros
desenvolvimentos dos dicionários em curso, de dicionários de expressões e
locuções, de nomes próprios e outros. Maior diversidade de fontes textuais
primárias possibilitará ainda a diversificação de diversos projetos de investiga-
ção em Linguística, em História e em Cultura, tanto em Portugal como no
estrangeiro. Também a experimentação e utilização de outras ferramentas infor-
máticas para extração e classificação gramatical e temática da informação dos
textos irão prosseguir através de colaborações em curso, em particular, com
investigadores informáticos da Faculdade de Ciências e Tecnologia da Universi-
dade Nova de Lisboa e com os responsáveis do TMILG – Tesouro Medieval
Informatizado da Língua Galega. Através desta colaboração pretende-se disponi-
bilizar conjuntamente o CIPM e o TMILG, dando origem ao CIGPM – Corpus
Informatizado do Galego-Português Medieval. Este possibilitará pesquisas nos
textos galegos e portugueses da bem concebida e funcional base de dados já
existente para o corpus do Galego Medieval. Será, no entanto, mantida a total
autonomia de ambos os corpora, o CIPM continuará a permitir o acesso direto
aos textos, o CIGPM facilitará a extração dos dados dos textos antigos galego-
portugueses.
5 Bibliografia
Fiéis, Maria Alexandra, Clíticos num Corpus do Português do Século 13, Dissertação de Mestrado
em Linguística, FCSH-UNL, 1997.
Fiéis, Maria Alexandra, Ordem de Palavras, Transitividade e Inacusatividade. Reflexão Teórica e
Análise do Português dos Séculos 13 a 15, Tese de Doutoramento em Linguística, FCSH-UNL,
2003.
Fiéis, Alexandra/Lobo, Maria, Propriedades de gerúndios e de infinitivos em português antigo,
in: Selecionados. 26º. Encontro Nacional da APL, Lisboa, APL, 2011, 256–265.
Fiéis, Alexandra/Madeira, Ana, Modals and tense in Contemporary European Portuguese and in
Old Portuguese, in: Labeau, Emmanuelle/Bres, Jacques (edd.) Evolution in Romance Verbal
Systems, Bern, Peter Lang, 2013, 261–284.
Oliveira, Raquel, Temporalidade em Orações Completivas Infinitivas Subcategorizadas por Ver-
bos Perceptivos e Causativos. Análise de um Corpus do Português Medieval, Dissertação de
Mestrado em Ciências da Linguagem, FCSH-UNL, 2008.
Rocio, Vítor, et al., Automated Creation of a Medieval Portuguese Treebank, in: Abeillé, Anne
(ed.), Treebanks. Building and Using Parsed Corpora, Dordrecht, Kluwer Academic Publish-
ers, 2003, 211–227.
Silva, Joaquim Ferreira, et al., Relevant Expressions in Large Corpora, TALN99 Conference,
Toulouse, 1999.
Silva, Maria Cristina Vieira da, A Complementação Infinitiva em Textos Latinos dos Séculos 11 e
12 e Textos Portugueses dos Séculos 13 e 14, Tese de Doutoramento em Linguística, FCSH-
UNL, 2003.
Xavier, Maria Francisca, O Percurso Diacrónico dos Modais e Semimodais em Português e em
Inglês e as suas Gramáticas, in: Lima-Hernandes, Maria Célia, et al. (edd.), A Língua
Portuguesa no Mundo (I SIMELP), São Paulo, FFLCH-USP, 2008. http://www.fflch.usp.br/
eventos/simelp/new/pdf/slp02/01.pdf.
Xavier, Maria Francisca/Brocardo, Maria Teresa/Vicente, Maria da Graça, CIPM – Um Corpus
Informatizado do Português Medieval, in: Actas do 10º. Encontro da APL, Évora, 1994, 599–
612.
Xavier, Maria Francisca/Crispim, Maria de Lourdes, Das Edições Impressas às Versões Digitali-
zadas de Textos Medievais. O Caso do CIPM, in: Castro, Ivo de/Duarte, Inês (edd.), Razões e
Emoção. Miscelânea de Estudos em Homenagem a Maria Helena Mateus, vol. 2, Lisboa,
IN-CM, 2003, 437–448.
Xavier, Maria Francisca/Crispim, Maria de Lourdes, Um olhar sobre os modais dever, haver de e
ter de na história do português, in: Lobo, Tânia, et al. (edd.), ROSAE: linguística histórica,
história das língas e outras histórias, Salvador, UFB, 2012, 389–405.
Xavier, Maria Francisca/Crispim, Maria de Lourdes, Algumas decisões problemáticas sobre
vedetas, variantes e confrontos entre artigos do Dicionário da Língua Portuguesa Medieval,
in: Galvão, Vânia, et al. (org.), IV Simpósio Mundial de Estudos sobre o Português (SIMELP).
Anais Língua portuguesa: ultrapassando fronteiras, unindo culturas, Simpósio 14, Goiânia,
Faculdade de Letras, UFG, 2013, 615–623, http://www.simelp.letras.ufg.br/anais.php.
Xavier, Maria Francisca/Crispim, Maria de Lourdes/Vicente, Graça, A Língua Portuguesa Medie-
val e o Diálogo Homem-Máquina, in: I.H. Faria (ed.), Lindley Cintra. Homenagem ao Mestre e
ao Cidadão. Lisboa, Edições Cosmos/FLUL, 1999, 749–760.
Xavier, Maria Francisca, et al., Utilizações Informáticas de Corpora Textuais Medievais, in:
Marrafa, Palmira/Mota, Maria Antónia (edd.), Linguística Computacional. Investigação Fun-
damental e Aplicações, Lisboa, APL/Colibri, 1999, 347–358.
Xavier, Maria Francisca/Silva, Maria Cristina/Fiéis, Maria Alexandra, Order Alternation in Medie-
val Portuguese, Santa Barbara Portuguese Studies 6 (2002), 307–325.
Xavier, Maria Francisca/Vicente, Graça, A Problemática de um Dicionário de Verbos do Século 13,
in: Brito, A., et al. (edd.), Sentido que a Vida Faz. Estudos para Óscar Lopes, Porto, Campo
das Letras, 1997, 897–904.
Xavier, Maria Francisca/Vicente, Graça/Crispim, Maria de Lourdes (edd.), Dicionário de Verbos
Portugueses do Século 13, Lisboa, CLUNL, 1999.
do Português Medieval – Séculos 12 e 13/14, Lisboa, CLUNL, 2002.
do Português Medieval – Séculos 12 a 16, Lisboa, CLUNL, 2003, http://cipm.fcsh.unl.pt
(= 2003a).
Xavier, Maria Francisca/Vicente, Graça/Crispim, Maria de Lourdes, Velhas Palavras, Novos
Recursos, in: Actas do 18º. Encontro Nacional da Associação Portuguesa de Linguística,
Lisboa, APL, 2003, 873–883 (= 2003b).
6 Referências das Fontes do CIPM

Século 12
DN – 2 Textos Notariais – Finto dos casais de Eligoo; Notícia de haver (2ª. metade do século 12),
in: Martins, Ana Maria (ed.), Documentos Notariais dos Séculos 12 a 16, 2000. Edição
digitalizada, cedida pela editora.
DP – 4 Documentos Privados – Pacto de Gomes Pais e Ramiro Pais (1173?); Carta de foro da
Benfeita; Nomina de Pedro Viegas (1184); Escrito de Paio Soares (2ª. metade do século 12),
in: Souto Cabo, José António (ed.), Nas Origens da Expressão Escrita Galego-Portuguesa.
Documentos do século 12, Braga, Universidade do Minho, 2003. Edição digitalizada, cedida
pelo editor.
Século 13
NT – Notícia de Torto (1214?), in: Cintra, Luís Filipe Lindley, Sobre o mais antigo texto não-literário
português: a Notícia de Torto. Leitura crítica, data, redacção e comentário linguístico,
Boletim de Filologia 31 (1990), 21–77. (Texto crítico, 37–41). Edição digitalizada para o CIPM.
TL e TT – Testamento de D. Afonso II (1214), in: Costa, Pe. Avelino Jesus da (1979), Os mais
Antigos Documentos Escritos em Português, Revista Portuguesa de História 17, 307–321.
(dois manuscritos: Lisboa e Toledo). Edição digitalizada para o CIPM.
CA – 34 Documentos Portugueses da Chancelaria de D. Afonso III (1255–1279), in: Duarte, Luiz
Fagundes, Os Documentos em Português da Chancelaria de D. Afonso III (Edição), Disserta-
ção de Mestrado, FLUL, 1986, 68–295. Edição digitalizada para o CIPM.
HGP – 61 Textos Notariais da Galiza e do Noroeste de Portugal (1262–1300), in: Maia, Clarinda de
Azevedo, História do Galego-Português, Coimbra, INIC, 1986, 19–295. Edição digitalizada
para o CIPM.
DN – 73 Textos Notariais (sem data ou datados entre 1214 e 1300), in: Martins, Ana Maria (ed.)
Documentos Notariais dos Séculos 12 a 16, 2000. Edição digitalizada, cedida pela editora.
CHP – 2 Textos Notariais (1275; 1278), in: Martins, Ana Maria (ed.), Clíticos na História do
Português – Apêndice Documental, vol. 2, Dissertação de Doutoramento, Lisboa, 1994.
Edição digitalizada, cedida pela editora.
FG – 6 Foros de Garvão (1267–1280), in: Garvão, Maria Helena (ed.), Foros de Garvão, Edição e
Estudo Linguístico, Dissertação de Mestrado, Lisboa, FLUL, 1992, 65–99. Edição digitali-
zada, cedida pela editora.
TOX – 21 Textos Notariais (sem data ou datados entre 1269 e 1300), in: Parkinson, Stephen (ed.),
Arquivo de Textos Notariais em Português Antigo, Oxford, 1983. Edição digitalizada, cedida
pelo editor.
FR – Foro Real (1280?), in: Ferreira, José de Azevedo (ed.), Afonso X, Foro Real, Lisboa, I.N.I.C.,
1987, 125–309. Edição digitalizada para o CIPM.
TP – Tempos dos Preitos (1280?), Ferreira, José de Azevedo (ed.), in: Roudil, Jean, Summa de los
Neuve Tiempos de los Pleitos. Édition et étude d’une variation sur un thème, Paris, Klinck-
sieck, 1986, 151–169. Edição digitalizada para o CIPM.
CS – 1 Dos Costumes de Santarém (1294), in: Rodrigues, Maria Celeste Matias, Dos Costumes de
Santarém, Dissertação de Mestrado, Lisboa, FLUL, 1992, 160–251. Edição digitalizada,
cedida pela editora.
CAmi – 513 Cantigas de Amigo (sem data ou datados entre 1220–1300), in: Cohen, Rip (ed.),
500 Cantigas de Amigo, Porto, Campo das Letras, 2003. Edição digitalizada, cedida pelo
editor.
Camo – 517 Cantigas de Amor (sem data), in: Brea, Mercedes (coord.), Lírica Profana Galego-
Portuguesa, Santiago de Compostela, Centro Ramón Piñeiro, 1996. Edição digitalizada in
Base de Datos en liña da Lírica Profana Galego-Portuguesa do Centro Ramón Piñeiro,
www.cirp.es.
CSM – 419 Cantigas de Santa Maria (datadas entre 1270 e 1282), in: Mettman, Walter (ed.),
Afonso X, o Sábio (século 13), Cantigas de Santa Maria, Vigo, Ediciones Xerais de Galicia,
SA, 1981. Edição digitalizada cedida por Xavier Varela, Tesouro Medieval Informatizado da
Lingua Galega.
CEM – 403 Cantigas de Escárnio e Maldizer (sem data), in: Lopes, Graça Videira, Cantigas de
Escárnio e Maldizer dos Trovadores e Jograis Galego-Portugueses, Lisboa, Editorial Estam-
pa, 2002. Edição digitalizada, cedida pela editora.
Séculos 13/14
www.cirp.es.
VS – 7 Vidas de Santos de um Manuscrito Alcobacense (sem data; cópias do século XV), in:
Castro, Ivo, et al. (edd.), Vidas de Santos de um Manuscrito Alcobacense (Cod. Alc. cclxvi /
antt 2274), Lisboa, INIC, 1985, 16–52; 59–83. Edição digitalizada para o CIPM.
Século 14
www.cirp.es.
para o CIPM.
DN – 79 Textos Notariais (sem data ou datados entre 1304 e 1397), in: Martins, Ana Maria (ed.),
Documentos Notariais dos Séculos XII a XVI, 2000. Edição digitalizada, cedida pela
editora.
TOX – 15 Textos Notariais (sem data ou datados entre 1309 e 1336), in: Parkinson, Stephen (ed.)
Arquivo de Textos Notariais em Português Antigo, Oxford. Edição digitalizada, cedida pelo
editor.
CS – 3 Dos Costumes de Santarém (1340–1360), in: Rodrigues, Maria Celeste Matias (1992) Dos
Costumes de Santarém,
Dissertação de Mestrado, Lisboa, FLUL, 160–251. Edição digitalizada, cedida pela editora.
FG – 1 Foros de Garvão (sem data), in: Garvão, Maria Helena (ed.), Foros de Garvão. Edição e
Estudo Linguístico, Dissertação de Mestrado, Lisboa, FLUL, 1992, 65–99. Edição digitali-
zada, cedida pela editora.
PP – Afonso X. Primeyra Partida (ca. 1350), in: Ferreira, José Azevedo, Alphonse X, Primeyra
Partida, Braga, INIC, 1980, 3–580. Edição digitalizada para o CIPM, financiada pelo editor.
CGE – Crónica Geral de Espanha de 1344 (sd), in: Cintra, Luís Filipe Lindley (ed.), Crónica Geral
de Espanha de 1344, Lisboa, INCM, 1951. Edição digitalizada para o CIPM.
CAXL – Crónica de Afonso X (manuscrito L) (sem data), in: Cintra, Luís Filipe Lindley (ed.), Crónica
Geral de Espanha de 1344, Lisboa, INCM, 1951. Edição digitalizada para o CIPM.
CAXP – Crónica de Afonso X (manuscrito P) (sem data), in: Cintra, Luís Filipe Lindley (ed.), Crónica
Geral de Espanha de 1344, Lisboa, INCM, 1951. Edição digitalizada para o CIPM.
CDA – Chancelarias Portuguesas de D. Afonso IV, Vols. 1, 2 e 3 (30 Textos seleccionados), in:
Dias, João J. Alves (ed.), Chancelarias Portuguesas de D. Afonso IV, Lisboa, I.N.I.C, 1990–
1992. Edição digitalizada, cedida pelo editor.
AT – Arte de Trovar, in: Tavani, Giuseppe (ed.), Arte de Trovar do Cancioneiro da Biblioteca
Nacional de Lisboa, Lisboa, Colibri, 1999. Edição digitalizada para o CIPM.
NLL – Narrativas dos Livros de Linhagens, in: Mattoso, José, Narrativas dos Livros de Linhagens,
Lisboa, INCM, 1983. Edição digitalizada para o CIPM.
LM – Livro de Montaria de João I, in: Calado, Adelino de Almeida, Vigo, ed. (no prelo). Edição
digitalizada, cedida pelo editor, através de Telmo Verdelho.
CI – Corte Imperial (anónima dos fins do século 14), in: Calado, Adelino de Almeida (ed.), Corte
enperial, Universidade de Aveiro, 2000. Edição digitalizada, cedida pelo editor, através de
Telmo Verdelho.
Século 15
para o CIPM.
DN – 46 Textos Notariais (sem data ou datados entre 1402 e 1499), in: Martins, Ana Maria (ed.),
Documentos Notariais dos Séculos XII a XVI, 2000. Edição digitalizada, cedida pela editora.
LC – Leal Conselheiro (1438?), in: Piel, Joseph (ed.), Leal Conselheiro, Lisboa, Livraria Bertrand,
1942. Edição digitalizada para o CIPM, revista por João Dionísio e Sandra Alvarez.
LEBC – Livro da Ensinança de Bem Cavalgar Toda Sela (1437?), in: Piel, Joseph (ed. crit.), Livro da
Ensinança de Bem Cavalgar Toda Sela, Lisboa, Bertrand, 1944. Edição digitalizada para o
CIPM, revista por João Dionísio.
CP – Castelo Perigoso (sem data), in: Neto, João António Santana (ed.), Duas Leituras do Tratado
Ascético-Místico Castelo Perigoso, Dissertação de Doutoramento, São Paulo, Faculdade de
Filosofia, Letras e Ciências Humanas, USP, 1997. Edição digitalizada cedida pelo editor e
revista por Irene Nunes.
DSG – Demanda do Santo Graal (sem data), in: NUNES, Irene Freire, A Demanda do Santo Graal,
Edição digitalizada para o CIPM com base na edição publicada pela Imprensa Nacional Casa
da Moeda, Lisboa, 1995, revista pela editora.
LTV – Livro das Tres Vertudes (1453?) Crispim, Maria de Lourdes (ed.) versão paradiplomática
digitalizada, cedida pela editora.
OE – Orto do Esposo (sem data), in: Maler, Bertil (ed.), Orto do Esposo, Rio de Janeiro,
Ministério da Educação e Cultura, Instituto Nacional do Livro, 1956. Edição digitalizada para
o CIPM.
CPVC – Carta de Pêro Vaz de Caminha (1500), in: Guerreiro, M. V./E. B. Nunes (edd.), Carta a el-
rey dom Manuel sobre o achamento do Brasil, Lisboa, I.N.C.M, 1974. Edição digitalizada
para o CIPM.
HRP – História dos Reis de Portugal, in: Cintra, Luís Filipe Lindley (ed.), Crónica Geral de Espanha
de 1344, Lisboa, INCM, 1951. Edição digitalizada para o CIPM.
ZPM – Crónica do Conde D. Pedro de Meneses (sem data), in: Brocardo, Maria Teresa (ed.),
Crónica do Conde D. Pedro de Meneses, Dissertação de Doutoramento, Lisboa, F.C.S.H.,
1994, 333–693. Edição digitalizada, cedida pela editora.
CDF – Crónica de D. Fernando, in: Macchi, Giuliano (ed.), Fernão Lopes, Cronica de D. Fernando,
Lisboa, INCM, 1975.
CDJI1 – Crónica de D. João I, parte 1, in: Lopes, Fernão, Crónica de D. João I, Porto, Livraria
Civilização Editora, 1945, (segundo o códice nº 352 do Arquivo Nacional da Torre do Tombo).
Edição digitalizada para o CIPM.
CDJI2 – Crónica de D. João I, parte 2, in: Lopes, Fernão, Crónica de D. João Primeiro, Porto, Livraria
Civilização Editora, 1949.
CDPI – Crónica de D. Pedro I, in: Peres, Damião (ed.), Lopes, Fernão, Crónica de D. Pedro I, Porto,
Livraria Civilização, 1965. Edição digitalizada e revista por José Barbosa Machado, cedida
pelo revisor.
TC – Tratado da Confissom (1489), in: Machado, José Barbosa (ed.), Tratado de Confissom, Vol I
(Chaves, 1489), Universidade de Trás-os-Montes e Alto Douro, 2003. Edição digitalizada,
cedida pelo editor.
PMP – Penitencial de Martim Pérez, in: Martins, Mário (ed.), Penitencial de Martim Pérez, 1957.
Edição digitalizada e revista por José Barbosa Machado, cedida pelo revisor.
S – Sacramental, de Cremente Sanchez de Vercial (1488), in: Machado, José Barbosa (ed.),
Clemente Sánchez de Vercial.
Sacramental, Minho, Pena Perfeita, 2005. Edição digitalizada, cedida pelo editor.
VDT – Vida de D. Telo, in: Nascimento, Aires Augusto (ed.), Hagiografia de Santa Cruz de
Coimbra, Lisboa, Colibri, 1998, 273–286. Edição digitalizada, cedida por José Barbosa
Machado.
VST – Vida de São Teotónio Tradução quatrocentista da vida de S. Teotónio. Edição digitalizada e
revista por Deolinda Rodrigues Cabrera, cedida por José Barbosa Machado.
LHB – Livro das Histórias da Bíblia (sem data), in: Castro, J. Mendes de (ed.), Bíblia de Lamego,
vol. I e vol. II, 1998. Edição digitalizada, cedida por José Barbosa Machado.
Século 16
Cat – Catecismo (1504), in: Silva, Elsa Branco da (ed.), O catecismo pequeno de Dom Diogo Ortiz,
Lisboa, Colibri, 2001. Edição digitalizada, cedida pela editora.
Vicente J. Marcet Rodríguez y
M.ª Nieves Sánchez González de Herrero
La documentación medieval de Miranda
de Ebro: Presentación del corpus y rasgos
lingüísticos
1 Introducción1
Nuestro propósito al abordar la transcripción y elaboración de un corpus que
recogiera la documentación medieval de Miranda de Ebro, hace ya cuatro años,
fue el de tratar de aportar datos directos sobre el registro escrito medieval de una
zona geográfica concreta, el norte de Burgos, a la que tradicionalmente se ha
atribuido una gran importancia en la constitución del castellano, pero que, sin
embargo, no ha merecido hasta ahora gran atención por parte de filólogos e
historiadores de la lengua.
Las fuentes bien editadas con que contamos hoy para estudiar el registro
medieval en el norte de Burgos son en su conjunto escasas; en consecuencia,
nuestro conocimiento de la lengua medieval de la zona es bastante pobre. En los
últimos años contamos con la edición de los becerros gótico y galicano de
Valpuesta (Ruiz Asencio/Ruiz Albi/Herrero 2010), y con la edición en línea de los
documentos de San Salvador de Oña contenidos en el CODEA o los editados por
1 La investigación que ha dado como resultado este estudio ha contado con el apoyo económico
del Ministerio de Ciencia y Tecnología del Gobierno de España, actual Ministerio de Economía y
Competitividad (FFI2010-15144), y de la Junta de Castilla y León (SA024A11-1), concedido al
proyecto Variación lingüística en la documentación de Castilla y León I. Los Documentos de Miranda
de Ebro. Edición y Estudio.
Asimismo, esta investigación se enmarca dentro de los trabajos del Grupo de Estudio de Docu-
mentos Históricos y Textos Antiguos de la Universidad de Salamanca (GEDHYTAS), entre cuyos
objetivos principales se hallan la edición y estudio de un corpus representativo de la documen-
tación medieval de las distintas variedades geolectales de Castilla y León y de un corpus
representativo de la documentación de la cancillería real castellana del siglo XIII. Puede verse
una relación de los resultados obtenidos hasta la fecha en la página del grupo: http://campus.
usal.es/~gedhytas/index.php/inv/dc/pbl [última consulta: 15.01.2016]. Además de los firmantes
de este trabajo, han colaborado en la edición del corpus los siguientes miembros de GEDHYTAS:
Clara Grande López, Ana Lobo Puga, Leyre Martín Aizpuru y Raquel Sánchez Romo.
Vicente J. Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero:

Universidad de Salamanca
158 Vicente J. Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero
Mª Jesús Torrens,2 pero aún son pocos los estudios publicados sobre estos mate-
riales.
En líneas generales, hay más trabajos específicos para las zonas vecinas; es
el caso del riojano (Alvar 1976 y 1996; Martínez Ezquerro 2000) o del navarro
(Ciérbide 1998; Enguita 2004; González Ollé 1996; Hilty 1995; Líbano 1979 y 1998;
Saralegui 1977 y 1992, algunos de los cuales estudian conjuntamente navarro y
aragonés). Para el castellano del País Vasco en época medieval contamos, entre
otros, con los estudios, léxicos sobre todo, de Líbano (2010 y 2012) y Líbano/
Villacorta (2013); los basados en distintos corpus de áreas vizcaínas de Gómez
Seibane/Sinner (2012), Isasi (2006) y Ramírez Luengo (2012); o los de áreas
guipuzcoanas de Osés Marcaida (1993).
Parece que asumimos que las descripciones generales del «castellano» cu-
bren la información lingüística de todas las zonas que pueden incluirse y general-
mente incluimos en dicha etiqueta, como si no existieran variedades diatópicas o
cronológicas, entre otras. Sin embargo la idea del castellano como complejo
dialectal no es precisamente nueva; puede remontarse al menos a 1950, con V.
García de Diego, y en fechas mucho más recientes I. Fernández-Ordóñez ha
insistido en la cuestión (1994 y 2001), mostrando de manera indiscutible diferen-
cias e isoglosas internas.3
No obstante, hay que reconocer que en los últimos tiempos algunos dominios
castellanos o castellano-leoneses norteños han recibido una mayor atención en lo
que se refiere a estudios de variación, al menos en aspectos específicos como la
metafonía, la referencia pronominal de los clíticos de tercera persona o el fenó-
meno comúnmente conocido como neutro de materia. La descripción de tales
hechos lingüísticos afecta a una extensa zona septentrional que incluye Asturias,
Cantabria, partes contiguas del País Vasco, Burgos, Palencia, el occidente de
León y Valladolid, y ha permitido establecer diferencias lingüísticas significativas
que muestran la variación en esta parcela del continuo septentrional (Isasi 2006;
Gómez Seibane/Sinner 2012, 13–14), en el que podemos incluir el norte de Burgos
y la zona mirandesa en concreto.
2 Los primeros están disponibles en http://corpuscodea.es/ [última consulta: 15. 01. 2016]. Los
segundos se encuentran incluidos en el corpus de la Red Internacional CHARTA (http://www.
charta.es/ [última consulta: 15. 01. 2016]), disponible en línea en breve.
3 También C. Hernández Alonso (1996, 197), al describir la situación lingüística de Castilla la
Vieja en nuestros días, señala que el castellano no es uniforme: «Es, como todo sistema
lingüístico comunicativo, un complejo de variedades diatópicas, diastráticas y diafásicas».
La documentación medieval de Miranda de Ebro 159
2 El corpus
2.1 Descripción
El corpus de documentos medievales de Miranda de Ebro está integrado por

doscientos tres documentos depositados en el Archivo Histórico Provincial de
Burgos (AHPB) y en el Archivo Municipal de Miranda (AMME). Pueden agruparse
en dos grandes bloques: los documentos de concejo, cuyo número asciende a
noventa y nueve, y los documentos de la cancillería real, que incluyen noventa y
cuatro documentos originales, siete traslados de cartas reales y tres documentos
redactados por orden de sendas autoridades: el adelantado mayor de Castilla, el
señor de Vizcaya y el merino mayor de Castilla. Se trata, en total, de ciento cuatro
documentos que, si bien no poseen el mismo interés lingüístico para el estudio
del habla y los usos escriturarios de la zona, resultan igualmente interesantes
para estudiar los usos romances de la cancillería real a lo largo de la Edad Media
y la posible acomodación de la documentación cancilleresca a las diferentes
regiones a las que iba dirigida.
El grueso de la documentación de concejo, sesenta y tres documentos, tiene
data tópica en Miranda de Ebro. Hallamos diversos documentos redactados en
lugares próximos de la provincia de Burgos: dos en el monasterio de Herrera y en
Santa Gadea y uno en cada una de las siguientes localidades: Briviesca, Carraleo,
Frías, Gorejo y Pancorbo; otros quince documentos proceden de la ciudad de
Burgos. Cuatro tienen data tópica en sendos lugares de La Rioja: Briones, Haro,
Sajazarra y Santo Domingo de la Calzada. De la provincia de Álava hallamos
cuatro documentos de Salvatierra y uno de Vitoria. Finalmente, se conserva en el
Archivo Histórico Provincial de Burgos un documento compuesto en León en 1347
que recoge diversas cartas de personería y un acuerdo entre procuradores del
monasterio de Herrera y del concejo de Miranda. Es importante destacar que se
trata de un corpus de documentación concejil, cuando la mayor parte de los
documentos medievales de zonas próximas son eclesiásticos.
En cuanto a la data cronológica, de los documentos reales y de autoridades,
contamos con veinticinco testimonios del siglo XIII, de los que uno es traslado;
setenta documentos son del siglo XIV, en los que se incluyen seis traslados; y
solo nueve están fechados en el siglo XV. Por su parte, la documentación concejil
se distribuye en cuarenta y cuatro documentos del siglo XIII, veintinueve del
siglo XIV y veintiséis del siglo XV.
Tabla 1: Archivos y cronología
ARCHIVOS Y CRONOLOGÍA
A R CHIVO H ISTÓRICO
IS TÓR ICO P ROVINCIAL DE A RCHIVO
RCHIV O M UNICIPAL
UNIC IP AL DE M IRANDE DE E BRO T OTAL
B URGOS (AHPB) (AMME)
DOCUMENTOS
DOC UMENTOS REALES DOCUMENTOS REALES
RE ALES
Siglo XIII 5 Siglo XIII 20 25
Siglo XIV 18 Siglo XIV 52 70
Siglo XV 3 Siglo XV 6 9
DOCUMENTOS
DOC UMENTOS DE CONCE
CONC EJO
JO DOCUMENTOS DE CONCEJO
Siglo XIII 38 Siglo XIII 6 44
Siglo XIV 15 Siglo XIV 14 29
Siglo XV 19 Siglo XV 7 26
T OTAL 203
Por lo que se refiere a la tipología de la documentación de concejo, nos encon-

tramos en el siglo XIII con cartas de personería, de sentencia, de procesos de
pleitos y de intercesión, si bien el grueso lo constituyen treinta y seis cartas de
avecindamiento, más dos que, además del avecindamiento, incluyen la venta de
un solar, en un caso, y una carta de desafío, en otro.4 Los documentos del XIV
incluyen sobre todo cartas de venta, de personería, de pleitos y sentencias y de
acuerdos con concejos vecinos; hallamos también una larga relación de prendas
tomadas por el merino.5 En la documentación del siglo XV predominan las cartas
de procuración, de reclamación y sentencia y las actas del concejo.
4 Martín Viso (2002, 151–152) subdivide estos avecindamientos en dos tipos diferentes; por un
lado estaría la integración de individuos pertenecientes a la baja nobleza local que se hacían
vecinos de Miranda en distintas aldeas y recibían a cambio una serie de exenciones fiscales; por
otro lado estaría la adscripción a Miranda de solares, palacios y dependientes de esa pequeña
nobleza que habitaba en localidades cercanas, pero no siempre en el ámbito jurisdiccional de la
villa. En los dos casos, los nuevos vecinos pasaban a formar parte de la villa fiscal y señorialmen-
te. En cuanto a las causas de este movimiento, Martín Viso apunta como factor clave el desarrollo
económico y político de Miranda de Ebro, «convertida en un eje comercial de importancia
supracomarcal, que convive con una debilidad demográfica y jurisdiccional».
5 Este último es el documento 10, de 1301, con signatura AMME, Libro H111, documento 01; es
un cuadernillo de diecinueve hojas de papel cosidas en desorden.
2.2 Edición y estudio del corpus
La documentación de Miranda de Ebro fue editada por Cantera Burgos y Andrío

Gonzalo en 1991, si bien se trata de una edición que no puede utilizarse para
efectuar estudios lingüísticos con rigor.6 Por este motivo nos decidimos a llevar a
cabo la edición íntegra tanto de la documentación concejil como de la cancilleres-
ca con criterios filológicos rigurosos, para que pudiera ser utilizada tanto por los
historiadores de la lengua como por el resto de la comunidad científica. Hemos
seguido para ello los criterios de la Red Internacional CHARTA (Sánchez-Prieto
2011),7 que propone una triple edición de los documentos que incluye el facsímil,
la transcripción paleográfica y la presentación crítica.
Debido a que el volumen de testimonios que manejamos (más de doscientos)
hacía muy difícil su edición en papel siguiendo este triple sistema, optamos por
la publicación íntegra del corpus tan solo en su versión crítica, al entender que,
de esta forma, facilitábamos su acceso a un mayor número de posibles interesa-
dos, y no solo a los lingüistas especializados en el castellano medieval. Con este
propósito, hemos desarrollado las abreviaturas sin dejar constancia, hemos unifi-
cado los valores de i, j, y, u, v según su valor vocálico o consonántico, hemos
acentuado de forma que se reflejara la prosodia antigua siguiendo las normas
ortográficas de la RAE y hemos tratado de mantener también la sintaxis de la
época a través del sistema actual de puntuación.
Los documentos han aparecido publicados en la editorial Luso-Española en
dos volúmenes independientes que se corresponden a los dos bloques documen-
tales antes mencionados: la documentación escrita en el propio concejo o en
alguno de los concejos vecinos, por un lado, y, por otro, los documentos reales y
aquellos cuya intitulación corresponde a alguna autoridad ajena al concejo (cf.
Sánchez González de Herrero et al. 2014a; 2014b).
6 Los editores no explican sus criterios de edición, que es semipaleográfica, tampoco aclaran los
de selección y mezclan algún traslado muy posterior al original sin indicación explícita. En
muchas ocasiones no editan el documento completo, sino que eliminan fragmentos recurriendo
a puntos suspensivos, como sucede con algunos fragmentos ilegibles pero también, de forma
bastante arbitraria, con otros en los que abundan las fórmulas o contextos protocolarios. A modo
de ejemplo, podemos mencionar un breve documento, el nº 9 de la colección, que tiene dieciocho
líneas de extensión, en cuya trascripción recurren a los puntos suspensivos y al etc., con los
consiguientes saltos y omisiones, hasta en cinco ocasiones. Varias grafías y palabras nos
resultaron sospechosas desde el principio y efectivamente no son pocas las ocasiones en que
nuestras lecturas presentan diferencias.
7 También se encuentran disponibles en http://www.charta.es/criterios-de-edicion-/ [última
consulta: 15. 01. 2016].
Es posible que este corpus pueda incorporarse en un futuro a la web de

CHARTA y sumarse a otros subcorpus de áreas próximas, lo que permitiría estu-
dios más amplios y completos. Una muestra parcial del triple trabajo de edición
puede verse ya en la web del grupo GEDHYTAS,8 donde, además de encontrar de
forma confrontada la transcripción paleográfica y la presentación crítica de cuatro
documentos, puede accederse a una versión facsimilar en color de los mismos.
Asimismo, también se ha editado en papel, en la colección Textos para la
historia del español, publicada por la Universidad de Alcalá de Henares, una
selección de veintiséis documentos de concejo, nueve de los cuales están datados
en el siglo XIII, once en el siglo XIV y seis en el siglo XV. Junto con la triple edición
de cada documento, el volumen cuenta con un detallado estudio que contempla
los niveles paleográfico, gráfico-fonético, morfológico, sintáctico y léxico, además
de un estudio introductorio sobre Miranda de Ebro en la Edad Media (cf. Sánchez
González de Herrero et al. 2014c).
Al margen de la edición íntegra del corpus y del estudio lingüístico completo
de conjunto sobre una parte de la documentación, hemos llevado a cabo estudios
específicos de aspectos lingüísticos concretos sobre la totalidad del corpus. En
todos los casos hemos tenido en cuenta si los hechos lingüísticos analizados
aparecían o no vinculados a determinada escribanía, así como restringidos o no a
usos formularios.
Los estudios para el nivel gráfico-fonético incluyen testimonios de la apóco-
pe (Lobo 2013), la confusión de las sibilantes (Marcet 2015a; 2015b; 2015c), la
pérdida de la /y/ intervocálica en casos como maor o mardomo (Sánchez González
de Herrero 2012), el tratamiento de las consonantes implosivas y los grupos
consonánticos cultos (Lobo 2014 y 2015) o los errores de copia (Grande 2013).
En el plano morfológico, hemos tratado cuestiones tales como los usos de
preposición + artículo (presencia de formas como enna, ennas), de las formas
átonas del pronombre, de posesivos y numerales, o de algunos empleos verbales,
como es el caso del futuro analítico y el sintético (cf. Martín Aizpuru 2014 y en
prensa).
Hemos abordado igualmente el estudio del léxico, describiendo a lo largo de
varios artículos usos propios de la época, como aldegación ‘alegación’, assessiego
‘sosiego’, cabtener ‘conservar o proteger’, calostra ‘claustro’, cuantra, escuantra
‘contra’, lombradamente ‘nombradamente’, quano ‘cuando’, etc. Otros usos pare-
cen ser comunes con zonas geográficamente próximas, como ferrán ‘herrén’,
nozedo ‘nogal’, costiero ‘guarda de campo’, rad, rades ‘dehesa comunal’, ‘monte
8 Disponible en http://campus.usal.es/~gedhytas/index.php/txt/doc/cmir [última consulta:

15. 01. 2016].
comunal con arbolado, generalmente de encina o roble, y pastos’ o pieza ‘terreno

de labor’, ‘finca de cultivo’, mientras que más restringidos en lo geográfico
parecen voces como almajerizo ‘pastor que cuida del almaje o rebaño’, atestigua-
do en Álava, o, sobre todo, alzina ‘encina’, para el que no hallamos continuidad
geográfica (cf. Sánchez González de Herrero 2011–2012 y 2012).
3 Análisis lingüístico
Uno de los principales objetivos perseguidos con la transcripción, edición y
análisis filológico de la documentación de Miranda de Ebro era la contribución a
los estudios más recientes sobre el continuo lingüístico del norte de la Península.
Con relación a la aportación que las investigaciones de este corpus añaden a
nuestro conocimiento del continuo norteño peninsular, creemos que ayudan a
delimitar mejor la extensión de diversos fenómenos que hasta la fecha se han
tenido en cuenta en su descripción.
Tal es el caso, por ejemplo, con relación a usos de escritura, del dígrafo –ij–,
que hallamos principalmente en diversos documentos de finales del siglo XIII y de
la primera mitad del XIV en la representación del resultado prepalatal fricativo
sonoro procedente de –LJ– y grupos análogos (como en coijedor, conceijo, conseijo,
espeijo, oijos, oueijas, semeijaua, uieijo o ujeija). También se registra este dígrafo,
aunque en menor medida, para representar la evolución de J–, –Gi– (aijuntaron,
privilleijo), el sufijo –aje (almaijerizo, carcelaije) y las realizaciones consonánticas
de palabras incorporadas del árabe (truijamanes) y de topónimos de diversa
procedencia (como canpaijares, limoijas, rrioija, saijuela, ssaija çaarra o uaroija)
(cf. Sánchez González de Herrero 2015, 1083).9 Podemos subrayar que se trata de
un empleo que no parece aislado, sino que cuenta con una cierta presencia en
tradiciones escriturarias ligadas al norte peninsular, desde Cantabria hasta Nava-
rra y Aragón (cf. Sánchez González de Herrero 2013, 19 y 2014).
En lo diatópico, hemos observado que la presencia de formas como yenero
muestra la pervivencia de un sonido consonántico inicial no exclusivo de las
variedades asturiano-leonesas o aragonesas, aunque haya divergencia en el resul-
tado concreto. La presencia de la misma voz en La Rioja y en el norte de Burgos
prueba la continuidad del fenómeno en los dominios norteños centro-orientales
(cf. Martínez Ezquerro 2000, 82). La misma continuidad suponen formas como
9 No se trata de la única opción para representar el resultado de –LJ– y análogos en la

documentación mirandesa, pues, al margen de las grafías más habituales acordes a los usos
castellanos, i, j, g, encontramos también formas como foga o fiyos, aunque sea esporádicamente.
maor y mardomo, con pérdida de /–y–/ sin que medie la presencia de una vocal
palatal contigua, y que permiten enlazar la zona leonesa y cántabra con la
vizcaína, riojana y navarra (cf. Moral 2013, 619; Morala 2004, 558; Sánchez-Prieto/
Torrens 2008, 492).
Por lo que se refiere al uso de los posesivos, a grandes rasgos, la evolución
descrita es la general al castellano, con algunos matices particulares. Por un lado,
la evolución de so(s)/su(s) no presenta tendencias acordes con otros estudios, o,
al menos, no tan claras, si bien el resultado final es similar. Por otro lado, parece
que la fecha del establecimiento definitivo de mi, tu y su resulta tardía frente a lo
descrito en otros trabajos (cf. Sánchez Romo 2013). Ambas particularidades van
en dirección opuesta a la supuesta innovación y homogeneidad que se había
atribuido tradicionalmente al norte de Burgos como foco irradiador de los cam-
bios en el romance expandido por la Península. Recordamos a este respecto la
expansión de la extinción de la estructura determinante + posesivo + sustantivo,
que Fernández-Ordóñez (2012) situó de oriente a occidente, precisamente en
defensa de la descentralización de los cambios en el castellano que ha llegado a
la actualidad.
En lo que respecta a lo cronológico, registramos en la documentación medie-
val de Miranda de Ebro diversos fenómenos en proceso de cambio. Así, observa-
mos la persistencia hasta finales del siglo XIII e inicios del XIV de la asimilación
de preposición y artículo en enna, ennas, que marca también continuidad geográ-
fica con Cantabria (cf. Alvar/Pottier 1983, 114 y 115; Moral 2013, 680).
Otro de los fenómenos en marcha que parece reflejarse en el corpus de
Miranda es el aparente inicio del proceso de neutralización de las sibilantes. En
estudios anteriores ya señalados hemos podido observar que, en la documen-
tación del siglo XIII, las confusiones o alternancias gráficas entre sibilantes son
bastante frecuentes, pues registramos ejemplos en más de la mitad de los docu-
mentos de concejo.10 En el caso de la pareja de sibilantes apicoalveolares, los
ejemplos de confusiones, en ambas direcciones (ss en lugar de s y s en lugar de
ss, predominante), más del centenar, se concentran en veinticuatro documentos,
si bien la gran mayoría procede de una misma notaría, con lo que podrían tratarse
de preferencias o reajustes gráficos de determinados escribas, puesto que, en
términos generales, predominan de forma mayoritaria los usos rectos de ss y s.
En cuanto a las sibilantes dentoalveolares, predomina en la documentación
del siglo XIII el empleo de c/ç y z según los usos tradicionales del castellano, que
prefiere las primeras para la representación de la sorda /ts/ y la segunda para la
10 Cf. Marcet (2015a) para la confusión de sibilantes en el siglo XIII y Marcet (2015b) y (2015c)
para el siglo XIV.
sonora /dz/. Sin embargo, son varios los casos de confusión en posición intervo-
cálica, aunque casi todos ellos agrupados en seis documentos. Distinto es el caso
de las sibilantes prepalatales, las cuales apenas presentan casos de confusión
gráfica. De hecho, los ejemplos, bastante escasos, parecen deberse a una indistin-
ción gráfica entre x e y, y no a un posible ensordecimiento de /ʒ/ (cf. Sánchez
González de Herrero 2015).
A lo largo del siglo XIV nos encontramos con la paulatina indistinción gráfica
entre las sibilantes apicoalveolares. En el primer tercio de la centuria, entre 1300
y 1330, las confusiones son bastante escasas, en ambas direcciones; sin embargo,
entre 1330 y 1350 se tornan mucho más frecuentes, si bien siguen predominando
los casos rectos, con una frecuencia de en torno al 65 %. En la segunda mitad del
siglo se consolida esta tendencia de forma repentina, pues el dígrafo –ss–
prácticamente desparece de la escritura notarial, con tan solo dos ejemplos en
sendos documentos compuestos en 1358 y 1399. Su desaparición corre pareja a la
de ss– en posición inicial, que, durante la primera mitad de la centuria, predomi-
naba con una frecuencia del 70 %.
Una situación totalmente distinta es la que presentan las sibilantes dentoal-
veolares, ya que las confusiones a lo largo del siglo XIV son bastante escasas, y
concentradas en nueve documentos (el 31 % del total). Salvo en dos testimonios,
las confusiones tienden a ser a favor de la grafía ç, lo que podría deberse a una
incipiente pérdida de la sonoridad, al influjo de la grafía etimológica o a la
confluencia de ambos fenómenos. La oposición gráfica entre las sibilantes prepa-
latales se mantiene con regularidad también a lo largo de esta centuria.
Ya en el siglo XV, siguiendo con la situación imperante en la representación
de las sibilantes apicoalveolares en la segunda mitad de la centuria anterior,
predomina ampliamente el empleo de la grafía s, tanto en la representación de
/s/ como de la antigua /z/, en cualquier contexto fonético. Los escasos ejemplos
de ss se concentran en posición inicial (ssanchez, ssancho, ssennor, ssuarez) o
final de palabra (doss, ess, mess, tress), en nueve documentos compuestos entre
1416 y 1427. Se trata de usos superfluos del dígrafo ss sin matiz opositor. Los
únicos ejemplos en posición intervocálica corresponden a las formas assi y
passaren, en un documento de 1416, e interesse, en un documento de 1423; en
ambos predomina el empleo de s.
Igual suerte a la de ss corre el dígrafo ff, predominante durante el siglo XIII y
los dos primeros tercios del XIV, pero que queda desterrado de la escritura
notarial a partir de 1375, reemplazado por f. No sucede lo mismo con el empleo de
rr–, que en posición inicial sigue siendo habitual durante los siglos XIV y XV, en
algunos documentos alternando con R. En las dos neutralizaciones mencionadas
podría haber influido el nuevo trazo que adoptan las grafías s y f en la escritura
de albalaes en el siglo XIV, lo que hace que, en muchos casos, puedan llegar a
confundirse con sus correspondientes geminadas, debido a la tendencia a dupli-

car de forma paralela el trazo principal de la letra (Ruiz 2008, 141). Podemos
suponer que, si los escribas no consideraban necesario distinguir de forma
clara en la escritura las grafías ss y s, podría deberse al hecho de que las
antiguas sibilantes /s/ y /z/ habían confluido en un único sonido, posiblemente
la sorda /s/, en cuya representación, por economía gráfica, se recurriría tan solo
a la grafía s.11
Algo similar tiene lugar con las grafías ff y f, que representan un único
sonido, y de las cuales se suprime el dígrafo. Por el contrario, en el caso de la
pareja rr y r, al poder representar dos sonidos distintos, se produce con el correr
del tiempo una distribución más precisa de las grafías, al reservar de forma
mayoritaria el dígrafo rr para la vibrante múltiple y la grafía r para la vibrante
simple, con independencia del lugar que ocupen en la palabra. Podríamos
concluir, a tenor de estos datos, que la tradición escrituraria mirandesa muestra,
a partir de mediados del siglo XIV, una tendencia a eliminar los dígrafos super-
fluos, como es el caso de ff y ss, una vez generalizado el ensordecimiento de la
sibilante apicoalveolar. No sucede lo mismo con los dígrafos que poseen un valor
fonético propio, como es el caso de rr, pero también de ll y nn, distinto al de las
grafías homólogas simples, r, l y n, respectivamente.
Por lo que respecta a la representación de las sibilantes dentoalveolares,
durante el siglo XV se sigue manteniendo en la documentación mirandesa el
antiguo reparto tradicional entre z (doze, gozar, hazia ‘hacia’, juezes, plazo, razon,
rayzes, vezinos, vezjndat, etc.) y ç (cabeça, carnjçero, creçidas, gradeçer, neçesa-
rio, paçer, pareçiere, pedaço, pieça, plaça, recreçeren, rreçibir, rroçin, etc.). Muy
esporádico es el empleo de la grafía c, recogida en las formas doce, especial
mente, proceder y gracia, en sendos documentos redactados en 1419, 1422, 1423 y
1486 respectivamente, en los cuales predomina el empleo de ç. En el siglo XIII lo
habitual era el empleo de ç ante las vocales /a, o, u/ y el de c ante /e, i/, pero
durante los siglos XIV y, especialmente, XV, asistimos a una clara voluntad por
parte de los escribas de homogeneizar la representación del sonido /ts/ en favor
de la grafía ç, independientemente de la vocal precedida, mientras que c queda
reservada para la representación del sonido /k/.
Durante el siglo XV también es altamente frecuente el uso del dígrafo sç en
las voces con las secuencias –Ke,i–, –KJ– y –TJ– precedidas por una –S–, que
queda pronto asimilada al grupo (acaesçiere, conosçemos, fenesçer, gradesçere-
11 Algo similar ha señalado Sánchez-Prieto (1998, 460 y 461), quien en una serie de documentos
cancillerescos observa que la escritura cortesana del siglo XIV tiende a rechazar los trazos
dobles.
mos, nasçimjento, obedesçer, paresçe, pertenesçen). En muy menor medida se

recurre al uso de sc (crescidas, nascimjento, parescen). En ocasiones aisladas, se
emplea este dígrafo de forma contraria a la etimología, como en resçibir o
resçebido. En el último documento conservado, fechado hacia finales del siglo XV
o comienzos del XVI, ya no se registra el dígrafo etimológico en la representación
de /ts/ (paçer, paçiendo, pareçe, pareçen).
En aquellas voces cultas y semicultas o de entrada más tardía al léxico
romance en las que se ha mantenido la yod, lo habitual es la aparición de la
sibilante sorda, representada a través de ç (anotiçia, bacaçion, condiçion, contra-
diçion, derogaçion, exeçiones, hedefiçio, hesecuçion, jurediçion, justiçia, juyçio,
maliçiosa mente, negoçio, ofiçiales, palaçio, perturbaçion, protestaçion, relaçion,
tasaçion ynformaçion, ynquiraçion, etc.). Encontramos, asimismo, la grafía ç, co-
rrespondiente a la esperable africada sorda, en otros cultimos sin yod, como en
ljçençiado, neçesario o neçesidad. De forma muy esporádica recogemos el uso no
etimológico del dígrafo sç, también en la voz nesçesario, en un documento de 1494.
Registramos el empleo de la grafía z en la forma juyzjo, recogida diversas
veces en tres documentos compuestos en 1416, 1423 y hacia finales del siglo XV o
principios del XV. No parece tratarse de un caso de confusión gráfica, ya que esta
voz tuvo seguramente una evolución popular con sonorización de la sibilante, a
juzgar por los numerosos testimonios medievales y por la existencia de la variante
popular juizo, con pérdida de la yod etimológica (cf. Marcet 2011, 69). La misma
explicación consideramos que puede darse a las formas perjuyzjo y perjuyzio,
presentes en tres documentos de 1470, 1482 y 1494.
Las posibles confusiones entre las dos sibilantes dentoalveolares se concen-
tran en cuatro documentos en los que predominan los usos rectos en la repre-
sentación de ambas sibilantes. Los ejemplos pertenecen a las formas doçe y
doce, por un lado, y palazjo, parezja, parezjo, rezjbjese, rretenenzja y serujzjo,
por otro, en un documento de 1419; treçientos, junto a trezientos, en uno de
1422; ofrezieron, en uno de 1427; y veçes, en uno de 1486.
Mucho menos frecuente es la alternancia gráfica en aquellos contextos foné-
ticos en los que, por distribución defectiva de las consonantes, únicamente se da
una de las dos sibilantes. Así, en posición inicial, donde tan solo encontramos la
/ts/ procedente de Ke,i–, predomina claramente la grafía ç (çebada, çellorigo,
çerca, çertificamos, çibdat, çierta, çinco, çinquanta, etc.), por un solo caso de z, en
la forma zeder, en un documento de finales del siglo XV o inicios del XVI. En
posición inicial de sílaba tras consonante es asimismo claramente mayoritario el
empleo de la grafía ç (conçejo, fuerça, jnçidençias, março, merçed, terçer, etc.),
con el único caso contrario de venzjdos, en un documento de 1426. La excepción
la presentan aquellas voces en las que tuvo lugar, muy posiblemente, la sonoriza-
ción de la sibilante antes de la síncopa de la vocal postónica, y en las que es
frecuente el empleo de la grafía z (catorze, honze, quinze, salzes). En posición final

de sílaba y de palabra parece que tuvo lugar en fecha bastante temprana, desde
comienzos de la escritura en romance, la generalización del uso de z. Se trata
de la única grafía que registramos en los documentos mirandeses del XV, tanto
en los términos patrimoniales (cruz, diez, diz, ffaz, ffiz, juez, paz, rrayz, uez, uoz,
etc.), como en los patronímicos (ferrandez, perez, sanchez, rodriguez, xemenez,
etc.). Lo mismo sucede en posición implosiva (juzgado, juzgando, juzgar, empez-
ca, ofrezca).
Finalmente, en cuanto a las sibilantes prepalatales, carecemos de ejemplos
de confusión gráfica también en el siglo XV. Encontramos bastante plausible a la
hora de explicar esta circunstancia la hipótesis de Morala (1993), para quien la
sibilante sonora podría tener una realización africada, /dʒ/, por lo que se opon-
dría a la sibilante fricativa /ʃ/ no solo por la sonoridad, sino por el modo de
articulación, lo que haría más difícil la convergencia de ambos sonidos en uno
solo una vez iniciado el proceso de ensordecimiento de las sibilantes. A ello hay
que sumar la gran distinción de forma entre sus grafías (i, j, g frente a x), a
diferencia de lo que sucede con las restantes parejas de sibilantes.
En lo que se refiere a la morfología, concretamente a la morfología nominal,
podemos señalar entre las vacilaciones más frecuentes aquella que afecta al
cierre esporádico de la vocal átona o final en los pronombres (como en lu, lis) o al
género del artículo ante los sustantivos femeninos que empiezan por –a átona
(con casos como la aljama y el aljama). Por su parte, en lo que respecta a la
sintaxis, podemos señalar algunos fenómenos propios de una lengua en estadio
de cambio, como es el caso de la falta de fijación de los pronombres átonos, los
cuales pueden aparecer tanto en forma antepuesta con relación al verbo como
pospuesta.
En cuanto a la morfosintaxis verbal podemos señalar como vacilaciones más
destacadas las alternancias de s– etimológica y –z– en la 1ª persona del singular
de los verbos formados con –ESCER E (conosco, paresco, por un lado, y ofrezco, por
ESCERE
otro), entre la inflexión y la conservación intacta de la vocal pretónica por la yod
desinencial del gerundio (diciendo frente a deziendo), y entre la pérdida y el
mantenimiento de –e en las formas verbales (diz, sal junto a dize, sale), así como
la convivencia de formas analíticas y sintéticas en el condicional y en el futuro de
indicativo, si bien con predominio de las segundas, más modernas.
En lo que respecta a la consolidación de determinados fenómenos morfosin-
tácticos puestos en marcha a lo largo de la Edad Media y que suponen la
aproximación del castellano medieval al moderno en el norte de la Península,
podemos mencionar la desaparición a partir de comienzos del siglo XIV de la
forma de relativo qui y el empleo exclusivo de quien; el triunfo a lo largo del
siglo XIV de la forma preposicional fasta, frente a fata, y del elemento compositi-
vo adverbial –mente, que se impone a las variantes diptongadas –miente y

–mientre; la consolidación, también durante esta centuria, de las desinencias
verbales modernas –ía, –ían en el imperfecto de indicativo, frente a –ié, –ién, y de
–ido, –ida en el participio, frente a –udo, –uda; y la aparición a finales del
siglo XV de la forma y de la conjunción copulativa.
Otro fenómeno que podemos destacar es la escasa representatividad en los
documentos mirandeses de los rasgos morfosintácticos propios de la primitiva
falta de cohesión de las formas compuestas del verbo. Tal es el caso de la
concordancia en género y número del participio de la forma compuesta y el
complemento directo, del que solo registramos un ejemplo evidente en el corpus:
«so pena que oviesen perdidas las dichas casas» (AHPB, Concejil, 50/2, fol. 277,
líneas 14 y 15). Parece, por lo tanto, que el participio se ha inmovilizado ya en
fecha bastante temprana en la forma del masculino singular, lo que coincide con
la hipótesis de Fernández-Ordóñez (2011, 76), para quien la pérdida de la concor-
dancia en las formas compuestas se inicia en Navarra, para desplazarse posterior-
mente hacia el oriente y el centro de la Península.
Tampoco se encuentra prácticamente representada la interpolación de ele-
mentos oracionales entre el auxiliar y el participio, fenómeno bastante habitual
en el oriente de la Península durante la Edad Media (Rodríguez Molina 2008, 136–
138) y del que tan solo contamos con un posible ejemplo, con el verbo ser como
auxiliar.
E si disiéremos nós, o otro por nós o en nuestra boz, que non fuemos bien pagados e bien
entregados de todos los moravedís sobredichos, que nos non vala nin seamos sobre ello
oídos ante alcalle nin ante señor (AHPB, Concejil, 50/1, fol. 8, líneas 19–21).
Una representación mayor tiene en el corpus mirandés el orden variable de los

constituyentes, pues son varios los ejemplos recogidos hasta bien avanzado el
siglo XV en los que el participio antecede al auxilar. Se trata de un fenómeno
también habitual en el oriente de la Península (en Navarra, Aragón, Valle del
Ebro, Cuenca y Guadalajara) (Rodríguez Molina 2008, 136 y 137), si bien en la
documentación mirandesa predomina el orden auxiliar + participio. Entre los
ejemplos de anteposición del participio encontramos los siguientes:
E dissieron los dichos judíos que más judíos d’ellos non bivían en Miranda, salvo Çagui
Pardo, e que eran pagados de la vezindat e de lo que el concejo les fazían, segunt dicho
avían, salvo en razón del testimonio (AMME, libro H213, doc. 53, líneas 21–22).
Lo otro, porque, fablando con reberencia, como dicho é, la tal merced o gracia por vosotros
fecha era y es ninguna de derecho y por defecto de poderío que non teníades nin tenedes
para fazer la tal merced (AHPB, Concejil, 50/2, fol. 109, 2v, líneas 1–5).
Salvo por nombramiento y voluntad del concejo de la dicha villa de Miranda, como dicho é
(AHPB, Concejil, 50/2, fol. 109, 3r, líneas 2–4).
4 Conclusiones
En líneas generales, hemos podido comprobar que la documentación medieval de
Miranda de Ebro refleja el estadio de lengua esperable en este tipo de escritos
redactados en esta región del norte peninsular durante la Edad Media.
En el caso de las confusiones de las sibilantes, fenómeno al que hemos
prestado una especial atención, dada su importancia en la historia del español,
podemos concluir que la situación que presenta su evolución en la documen-
tación concejil de Miranda de Ebro coincide con la cronología tradicional atribui-
da al ensordecimiento de las distintas sibilantes, según la cual en primer lugar se
ensordece la apicoalveolar /z/, posteriormente la dentoalveolar /dz/ y, en último
lugar, con posterioridad al siglo XV, la prepalatal /ʒ/ (o africada /dʒ/) (cf. Cano
2005, 837). También queremos destacar, nuevamente, la posible influencia que
pudieron haber ejercido los cambios de tipos de letra en la confusión o posterior
neutralización gráfica de algunas parejas de sibilantes; unos cambios que podrían
haber coincidido, coadyuvándolo, con el inicio del proceso de ensordecimiento de
estas consonantes.
Lo que este fenómeno, junto como otros fenómenos gráficos, morfológicos y
sintácticos ya comentados, revela es que, en el corpus documental de Miranda de
Ebro, nos encontramos ante una lengua todavía en fase de formación, que se va
despojando, de forma aún vacilante en numerosos casos, de algunas reminiscen-
cias arcaizantes, al tiempo que empieza a adoptar de forma mayoritaria, especial-
mente a lo largo de la segunda mitad del siglo XV, algunos fenómenos propios
del castellano moderno.
Alvar, Manuel, El dialecto riojano, Madrid, Gredos, 1976.
Alvar, Manuel, Riojano, in: Alvar, Manuel (dir.), Manual de dialectología hispánica. El español de
España, Barcelona, Ariel, 1996, 81–96.
Alvar, Manuel/Pottier, Bernard, Morfología histórica del español, Madrid, Gredos, 1983.
Cano Aguilar, Rafael, Cambios en la fonología del español durante los siglos XVI y XVII, in:
Cano Aguilar, Rafael (coord.), Historia de la lengua española, Barcelona, Ariel, 2004,
825–916.
Cantera Burgos, Francisco/Andrío Gonzalo, Josefina, Historia medieval de Miranda de Ebro,
Miranda de Ebro, Fundación Cultural «Profesor Cantera Burgos», 1991.
Ciérbide, Ricardo, Notas gráfico-fonéticas sobre la documentación medieval navarra, in: Blecua,
José Manuel/Gutiérrez, Juan/Sala, Lidia (edd.), Estudios de grafemática en el dominio
hispano, Salamanca, Instituto Caro y Cuervo/Ediciones Universidad de Salamanca, 1998,
37–47.
Enguita Utrilla, José María, Evolución lingüística en la Baja Edad Media: aragonés, navarro, in:
Cano Aguilar, Rafael (coord.), Historia de la lengua española, Barcelona, Ariel, 2004,
571–592.
Fernández-Ordóñez, Inés, Isoglosas internas del castellano. El sistema referencial del pronombre
átono de tercera persona, Revista de Filología Española 74 (1994), 71–125.
Fernández-Ordóñez, Inés, Hacia una dialectología histórica: reflexiones sobre la historia del
leísmo, el laísmo y el loísmo, Boletín de la Real Academia Española 81 (2001), 389–464.
Fernández-Ordóñez, Inés, La lengua de Castilla y la formación del español, Discurso leído el
13 de febrero de 2011 en su recepción pública en la Real Academia Española, Madrid, Real
Academia Española, 2011. Disponible en http://www.rae.es/sites/default/files/Discur-
so_Ingreso_Ines_Fernandez_Ordonez.pdf [última consulta: 20. 03. 2015].
Fernández Ordóñez, Inés, El norte peninsular y su papel en la historia de la lengua española, in:
Gómez Seibane, Sara/Sinner, Carsten (edd.), Estudios sobre tiempo y espacio en el español
norteño, San Millán de la Cogolla, Cilengua, 2012, 23–68.
García de Diego, Vicente, El castellano como complejo dialectal y sus dialectos internos, Revista
de Filología Española 34 (1950), 107–124.
Gómez Seibane, Sara/Sinner, Carsten (edd.), Estudios sobre tiempo y espacio en el español
norteño, San Millán de la Cogolla, Cilengua, 2012.
González Ollé, Fernando, Navarro, in: Alvar, Manuel (dir.), Manual de dialectología hispánica. El
español de España, Barcelona, Ariel, 1996, 305–316.
Grande López, Clara, De cómo Semuel acabó senil. Errores de copia en la documentación
medieval de Miranda, Cuadernos del Instituto de Historia de la Lengua 8 (2013), 139–154.
Hernández Alonso, César, Castilla la Vieja, in: Alvar, Manuel (dir.), Manual de dialectología
hispánica. El español de España, Barcelona, Ariel, 1996, 197–212.
Hilty, Gerold, Las «scriptae» aragonesas y navarras, in: Holtus, Günter/Metzeltin, Michael/
Schmitt, Christian (edd.), Lexikon der Romanistischen Linguistik, vol. 8, I.2, Tubinga, Max
Niemeyer, 1995, 512–527.
Isasi Martínez, Carmen, El romance de los documentos vizcaínos en el espacio variacional
castellano, Oihenart 21 (2006), 209–227.
Líbano Zumalacárregui, Ángeles, Consideraciones lingüísticas sobre algunos tributos medieva-
les navarro-aragoneses y riojanos, Príncipe de Viana 40:154–155 (1979), 65–80.
Líbano Zumalacárregui, Ángeles, Diacronía de las alternancias gráficas navarro-aragonesas: las
sibilantes medievales, in: Blecua, José Manuel/Gutiérrez, Juan/Sala, Lidia (edd.), Estudios
de grafemática en el dominio hispano, Salamanca, Instituto Caro y Cuervo/Ediciones
Universidad de Salamanca, 1998, 135–148.
Líbano Zumalacárregui, Ángeles, Evolución y desarrollo del léxico romance en la sociedad
medieval vascongada: los grupos sociales, in: Medina Guerra, Antonia María/Ayala Castro,
Marta C. (coords.), Los diccionarios a través de la historia, Málaga, Universidad de Málaga,
2010, 349–370.
Líbano Zumalacárregui, Ángeles, Historia y léxico medieval del País Vasco: La tierra, el hombre y
su hábitat; transición del latín al romance, in: Clavería Nadal, Glòria/Freixas Alás, Margari-
ta/Prat Sabaner, Marta/Torruella Casañas, Joan (coords.), Historia del léxico: perspectivas
de investigación, Madrid, Iberoamericana, 2012, 93–125.
Líbano Zumalacárregui, Ángeles/Villacorta Macho, Consuelo, Paisaje rural y explotación agrope-

cuaria (Siglos XIII–XVI), Zaragoza, Prensas de la Universidad de Zaragoza, 2013.
Lobo Puga, Ana, Casos de apócope en la documentación medieval del concejo de Miranda de
Ebro, Cuadernos del Instituto de Historia de la Lengua 8 (2013) 173–196.
Lobo Puga, Ana, Grupos consonánticos cultos en la documentación medieval de Miranda de
Ebro, in: Grande López, Clara/Martín Aizpuru, Leyre/Salicio Bravo, Soraya (coords.), Con
una letra joven. Avances en el estudio de la Historiografía e Historia de la Lengua Española,
Salamanca, Ediciones Universidad de Salamanca, 2014, 159–167.
Lobo Puga, Ana, Consonantes implosivas en la documentación medieval de Miranda de Ebro:
-t y -d finales, in: García Martín, José María (dir.), Actas del IX Congreso Internacional de
Historia de la Lengua Española, tomo I, Madrid, Iberoamericana, 2015, 489–505.
Marcet Rodríguez, Vicente J., Las sibilantes en la documentación notarial leonesa en el paso del
latín al romance: alternancia gráfica o confusión fonética, Lletres Asturianes 104 (2011),
15–44.
Marcet Rodríguez, Vicente J., La confusión de sibilantes en el castellano norteño (siglo XIII), in:
Sánchez Méndez, Juan Pedro/Codita, Viorica/de la Torre, Mariela (edd.), Temas, problemas
y métodos para la edición y el estudio de documentos hispanos antiguos, Valencia, Tirant lo
Blanch, 2015, 517–533 (= 2015a).
Marcet Rodríguez, Vicente J., Variación gráfica o cambio fonético: la representación gráfica de
las sibilantes en el castellano norteño, in: Azzopardi, S./Sarrazin, S. (dirs.), Langage et
dynamiques de sens. Études de linguistique ibéro-romane, Bruselas/Berna/Berlín/Fránc-
fort/Nueva York/Oxford/Viena, Peter Lang, 2015 (= 2015b).
Marcet Rodríguez, Vicente J., Contribución al estudio del ensordecimiento de las sibilantes en el
castellano norteño: los documentos de Miranda de Ebro (siglo XIV), in: García Martín, J. M.
(dir.), Actas del IX Congreso Internacional de Historia de la Lengua Española, Madrid,
Iberoamericana, 2015, tomo I, 507–521 (= 2015c).
Martín Aizpuru, Leyre, Sobre el futuro sintético y analítico en la documentación de Miranda de
Ebro, in: Grande López, Clara/Martín Aizpuru, Leyre/Salicio Bravo, Soraya (coords.), Con
una letra joven. Avances en el estudio de la Historiografía e Historia de la Lengua Española.
Salamanca, Ediciones Universidad de Salamanca, 2014, 169–176.
Martín Aizpuru, Leyre, Sobre leísmo, laísmo y loísmo en la documentación de concejo de Miranda
de Ebro (siglo XIII–XIV), in: Actas del XII Congreso Internacional de la Asociación de Jóvenes
Investigadores de Historiografía e Historia de la Lengua Española, Padua (Italia), 2–4 de
mayo de 2012, (en prensa).
Martín Viso, Iñaki, Miranda de Ebro y su comarca en la plena Edad Media (siglos XI–XIII):
formación, desarrollo y consolidación de la villa, in: Peña Pérez, Francisco Javier (coord.),
Miranda de Ebro en la Edad Media, Miranda de Ebro, Ayuntamiento de Miranda de Ebro,
2002, 127–156.
Martínez Ezquerro, Aurora, Afinidades entre los dialectos riojano y aragonés medievales, Archivo
de Filología Aragonesa 56 (2000), 79–94.
Moral del Hoyo, M.ª Carmen, Documentación medieval de Cantabria: Estudio lingüístico (Siglo
XIII), Tesis doctoral inédita, Universidad de Deusto, 2013.
Morala, José Ramón, Las sibilantes en la documentación medieval leonesa, in: Lorenzo, R.
(coord.), vol. IV, Actas del XIX Congreso Internacional de Lingüística e Filoloxía Románica,
La Coruña, Fundación «Pedro Barrié de la Maza, conde de Fenosa», 1993, 99–119.
Morala, José Ramón, Del leonés al castellano, in: Cano Aguilar, Rafael (coord.), Historia de la
lengua española, Barcelona, Ariel, 2004, 555–569.
Osés Marcaida, Cristina, El romance medieval en el País Vasco: los documentos del Concejo de
Segura (Guipúzcoa) (1290–1450), Bilbao, Universidad de Deusto, 1993.
Ramírez Luengo, José Luis, Diacronía y sincronía del uso del condicional por el pasado de
subjuntivo en el castellano del País Vasco, in: Camus Bergareche, Bruno/Gómez Seibane,
Sara (edd.), El castellano del País Vasco, Bilbao, Universidad del País Vasco, 2012, 235–253.
Rodríguez Molina, Javier, La extraña sintaxis verbal del Libro de Alexandre, Troianalexandrina 8
(2008), 115–146.
Ruiz Asencio, José Manuel, Propuesta de elaboración de unas normas de transcripción de textos
castellanos medievales, in: Díez Calleja, B. (ed.), El primitivo romance hispánico, Burgos,
Instituto Castellano y Leonés de la Lengua, 2008, 137–143.
Ruiz Asencio, José Manuel/Ruiz Albi, Irene/Herrero Jiménez, Mauricio (edd.), Los Becerros Gótico
y Galicano de Valpuesta, Burgos, Real Academia Española/Fundación Instituto Castellano y
Leonés de la Lengua, 2010.
Sánchez González de Herrero, M.ª Nieves, Prendas y peños en Miranda de Ebro a comienzos del
siglo XIV, Cuadernos de Historia de España 85–86 (2011–2012), 681–699.
Sánchez González de Herrero, M.ª Nieves, La documentación de Miranda de Ebro (siglos XIII y
XIV), Cuadernos del Instituto de Historia de la Lengua 7 (2012), 425–453.
Sánchez González de Herrero, M.ª Nieves, Aproximación al castellano medieval del norte de
Burgos. Algunas características lingüísticas de la documentación de Miranda de Ebro, in:
Bargalló Escrivá, María/Garcés Gómez, M.ª Pilar/Garriga Escribano, Cecilio (edd.), «Llane-
za». Estudios dedicados al profesor Juan Gutiérrez Cuadrado, La Coruña, Universidade da
Coruña, 2014, 234–247.
Sánchez González de Herrero, M.ª Nieves, De la foija del monte fasta la piera del rio. Variación
gráfica en la documentación de los siglos XIII y XIV de Miranda de Ebro, in: García Martín,
J. M. (dir.), Actas del IX Congreso Internacional de Historia de la Lengua Española, tomo I,
Madrid, Iberoamericana, 2015, 1079–1093.
Sánchez González de Herrero, M.ª Nieves, Algunas particularizaciones sobre el continuo norteño
peninsular en la Edad Media a propósito de la documentación de Miranda de Ebro, Oihenart
28 (2013), 9–47.
Sánchez González de Herrero, M.ª Nieves, et al. (dir.), Documentos medievales de Miranda de
Ebro (Archivos Municipal de Miranda de Ebro e Histórico Provincial de Burgos). I. Documen-
tación de concejo, Salamanca, Luso-Española de Ediciones, 2014 (= 2014a).
Sánchez González de Herrero, M.ª Nieves, et al. (dir.), Documentos medievales de Miranda de
Ebro (Archivos Municipal de Miranda de Ebro e Histórico Provincial de Burgos). II. Documen-
tación de cancillería, Salamanca, Luso-Española de Ediciones, 2014 (= 2014b).
Sánchez González de Herrero, M.ª Nieves, et al. (dir.), Textos para la historia del español
IX. Documentos medievales de Miranda de Ebro, Alcalá de Henares, Universidad de Alcalá,
2014 (= 2014c).
Sánchez Romo, Raquel, Los posesivos en la documentación medieval de Miranda de Ebro,
Cuadernos del Instituto de Historia de la Lengua 8 (2013), 269–298.
Sánchez-Prieto Borja, Pedro, Fonética común y fonética de la lectura en la investigación sobre los
textos castellanos medievales, in: Atti del XXI Congreso Internazionale di Lingüística e
Filologia Romanza, vol. 1, Tubinga, Max Niemeyer, 1998, 455–470.
Sánchez-Prieto Borja, Pedro, La edición de textos españoles medievales y clásicos. Criterios de
presentación gráfica, San Millán de la Cogolla, Cilengua, 2011.
Sánchez-Prieto Borja, Pedro/Torrens Álvarez, M.ª Jesús, Las tradiciones de escritura del País
Vasco comparadas con las regiones limítrofes, Oihenart 23 (2008), 481–502.
Saralegui, Carmen, El dialecto navarro en los documentos del monasterio de Irache (958–1397),
Pamplona, Diputación Foral de Navarra/Institución Príncipe de Viana/CSIC, 1977.
Saralegui, Carmen, Aragonés/Navarro. Evolución lingüística externa e interna, in: Holtus, Gün-
ter/Metzeltin, Michael/Schmitt, Christian (edd.), Lexikon der Romanistischen Linguistik,
vol. 1, Tubinga, Niemeyer, 1992, 37–54.
Catarina Carvalheiro, Ana Luísa Costa, Rita Marquilhas,
Clara Pinto, Fernanda Pratas e Gael Vaamonde
A idade dos «desvios»: diacronia, variação
social e linguística de corpus
1 Introdução
Entre os corpora diacrónicos de línguas ibero-românicas atualmente em constru-
ção, figura o caso do P.S., Post Scriptum1 doravante Post Scriptum, sediado no
Centro de Linguística da Universidade de Lisboa e objeto deste trabalho. A sua
cronologia é a da Idade Moderna —recolhem-se textos de um intervalo que se
estende do século XVI ao início do século XIX— e as línguas em causa são o
espanhol e o português. Com este corpus pretende-se constituir uma amostragem
do uso das duas línguas nos seus espaços europeu e extraeuropeu ao longo
daqueles séculos.
Com efeito, verifica-se ao nível das fontes históricas portuguesas e espanho-
las que a documentação oficial dos tribunais dos dois reinos conservou peças de
especial relevância histórico-linguística: cartas particulares de gente diversa,
muita dela gente vulgar. Ficaram arquivadas dentro de processos civis e, sobretu-
do, de processos criminais, e foram contextualizadas pelos próprios tribunais que
as usaram como instrumento de prova para perseguir os respetivos autores,
destinatários, ou indivíduos com eles relacionados.
Apesar de ser evidentemente variado o tipo de utilização a que se presta um
recurso baseado em documentação que espelhe usos quotidianos da língua, ele é
sobretudo um recurso novo para a perspetiva da Sociolinguística Histórica.
Permite recolher dados abundantes e fidedignos no estudo da mudança linguísti-
ca, abrindo a hipótese de uma fina reconstituição diacrónica da sua variação
geográfica e social. Com fontes de tal natureza, e com esta facilidade de pesquisa,
minimiza-se consideravelmente um risco conhecido em Linguística Histórica: o
de se construir conhecimento pouco verificável do ponto de vista empírico. Terttu
Nevalainen descreveu assim esse risco:
1 O projeto P.S., Post Scriptum: Arquivo digital da escrita quotidiana em Portugal e Espanha na
época moderna é financiado pelo Conselho Europeu de Investigação (7FP/ERC Advanced Grant
2011, Grant Agreement 295562).
Catarina Carvalheiro, Ana Luísa Costa, Rita Marquilhas, Clara Pinto, Fernanda Pratas e
Gael Vaamonde: CLUL – Universidade de Lisboa
176 Catarina Carvalheiro et al.
[L]ooking for authentic material produced by individuals, the historical sociolinguist is

faced with the fact that it is only available from the literate section of the population. This
represents the tip of the iceberg at a time when the vast majority of the population was
illiterate. As the social structures of an earlier era are not familiar to the researcher, they
have to be reconstructed on the basis of social, demographic and economic history. Placing
historical linguistic findings in their social contexts thus requires more back-ground infor-
mation than those present-day studies in which the researchers are familiar with the
communities they [study] (Nevalainen 2011, 281).
Pretende-se que os materiais do Post Scriptum contornem os problemas aponta-

dos na citação acima em função dos seguintes factos:
– incluem muitas cartas originais de natureza privada escritas por falantes
semi-alfabetizados, não só por falantes letrados;
– incluem amostras de uso da língua por parte de atores sociais de estratos
muito diversos;
– muitas das histórias de vida dos agentes em causa, tanto na sua faceta de
falantes, como na de atores sociais, são do nosso conhecimento porque o
próprio tribunal as investigou e reconstituiu;
– muitas situações de comunicação relacionadas com os documentos são
também conhecidas, fruto da mesma investigação judicial.
O Post Scriptum estará finalizado em 2017, com uma envergadura de dois milhões
de palavras —um milhão para cada língua—, mas a partir dos materiais já
disponíveis, que ultrapassam meio milhão de palavras, é possível extrair amos-
tras para fundamentação dos dois argumentos que queremos defender concreta-
mente: i) o de que o conceito de desvio linguístico é facilmente desmontável com a
demonstração da antiguidade de processos que, enquanto «desvios», costumam
ser estigmatizados pelo público leigo; ii) o de que os atlas histórico-dialetais são
um recurso linguístico que se pode realizar, hoje em dia, com um grau de
incerteza cada vez mais insignificante. No presente artigo, após uma descrição
sumária do Post Scriptum (secção 2), apresentaremos exemplos ilustrativos dos
dois argumentos. Na secção 3, ocupamo-nos da existência de pois como marcador
discursivo em usos não descritos nas gramáticas tradicionais. Na secção 4, do uso
de cujo sem valor possessivo. Na secção 5, descrevemos o grau de difusão e a
distribuição geográfica dos usos inovadores dos pronomes átonos da terceira
pessoa em espanhol; estes usos não respeitam a função sintática do referente,
traduzindo-se em fenómenos conhecidos como leísmo, laísmo e loísmo. Final-
mente, na secção 6, apresentamos uma breve conclusão e perspetivas para traba-
lhos futuros.
2 Corpus Post Scriptum

A equipa do Post Scriptum, formada por historiadores e linguistas portugueses e
espanhóis, desempenha a tarefa de verificar milhares de processos, desde os mais
importantes, que são os da Inquisição, aos da justiça episcopal, da Coroa, periféri-
ca da Coroa, da Intendência da polícia e das ordens militares. O ordenamento
jurídico do Antigo Regime oferece, com efeito, o panorama de um sistema plural,
panorama esse que tinha raízes medievais e só desapareceu com a racionalização
iluminista que acompanhou a instituição dos estados liberais no século XIX.
Significa isto que havia muitas justiças paralelas na Idade Moderna. A Igreja tinha
duas, a da Inquisição, que perseguia os crimes contra o 1.° mandamento, e a
episcopal, que perseguia os outros «pecados», sendo que pecado e crime podiam
ser conceitos sinónimos (Carvalho 1988). A justiça da Coroa, por seu lado, perse-
guia crimes contra a estabilidade do Estado e podia ser ministrada no centro dos
reinos ou na periferia (caso da justiça periférica da Coroa, a cargo dos juízes de
fora); a Intendência da Polícia velava pela segurança nas cidades; a das ordens
militares era aquela onde tinham direito a ser julgados, como privilégio, os
indivíduos com a distinção de cavaleiros. Havia, finalmente, mas também com
grande protagonismo, a justiça local (Hespanha 2003).
O paralelismo entre estas justiças traduzia-se num considerável equilíbrio de
poderes: «Cada corpo [era] provido de uma jurisdição que permit[ia] uma espécie
de autogoverno: a possibilidade de ter magistrados próprios, a capacidade de
julgar os seus próprios conflitos internos, o poder de fazer leis» (Camarinhas
2010, 19). Na Inquisição, por exemplo, apesar de a maioria dos processos ser de
judaísmo, havia também processos movidos aos familiares do Santo Ofício que
faltassem às suas obrigaçãos, ou a sujeitos externos que se fizessem passar por
familiares do Santo Ofício. A variedade de documentação processual gerada por
todo este sistema está, por conseguinte, bastante garantida, como garantido está
um espelhamento verosímil do dinamismo da sociedade da época.
Em termos de faseamento e metodologia de trabalho, sempre que se depara
nos arquivos com processos de qualquer daqueles tribunais que contenham
cartas privadas enquanto prova instrumental, a equipa do Post Scriptum trans-
creve-as, digitaliza-as e edita-as em função dos mesmos cuidados que a crítica
genética dedica ao manuscrito de autor literário (Grésillon 1994; Castro 2001).
Trata-se, com efeito, de documentos originais que exibem vestígios materiais do
processo da respetiva génese,2 sendo por isso mesmo extremamente ilustrativos
2 Algumas cópias são também transcritas, no caso de serem historicamente relevantes. Mas
essas não integram o corpus linguístico anotado; só são utilizadas enquanto fontes históricas.
dos juízos metalinguísticos dos falantes envolvidos. Reconstitui-se também a

situação de comunicação e classificam-se sociologicamente, com o máximo pos-
sível de dados, os perfis de autores e destinatários, com base no que ficou
indicado pelos tribunais que recolheram aqueles documentos.
A digitalização do facsímile da carta, a transcrição e a edição, bem como as
bases de dados históricos e biográficos associados, são todos eles recursos torna-
dos acessíveis num ambiente online que permite não só a edição interativa, como
a anotação automática e uma potente busca cruzada na plataforma TEITOK
(Janssen 2014),3 especialmente construída para processar documentos em formato
XML-TEI, que é o formato adotado pelo Post Scriptum.4 O TEITOK tem incorporado
um sistema, originário do CorpusWiki,5 que permite que as tarefas de moderniza-
ção ortográfica, lematização, anotação morfossintática e alinhamento com a
anotação sintática sejam automaticamente efetuadas, não dispensando, evidente-
mente, um refinamento manual.
Quanto à edição digital propriamente dita, ela cabe na categoria a que se vem
chamando, em Humanidades Digitais, «edição digital documentária», composta
pela fonte, pelos resultados do seu tratamento editorial e pelas ferramentas infor-
máticas que permitiram que o mesmo tratamento se processasse (Pierazzo 2011).
Assim, qualquer investigador pode replicar todas as experiências já feitas com os
mesmos dados.
Na anotação morfossintática, adota-se o sistema de etiquetas Eagles, leve-
mente modificado para garantir compatibilidade com recursos comparáveis,
nomeadamente o corpus Tycho Brahe,6 CORDIAL-SIN7 e WOChWEL.8 Na anotação
sintática, segue-se o sistema de anotação dos Penn Parsed Corpora of Historical
English (Kroch/Santorini/Delfs 2004) mediante o recurso a um analisador sintáti-
co de base estatística (Collins 1999 e Bikel 2004) e a uma interface gráfica de
edição da anotação, a ferramenta CorpusDraw, que integra o motor de busca
CorpusSearch2,9 desenvolvido por Randall (2005–2007). Ambas as anotações,
morfossintática e sintática, uma vez que estão alinhadas com a marcação do
texto, são plenamente pesquisáveis em articulação com os dados extralinguísti-
cos, sejam eles cronológicos, geográficos ou sociais.
3 Cf. http://alfclul.clul.ul.pt/teitok/site/index.php [última consulta: 06. 01. 2016].

4 Cf. http://ps.clul.ul.pt [última consulta: 06. 01. 2016].
5 Cf. http://www.corpuswiki.org/ [última consulta: 06. 01. 2016].
6 Cf. http://www.tycho.iel.unicamp.br/corpus/ [última consulta: 06. 01. 2016].
7 Cf. http://www.clul.ul.pt/sectores/cordialsin/projecto_cordialsin.html [última consulta: 06. 01.
2016].
8 Cf. http://alfclul.clul.ul.pt/wochwel/index.html [última consulta: 06. 01. 2016].
9 Cf. http://corpussearch.sourceforge.net [última consulta: 06. 01. 2016].
3 Pois como marcador discursivo

O primeiro caso que apresentamos diz respeito a funções de pois ignoradas pelas
gramáticas tradicionais e, consequentemente, excluídas da descrição gramatical
consagrada a usos da variedade padrão.
3.1 Pois na tradição gramatical
Não é difícil encontrar, em gramáticas e dicionários, exemplos que permitem

classificar pois como conjunção coordenativa explicativa ou análises que procu-
ram explicar quer o seu estatuto ambíguo entre subordinador e coordenador, quer
o seu valor causal ou explicativo (Brito 2003; Cunha/Cintra 1984; Lobo 2001 e
2013; Matos e Raposo 2013; Mendes 2013; Peres 1997; e.o.). Também se obtém com
relativa facilidade, e nas mesmas obras de referência, informação sobre o valor
conclusivo de pois, determinado pela sua ocorrência em posições intercaladas na
frase. Além destas funções, associadas ao estabelecimento de conexões interfrási-
cas, pois é ainda reconhecido em instrumentos de normalização linguística como
advérbio de afirmação, veiculando normalmente valor confirmativo.
O percurso histórico de pois, de advérbio a conjunção temporal, como no
exemplo (1), a conjunção subordinativa causal, como no exemplo (2), a conjunção
coordenativa causal/explicativa, como no exemplo (3), tem sido, igualmente,
objeto de atenção de alguns estudos (Fiéis/Lobo 2009; Lima 2002, e.o.).
(1) Mando o meu salteyro grande a Jo(han) Ean(e)s, sucelareyro, q(ue) o aia elle en sua
uida & poys sua mort(e) que fique ao m(o)est(e)i(r)o
(Doc. 55, Orense (1281); Maia 1986, 133)
(2) Outrossi pediu que pois o dito scudeiro nõ pagaua o dito trebuto ao dito Monsteiro que
lhj abrisse mão das ssas herdades
(DN091 (1339); Martins 2001, 571)
(3) Andei mais devagar do que o normal, pois não havia razão para correr riscos.
(CRPC, O Jogo, apud Mendes 2013, 1732)
Contudo, o contacto com o nosso corpus de escrita do quotidiano, que preserva

alguma proximidade com o género dialogal, torna evidente que o leque de funções
enunciadas para pois é insuficiente para dar conta de todos os seus contextos de
uso. Disso são exemplo as ocorrências de pois no excerto transcrito em (4).
(4) Pois vosa senhoria non fica Pobre / e non le sosedera mal Algum / Pois se nom me
mandar le aguro pe/lo santisimo sacramento tamta / huma Parte como hotra P fica
queimada / e para heste dinhiro som 20 e 4 [. . .] / omes e todos estam d espias e / e

manda rar hotro emteregorom / e o portador esta Inosemte Pois / he mandado Pois os
20 e 4 estam / De Parte Pois se nom quer mam/dalas emPrestemas Pois obrigome pe/la
fe que Profeso demtero em ter / meses mandalas e sabera quem he / e me dara As
Alvisas
(CARDS0004 (1825); CLUL 2014)
3.2 Funções discursivas de pois
Se pois tem, em alguns contextos, uma distribuição conjuncional e pode ser

interpretado como tendo valor explicativo, como se pode verificar nas paráfrases
em (5) e (6), nas quais se substituiu pois por porque, o mesmo não se aplica aos
restantes contextos, como se atesta, por exemplo, na estranheza de (7).
(5) E o portador está inocente, porque é mandado.
(6) […] se não quer mandá-las, empreste-mas, porque me obrigo, pela fé que professo,
dentro em três meses mandá-las,
(7) #Porque os 20 e 4 estão de parte. #Porque, se não quer mandá-las, empreste-mas
A proposta de normalização (4') do excerto antes transcrito em (4) evidencia que

alguns pois estão associados a fronteiras prosódicas com uma marcação diferente
da de subordinadas explicativas. Em casos como os de (7), pois tem uma pausa ou
quebra entoacional anterior mais acentuada, o que é comum entre marcadores
discursivos (Fraser 1999; Martín Zorraquino/Portolés Lázaro 1999).
(4') Pois Vossa Senhoria não fica pobre e não lhe sucederá mal algum. Pois, se não me
mandar, lhe juro, pelo Santíssimo Sacramento, tanta uma parte como outra fica
queimada. E para este dinheiro são 20 e 4 [. . .] homes, e todos estão d'espias, e manda
rar outro entregaram. E o portador está inocente, pois é mandado. Pois os 20 e 4 estão
de parte. Pois, se não quer mandá-las, empreste-mas, pois obrigo-me, pela fé que
professo, dentro em três meses mandá-las. E saberá quem é, e me dará as alvíssaras.
(Ed. modernizada, CARDS0004 (1825); CLUL 2014)
Crucialmente, estes pois estabelecem a ligação entre dois segmentos de discurso

sem contribuir para a interpretação do conteúdo proposicional de nenhum dos
segmentos, como acontece quando funciona como conjunção explicativa ou
como advérbio conetivo conclusivo. A sua função parece antes ser a de orientar o
ouvinte/leitor quanto à natureza da informação que introduz, tal como refere
Fraser (1999, 946) relativamente a «marcadores discursivos que relacionam tópi-
cos». Concretamente, pois parece desempenhar uma função de estruturação da
informação, ao nível da tematização, assegurando a introdução de informação

discursivamente nova e relevante para o mesmo tópico discursivo, que, em (4), é
a entrega de dinheiro ‒ tema dominante desta carta de extorsão.
Esta atuação de pois ao nível da estrutura temática e informacional não é a
sua única função como marcador discursivo. Em Lopes (1991) apresenta-se uma
identificação de funções a nível pragmático relativamente a contextos como (8),
nos quais pois introduz, no português contemporâneo, um enunciado que consis-
te numa reação a um ato ilocutório anterior.
(8) – Estou com sono!

– Pois deita-te.
(Lopes 1991, 185)
Na análise do percurso diacrónico de pois, entre conjunção e marcador discursivo

fático, Lima (2002) considera vários exemplos em que este marcador, à semelhan-
ça do que se observa em (8), introduz enunciados que instanciam reações a atos
ilocutórios presentes no discurso precedente, como (9), um exemplo do século
XVI.
(9) Ines Pereyra. Marido nam digo isso,

Pe. Pois q(ue) dizeis vos molher
Ines. Yr folgar onde eu quiser
(Gil Vicente, Inês Pereira, ed. C. A. Ribeiro, ll. 1002–1004 apud Lima 2002)
3.3 Um pois estruturador
A análise dos pois existentes nas cartas portuguesas do Post Scriptum, além de
atestar exemplos de usos conjuncionais e adverbais como os inicialmente descri-
tos, e de registar um elevado recurso a pois como marcador discursivo, com
diversas funções, permitiu identificar uma função de estruturador temático-infor-
macional e perceber que esta especificação tem um uso crescente até ao século XX.
Embora não haja eco da função de marcador discursivo estruturador nas gramáti-
cas e estudos que se debrucem sobre os valores de pois, o seu uso parece ter sido
produtivo no português da Idade Moderna e mantém-se ativo no português con-
temporâneo.
Os enunciados em (10), (11) e (12) incluem exemplos deste pois estruturador
dos séculos XVIII, XIX e XX, respetivamente.
(10) eu pesote pelo amor deos q(ue) te Lenbres q(ue) eu sou teu marido pois torna a pedir a
Senhora q(ue) pedia por mim que me valha
(CARDS0033 (1791), CLUL 2014)
(11) [Munto estimarei que te tenhas tido felecidades Como eu p(ar)a mim dezejo i Junta-
mente em Comp(anhi)a da nosa Mai dos mais irmaus.]arenga
Pois eu sahi da cidade do porto a dezoito de no(vem)bro de mil 818 i chiguei aqui a esta
prisão de desta cida do Rio de jan(ei)ro Com trinta digo Com sesenta dias de viaige.
(CARDS7052 (1818), CLUL 2014)
(12) poues cá reçebim a aeçomenda que de lisboa poues esquzavas de andar a ecomodar
esa xente poues a gente ca gozaramos pouco pela pascoa que a gente não tinha alegria
para iço q estava pera açentar paraça o meu [N]
(FLY2153 (1917), Marquilhas 2010)
Destes exemplos, salienta-se que, em (11) e em (12), pois se encontra em início

absoluto, anunciando um novo tópico discursivo; quando não se encontra em
posição inicial absoluta, contribui para a progressão temática, introduzindo
novas informações relativas ao tópico anterior.
Face à constatação da existência deste marcador discursivo, pelo menos
desde o século XVIII, desenvolvemos uma análise exploratória da sua distribui-
ção por século. Para isso, foi considerada uma amostra de cerca de 2095 cartas,
das quais apenas 803 continham estruturas com pois, havendo 1912 ocorrências
na totalidade. Devido à falta de equilíbrio da distribuição pelos diferentes séculos,
classificaram-se cerca de cem estruturas por cada século. As cartas dos séculos X-
VII, XVIII e XIX pertencem ao Post Scriptum e as cartas do século XX estão
disponíveis no corpus FLY.10 Na tabela 1, sistematizam-se os resultados.11
Tabela 1: Ocorrências de pois estruturador por século
Séculos XVII XVIII XIX XX Totais

Dados
Estruturas analisadas 105 101 101 112 419
Totais de pois estruturador 0 10 18 33 61
% de pois estruturador 0 9,9 % 17,8 % 29,5 % 14,5 %
Os resultados apresentados confirmam a produtividade de pois como marcador

discursivo estruturador nas interações discursivas do género epistolar, que po-
dem ser entendidas como janelas temporais de registos menos formais do portu-
10 Cf. http://fly.clul.ul.pt/ [última consulta: 06. 01. 2016].

11 Uma análise mais detalhada dos dados do século XX, relativos ao corpus FLY, é apresentada
em Costa (2014).
guês da Idade Moderna. Esta análise contrapõe-se às descrições gramaticais

tradicionais, que restringem as funções de pois, e ilustra a importância de se
considerarem corpora linguísticos como o Post Scriptum para se evitarem margi-
nalizações de alguns usos de língua.
4 Cujo: ocorrências não canónicas em português a

partir do século XVII
O segundo exemplo que apresentamos é o da ocorrência do relativo cujo despro-
vido de valor possessivo, o que constitui um outro caso de estrutura linguística
considerada marginal, embora consagrada pelo uso.
4.1 Palavra relativa possessiva
Em todas as fases da língua portuguesa, cujo está atestado como palavra relativa
que exprime uma relação semântica de «posse material ou jurídica, mas também
de parentesco ou relação entre a parte e o todo» (definição para o português
contemporâneo em Raposo 2013, 906). Cumulativamente, cujo apresenta-se tam-
bém, até ao séc. XVI, como uma variante de de quem, expressão relativa e
interrogativa (cf. Martins 2003, 57).
(13) Emtam lhe pregumtou Lionel:

‒Estes tindilhõões cujos sam?
(DSG172,1.18/ID)
Enquanto palavra relativa, cujo desempenha duas funções. Por um lado, retoma o
antecedente nominal que corresponde ao possuidor, como ilustrado em (14):
(14) A Ana, cujo colar desapareceu, queixou-se à polícia.

(Veloso 2013, 2097)
Por outro lado, atribui uma interpretação definida ao «sintagma nominal que
forma o constituinte relativo», sendo, assim, proibida a sua ocorrência com um
determinante com valor (in)definido (15):
(15) *comprei um livro as cujas páginas vinham rasgadas.

(Veloso 2013, 2097)
4.2 Uso não possessivo
Num registo muito específico do português europeu contemporâneo, encontra-

mos, no entanto, um uso de cujo não possessivo, ilustrado em (16):
(16) […] e foi a mulher quem salvou a situação oferecendo um copo de água à velhota e um
anis ao senhor, cujo vestia um casaco de quarto agaloado, no fio, e calças creme
compridas de mais […]
(António Lobo Antunes, Fado Alexandrino, 1983)
Em Moreira (1907, 40), ficamos a saber a posição que este uso não possessivo de
cujo suscita da parte das gramáticas normativas: «A fórma cujo apparece uma ou
outra vez, todavia usada apenas por pessoas de limitada leitura e pretenciosas [e]
por pessoas letradas, de certo por descuido» […] «A sua construcção, porém,
afasta-se da que é ensinada pelos grammaticos». Estas observações tomavam
como exemplos frases como as que se seguem, de uma personagem criada por
Camilo Castelo Branco, que é satirizada pelo autor:
(17) […] tudo em nome do seu particular amigo José Bernardo e do mano conde, cujos,
dizia, são meus íntimos […]
(Camilo Castelo Branco, A Corja, 1880)
Curiosamente, no Post Scriptum, encontramos um cujo com uso semelhante ao

que é condenado por Moreira (1907). Partindo de uma amostra de 800 cartas do
Post Scriptum, verificamos que as atestações deste cujo não possessivo começam
no século XVII.
(18) hum arratel de xá bom cujo he de preso 1600 [réis]

(CARDS2160 (177?), CLUL 2014)
O uso de cujo exemplificado em (18) parece equivaler ao uso de o qual, em (19),

também ele expressão relativa não possessiva. Assumindo como hipótese de
investigação uma possível alternância, na diacronia do português, entre as duas
expressões pronominais, apresentamos o paralelismo entre cujo e o qual, partin-
do da descrição feita por Cardoso (2008, 2010, 2011) sobre o uso de o qual, até ao
século XVII, em contextos de coordenação especificante (de Vries 2002).
(19) entrego e outorgo. ao Mosteiro de san Saluador de Moreyra. Hũu casal que e en Rial de
Pereyra. o qual casal a dita dona Mayor uëegas (. . .) mandou ao dito Mosteiro.
(1282, Martins 2001)
De acordo com Cardoso, existem várias propriedades que permitem distinguir o

uso de o qual em português europeu contemporâneo do seu uso enquanto coor-
denação especificante até ao século XVII.
A primeira dessas propriedades diz respeito ao facto de o sintagma nominal

em que estas expressões participam poder ou não ter um núcleo interno. Quando
esse núcleo interno ocorre, pode ter uma forma diferente da do antecedente da
expressão relativa. Verificamos que, tal como acontece com o qual, em (20),
também o sintagma nominal encabeçado por cujo pode apresentar núcleo inter-
no, lexicalmente diferente do seu antecedente. No exemplo (21), o antecedente «a
quantia de Sem mil reis em moeda papel» é recuperado por «dinheiro».
(20) mostrarõ logo ẽ Jujzo húú testamẽto (21) intregara ao portador desta a quantia
[. . .] na qual mãda fazía mẽçom Antre de Sem mil reis em moeda papel e fixa-
as outras coussas que A mãdara fazer das dentro de huma carta pois he para
Sancha gíl. livramento de hum nosso companheiro
q(eu) se acha prezo nessa Cadeia e cujo
d(inhei)ro he p(ar)a sua soltura
(1328, Martins 2001) (CARDS0087 (1824), CLUL 2014)
Além disso, esse núcleo interno pode também ser modificado: em (22), o nome
«casal», núcleo interno do sintagma nominal encabeçado por o qual, é modifica-
do por «com suas perteenças»; em (23), «almocreve», núcleo interno do sintagma
nominal encabeçado por cujo, é modificado por «dito».
(22) o quall casal com suas perteenças dis- (23) vindo de palmela para as virtudes ca
se que trazia ẽ pregã por esta banda encontrei hum almocre-
ve e o cujo dito almocreve trazia duas
bestas dezocopadas
Outra propriedade identificada em Cardoso para o qual em contextos de coorde-

nação especificante relaciona-se com o antecedente, que, ao contrário do que
acontece com o qual do português europeu contemporâneo, pode ser oracional.
Mesmo nesse caso, o núcleo interno é sempre nominal, como se verifica em (24).
Com cujo ocorre uma situação idêntica, como se ilustra no exemplo (25), em
que o antecedente oracional é recuperado sob a forma nominal «ouCazião».
(24) os ditos cassaaes fforõ cõprados dos (25) Paçado o emtrudo paçamos a Almada
dinheiros do dito mosteiro polla quall fazer a Correição, em cuja ouCazião
Razom de derejto perteçem e perte- hei de paçar a essa Ci(da)de
çyam ao dito mosteiro
Também para ambas as expressões que aqui comparamos, o constituinte relativo

pode ser extraposto. Veja-se os exemplos em (26) e (27).
(26) — Senhor, chegou ally o allmocadẽ, e (27) intregara ao portador desta a quantia
pareçe-me que diz que lhe he neçessa- de Sem mil reis em moeda papel e fixa-
rio de vos fallar llogo amte que ama- das dentro de huma carta pois he para
nheça. O qual comde mamdou que livramento de hum nosso companheiro
viesse. q(eu) se acha prezo nessa Cadeia e cujo
d(inhei)ro he p(ar)a sua soltura
(séc. XV, Brocardo 1997) (CARDS0087 (1824), CLUL 2014)
Ainda em ambos os casos, a força ilocutória da oração relativa pode ser indepen-
dente da oração que inclui o antecedente. Assim, nas frases em (28) e (29), com o
qual e cujo, respetivamente, a oração que contém o antecedente tem um objetivo
diretivo e a força ilocutória de ‘instruções’, enquanto a oração relativa, manten-
do-se diretiva, já tem a força ilocutória de ‘pedido’ (Searle 1975, 346).
(28) Com o teor do qual mandei passar esta (29) Fasme o favor de ajuntares a demasia
carta testemunhável ao dito Bento q(u)e te pedi q(u)e são 240 o q(u)e te
Henriques, à qual mando que seja dada ficarei obrigado pois estou nesta ora
tanta fé e autoridade, em juízo e fora sem hum vintem em casa cujo favor eu
dele, e onde quer que fôr apresentada, to agradecerei
quanta por direito se lhe deve dar. O
qual uns e outros assim cumpram e al
não façais
(1578, Pereira 1987) (CARDS6069 (1828), CLUL 2014)
Finalmente, a palavra relativa pode, em ambos os casos, co-ocorrer com uma

conjunção coordenativa.Vejam-se os exemplos (30) para o qual e (31) para cujo.
(30) custumarõ dauer e ouuerom no dicto (31) desta tua Molher e que munto te quer e
Monsteiro bõa raçom e mãtijmeto de a cucha te dezega para meu emparo de
pam aluo boroa. carne e vıho e o qual teos filhos
mãtijmeto os Priores [. . .] auiã e som
theudos de dar ao dicto conueto
Encontram-se ainda por atestar no Post Scriptum outras propriedades descritas

por Cardoso, nomeadamente pied-piping de um Determiner Phrase (DP) (quando
um sintagma nominal mais vasto é movido juntamente com a expressão relativa);
um nome próprio como núcleo interno da expressão relativa; coordenação do
pronome relativo com um grupo nominal; e um antecedente descontínuo. Procu-
rar esta evidência é um dos objetivos do nosso trabalho futuro.
Consideramos, no entanto, que a ausência de atestações para as proprieda-
des acima listadas não inviabiliza a conclusão de que cujo não possessivo se
apresenta no corpus como um caso de coordenação especificante, semelhante a o
qual.
4.3 Evolução diacrónica
A coordenação especificante com o qual vai desaparecendo da documentação

escrita, embora no século XX ainda se encontre em «contextos literários ou
registos de grande formalidade» (Veloso 2013, 2096; Brito 1991). Isto é diferente do
que acontece com a coordenação especificante com cujo, que, por um lado,
permanece ao longo dos séculos XVII, XVIII e XIX (como atestam os exemplos
extraídos do Post Scriptum) e, por outro, surge, no século XX (a) condenado nas
gramáticas normativas (Moreira 1907); (b) abonado na dialetologia do português
europeu (Barreiros 1917) e na descrição de variedades não europeias de português
(Brito 2001); e (c) consagrado no registo literário, como se viu no exemplo (16),
aqui repetido em (32), a que agora juntamos um outro, em (33).
(32) […] e foi a mulher quem salvou a situação oferecendo um copo de água à velhota e um
anis ao senhor, cujo vestia um casaco de quarto agaloado, no fio, e calças creme
compridas de mais […]
(António Lobo Antunes, Fado Alexandrino, 1983)
(33) Ali […] corre um rio, o Irati, que, nascido em França, vai desaguar no Erro, espanhol,
por sua vez afluente do Aragón, o qual é tributário do Ebro, cujo finalmente levará e
lançará no Mediterrâneo as águas de todos.
(José Saramago, Jangada de Pedra, 1986)
5 Leísmo, laísmo, loísmo no espanhol:

distribuição e algumas evidências12
Como caso concreto para o espanhol, escolhemos um problema bem conhecido da
sintaxe hispânica: a variação no uso dos pronomes átonos da terceira pessoa. É
sabido que esta variação permite estabelecer uma diferença entre os chamados
usos canónicos ou etimológicos —formas de acusativo la(s), lo(s) para objeto
direto (OD) e formas de dativo le(s) para objeto indireto (OI)— e os chamados usos
inovadores ou confundidores, que não respeitam a função sintática do referente,
dando lugar, assim, a fenómenos conhecidos como leísmo, laísmo e loísmo. Na
presente secção, levaremos a cabo uma breve análise quantitativa baseada, sobre-
tudo, em duas questões: 1) o grau de difusão dos usos inovadores e 2) sua
distribuição geográfica no território peninsular espanhol. Para cumprimento deste
12 Para mais informação, consultar uma versão ampliada deste trabalho em Vaamonde (2015).
pressuposto, alicerçámos a pesquisa num corpus de 784 cartas de 358 autores

diferentes, o que equivale a um total de 4.460 ocorrências.
5.1 Graus de difusão
A tabela que se segue permite verificar qual o panorama geral da variação dos
pronomes em causa no nosso corpus. Nela encontramos a percentagem de uso de
leísmo, laísmo e loísmo organizada por século. De notar que a coluna da direita
dá conta da percentagem total de inovação.13
Tabela 2: Percentagem de leísmo, laísmo e loísmo
leísmo laísmo loísmo inovação total
séc. XVI 23 24 0 16
séc. XVII 26 14 1 16
séc. XVIII 27 42 2 22
séc. XIX 21 39 0 15
TOTAL 25 34 1 18
Os dados obtidos permitem que teçamos algumas reflexões de ordem geral. Em

primeiro lugar, mostramos que tanto o leísmo quanto o laísmo apresentam uma
frequência muito maior do que o loísmo, que se revela, definitivamente, como um
fenómeno residual. Na literatura (Lapesa 1968, 305; Fernández-Ordóñez 1999,
1320), tem-se considerado recorrentemente o loísmo como uma confusão prono-
minal de baixa frequência, indo os dados do nosso corpus ao encontro de tal
assunção.
Em segundo lugar, importa notar que as percentagens totais de inovação não
totalizam 25 % em nenhum dos períodos, o que demonstra um claro predomínio
13 A percentagem de leísmo foi calculada contabilizando o número de formas le(s) com função
de OD no total de clíticos com função de OD (foram, portanto, descartados os casos de lo com
referente neutro, dado que não entram em competição com nenhuma outra forma pronominal em
espanhol). Chegou-se à percentagem de laísmo calculando o número de formas la(s) em função
de OI no total de clíticos com referente feminino em função de OI. Por último, chegou-se à
percentagem de loísmo contabilizando o número de formas lo(s) em função de OI no total de
clíticos com referente masculino ou neutro em função de OI. As frequências absolutas correspon-
dentes podem ser consultadas no Apêndice 1, no final do artigo.
das distinções canónicas no emprego dos clíticos. Contudo, a percentagem de

inovação com que trabalhamos (18 %) é bastante relevante se a cotejarmos com
outros estudos diacrónicos baseados em corpora. A título de exemplo, Flores
Cervantes (2006), num corpus predominantemente literário do século XII ao XIX,
obtém uma percentagem total de inovação de 12 %. Assumindo que qualquer tipo
de comparação está circunscrita, em última instância, à língua escrita, parece
viável reconhecer diferenças de ocorrência significativas entre o corpus de Flores
Cervantes, de marcado caráter literário, e o corpus por nós analisado, composto
por cartas privadas de caráter informal. O uso dos pronomes constitui um marca-
dor sociolinguístico, de tal forma que certas manifestações inovadoras —de
laísmo e loísmo— estão associadas, desde há muito, a variedades não standard
da língua. É por conseguinte plausível que o estilo familiar e popular das cartas
do Post Scriptum possa favorecer —ao contrário do que ocorre na produção
literária— a manifestação de traços vernáculos, entre os quais se incluem os usos
inovadores dos clíticos.
Por fim, parece-nos interessante ressaltar que a ocorrência de usos laístas se
mantém presente nos nossos dados do séc. XIX, atingindo 39 %. De notar que a
norma académica tinha encetado nos finais do séc. XVIII uma atitude de censu-
ra para com os usos confundidores, que não distinguem caso, o que se traduziu
numa progressiva regressão do seu emprego na variedade culta da língua. Tal
condicionante levou alguns autores a considerar os textos escritos depois dessa
época uma fonte ilegítima de dados para o estudo da variação pronominal
(Fernández-Ordóñez 1993, 70; 1999, 1322). Claramente, esta condicionante não
se aplica ao nosso corpus, cujos textos foram escritos, na sua maioria, por
pessoas pertencentes a classes populares, muitas das quais semiletradas. Não
estamos, pois, perante uma documentação que reflita uma aproximação pro-
gressiva à variedade padrão. A percentagem de 39 % de usos laístas do séc. XIX
sugere, em nosso entender, a pouca ou nula influência que as decisões acadé-
micas poderiam exercer sobre as variedade linguísticas mais espontâneas dos
autores destas cartas.
5.2 Distribuição geográfica
A análise dialetal sobre dados contemporâneos revelou a delimitação clara de,

pelo menos, duas áreas territoriais no que ao emprego dos pronomes átonos
diz respeito: uma zona «distinguidora» (ZD) de caso e uma zona «confundido-
ra» (ZC) (Klein-Andreu 1981, Fernández-Ordóñez 1994). Esta última abarcaria,
aproximadamente, a parte ocidental e central de Castela, do sul da Cordilheira
Cantábrica a La Mancha, e afetaria, pelo menos, as províncias de Ávila,
Burgos, Cáceres, Madrid, Palência, Salamanca, Segóvia, Sória, Toledo e Valla-

dolid.14
Para o corpus espanhol do Post Scriptum, foi-nos possível averiguar a origem
geográfica de 270 autores (75 % do total utilizado para este trabalho), tomando
sempre a província como indicador de referência.15 Os autores procedentes de
alguma das províncias citadas foram catalogados dentro da ZC; já os restantes se
catalogaram na ZD. Centrámo-nos, assim, em três fenómenos da variação prono-
minal, exclusivos da ZC: o leísmo inanimado, o laísmo e o loísmo. A tabela 3 mostra
que dados nos forneceu o nosso corpus em termos de número de ocorrências.
Tabela 3: Distribuição geográfica de leísmo inanimado, laísmo e loísmo
Área leísmo (inan.) % laísmo % loísmo %

16
NA 15 14 19 11 0 0
ZD 26 25 15 9 4 29
ZC 63 61 136 80 10 71
Total 104 100 170 100 14 100
Esperando expandir as nossas contagens, os dados, para já, apontam para uma
correlação entre estes três usos inovadores e a atual ZC, pois é dentro dos limites
desta que se registam as maiores percentagens. A confirmação de tal tendência,
que parece clara no caso do laísmo, poderá indicar um cenário dialetal de
variação muito semelhante ao que se conhece na atualidade, podendo sugerir
que a difusão da confusão pronominal terá tido início anteriormente à época
moderna.
Esta coincidência de isoglossas torna-se ainda mais evidente se atentarmos
nos territórios em que nos deparámos com ocorrências de usos inovadores. Nos
mapas que abaixo apresentamos, surgem destacadas, à esquerda, as províncias
em relação às quais se registou um ou mais autores exemplificando o fenómeno
em causa. Para minimizar a possibilidade de falsos positivos (i.e. erros de leitura
de manuscrito ou procedências geográficas duvidosas), foram incluídos os mapas
14 Os trabalhos de Fernández-Ordóñez (1994, 1999) demonstram um panorama dialetal mais

complexo, que inclui variantes dentro da ZC e diversas áreas de transição.
15 Estamos conscientes de que assumir um nível provincial leva à perda de granularidade na
análise, porque as fronteiras geográficas e as isoglossas linguísticas raramente coincidem. No
entanto, esta estratégia permite-nos trabalhar com um conjunto fechado de opções sem perder
excessivo rigor geográfico.
16 NA = não aplicável, por desconhecimento da procedência geográfica.
da direita, os quais destacam unicamente as províncias com, pelo menos, dois

autores diferentes como informantes do fenómeno em questão. Aproveitamos
para incluir alguns exemplos:
Figura 1: Províncias com autores leístas (apenas leísmo de coisa)
(34) a. quando te se antojo la cosa de regalo y te le trajeron y no le quisiste sino que se le

ynbiaste a la enferma hiciste lo que Dabid con el agua.
(PS7091 (1689) autor de Cuenca; CLUL 2014)
b. el cilicio nada incomoda a vezes pero al contado le pondre de modo que no ofenda si
se me permite.
(PS8083 (1799) autor de Guadalajara; CLUL 2014)
Figura 2: Províncias com autores laístas

(35) a. Mi muger repite lo mismo q(u)e yo, y q(u)e manda a V(uestra) m(erce)d q(u)e la dijo
q(u)e era su verdadera amiga.
(PS9031 (1810) autor de Valladolid; CLUL 2014)
b. y estava guisando unas anguilas y gustandolas savianla bien y bolbio a probar y

sintio una pressenzia bellisima que la dezia que siempre a de ser golossa y galamera.
(PS6150 (1706) autor de Madrid; CLUL 2014)
Figura 3: Províncias com autores loístas
(36) a. y aran lo q(ue) quissieren, pues yo solo vine a salir de con ellos. y aun de esta suerte
no nos an de dejar. Dios los abra los ojos, q(ue) vien lo an Menester.
(PS6155 (1706) autor de Madrid; CLUL 2014)
b. i al istante que esta cantidad se de io en persona me vere con ustedes u los escrivire
un papel avisandolos lo que an de açer.
(PS5019 (1684) autor de Toledo; CLUL 2014)
O Post Scriptum não permite aprofundar quais as origens da confusão pronomi-

nal, uma vez que estão documentados casos de leísmo e de loísmo em textos do
séc. XIII e de laísmo, em termos fidedignos, desde o séc. XIV (Lapesa 1968;
Echenique Elizondo 1981). Não obstante, revela-se muito importante para verifi-
car outros aspetos que dizem respeito à variação. Por um lado, o marco temporal
dentro do qual trabalhámos inclui períodos de franco apogeu dos usos inovado-
res dos pronomes (Matute Martínez 2004, 26) e novos dados sobre a sua difusão e
alcance. Por outro lado, temos em mãos informação sobre a procedência geográ-
fica de múltiplos autores, o que nos permitiu desenhar um mapa dialetal da
variação numa época não contemporânea. Nesta incursão, necessariamente bre-
ve, propusemo-nos explorar esses dados, cumprindo o objetivo de facultar novas
evidências sobre o leísmo, laísmo e loísmo, as quais tentaremos confirmar no
futuro a partir de um conjunto de dados mais alargado.
6 Conclusão
Terminamos com uma nota sobre o conjunto dos três fenómenos que aqui
comentámos, a saber, o marcador discursivo POIS do português e duas estrutu-
ras anafóricas, o CUJO em português e os clíticos verbais de terceira pessoa em
espanhol, LE(S), LO(S), LA(S). A razão pela qual os três captaram a nossa
atenção logo nas primeiras análises teve a ver com o facto que aqui salientá-
mos: apesar de continuarem vivos nas duas línguas, todos se distanciam do
que se pode considerar usual nas suas variedades cultas. Mas não podemos
deixar de notar, também, que todos três são mecanismos de coesão textual, o
que não é certamente um acaso. Os dados das cartas do Post Scriptum contêm
advérbios e pronomes desafiantes para os linguistas, mas organizam-se tam-
bém, sobretudo, em enunciados cuja coesão, logo, coerência, foi instrumental
para os autores que os produziram. Um dos nossos próximos desafios é o de
conciliarmos análises gramaticais com análises discursivas, e assim contribuir-
mos para uma futura história das duas línguas na perspetiva dos seus falantes
vulgares.
7 Referências
Barreiros, Fernando Braga, Vocabulário Barrosão, Revista Lusitana 20:1–2 (1917), 137–161.
Bikel, Daniel, On the Parameter Space of Generative Lexicalized Statistical Parsing Models, PhD
Dissertation, University of Pennsylvania, 2004.
Brito, Ana Maria, A Sintaxe das Orações Relativas em Português, Porto, INIC & CLUP, 1991.
Brito, Ana Maria, Relativas de genitivo no Português Europeu e no Português de Moçambique, in:
Gonçalves, Anabela/Correia, Clara Nunes (edd.), Actas do XVI Encontro Nacional da APL,
Lisboa, Colibri/APL, 2001, 115–129.
Brito, Ana Maria, Subordinação adverbial, in: Mira Mateus, Maria Helena, et al. (edd.), Gramática
da Língua Portuguesa, Lisboa, Caminho, 2003, 695–728.
Camarinhas, Nuno, Juízes e administração da justiça no antigo regime: Portugal e o império
colonial, séculos XVII e XVIII, [Lisboa], Fundação Calouste Gulbenkian & Fundação para a
Ciência e a Tecnologia, 2010.
Cardoso, Adriana, Relativas com núcleo interno e relativo de ligação na história do português, in:
Frota, Sónia/Santos, Ana Lúcia (edd.), Actas do XXIII Encontro Nacional da Associação
Portuguesa de Linguística [Évora, 2007], Lisboa, Colibri/APL, 2008, 77–92.
Cardoso, Adriana, Variation and change in the syntax of relative clauses: new evidence from
Portuguese. Tese de Doutoramento, FLUL, 2010.
Cardoso, Adriana, Orações apositivas em português: entre a sincronia e a diacronia, Estudos de
Lingüística Galega 3 (2011), 5–29.
Carvalho, Joaquim Ramos de, A jurisdição episcopal sobre leigos em matéria de pecados
públicos: as visitas pastorais e o comportamento moral das populações portuguesas de
Antigo Regime, Revista Portuguesa de História 24 (1988), 121–163.
Castro, Ivo, Metodologia do aparato genético, in: Simões, Manuel/Castro, Ivo/Pinto Correia, João
David (edd.), Memória dos afectos: homenagem a Giuseppe Tavani, Lisboa, Colibri, 2001,
69–81.
CLUL (ed.), P.S. Post Scriptum: A Digital Archive of Ordinary Writing (Early Modern Portugal and
Spain), 2014. Disponível em: http://ps.clul.ul.pt/index.php?action=home.
Collins, Michael, Head-Driven Statistical Models for Natural Language Processing, PhD Disserta-
tion, University of Pennsylvania, 1999.
Costa, Ana Luísa, Um Pois Comentador, in: Veloso, João, et al. (edd.), Textos selecionados.
XXIX Encontro Nacional da Associação Portuguesa de Linguística, Porto, APL, 2014,
199–211.
Cunha, Celso/Cintra, Lindley (edd.), Nova Gramática do Português Contemporâneo, Lisboa,
Edições João Sá da Costa, 1984.
Echenique Elizondo, María Teresa, El sistema referencial en español antiguo, Revista de Filología
Española 61 (1981), 113–157.
Fernández-Ordóñez, Inés, Leísmo, laísmo y loísmo: estado de la cuestión, in: Soriano, Olga
Fernández (ed.), Los pronombres átonos, Madrid, Taurus, 1993, 63–96.
Fernández-Ordóñez, Inés, Isoglosas internas del castellano. El sistema referencial del pronombre
átono de tercera persona, Revista de Filología Española 74 (1994), 71–125.
Fernández-Ordóñez, Inés, Leísmo, laísmo y loísmo, in: Bosque, Ignacio/Demonte, Violeta
(edd.), Gramática descriptiva de la lengua española, Madrid, Espasa Calpe, 1999,
1317–1397.
Fiéis, Alexandra/Lobo, Maria, Para uma diacronia das orações causais e explicativas do
português, in: Fiéis, Alexandra/Coutinho, Antónia (edd.), Textos seleccionados. XXIV En-
contro Nacional da Associação Portuguesa de Linguística, Lisboa, Colibri/APL, 2009,
265–280.
Flores Cervantes, Marcela, Leísmo, laísmo y loísmo, in: Company Company, Concepción (ed.),
Sintaxis histórica de la lengua española. Primera parte: La frase verbal, vol. 1, México,
Fondo de Cultura Económica, 2006, 669–749.
Fraser, Bruce, What are discourse markers?, Journal of Pragmatics 31 (1999), 931–952.
Grésillon, Almuth, Élements de critique génétique, Paris, PUF, 1994.
Hespanha, António Manuel, Cultura Jurídica Europeia: Síntese de um Milénio, 2.ª ed., Mem
Martins, Publicações Europa-América, 2003.
Klein-Andreu, Flora, Distintos sistemas de empleo de le, la, lo. Perspectiva sincrónica, diacrónica
y sociolingüística, Thesaurus: boletín del Instituto Caro y Cuervo 36:2 (1981), 284–304.
Kroch, Anthony/Santorini, Beatrice/Delfs, Lauren, The Penn-Helsinki parsed corpus of Early
Modern English (PPCEME), Department of Linguistics, University of Pennsylvania, CD-ROM,
first edition, 2004.
Lapesa, Rafael, Sobre los orígenes y evolución del leísmo, laísmo y loísmo, in: K. Baldinger (ed.),
Festschrift Walther von Wartburg, Tubinga, Max Niemeyer, 1968, 523–551.
Lima, José Pinto de, Grammaticalization, subjectification and the origin of phatic markers, in:
Wischer, Ilse/Diewald, Gabriele (edd.), New Reflections on grammaticalization, Amsterdam,
John Benjamins, 2002.
Lobo, Maria, Para uma sintaxe das orações causais do português, in: Actas do XVI Encontro
Nacional da Associação Portuguesa de Linguística, Lisboa, APL/Colibri, 2001, 291–306.
Lobo, Maria, Subordinação Adverbial, in: Raposo, Eduardo Buzaglo Paiva/Bacelar do Nascimen-
to, Maria Fernanda/Mota, Maria Antónia Coelho da/Segura, Luísa/Mendes, Amália (co-
ords.), Gramática do Português, Lisboa, Fundação Calouste Gulbenkian, 2013.
Lopes, Óscar, Da partícula pois ao conceito de apodeixis, in: Actas do VII Encontro da Associação
Portuguesa de Linguística, Lisboa, Colibri/APL, 1991, 179–192.
Maia, Clarinda de Azevedo, História do Galego-Português, Coimbra, INIC, 1986, 19–295.
Marquilhas, Rita (ed.), Forgotten Letters Years 1900–1974, 2014. Disponível em: http://fly.clul.ul.
pt/index.php?page=mainen.
Martín Zorraquino, María Antonia/Portolés Lázaro, José, Los marcadores del discurso, in: Bos-
que, Ignacio/Demonte, Violeta (edd.), Gramática Descriptiva de la Lengua Española, vol. 3.
Entre la oración y el discurso. Morfología, Madrid, Espasa, 1999, 4051–4213.
Martins, Ana Maria, Documentos Portugueses do Noroeste e da Região de Lisboa: Da Produção
Primitiva ao Século XVI, Lisboa, Imprensa Nacional – Casa da Moeda, 2001.
Martins, Ana Maria, Relatório da cadeira de História da Língua Portuguesa, apresentado a
concurso para Professor Associado, FLUL, 2003.
Matos, Gabriela/Raposo, Eduardo Paiva, Estruturas de coordenação, in: Raposo, Eduardo Buza-
glo Paiva/Bacelar do Nascimento, Maria Fernanda/Mota, Maria Antónia Coelho da/Segura,
Luísa/Mendes, Amália (coords.), Gramática do Português, Lisboa, Fundação Calouste Gul-
benkian, 2013.
Matute Martínez, Carmen, Los sistemas pronominales en español antiguo. Problemas y métodos
para una reconstrucción histórica, Madrid, Universidad Autónoma, 2004.
Mendes, Amália, Coesão Textual, in: Raposo, Eduardo Buzaglo Paiva/Bacelar do Nascimento,
Maria Fernanda/Mota, Maria Antónia Coelho da/Segura, Luísa/Mendes, Amália (coords.),
Gramática do Português, Lisboa, Fundação Calouste Gulbenkian, 2013.
Moreira, Julio, Estudos de Lingua Portuguesa, Lisboa, Livraria Clássica Editora, 1907 (2.ª ed.,
1922).
Nevalainen, Terttu, Historical Sociolinguistics, in: Wodak, Ruth/Johnstone, Barbara/Kerswill,
Paul (edd.), The SAGE Handbook of Sociolinguistics, Los Angeles, SAGE, 2011, 279–95.
Peres, João, Sobre conexões proposicionais em Português, in: Maria Brito, Ana, et al. (edd.),
O Sentido que a vida faz. Estudos para Óscar Lopes, Porto, Campo das Letras, 1997,
775–787.
Pierazzo, Elena, A rationale of digital documentary editions, Literary and linguistic computing
26:4 (2011), 463–77.
Randall, Beth, CorpusSearch 2, 2005–2007.
Raposo, Eduardo Buzaglo Paiva, Pronomes, in: Raposo, Eduardo Buzaglo Paiva/Bacelar do
Nascimento, Maria Fernanda/Mota, Maria Antónia Coelho da/Segura, Luísa/Mendes,
Amália (coords.), Gramática do Português, Lisboa, Fundação Calouste Gulbenkian, 2013,
881–918.
Searle, John R., A Taxonomy of Illocutionary Acts, in: Gunderson, Keith (ed.), Language, Mind and
Knowledge. Minnesota Studies in the Philosophy of Science, Minneapolis, University of
Minnesota Press, 1975, 344–369.
Vaamonde, Gael, Distribución de leísmo, laísmo y loísmo en un corpus diacrónico epistolar, Res
Diachronicae 61 (2015), 58–79.
Veloso, Rita, Subordinação Relativa, in: Raposo, Eduardo Buzaglo Paiva/Bacelar do Nascimento,
Maria Fernanda/Mota, Maria Antónia Coelho da/Segura, Luísa/Mendes, Amália (coords.),
Gramática do Português, Lisboa, Fundação Calouste Gulbenkian, 2013, 2059–2134.
Vries, Mark de, The Syntax of Relativization, Utrecht, LOT, 2002.
1 Apêndice
Apêndice 1: Frequências absolutas e relativas de leísmo, laísmo e loísmo
leísmo % laísmo % loísmo % inov. total %
séc. XVI 80 (354) 23 9 (38) 24 0 (157) 0 89 (549) 16
séc. XVII 170 (665) 26 15 (110) 14 4 (435) 1 189 (1210) 16
séc. XVIII 292 (1073) 27 128 (308) 42 10 (579) 2 430 (1960) 22
séc. XIX 94 (443) 21 18 (46) 39 0 (252) 0 112 (741) 15
TOTAL 636 (2535) 25 170 (502) 34 14 (1423) 1 820 (4460) 18

Guillermo Rojo
Citius, maius, melius: del CREA al
CORPES XXI
1 Introducción
En 1995, la Real Academia Española tomó la decisión de acometer la construcción
del Corpus de referencia del español actual (CREA) para lograr así mayor amplitud
y seguridad en los materiales utilizados en la confección de su diccionario. Vistos
los primeros resultados obtenidos, se decidió ampliar el banco de datos que
comenzaba a formarse para incorporar también el español de períodos anteriores
y, de acuerdo con los mismos objetivos generales, construir el Corpus diacrónico
del español con el fin de disponer de materiales mejores y mucho más volumino-
sos para la redacción del Diccionario histórico del español. Las primeras versiones
de ambos corpus fueron publicadas en 1998 y ampliadas y mejoradas hasta la
finalización de ambos proyectos en 2008. A lo largo de todos esos años y hasta la
actualidad, la RAE y todas las Academias que forman con ella la Asociación de
Academias de la lengua española (ASALE) han basado en el CREA y el CORDE
todas las obras que han ido publicando. Pero el impacto de estos dos corpus ha
sido considerablemente mayor, puesto que han supuesto una modificación radi-
cal también en los modos de trabajo de cuantos se dedican a la investigación de
la lengua española.
Aunque siguen siendo útiles, tanto el CREA como el CORDE tienen un diseño
que, dado que fueron concebidos hace casi veinte años, no resulta congruente
con las prácticas actuales, un tamaño insuficiente para buena parte de las
necesidades que se plantean en la investigación y una aplicación de búsqueda
rica y flexible, pero un tanto envejecida. Como consecuencia de todo ello, las
Academias de ASALE decidieron, en 2007, acometer la creación del Corpus del
español del siglo XXI y encargar su realización a la Real Academia Española. La
primera versión beta del CORPES se presentó en el Congreso internacional de la
lengua española (CILE) celebrado en Panamá en noviembre de 2013 y se publicó
como versión 0.6. en diciembre de ese mismo año. En abril de 2015 se publicó la
versión 0.8. del CORPES, que acaba de entrar en su segunda fase, cuya finaliza-
ción está prevista en diciembre de 2018.
El propósito de este trabajo es analizar las novedades que supone el CORPES
en la lingüística española por un lado y en la lingüística de corpus por otro. Para
Guillermo Rojo: Real Academia Española – Universidade de Santiago de Compostela

198 Guillermo Rojo
ello, en el apartado 2 se analizan las características de sus antecedentes (funda-

mentalmente el CREA), enmarcados en el contexto de la época, y también algunas
cuestiones generales referidas al lugar que ocupan los corpus de referencia en la
lingüística de corpus actual. El apartado 3 se centra en las características que
tiene el CORPES, con especial atención a lo que supone novedad con respecto al
CREA y el CORDE y también a otros corpus de español.
2 Antecedentes inmediatos: el CREA y el CORDE

Como es sobradamente conocido, en 1995 la Real Academia Española tomó la
decisión de emprender la construcción de un banco de datos electrónico del
español contemporáneo, el Corpus de referencia del español actual (CREA). La
intención básica del proyecto era proporcionar a la RAE y a todas las demás
integrantes de la Asociación de Academias de la lengua española (ASALE) un
recurso gracias al cual fuera posible documentar con mayor seguridad los usos
lingüísticos reales y, como consecuencia de ello, basar mejor las decisiones de
carácter normativo que estas instituciones han de adoptar continuamente. Pero
desde el principio quedó claro que se trataba de construir un banco de datos al
que pudieran acceder y del que pudieran beneficiarse también todas las personas
interesadas en el conocimiento de las características del español actual, con
finalidades investigadoras (no solo en lingüística), de aplicación a la producción
de materiales de diferentes tipos, documentación, etc. Vistos los primeros resulta-
dos, muy pocos meses después la Academia decidió crear otro corpus textual, el
Corpus diacrónico del español (CORDE), cuya finalidad era reunir en formato
electrónico una gran cantidad de textos en español correspondientes al período
comprendido entre los orígenes de la lengua y el punto de arranque del CREA. El
proyecto fue desarrollado conjuntamente a un ritmo bastante alto gracias a la
financiación parcial del Ministerio de Educación en los primeros años de trabajo.
Ambos corpus, pues, constituyen en realidad un proyecto único que se
escinde en dos subproyectos en atención a las características básicas de los que
se consideraban sus ámbitos de trabajo principales: el CREA iba a ser la fuente
básica de datos para el español contemporáneo y el CORDE serviría fundamental-
mente para los estudios de carácter diacrónico. En su diseño inicial, el CREA
comprendía textos de los más diversos tipos y géneros, con un 10 % del total
formado por transcripciones de textos orales, procedentes de todos los países
hispánicos y con una distribución general que asignaba el 50 % a textos produci-
dos en España y el otro 50 % a textos producidos en América. Tendría un
volumen total de 125 millones de formas correspondientes a los 25 años compren-
didos entre 1975 y 1999. Se estructuraba en cinco quinquenios, a cada uno de los
cuales correspondía un porcentaje que, siguiendo una línea muy utilizada en

aquel momento, iba aumentando desde los más antiguos a los más modernos
(10 %, 15 %, 20 %, 25 % y 30 %, respectivamente). Por su parte, el CORDE fue
proyectado para reunir trescientos millones de formas procedentes de los más
variados tipos y géneros, de todos los países hispánicos (incluida Filipinas) desde
los orígenes de la lengua hasta 1974.
Los treinta años transcurridos desde la aparición del Brown Corpus hasta el
arranque del proyecto de la RAE pueden hacer pensar que la decisión fue tomada
con un retraso notable con respecto a la marcha general de la lingüística de corpus
(LC). La distancia temporal es innegable, pero hay que tener en cuenta que
durante esos años no se habían producido muchos corpus textuales y, por supues-
to, muy pocos con el alcance y el volumen que tienen el CREA y el CORDE. Aunque
la visión dominante de la historia de la LC se refiere sistemáticamente a un período
inicial muy difícil, en un contexto hostil dominado por la pujante y novedosa
orientación chomskyana, lo cierto es que esa caracterización es válida solo para
los Estados Unidos, mientras que en países como Inglaterra, Noruega, Suecia y, en
menor medida, Francia, Alemania o Italia la LC tuvo en esa época un desarrollo
creciente y progresivo desde sus arranques respectivos.1
En 1995, el momento en que la Academia decide emprender la construcción
de CREA y CORDE, las referencias fundamentales están en el inglés, lengua en la
que al corpus conocido como Lancaster-Oslo-Bergen (LOB) y el COBUILD han
seguido otros y, sobre todo, el British National Corpus (BNC), constituido por cien
millones de formas y que es, sin duda, el modelo en el que basamos las caracte-
rísticas del CREA. En el ámbito hispánico, dejando a un lado los que podemos
considerar proyectos de transición,2 en la época inmediatamente anterior a la
planificación de CREA y CORDE pueden encontrarse corpus insertos en cinco
bloques diferentes. En primer lugar, los de tamaño pequeño (incluso para los
estándares de la época), como el corpus de Lovaina o las dos entregas de ENTRE-
1 Tienen gran importancia en esta fase los corpus construidos para uso en proyectos lexicográfi-
cos. Son, en general, proyectos de alto coste económico y también organizativo, que implican un
cambio en la práctica lexicográfica que tardará algún tiempo en consolidarse y emprender el
camino que lleva a la situación actual. Para detalles, vid. Rundell (2012, 18).
2 Es la denominación que empleo en Rojo (2015) para los que se sitúan en las cercanías de la LC,
pero sin llegar a emplear recursos electrónicos, como el Proyecto de estudio coordinado de la
norma lingüística culta, y los que suponen la preparación de textos ya en formato electrónico,
pero sin llegar a constituir un corpus en sentido estricto, como los materiales reunidos en el
Hispanic Seminar of Medieval Studies para la redacción del Dictionary of Old Spanish Language,
los textos periodísticos informatizados en la Universidad de Göteborg o las obras de teatro
informatizadas por Hiroto Ueda. Vid. Rojo (2015, apdo. 2) para detalles sobre estos proyectos y las
referencias bibliográficas correspondientes.
200 Guillermo Rojo
VIS. El segundo bloque es el constituido por los que se construyen, siguiendo el

modelo del COBUILD, para servir a propósitos lexicográficos, como el Vox-Biblo-
graf, el CUMBRE o el Corpus del español mexicano contemporáneo (CEMC). El
tercer grupo está constituido por corpus de tamaño pequeño que se desarrollan en
el marco de proyectos europeos, como CRATER, NERC o PAROLE. El cuarto bloque
lo forman varios corpus de carácter general y volumen reducido, como los dirigi-
dos por Francisco Marcos Marín en diversas acciones patrocinadas por la Sociedad
Estatal del Quinto Centenario3 o el corpus LEXESP. Por fin, en la dimensión
diacrónica, hay que mencionar el proyecto ADMYTE, cuyos responsables son
Francisco Marcos Marín, Charles Faulhaber, Ángel Gómez Moreno y Antonio
Cortijo Ocaña.4
El retraso con que partieron los corpus de la RAE tuvo algunos efectos
beneficiosos. En primer lugar, la evolución de las computadoras, con el enorme
incremento de capacidad y velocidad experimentado en aquellos años, hacía
posible pensar en emprender la confección de corpus de cientos de millones de
formas, siguiendo y superando el modelo establecido por el BNC. Al tiempo, los
procedimientos utilizables para la digitalización de textos habían avanzado con-
siderablemente, de modo que la posibilidad de usar escáneres y programas de
reconocimiento óptico de caracteres aliviaba mucho el penoso trabajo de conver-
sión de texto impreso en texto electrónico.5 Por otra parte, el desarrollo de la Text
Encoding Initiative (TEI) establecía un modelo y un estándar de codificación
adaptable de forma no excesivamente complicada a cualquier proyecto de cor-
pus. La conjunción de estos tres factores (mayor capacidad y velocidad, facilidad
en la digitalización y sistema estándar de codificación en SGML) produjo un
cambio enorme en la propia concepción de los corpus, que dejaron de ser
conjuntos consultables solo de forma integral, con lo que ello supone para la
representatividad de los materiales incluidos y su equilibrio, y pasaron a consti-
tuir complejos textuales en los que era posible construir, de forma dinámica,
subcorpus virtuales configurados mediante la selección de diferentes valores en
los parámetros de construcción (soporte, tipo de texto, año, características socio-
3 Son el Corpus de referencia de la lengua española contemporánea, el Corpus lingüístico de

referencia de la lengua española en Argentina y el Corpus lingüístico de referencia de la lengua
española en Chile.
4 Para detalles sobre todos estos y algunos otros proyectos y las referencias bibliográficas
pertinentes, vid. Rojo (2015, apdo. 3).
5 Salvo en los textos de prensa, con los que el trabajo de conversión a formato electrónico seguía
presentando muchas dificultades. Curiosamente, la situación dio un giro radical con la generali-
zación de la prensa digital. Cf. Rojo/Sánchez (2010, cap. 4). para una perspectiva panorámica de
la evolución experimentada.
lingüísticas, país, etc.). Por último, el desarrollo de Internet, aunque todavía muy
reducido en aquel momento, permitía ya pensar directamente en un modelo
cliente-servidor que hiciera posible la consulta cómoda y sencilla de los corpus
desde cualquier parte del mundo, con cualquier máquina, cualquier sistema
operativo y cualquier navegador.
El CREA y el CORDE surgieron, pues, en un contexto favorable a la creación
de corpus de referencia y encajaban perfectamente en los estándares del mo-
mento en cuanto a tamaño, codificación, estructuración y sistema de recupera-
ción de datos. Además, presentaban algunas características adicionales de espe-
cial interés. El CORDE fue proyectado con un tamaño (300 millones de formas)
difícilmente alcanzable por un corpus de carácter diacrónico.6 El CREA tenía un
diseño que lo situaba a caballo entre los corpus cerrados (al estilo del BNC), que
se terminan cuando alcanzan el tamaño previsto, y los abiertos, que añaden
textos de forma continua, con los efectos fácilmente imaginables sobre la estabi-
lidad de los resultados obtenidos en las consultas. Fue proyectado en realidad
como el corpus textual de los últimos veinticinco años de historia del español,
de modo que al período abarcado en su configuración inicial (1975–1999) se irían
añadiendo luego quinquenios posteriores (2000–2004, 2005–2009, etc.). La
entrada de cada quinquenio nuevo supondría la retirada del más antiguo, para
mantener así siempre un tramo general de veinticinco años. Y, dado que ambos
corpus constituían un proyecto conjunto, el tramo retirado del CREA se integra-
ría en el CORDE, que iría de este modo ampliando su período de actuación. Por
esa razón, los ficheros del CREA llevan en su cabecera los rasgos clasificatorios
que les corresponderían en el CORDE cuando se produjera su integración en este
corpus.
El diseño tenía un punto débil: el hecho de que los diferentes lustros
integrados en el CREA tuvieran porcentajes diferentes sobre el total hacía que la
operación de reajuste resultara especialmente complicada: con el paso al CORDE
del tramo 1975–1979, el tramo siguiente (1980–1984) debería perder los textos
necesarios (y hacerlo de forma congruente con el diseño general para mantener
el equilibrio), dejar de suponer el 15 % del total y pasar a ser únicamente el
10 %. Como es lógico, habría que aplicar una operación equivalente sobre los
demás tramos. Además de la enorme complejidad de una remodelación de este
tipo, los textos retirados para ajustar los porcentajes no podrían pasar todavía a
formar parte del CORDE, que no habría llegado a esos años. En consecuencia,
6 La excepción más notable es, sin duda, el Corpus of Historical American English (COHA),
construido por Mark Davies, que contiene unos cuatrocientos millones de formas procedentes de
textos editados entre 1810 y 2009.
202 Guillermo Rojo
ese ajuste no se produjo nunca y el CREA amplió su ámbito al período 2000–

2004 con un tamaño similar al del inmediatamente anterior (unos 37,5 millones
de formas), con lo que, cuando se cerró en 2008, el CREA había llegado a tener
en torno a 160 millones de formas, las mismas que pueden ser consultadas en la
actualidad.7
La publicación, a partir de 1998, de varias versiones provisionales del CREA y
el CORDE dio lugar a un fuerte cambio en la metodología aplicada por las Acade-
mias de la lengua española en la preparación de las obras publicadas desde ese
momento,8 así como en los recursos disponibles para los investigadores del
español de todas las épocas y variedades. Desde su cierre, en 2008, ambos corpus
han permitido mejorar considerablemente nuestros conocimientos sobre el es-
pañol.9
Pero, a pesar de su importancia y utilidad, es evidente que estos corpus son
el resultado de un proyecto que tiene ya más de veinte años de antigüedad, con lo
que ello supone, en una disciplina de desarrollo tan acelerado como la LC, para el
diseño, los procesos intermedios y la recuperación de datos. El CREA, por ejem-
plo, posee una enorme flexibilidad para la creación de subcorpus virtuales y la
consiguiente recuperación selectiva de datos, pero la versión pública no está
lematizada y la aplicación de consulta presenta inconvenientes en recuperacio-
nes de cierta complejidad.
En efecto, a lo largo de todos estos años se han producido importantes
modificaciones en el proceso de diseño, construcción y explotación de corpus
que hacían necesario el replanteamiento de las características que deben tener
los corpus de referencia del estilo del CREA y el CORDE. En términos generales,
este tipo de corpus se sitúa actualmente en una zona comprendida entre dos
tendencias muy diferentes entre sí. En un extremo, los corpus pequeños (unos
pocos millones de formas) que suponen una edición muy cuidada y sometida a
unos principios únicos de los textos que los componen. Frente a la dependencia
que tienen los textos que integran el CORDE con respecto a los diferentes
criterios utilizados en las ediciones integradas en él, las que componen proyec-
7 En el proceso de organización de los materiales para el Nuevo diccionario histórico del español,
la mayor parte de los textos que componen el CORDE y el CREA han sido integrados en el Corpus
del NDHE (CDH).
8 En efecto, todas las obras publicadas por las Academias desde 1998 (las ediciones vigésima
segunda (2001) y vigésima tercera (2014) del DRAE, el Diccionario Panhispánico de Dudas (2005),
el Diccionario del Estudiante (2005 y 2011), el Diccionario Esencial de la lengua española (2006), la
Nueva gramática de la lengua española (2009) y la Ortografía de la lengua española (2010)) se han
beneficiado de los datos contenidos en el CORDE y, sobre todo, el CREA.
9 En febrero de 2015, el CREA recibió casi 100.000 consultas. El CORDE, algo menos de la mitad.
tos como CODEA, Biblia medieval o CORDIAM10 tienen unas directrices muy
marcadas y todos los textos responden estrictamente a ellas. Son, además,
textos transcritos específicamente para los proyectos respectivos y pueden inte-
grar diferentes presentaciones del mismo «texto» (por ejemplo, una edición
paleográfica al lado de una edición crítica y la imagen del manuscrito). Como es
lógico, ese cuidado exquisito tiene como contrapartida el limitadísimo tamaño
que se puede conseguir y también la habitual restricción a un cierto tipo de
textos.
Estos corpus son «small and tidy», para usar la expresión utilizada por Mair
(2006). Al otro lado, el constituido por los que resultan «big and messy» y que
pueden tener el Bank of English como su modelo inicial, se encuentran actualmen-
te los que resultan de la tendencia conocida como 'Web as Corpus', que produce
conjuntos obtenidos de modo oportunista a partir de lo que se encuentra ya en la
red. En una formulación estricta, estos conjuntos textuales carecen de diseño y,
por tanto, no encajan realmente en lo que se exige para que puedan recibir la
consideración de corpus,11 pero es preciso reconocer que permiten construir, con
unos plazos y unos costes muy reducidos, conjuntos textuales formados por miles
de millones de formas12 y que los filtros automáticos para seleccionar los textos,
evitar repeticiones, excluir las zonas escritas en lenguas diferentes, etc. han
mejorado considerablemente desde los utilizados hace unos años. Cerca de este
segundo tipo se encuentran también otros corpus de gran tamaño y, al menos de
entrada, mucho más homogéneos, que se construyen directamente con alguno de
los recursos globales existentes del estilo de la Wikipedia, las intervenciones en el
Parlamento europeo, en la ONU, etc.
Los corpus de referencia no pueden competir en cuidado con los pequeños ni
en tamaño con los grandes. Con unos costes elevados, pero asumibles para
instituciones de cierta importancia, consiguen reunir cientos de millones de
formas con un determinado diseño en el que quede garantizada la representativi-
10 El Corpus de documentos españoles anteriores a 1700 (CODEA) contiene unos 1500 documen-
tos transcritos hasta el momento según las directrices seguidas en el proyecto Corpus hispánico y
americano en la red: textos antiguos (CHARTA). El proyecto Biblia medieval, constituido por
traducciones de la Biblia al castellano tiene una enorme gama de posibilidades de recuperación
de datos y consta de unos cinco millones de formas. El Corpus diacrónico y diatópico del español
de América (CORDIAM), cuya publicación está prevista para finales de 2015, contendrá la
transcripción de unos 3000 documentos, con un total de unos cuatro millones de formas. Para
detalles, cf. Rojo (2015, apdo. 4).
11 Cf. Sinclair (2005, 15).
12 El corpus EsTenTen, construido por Adam Kilgarrif tenía, en diciembre de 2013, algo más de
8300 millones de formas, etiquetadas, procedentes de todos los países hispánicos. Cf. Kilgarriff/
Renau (2013).
204 Guillermo Rojo
dad, la presencia de textos de los más diversos tipos en proporciones adecuadas y

un nivel de codificación que permita la recuperación selectiva de la información a
partir de los rasgos pertinentes en cada caso (país, época, tipo de texto, caracte-
rísticas de los hablantes, etc.). Constituyen, pues, un recurso intermedio que, sin
negar la necesidad de los otros tipos para ciertas clases de análisis o aplicaciones,
aúna un tamaño que garantiza la fiabilidad y generalidad de los datos que se
pueden obtener de su análisis con el detalle de la codificación añadida, que
permite una selección de datos muy fina y estructurada de modo acorde con las
características propias de los textos.
Por otro lado, el aumento en la capacidad de las computadoras y la reducción
de sus costes, unidos a la mayor facilidad existente para la obtención, codifica-
ción y anotación automática de textos, permiten que los corpus de referencia
puedan superar la división tradicional entre corpus cerrados al estilo del Corpus
del español construido por Mark Davies o el BNC (estables, pero condenados a
una pronta obsolescencia) y corpus abiertos, como el Bank of English (siempre
actualizados, pero sistemáticamente inestables). Un corpus de referencia puede
ser concebido como el resultado de la incorporación año tras año de una determi-
nada cantidad de formas distribuidas de acuerdo con unos principios constantes,
de modo que está cerrado y es estable en los años que ya han sido terminados,
pero está abierto y actualizado en tanto que va añadiendo nuevos textos a medida
que pasa el tiempo.
3 El Corpus del español del siglo XXI (CORPES)

Esta es precisamente la línea en la que se inscribe el CORPES. Pretende ser un
recurso lingüístico en el que se aúnen la riqueza y variedad de datos que solo
pueden aparecer como consecuencia del aumento del tamaño del corpus y la
finura que se alcanza en los corpus pequeños, aunque, como es lógico, no en el
mismo grado ni con el mismo detalle. La proyección de las formulaciones genera-
les sobre la situación y características actuales del español configura una serie de
parámetros que vertebran la codificación de los textos por una parte y la recupera-
ción de la información por la otra. En el congreso que celebraron en Medellín
(Colombia) en marzo de 2007, las Academias de la lengua española decidieron
encomendar a la Real Academia Española la confección de un corpus textual que
respondiese a las características actuales de la LC en todos los aspectos. Y en ese
proyecto ha venido trabajando la RAE desde entonces, con el asesoramiento y la
colaboración de las demás Academias de la lengua, el patrocinio de Banco
Santander, la colaboración de grupos editoriales y autores de todo el mundo
hispánico y la participación de equipos de codificación pertenecientes a distintas
instituciones españolas y americanas, dirigidas y coordinadas por un equipo

central radicado en Madrid.13
La configuración general del CORPES XXI consiste en la incorporación de
25 millones de formas gráficas por año, lo cual supondrá un total de 400 millones
al final de la segunda fase del proyecto (años 2001 a 2016). Esos 25 millones anuales
se reparten de modo que el 30 % corresponde a textos editados o producidos en
España y el 70 % restante se distribuye entre todos los demás países, tomando en
cuenta rasgos como la población, el volumen de su producción editorial y su
integración en alguna de las áreas lingüísticas con las que las Academias han
venido trabajando tradicionalmente.14 Por ejemplo, al área constituida por México
y los países centroamericanos le corresponde el 21 % del total de cada año.
Para cada país y año, los textos se distribuyen con diferentes pesos según los
distintos parámetros que entran en la configuración del corpus: medio (oral /
escrito), bloque (ficción / no ficción), soporte (internet / libro / miscelánea /
prensa), área temática (actualidad / artes / ciencia y tecnología / ciencias sociales
/ política y economía / salud) y, en los textos de ficción, género (novela / teatro /
relato / guion). A estas caracterizaciones, muy parecidas a las que se utilizan en
el CREA, el CORPES añade, para cada texto, una indicación tipológica en función
del grupo al que pertenece; así, por ejemplo, los textos de prensa son caracteriza-
dos como noticia, reportaje, entrevista, carta al director, etc. Todos esos rasgos
son combinables entre sí y también, por supuesto, con zona, país, año e incluso
con autor y obra si tal grado de especificación es deseable.
Así pues, el CORPES posee una configuración estable tanto en lo referente al
volumen de formas para cada año como a su distribución según los diferentes
parámetros tenidos en cuenta en su construcción. La estabilidad en el volumen
correspondiente a cada año y su distribución interna hace que pueda ser conside-
rado como un recurso que combina las características de los corpus abiertos y los
corpus cerrados. Es abierto en tanto que irá aumentando en 25 millones de formas
por cada año transcurrido. Es cerrado en tanto que los años y los quinquenios ya
completados se harán fijos y proporcionarán la estabilidad en los resultados
propia de este tipo de corpus.
13 Los equipos externos que han colaborado en el proyecto hasta 2014 son la Academia
Argentina de Letras, la Academia Puertorriqueña de la lengua española, la Fundación Comillas,
la Universidad de Alcalá de Henares, la Universidad Autónoma de Barcelona, la Universidad de
Salamanca, la Universidad de León, la Universidad de Santiago de Compostela y la Universidad
de Valencia. Para más detalles sobre la colaboración de grupos editoriales y autores, cf. http://
www.rae.es/recursos/banco-de-datos/corpes-xxi.
14 Son las siguientes: Chile, Río de la Plata, zona andina, Caribe continental, México y Centroa-
mérica, Antillas y Estados Unidos, a las que se añaden Filipinas y Guinea Ecuatorial.
206 Guillermo Rojo
Como se ha indicado, la distribución interna por países, tipos de texto,

bloques, etc. obedece a un reparto que se considera razonable, proporcionado a lo
que se persigue habitualmente en la investigación y con unos costes elevados,
pero asumibles. Es evidente que el tan discutido problema de la representatividad
ha estado mal planteado. Todo corpus es una muestra extraída de una población
cuyas características desconocemos, de modo que el objetivo real es que esté
equilibrado (es decir, que contenga textos con un volumen suficiente para cada
uno de los corpus virtuales que se puedan obtener de forma dinámica mediante la
selección de valores en los diferentes parámetros de consulta). Es igualmente
claro que la representatividad es un problema de gran importancia en corpus de
tamaño pequeño (digamos, inferiores a diez millones de formas), que, además,
habitualmente solo admiten consultas globales. Un corpus con esas característi-
cas no debería dar resultados generales sesgados como consecuencia de su
constitución. Pero lo que se persigue habitualmente en los corpus de referencia no
es el resultado global, sino la comparación entre los resultados que arroja un
cierto corpus virtual y los que se obtienen en otro. El uso de las frecuencias
normalizadas permite establecer una base de comparación segura entre volúme-
nes de formas y textos dispares.15
Esta recuperación selectiva de la información es posible gracias a que todos
los textos, independientemente de sus características y procedencias, han sido
codificados en XML mediante un esquema común para todos ellos. La experiencia
obtenida en el desarrollo del CREA y el CORDE nos ha llevado a organizar un
procedimiento que, sin dejar de estar basado en las indicaciones generales de la
TEI, reduce fuertemente su complejidad en todos aquellos aspectos que no son de
interés para la recuperación de la información practicada para la investigación
lingüística. Con esta simplificación se consigue también que el manejo y la
extracción de los casos relevantes de un conjunto de cientos de millones de
formas se haga con unos tiempos muy razonables a pesar de la considerable
cantidad de parámetros que pueden entrar en juego en una consulta.
Los textos del CORPES han sido anotados, lematizados y desambiguados
automáticamente mediante un complejo conjunto de programas desarrollados, lo
mismo que la aplicación de consulta, en el departamento de informática de la
RAE.16 Es evidente el progreso que la adición de esta información supone para las
búsquedas léxicas, puesto que no será necesario ya recurrir a la utilización de
expresiones regulares que remeden la estructura morfológica de, por ejemplo, un
verbo para obtener todas las formas vinculadas al lema (del tipo lleg* para las
15 Para un análisis más amplio de estas cuestiones, cf. Rojo (2014, 376 y ss.).
16 El etiquetario de la versión 0.82 consta de aproximadamente 330 etiquetas.
formas del verbo llegar y similares) y, por otro lado, permitirá la recuperación
correcta de los casos en los que hay formas homógrafas que deben ser vinculadas
a lemas distintos (del tipo casa, desarrollo o vino). Sin embargo, lo más interesan-
te de esta característica radica en el enorme avance que supone para la obtención
de materiales necesarios para estudios gramaticales. En efecto, el sistema de
búsqueda ha sido diseñado de modo tal que admite la petición de elementos que
tienen una determinada característica gramatical con independencia del lema al
que pertenezcan, por ejemplo los que han sido etiquetados como pertenecientes
al futuro de subjuntivo de cualquier verbo. Además, dado que la aplicación
admite la incorporación de varios elementos en la búsqueda (tanto en secuencia
inmediata como en una ventana de proximidad), es posible, por ejemplo, locali-
zar casos de un sustantivo seguido inmediatamente por dos adjetivos (del tipo
situación política actual) o bien de un verbo cualquiera seguido de la conjunción
que y otro verbo en modo subjuntivo. En definitiva, la estructura de la informa-
ción incorporada a los textos y las formas del CORPES permite una gran riqueza
de recuperación de fenómenos léxicos y gramaticales, siempre con la posibilidad
de restringir los resultados a un cierto subconjunto del corpus (es decir, un cierto
país, un tipo de texto determinado, etc.).
El CORPES permite, pues, una auténtica recuperación selectiva de la informa-
ción. Como es bien sabido, la mayor riqueza de un corpus, sea cual sea su tipo,
consiste en la posibilidad de construir corpus virtuales de forma dinámica y
permitir así establecer la comparación entre las características que presenta un
determinado fenómeno en un cierto subconjunto (por ejemplo, noticias de prensa
referentes a economía publicadas en periódicos colombianos en 2008) con las
que tiene en otro (por ejemplo, de un año y un país distintos, un área temática
diferente, etc.). Esta posibilidad es, por cierto, la que permite superar el viejo
problema de la representatividad y su repercusión sobre los diferentes pesos que
en un conjunto como el CORPES deberían tener los diferentes países o zonas,
áreas temáticas, medios, etc. Además, la aplicación de consulta facilita sistemáti-
camente tanto la frecuencia general como la frecuencia normalizada para los
datos de cada corpus virtual, lo cual hace posible realizar las comparaciones
pertinentes con carácter inmediato y obtener las conclusiones oportunas.
Las búsquedas pueden hacerse, como es de esperar a partir de lo anterior, por
formas (que pueden estar constituidas por varias palabras gráficas) o por lemas.
Es posible también exigir la grafía original o bien tolerar el tratamiento indiferen-
ciado de caracteres habitual en estos casos (con y sin tilde, mayúsculas y minús-
culas).
Dada la complejidad originada por los numerosos parámetros con respecto a
los cuales se ha caracterizado cada texto, la aplicación de consulta se organiza
sobre un sistema de ventanas desplegables que van mostrando niveles a medida
208 Guillermo Rojo
que se va haciendo la selección y que, por tanto, no tienen más valores que los
válidos en cada uno de los parámetros en los que es posible hacer la elección.
Este sistema se aplica tanto en los valores clasificatorios como en la selección de
las categorías y subcategorías gramaticales. Una vez se ha optado por el rasgo
«verbo» en la clase de palabras, aparecen las ventanas correspondientes a modo,
tiempo, número y persona, con los valores seleccionables en cada una de ellas.
Este procedimiento, más largo y pesado en su desarrollo informático, evita a
quienes consulten el CORPES la necesidad de profundizar en la organización de,
por citar el caso más complejo, las etiquetas gramaticales que recibe cada
elemento.
Las búsquedas de ejemplos, con posibilidad de restringirlos a subconjuntos
del CORPES, admiten dos grandes tipos de salida. La más general contiene la
estadística de resultados, que se puede ir especificando por zonas, países, tipos
de texto, etc., siempre con indicación de frecuencia general y frecuencia normali-
zada. La segunda proporciona las concordancias en el formato habitual, con
indicación de la procedencia de cada ejemplo y la posibilidad de obtener un
contexto más amplio si es necesario. Ambas salidas están interconectadas, de
modo que pulsando la zona correspondiente a la frecuencia de un elemento en un
cierto país se accede a los ejemplos correspondientes.
La búsqueda por formas, lemas o rasgos gramaticales admite la concatena-
ción de cualesquiera de esos rasgos en un contexto próximo, como se ha indicado
antes. Las condiciones de la búsqueda pueden referirse a un contexto de cierta
longitud a cualquiera de los lados del que se utiliza como central o bien a
elementos que se sitúen a una distancia determinada del primero. Así, por
ejemplo, cabe plantear la búsqueda de casos del verbo dudar seguido inmediata-
mente por la preposición de o bien con la preposición de en un margen de, por
ejemplo, tres elementos a la derecha (para cubrir casos del tipo dudaba muy
intensamente de su sinceridad). Utilizando las caracterizaciones gramaticales
pueden recuperarse los casos de ir seguido inmediatamente de a y luego de un
verbo cualquiera en infinitivo, los de cualquier verbo seguido inmediatamente
por cualquier otro en infinitivo, los de un verbo seguido a una distancia no
superior a cinco elementos por una preposición, etc.
Además de la estadística y los ejemplos correspondientes al elemento selec-
cionado, la aplicación de búsqueda permite obtener aquellos otros elementos que
coaparecen con el seleccionado en un contexto que abarca por defecto cinco
elementos a cada lado. Como es bien sabido, las coapariciones17 han ido ganando
17 A mi modo de ver, el término colocación no es el adecuado en español, que ha atribuido un

significado diferente a las palabras procedentes de esa raíz latina. Quizá conlocación podría
importancia en los más diversos estudios, de modo que disponer de un recurso

que permita identificar las que se dan con respecto a un determinado elemento
supone una importante vía de acceso a sus características léxicas y gramaticales.
En la versión 0.82, la aplicación trabaja directamente con lemas (no con formas) y
permite la indicación de la clase de palabras a la que pertenece. El resultado
muestra los elementos que, de acuerdo con la frecuencia general y tres estadísti-
cos distintos (información mutua, verosimilitud (log-likelyhood simple) y distribu-
ción t (t-score)),18 coaparecen con el seleccionado en un cierto grado de importan-
cia. Esos lemas llevan también la indicación de la clase de palabras a la que
pertenecen, de modo que es sencillo seleccionar, por ejemplo, los adjetivos que
coaparecen con un determinado sustantivo.
Por otro lado, siempre en la línea de la creación dinámica de corpus virtuales,
la aplicación permite trabajar con únicamente los ejemplos de un determinado
país o área temática (o ambos factores al mismo tiempo), lo cual supone una
importantísima mejora en la calidad y profundidad de los datos obtenidos. Así,
por ejemplo, los cinco términos que coaparecen con el índice de información
mutua (MI) más alto con el lema saco son terrero, yute, arpillera, tweed, amniótico.
La aparente incongruencia de estos resultados se aclara al hacer las búsquedas
diferenciadas y comprobar que en América son yute, tweed, abotonar, corbata y
solapa, mientras que en textos procedentes de España son terrero, arpillera,
cemento, romper y patata. Es evidente que solo la recuperación diferenciada (en
la que sería posible profundizar todavía más) permite entender lo que sucede con
las dos grandes acepciones que tiene esta palabra en los diferentes países hispá-
nicos. El CORPES, pues, va en este punto bastante más allá de lo que es habitual
en un corpus de referencia.
De acuerdo con el diseño inicial, un 10 % de los materiales del CORPES estará
constituido por transcripciones de textos orales. Por causas de diferentes tipos, el
porcentaje que estos materiales suponen en la versión 0.82 (noviembre de 2015)
es todavía muy inferior al previsto y procede de una única fuente original: el
corpus CORALES, construido por la RAE en paralelo a la última etapa del CREA.
Comprende algo menos de un millón de formas gráficas correspondientes a textos
orales de diversos tipos y de todos los países hispánicos producidos entre los años
2001 y 2004. Su característica más llamativa consiste en que el texto de la
transcripción está alineado con el sonido correspondiente. La información, por
servir, pero parece mucho más razonable adoptar una expresión perfectamente reconocible para
cualquier hablante de español con un significado general que resulte congruente con el que se le
atribuye en lingüística.
18 Para una explicación general de las características de estos tres estadísticos puede verse la
ayuda que se despliega en la página de resultados de la aplicación de consulta del CORPES-XXI.
210 Guillermo Rojo
tanto, se recupera, como en todos los casos, a través de la versión textual, pero
ofrece la posibilidad de obtener el sonido vinculado a la zona devuelta por la
concordancia. Esta posibilidad, que será utilizada también en materiales de otras
procedencias, abre una vía del mayor interés para estudios en los que el análisis
directo del componente fónico (y no su traducción, más o menos detallada, a
marcas añadidas del texto) resulta importante. Dado que, además, las búsquedas
textuales incluyen ya la posibilidad de localizar signos de puntuación, el análisis
de, por ejemplo, aspectos relacionados con la entonación en secuencias interro-
gativas, exclamativas o parentéticas se hace algo relativamente sencillo.
En la versión siguiente (la 0.83, prevista para junio de 2016), el CORPES
incorporará textos procedentes del proyecto PRESEEA,19 con cuyos responsables
firmó la Academia un acuerdo de cesión de materiales en 2008. Dado que PRESEEA
tiene un ámbito de actuación que comprende todo el mundo hispánico, los
materiales de este proyecto enriquecerán considerablemente la variedad de la
parte oral del CORPES. No obstante, en la nueva fase del proyecto (entre 2015 y
2018) será necesario dedicar una atención muy especial a la incorporación de
textos orales, tarea todavía muy complicada y costosa a pesar de los importantes
avances de estos años en el tratamiento de los materiales sonoros. Con un impor-
tante porcentaje de los textos orales con sonido alineado, el CORPES se situará en
el camino de la integración de diferentes capas y perspectivas sobre los textos.
A partir de 2016, la aplicación de búsqueda, con las características que tiene
ya en este momento (noviembre de 2015) y algunas adicionales, tendrá a su lado
la posibilidad de consulta de la nómina de textos por cualquier combinación de
los parámetros de configuración. Habrá también una lista de lemas y formas
asociadas con sus frecuencias generales y normalizadas. Las consultas seguirán
siendo realizables únicamente mediante el sistema clásico de las concordancias
de longitud restringida, con posibilidad de cierta ampliación de contexto. Esta
limitación, inevitable en los corpus de referencia, es compensada con creces por
las ventajas de los más diversos tipos que la restricción de la longitud proporcio-
na. Por citar únicamente la más importante, hace posible que el CORPES conten-
ga multitud de textos de gran interés lingüístico que, por cuestiones legales, no
podrían ser incluidos en condiciones diferentes de consulta y descarga. Por todo
ello, el CORPES representa, en el conjunto de los corpus textuales del mundo
hispánico, un recurso que va más lejos, tiene mayor volumen y es mejor que los
anteriores.
19 En el Proyecto para el estudio sociolingüístico del español de España y de América (PRESEEA),

dirigido por Francisco Moreno, participan en la actualidad cerca de 40 equipos de todo el mundo
hispánico. Para más información, cf. http://preseea.linguas.net.
4 Relación de corpus y otros recursos electrónicos

mencionados en el texto
Bank of English (http://www.titania.bham.ac.uk/docs/svenguide.html).
Biblia medieval (http://www.bibliamedieval.es/index.php).
BNC – British National Corpus (http://www.natcorp.ox.ac.uk/).
Brown Corpus: The Standard Corpus of Present-Day Edited American English
(http://www.helsinki.fi/varieng/CoRD/corpora/BROWN/).
CDH – Corpus del nuevo diccionario histórico del español
(http://www.rae.es/recursos/banco-de-datos/cdh).
CE – Corpus del español (http://www.corpusdelespanol.org/).
CEMC – Corpus del español mexicano contemporáneo
(http://www.corpus.unam.mx:8080/cemc/).
CHARTA – Corpus hispánico y americano en la red: textos antiguos (http://www.charta.es).
COBUILD – Collins Birmingham University International Language Database
(http://www.collins.co.uk/category/English+Language+Teaching/COBUILD+Reference).
CODEA – Corpus de documentos españoles anteriores a 1700 (http://demos.bitext.com/codea/).
COHA – Corpus of Historical American English (http://corpus.byu.edu/coha/).
CORDE – Corpus diacrónico del español (http://rae.es/recursos/banco-de-datos/corde).
CORDIAM – Corpus diacrónico y diatópico del español de América
(http://http://www.cordiam.org/).
CORPES – Corpus del español del siglo XXI (http://rae.es/recursos/banco-de-datos/corpes-xxi).
CRATER – Corpus Resources and Terminology Extraction
(http://ucrel.lancs.ac.uk/projects.html#crater).
CREA – Corpus de referencia del español actual (http://rae.es/recursos/banco-de-datos/crea).
Es-Ten-Ten (http://www.sketchengine.co.uk/documentation/wiki/Corpora/esTenTen).
LOB – The Lancaster-Oslo/Bergen Corpus (http://www.helsinki.fi/varieng/CoRD/corpora/
LOB).
PRESEEA – Proyecto para el estudio sociolingüístico del español de España y de América
(http://preseea.linguas.net/).
Kilgarrif, Adam/Renau, Irene, EsTenTen, a Vast Web Corpus of Peninsular and American
Spanish, Procedia – Social and Behavioral Sciences 95 (2013), 12–19. Descargable de
http://www.sciencedirect.com/science/article/pii/S1877042813041372.
Mair, Christian, Tracking ongoing grammatical change and recent diversification in present-day
standard English: the complementary role of small and large corpora, in: Renouf, Antoinet-
te/Kehoe, Andrew, The changing face of corpus linguistics, Amsterdam, Rodopi, 2006,
355–376.
Rojo, Guillermo, Hispanic Corpus Linguistics, in: Lacorte, Manel (ed.), The Routledge Handbook
of Hispanic Applied Linguistics, Nueva York, Routledge, 2014, 371–387.
Rojo, Guillermo, Los corpus textuales del español, in: Gutiérrez-Rexach, Javier (ed.), Enciclopedia
lingüística hispánica, Nueva York, Routledge, en prensa.
212 Guillermo Rojo
Rojo, Guillermo/Sánchez, Mercedes, El español en la red, Madrid/Barcelona, Fundación Tele-

fónica/Ariel, 2010.
Rundell, Michael, The road to automated lexicography: An editor’s viewpoint, in: Granger,
Silviane/Paquot, Magali (edd.), Electronic Lexicography, Oxford, Oxford University Press,
2012, 15–30.
Sinclair, John, Corpus and text. Basic principles, in: Wynne, Martin (ed.), Developing Linguistic
Corpora. A Guide to Good Practice, Oxford, Oxbow Books, 2005, 1–16.
III. Corpus y análisis cuantitativos
Dorien Nieuwenhuijsen
Notas sobre la aportación del análisis
estadístico a la lingüística de corpus
1 Introducción
Hoy en día es un hecho que la lingüística histórica como disciplina académica
está cambiada profunda y definitivamente, debido al desarrollo de la lingüística
de corpus y las nuevas metodologías ofrecidas y hasta impuestas por los corpus
diacrónicos digitales. Mientras que en el pasado se reunían los ejemplos leyendo
minuciosamente una serie de textos o fragmentos de textos, actualmente es
posible recopilar de manera más o menos automática cantidades considerables
de ejemplos.
Una ventaja del método tradicional era que el investigador podía evaluar
sobre la marcha la validez o invalidez de un ejemplo, procurando que su corpus
de ejemplos fuera homogéneo y no contuviera ejemplos indebidos. Además, la
lectura detenida de los textos que le servían de fuente le permitía, ya durante el
proceso de la recolección de los datos, hacerse una idea de los contextos específi-
cos sintácticos o pragmáticos en que aparecía la forma o construcción investiga-
da. Al mismo tiempo, el investigador ya podía ir formulando hipótesis sobre los
factores involucrados en la selección de la forma o construcción en cuestión. Este
método, a la que Kabatek (2014) en un artículo reciente se refiere con el término
de «lingüística empática», hacía que el investigador llegara a conocer muy bien
su material, condición que, obviamente, es fundamental para un buen análisis
lingüístico.1
No cabe duda de que hoy en día la mayor ventaja de un corpus digital es la
disponibilidad de un banco de datos muy extenso, y la posibilidad de reunir un
corpus de ejemplos mucho más amplio, y basado en muchos más textos, que con
el método tradicional.2 Sin embargo, con el estado actual de los corpus diacróni-
1 Kabatek (2014, 707) describe la lingüística empática como «la posibilidad, aun en el caso de la
lengua de épocas remotas, de adquirir una cierta competencia lingüística y de desarrollar un ojo
crítico que permite identificar fenómenos que eran de algún modo llamativos en la época».
2 Es interesante que Rojo (2012, 435) considere la gran cantidad de ejemplos que se puede reunir
con un corpus digital justamente como una desventaja; compárense también las otras ventajas e
inconvenientes que menciona Rojo en su trabajo de 2012 (435–436).
Dorien Nieuwenhuijsen: Universiteit Utrecht

216 Dorien Nieuwenhuijsen
cos digitales del español, hay temas lingüísticos que no se dejan estudiar fácil-
mente, es decir, no con una serie de búsquedas directas. Por ejemplo, en el ámbito
de la morfología: el surgimiento del pronombre átono os como variante descuida-
da del átono vos (De Jonge/Nieuwenhuijsen 2009, 1629–1635). En el caso de os, se
trata de una forma que originalmente surgió en posición enclítica, condición que
constituye un obstáculo inseparable, dado que las posibles búsquedas o bien
proporcionan más ejemplos de los que puede procesar el programa (CORDE), o
bien únicamente ofrecen ejemplos impropios (Corpus del español; de aquí en
adelante: CdE) (Nieuwenhuijsen 2009, 376–379). Asimismo, por poner un ejemplo
en el ámbito de la sintaxis: el desarrollo de las oraciones yuxtapuestas (Nieu-
wenhuijsen 2013; 2014). Puesto que la yuxtaposición supone la unión de dos
oraciones sin conjunción o nexo, el signo que se busca carece de presencia formal,
característica que obviamente complica sumamente su análisis en un corpus
digital.
Además, el trabajo con un corpus digital entraña el riesgo de que entre los
ejemplos reunidos se encuentren casos indebidos, lo cual, obviamente, no solo
contamina los datos sino también el análisis y los resultados. Buscando en
CORDE las formas del imperfecto de subjuntivo en –ra y en –se de los verbos ser e
ir para comparar su frecuencia relativa, rápidamente se obtienen las formas
correspondientes, pero también la forma homónima del adverbio fuera y la
preposición compuesta fuera de (cf. Rojo 2008, 167, nota 9; 2010, 34, nota 16). Una
cala en CORDE muestra que la palabra fuera en el periodo 1900–1950 en España
en todos los medios proporciona para los tres textos con más casos por texto, un
total de 990 casos, de los que 377 ejemplos son casos del adverbio fuera o de la
preposición fuera de. Esto implica que el 38 % de los casos recogidos no corres-
ponde a la forma verbal.
En el CdE se pueden introducir categorías gramaticales, lo que permite, por
ejemplo, la búsqueda de construcciones pasivas perifrásticas con el auxiliar ser y
un complemento agente introducido por la preposición de o por: [ser] [VPS*] de/
por [NP*]/[NN*]. No obstante, este tipo de búsqueda ofrece también casos como
fueron expulsados de España y primero sea arrastrado por las calles públicas.
Mientras que la primera desventaja —la imposibilidad de buscar ciertas
formas o construcciones—, que se sepa, por el momento no tiene remedio, la
segunda se puede remediar con una revisión «manual» cuidadosa de todos los
ejemplos seleccionados automáticamente por el programa. Al mismo tiempo, de
esta manera el investigador puede acercarse a su material de estudio, comparable
con el proceso por el que pasaba el lingüista tradicional.
Es evidente que una mayor cantidad de datos disponibles incide positiva-
mente en la fiabilidad de los resultados. Sin embargo, más allá de la presentación
de números absolutos y porcentajes, no cabe duda de que la fiabilidad de los
Notas sobre la aportación del análisis estadístico a la lingüística de corpus 217
resultados puede aumentarse con un tratamiento estadístico de los datos, proce-

dimiento todavía no muy común en la lingüística histórica de corpus.3
En el presente trabajo nos proponemos demostrar, a través de un caso
concreto, que un análisis estadístico puede llevar a conocimientos más profundos
sobre el tema lingüístico bajo estudio y que puede matizar conclusiones sacadas
a base de los porcentajes calculados sobre los números absolutos de ejemplos.
Para tal fin, estudiaremos la variación del modo indicativo y subjuntivo en
oraciones interrogativas indirectas negadas que dependen del verbo saber (no sé
si/qué puedo/pueda), encabezadas por distintos sintagmas interrogativos en tex-
tos de procedencia peninsular y americana.
2 Modo verbal en las subordinadas interrogativas

indirectas negadas dependientes del verbo saber
Las gramáticas, en general, suelen afirmar que en las oraciones interrogativas
indirectas se utiliza el modo del indicativo en la subordinada. Esto puede ocurrir
también si el verbo principal está negado, aunque entonces se admiten los dos
modos, indicativo y subjuntivo, principalmente en caso de las llamadas dubitati-
vas (Bello 1982, 335–336; Borrego Nieto/Gómez Asencio/Prieto 1987, 112; Fernán-
dez Álvarez 1987, 47; Gili Gaya 1981, 134–136; Matte Bon 1992, 64; Molho 1975, 416;
RAE/ASALE 2010, 480; Sarmiento/Sánchez 1989, 269; Suñer 1999, 2184–2185).
Tanto Suñer (1999, 2185) como Ridruejo (1999, 3226) sostienen que el uso del
subjuntivo en las oraciones interrogativas indirectas negadas era más frecuente en
el español clásico que en la lengua actual. Keniston (1937, 348, 391, 392), para el
siglo XVI, documenta tanto casos con indicativo como con subjuntivo en las
interrogativas indirectas con un verbo de conocimiento, aunque añade que en este
tipo de oraciones el indicativo es muy común, aún si el verbo principal está negado.
Woehr (1977, 319) confirma este dato en un corpus que abarca los siglos XII a XVI.
Por otra parte, varios autores mencionan que el empleo del modo subjuntivo
en esta clase de oraciones es dialectal. Así, Alarcos Llorach (1978, 247) caracteriza
el uso como propio de hablantes no castellanos como los gallegos o asturianos.
Asimismo, Suñer (1999, 2185) comenta que la alternancia entre subjuntivo o
infinitivo (no sé qué te diga/no sé qué decirte) «ocurre en algunos dialectos
3 Cf. Torruella Casañas (2009, 100): «La utilización de técnicas estadísticas en la investigación
en general y en la investigación en el campo de la lingüística histórica en particular, es hoy
inevitable, puesto que abre la puerta a la justificación de las teorías existentes o a la argumen-
tación de nuevas sobre bases analíticas».
hispanoamericanos como el peruano y el colombiano (entre otros)», dato confir-

mado en el Manual de la RAE y ASALE (2010, 480), donde se advierte que en el
español americano, particularmente en México, Centroamérica, el Caribe y la
zona andina, se suele usar el subjuntivo en expresiones como no sé si te guste esta
comida. Además, un estudio de DeMello (1997) corrobora el carácter dialectal del
empleo del subjuntivo en las interrogativas indirectas negadas, con mayor pre-
sencia en el español mexicano y menor presencia en el español chileno y frecuen-
cias intermedias en el español colombiano y venezolano. Asimismo, Nieuwen-
huijsen (2001), a partir de un corpus limitado, concluye que, mientras que en
España se ha perdido la variación de modo en las subordinadas interrogativas
negadas con el verbo saber, en México se conserva la misma.
De los estudios mencionados se puede desprender que antiguamente el uso
del subjuntivo en las interrogativas indirectas negadas era más frecuente que hoy
en día, si bien el indicativo siempre ha tenido una mayor frecuencia que el
subjuntivo. Además, parece haber variación diatópica, dado que en varios traba-
jos se señala que el empleo del subjuntivo es más frecuente en el español
americano que en el español peninsular. En España la variación se da sobre todo
en hablantes no castellanos.
A continuación, en la sección 3 expondremos brevemente la recopilación y
composición del corpus de ejemplos por medio del CdE; en la sección 4 analiza-
remos la evolución del empleo del indicativo y subjuntivo en el contexto sintácti-
co en cuestión. Además, en la sección 5 investigaremos la señalada variación
diatópica distinguiendo entre ejemplos peninsulares y americanos. La sección 6
resume los resultados y considera la utilidad de los análisis estadísticos para la
lingüística histórica de corpus.
3 El corpus
Como el CdE en gran parte está lematizado, es posible reunir un corpus de
ejemplos amplio con un número de búsquedas muy reducido. La introducción de
las secuencias:
no [saber] si/[PQ*][VIP*]
(no+forma verbal de saber+si/pronombre interrogativo+forma verbal del presente de indica-
tivo)
no [saber] si/[PQ*][VSP*]
(no+forma verbal de saber+si/pronombre interrogativo+forma verbal del presente de sub-
juntivo)
resultó en ejemplos como los de (1) a (4). Para las subordinadas introducidas por
cómo, por qué y cuándo se han realizado búsquedas aparte, dado que no salían
automáticamente al buscar por la categoría de pronombre interrogativo (cf. los
ejemplos (5) y (6)).
(1) son blancas de dentro, y el pescado de ellas, y muy sabrosas, no saladas, sino dulces y
que han menester alguna sal, y dize que no saben si naçen en nácaras. (Textos y
documentos completos de Cristobal Colón, siglo XV, CdE)
(2) ¿En qué me ejercitaré para agradaros? Gloria mía, yo no sé qué haga; decidmelo Vos,
pues sabéis que deseo acertar a honraros y glorificaros. (Epistolario, siglo XVI, CdE)
(3) Aunque es verdad que la debo obligaciones, repara que ella no sabe quién es; y es
bajeza y es infamia casarme yo con mujer. . . Clotaldo. (La vida es sueño, siglo XVII,
CdE)
(4) Respuesta. – No sé cuál sea la estrategia que vaya a tomar el Pri, la verdad es un
problema del Pri en este punto y nosotros estamos defendiendo nuestros puntos de
vista de una iniciativa válida, meditada, bien hecha, (Entrevista PAN, siglo XX, CdE)
(5) Pues assí goze de mi alma, no se me ha quitado el mal de la madre; no sé cómo pueda
ser. (La Celestina, siglo XV, CdE)
(6) No sé por qué pasa ni cómo explicarlo, pero sé que ocurre y que el público también lo
siente. (Entrevista ABC, siglo XX, CdE)
El corpus así formado, por tanto, comprende subordinadas indirectas que depen-
den del verbo saber y están encabezadas por los sintagmas interrogativos cómo,
cuál, cuándo, cuánto, dónde, por qué, qué, quién y si. Todos los ejemplos se han
revisado «a mano», para quitar algunos casos dobles. En total se trata de 2202
ejemplos (1833 de indicativo, 369 de subjuntivo).
4 Frecuencia del modo verbal en las subordinadas

interrogativas indirectas negadas con el verbo
sabe
4.1 Frecuencias generales
Como primer paso se ha calculado la frecuencia del indicativo y subjuntivo en las

subordinadas interrogativas indirectas negadas en general. Se ha utilizado el
programa estadístico SPSS, con el cual se pueden realizar cómputos relativamen-
te sencillos así como pruebas estadísticas relativamente complejas, como se verá
más adelante.
Los resultados del primer cálculo se plasman en el gráfico 1, del que se
desprende claramente que el indicativo, en general, es mucho más frecuente que
el subjuntivo (el 83,24 % frente al 16,76 %).
Gráfico 1: Frecuencia general (%) de indicativo y subjuntivo en subordinadas interrogativas

indirectas negadas con saber
En el gráfico 2 se observa la frecuencia de los distintos tipos de interrogativas

indirectas negadas. Es evidente que las interrogativas introducidas por si son las
más frecuentes (35,2 %), seguidos por las que llevan qué (26,48 %) y cómo
(13,03 %). Por otra parte, las interrogativas indirectas encabezadas por cuándo y
cuánto ni siquiera llegan al 1 % en el corpus. Como las subordinadas con cuándo y
cuánto, además, solo registran formas verbales en indicativo, los ejemplos corres-
pondientes se han excluido de los demás cálculos del corpus.
Gráfico 2: Frecuencia (%) de los distintos sintagmas interrogativos en interrogativas indirectas

negadas con saber
El gráfico 1 presenta la frecuencia de los modos indicativo y subjuntivo en el

corpus en su totalidad, pero de los estudios citados en la sección 2 se desprende
que la distribución de ambos modos no siempre ha sido igual, es decir, en épocas
anteriores el subjuntivo era más frecuente en las subordinadas interrogativas que
en la actualidad. Por eso, se han hecho cortes para cada siglo presente en el
corpus, calculando los porcentajes de uso de ambos modos. Los resultados del
cálculo, presentados en la tabla 1, arrojan luz sobre la propagación de un modo
frente al retroceso del otro a través de los siglos.
Tabla 1: Frecuencia de indicativo y subjuntivo en subordinadas interrogativas indirectas negadas

con saber a través de los siglos
Siglo Modo Total
INDICATIVO SUBJUNTIVO
XIII 3 0 3
100 % 0% 100 %
XIV – – –
XV 1 3 4
25 % 75 % 100 %
XVI 385 147 532
72,4 % 27,6 % 100 %
XVII 395 111 506
78,1 % 21,9 % 100 %
XVIII 144 32 176
81,8 % 18,2 % 100 %
XIX 308 31 339
90,9 % 9,1 % 100 %
XX 597 45 642
93 % 7% 100 %
Total 1833 369 2202
83,2 % 16,8 % 100 %
Chi2=123,233 (gl=6; p=0,000)
En los primeros siglos el uso del subjuntivo oscila considerablemente, pero es de

notar que el corpus cuenta con muy pocos ejemplos para los siglos XIII y XV y no
registra ningún caso para el siglo XIV. Asimismo, los tres ejemplos del siglo XIII
provienen de Siete partidas, un texto cuyo manuscrito original data del siglo XIII,
pero que en CORDE aparece con la fecha de 1491, de acuerdo con la fecha de la
primera edición conocida. A pesar de eso, en general se puede concluir que el
empleo del subjuntivo en las subordinadas interrogativas indirectas negadas con
saber, efectivamente, baja a lo largo de los siglos, del 27,6 % en el siglo XVI al
7 % en el siglo XX.
El desarrollo esbozado aquí se aprecia con mayor nitidez en el gráfico 3, que
representa los datos de la tabla 1.
Gráfico 3: Frecuencia del empleo de indicativo y subjuntivo en subordinadas interrogativas

indirectas negadas con saber a través de los siglos
4.2 La influencia del factor tiempo
Los porcentajes de la tabla 1 están calculados sobre los ejemplos del corpus reunido
para este trabajo y, en tal calidad, dan información sobre la distribución de los dos
modos verbales en el mismo. Sin embargo, dado que estudios anteriores advierten
que el uso del subjuntivo en las interrogativas indirectas negadas era más frecuente
en el español clásico, lo cual se comprueba en nuestro corpus, interesa conocer
también el grado de influencia que ejerce el factor tiempo sobre la aparición del
subjuntivo en esta clase de oraciones, es decir, interesa saber si existe una correla-
ción entre el tiempo y el uso del subjuntivo en general.
Para investigar dicha correlación, se ha aplicado un test de regresión logística
binaria, con el que se puede examinar si una o más variables independientes o
predictoras tienen influencia sobre una variable dependiente y si el efecto es
positivo o negativo. En el siguiente cómputo, la variable dependiente es el modo

verbal y la variable independiente la constituye el tiempo. El test se basa en todos
los ejemplos del corpus y, a partir de su codificación en términos de siglo y modo,
desarrolla un modelo que predice la probabilidad de que aparezca uno de los
modos verbales. Asimismo, el test indica si los valores encontrados tienen signifi-
cación estadística.
La tabla 2 recoge los datos más importantes del test de regresión logística
binaria.
Tabla 2: Probabilidad y valor de significación del empleo del subjuntivo con la variable
independiente de siglo
Wald gl Sig. Exp(B)
siglo 103,531 1 ,000 ,666
constante 64,376 1 ,000 266,195
Chi2=116,329 (gl=1; p=0,000)
En la columna izquierda se encuentra la variable independiente de tiempo (siglo).

En esta misma columna figura también la constante o intersección, que indica la
probabilidad estimada de que aparezca el subjuntivo si el valor de todas las
variables independientes es de 0. En general, el valor de la constante no tiene
relevancia independiente. La columna titulada ‘Wald’ da el resultado de la prueba
de Wald, un test con el que se determina si los datos de la columna derecha (Exp(B),
el exponencial del coeficiente u odds ratio) son significativos. El Exp(B), por su
parte, indica la probabilidad de que aparezca la variable dependiente con la
variable independiente. Un valor de Exp(B) mayor de 1 quiere decir que la probabi-
lidad de que la variable dependiente aparezca con la variable independiente
aumenta (si la variable independiente sube con un punto). Un Exp(B) mayor de 1,
por tanto, apunta a un efecto positivo. En cambio, con un Exp(B) < 1 la misma
probabilidad disminuye, en cuyo caso, por consecuencia, se detecta un efecto
negativo. La columna titulada ‘gl’ indica los grados de libertad, o sea el número de
variables involucradas en el cálculo, determinado automáticamente por el progra-
ma. Por último, en la columna ‘Sig.’ se da el valor p, que señala la significatividad
estadística del efecto dado bajo Exp(B). Si el valor p es < 0,05 se entiende que tiene
significatividad estadística y que la diferencia encontrada probablemente no se
deba al azar. En cambio, con un valor de p > 0,05 no hay significación estadística y
no se puede descartar la posibilidad de que se trate de una asociación casual.
De la tabla 2 se puede concluir que la probabilidad de que el verbo aparezca
en subjuntivo (frente al indicativo) en la interrogativa indirecta negada disminuye
a través de los siglos (Exp(B) < 1, =0,666) y que el efecto tiene significación
estadística (Sig.=0,000). Esto encaja con los resultados de la tabla 1, si bien en los
siglos XIII y XV el corpus proporcionaba un panorama relativamente irregular (el
0 % en el siglo XIII y el 75 % en el siglo XV).
Al presentar los resultados del test estadístico de manera gráfica, se observa
que la probabilidad de que aparezca el subjuntivo disminuye constantemente a
través de los siglos, con una decadencia muy marcada en los primeros siglos
(gráfico 4).
Gráfico 4: Probabilidad media predicha del empleo del subjuntivo en subordinadas

interrogativas indirectas negadas con saber a través de los siglos
4.3 Los distintos sintagmas interrogativos y el modo verbal
En los apartados anteriores se han presentado datos acerca del uso del indicativo
y subjuntivo a través de los siglos sin distinguir entre la clase de interrogativa
indirecta, es decir, sin distinguir entre los sintagmas interrogativos que encabezan
las subordinadas. Sin embargo, no se puede descartar la posibilidad de que el uso
del modo verbal sea diferente según el sintagma interrogativo específico que
introduzca la oración subordinada; ya se ha señalado que con los sintagmas
cuándo y cuánto el corpus únicamente registra el modo indicativo.
El gráfico 5 presenta la frecuencia de los dos modos verbales con los distintos
sintagmas interrogativos.
Gráfico 5: Frecuencia del empleo de indicativo y subjuntivo en subordinadas interrogativas

indirectas negadas con saber con distintos sintagmas interrogativos
Del gráfico 5 se desprende que el subjuntivo es más frecuente en las subordinadas

interrogativas indirectas encabezadas por qué (26,6 %), seguido por cuál
(21,4 %), si (15,7 %) y cómo (15,3 %) respectivamente. Los demás sintagmas
presentan porcentajes del subjuntivo por debajo del 10 %.
Si bien el empleo del subjuntivo, en general, disminuye a lo largo de los
siglos (cf. la tabla 1), los distintos sintagmas interrogativos presentan desarrollos
divergentes, tal como se puede apreciar en el gráfico 6.
Gráfico 6: Frecuencia del empleo de subjuntivo en subordinadas interrogativas indirectas

negadas con saber encabezadas por distintos sintagmas interrogativos a través de los siglos
A partir del gráfico 6 se puede concluir que, si bien en todos los sintagmas
interrogativos el empleo del modo subjuntivo disminuye a través de los siglos,
cuál y si presentan un aumento en el siglo XVIII, aumento que también se observa
en cómo en el siglo XVII. La fuerte caída observada en cómo y qué del siglo XV a
XVI (100 % a 25,6 % y 43,2 % respectivamente), no es fidedigna, dado que se
trata de 1 y 2 casos de subjuntivo en total.
4.4 Los sintagmas interrogativos y el uso del subjuntivo a

través del tiempo
De cada sintagma interrogativo también se ha calculado la probabilidad de que

aparezca con una forma verbal de subjuntivo en la subordinada, además de la
interacción entre las dos variables independientes, es decir, entre cada uno de
los sintagmas interrogativos y el tiempo. Los resultados del test se dan en la
tabla 3.
Tabla 3: Probabilidad y valor de significación del empleo del subjuntivo con las variables
independientes de siglo y sintagma interrogativo e interacción entre siglo y sintagma
interrogativo en subordinadas interrogativas indirectas negadas con saber
Wald df Sig. Exp(B)
siglo 57,061 1 ,000 ,546
qué 23,257 6 ,001
cómo ,002 1 ,965 1,127
cuál 5,309 1 ,021 ,001
dónde 2,991 1 ,084 ,000
por qué ,808 1 ,369 ,005
si 16,379 1 ,000 ,001
quién 4,748 1 ,029 ,001
qué por siglo 20,616 6 ,002
cómo por siglo ,075 1 ,785 ,958
cuál por siglo 5,201 1 ,023 1,512
dónde por siglo 2,041 1 ,153 1,634
por qué por siglo ,417 1 ,518 1,238
si por siglo 14,274 1 ,000 1,462

Tabla 3: (continuada)
Wald df Sig. Exp(B)
quién por siglo 3,150 1 ,076 1,421
constante 48,069 1 ,000 12875,463
Chi2=206,254 (gl=13; p=0,000); ref.=qué
El test estadístico revela varios resultados interesantes. Por una parte, se confirma
el hecho de que el tiempo influye en la aparición del subjuntivo en las interroga-
tivas indirectas, en el sentido de que el empleo de este modo disminuye a través de
los siglos (Exp(B)=0,546; Sig.=0,000). Por otra parte, la probabilidad de que ocurra
el subjuntivo en la subordinada encabezada por cuál, dónde, por qué, si y quién
disminuye en comparación con la subordinada introducida por qué (Exp(B) < 1), en
tanto que con cómo dicha probabilidad aumenta moderadamente (Exp(B)=1,127)
comparada con qué. Sin embargo, el efecto solo es significativo con si (Sig.=0,000).
Asimismo, a través del tiempo la probabilidad de que aparezca el subjuntivo
aumenta con todos los sintagmas interrogativos en comparación con qué, menos
con cómo, pero, de nuevo, únicamente en el caso de si el resultado tiene significa-
ción estadística (Sig.=0,00). El gráfico 7, creado a base de los resultados del test de
regresión, presenta la influencia del factor tiempo sobre la ocurrencia del subjunti-
vo con los distintos sintagmas interrogativos.
Como se puede ver, la probabilidad de que el verbo de la subordinada esté en
subjuntivo disminuye a lo largo del tiempo independientemente del sintagma
interrogativo, puesto que con todos los sintagmas interrogativos la curva descien-
de. No obstante, las pérdidas más substanciales a través de los siglos se dan con
los interrogativos cómo y qué, y, aunque en menor grado, también con si. Por otra
parte, con dónde, por qué y quién la probabilidad siempre ha sido relativamente
baja, de manera que su papel en la disminución del uso del subjuntivo en esta
clase de oraciones subordinadas en perspectiva diacrónica es insignificante.
Asimismo, si bien en el caso de cuál la probabilidad de que el verbo aparezca en
subjuntivo ha bajado a lo largo del tiempo, comparable con la caída de si a partir
del siglo XVI, son las interrogativas encabezadas por cuál las que en el siglo XX
tienen mayor probabilidad de aparecer con subjuntivo.
Gráfico 7: Probabilidad media predicha del empleo del subjuntivo en subordinadas interrogativas
indirectas negadas con saber introducidas por distintos sintagmas interrogativos a través de los
siglos
5 Frecuencia del modo verbal en las subordinadas

interrogativas indirectas negadas con el verbo
saber + si en textos peninsulares y americanos
El corpus reunido para este estudio permite distinguir entre ejemplos procedentes
de textos peninsulares, por una parte, y ejemplos procedentes de textos america-
nos, por otra parte.4 Para saber si, de hecho, se documenta una variación
4 Somos conscientes de que la clasificación en términos de «América» y «americano» no

corresponde con la rica variación lingüística en el continente americano. Sin embargo, dado el
diatópica en el uso del indicativo y subjuntivo en las subordinadas interrogativas

negadas con saber, se han categorizado todos los ejemplos en términos de
procedencia de manera manual, ya que el CdE no procesa esta etiquetación
automáticamente. Es de notar que para este cómputo nos hemos limitado a los
casos de si, la clase de subordinada interrogativa que ofrece el mayor número de
ejemplos en el corpus (véase el gráfico 2).
En la tabla 4 se presentan los porcentajes del indicativo y subjuntivo por siglo
y por origen de los ejemplos. Los signos de interrogación indican que no se
conoce el origen, porque el autor es anónimo.
Tabla 4: Frecuencia de indicativo y subjuntivo en subordinadas interrogativas indirectas

negadas con saber introducidas por si en textos peninsulares y americanos a través de los siglos
Siglo Origen Modo Total Significación
XIII España 3 0 3
100 % 0% 100 %
XV España 1 0 1
100 % 0% 100 %
XVI ?? 7 1 8 Chi2=1,055;
gl=2;
87,5 % 12,5 % 100 %
p=0,590
América 2 0 2
100 % 0% 100 %
España 104 31 135
77 % 23 % 100 %
XVII ?? 3 1 4 Chi2=1,422;
gl=2;
75 % 25 % 100 %
p=0,491
América 6 3 9
66,7 % 33,3 % 100 %
España 124 27 151
82,1 % 17,9 % 100 %
bajo número de ejemplos procedentes de textos no peninsulares (para América: 208 ejemplos en
total, solo 35 de subjuntivo) no ha sido posible hacer una subclasificación por país o zona
dialectal americana.
Siglo Origen Modo Total Significación
XVIII América 0 2 2 Chi2=5,147;

gl=1;
0% 100 % 100 %
p=0,023
España 50 18 68
73,5 % 26,5 % 100 %
XIX ?? 1 0 1 Chi2=2,203;
gl=2;
100 % 0% 100 %
p=0,332
América 10 3 13
76,9 % 23,1 % 100 %
España 76 8 84
90,5 % 9,5 % 100 %
XX América 155 27 182 Chi2=15,641;

gl=1;
85,2 % 14,8 % 100 %
p=0,000
España 111 1 112
99,1 % 0,9 % 100 %
Total ?? 11 2 13 Chi2=0,252;
gl=2;
84,6 % 15,4 % 100 %
p=0,8810
América 173 35 208
83,2 % 16,8 % 100 %
España 469 85 554
84,7 % 15,3 % 100 %
Esta tabla muestra que del siglo XVII en adelante el empleo del subjuntivo
siempre es más alto en ejemplos procedentes de textos americanos que en
ejemplos procedentes de textos peninsulares. En el siglo XX solo se documenta
un caso de subjuntivo en España, que resulta ser una cita literal de unas palabras
pronunciadas por un historiador del siglo XVII.
En el gráfico 8, que representa los porcentajes del subjuntivo de la tabla 4, se
aprecia claramente la mayor preferencia por el subjuntivo en ejemplos america-
nos en comparación con ejemplos peninsulares. Asimismo, mientras que en
España el empleo del subjuntivo oscila ligeramente a través de los siglos, con
mayor uso en el siglo XVIII (26,5 %), en América se observa un aumento del uso
del subjuntivo muy marcado entre el siglo XVII y el XVIII, aunque se basa en
escasos ejemplos.
Gráfico 8: Frecuencia del empleo del subjuntivo en subordinadas interrogativas indirectas

negadas con saber introducidas por si en textos peninsulares y americanos a través de los
siglos
5.1 La influencia de los factores origen y tiempo
Si bien el gráfico 8 presenta un panorama general del uso del subjuntivo en

interrogativas indirectas negadas a través de los siglos, el test de regresión
logística binaria es capaz de medir la influencia del origen de los ejemplos sobre
la aparición del subjuntivo, es decir es capaz de predecir la probabilidad de que
el subjuntivo aparezca en ejemplos americanos frente a ejemplos peninsulares.
Además, con el mismo test se puede medir la interacción de las dos variables
independientes de origen y tiempo, o sea que se puede medir si el efecto del
tiempo para España es distinto del efecto para América. La tabla 5 recoge los
resultados más importantes del test.
Tabla 5: Probabilidad y valor de significación del empleo del subjuntivo con las variables
independientes de siglo y origen e interacción entre siglo y origen en subordinadas
interrogativas indirectas negadas con saber introducidas por si
Wald gl Sig. Exp(B)
siglo 19,568 1 ,000 ,679
América ,000 1 ,999 ,993
América por siglo ,052 1 ,819 1,051
constante 11,211 1 ,001 156,596

2
Chi =24,767 (gl=3; p=0,000); ref.=España
De esta tabla se deprende, otra vez, que el empleo del subjuntivo en estas
interrogativas indirectas disminuye a través del tiempo. El Exp(B) de esta variable
es < 1 (0,679), y el efecto tiene significatividad estadística (Sig.=0,000).
En caso del origen, se observa que esta variable no influye de manera
significativa en la aparición del subjuntivo. Es verdad que la probabilidad de que
el subjuntivo ocurra en ejemplos americanos en comparación con la aparición de
ese modo verbal en ejemplos peninsulares disminuye (Exp(B)=0,993), pero la
diferencia no es significativa en absoluto (Sig.=0,999).
Lo mismo se observa con la interacción del origen y tiempo. La probabilidad
de que el subjuntivo aparezca en textos americanos (frente a textos peninsulares)
aumenta en cada siglo sucesivo (Exp(B)=1,051), pero el efecto no alcanza la
significatividad estadística (Sig.=0,819).
A continuación se plasman los resultados del test de regresión logística
binaria de manera gráfica (gráfico 9).
Gráfico 9: Probabilidad media predicha del empleo del subjuntivo en subordinadas

interrogativas indirectas negadas con saber introducidas por si en textos peninsulares y
americanos a través de los siglos
Por una parte, el gráfico 9 muestra que la probabilidad de que el modo subjuntivo
ocurra en interrogativas indirectas negadas introducidas por si en todo el período
es más alta en ejemplos de origen americano que en ejemplos de origen peninsu-
lar, lo que corresponde con las observaciones de varios estudiosos sobre del tema.
Por otra parte, si bien en el corpus se ha observado un aumento del empleo del
subjuntivo en ejemplos americanos entre los siglos XVI y XVIII (gráfico 8), el test
estadístico predice un descenso continuo y gradual para el uso del subjuntivo en
América. De hecho, el gráfico 9 sugiere que la disminución se ha producido y se
está produciendo por igual en España y en América, puesto que las dos líneas
descienden de manera muy similar.
6 Conclusiones
Con la creación de los corpus digitales diacrónicos en línea y la disponibilidad de
grandes cantidades de datos, se ha hecho casi imprescindible el uso de un
programa estadístico para trabajar estos datos. Teóricamente, el cálculo de la
frecuencia de cierta forma lingüística se puede hacer de manera manual y el
provecho de un programa estadístico radica en tal caso, sobre todo, en la mayor
comodidad, rapidez y corrección al realizar los cálculos. Dichos cálculos relativa-
mente sencillos son esenciales para llegar a conocer las tendencias generales del
material bajo estudio y para saber cómo se desarrolla cierta forma o construcción
en el corpus de ejemplos. Los gráficos 1 a 3 y la tabla 1 dan cuenta de las
tendencias generales en el corpus acerca del uso del modo verbal en oraciones
interrogativas indirectas negadas que dependen del verbo saber.
Por otra parte, el tratamiento estadístico de los datos permite calcular proba-
bilidades del empleo de cierta forma o construcción, además de medir la influen-
cia de cierto factor o variable independiente sobre la aparición de una forma o
variable dependiente. Estos cálculos son importantes para comprobar o refutar
ciertas tendencias observadas en el corpus. El gráfico 3 del presente trabajo
sugiere un aumento del uso del subjuntivo en las interrogativas indirectas nega-
das con el verbo saber en el siglo XV y una marcada decaída en el siglo XVI; no
obstante, el test de regresión logística muestra que la probabilidad de que el
verbo aparezca en subjuntivo en esta clase de oraciones va disminuyendo conti-
nuamente a través de los siglos y no comprueba ninguna de las oscilaciones
sugeridas por las frecuencias porcentuales.
El mismo tipo de refutación se observa en los cómputos del empleo de
subjuntivo con los distintos sintagmas interrogativos, ya que en el gráfico 7, que
plasma las probabilidades de ocurrencia del subjuntivo con cada sintagma inte-
rrogativo, se aprecia, otra vez, que en perspectiva diacrónica el subjuntivo cons-
tantemente pierde terreno en las interrogativas indirectas negadas con el verbo
saber y que ninguno de los aumentos sugeridos por el gráfico 6 se confirma con el
test estadístico.
Además, el gráfico 7 muestra que la propagación del indicativo a expensas
del subjuntivo se produce, principalmente, en las oraciones interrogativas enca-
bezadas por cómo, qué y si, y que a través de los siglos el subjuntivo se ha
mantenido más firme en las interrogativas encabezadas por cuál. Con el test de
regresión logística, por tanto, se puede capturar el cambio lingüístico en curso,
dado que los resultados del mismo predicen con cierto detalle cómo habrá
transcurrido la disminución del uso del subjuntivo a través de los siglos, es
decir en qué contextos y en qué momento este modo verbal habrá perdido más
terreno.
Con el test de regresión logística también se ha podido medir la influencia del

factor origen y la interacción entre este factor y el tiempo. Aunque es cierto que la
probabilidad de que el subjuntivo aparezca en esta clase de subordinadas encabe-
zadas por si es más alta en textos de origen americano que en textos peninsulares,
tanto en el período antiguo como en la actualidad, el presente estudio también
demuestra que se ha producido un descenso constante del empleo del subjuntivo
tanto en América como en España y que la pérdida de terreno del subjuntivo en
este contexto sintáctico diatópicamente es muy similar.
A pesar del gran valor de los test estadísticos para la lingüística histórica,
no queremos abogar aquí por la supresión de los análisis tradicionales y la
sustitución completa de los análisis tradicionales por las pruebas estadísticas. El
análisis cuantitativo sigue siendo imprescindible para formarse una idea global
de la frecuencia y desarrollo de una forma o construcción sintáctica. Asimismo,
el análisis cualitativo, es decir el detenido estudio de ejemplos específicos en su
contexto, permite identificar posibles factores que hayan influido en la evolu-
ción del cambio lingüístico. El tratamiento estadístico, en cambio, constituye
una herramienta complementaria muy potente, que sirve para comprobar la
validez de las conclusiones sacadas en ambos tipos de análisis y para medir
la posible influencia de distintos factores identificados en el material estudia-
do.5
7 Corpus
CdE – Davies, Mark, Corpus del español, <http://www.corpusdelespanol.org> [última consulta:
junio de 2014].
CORDE – Real Academia Española, Corpus diacrónico del español, <http://www.rae.es> [última
consulta: junio de 2014]
8 Bibliografía
Alarcos Llorach, Emilio, Estudios de gramática funcional del español, Madrid, Gredos, 1978.
Bello, Andrés, Gramática de la lengua castellana, Madrid, EDAF, 1982.
Borrego Nieto, Julio/Gómez Asencio, José J./Prieto, Emilio, El subjuntivo. Valores y uso, Madrid,
SGEL, 1987.
5 Cf. Torruella Casañas (2009, 100): «La estadística, sin embargo, debe ser considerada sólo
como un puro instrumento para la investigación, nunca como su finalidad. Un instrumento que
ha de ayudar a la consecución de dos objetivos: en primer lugar, describir y resumir los datos y,
en segundo lugar, hacer estimaciones de significación y de fiabilidad».
De Jonge, Robert/Nieuwenhuijsen, Dorien, Formación del paradigma pronominal y formas de

tratamiento, in: Company Company, Concepción (dir.), Sintaxis histórica de la lengua
española. Segunda parte: La frase nominal, vol. 2, México D.F., Universidad Nacional
Autónoma de México y Fondo de Cultura Económica, 2009, 1593–1671.
DeMello, George, Tense and mood after No sé si, Hispanic Review 63:4 (1995), 555–573.
Fernández Álvarez, Jesús, El subjuntivo, Madrid, Edelsa, 1987.
Gili Gaya, Samuel, Curso superior de sintaxis española, Barcelona, Bibliograf, 1981.
Kabatek, Johannes, Lingüística empática, RILCE, Revista de Filología Hispánica 30:3 (2014),
705–723.
Keniston, Hayward, The Syntax of Castilian Prose. The Sixteenth Century, Chicago, The University
of Chicago Press, 1937.
Matte Bon, Francisco, Gramática comunicativa del español, vol. 1, Madrid, Difusión, 1992.
Molho, Mauricio, Sistemática del verbo español, Madrid, Gredos, 1975.
Nieuwenhuijsen, Dorien, Modo verbal en las oraciones interrogativas indirectas, Nueva Revista
de Filología Hispánica XLIX:2 (2001), 339–362.
Nieuwenhuijsen, Dorien, El rastreo del desarrollo de algunos pronombres personales en es-
pañol: (im)posibilidades de los corpus diacrónicos digitales, in: Enrique-Arias, Andrés (ed.),
Diacronía de las lenguas iberorrománicas: nuevas aportaciones desde la lingüística de
corpus, Madrid/Fráncfort, Iberoamericana/Vervuert, 2009, 365–384.
Nieuwenhuijsen, Dorien, Yuxtaposición y tradiciones discursivas en el español antiguo, La
corónica 41:2 (2013), 135–172.
Nieuwenhuijsen, Dorien, Oraciones yuxtapuestas, in: Company Company, Concepción (dir.),
Sintaxis histórica de la lengua española. Tercera parte: Adverbios, preposiciones, conjun-
ciones. Relaciones interoracionales, vol. 2, México D.F., Universidad Nacional Autónoma
de México y Fondo de Cultura Económica, 2014, 387–436.
Real Academia Española/Asociación de Academias de la Lengua Española, Nueva gramática de
la lengua española. Manual, Madrid, Espasa, 2010.
Ridruejo, Emilio, Modo y modalidad. El modo en las subordinadas sustantivas, in: Bosque,
Ignacio/Demonte, Violeta (edd.), Gramática descriptiva de la lengua española, vol. 2,
Madrid, Espasa-Calpe, 1999, 3209–3251.
Rojo, Guillermo, De nuevo sobre la frecuencia de las formas llegara y llegase, in: Albrecht, Jörn/
Harslem, Frank (edd.), Heidelberger Spätlese. Ausgewählte Tropfen aus verschiedenen La-
gen der spanischen Sprach- und Übersetzungswissenschaft. Festschrift anlässlich des 70.
Geburtstages von Prof. Dr. Nelson Cartagena, Bonn, Romanistischer Verlag, 2008, 161–182.
Corpus del español con el CORDE y el CREA, Lingüística 24 (2010), 11–50.
Rojo, Guillermo, El papel de los corpus en el estudio de la historia del español, in: Montero
Cartelle, Emilio (ed.), Actas del VIII Congreso Internacional de Historia de la Lengua
Española (Santiago de Compostela, 2009), vol. 1, Santiago de Compostela, Meubook, 2012,
433–444.
Sarmiento, Ramón/Sánchez, Aquilino, Gramática básica del español. Norma y uso, Madrid,
SGEL, 1989.
Suñer, Margarita, La subordinación sustantiva: la interrogación indirecta, in: Bosque, Ignacio/
Demonte, Violeta (edd.), Gramática descriptiva de la lengua española, vol. 2, Madrid,
Espasa-Calpe, 1999, 2149–2195.
Torruella Casañas, Joan, Bases científicas en la investigación a partir de corpus: el caso del
Corpus Informatitzat del català antic, in: Enrique-Arias, Andrés (ed.), Diacronía de las
lenguas iberorrománicas: nuevas aportaciones desde la lingüística de corpus, Madrid/

Fráncfort, Iberoamericana/Vervuert, 2009, 95–115.
Woehr, Richard, Syntactic atrophy and the indirect interrogative in Spanish, Studia Neophilolo-
gica 49:2 (1977), 311–326.
Kim Schulte and José Luis Blas Arroyo
Entrenchment and frequency effects in
the diffusion and replacement of modal
periphrases in Spanish: a diachronic
variationist analysis
1 Introduction
Modality has been the subject of a considerable number of studies in recent years,
within formal semantics (e.g. Portner 2009), from a discourse-pragmatic perspec-
tive (e.g. Gévaudan 2013), at the interface between Semantics and Pragmatics
(e.g. Papafragou 2000) as well as between Syntax and Discourse (e.g. Bybee/
Fleischman 1995), and within Cognitive Grammar (e.g. Langacker 2003; Cornillie
2007). Diachronically, modal constructions are most commonly examined from
the perspective of semantic change (e.g. Narrog 2012) and within Grammaticaliza-
tion Studies (e.g. Bybee/Perkins/Pagliuca 1994), as they tend to evolve along
similar pathways cross-linguistically, both in terms of their semantic and their
grammatical features. It is for this reason that a detailed case study of modals in a
particular language can be expected to offer more generally valid insights into
which factors can, at least potentially, contribute to the process of change in
which ways, as it stands to reason that similar patterns of change in different
languages may well be the result of similar causes and processes.
In this paper, the diachronic development of a set of competing periphrastic
modal constructions in Spanish since the 16th century will be examined, with the
aim of finding explanations for the shifts in their usage.1 Traditionally, the main
focus of studies in this area has been almost exclusively on the distinction
between different modal values, namely deontic and epistemic modality, and on
which of these modal values can be (or tends to be) expressed by which of the
available modal constructions. Whilst it is highly likely that such semantic factors
1 This study is part of the project “Linguistic variation and change through texts of communica-
tive immediacy: a historical sociolinguistic research project” (2013–2016), funded by the Univer-
sity Jaume I (ref. P1·1B2013-01) and the Spanish Ministry of Economy and Competitiveness (ref.
FFI2013-44614-P); the data analysed in this paper was collected by the members of the research
team.
Kim Schulte and José Luis Blas Arroyo: Universitat Jaume I, Castelló
Entrenchment and frequency effects in the diffusion and replacement 239
play a role in the choice between competing modal periphrases, it would be

prudent to verify whether any other relevant factors can be identified; an objec-
tive and unbiased way of achieving this is by means of a variationist analysis that
tests for the statistical significance of a wide range of variables at different stages
in the history of each of the modal constructions.
Specific attention will be paid to the role of frequency effects in the changes
analysed here. It has long been known that there is a relationship between
frequency and susceptibility or resistance to change (e.g. Langacker 1987; Bybee
2006; Rosemeyer 2014), as high token frequency leads to routinization and
cognitive entrenchment. The entrenchment of constructions (understood as
form–function pairings) is linked to chunking, i.e. the gradual reanalysis of two
frequently co-occurring elements as an increasingly indivisible unit. As a result,
combinations of (a) a particular construction and (b) contexts in which this
construction frequently occurs become entrenched, which makes it harder for
newly emerging variants with the same function to get a foothold in these
environments; in less frequent contexts, on the other hand, the degree of en-
trenchment of the established construction is lower and there is less resistance to
its substitution by an alternative variant. Whilst frequency effects are not necessa-
rily a decisive factor (cf. e.g. Poplack 2001), the data presented and analysed in
this paper suggests that they do play an important role in the evolution of the
Spanish modal periphrases.
2 The Spanish deontic/epistemic modal

periphrases since the Middle Ages
Of the five modal constructions examined in this paper, two are based on the
lexical verb deber2 ‘to owe’, while the other three are formed with two different
‘have’-verbs, haber3 and tener; the semantic origins of these periphrases are, thus,
similar to English shall/should and have to, respectively. In addition to using
different modal verbs, the constructions are also distinguished by the particle
2 The orthographic variant dever is common in older texts, reflecting a distinction between the
bilabial and labiodental fricative until the 16th century; the shift to the modern spelling deber is
DĒ BĒRE .
primarily due to learned influence, copying the orthography of Latin DĒBĒRE
3 Since tener became synonymous with the lexical verb haber ‘to have’ in the 16th century, the
latter has come to be used exclusively as an auxiliary verb. Orthographic variants in older texts
include aver, aber and haver.
240 Kim Schulte and José Luis Blas Arroyo
linking the modal verb with the lexical verb, or by the absence of such a particle.
The five modal constructions are the following:
(a) haber de + infinitive

(b) deber + infinitive
(c) deber de + infinitive
(d) tener de + infinitive
(e) tener que + infinitive
Whilst [tener de + inf.], as well as some less commonly documented medieval

variants such as [aver a + inf.], [aver + inf.] and [tener a + inf.] have fallen out of
use, the other four constructions have remained in competition over the past five
centuries; their relative frequency, however, has changed dramatically between
the 15th and the 20th century. As shown in Table 1, [aver de + inf.], which was by
far the most common modal periphrasis in medieval Spanish, has become the
least frequently used option in the present-day language. Conversely, [tener que +
inf.], which was a marginal construction in the 15th century, has become the most
popular choice in contemporary Spanish, while [deber (de) + inf.] has remained
in a mid-position.
Table 1: Changes in relative frequency between the Middle Ages and today
F REQUENCY
REQUENC Y 15th CENTURY
CE NTURY 20th/21st CENTURY
CENT URY
high aver de (+aver a, aver) tener que
↓ dever
dever de
deber
deber de
low tener de (+tener a) haber de
tener que
Before proceeding to a more detailed analysis of some of the factors involved in

the choice between these constructions at different points of their diachronic
trajectory, a brief overview of the respective constructions’ historical development
and some noteworthy features will be presented in the remainder of this section.
2.1 [aver~haber de + infinitive]
This is by far the most frequent modal periphrasis from the very earliest docu-
ments until the 19th century, but in sharp decline since then. After initial competi-
tion with [aver + inf.] and [aver a + inf.], the construction with de gradually ousts
the other two and is by far the most common variant by the end of the Middle
Ages. In addition to its deontic and epistemic modal function, it frequently
expresses futurity; in many cases a clear distinction between epistemic modality
and future time reference is impossible to make.
2.2 [dever/deber + infinitive] and [dever/deber de + infinitive]
These two related modal constructions are the outcome of a process of grammati-
calization of the (di)transitive lexical verb dever, ‘to owe’. [Dever + inf.] predates
the corresponding prepositional construction [dever de + inf.], in which the de is
most likely due to analogical pressure from [haber de + inf.].
The exact grammatical status of the verb deber in [deber + inf.], especially
when expressing deontic modality, is somewhat controversial; Gili Gaya (1961,
113) claims that it retains its original lexical meaning in these cases and thus
cannot be considered an auxiliary verb; on the other hand, scholars such as Roca
Pons (1958) and Olbertz (1998) resort to the concept of semi-auxiliarity to distin-
guish the construction without de from its counterpart with the prepositional
linker. Whilst a detailed discussion of the grammatical status of the verb in this
construction is beyond the scope of this paper, the reduction of its originally
ditransitive valency pattern can be understood as an instance of semantic bleach-
ing (cf. Goldberg 1995, 151), as can the very fact that the construction expresses
deontic (and also epistemic) modality, a function typically associated with modal
auxiliaries. In this paper, [deber + inf.] will therefore be considered on par with
the other modal auxiliary constructions.
According to prescriptive grammars, [dever + inf.] should be used for deontic
modality (necessity, obligation), whilst [dever de + inf.] is supposed to be asso-
ciated with epistemic modality (presumption, probability). This purportedly clear
distinction between the two constructions is, in fact, one of the main reasons why
most studies of these periphrases focus on their modal value, generally conclud-
ing that the prescriptive rule is an oversimplification that does not fully reflect
actual usage. In Section 6.3 of this paper, it will be seen that a range of factors
influences the choice between these two constructions, many of which are more
relevant than the deontic-epistemic distinction.
2.3 [tener de + infinitive] and [tener que + infinitive]
[Tener de + inf.], documented since the 13th century, is widely accepted to be the
outcome of a long-running, more general process of tener substituting haber
(Yllera 1980, 111; Garachana and Rosemeyer 2011). Until the 15th century, it
appears to have been used in free variation with [aver de + inf.] (Yllera 1980,
113).
[Tener que + inf.], though sporadically found earlier, largely (and rapidly)
supplants [tener de + inf.] as well as non-impersonal [haber que + inf.] from the
end of the 15th century onwards (López Izquierdo 2008, 801). It mostly expresses
deontic modality, though some epistemic uses can be observed from the late
18th century onwards (López Izquierdo, 2008).
Syntactically, [tener que + inf.] is an anomaly, as the link between the
auxiliary and the main verb is not a preposition, as observed by Pountain (2001,
78), who hypothesises that it may be the result of partial ellipsis of a relative
clause: tener (algo) que (está por) hacer ‘to have something that is to be done’.
The history of these five modal constructions is characterized by processes of
analogical extension (in terms of form and function), leading to a great deal of
functional overlap between them, which, in turn, means that the respective
constructions are functionally or semantically equivalent and can be used inter-
changeably in many contexts. This does not, however, necessarily imply that they
are in free variation, as will be discussed in the following section.
3 The issue of free variation, the variationist

approach and multivariate analysis
As mentioned in the previous section, most studies focus on whether different
modal periphrases are used to express different types of modality, either deontic
or epistemic. The general view appears to be that if there is no clear functional
contrast, then we are dealing with free variation (e.g. Maesseneer 1998, 40; Gómez
Manzano 1992, 162). But is this really the case? Let us consider the construction
pair [deber de + inf.] and [deber + inf.] as an example.4
In the 16th and 17th centuries, there is a statistically significant correlation
between [deber de + inf.] and epistemic modality: it is approximately three times
as likely to express epistemic modality as it is to express deontic modality, as seen
in Figure 1. Nevertheless, epistemic modality can be expressed both by [deber de
4 This example is based on data extracted from the corpus described in Section 4 below and on
the computations in Blas Arroyo/Porcar Miralles (2016); for the respective token numbers, see
Tables 15 and 16 below.
+ inf.] and [deber + inf.], meaning that the two constructions are not in semantic
opposition and might thus be considered to occur in free variation. However,
simply to state that they occur in free variation would be to ignore an evident
pattern of usage preference.
Figure 1: Deontic and epistemic use of [deber (de) + inf.] in the 16th and 17th centuries
Figure 2: Deontic and epistemic use of [deber de + inf.] in the 18th and 19th centuries
In the 18th and 19th centuries, the same correlation has weakened but is still
statistically significant, as seen in Figure 2: the prepositional periphrasis with de
is now approximately 1.6 times as likely to express epistemic modality as it is to
express deontic modality. Nevertheless, during this period, [deber + inf.] is used
in the vast majority of epistemic contexts, accounting for approximately 85 % of
epistemic (and 95 % of deontic) constructions, as shown in Figure 3, and viewed
in this broader perspective, [deber de + inf.] is not the first choice in epistemic
environments. Again, it must be said that the two constructions occur in some
kind of free variation, but the degree of freedom varies, depending on the type of
modality.
Figure 3: Deontic and epistemic use of [deber (de) + inf.] in the 18th and 19th centuries
Finally, in modern (spoken) Spanish, the type of modality is no longer a

statistically significant factor in the choice between these two constructions
(Blas Arroyo 2011). But are they in free variation just because one particular
factor does not influence the speakers’ choice? According to the prevalent
definitions, two or more forms occur in free variation if they can appear in the
same environment without a change in meaning. Thus, to be able to determine
whether any of the modal periphrases under examination occur in free varia-
tion, we have to establish whether the environment is, in fact, the same; in
other words, as many potentially relevant variables as possible, both linguistic
and extra-linguistic, must be checked for significance. If any particular con-
textual factor increases the likelihood of one of the alternatives being used,
then speakers’ choices between these semantically and functionally equivalent

structures are not entirely free or random. The factors (variables) that trigger
these choices are ultimately also responsible for language change, as the sum
of all choices made by speakers is equivalent to the ‘usage’ of a particular
structure, and language change is inevitably driven by change in language
usage.
The variationist approach is based on the observation that variation in
language tends to be highly systematic. While a single factor may influence the
choice between available alternatives, “taking into account the simultaneous
effect of all relevant independent variables” (Labov 2004, 7) can reveal correla-
tions between several factors that conspire to have a significant effect on which of
the available alternatives is likely to be chosen by speakers. As correlations
involving more than one variable are often not intuitively apparent to the linguist,
the most reliable approach is a systematic multivariate corpus analysis in which
the values of all potentially significant variables are determined for each token,
making it possible to establish whether different combinations of variables have a
statistically significant effect on speakers’ choices.
As an example, consider the choice between [deber de + inf.] and [deber +
inf.] in the 16th and 17th centuries. As shown in Table 2 and illustrated in Figure 4,
there is (a) a correlation between the type of modality and the choice of modal
periphrasis, and (b) a correlation between the presence of a lexical intensifier
(such as “very”) and the choice of modal periphrasis. Whilst epistemic modality
favours the use of [deber de + inf.], the presence of a lexical intensifier favours
[deber + inf.]; the percentages indicate that correlations (a) and (b) are of approxi-
mately similar strength. However, by looking at each of these variables sepa-
rately, we remain unaware of a somewhat unexpected, even stronger correlation
(c) between the presence of an intensifier in combination with epistemic modality
on the one hand, and the use of [deber de + inf.] on the other. While the multi-
variate analysis cannot provide explanations for this type of correlation, it does
serve to identify very specific contexts that influence the choice between different
available options.
Table 2: The interplay of two variables in the choice between deber de and deber
(16th/17th centuries)
V ARIABLE DEBER DE + INF . DE BER

DEBER + INF .
epistemic modality 61.2 % (128/209) 38.8 % (81/209)
lexical intensification 37.6 % (50/133) 62.4 % (83/133)
epistemic modality + intensification 72 % (36/50) 28 % (14/50)

Figure 4: The interplay of two variables in the choice between deber de and deber
4 The corpus: linguistic material with a high

degree of ‘communicative immediacy’
In historical variationist research, the so-called ‘bad data problem’ (Labov 1994,
10–11), i.e. the limited availability of appropriate linguistic material required for
an accurate analysis of the language as it was used at a particular time in the past,
is due to four main issues.
(a) Speakers who are no longer alive cannot be asked to perform elicitation tasks, so all
information has to be drawn from existing documents. This makes it more difficult to
obtain sufficient data to determine whether a variable is statistically significant.
(b) Written texts are often not representative of the spoken language. This is problematic
because, as noted in Section 3, language change is driven by language usage, which for
most language users is primarily oral, and even more so in past centuries.
(c) The quantity of available data for most historical periods is limited.
(d) Extralinguistic variables are often difficult to determine because of a lack of contextual
information.
Whilst older informants may, arguably, be able to provide data for the relatively
recent past by means of elicitation tasks, this option is not available for earlier
periods, so problem (a) cannot be remedied. Issues (b)–(d), however, have been
taken into account in the compilation of the corpus used here.
To mitigate issue (b), the corpus consists only of documents with a high
degree of ‘communicative immediacy’ (‘Nähesprache’, cf. Koch/Oesterreicher
1985; Oesterreicher 2004), i.e. documents containing private, personal informa-
tion, which tend to reflect natural, spoken language more closely than official
documents or literary texts do. For the present analysis, it is particularly impor-
tant to avoid the latter text types, considering the prescriptive pressures that have
artificially influenced the formal and literary usage of the respective constructions
over the past centuries (cf. Section 2.2).
The diachronic corpus of ‘communicative immediacy’ used here consists
mainly of personal correspondence as well as some private notes and memoirs,
thus representing, as closely as possible, the spoken language since the 16th
century, rather than reflecting literary norms or trends which only affected the
language usage of a small minority of speakers. The corpus contains linguistic
material written by more than 2000 individuals who either lived in Spain or had
grown up there before moving to the colonies, thus largely reflecting the language
of speakers of peninsular Spanish; the authors’ regional origin within Spain is taken
into account as one of the potential factors of variation. The corpus was compiled
from more than 90 different collections of private letters and memoirs, edited and
published between the late 19th and the early 21st century, as listed in the appendix.
Whilst the entire textual material is thus in the public domain, it has, unfortu-
nately, not yet been possible to make the corpus as such available to the public.
Though the use of such a mainly epistolary corpus makes issue (c), the
limited amount of available documents, more acute, there is a relative wealth of
personal correspondence in Spanish from the 16th century onwards, mainly due
to individuals moving to the recently established Spanish colonies, initially leav-
ing their families behind. The corpus contains a total of more than 3.4 million
words, relatively balanced over the centuries, as detailed in Table 3.
Table 3: Size of subcorpora for each century
Period Number of words

th
16 century 875,000
th
17 century 760,000
th
18 century 625,000
th
19 century 462,000
th st
20 /21 century 692,000
Finally, the fact that the corpus is mainly epistolary also remedies issue (d) to
some extent, as personal correspondence tends to reveal sociolinguistically
relevant information about the author/sender, such as regional provenance,
social status, sex, age, and the relationship between the author and the address-
ee, e.g. whether the addressee is the author’s spouse, parent, child, creditor;
priest, etc.
5 The variables (factor groups)

Variationist approaches are often associated with sociolinguistics and thus with a
prioritization of socio- and extralinguistic variables. However, a balanced varia-
tionist analysis should not preselect any type of potentially significant factors or
factor groups, including phonological, morphological, syntactic and semantic
factors. The variables encoded for each token of a periphrastic modal construc-
tion in the corpus used for this study are the following:
1. Extralinguistic variables
– The century and period when the document was written
– The author’s sex, regional provenance, age, social status and relation-
ship to the interlocutor
– Whether the document was written by the sender himself or by a scribe
(if known)
2. Phonological/phonotactic variables
– Final phoneme of the auxiliary verb
– First phoneme following the auxiliary verb or the linking particle (de, que)
– Number of syllables of the entire periphrasis
3. Morphological and morphosyntactic variables

– Tense, mood and number of the auxiliary verb
– Whether the auxiliary verb or the main verb are simple or compound forms
4. Syntactic variables
– Explicit or null subject
– Presence of another modal periphrasis in the same clause or immediate
context
– Whether the periphrasis appears in a main or a subordinate clause
5. Semantic variables
– Type of modality expressed by the periphrasis (deontic, epistemic, other,
none)
– Subtype of deontic modality:
– moral, subjective, self-imposed obligation
– external, involuntary obligation
– necessity or advisability
– inevitability
– Human/animate or inanimate subject
– Degree of (im)personality: active, passive (including the ‘reflexive’ se-
passive), impersonal
– Clausal polarity: affirmative, negative
– Degree of assertiveness: attenuated, neutral, assertive/intensified
6. Lexical variables
– The main verb
– Semantic type of verb (static/dynamic, speech verbs, motion verbs)
It must be emphasized that we should not expect there to be a statistically

significant correlation between each and every of these variables and the type of
modal construction. However, in order to determine which variables and which
combinations of variables are relevant, it is necessary to include as many as
possible to begin with.
6 Some findings
In this section, a selection of results of the analysis outlined above will be
presented, with the aim of demonstrating how different types of variants
correlate with the choice of modal construction. In addition to observing and
identifying these correlations, it will be attempted to explain them as far as
possible.
6.1 The effect and consequences of a phonological variable:

avoidance of cacophony
It is a reasonable hypothesis that the use of a particular structure may be avoided

in a specific phonological context in order to avoid cacophony, especially if a
non-cacophonous alternative construction is available. Whilst the notion of ca-
cophony itself is rather imprecise and the sound combinations that speakers
avoid differ from language to language, “the phonæsthetic habits [. . .] are of
general importance in speech” (Firth 1930). We may not be able to predict which
sound combinations speakers will avoid, but corpus studies can reveal such
avoidance a posteriori.
One such case is the statistically significantly low incidence of deber de
followed by /d(e)/, i.e. the sequence “de. . . de d(e). . .”, documented in the 16th
and 17th centuries; Table 4 shows how main verbs with an initial /d–/ affect the
choice between these two variants, reducing the proportion of [deber de + inf.] by
almost half, from 31.6 % to 16.3 %.
Table 4: The effect of main verbs with word-initial voiced dental obstruent on the choice between
deber de and deber (16th/17th centuries)
P ERIPHRASIS
ERIPHR ASIS DEBER DE + INF . DEB ER
DEBER + INF .
deber (de) 31.6 % (173/547) 68.4 % (374/547)
deber (de) d… 16.3 % (8/49) 83.7 % (41/49)
For deber (de), this trend appears to be genuinely phonologically motivated, as

the variant with de is significantly underrepresented in combination with all of
the most common verbs with initial /d–/ (decir ‘to say’, dar ‘to give’, dejar ‘to
leave’). In the case of [tener de/que + inf.], on the other hand, there is no such
phonologically-based avoidance, as shown in Table 5 and Figure 5; the presence
of an initial /d–/ in the main verb does not have a statistically significant effect
on the choice of periphrasis, which suggests that the sequence “te. . . de d(e)”
was not felt to be cacophonous at the time, though it only differs from the one
that was generally avoided in that one of the three dental obstruents is voice-
less.
Table 5: No significant avoidance of [tener de + inf.] with verbs with initial /d–/
M AIN VERB TE
TENER
NER DE + INF . TENER QUE + INF .
any verb with initial /d–/ 40.5 % (15/37) 59.5 % (22/37)
dar ‘to give’, dejar ‘to leave’ 75 % (6/8) 25 % (2/8)
all verbs 58.7 % (111/189) 41.3 % (78/189)

However, the restriction on [deber de + inf.] illustrated in Table 4 appears to have

been extended to [tener de + inf.] after being reanalysed as specifically affecting
the verb decir, and by (semantically-based) extension, other speech verbs. The
difference between the almost marginal usage of [tener de + inf.] with speech
verbs on the one hand (less than 10 %), and its overall share of almost 59 % on
the other, can be seen in Table 6 and Figure 5.
Table 6: Avoidance of [tener de + inf.] with speech verbs in the 16th and 17th centuries
M AIN VERB TE
TENER
decir ‘to say’ 9.5 % (2/21) 90.5 % (19/21)
pedir ‘to ask for’, suplicar ‘to 10 % (1/10) 90 % (9/10)

plead’, agradecer ‘to thank’
all verbs 58.7 % (111/189) 41.3 % (78/189)
The clear preference for [tener que + inf.] with speech verbs from an early stage
onwards appears to be the starting point of a process in which this variant
eventually supplants its competitor, [tener de + inf.]. A closer look at the correla-
tion between the semantic properties of the main verb and the choice of modal
periphrasis suggests that the preferred use of [tener que + inf.] spreads from
speech verbs to other semantic verb classes at different paces.
As speech verbs belong to the class of dynamic verbs, it is perhaps not
surprising that, as seen in Table 7 and Figure 5, the increased use of [tener que +
inf.] first begins to spread to other dynamic verbs (excluding motion verbs) in a
process of semantically-based analogical extension, whilst the semantically
more distinct stative and motion verbs only jump on the bandwagon at a later
stage.
Table 7: Use of [tener que + inf.] with different verbal aspects in the 16th and 17th centuries
V ERB TYPE
TYP E TE
TENER
speech verbs 10.4 % (5/48) 89.6 % (43/48)
(non-speech/motion) 63.6 % (42/66) 36.4 % (24/66)

dynamic verbs
stative verbs 81.6 % (40/49) 18.4 % (9/49)
motion verbs 92.3 % (24/26) 7.7 % (2/26)

Figure 5: Reanalysis of a phonological constraint as semantically based: [tener de/que + inf.]

with different main verbs (16th/17th centuries)
Summing up, the data presented in this section suggests that a phonological
variable affecting the choice between a set of two closely related periphrases,
[deber/deber de + inf.], was reanalysed and analogically extended to a different
set of related periphrases [tener de/que + inf.], with a subsequent analogical
extension based on verbal semantics contributing to the gradual substitution of
[tener de + inf.] by [tener que + inf.], one of the major shifts in the Spanish system
of modal constructions.
It is worth noting that the newly emerging variant first gains a foothold and
becomes the most common periphrasis in a very specific, low-frequency domain
before spreading to other contexts. As will be seen in the following sections, this
is the typical pathway of diffusion for new variants.
6.2 Tener de or tener que: strength in numbers
After having examined a sequence of changes affecting the choice between [tener
de + inf.] and [tener que + inf.] in the previous section, some other statistically
significant variables will be presented here.
As shown in Table 8 and illustrated in Figure 6, a significant shift in token
frequency takes place between 1500 and 1700. Essentially, the proportions of the
two periphrases are almost inverted over this period, with [tener de + inf.]
accounting for 80 % of all tokens in the first half of the 16th century, and [tener
que + inf.] accounting for 80 % of all tokens in the 17th century.
Table 8: Changes in token frequency of [tener de / que + inf.], 1500–1700
P ERIOD TE
TENER
NER DE + INF. TE
TENER
NER QUE + INF.
1500–1550 80 % (20/25) 20 % (5/25)
1550–1600 61.9 % (86/139) 38.1 % (53/139)
1600–1700 20 % (5/25) 80 % (20/25)
Figure 6: Frequency changes in the use of [tener de/que + infinitive] in the 16th and 17th century
Regarding the type of modality they are employed to express, [tener de + inf.]
closely emulates the functional range of dominant [haber de + inf.], the construc-
tion it was calqued on. The use of the newly emerging variant [tener que + inf.], on
the other hand, is largely restricted to a single subset of this functional range; as
shown in Table 9, close to 95 % (74/78) of all tokens of [tener que + inf.] express
deontic modality. Whilst it might, at first sight, seem unlikely that the competitor
with the more restricted functional range eventually ousts its more versatile
counterpart, this is less surprising if we take into account that the vast majority,
approximately 83 %, of tokens of [tener de + inf.] and [tener que + inf.] counted
together express deontic modality during this period, as seen in Table 10 and
Figure 7. What this means is that [tener que + inf.], though strongly underrepre-
sented in non-deontic usage (cf. Table 10 and Figure 8), nevertheless does not lag
far behind its competitor [tener de + inf.] in overall token numbers, with a ratio of
approximately 41 % tener que (78/189) to 59 % tener de (111/189).
Table 9: The proportion of different types of modality expressed by [tener de + inf.] and [tener
que + inf.], respectively (16th/17th centuries)
M ODALITY TE
TENER
DEONTIC MODALITY 74.8 % (83/111) 94.8 % (74/78)
EP
EPISTEMIC
IS TEMIC MODALITY 5.4 % (6/111) 2.6 % (2/78)
FUTUREE ( PR
FUTUR OSP ECTIVE )
PROSPECTIVE 19.8 % (22/111) 2.6 % (2/78)
Table 10: The proportion of [tener de + inf.] and [tener que + inf.] used to express different types
of modality (16th/17th centuries)
M ODALITY T OTAL
OT AL TE
TENER
TENER DE / QUE
DEONTIC MODALITY 83.1 % (157/189) 52.9 % (83/157) 47.1 % (74/157)
EP
EPISTEMIC
IS TEMIC MODALITY 4.2 % (8/189) 75 % (6/8) 25 % (2/8)
FUTUREE ( PR
FUTUR OSP ECTIVE )
PROSPECTIVE 12.7 % (24/189) 91.7 % (22/24) 8.3 % (2/24)
Within the domain of deontic modality, the majority of tokens (72.6 %) express
obligation, either imposed by an external agent or internally (moral, subjective or
self-imposed obligation). Whilst [tener de + inf.] is far more likely to occur in this
dominant area of obligation (65.8 %), the newcomer [tener que + inf.] is the more
likely choice in the secondary area of necessity (77.3 %), as shown in Table 11.
Table 11: The use of [tener de + inf.] and [tener que + inf.] for different types of deontic obligation
T YPE OF DEONTIC T OTAL DEONTIC D EONTIC D EONTIC

MODALITY TENER DE / QUE TE
TENER
OBLIGATION 72.6 % (114/157) 65.8 % (75/114) 34.2 % (39/114)

( EX
E XTERNAL
TERNA L OR INTE RNAL )
INTERNAL
NECESSITY 27.4 % (43/157) 22.7 % (9/43) 77.3 % (34/43)

Figure 7: Token numbers of [tener de + inf.] and [tener que + inf.] used to express different types
Figure 8: The proportion of [tener de + inf.] and [tener que + inf.] used to express different types
This pattern, according to which the older and more established variant, [tener de
+ inf.], remains numerically superior and initially resists substitution in the most
frequently occurring linguistic environments, while [tener que + inf.] becomes the
preferred choice in less frequent environments, can also be observed for other
variables, such as person/number, tense/mood, and clausal polarity. For those
variables, the most frequent values are 1st person singular, present tense indica-
tive, and affirmative, respectively; in all three cases, it is these most frequently
occurring values for which the established [tener de + inf.] is most commonly
used, whilst the newcomer [tener que + inf.] typically co-occurs with the less
frequent values, as shown in Tables 12–14 and illustrated in Figure 9.
Table 12: The correlation between person/number and the use of [tener de/que + inf.]
P ERSON AND NUMBER T OTAL

OT AL TE
TENER
TENER DE / QUE
1 S T PERSON
PERS ON SG 79.9 % (151/189) 67.5 % (102/151) 32.5 % (49/151)
2 N D + 3 R D PERSON
PER SON SG AND P
PLL 20.1 % (38/189) 23.7 % (9/38) 76.3 % (29/38)
Table 13: The correlation between tense/mood and the use of [tener de/que + inf.]
T ENSE AND MOOD T OTAL

OT AL TE
TENER
TENER DE / QUE
INDIC
INDICATIVE
ATIVE P
PRESE
RESENT
NT TTEENSE
NSE 87.3 % (165/189) 65.5 % (108/165) 34.5 % (57/165)
OTHER TENSES AND MOODS 12.7 % (24/189) 12.5 % (3/24) 87.5 % (21/24)
Table 14: 5 The correlation between clausal polarity and the use of [tener de/que + inf.]
C LAUSAL PPOLARITY
OLA RIT Y T OTAL
OT AL TE
TENER
TENER DE / QUE
AFFIRMAT
AFFIR MATIV
IVEE 70.2 % (127/151) 69.3 % (88/127) 30.7 % (39/127)
NEGATIVE
NEGAT IV E 29.8 % (24/151) 31.5 % (3/24) 68.5 % (21/24)
5 The number of tokens considered in Table 14 is lower than in the previous tables because
questions and conditional clauses were counted as neither affirmative nor negative.
Figure 9: The dominance of [tener de + inf.] in the most frequent contexts, and of [tener que +
inf.] in the less common environments (16th/17th centuries)
What can be seen from the data presented in this section is that the substitution
process in which one modal construction replaces the other is not uniform, i.e. it
does not progress at the same pace in all environments. The fact that the most
frequent environment types resist substitution for longer and to a greater extent
can be explained by their greater degree of entrenchment,6 causing speakers to
continue these well-established combinations of a specific variant and a particu-
lar context for longer. In other words, there is strength in numbers for existing,
older combinations, which are initially replaced in environments with low token
frequency.
It should be noted that the factor groups in which this pattern applies are not
necessarily linked or related to each other; what they do have in common is the
strong contrast between a very frequently occurring factor (favouring the en-
trenched usage pattern) on the one hand, and a low incidence of all other factors
in the respective factor group (favouring innovation) on the other.
6 Entrenchment is caused, among other things, by frequent co-occurrence of particular linguistic

elements, making their activation in the speaker’s mind a more automated cognitive routine
(Schmid 2010, 118).
Over the course of the 17th century, the strong link between [tener que +
inf.] and the notion of necessity (cf. Table 11) is eroded and eventually disap-
pears altogether; once this variant can occur freely in all deontic environments,
[tener que + inf.] rapidly ousts its direct competitor. By the second half of the
17th century, [tener que + inf.] appears in 75 % of present indicative contexts,
75 % of affirmative clauses, 58 % of 1st person contexts, and 42 % of construc-
tions involving a stative verb, all of which are high-frequency environments
in which [tener de + inf.] had previously been the strongly preferred choice
(cf. Figure 9).
6.3 Deber or deber de?
As mentioned in Section 2.2, the choice between [deber + inf.] and [deber de + inf.]
has been at the centre of scholarly attention because of the prescriptive rule that
the former should be used deontically and the latter epistemically. Whether it is,
in fact, primarily the type of modality that determines the choice between these
two periphrases, and which other variables influence the choice, will be exam-
ined in this section.
6.3.1 [Deber (de) + infinitive] in the 16th and 17th centuries
In the 16th and 17th centuries, the overall ratio of [deber de + inf.] to [deber + inf.] is
31.6 % to 68.4 %. Whilst the former, the periphrasis with the prepositional linker
de, occurs less than half as frequently as its non-prepositional counterpart, there
are several environments in which [deber de + inf.] is used more frequently.
Statistically significant7 factor groups and their values favouring or disfavouring
the use of [deber de + inf.] are listed in Table 15,8 ranked according to the strength
of their influence on the choice between the two periphrases.
7 Statistically significant variables identified by Goldvarb 2.0, an application commonly used for
carrying out variable rule analysis. The factor weight (FW), included in this and the following
tables, indicates how likely it is that the respective factor has an influence on the selection
between the available variants, on a scale of 0–1. Values closest to the extremes (0 or 1) indicate a
great likelihood of the variable influencing the choice, a value of 1 strongly favouring one variant
and a value of 0 strongly disfavouring it. Values in between the two extremes, i.e. close to 0.5, on
the other hand, indicate that the correlation between the respective factor and the choice of the
variant, though statistically significant, is weak.
8 Data drawn from Blas Arroyo/Porcar Miralles (2016).
Table 15: Statistically significant factor groups and factors making the choice of [deber de + inf.]
more or less likely in the 16th and 17th centuries
R ANK F ACTOR
ACT OR GROUP F ACTOR
ACT OR P ERCE
ERC ENTAGE
NTAGE FW
1 phonological context main verb with initial /d–/ 16.3 % (8/49) 0.08
2 tense simple past 84.4 % (27/32) 0.85
3 modality epistemic 61.2 % (128/209) 0.79
4 clausal polarity negative 44.6 % (41/92) 0.66
5 degree of assertiveness emphatic/intensified 37.6 % (50/133) 0.58
The data in Table 15 shows that there are five variables that have a statistically
significant correlation with the choice between the two variants during this
period. The most important factor is a phonological one, the initial consonant of
the main verb, which has been discussed in Section 6.1 above.
It can also be seen that the modern-day prescriptive distinction between
deontic [deber + inf.] and epistemic [deber de + inf.] has some foundation in this
period, but that there are other, statistically more significant variables involved in
the choice between these two variants. In a way similar to the choice between
[tener de + inf.] and [tener que + inf.] examined in Section 6.2 above, the less
frequent and less well established variant [deber de + inf.] is strongest outside the
high-frequency environments (present tense, deontic modality, positive clausal
polarity, non-intensified), while the use of the older, more frequent variant [deber
+ inf.] appears to remain entrenched and associated with these high-frequency
environments.
6.3.2 [Deber (de) + inf.] between the 18th century and the first half of the
20th century
During this period, the relative usage frequency of [deber de + inf.] is considerably
lower than in the preceding centuries; the overall ratio of [deber de + inf.] to
[deber + inf.] is 6.6 % to 93.4 %. Nevertheless, there are several variables that do
favour the use of this almost marginal periphrastic construction, as seen in Table
16, where they are listed in order of significance.
Table 16: Statistically significant factors favouring [deber de + inf.] between 1700 and 1950
R ANK F ACTOR GROUP F ACTOR

AC TOR P ERCENTAGE
ERCENT AGE FW
1 tense simple past 15.3 % (12/78) 0.74
2 clausal polarity negative 11.9 % (19/160) 0.70
3 modality epistemic 14.3 % (34/238) 0.68
It can be observed that the statistically significant variables remain the same,
with a slightly different order of relevance.9 However, the most important devel-
opment is the general drop in the proportion of [deber de + inf.], overall and even
in the presence of variables favouring it.
The link between epistemic modality and [deber de + inf.] remains statisti-
cally significant, albeit less so than in previous centuries. It should, however, be
kept in mind that during the period examined in this section, the non-preposi-
tional variant [deber + inf.] is used in the vast majority of both deontic and
epistemic environments.
6.3.3 Contemporary usage (1950 to the present day): revival of a moribund

construction?
After the overall share of [deber de + inf.] decreased from an average of 31.6 % in
the 16th and 17th centuries to 6.6 % in the following 250 years, the construction
might have been expected to gradually disappear entirely. This is not, however,
the case; in contemporary usage (since 1950), it accounts for 22.3 % of all deber-
periphrases, reversing the previous trend, as illustrated in Figure 10.
Whilst the set of environments favouring the use of [deber de + inf.] remains
relatively stable between the 16th and the 20th century, only one variable from
previous periods, “degree of assertiveness”, is still significant in present-day
informal Spanish (with a high degree of communicative immediacy). Table 17 lists
all statistically significant variables10 in order of significance; interrogative and
attenuated clauses (ranks 1 and 3) are correlated with a low incidence of [deber de
+ inf.], as indicated by a factor weight (FW) of less than 0.5.
9 For main verbs with initial/ /d–/, [deber + inf.] is used in 96.6 % of cases (18th–20th century)
and 84.2 % of cases (20th/21st century), but this is not statistically significant due to the small
overall number of main verbs with initial/ /d–/ (29 and 19, respectively).
10 Data drawn from Blas Arroyo (2011, 21–23).
Figure 10: The ratio of [deber + inf.] to [deber de + inf.] through the centuries
Table 17: Statistically significant factor groups and factors making the choice of [deber de + inf.]
more or less likely in contemporary Spanish
R ANK F ACTOR
ACT OR GROUP F ACTOR
ACT OR P ERCE
ERC ENTAGE
NTAGE FW
1 clause type interrogative 7.1 % (3/42) 0.26
3 degree of attenuation attenuated 14.1 % (25/177) 0.38
4 spontaneity of utterance spontaneous 23.4 % (36/154) 0.57
The type of modality (deontic or epistemic) is no longer a significant factor in the

choice between these two variants. Instead, there is a clear shift towards a
primarily pragmatic distinction in which the opposition between the two con-
structions is refunctionalized. The factor group “degree of assertiveness” has
been gaining significance over the centuries, with emphasis and intensification
becoming ever more associated with [deber de + inf.], and it is now the single
most important factor triggering the use of this variant. Whilst the present
analysis cannot provide a conclusive explanation why this shift towards an
increased use in intensified and emphatic environments has taken place, it is well
known that additional phonological material is often linked to increased expres-
sive force; this type of cognitive process may well be at work here, with the
additional syllable in [deber de + inf.] iconically representing the additional

emphasis.
Furthermore, the link between [deber de + inf.] and emphatic/intensified
environments explains its particularly low frequency in interrogative and attenu-
ated clauses, which by their very nature tend to be less assertive. Its high
incidence in spontaneous utterances is also likely to be a related phenomenon, as
emphatic elements are particularly common in spontaneous speech expressing
the speakers’ momentary ideas, views and emotions (Blas Arroyo 2011, 23).
The revival of [deber de + inf.] in connection with emphasis/intensification is
perhaps best analysed as a movement towards pragmaticalization, a phenomenon
sometimes viewed as separate from grammaticalization (e.g. Erman/Kostinas
1993; Brinton/Traugott 2005, 138 ff.), as there is no phonological or morphological
reduction involved, and there is no shift towards a more grammatical function.
Whilst a higher incidence of the construction in explicitly emphatic or intensified
environments does not necessarily imply that the periphrasis itself has acquired
the pragmatic function, its increasing use in emphatic contexts in the absence of
(other) overt markers of emphasis/intensification does suggest that the construc-
tion is in the process of being reanalysed as having this pragmatic function itself.
7 Conclusions
This paper has shown that the different available modal periphrases examined
here are in continual competition, due to their semantic similarities and (partial)
functional overlap. Whilst it is possible for one variant to be replaced in all
contexts and thus disappear, as in the case of [tener de + inf.] (Section 6.2), the
revival of seemingly moribund [deber de + inf.] in the 20th century (Section 6.3)
demonstrates that a decrease in relative frequency may be a temporary phenom-
enon that can be reversed, for instance if the construction comes to be associated
with a specific environment that it is typically used in, giving it the possibility to
expand from there.
In Section 3, it was argued that variation between alternative constructions is
not free if factors that condition the choice between them exist. In the subsequent
sections, it was shown that there are statistically significant correlations between
multiple variables and the choice of modal periphrasis, and that the interplay
between different variables, their reanalysis and analogical extension can be
complex and hard to predict, as seen in Section 6.1.
Furthermore, the relative importance of the variables determining the choice
between different periphrases can shift over time, thus affecting the ways in
which they contrast with each other; as seen in Section 6.3, the reanalysis of one
particular factor as specifically associated with a construction can have a major

effect on its usage.
This paper has also traced back the path along which newly emerging modal
periphrases encroach upon the territory of their well-established competitors; the
newer constructions initially tend to express more specific modal meanings (e.g.
epistemic modality) and appear in low-frequency linguistic environments, before
gradually spreading to high-frequency environments, in which their established
counterpart is initially more entrenched and therefore less easily substituted. This
extension process is not uniform, as it does not spread to all environments at the
same pace.
Despite the general prevalence of this pattern, it cannot be predicted, on
the basis of frequency alone, precisely from which low-frequency environments
a variant will start spreading, or whether it will, in fact, spread at all; for
instance, as seen in Section 6.3.3, [deber de + inf.] currently appears to be
surviving by expanding within one specific low-frequency domain; whether this
will eventually give rise to increasing usage in other environments remains to
be seen.
Beyond the language-specific level, the importance of taking into account as
many variables as possible when analysing and understanding language change
has been demonstrated, making a strong case for a wider use of variationist
approaches in Historical Linguistics. More specifically, the results of this study
are a further example of how cognitive mechanisms such as reanalysis, analogi-
cal extension, entrenchment and frequency effects can explain shifts in linguistic
usage and structure. Finally, the findings regarding the diachronic development
of a well-documented set of competing modal constructions over an extended
period (five centuries) presented here are likely to provide some additional
general insights into how modal constructions evolve and interact, thereby con-
tributing to the creation of a cross-linguistic inventory of diachronic mechanisms
and principles active in the modal domain.
8 References
Blas Arroyo, José Luis, Deber (de) + infinitivo: ¿Un caso de variación libre en español? Factores
condicionantes en un fenómeno de alternancia sintáctica, Revista de Filología Española 91
(2011), 9–42.
Blas Arroyo, José Luis/Porcar Miralles, Margarita, Patrones de variación y cambio en la sintaxis
del Siglo de Oro. Un estudio variacionista de dos perífrasis modales en textos de inmediatez
comunicativa, RILCE – Revista de Filología Hispánica 32 (2016), 47–81.
Brinton, Laurel J./Closs Traugott, Elizabeth, Lexicalization and language change, Cambridge,
Cambridge University Press, 2005.
Bybee, Joan L./Perkins, Revere/Pagliuca, William, The Evolution of Grammar: Tense, Aspect and
Modality in the Languages of the World, Chicago, University of Chicago Press, 1994.
Bybee, Joan L./Fleishman, Susanne (edd.), Modality in Grammar and Discourse, Amsterdam,
John Benjamins, 1995.
Bybee, Joan L., From usage to grammar: the mind’s response to repetition, Language 82 (2006),
711–733.
Cornillie, Bert, Evidentiality and epistemic modality in Spanish (semi-)auxiliaries. A cognitive-
functional account, Berlin/New York, Mouton de Gruyter, 2007.
Erman, Britt/Kotsinas, Ulla-Britt, Pragmaticalization: The case of ba’ and you know, Stockholm
Studies in Modern Philology, Acta Universitatis Stockholmiensis, New Series 10 (1993),
76–93.
Firth, John Rupert, Speech, London, Ernest Benn, 1930.
Garachana Camarero, Mar/Rosemeyer, Malte, Rutinas léxicas en el cambio gramatical. El caso
de las perífrasis deónticas e iterativas, Revista de Historia de la Lengua Española 6 (2011),
35–60.
Gévaudan, Paul, Les rapports entre la modalité et la polyphonie linguistique, in: Gévaudan,
Paul/Atayan, Vahram/Detges, Ulrich (edd.), Modalité et polyphonie, Tübingen, Stauffen-
burg, 2013, 37–57.
Gili Gaya, Samuel, Curso superior de sintaxis española, Barcelona, Bibliograf, 1961.
Goldberg, Adele E., Constructions: A Construction Grammar Approach to Argument Structure,
Chicago, Chicago University Press, 1995.
Gómez Manzano, Pilar, Perífrasis verbales con infinitivo (valores y usos en la lengua hablada),
Madrid, UNED, 1992.
Koch, Peter/Oesterreicher, Wulf, Sprache der Nähe – Sprache der Distanz. Mündlichkeit und
Schriftlichkeit im Spannungsfeld von Sprachtheorie und Sprachgeschichte, Romanistisches
Jahrbuch 36 (1985), 15–43.
Labov, William, Principles of Linguistic Change, vol. 1, Internal Factors, Oxford, Blackwell, 1994.
Labov, William, Quantitative Analysis of Linguistic Variation, in: Ammon, Ulrich, et al. (edd.),
Sociolinguistics: An International Handbook of the Science of Language and Society, vol. 1,
Berlin/New York, Mouton de Gruyter, 2004, 6–21.
Langacker, Ronald, Foundations of cognitive grammar, vol. 1: Theoretical requisites, Stanford,
Stanford University Press, 1987.
Langacker, Ronald W., Extreme subjectification: English tense and modals, in: Cuyckens, Hubert,
et al. (edd.), Motivation in Language: Studies in honor of Günter Radden, Amsterdam, John
Benjamins, 2003, 23–26.
López Izquierdo, Marta, Las perífrasis modales de necesidad: emergencia y renovación, in:
Company Company, Concepción/Moreno de Alba, José G. (edd.), Actas del VII Congreso
Internacional de Historia de la Lengua Española, vol. 1, Madrid, Arco Libros, 2008, 789–806.
Maeseneer, Rita, Sobre algunos problemas relacionados con las perífrasis obligativas,
Linguistica Antverpiensia 32 (1998), 39–53.
Narrog, Heiko, Modality, Subjectivity, and Semantic Change: A Cross-Linguistic Perspective,
Oxford, Oxford University Press, 2012.
Oesterreicher, Wulf, Textos entre inmediatez y distancia comunicativas. El problema de lo
hablado escrito en el Siglo de Oro, in: Cano Aguilar, Rafael (ed.), Historia de la lengua
española, Barcelona, Ariel, 2004, 729–769.
Olbertz, Hella, Verbal Periphrasis in a Functional Grammar of Spanish, Berlin/New York, Mouton
de Gruyter, 1998.
Papafragou, Anna, Modality: Issues in the Semantics-Pragmatics Interface, Oxford, Elsevier

Science, 2000.
Poplack, Shana, Variability, frequency, and productivity in the irrealis domain of French, in:
Bybee, Joan L./Hopper, Paul (edd.), Frequency and the Emergence of Linguistic Structure,
Amsterdam, Benjamins, 2001, 405–430.
Portner, Paul, Modality, Oxford, Oxford University Press, 2009.
Pountain, Christopher J., A History of the Spanish Language through Texts, New York, Routledge,
2001.
Roca Pons, José, Estudios sobre las perífrasis verbales del español, Madrid, Real Academia
Española, 1958.
Rosemeyer, Malte, Entrenchment and discourse traditions in Spanish auxiliary selection, in:
Kailuweit, Rolf/Rosemeyer, Malte (edd.), Auxiliary Selection Revisited: Gradience and Gra-
dualness, Berlin/New York, De Gruyter, 2015.
Schmid, Hans-Jörg, Entrenchment, Salience and Basic Levels, in: Geeraerts, Dirk/Cuyckens,
Hubert (edd.), The Oxford Handbook of Cognitive Linguistics, Oxford, Oxford University
Press, 2010, 117–138.
Yllera, Alicia, Sintaxis histórica del verbo español: Las perífrasis medievales, Zaragoza, Univer-
sity of Zaragoza, 1980.
9 Appendix: Texts contained in the corpus

Ahumada Batlle, Eulàlia (ed.), Epistolaris d’Hipòlita Roís de Liori i d’Estefania de Requesens,
València, Universitat de València, 2003, (XVI).
Alonso Montero, Xesús, Cartas de republicanos condenados a muerte (1936–1948), Xerais
(2009).
Álvarez Blázquez, José Mª, Memorias de un menestral curioso, Museo de Pontevedra XIII (1956),
61–102 (XVIII).
Aramburu Zudaire, José Miguel, Vida y fortuna del emigrante navarro a Indias, siglos XVI y XVII,
Pamplona, Gobierno de Navarra, Departamento de Educación y Cultura, 1999 (XVI, XVII).
Arbelo García, Adolfo I., Al recibo de esta. . . Relaciones epistolares canario-americanas del siglo
XVII, Santa Cruz de Tenerife, Idea, 2010 (XVII).
Arbeloa, F. J., Once cartas de mi padre desde el frente (1936–1937), Historia contempornánea 48
(2002), 103–119 (XX).
Archivo General de Andalucía, Un Epistolario de Bernardo José Aldrete (1612–1623), Sevilla,
Consejería de Cultura, 2010.
Baranda, Consolación, Cartas entre Felipe IV y Sor María Jesús de Ágreda, Madrid, Castalia, 1991
(XVII).
Iglesias Rodríguez, Juan José, Memorias de un mercader a Indias: Imágenes de España y America
en el siglo XVIII, El Puerto de Santa María, Ayuntamiento de El Puerto de Santa María, 2004
(XVIII).
Blasco Martínez, Rosa M./Rubalcaba Pérez, Carmen, Para hablarte a tan larga distancia. . .
Correspondencia de una familia montañesa a ambos lados del Atlántico (1885–1883),
Santander, Estudio, 2003 (XIX).
Bouza, Fernando, Corre manuscrito: una historia cultural del Siglo de Oro, Madrid, Marcial Pons,
2001.
Butrón y Cortés J., Carta familiar de D. José Butron y Cortés dirigida a su hijo el Guardia Marina D.
Rafael Butron y Pareja, Madrid, Librería de Fernando Fé, 1897 (XIX).
Butrón y Cortés J., Extracto de las cartas recibidas por D. Emilio José Butrón acusando recibo de
la carta familiar de su señor abuelo, in: Butrón y de la Serna, Emilio José (ed.) Carta familiar
de D. José Butrón y Cortés dirigida a su hijo el Guardia Marina D. Rafael Butron y Pareja,
Madrid, Librería de Fernando Fé, 1897 (XIX).
Carreira, A., Luis de Góngora: epistolario completo, Lausana, Sociedad Suiza de Estudios
Hispánicos, 1999 (XVII).
Casanova Pujol, Josep, Cartas del iaio, La Roca del Vallès, Arxiu de la Memòria Popular, 2003
(XX).
Castillo, Antonio, Dos cartas de Isabel de Baena a Isabel Ortiz, in: Castillo, Antonio (comp.).
Escrituras y escribientes: prácticas de la cultura escrita en una ciudad del Renacimiento,
Las Palmas de Gran Canaria, Gobierno de Canarias y Fundación de Enseñanza Superior a
Distancia de Las Palmas de Gran Canaria (selección de dos cartas escritas por Isabel de
Baena a Isabel Ortiz), 1997 (XVI).
Chávez Palacios, Julián, La pérdida de Filipinas narrada por un soldado extremeño (1896–1899).
Memorias del sargento Deogracias González Hurtado, Cáceres, Editorial Regional de Extre-
madura, 1998 (XIX).
Company, C., Documentos lingüísticos de la Nueva España (XVI al XVIII), México, El Colegio de
México, 1994.
Cortijo, Antonio/Cortijo, Adelaida, Entre Luisa de Carvajal y el conde de Gondomar. Nuevos textos
sobre la persecución anticatólica en Inglaterra (1612–1614), Voz y Letra 2 (2002) (XVII).
Cortijo, Antonio/Cortijo, Adelaida, Cartas desde México y Guatemala (1540–1635): el proceso de
Díaz de la Reguera (Bancroft Library Ms. 92/83z). Cáceres, Universidad de Extremadura,
2003.
del Toral y Valdés, Domingo, Relación de la vida del capitán Domingo de Toral y Valdés, escrita
por el mismo capitán, in: Serrano y Sanz, Manuel (ed.), Autobiografías y memorias, Madrid,
Bailly-Ballière e Hijos, 1905, 485–506 (XVII).
Doña, Juana, Querido Eugenio. Una carta de amor al otro lado del tiempo, Barcelona, Lumen,
2003 (XX).
Eberenz, Rolf/de la Torre, Mariela, Conversaciones estrechamente vigiladas: interacción colo-
quial y español oral en las actas inquisitoriales de los siglos XV a XVII, Lausana, Centro de
Estudios Hispánicos, 2003 (XVI, XVII).
Espuny, Tomás, De Gallur a Nueva York: diario de viaje, Gallur, Ayuntamiento de Gallur, (1929)
2002 (XX).
Fernández, Víctor, Cartas de Vicenta Lorca a su hijo Federico, Barcelona, RBA Libros, 2008 (XX).
Fernández Alcalde, Marta, Cartas de particulares en Indias del siglo XVI, Sevilla, Universidad de
Sevilla, 2009 (XVI).
Fontanella de Weinberg, María, Documentos para la historia lingüística de Hispanoamérica,
Vol. I, Madrid, BRAE, 1993 (XVI al XIX).
Frago, J.A., Notas sobre el español antillano del siglo XVI en cartas de emigrados andaluces, in:
Morales, A., et al. (coords.), Estudios de lingüística hispánica. Homenaje a María Vaquero,
San Juan, Universidad de Puerto Rico, 1999, 350–362.
Cemboráin Mainz, Luis, Cartas de dos hermanos navarros requetés en 1937, Príncipe de Viana
66, 477–512, 2003 (XX).
Gener, Eduardo, Diario de viaje de un comerciante gaditano (1829), Cádiz, Instituto de Estudios
Gaditanos, 1976 (XIX).
Genovés Amorós, Vicente El epistolario de Navarro Reverter con Cirilo Amorós, Valencia, Valen-
cia, Federico Domenech, 1981 (XIX).
Gimeno Pujol, M. D., El epistolario de José Nicolás de Azara (1730–1804). Estudio, edición y notas
(selección), Madrid, Castalia, 2010 (XVIII, XIX).
Gómez de Avellaneda, Gertrudis, Poesías y epistolario de amor y de amistad, Madrid, Castalia,
1989 (XIX).
Gómez Seibane, Sara, Textos para la historia del castellano en Galicia, Moenia 17 (2011),
367–420 (XVIII, XIX).
Gómez Seibane, Sara, Ramírez Luengo, José Luis, El castellano de Bilbao en el siglo XVIII:
materiales para su estudio, Deusto, Universidad de Deusto, 2007 (XVIII).
Gómez Seibane, Sara, et al., Bilbao en sus documentos (1544–1694), Deusto, Universidad de
Deusto, 2007 (XVI, XVII).
González, Jesús, Epistolario y poesías/Luisa de Carvajal y Mendoza (XVII), Madrid, Atlas, 1965.
González de Chávez, Jesús, Notas para la historia de la emigración canaria a América. Cartas de
emigrantes canarios siglo XVIII, in: Morales, F. (ed.), V Coloquio de Historia Canario-Ame-
ricana, Las Palmas de Gran Canaria, Cabildo de Gran Canaria, 1982, 111–140 (XVIII).
Gonzàlez i Vilalta, Arnau, Un catalanófilo de Madrid: epistolario catalán de Ángel Ossorio y
Gallardo (1924–1942), Barcelona, Universitat Autònoma de Barcelona, 2008 (XX).
Guzmán Riverón, Martha, Textos del Caribe (siglos XVI y XVII), Munich, Universidad Ludwig-
Maximilian, 2007.
Hidalgo Nuchera, Patricio, Entre Castro del Río y México: correspondencia privada de Diego de la
Cueva y su hermano Juan, emigrante en Indias (1601–1641), Córdoba, Universidad de
Córdoba, 2006 (XVII).
Ibarra y Manzoni, Aureliano, Diario de mi prisión. Desde el día 8 de Noviembre de 1866 hasta el
día 21 de Marzo de 1867, Elche, Ajuntament, 1995 (XIX).
Isasi, Carmen y Ramírez Luengo, José Luis (edd.), Una muestra documental del castellano
norteño en el siglo XIX, Lugo, Axac, 2013.
Lajo Cosidó, Benjamín, Sólo habremos muerto si vosotros nos olvidáis. De la libertad al muro
sólo hubo un atardecer (1936–1939), Benicull de Xúquer: 7 i mig Editorial, 1998 (XX).
Levisi, Margarita, Autobiografías del Siglo de Oro: Jerónimo de Pasamonte, Alonso de Contreras,
Miguel de Castro, Madrid, SGEL, 1984 (XVI, XVII).
Lohmann, Guillermo, Cartas de mercaderes. Secretos y confidencias en el comercio privado,
Sevilla, Universidad de Sevilla, 2003 (XVII).
López Benito, Clara Isabel, La cosmovisión de una mujer salmantina emigrada a las Indias y
vinculada con los Montejo de Yucatán, a través de sus cartas privadas, Salamanca Revista
de Estudios 44 (2000), 315–367 (XVI).
López Alvarez, Juaco, Cartas desde América: La emigración de asturianos a través de la corres-
pondencia: 1864–1925, Revista de dialectología y tradiciones populares LV 1 (2000), 81–
120 (XIX, XX).
Lorenzo Pinar, Francisco Javier y Vasallo Toranzo, Luis, Diario de Antonio Moreno de la Torre.
Zamora, 1673–1679. Vida cotidiana en una ciudad española durante el siglo XVII, Zamora,
Instituto de Estudios Zamoranos, 1996 (XVII).
Macías, Isabelo/Morales Padron, Francisco (edd.), Cartas desde América, 1700–1800, Sevilla,
Junta de Andalucía, 1991 (XVIII).
Madrazo, José, José de Madrazo: Epistolario, Madrid, Fundación Marcelino Botín, 1998 (XIX).
Manrique Romero, Alberto/Juberías Hernández, Reyes/García Encabo, Carmelo, Cartas muertas:
la vida rural en la posguerra, Madrid, Ámbito Ediciones SA, 1996 (XX).
Márquez Macías, R., Historias de América: La emigración española en tinta y papel, Huelva,
Ediciones Ertoil, 1994 (XVIII y XIX).
Martínez, Mª Luisa, Noticias desde Cuba: cartas de emigrantes vallisoletanos en la segunda
mitad del siglo XIX , Valladolid, Universidad de Valladolid, 2007 (XIX).
Martínez Martín, Laura, «Asturias que perdimos, no nos pierdas». Cartas de emigrantes astu-
rianos en América (1863–1936), Gijón, Museu del Pueblu d’Asturies, 2010 (XIX, XX).
Martínez Martínez, Carmen, Desde la otra orilla: cartas de Indias en el Archivo de la Real
Chancillería de Valladolid (siglos XVI–XVIII), León, Universidad de León, 2007 (XVI al XVIII).
Martínez Martínez, Carmen, Cartas y memoriales (Hernán Cortés), Valladolid, Junta de Castilla y
León, 2003 (XVI).
Martínez Martínez, Carmen, et al., En el nombre del hijo, México, UNAM, 2006 (XVI).
Mas, Pasqual y Javier Vellón, Miquel Egual poeta i traductor almassorí del segle XVIII, Almassora,
Publicacions de l’Ajuntament de Almassora, 2011 (XVIII).
Navarro Bonilla, Diego, Del corazón a la pluma: archivos y papeles privados femeninos en la
Edad Moderna, Salamanca, Universidad de Salamanca, 2003 (XVII).
Núñez, Fray L., Dos cartas de sor Isabel de Baena a la duquesa del Infantado, Archivo Ibero-
americano I:4 (1914), 322–325.
Núñez Selxas, Xosé Manoel y Raúl Soutelo, As cartas do destino. Unha familia galega entre dous
mundos, 1911–1971, Vigo, Editorial Galaxia, 2005 (XX).
Ollaquindia, Ricardo, Cartas de un requeté del tercio del rey: José María Erdozain, Madrid, Ed.
Actas, 1997.
Orden, María Liliana da, Una familia y un océano de por medio: la emigración gallega a la
Argentina: una historia a través de la memoria epistolar, Madrid, Marcial Pons, 2010.
Ossó, F, Cartas de San Enrique de Ossó y Cervelló al Dr. Félix Sardá y Salvany, Barcelona, Gloria
Volpe, 1997 (XIX).
Otazu, Fausto, Fausto de Otazu a Iñigo Ortés de Velasco: cartas, 1834–1841, Álava, Diputación
Foral de Álava, 1995 (XIX).
Otte, Enrique, Cartas privadas de Puebla del siglo XVI, Köln, Böhlau, 1966 (XVI).
Otte, Enrique, Cartas privadas de emigrantes a Indias, Madrid, Fondo de Cultura Económica,
1993 (XVII).
Pérez Murillo, Mª Dolores, Cartas de emigrantes escritas desde Cuba, Cádiz, Universidad de
Cádiz, 1999 (XIX).
Pérez Villanueva, J., Felipe IV y Luisa Enríquez Manrique de Lara, condesa de Paredes, un
epistolario inédito, Salamanca, Caja de Ahorros de Salamanca, 1986.
Pescador, J., «Thio señor y muy dueño mio»: cartas de Indias de la familia Urdinola del Valle de
Oyarzun, 1700–1708, Boletín de la Real Sociedad Bascongada de los Amigos del País LII: 2
(1996), 503–518 (XVIII).
Pino y Rozas, Joaquín, Un epistolario virreinal: cartas familiares de Don Joaquín del Pino Rozas
VIII Virrey del Río de la Plata, Madrid, Fundación Rafael del Pino, 2001.
Pradells, Jesús, Política, libros y polémicas culturales en la correspondencia extraoficial de
Ignacio de Heredia con Manuel de Roda, Revista de historia moderna: Anales de la Uni-
versidad de Alicante 18 (2000), 125–222 (XVIII).
Prado, Mercedes, Dario de Regoyos: sus cartas inéditas, Bilbao, 1994 (XIX).
Ramón y Carmen Ortiz, Manuel de, Madrina de guerra: cartas desde el frente, Madrid, La Esfera
de los libros, 2003 (XX).
Rodríguez Morel, Genaro, Cartas privadas de Hernando Gorjón, Anuario de estudios americanos
52 (1995), 203–233 (XVI).
Rojas, Elena, Documentos para la historia lingüística de Hispanoamérica, vol. 2, Madrid, Madrid,
BRAE, 2001 (XVI al XVIII).
Rubalcaba Pérez, Carmen, Libros de cuentas de Policarpo Pando, in: Entre las calles vivas de las
palabras, Santander, Ediciones Trea, 2006 (XVIII).
Rubalcaba Pérez, Carmen, Libros de cuentas de Pedro Jado, in: Entre las calles vivas de las
palabras, Santander, Ediciones Trea, 2006 (XIX).
Sánchez Forcada, Manuel, Diario de campaña de un requeté, Príncipe de Viana 64 (2003),
641–682 (XX).
Sánchez Rubio, Rocio, Isabel Testón Núñez, Antonio Domínguez Ortiz, El hilo que une: las
relaciones epistolares en el Viejo y en el Nuevo Mundo, siglos XVI–XVIII, Cáceres, Universi-
dad de Extremadura, 1999 (XVI al XVIII).
Sanza, Marcelino, Francia no nos llamó: correspondencia de un campesino aragonés en la
tormenta de la guerra, Vinaròs, Antinea, 2008 (XX).
Schmidt-Riese, R., Relatando México, Madrid/Frankfurt am Main, Iberoamericana/Vervuert,
2002.
Stoll, Eva, La memoria de Juan Ruiz de Arce, Madrid, Iberoamericana, 2002 (XVI).
Stoll, Eva y María de las Nieves Vázquez Núñez (edd.), Alonso Borregán, La conquista del Perú,
Madrid, Vervuert, 2011.
Soutelo, R., De América para casa: correspondencia familiar de emigrantes galegos no Brasil,
Venezuela e Uruguay (1916–1969), Santiago de Compostela, Consello da Cultura Galega,
2001 (XX).
Szmolka Clares, José, María Amparo Moreno Trujillo, María José Osorio Pérez, Epistolario del
conde de Tendilla (1504–1506), Granada, Universidad de Granada, 1996 (XVI).
Tinell, Roger, Epistolario a Federico García Lorca desde Cataluña, la Comunidad Valenciana y
Mallorca, Granada, Ed. Comares, 2001 (XX).
Tomás, Facundo, Epistolarios de Joaquín Sorolla, vol. 1, Barcelona, Anthropos, 2007 (XIX, XX).
Torres, Concepción, Ana de Jesús, cartas (1590–1621): religiosidad y vida cotidiana en la
clausura femenina del Siglo de Oro, Salamanca, Universidad, 1995 (XVI, XVII).
Usunáriz, Jesús Mª, Una visión de la América del XVIII: correspondencia de emigrantes guipuz-
coanos y navarros, Madrid, MAPFRE, 1992 (XVIII).
Vargas, Bruno y Francisco Moreno Sáez, Dramas de refugiados: epistolario de Rodolfo Llopis i
otros dirigentes socialistas alicantinos (1939–1947), Madrid, Centro Francisco Tomás y
Valiente, 2007 (XX).
Vives i Clavé, Pere/Agustí Bartra, Cartes des dels camps de concentració, Barcelona, Edicions 64,
1972 (XX).
Miriam Bouzouita
La posposición pronominal con futuros y
condicionales en el códice escurialense
I.i.6: un examen de varias hipótesis
morfosintácticas
1 Introducción
Este trabajo aborda un fenómeno del castellano medieval que ha recibido relati-
vamente poca atención: la aparición de pronombres átonos en posición posverbal
en contextos con futuros y condicionales sintéticos (en adelante FCS), como en
tornaré los en el ejemplo (1a) en vez de un futuro/condicional analítico (en
adelante FCA), como en (1b)–(1e).1
(1) Jeremías 23:3
a. [E6] Yo allegaré las remasaias de la mi grey de todas las tierras o los echaré e tornaré
los a sus logares e cresçrán e serán muchos
b. [GE4] e yo ayuntaré de todas las tierras a que los avía echados las remasaias de la mi
grey. E tornar los é a sus tierras e a sus heredades e cresçrán e amuchiguarán
c. [E3] e yo apañaré lo fyncable de mis ovejas de todas las tierras que los renpuxe ende e
torrnar las hé a sus moradas e multiplicarán e cresçerán
d. [BNM] E yo ayuntaré lo que quedare de mi ganado de todas las tierras en que los
esparzí, e torrnar los hé a sus moradas, e frutiferarán e multiplicarán
e. [Arragel] e yo allegaré el remanente de las mis oveias de todas las tierras do derramado
las oviere e tornar las hé a las sus moradas e cresçerán e multiplicarán
Consideremos los ejemplos en (1), que recogen un versículo del Libro de Jeremías
de cinco romanceamientos bíblicos diferentes. Como se puede observar, se dife-
rencian por la posición del pronombre átono con respecto a la forma del futuro:
1 Los datos contenidos en este estudio proceden de Biblia Medieval, un corpus paralelo y
alineado de textos bíblicos. Todos los ejemplos proceden del manuscrito I.i.6 de la Real Bibliote-
ca de San Lorenzo de El Escorial, a no ser que se indique otra fuente. Para cada ejemplo se
señalará el libro en que aparece, así como el versículo. Igualmente, para aumentar su legibilidad
se adaptarán a la acentuación y puntuación modernas. Agadrezco a Eveline Fermon su ayuda
con la recogida de datos.
Miriam Bouzouita: Universiteit Gent

La posposición pronominal con futuros y condicionales 271
mientras que el ejemplo (1a), que proviene de la traducción contenida en el códice

I.i.6 de El Escorial (en adelante E6),2 contiene un FCS con pronombre posverbal,
tornaré los, los ejemplos (1b)–(1e), al contrario, exhiben FCA, como tornar los é, en
los cuales el pronombre átono aparece entre los dos componentes del futuro, es
decir, entre la raíz verbal y el auxiliar.3 Esta variación en la colocación del
pronombre átono se manifiesta en el mismo contexto sintáctico: en concreto, se
presenta detrás de una conjunción coordinante. Además, cabe destacar que esta
diferencia sintáctica no se debe a un cambio diacrónico, dado que el ejemplo (1b)
proviene de la General Estoria 4 (GE4), y, por lo tanto, data del siglo XIII, como es
el caso de E6, mientras que los casos en (1c)–(1e) proceden de romanceamientos
del siglo XV. La traducción en (1a) ilustra asimismo que los FCS pueden aparecer
con pronombres preverbales, como en los echaré, y sin pronombre, al contrario
que las construcciones analíticas, como en allegaré (cf. con los ejemplos (1b)–(1e)).
A pesar de que la génesis y el comportamiento sintáctico de los FCA han sido
objeto de numerosos estudios (Bouzouita 2011; 2012; Castillo Lluch 2002; Com-
pany Company 1985–1986; 2006; Gómez Seibane 2012; Lema/Rivero 1992; Martín
Aizpuru 2014; Octavio de Toledo 2015; Staaff 1907, entre muchos otros), el uso de
pronombres posverbales con FCS apenas ha generado interés, aunque existen
notables excepciones (Bouzouita 2013; Eberenz 1991; Octavio de Toledo 2015;
Rossi 1975). La falta de atención por parte de los investigadores se explica por el
estatus relativamente marginal de este fenómeno en la Edad Media, sobre todo en
el siglo XIII (Bouzouita 2013, 354–355; Castillo Lluch 2002, 544–545; Matute/Pato
2010, 62), considerando que solo está documentado en algunos textos, como en
los romanceamientos bíblicos (p. ej. Fazienda de Ultramar), y aparece solo en
determinados contextos sintácticos, a saber, los que admiten la mesoclisis o la
posposición con otros tiempos verbales (Bouzouita 2011; 2013). Sin embargo, a
causa de la gramaticalización del tiempo futuro/condicional (en adelante FC) y
los cambios que afectan a la colocación de los pronombres átonos, la posposición
pronominal con estos tiempos verbales parece manifestarse más frecuentemente
a partir del siglo XV (Gómez Seibane 2012; véase también el gráfico 14 en Octavio
de Toledo 2015). En vista de la escasez de estudios sobre la posposición prono-
minal con FCS en el siglo XIII, el objeto general del presente estudio consiste en
2 E6 no es una biblia completa y, por tanto, no contiene todos los libros bíblicos, aunque varios
hechos indican que parece formar una unidad con otro códice escurialense, I.i.8 (Bouzouita en
preparación a; Enrique-Arias 2010).
3 A pesar de la semejanza morfológica entre la raíz verbal del futuro/condicional y el infinitivo,
existen algunas diferencias formales. Para una discusión más extensa y un análisis formal de
ambas formas verbales, véase Bouzouita (2011). Para una reflexión crítica sobre el término de
futuro analítico, véase Octavio de Toledo (2015).
272 Miriam Bouzouita
contribuir a la exploración del estatus de esta posición pronominal y de los

motivos por su aparición. En concreto, examinaremos los libros proféticos enteros
de Isaías (Is) y Jeremías (Je) de la biblia E6, una traducción prealfonsí de la
Vulgata compuesta hacia 1250 y copiada en fecha próxima a la composición del
original. La elección del corpus se justifica por ser una fuente extremadamente
rica de pronombres pospuestos en contextos FC, un hecho ya observado por Rossi
(1975, 397–398), quien declaró que la frecuencia del fenómeno bajo discusión
parece ser más elevada en los libros proféticos que en los sapienciales, probable-
mente a causa de su género textual (Bouzouita 2013, 357).
En cuanto a los objetivos concretos, el presente estudio analizará en más
detalle tres hipótesis morfosintácticas propuestas en la bibliografía para elucidar
el uso de la posposición pronominal con FC, en vez de la construcción analítica
con mesoclisis en el códice escurialense. En concreto, se analiza si la distribución
sintáctica de estas construcciones, la forma morfológica del verbo y el modelo
latino ejercen una influencia sobre la colocación de los pronombres átonos en
contextos con verbos FC. Dicho de otra manera, se analizará primero si el entorno
sintáctico puede explicar el uso del pronombre pospuesto (cf. Rossi 1975). Segun-
do, se examinará la influencia de la forma morfológica del verbo, en concreto, de
la correlación entre la síncopa y el uso de la posposición (cf. Matute/Pato 2010).
La tercera hipótesis indaga si la posposición con FCS en E6 podría ser un efecto
del priming sintáctico, un concepto de la psicolingüística, que se refiere al efecto
relacionado con la memoria implícita por el cual la exposición a un determinado
estímulo, en nuestro caso la sintaxis pronominal de la Vulgata, influye en la
producción lingüística posterior, o sea, en el orden de pronombres átonos de la
traducción castellana. En términos filológicos, se examina si la posposición
pronominal con verbos FC se debe a un calco sintáctico del latín bíblico (cf.
Bouzouita 2013).
Este trabajo se organiza como sigue. Tras esta introducción, presentaremos,
de manera resumida, los estudios ya realizados sobre el tema en cuestión y,
seguidamente, se introducirá observaciones generales sobre la colocación pro-
nominal con FC en E6. En los apartados 3 a 6 se tratarán pormenorizadamente
las tres principales hipótesis morfosintácticas descritas en la sección 2: a saber,
se indagará si la distribución sintáctica, la forma morfológica del verbo y el
modelo latino influyen en la ocurrencia de pronombres pospuestos con FCS. Los
diferentes análisis cuantitativos y cualitativos relevan lo siguiente. Primero, la
distribución sintáctica en sí no logra explicar el uso de la posposición, aunque es
cierto que su empleo se restringe a contextos sintácticos en que FCA pueden
aparecer, confirmando las observaciones de Rossi (1975) y Bouzouita (2011).
Segundo, el presente estudio confirma que, estadísticamente hablando, existe
una correlación entre la síncopa y la forma del FC, como han sugerido Matute/
Pato (2010). No obstante, estas variables solo están relacionadas intensamente

para los verbos de la 2ª y 3ª conjugación y, por tanto, esta explicación morfológi-
ca deja de lado la mayoría de los casos de nuestro corpus. Tercero, se observa
asimismo una correlación con la colocación pronominal del modelo subyacente,
como propuso Bouzouita (2013), aunque se trata de una asociación débil. En el
apartado 7 se exploran brevemente otros factores que parecen entrecruzarse con
la variable de la sintaxis subyacente, como la analogía, la función del pronom-
bre, el verbo y la variatio. Asimismo avanzamos otra conjetura todavía no
explorada en la literatura: el uso y la difusión de la posposición pronominal con
FC y, más generalmente, de la gramaticalización del FC podría ser debido al
contacto con las variantes románicas vecinas, que exhiben la misma alternancia
entre posposición pronominal y mesoclisis. El artículo resume las conclusiones
principales en el apartado 8.
2 Estado de la cuestión
En la literatura se hallan varias hipótesis que intentan elucidar la causa de la
aparición del pronombre posverbal en contextos con FCS en E6. Como veremos,
parten de diferentes enfoques.
2.1 Montgomery (1962)
En la edición del Evangelio de San Mateo contenido en E6, Montgomery (1962)

añade, aparte de la transcripción de este texto, también un estudio de los
diferentes rasgos lingüísticos observados. En cuanto a la colocación pronominal
en contextos con verbos FC, encontró una distribución muy uniforme, visto que el
34,2 % (25/73) de los casos presenta la construcción preverbal, mientras que tanto
los FCS con posposición como los FCA representan el 32,9 % (24/73) de su corpus
(Montgomery 1962, §75, los cálculos son nuestros). Según este autor, no hay
«normas fijas» que rijan la elección entre los FCS con posposición y los FCA,
aunque existen varias tendencias (Montgomery 1962, 132). Primero, observa que
el pronombre suele posponerse en la oración sencilla, como en el ejemplo (2),
mientras que en oraciones más complejas, como en (3), es frecuente el uso del
FCA. La segunda tendencia que propone es que algunos FCA expresan un matiz
obligativo o una intención, ejemplificado por los casos en (4) y (5) respectiva-
mente. No obstante, concede que este matiz también se puede observar en FCS
con pronombres pospuestos, lo que ilustra con el ejemplo en (6). En tercer lugar,
propone que los FCA tienden a ser más enfáticos que los FCS con posposición. La
última tendencia que Montgomery destaca consiste en que se evitan las series de
varias sílabas átonas, sobre todo al final del grupo tónico, ilustrado en el ejemplo
(7), aunque otros casos dependen de la disposición de los vocablos de cada
oración, como en (8). Además, a veces se evita un efecto monótono cambiando la
posición del pronombre. Dicho de otra manera, Montgomery sugiere que la
variatio, un recurso estilístico, también parezca jugar un papel en el uso del tipo
de futuro, lo que ejemplifica con los ejemplos en (9).
(2) e levantarán se los fijos contra sos padres (Mt 10:21)

(3) por que fuste fiel en lo poco, poner t’é yo sobre mucho (Mt 25:21)
(4) e apegar s’á a su mugier (Mt 19:5)
(5) Maestre, seguir t’é (Mt 8:19)
(6) pornás-les nombre Jhesus (Mt 1:21)
(7) e tomar t’án en las manos (Mt 4:6)
(8) pedit, e ser vos á dado (Mt 7:7)
(9) ca el que su alma quisiere salvar, perder la há; mas el que perdiere su alma por mí,
fallará-la (Mt 16:25)
En resumen, según Montgomery (1962), la variación en el uso del FCS con

posposición pronominal y del FCA en E6 es aleatoria, aunque existen ciertas
tendencias y otros factores, como la variatio, que parecen inducir ciertas posi-
ciones pronominales.
2.2 Rossi (1975)
Rossi (1975) investiga, en su estudio sobre el uso de las distintas formas del futuro
en Proverbios (Prov) de E6, varios criterios para revelar la distribución de los FCA y
los FCS con pronombres personales átonos. En primer lugar realiza un estudio
sistemático de los contextos sintácticos en que aparece el FC. Sus resultados,
resumidos por Bouzouita (2011, 100) en la Tabla 1, demuestran una clara correla-
ción entre la colocación pronominal y las distintas formas del FC según la estruc-
tura sintáctica de la oración. Para el presente estudio nos interesan en particular
los contextos en los que aparece el FCS con un pronombre posverbal. Como indica
la Tabla 1, el corpus de Rossi (1975) contiene tres casos de esta construcción: uno
aparece después de una «oración secundaria» y dos casos detrás de la conjunción
e.4 Como se puede ver en la Tabla 1, traducida de Bouzouita (2011, 100), estos
4 Como ya indicó Bouzouita (2011, 101), Rossi (1975) engloba bajo la denominación de «oración
secundaria», por un lado, ejemplos en que una frase subordinada precede a la principal, y por
otro, oraciones con dislocaciones a la izquierda, en las cuales un pronombre átono recoge la
referencia del sintagma dislocado (véanse también Bouzouita 2014; 2015; en prensa). El ejemplo
contextos no solo admiten FC con pronombres pospuestos sino también FCA, por
lo cual, Rossi (1975) llega a la conclusión que el contexto sintáctico no permite
aclarar del todo el uso del pronombre pospuesto. Cabe mencionar que, aunque el
rastreo de datos por Rossi (1975, 398) no lo demostró completamente, veremos en
la sección 4 que existe un paralelismo entre los FCA con mesoclisis y los FCS con
posposición, como ya sugerió Bouzouita (2011, 118–120).
Tabla 1: El entorno sintáctico de los FC con pronombres según los datos de Rossi (1975)
Entorno sintáctico FCS con anteposición FCA con mesoclisis FCS con posposición
Negación 100 % (10/10) – –
Pronombre relativo 100 % (6/6) – –
Adverbio 100 % (6/6) – –
Conjunción 100 % (3/3) – –

subordinante
Objeto (in)directo 66,7 % (2/3) 33,3 % (1/3) –
Complemento 66,7 % (2/3) 33,3 % (1/3) –

circunstancial
Sujeto 60 % (15/25) 40 % (10/25) –
«Oración secundaria» – 92,3 % (12/13) 7,7 % (1/13)
Coordinación (e(t)/y) – 91,3 % (21/23) 8,7 % (2/23)
Posición inicial – 100 % (5/5) –

absoluta
T OTAL 45,4 % (44/97) 51,5 % (50/97) 3,1 % (3/97)
Dada la distribución complementaria del FCS y del FCA en varios entornos

sintácticos, Rossi (1975) explora si la variación en uso podría explicarse por
diferencias semánticas relacionadas con el aspecto verbal. En concreto, investiga
si el aspecto (im)perfectivo del verbo está correlacionado con la forma del futuro.
que rastreó con posposición pronominal exhibe este último tipo de construcción. Además, no es
consistente en su clasificación sintáctica, visto que también clasifica otros fenómenos de la
periferia izquierda bajo la categoría de «objeto (in)directo», en que junta tanto casos con
dislocaciones a la izquierda, que contienen sintagmas correferenciales, con ejemplos de la
llamada focalización/frontalización, que, al contrario de las dislocaciones a la izquierda, no
manifiestan la correferencialidad, o sea, el constituyente dislocado no está retomado por un
pronombre.
Constata que los tres ejemplos de FCS con posposición de su corpus manifiestan
verbos perfectivos, a saber mostrar, abrir y camiar, mientras que los casos con un
FCA parecen reforzar una interpretación imperfectiva, como ejemplifica con el
versículo en (10) (Rossi 1975, 399–400):
(10) Quando el sesudo oyere la palavra del seso, loar l’á e aprendrá-la (Ecl 21:18)
(11) Diz el perezoso: -El león está fuera en medio de las calles, matar m’á (Prov 22:13)
(12) Metióme el rey en su cellero; alegrarémos-nos e gozarémos-nos en ti (Cant 1:3)
Según la autora, el futuro analítico loar l’á se opone por su interpretación

imperfectivo al sintético aprendrá-la que expresa un significado perfectivo. Sin
embargo, Rossi misma presenta varios contraejemplos que invalidan su hipótesis.
Efectivamente, no resulta difícil encontrar un FCA que presenta un verbo de
aspecto perfectivo, como matar en el ejemplo (11), o un FCS con un verbo
imperfectivo, como alegrarse o gozarse en (12).
Aparte de la hipótesis semántica arriba mencionada, discierne Rossi (1975,
400) un matiz de obligatoriedad en los ejemplos con un FCA, lo cual atribuye a la
posición enfática del infinitivo en este tipo de construcciones. Sin embargo,
reconoce que no solo carece de suficientes ejemplos para validar esta conjetura
sino que una lectura obligativa también se puede considerar como un rasgo
general de cualquier tipo de futuro. Este mismo hecho lo confirma también
Castillo Lluch (2002, 545): «El valor de obligación es consustancial al futuro en
general, no a unas formas en particular». Además, como Rossi (1975, 400) misma
indica, Montgomery (1962, 132) también observa el matiz obligativo en construc-
ciones con un FCS con un pronombre pospuesto, como vimos en el apartado
anterior con el ejemplo (6).
En resumen, aunque Rossi (1975) explora diferentes hipótesis, sintácticas y
semánticas, concede que ninguna logra dar una explicación contundente para la
aparición del FCS con posposición pronominal.
2.3 Matute/Pato (2010)
Tal como Rossi (1975) y Bouzouita (2011), Matute/Pato (2010, 61) observan que
tanto los FCA como los FCS con posposición pronominal alternan en los
mismos contextos sintácticos: en su corpus, el 55 % (113/204) de oraciones
afirmativas y principales contiene un FCS con un pronombre pospuesto mien-
tras que el 45 % (91/204) exhibe la construcción analítica. En frases negativas,
subordinadas o principales con elementos antepuestos intraoracionales, al con-
trario, solo se manifiesta el FCS con anteposición pronominal. Sugieren que la
razón por la alternancia sintáctica entre los FCS con pronombres pospuestos y
los FCA podría ser de índole morfológica: en concreto, postulan que la relación
inversa entre la síncopa y las formas analíticas, ya notada por Moreno Bernal
(2004), podría regirla. En otras palabras, según Matute/Pato (2010, 62), la forma
morfológica del infinitivo determinaría la posición del pronombre: «[en] las
formas que presentan alternancia en la posición del pronombre, vemos que las
soluciones con cambio en la base del infinitivo (pornáslo, seráslo, dirásles o
farélos frente a ponerla as, seer l’á, dezir l’as, fazerles edes) atraen al pronombre
en posición de enclisis con más frecuencia que en mesoclisis (37 ejemplos de
enclisis, el 73 %, frente a 14 de mesoclisis, el 27 %». En cambio, con infinitivos
que se han mantenido invariables la ocurrencia de los dos tipos de futuro se
iguala, como se puede observar en la Tabla 2, que recoge los datos de Matute/
Pato (2010, 62).
Tabla 2: La distribución morfológica de los FC según los datos de Matute/Pato (2010)
Colocación pronominal Sin síncopa Con síncopa
FCA con mesoclisis 50,3 % (77/153) 27 % (14/51)
FCS con posposición 49,7 % (76/153) 73 % (37/51)
Como veremos en la sección 5, los datos de nuestro corpus corroboran estadís-

ticamente la tendencia observada por Matute/Pato (2010) y Moreno Bernal
(2004; cf. las Tablas 8 y 9). A pesar de la existencia de esta relación inversa
entre la ocurrencia de síncopa y el uso de los FCA, dudamos de la conveniencia
de considerar este factor morfológico como la causa de la variación sintáctica
entre los FCS con posposición y los FCA en vista de varias observaciones
empíricas, entre otras, que esta explicación solo se aplica a ciertos modelos de
la conjugación (para más contraargumentos, véase la sección 5). Puesto que
Matute/Pato (2010) son conscientes de que su explanación morfológica se limita
a los verbos con radical variable, añaden algunas consideraciones finales, en
que se preguntan si la posición del pronombre en contextos con verbos de
radical invariable se debe o a la alternancia libre o a la variatio —dos hipótesis
ya lanzadas por Montgomery (1962, 132)—, o la posible imitación del modelo
latino subyacente.
2.4 Bouzouita (2013)
Bouzouita (2013) aborda el fenómeno de la posposición con FC desde otro ángulo:

examina si el hecho de que E6 sea una traducción podría haber influido la
sintaxis castellana, o sea, la llamativa posposición pronominal con FC podría ser

un reflejo de la interferencia del latín bíblico (o posiblemente del hebreo subya-
cente al latín), como podría ser el caso en los ejemplos de (13), en que la
posposición castellana coincide con la latina.
(13) Jeremías 38 : 3
a. [Vulgata] tradenda tradetur civitas haec in manu exercitus regis Babylonis et capiet
eam
b. [E6] Esta ciudat dada será a la hueste del rey de babilonna e prendrá la
La autora averigua primero la frecuencia de uso de las diferentes posiciones

pronominales en contextos con verbos FC para las primeras 10.000 palabras de
los libros Is y Je del manuscrito escurialense. Los resultados, representados en la
Tabla 3, dejan claro que, al contrario que otros textos del siglo XIII y XIV, la
posposición pronominal no es infrecuente en estos libros proféticos, dada su
ocurrencia de 11,9 veces por 10.000 palabras, aunque la anteposición y la meso-
clisis son las construcciones más frecuentes.
Tabla 3: La colocación pronominal con FC según los datos de Bouzouita (2013)
Colocación Isaías Jeremías Porcentaje Ocurrencia por

pronominal 10.000 palabras
Anteposición 31 46 43,8 % (77/176) 38,2
Mesoclisis 49 26 42,6 % (75/176) 37,2
Posposición 7 17 13,6 % (24/176) 11,9
Total 87 89 176 87,3
Luego, con el objetivo de examinar la hipótesis del calco sintáctico, Bouzouita

(2013) contrasta las diferentes colocaciones pronominales con el uso del pro-
nombre pospuesto en la Vulgata latina. De los resultados contrastivos, retoma-
dos en la Tabla 4, se desprende que, efectivamente, las estructuras con posposi-
ción pronominal podrían ser una imitación del uso posverbal de los pronombres
latinos: en más detalle, mientras que en el 70,8 % (17/24) de los ejemplos
castellanos con posposición pronominal se encuentra el mismo orden de pala-
bras en el texto latino, para los casos con pronombres preverbales o los que
presentan mesoclisis, en cambio, la aparición de la posposición latina es mucho
menor: en particular, alcanza el 42,9 % (33/77) y el 52 % (39/75) respectiva-
mente.
Tabla 4: La colocación pronominal con FC en E6 contrastada con la Vulgata (Bouzouita 2013)
Colocación pronominal Pronombre posverbal

en E6 en la Vulgata
Anteposición 42,9 % (33/77)
Mesoclisis 52 % (39/75)
Posposición 70,8 % (17/24)
Debido a la escasez de casos con pronombres pospuestos, Bouzouita (2013, 359)

extiende su estudio, incluyendo todas las ocurrencias de posposición pronominal
de los libros enteros de Is y Je de E6. Como se ve en la Tabla 5, los datos ampliados
indican que la correspondencia entre ambas sintaxis es bastante alta, ya que el
76,3 % (129/169) coincide en el orden posverbal.
Tabla 5: La posposición pronominal en E6 y la Vulgata (Bouzouita 2013)
Colocación pronominal en E6 Pronombre posverbal en la Vulgata
Isaías Jeremías Total
Posposición 63 % (29/46) 81,3 % (100/123) 76,3 % (129/169)
Pese a estos prometedores primeros resultados, falta la comparación con las

demás posiciones pronominales escurialenses y sus correspondencias latinas
para poder llegar a una conclusión contundente. Uno de los objetivos de este
estudio consiste justamente en añadir esta parte contrastiva y proveer los nece-
sarios datos estadísticos para averiguar si existe una correlación entre ambas
distribuciones pronominales.
Por último, cabe añadir que Bouzouita (2013, 361–362) no excluye otros
parámetros determinantes en la colocación pronominal de E6, ya que el calco
sintáctico no es automático, o sea, la traducción castellana no siempre sigue el
modelo latino. Concretamente, apunta que la analogía también parece influir, así
como la variatio, fenómeno al que ya aludieron Montgomery (1962) y Matute/Pato
(2010).
En resumidas cuentas, los resultados del estudio preliminar de Bouzouita
(2013) indican que el uso de la posposición pronominal con los FCS podría
posiblemente deberse a un calco sintáctico del latín bíblico, sin excluir la poten-
cial interacción de otros factores, como la analogía y la variatio.
2.5 La frecuencia de la posposición pronominal
Como explicamos en la sección 2.4, Bouzouita (2013, 358) ya demostró en su

análisis de las primeras 10.000 palabras de Is y Je que la posposición pronominal
en contextos FC no es infrecuente en E6, aunque tampoco constituye la distribu-
ción más predominante. Los datos de nuestro corpus, que engloba estos libros
proféticos en su totalidad, confirman este panorama: como se puede observar en
la Tabla 6, la posposición aparece 26,1 veces por 10.000 palabras, mientras que
para la mesoclisis y la anteposición se rastrearon 33,1 y 42,2 casos (33,4 en
oraciones principales y 8,8 en subordinadas en el caso de la última) respectiva-
mente.5 La comparación de estos resultados con los de Bouzouita (2013) revela
que la ocurrencia de los pronombres pospuestos es mucho más alta si el corpus
es más extenso: en concreto, mientras que Bouzouita (2013, 358) registró 11,9
ocurrencias de posposición por 10.000 palabras, este número aumenta hasta 26,1
ejemplos en el presente estudio. Los cálculos para las demás posiciones, en
cambio, son similares a los de Bouzouita (2013; cf. Tabla 3).6
Tabla 6: La colocación pronominal con FC en Is y Je
Tipo de Colocación Isaías Jeremías Porcentaje Ocurrencia por

oración pronominal 10.000 palabras
Oración Anteposición 26 33 8,7 % (59/677) 8,8

subordinada
Oración Anteposición 120 103 36,1 % (223/618) 33,4

principal
Mesoclisis 140 81 35,8 % (221/618) 33,1
Posposición 48 126 28,2 % (174/618) 26,1
Total 308 312 91,3 % (618/677) 92,6
T OTAL 334 343 677 101,4
En el análisis empírico que sigue, indagaremos primero la posible influencia del

contexto sintáctico de la construcción pronominal, luego, la interacción entre la
5 Solo 7 de los 677 ejemplos en el corpus contienen un condicional.

6 Asimismo, los porcentajes de las tres posiciones pronominales con FC de Is y Je son muy
parecidos a los de Montgomery (1962) para el Evangelio de Mateo, contrariamente a los de Rossi
(1975) para Proverbios, probablemente a causa del género textual (Bouzouita 2013, 357). Véanse
la sección 2.1 y la Tabla 1 para más detalles.
colocación pronominal con FC y la forma morfológica de este y, por último, el

posible efecto de la sintaxis del texto subyacente.
3 La distribución sintáctica
Como vimos en la sección 2.2, Rossi (1975) examina si hay diferencias en la
distribución sintáctica de las formas de futuro y llega a la conclusión que es
posible encontrar variación en el uso entre el FCA y el FCS con posposición
pronominal (i) detrás de un constituyente retomado por un pronombre, un
entorno que clasifica bajo la denominación «oración secundaria», y (ii) la coordi-
nación e. Haciendo un estudio pormenorizado de los entornos sintácticos de los
diferentes tipos de FC con pronombres átonos detectamos que nuestros resulta-
dos, resumidos en la Tabla 7, apoyan las conclusiones de Rossi (1975), ya que, en
efecto, ambas formas de futuro pueden aparecer detrás de un sintagma nominal
(SN) correferencial y una conjunción coordinante en una oración principal, como
se ejemplifica en (14a)–(14b) y (15a)–(15b) respectivamente.7 Más aún, nuestro
corpus revela igualmente que otros contextos exhiben la variación entre el FCA y
el FCS con posposición: como se observa en la Tabla 7, la misma alternancia se
manifiesta (i) en oraciones principales con verbos en primera posición (P1), como
se ilustra en (16); (ii) en oraciones paratácticas, como en (17); (iii) detrás de un
vocativo, como en (18); (iv) detrás de la conjunción adversativa mas, en (19); (v)
detrás de la conjunción causal ca,8 en (20); (vi) detrás de sujetos preverbales,
ilustrado en (21); (vii) detrás de complementos circunstanciales, ejemplificado en
(22), y, finalmente, (viii) detrás de construcciones absolutas o subordinadas,
como se ve en (23) (cf. Bouzouita 2011, 110; 2012, 703, para la Fazienda de
Ultramar; Gómez Seibane 2012, 703).
7 Se subrayan los elementos de la periferia izquierda que constituyen el entorno sintáctico,

mientras que las formas del futuro aparecen en negrita.
8 Es de notar que no todas las oraciones introducidas por la conjunción ca tienen el mismo
estatus sintáctico: ca puede funcionar tanto como subordinante como coordinante. Por lo
anterior clasificamos estas oraciones, por un lado, como subordinadas, y, por otro, como
principales, dependiendo del significado de la conjunción y de la colocación pronominal. En
efecto, como han defendido Bouzouita (2008a, 171–174), Castillo Lluch (1996, 180–184), Granberg
(1988, 83–85), Montgomery (1962, 116), entre varios otros, las cláusulas con ca que contienen
pronombres antepuestos pueden ser consideradas como subordinadas, mientras que las que
presentan FCA y FCS con pronombres pospuestos son, al contrario, oraciones principales.
Tabla 7: El entorno sintáctico de los futuros/condicionales con pronombres en Is y Je
Entorno sintáctico FCS con FCA con FCS con

anteposición mesoclisis posposición
Oración subordinada 100 % (59/59) – –
Pronombre interrogativo 100 % (21/21) – –
Negación 100 % (105/105) – –
SN no correferencial 100 % (2/2) – –
Complemento prep. 100 % (3/3) – –
Verbo en P1 – 67,4 % (29/43) 32,6 % (14/43)
–
Oración principal
Oración paratáctica 28,6 % (2/7) 71,4 % (5/7)
Vocativo – 66,7 % (2/3) 33,3 % (1/3)
Mas – 85,7 % (6/7) 14,3 % (1/7)
Ca – 33,3 % (1/3) 66,7 % (2/3)
Sujeto 62,3 % (38/61) 32,8 % (20/61) 4,9 % (3/61)
Compl. circunstancial 83,1 % (49/59) 11,9 % (7/59) 5,1 % (3/59)
Coordinación (e/y) 1,9 % (5/265) 50,2 % (133/265) 47,9 % (127/265)
SN correferencial – 28,6 % (4/14) 71,4 % (10/14)
Construcción abs./subord. – 68 % (17/25) 32 % (8/25)
Total 36,1 % (223/618) 35,8 % (221/618) 28,2 % (174/618)
T OTAL 41,7 % (282/677) 32,6 % (221/677) 25,7 % (174/677)
(14) SN correferencial
a. los agenos que guardaren míos sábados e escogieren lo que yo quis e touieren mío
paramiento dar les é logar en mi casa e en míos muros (Is 56:5)
b. E dixo les Jheremías propheta: «[…] e toda cosa que me recudiere diré-uos la e non uos
negaré nada» (Je 42:4)
c. e todo lo quebrantará (Mc 5:4)
(15) Conjunción coordinante
a. e acerques e uenga el conseio del sancto Israhel e saber lo emos (Is 5:19)
b. E sabrá-lo tod’el pueblo de Effraym e los moradores de Samaria con soberbia e con
grand coraçón diciendo (Is 9:8)
c. ¿Fasta quándo llorará la tierra e se secará la yerba de toda la tierra? (Je 12:4)
(16) Verbo en P1
a. ca dixiestes «leuantar nos á Dios prophetas en Babilona» (Je 29:15)

b. Leuantará-se el león del couil e leuantar s’á el preador de las yentes (Je 4:7)
(17) Oración paratáctica
a. Sobr’esto loar t’á el to fuerte pueblo, temer t’á la ciudat de las fuertes yentes (Is 25:3)
b. «Vos sodes carga de dios, desecharé uos», dize dios (Je 23:33)
(18) Vocativo
a. E pues Sennor retener t’ás de todas estas cosas (Is 64:11)

b. E uós que desamparastes a dios que oluidastes el mío sancto otero que ponedes mesa a
fortuna e feches beueres de sacrificio sobr’ella contaré uos por espada (Is 65:11–12)
(19) Conjunción adversativa mas
a. E si ofrecieren olocaustos e sacrificios no los recibré mas consumir los é con espada e
con fambre e con pestilencia (Je 14:12)
b. Hé que crio cielos nueuos e tierra nueua e las primeras cosas no serán remenbradas e
no subrán al coraçón mas gozaredes uos e alegraredes uos fasta siempre en las cosas
que yo crio (Is 65:17–18)
(20) Conjunción causal ca
a. e espauoreçrán e aurán temor ante la faz del mouimiento de la mano del Sennor de los
fonsados ca mouer la á sobr’él (Is 19:16)
b. desecharé el linnage de Iacob e de Dauid mío sieruo que non tomé de so linnage
capdiellos e del linnage de Abraham e de Ysaac e de Iacob ca retornaré los e auré
mercet d’ellos (Je 33:26)
(21) Sujeto
a. Tod ombre que passare por Babilonna espantar s’á (Je 50:13)
b. e el uiento toruará los (Is 41:16)
c. Cada uno s’espantará de so uezino (Is 13:8)
(22) Complemento circunstancial
a. En aquellos días saluar s’á Juda (Je 33:16)

b. Pues dirás les estas palauras […] (Je 13:12)
c. Pues assí les diredes (Je 10:11)
(23) Oración absoluta/subordinada
a. Si lauare dios las suziedades de las fias de Sion e la sangre de Jherusalém lauare de
medio d’ella, fazer lo á con espirito de iuizio e con espirito de ardor (Is 4:4)
b. E si te dixieren «¿ó saldremos?», dirás les «esto dize Dios […]» (Je 15:2)
c. Desde estonz dix yo a ti «ante que las cosas uiniessen, te las fiz saber» (Is 48:5)
d. Ante que d’aquí salgades me faredes ende buen derecho (EE: 420a5 ápud Granberg
1988, 139)
Cabe añadir que los datos de la Tabla 7 demuestran igualmente la existencia de

tres grupos diferentes de entornos sintácticos en la colocación pronominal con
FC, al igual que con otros tiempos verbales (cf. Bouzouita 2008a; 2008b; 2011): (i)
contextos que siempre conllevan a la anteposición pronominal, (ii) otros que solo
admiten FCA y FCS con posposición, ilustrados en (16)–(20), y, por último, (iii)
los que admiten la variación entre los tres tipos, ejemplificados en (14)–(16) y
(21)–(23). Aunque los libros de Is y Je no contienen ejemplos con pronombres
preverbales tras un SN correferencial dislocado, este orden de palabras sí aparece
en otras partes del códice E6, como se expone en (14c), procedente del Evangelio
de Marcos. Por lo que se refiere a la distribución pronominal detrás de una
subordinada introducida por ante que, aquí también las estructuras preverbales
son posibles, como queda ilustrado en (23c), a pesar de que solo encontramos en
E6 un caso con otro tiempo verbal. No obstante, el ejemplo en (23d), que al igual
que E6 data del siglo XIII, confirma que la anteposición también se puede exhibir
con un futuro (cf. Bouzouita 2011, 110; 2012, 703–704).
En síntesis, se puede concluir que el uso de los FCS con posposición está
restringido sintácticamente: pueden surgir exactamente en los mismos contextos
sintácticos que los FCA. Por consiguiente, el entorno sintáctico no sirve como
desencadenante para el uso del pronombre pospuesto con FCS (cf. Bouzouita
2011).
4 La forma morfológica
La segunda hipótesis que examinaremos atañe a la relación entre la forma
morfológica del FC y la colocación pronominal: como detallamos en la sec-
ción 2.3, los datos de Matute/Pato (2010) indican que las formas sincopadas de
los verbos con radicales variables tienden a surgir con pronombres en posposi-
ción, mientras que las no reducidas presentan una distribución equilibrada entre
FCA y FCS con pronombres pospuestos (véase la Tabla 2). Los resultados de
nuestro corpus, presentados en la Tabla 8, confirman la existencia de una correla-
ción entre la síncopa y la posposición de los pronombres. Es más, las tendencias
observadas en nuestro corpus son más pronunciadas que las de Matute/Pato

(2010), puesto que, por un lado, todos los casos sincopados exhiben la distribu-
ción pronominal posverbal (el 100 % (54/54) vs. 73 % (37/51) en Matute/Pato),
mientras que, por otro, las formas invariables propenden a aparecer con mesocli-
sis, ya que el 64,8 % (221/341) de estas se manifiestan con FCA (vs. 50,3 % (77/
153) en Matute/Pato). El coeficiente V de Cramér, que equivale a 0,448, confirma
que la fuerza de la correlación entre, por un lado, la forma morfológica y, por
otro, el uso de FCA y FCS con posposición es moderada:9
Tabla 8: La distribución morfológica de los futuros/condicionales en Is y Je
Colocación pronominal Sin síncopa Con síncopa
FCA con mesoclisis 64,8 % (221/341) 0 % (0/54)
FCS con posposición 35,2 % (120/341) 100 % (54/54)
Yates χ2 = 76,84; gl = 1; p < 0,0001; V = 0,448
Cabe formular algunas observaciones metodológicas acerca de las Tablas 2 y 8,

que recogen los resultados de Matute/Pato (2010) y del presente estudio. Primero,
no podemos perder de vista que los verbos de la 1ª conjugación son invariables.
Por consiguiente, la cifra en la columna de las formas con síncopa solo se refiere
a la 2ª y 3ª conjugación, mientras que el porcentaje para las estructuras no
sincopadas, al contrario, abarca datos de los tres modelos de conjugación. En
vista de este desequilibrio, es metodológicamente más preciso presentar la dis-
tribución morfológica de los FC por modelo de conjugación:
Tabla 9: La distribución morfológica y la colocación pronominal de los futuros/condicionales en

Is y Je
Modelo de conjugación y forma morfológica

pronominal
Colocación
Primera Segunda Tercera Total

conjugación conjugación conjugación
Sin Con Sin Con Sin Con Sin Con

síncopa síncopa síncopa síncopa síncopa síncopa síncopa síncopa
Me- 56,6 % – 100 % 0% 90,7 % 0% 100 % 0%

socl. (151/267) (0/0) (31/31) (0/32) (39/43) (0/22) (221/221) (0/221)
9 Los datos de Matute/Pato (2010) de la Tabla 2, en cambio, solo revelan una asociación débil:
V = 0,199.
Modelo de conjugación y forma morfológica

pronominal
Colocación
Primera Segunda Tercera Total

conjugación conjugación conjugación
Sin Con Sin Con Sin Con Sin Con

síncopa síncopa síncopa síncopa síncopa síncopa síncopa síncopa
Pos- 43,4 % – 0% 100 % 9,3 % 100 % 69 % 31 %

pos. (116/267) (0/0) (0/31) (32/32) (4/43) (22/22) (120/174) (54/174)
Total 100 % 0% 49,2 % 50,8 % 66,2 % 33,8 % 86,3 % 13,7 %

(267/267) (0/267) (31/63) (32/63) (43/65) (22/65) (341/395) (54/395)
Los resultados de la Tabla 9 demuestran, efectivamente, una gran diferencia en

la distribución morfológica entre los diferentes modelos de conjugación. Asi-
mismo dejan en claro que no se puede negar la existencia de una relación
inversa entre la presencia de la síncopa y el uso de los FCA para los verbos de
la 2ª y 3ª conjugación, ya que todos los casos sincopados de estos modelos
aparecen con posposición pronominal, confirmando, por tanto, la observación
de Moreno Bernal (2004) y Matute/Pato (2010). Más específicamente, la V de
Cramér para la 2ª conjugación es 1, por lo cual la correlación es completa,
mientras que la fuerza de asociación para la 3ª es significativamente alta, a
saber, 0,876. Además, para la 3ª conjugación solo se han documentado cuatro
casos de FCS no sincopados con posposición (9,3 % (4/43)), ejemplificados en
(24)–(27), que contienen formas de los verbos esparzir, servir e ir. No es de
extrañar que estos no se sincopen, en vista de los factores identificados por
Moreno Bernal (2004, 130–133) que inciden la síncopa: a modo de ilustración,
los verbos monosilábicos, como ir, nunca se sincopan, tampoco se produce la
síncopa en verbos, como esparzir o servir, que presentan la secuencia de líquida
más consonante.
(24) Trabaié iudgando los e esparziré los con el abentadero en las puertas de la tierra
(Je 15:6–7)
(25) E agora di estas tierras todas a la mano de Nabucodonosor, rey de Babilonna, mío
sieruo. Demás di-l las bestias del campo por le seruir, e todas las yentes a él e a so fijo e
a so nieto, fasta que uenga el tiempo de la su tierra e d’él, e seruirán le muchas yentes
e grandes reyes (Je 27:6–7)
(26) Jugo de fierro pus sobre’l cuello de todas estas yentes que siruan a Nabucodonosor rey
de Babilonna e seruirán le (Je 28:14)
(27) No engannedes uuestras almas diciendo «Irán se los caldeos e quitar s’án de nós» ca
non se irán (Je 37:9)
No obstante lo anterior, la existencia de una asociación fuerte entre la forma

morfológica del verbo y el empleo de posposición o mesoclisis para los verbos de
la 2ª y 3ª conjugación no implica necesariamente que la aparición del pronombre
pospuesto con FC sea debida a la síncopa. Como es bien sabido, inferir de una
correlación entre dos variables una relación causal es una falacia lógica, puesto
que la correlación no implica causalidad. Además, hay varias observaciones
empíricas que nos hacen renuentes a aceptar la explicación de Matute/Pato
(2010). En primer lugar, los verbos de la 1ª conjugación, a pesar de ser formas
invariables, también presentan la posposición pronominal en contextos con FC,
como ya vimos en el ejemplo (16b): su distribución es más o menos equilibrada,
como ilustra la Tabla 9, ya que el 56,6 % (151/267) exhibe FCA con mesoclisis vs.
el 43,4 % (116/267) FCS con posposición. Asimismo, es posible encontrar formas
no sincopadas de la 2ª y 3ª conjugación, que, al igual que las sincopadas,
manifiestan pronombres pospuestos, aunque es cierto que tienden a preferir la
mesoclisis (véase Moreno Bernal 2004 para más detalles).10 Desde una perspecti-
va cuantitativa, la hipótesis propuesta por Matute/Pato (2010) no logra a elucidar
la gran mayoría de los FCS con posposición de nuestro corpus, visto que el 69 %
(120/174) de todos los ejemplos con posposición pronominal presentan formas no
sincopadas, como se ve en la Tabla 9. Conviene asimismo recordar que, para la 2ª
y 3ª conjugación, la síncopa no solo afecta a los FCS con posposición, sino
también a los FCS con anteposición, e incluso a los futuros sin pronombres. En
nuestro corpus, por ejemplo, el 96,2 % (75/78) de los FCS con anteposición exhibe
formas sincopadas para los verbos de la 2ª conjugación; la distribución morfoló-
gica para los de la 3ª conjugación, al contrario, es más equilibrada (48,6 % (18/
37) de síncopa).
Por todo lo anterior, nos parece que la síncopa no logra a explicar satisfacto-
riamente la alternancia entre mesoclisis y posposición en contextos de FC, aun-
que sí es cierto que existe una correlación fuerte para la 2ª y la 3ª conjugación.
5 El modelo latino
Es sabido que el castellano medieval de las biblias romanceadas se caracteriza
por la conservación, en mayor o menor grado, de rasgos lingüísticos de la(s)
lengua(s) subyacente(s) (p. ej. Enrique-Arias 2008; Pérez Alonso 1997; Rubio
10 Aunque Is y Je no presentan FCS no sincopados de la 2ª conjugación con pronombres

pospuestos, no es imposible encontrar tales casos en otros libros de E6:
(1) e romperé los de uuestros braços (Ez 13:20)
2009, entre otros). Por tanto, no parece inverosímil la hipótesis propuesta por
Bouzouita (2013), de que la aparición de FCS con pronombres pospuestos en E6,
una traducción de la Vulgata al castellano medieval, podría ser un calco sintácti-
co del modelo latino. Siguiendo a Bouzouita (2013), verificaremos si la coloca-
ción pronominal con FC presenta efectos del priming sintáctico por la exposición
al orden pronominal del texto subyacente.11 En la psicolingüística, el concepto
de priming se refiere al efecto relacionado con la memoria implícita por el cual la
exposición a un determinado estímulo, en nuestro caso la sintaxis pronominal
de la Vulgata, influye en la producción lingüística posterior, o sea, en el orden
de pronombres de la traducción castellana. Como veremos en breve, indagare-
mos dos versiones de la hipótesis del priming sintáctico, una más restringida que
la otra. Para ello, contrastaremos la colocación pronominal de ambos textos.
Antes de pasar a los resultados cuantitativos, conviene, primero, detallar
las diferentes estructuras sintácticas encontradas en la Vulgata que se traduje-
ron por un FC con un pronombre en E6. En nuestro corpus encontramos
tres tipos de construcciones latinas, o bien (i) una estructura con pronombre
antepuesto, como en (28a); o bien (ii) con uno pospuesto, ejemplificado en
(29a), o (iii) una construcción sin pronombre o, incluso, sin verbo, ilustrado en
(30a)–(33a).
(28) Isaías 57:13
a. [Vulgata] omnes eos auferet ventus, tollet aura

b. [E6] e leuar los á todos el uiento, y la sazón
(29) Jeremías 39:17
a. [Vulgata] «et liberabo te in die illa» ait Dominus

b. [E6] «e librar t’é yo aquel día» dize dios
(30) Isaías 40:21
a. [Vulgata] numquid non scietis, numquid non audietis

b. [E6] ¿Pues no-lo sabredes? ¿no lo escucharedes?
a. [Vulgata] et Sedeciam regem Iuda et principes eius dabo in manu inimicorum suorum
b. [E6] E Sedechias e sos capdiellos metré los en mano de sos enemigos
11 Para un panorama de la investigación reciente sobre el priming sintáctico, remitimos a Feng

et al. (2014). Cabe también precisar que el priming sintáctico no solo se manifiesta dentro de una
lengua, sino también entre diferentes lenguas (Loebell/Bock 2003).
(32) Isaías 56:5
a. [Vulgata] dabo eis in domo mea et in muris meis locum et Ø nomen melius a filiis et
filiabus, nomen sempiternum dabo eis quod non peribit
b. [E6] dar les é logar en mi casa e en míos muros e dar les hé meior nombre que a los
fijos ni alas fijas e daré les nombre durable que non pereçrá.
(33) Isaías 1:11
a. [Vulgata] «Quo mihi multitudinem victimarum vestrarum?» dicit Dominus

b. [E6] «Fasta quándo me daredes muchos sacrificios?» dize Dios
La construcción latina no siempre coincide con la castellana, así que es posible

encontrar en la traducción escurialense no solo pronombres en otra posición,
como en (28b), sino también constituyentes agregados por el escriba, como en los
ejemplos (30b)–(33b). A este respecto, como es bien sabido, el latín es una lengua
pro-drop que no tiene que explicitar sintácticamente el objeto directo, al contrario
del español, que exhibe menos flexibilidad en este sentido, como se ve clara-
mente en (30). Encontramos igualmente en nuestro corpus casos, como (31), en
los cuales un objeto directo aparece en la periferia izquierda como un SN que en
E6 está retomado por un pronombre correferencial. En (32b) podemos observar la
repetición del verbo darles hé, es decir, en este caso el escriba del romanceamien-
to agregó un constituyente verbal, ausente en la Vulgata. Por último, registramos
un único ejemplo latino sin verbo, dado en (33), pese al empleo del pronombre
mihi.12
En vista de las construcciones subyacentes y la distribución castellana,
podemos formular dos versiones de la hipótesis del priming sintáctico. La pri-
mera, sobre la colocación en general, avanza que la exposición al pronombre
antepuesto y pospuesto en la Vulgata induce el uso de la misma colocación en el
códice escurialense, mientras que se espera la mesoclisis, que es la posición
canónica encontrada de otros textos del siglo XIII, en ejemplos sin pronombre o
con anteposición en el texto subyacente, dependiendo del contexto sintáctico
castellano. Sin embargo, dada la restricción sintáctica de la posposición a en-
tornos de mesoclisis (véase la sección 4), podemos también anticipar una versión
más restringida de la hipótesis de priming sintáctico, si excluimos la anteposición
de los datos: en este caso la exposición al pronombre pospuesto en la Vulgata
propiciaría que el escriba utilizara la misma colocación en el códice escurialense,
12 Ya que, para el ejemplo (33), es imposible decidir si el pronombre es antepuesto o pospuesto

por falta de verbo, lo hemos clasificado con los casos sin pronombre en las Tablas 10 y 11.
mientras que se esperaría la mesoclisis en ejemplos sin pronombre o con ante-

posición en el texto subyacente.
Pasamos ahora al análisis contrastivo entre ambas distribuciones pronomi-
nales. Consideremos primero la Tabla 10, que incluye también los datos para la
anteposición castellana, para averiguar si la influencia latina se manifiesta de
igual manera en todos los entornos.
Tabla 10: La colocación pronominal con futuros/condicionales en E6 contrastada con la

Vulgata
Colocación pronominal en E6 Colocación pronominal en la Vulgata
Anteposición Sin pronombre Posposición Total
FCS con anteposición

Frecuencia observada 14 122 146 282
Frecuencia esperada 10,8 103,7 167,5
% en E6 5% 43,3 % 51,8 % 41,7 %
% en la Vulgata 53,8 % 49 % 36,3 %
Residual ajustado 1,3 3 –3,4
FCA con mesoclisis

% en E6 4,1 % 40,7 % 55,2 % 32,6 %
% en la Vulgata 34,6 % 36,1 % 30,3 %
Residual ajustado 0,2 1,5 –1,5
FCS con posposición

Frecuencia esperada 6,7 64 103,3
% en E6 1,7 % 21,3 % 77 % 25,7 %
% en la Vulgata 11,5 % 14,9 % 33,3 %
Residual ajustado –1,7 –4,9 5,5
Total
% en la Vulgata 3,8 % 36,8 % 59,4 % 100 %
χ2 = 31,04; gl = 4; p < 0,0001; V = 0,151
Estos resultados confirman la observación de Bouzouita (2013) de que, al compa-

rar las posiciones pronominales de E6 y sus estructuras correspondientes de la
Vulgata, el uso del pronombre posverbal latino es el más elevado para la posposi-
ción castellana: el 77 % (134/174) de estos casos presenta esta colocación vs. el
55,2 % (122/221) y el 51,8 % (146/282) para los FCA con mesoclisis y los FCS con
anteposición respectivamente (cf. las Tablas 4 y 5).13 A pesar de este alto porcen-
taje, hay que advertir que, desde la perspectiva latina, solo un tercio (33,3 %; 134/
402) de las construcciones con pronombres pospuestos se tradujo por una estruc-
tura con la misma distribución. Como se puede observar, el repartimiento entre
las tres posiciones es bastante equilibrado: el 30,3 % (122/402) de los casos
pospuestos latinos se tradujo con una estructura mesoclítica y el 36,3 % (146/
402) con una preverbal. Cuando la anteposición está presente en el texto sub-
yacente, en cambio, el 53,8 % (14/26) de los casos castellanos coinciden, frente a
34,6 % (9/26) y 11,5 % (3/26) para la estructura mesoclítica y enclítica.
Puesto que para el presente análisis, al contrario del estudio preliminar de
Bouzouita (2013), se recogió información sobre todas las construcciones subya-
centes y no solo sobre aquellas que presentaban la posposición, podemos
examinar la fuerza de la asociación entre la colocación pronominal castellana y
la latina: en concreto, la V de Cramér, que es igual a 0,151, nos indica que, para
la colocación pronominal en general, ambas variables están relacionadas débil-
mente. Esto no es sorprendente, ya que la distribución pronominal escuria-
lense, aparte de la ocurrencia de posposición con FC, no difiere de la de otros
textos coetáneos (cf. los datos de Bouzouita 2011; Castillo Lluch 1996; Nieuwen-
huijsen 2006 inter alia). Sin embargo, los residuales ajustados nos permiten
entender mejor la dependencia entre las dos variables, porque nos indican qué
celdas se apartan de la hipótesis de igualdad de probabilidades (Agresti 2013,
82). A pesar del coeficiente V débil, el residual ajustado es igual a 5,5 en la
casilla correspondiente a la posposición traducida por el mismo tipo de estruc-
tura. Esto significa que la frecuencia observada (134) para esta casilla es
significativamente más alta que la esperada (103,3) si las dos variables, la
colocación pronominal latina y la castellana, fueran independientes. Inversa-
mente, la casilla para la ausencia de un pronombre en el texto subyacente y la
posposición castellana contiene un residual ajustado muy bajo, –4,9. Los
residuales ajustados para la anteposición, al contrario, son neutrales. Estos
datos indican por tanto que, por un lado, vale la pena explorar más la versión
restringida de la hipótesis y, por otro, la presencia de la anteposición en el
texto subyacente no se imita en la sintaxis castellana. En vista de lo anterior y
la restricción sintáctica de la posposición a contextos que también permiten el
13 Es más, la posposición es la configuración pronominal más frecuentemente encontrada en la

Vulgata, ya que el corpus contiene 402 casos con este orden pronominal en contraste con solo 26
ejemplos con un pronombre antepuesto al verbo, o sea, el 93,9 % (402/428) de los casos con
pronombre manifiesta la posposición latina, lo cual corrobora la conclusión de Wanner (1987,
218–222). Cabe señalar que, según este autor, el empleo abundante de la posposición pronominal
en la Vulgata se debe a un calco sintáctico del hebreo bíblico.
uso de FCA (véase la sección 4), conviene centrarnos en la alternancia entre

estas posiciones pronominales y sus equivalencias latinas, excluyendo, por
tanto, los casos con pronombres antepuestos, tal como se hizo para el cruce de
variables en las Tablas 8 y 9.
Tabla 11: La alternancia pronominal entre futuros/condicionales con mesoclisis y posposición en

E6 contrastada con la Vulgata
Colocación pronominal en E6 Colocación pronominal en la Vulgata
Anteposición Sin pronombre Posposición Total
FCA con mesoclisis

Residual ajustado 1,3 4,1 –4,5
% en la Vulgata 75 % 70,9 % 47,7 % 55,9 %
FCS con posposición

Residual ajustado –1,3 –4,1 4,5
% en la Vulgata 25 % 29,1 % 52,3 % 44,1 %
Total
% en la Vulgata 3% 32,2 % 64,8 % 100 %
χ2 = 20,38; gl = 2; p < 0,0001; V = 0,227
Como indica la Tabla 11, cuando aparece en la Vulgata un pronombre pospuesto,

la alternancia entre FCA con mesoclisis y FCS con posposición parece a primera
vista bastante equilibrada, aunque es cierto que hay una ligera preferencia por
esta última posición: 52,3 % (134/256) vs. 47,7 % (122/256). Es llamativo que al
mismo tiempo haya una clara preponderancia de la construcción mesoclítica en
los casos en que la posposición está ausente en la Vulgata: en concreto, el uso del
FCA aumenta hasta el 70,9 % (90/127) y el 75 % (9/12) cuando el texto subyacente
no exhibe un pronombre o uno antepuesto. El coeficiente V de Cramér (0,227)
confirma que la fuerza de la correlación entre ambas colocaciones es más intensa
cuando solo se considera la alternancia entre los FCA con mesoclisis y los FCS
con posposición (cf. Tabla 10), a pesar de que sigue siguiendo relativamente
débil.
En la casilla correspondiente a la posposición traducida por un pronombre
pospuesto, el residual ajustado es muy alto (4,5). Podemos sacar la misma
conclusión para la celda que corresponde a las construcciones sin pronombres
traducidas por un FCA con mesoclisis, ya que el residual ajustado es 4,1. Con-
siguientemente, tanto los datos de la posposición latina como los de los casos sin
pronombre apoyan la hipótesis del priming sintáctico, según la cual, por un lado,
la exposición al pronombre pospuesto latino propiciaría la producción del mismo
orden pronominal en E6 y, por otro, la falta de un pronombre resultaría en la
posición pronominal canónica, que es la mesoclítica para los entornos sintácticos
considerados. Las casillas para la anteposición en la Vulgata, en cambio, indican
resultados compatibles con las frecuencias esperadas, aunque cabe apuntar el
tamaño reducido del recuento.
Resumiendo, la exploración de varios análisis cuantitativos indica que solo la
hipótesis restringida del priming sintáctico parece ser válida: existe efectivamente
una correlación entre la colocación pronominal latina y la castellana para la
alternancia en el uso de mesoclisis y posposición en el códice escurialense, pero
no para la colocación pronominal en general. Dicho esto, cabe reconocer que la
fuerza de esta asociación es relativamente débil. Además, siguiendo Bouzouita
(2013, 361–362), no excluimos la posible interacción del factor del modelo sub-
yacente con otros parámetros determinantes en la colocación pronominal de E6,
como veremos en breve.
6 Otros posibles factores

Si bien estadísticamente se avala la hipótesis de la influencia del texto subya-
cente, hay que reconocer que la fuerza de la asociación entre ambas distribu-
ciones pronominales es relativamente débil, por lo cual nos parecen necesarias
futuras investigaciones que indaguen otros posibles factores que interactúen con
esta variable. A continuación, enumeramos a vuelapluma varios parámetros que
también parecen jugar un papel en la alternancia entre los FCS con posposición y
los FCA con mesoclisis.
El factor de la influencia latina parece entrecruzarse con otro, ya mencionado
por Bouzouita (2013) pero todavía no explorado detalladamente, a saber, la
analogía, que, en realidad, también es un tipo de priming sintáctico, aunque en
este caso el efecto se manifiesta dentro de la misma lengua. A modo de ilustra-
ción, consideremos los pares mínimos en (34)–(35), en los cuales aparece en la
traducción escurialense, tras la conjunción coordinante e, un FCS con pronombre
pospuesto, quemarán la y alegraré los, si bien no hay una equivalencia latina. Sin
embargo, sí la hay en la parte antes de la conjunción, por lo cual podríamos
considerarlos como manifestaciones de analogía.
(34) Jeremías 37:8
a. [Vulgata] et redient Chaldei et bellabunt contra civitatem hanc et capient eam et

incendent Ø igni
b. [E6] e tornarán los caldeos e conbatrán esta ciudat e prendrán la e quemarán la
a. [Vulgata] et convertam luctum eorum in gaudium et consolabor eos et laetificabo Ø a

dolore suo
b. [E6] E tornará el so lloro en gozo e consolaré los e alegraré los de su dolor
Otras variables que parecen afectar la alternancia que nos ocupa son la función
del pronombre castellano y el verbo en la traducción. Específicamente, en nuestro
corpus los pronombres de los verbos pronominales son propensos a aparecer en
construcciones mesoclíticas (87/100), ya que la gran mayoría de ellos (92/100) no
tiene un pronombre en el texto subyacente. No es de extrañar que no siempre
corresponden con la construcción latina, ya que varios estudios, como Enrique-
Arias/Bouzouita (2013), demostraron que la frecuencia de uso de estos pronom-
bres aumenta considerablemente a lo largo de la historia del español. La tenden-
cia de estos pronombres a aparecer con mesoclisis se confirma si analizamos la
distribución sintáctica de los diferentes lexemas verbales: mientras que varios
verbos pronominales favorecen claramente el uso de FCA, como alegrarse (10/11),
convertirse (7/7) y secarse (6/7), otros, al contrario, aparecen principalmente con
FCS con posposición, como es el caso para decir (18/21), poner (7/8), quemar(se)
(8/11) y tornar (13/16). Esto hace surgir la pregunta si la repetición de la misma
construcción pronominal podría haber causado para ciertos verbos una rutiniza-
ción del patrón pronominal en cuestión, como por ejemplo la posposición para el
lexema decir.14 En otras palabras, la elección de cierta posición pronominal
podría también estar afectada por el verbo mismo. Otro posible factor, la variatio,
ya sugerido por Montgomery (1962), Matute/Pato (2010) y Bouzouita (2013),
también requiere un estudio pormenorizado (cf. el ejemplo (9)).15
Finalmente, queremos avanzar otra conjetura, aún no explorada en la litera-
tura: el uso de los FCS con posposición en E6 como manifestación diatópica.
Observemos los ejemplos en (36)–(38), que proceden respectivamente de un texto
coetáneo occitano, catalán y aragonés: como se puede ver, estas tres variantes
14 Es de notar que 3 de los 4 ejemplos de FCS con posposición del Poema de Mio Cid, así como el
único ejemplo del Liber Regum, también contienen el verbo decir.
15 Referimos el lector a Bouzouita (en preparación b) para más detalles.
vecinas exhiben la posposición pronominal detrás de un FCS. Aún más, también

presentan FCA con mesoclisis (Jensen 1994; Fischer 2002).16 Es decir, manifiestan
la misma alternancia que E6. Por ello, creemos, no es descabellado pensar que tal
vez la posposición con FCS y, por tanto, la gramaticalización de los FC puedan
haberse originado en otra variedad románica y paulatinamente se hayan difundi-
do por el contacto de lenguas, a grandes trazos, del este al oeste de la Península
Ibérica, hasta transcurrir gran parte de ella (véase Fernández-Ordóñez 2011 para
otros casos).17 Por falta de espacio, y no de interés, dejamos para un futuro trabajo
el estudio de esta hipótesis.
(36) [occitano] Aurias las tu vistas las vacas (Sainte Enimie, v. 411, ápud Jensen 1994, 245)
(37) [catalán] […] e yo vendré a vós e tot celadament amenar-vos he al castel e metré-us en
la cambra (Crònica de Bernat Desclot, 23.18, ápud Fischer 2002, 50)
(38) [aragonés] Et aqueilla bestia puesta assí en mano de fiel; si aqueill qui sostiene la
partida del reo diere fiador de dreito. & que presentara otro antor. et que la terra
manifiesta aqueilla bestia; dando aqueill fiador; será li rendida aqueilla bestia (Vidal
Mayor, fol. 264v)
7 Conclusiones
La evaluación cualitativa y cuantitativa de las tres hipótesis morfosintácticas
sobre el uso de la posposición pronominal con verbos FC en E6 nos lleva a concluir
lo siguiente. Primero, las construcciones pospuestas están restringidas sintáctica-
mente, ya que solo surgen en los contextos en que podemos encontrar FCA (o
posposición con otros tiempos verbales). De esto deducimos que el entorno
sintáctico no sirve como desencadenante para el uso del pronombre pospuesto
con FCS. En segundo lugar, como han sugerido Matute/Pato (2010), existe efecti-
vamente una correlación estadística entre la forma morfológica del verbo y la
colocación pronominal: en concreto, la síncopa favorece el empleo de FCS con
posposición. Sin embargo, estas variables solo están relacionadas intensamente
para los verbos de la 2ª y 3ª conjugación, puesto que las formas de la 1ª son
invariables, por lo cual esta hipótesis morfológica no logra explicar la mayoría de
los casos de nuestro corpus. Además, como vimos en la sección 5, la síncopa
también se manifiesta en los casos de FCS con anteposición y los FC sin pronom-
16 En cambio, los documentos franceses, incluso los más antiguos, como Les serments de
Strasbourg, solo exhiben FCS.
17 Como es bien sabido, el portugués europeo contemporáneo todavía mantiene el uso de los
FCA, mientras que el gallego y el asturiano solo admiten FCS con posposición en estos contextos
(González i Planes 2007).
bres. Todo esto nos hace reacias a considerar la síncopa como la causa del empleo
de la posposición con FCS. La tercera hipótesis examinada atañe a la imitación de
la sintaxis pronominal del modelo latino o, dicho en términos psicolingüísticos, a
los efectos del priming sintáctico, debido a la lectura de la colocación pronominal
latina, en el orden de pronombres castellanos. En efecto, como propuso Bouzouita
(2013), los diferentes análisis estadísticos demuestran que, por un lado, la exposi-
ción al pronombre pospuesto latino favorece la imitación del mismo orden pro-
nominal en E6 y, por otro, la falta de un pronombre en el texto subyacente induce
la posición pronominal canónica, que es la mesoclítica. La anteposición subya-
cente, en cambio, no parece ejercer una influencia estadísticamente destacable en
E6, posiblemente a causa de los pocos datos para esta posición pronominal. Como
vimos, la correlación es relativamente débil, lo que podría ser debido a la interac-
ción del parámetro de la sintaxis subyacente con otras variables que se entrecru-
zan, como la analogía, la función del pronombre, el verbo y la variatio. Final-
mente, planteamos otra conjetura, a saber, la influencia de las variantes
románicas vecinas en el empleo de la posposición con FCS en E6 y, más general-
mente, en la difusión de la gramaticalización de los FC en la Península Ibérica.
8 Corpus
Enrique-Arias, Andrés (dir.), Biblia Medieval. En línea en http://www.bibliamedieval.es
[9/8/2015].
Gago Jover, Francisco (ed.), Vidal Mayor. Textos medievales navarro-aragoneses. Digital
Library of Old Spanish Texts. Hispanic Seminary of Medieval Studies, 2013. En línea en
http://www.hispanicseminary/t&c/nar/index.htm. [9/8/2015].
9 Bibliografía
Agresti, Alan, Categorical Data Analysis, Hoboken, Wiley, 2013.
Bouzouita, Miriam, The Diachronic Development of Clitics in the History of Spanish, Tesis
doctoral, Londres, King’s College, 2008a.
Bouzouita, Miriam, At the Syntax-Pragmatics Interface: Clitics in the History of Spanish, in:
Cooper, Robin/Kempson, Ruth (edd.), Language in Flux: Dialogue Coordination, Language
Variation, Change and Evolution, London, College Publications, 2008b, 221–263.
Bouzouita, Miriam, Future Constructions in Medieval Spanish: Mesoclisis Uncovered, in:
Kempson, Ruth/Gregoromichelaki, Eleni/Howes, Christine (edd.), The Dynamics of Lexical
Interfaces, Stanford, CSLI Publications, 2011, 91–132.
Bouzouita, Miriam, Los futuros analíticos y sintéticos en la Fazienda de Ultra Mar, in: Montero
Cartelle, Emilio (ed.), Actas del VIII Congreso Internacional de Historia de la Lengua Españo-
la, vol. 2, Santiago de Compostela, Meubooks, 2012, 1631–1642.
Bouzouita, Miriam, La influencia latinizante en el uso del futuro en la traducción bíblica del
códice Escorial I.i.6, in: Casanova Herrero, Emili/Calvo Rigual, Cesáreo (edd.), Actes del
26é Congrés de Lingüística i Filologia Romàniques (València, 6–11 de setembre de 2010),
Berlin/Boston, de Gruyter, 2013, 353–364.
Bouzouita, Miriam, Left Dislocation Phenomena in Old Spanish: An Examination of Their Structur-
al Properties, in: Dufter, Andreas/Octavio de Toledo, Álvaro S. (edd.), Left sentence periph-
eries in Spanish: diachronic, variationist and typological perspectives, Amsterdam/Phila-
delphia, John Benjamins, 2014, 23–52.
Bouzouita, Miriam, Las dislocaciones a la izquierda en el español del siglo XIII: la accesibilidad
referencial, in: Castillo Lluch, Mónica/López Izquierdo, Marta (edd.), El orden de palabras
en la historia del español y otras lenguas iberorromances, Madrid, Visor, 2015, 235–278.
Bouzouita, Miriam, La accesibilidad referencial de dislocaciones a la izquierda en español
medieval, Boletín de la Real Academia Española, en prensa.
Bouzouita, Miriam, Linguistic Evidence for the Existence of the Pre-Alphonse Bible (Ms Escorial
I.i.6 and I.i.8), en preparación a.
Bouzouita, Miriam, Un análisis multivariante de la posposición con futuros y condicionales en el
códice escurialense I.i.6, en preparación b.
Castillo Lluch, Mónica, La posición del pronombre átono en la prosa hispánica medieval, tesis
doctoral, Madrid, Universidad Autónoma de Madrid, 1996.
Castillo Lluch, Mónica, Distribución de las formas analíticas y sintéticas de futuro y condicional
en español medieval, in: Echenique Elizondo, María Teresa/Sánchez Méndez, Juan (edd.),
Actas del V Congreso Internacional de la Historia de la Lengua Española: Valencia, 31 de
enero–4 de febrero 2000, vol. 1, Madrid, Gredos, 2002, 541–549.
Company Company, Concepción, Los futuros en el español medieval, sus orígenes y su evolución,
Nueva Revista de Filología Hispánica 34:1 (1985–1986), 48–108.
Company Company, Concepción, Tiempos de formación romance II. Los futuros y condicionales,
in: Company Company, Concepción (ed.), Sintaxis histórica de la lengua española: Primera
parte, la frase verbal, México, Universidad Nacional Autónoma de México/Fondo de Cultura
Económica, 2006, 349–422.
Eberenz, Rolf, Futuro analítico y futuro sintético en tres obras con rasgos coloquiales: el Corba-
cho, La Celestina y La Lozana Andaluza, in: Körner, Karl-Hermann/Zimmermann, Günther
(edd.), Homenaje a Hans Flasche: Festschrift zum 80. Geburtstag am 25. November 1991,
Stuttgart, Franz Steiner, 1991, 499–506.
Enrique-Arias, Andrés, Las traducciones de eius e illius en las biblias romanceadas. Nuevas
perspectivas para el estudio de la expresión de la posesión en español medieval, in: Döhla,
Hand-Jörg/Montero Muñoz, Raquel/Báez de Aguilar González, Francisco (edd.), Lenguas en
diálogo: el iberorromance y su diversidad lingüística y literaria. Ensayos en homenaje a
Georg Bossong, Frankfurt am Main/Madrid, Vervuert/Iberoamericana, 2008, 125–141.
Enrique-Arias, Andrés, La traducción del códice Escorial I.I.6 en el contexto de los romanceamien-
tos bíblicos medievales, in: Enrique-Arias, Andrés (ed.), La Biblia Escorial I.I.6. Transcrip-
ción y estudios, San Millán de la Cogolla, Cilengua, 2010, 67–86.
Enrique-Arias, Andrés/Bouzouita, Miriam, La frecuencia textual en la evolución histórica de los
clíticos pronominales en español, Iberoromania 77 (2013), 29–46.
Feng, Hao, et al., A Review of the Syntactic Priming: A Research Method in Sentence Production,
Open Journal of Modern Linguistics 4 (2014), 641–650.
Fernández-Ordóñez, Inés, La lengua de Castilla y la formación del español, Madrid, Real Acade-
mia Española, 2011.
Gómez Seibane, Sara, Notas sobre el futuro y condicional de indicativo en el País Vasco
tardomedieval, in: Gómez Seibane, Sara/Sinner, Carsten (edd.), Estudios sobre tiempo
y espacio en el español norteño, San Millán de la Cogolla, Cilengua, 2012, 91–120.
González i Planes, Francesc, Sintaxis de los clíticos pronominales en asturleonés, Ianua, Revista
Philologica Romanica 7 (2007) http://www.raco.cat/index.php/Ianua/article/view/81725
(consulta 9/08/2015).
Granberg, Robert A., Object Pronoun Position in Medieval and Early Modern Spanish, Tesis
doctoral, Los Angeles, University of California, 1988.
Jensen, Frede, Syntaxe de l’ancien occitan, Tubinga, Max Niemeyer, 1994.
Lema, José/Rivero, María Luisa, Inverted Conjugations and V-second Effects in Romance, in:
Laeufer, Chris/Morgan, Thomas (edd.), Theoretical Analysis in Contemporary Romance
Linguistics, Amsterdam/Philadelphia, John Benjamins, 1992, 311–328.
Loebell, Helga/Bock, Kathryn, Structural Priming Across Languages, Linguistics 41:5 (2003),
791–824.
Martín Aizpuru, Leyre, Sobre el futuro sintético y analítico en la documentación medieval de
Miranda de Ebro, in: Grande López, Clara/Martín Aizpuru, Leyre/Salicio Bravo, Soraya
(edd.), Con una letra joven: Avances en el estudio de la Historiografía e Historia de la
Lengua Española, Universidad de Salamanca, Ediciones Universidad de Salamanca, 2014,
169–176.
Matute Martínez, Cristina/Pato Maldonado, Enrique, Morfología y sintaxis en el códice Escorial
I.I.6, in: Enrique-Arias, Andrés (ed.), La Biblia Escorial I.I.6. Transcripción y estudios, San
Millán de la Cogolla, Cilengua, 2010, 45–65.
Montgomery, Thomas, El evangelio de San Mateo según el manuscrito escurialense I.I.6: texto,
gramática, vocabulario, Madrid, Real Academia Española, 1962.
Moreno Bernal, Jesús, La morfología de los futuros románicos. Las formas con metátesis, Revista
de Filología Románica 21 (2004), 121–169.
Nieuwenhuijsen, Dorien, La colocación de los pronombres átonos, in: Company Company,
Concepción (ed.), Sintaxis histórica del español, vol. 2, México, Fondo de Cultura Económica
& Universidad Nacional Autónoma de México, 2006, 1337–1404.
Octavio de Toledo y Huerta, Álvaro S., Futuros que se miran el ombligo: mesoclisis y anteposición
de formas no personales en la historia del español, in: Castillo Lluch, Mónica/López
Izquierdo, Marta (edd.), El orden de palabras en la historia del español y otras lenguas
iberorromances, Madrid, Visor, 2015, 141–233.
Rossi, Teresa María, Formas de futuro en un romanceamiento bíblico del s. XIII, Zeitschrift für
romanische Philologie 91 (1975), 386–402.
Staaff, Erik, Contribution á la syntaxe de pronom personnel dans le Poème de Cid, Romanische
Forschungen 23 (1907), 621–635.
María Jesús Torrens Álvarez y Hiroto Ueda
El nacimiento de la letra jota como grafía
consonántica
1
1 Introducción
La historia de la <j> como letra diferenciada de la , de la que durante siglos fue
variante, no ha sido trazada con precisión ni por los paleógrafos ni por los
historiadores de la lengua, a pesar de la atención que debería haber recibido de
unos y otros; de los primeros, porque se esperaría que entre sus objetivos
estuviera el establecimiento del momento, dependiendo del canon de escritura,
en el que el alógrafo «i larga» <j> alcanza su independencia y entra a formar parte
del abecedario como la letra «jota»; de los segundos, porque de la correcta
interpretación grafemática de los signos de escritura dependerá en gran medida
el llegar a un conocimiento de la fonética histórica. En este caso concreto,
recordemos que la , la <j> y la <y> alternaron y compitieron para la represen-
tación de la vocal, la semivocal/semiconsonante, la aproximante o mediopalatal
y la prepalatal, con repartos todavía no bien descritos, por lo que el interés es
máximo. Y es que la reconstrucción fonética de periodos para los que contamos
únicamente con testimonios manuscritos solo puede intentarse a partir del cono-
cimiento de los criterios que regían en aquel momento la selección gráfica,
criterios en buena medida condicionados por el canon paleográfico de la escritu-
ra. Por supuesto, esto no significa que la historia de la grafía corra pareja de la
historia de la lengua, y el que aquí estudiamos es un caso evidente de que el
nacimiento de una grafía suele ser bastante posterior al nacimiento del fonema
que aquella representa.
Los manuales de paleografía, en los que suelen describirse las formas que
pueden adoptar cada una de las letras del abecedario en cada tipo de escritura,
nada nos dicen sobre la cuestión que nos ocupa. Así, Millares Carlo (1983 [1929],
1 Este trabajo se ha desarrollado en el marco del Proyecto de Investigación del Ministerio de

Economía y Competitividad de España «El castellano norteño en la Edad Media. Estudio lingüís-
tico de la documentación cántabra y burgalesa (orígenes–siglo XIV)» (ref. FFI2012-36813), y con
la subvención del Ministerio de Educación, Deportes y Ciencias de Japón (código de investiga-
ción: 20520372).
María Jesús Torrens Álvarez: CSIC

Hiroto Ueda: Universidad de Tokio
300 María Jesús Torrens Álvarez y Hiroto Ueda
226) explica que en la escritura documental del siglo XV el trazo último de la ,
al igual que en las letras <ç, h, m, n, q, y>, se prolonga y curva, por lo que se
deduce que la <j> es precisamente esa variante con caído prolongado; pero al
ocuparse de la escritura particular en el siglo XVI y primera mitad del XVII
(p. 261) se refiere conjuntamente a las «letras» <I, J, M, N>, lo que puede
interpretarse como un reconocimiento de la emancipación de <j> respecto a 
ya en estas fechas. Casi un siglo después, al referirse Tamayo (2012, 407) a las
uniones entre letras de la escritura cortesana del siglo XV, nos dice que «[L]a i
adopta forma envolvente», como en ni o villa, mientras que al ocuparse de la
llamada procesal, salta de la <h> a la <j>, de la que nos dice: «[L]a j suele ser
bastante amplia; su caído, como el de la g, sale de la caja con holgura…» (430).
No sabemos si la omisión de (por carecer de interés paleográfico, suponemos)
y la descripción de <j> es un posicionamiento a favor de la existencia de esta
última como letra, o si simplemente se comenta la <j> por ser el alógrafo de 
que merece atención.
La primera aportación significativa para la identificación de la jota como letra
se debe a los filólogos Pedro Sánchez-Prieto (1998, 115) y Carmen Fernández
(1999). Esta última llama la atención sobre el reparto sistemático desde mediados
del siglo XIV de dos tipos de <j>, correspondientes a sendos valores fonéticos
diferenciados: una <j> cuyo caído se prolonga por debajo de la línea del renglón y
que, en alternancia con , se utiliza para representar la vocal /i/, y otra que,
además de prolongarse hacia abajo, se eleva ligeramente por encima de la línea
del renglón y que se emplea exclusivamente con valor consonántico de prepala-
tal, a excepción de en la palabra fijo. Según Fernández (1999, 258), se mantendrá
esta situación hasta el siglo XVII, cuando la <j> larga vocálica desaparezca a favor
de la y la <j> alta adopte la forma de nuestra actual jota.
En fecha más reciente, en su tesis inédita sobre la documentación cántabra,
Carmen Moral (2013, 319) observa que en Santo Toribio de Liébana, en las últimas
décadas del s. XIII y desde mediados de la centuria en Santillana, algunos
diplomas muestran claramente el empleo de <j> como grafía de consonante
prepalatal, sin por ello dejar de usar esta forma como alógrafo vocálico de .
Curiosamente, Moral (2013, 320) señala que dos documentos del mismo escriba,
de los años 1259 y 1264, presentan una alta en posición interior, y añade que la
mayúscula inicial muchas veces apenas se diferencia de la minúscula, al elevarse
muy poco por encima de la caja del renglón.
El propósito de nuestro trabajo es analizar los usos y repartos de las diversas
formas de lo que en principio fueron dos alógrafos de latina, esto es, la «i
breve» y la que llamaremos «i larga» <j>, y sus formas mayúsculas , <J> en
un corpus de documentación burgalesa de los siglos X–XIII, a fin de determinar
qué criterios, paleográficos, gráficos o fonológicos, rigen su empleo.
2 CORHEN y LETRAS
Para ello, hemos utilizado la versión paleográfica del Corpus Histórico del Español
Norteño (CORHEN), que estamos elaborando en el marco del proyecto citado en la
primera nota y siguiendo para su transcripción y presentación crítica los criterios
CHARTA (2013). Con él pretendemos ofrecer un número creciente de documentos
particulares (se excluyen, por tanto, los reales y los de contenido eclesiástico) de
las variedades castellanas del centro-norte peninsular, principalmente de las
actuales provincias de Burgos, Santander y norte de Palencia, así como algunos
del País Vasco. A pesar de la importancia que se concede al norte de Burgos y sur
de Cantabria como cuna geográfica del castellano desde que así lo expusiera
Ramón Menéndez Pidal (1986 [1926]), y a pesar también de que Burgos se
encuentre en el centro del continuum dialectal norteño, cuya variación interna
está siendo objeto de gran atención en los últimos años (nos referimos aquí muy
especialmente a los trabajos de Fernández-Ordóñez, por ejemplo, 2011 y 2012), lo
cierto es que la documentación medieval burgalesa no ha sido objeto de un
estudio sistemático, y paso previo a ese análisis es su nueva transcripción con
criterios filológicos.
En este trabajo hemos analizado algo más de 250 documentos del fondo del
monasterio benedictino de San Salvador de Oña, en el valle de La Bureba (norte
de Burgos), único fondo archivístico de la vieja Castilla que ofrece un volumen
significativo de diplomas originales del siglo XI en adelante, además de algunos
del X anteriores a la fundación del monasterio, lo que permite el estudio de la
escritura visigótica y de la carolina-gótica emanada, si no siempre del mismo
centro de producción, sí al menos de una misma área. Recordemos que, de la
actual provincia burgalesa, de los siglos X y XI solo se conservan los importantes
cartularios de los igualmente benedictinos Valpuesta y Cardeña, monasterios de
los que no nos han llegado diplomas originales, y que la siguiente orden monás-
tica en implantarse en la península fue el Císter, cuyas primeras fundaciones son
ya del último tercio del siglo XII.
San Salvador de Oña nos brinda, por tanto, la posibilidad de analizar una rica
documentación escrita en su mayor parte en el propio monasterio, aunque
algunos diplomas parecen redactados en localidades cercanas del norte castella-
no, lo que en principio nos permite suponer una homogeneidad mucho mayor
que si ampliamos el corpus a una geografía más vasta. Sin duda, los datos
obtenidos serán comparables con los ofrecidos por Moral (2013) sobre la docu-
mentación cántabra.
El arco cronológico, siglos X–XIII, comprende los dos grandes cánones pa-
leográficos medievales: la visigótica autóctona y la que llamaremos carolina-
gótica, proveniente de Francia, cambio que en nuestro corpus no se completa
hasta los años 30 o 40 del siglo XII.2 Es, asimismo, el periodo de ensayo y
formación de las primeras tradiciones de escritura romance, que solo se hacen
consistentes a partir de los años veinte o treinta del siglo XIII. De hecho, gran
parte de la documentación está escrita en lo que llamaríamos latín y también son
muchos los diplomas escritos en una lengua híbrida latino-romance, si bien un
estudio que pretenda describir los más antiguos usos del romance escrito solo
puede partir de la tradición latina precedente.
Pero si el trabajo que aquí presentamos puede enmarcarse en los estudios
de lingüística de corpus es gracias también al programa LETRAS, diseñado por
Hiroto Ueda específicamente para el análisis estadístico de datos lingüísticos.
Se trata de un paquete de programas que presentan matrices de distribución
numérica de las formas lingüísticas objeto de estudio, cuyo objetivo es observar
los fenómenos en un marco amplio de parámetros variables relevantes, tanto
de condiciones intralingüísticas (entorno textual, posición dentro de palabra,
coocurrencias, etc.), como extralingüísticas (espacio, tiempo, estilo, registro,
etc).3
Hemos dividido la secuencia cronológica en intervalos de 25 años, por
ejemplo, 925 abarca desde el año 925 hasta 949, aunque, hay que decir, del
siglo X son solo cuatro los documentos del corpus, por lo que para esta centuria
los datos no son suficientemente representativos. En cuanto a las grafías, hemos
respetado en la transcripción paleográfica las diferentes grafías de los manuscri-
tos, esto es, , <j>, <J> e , que podrá ser tanto la «i alta» característica de la
escritura visigótica, como los pocos casos en los que se emplee esta forma en la
2 Hay todavía un documento de 1150 (AHN, Clero Secular_Regular, car. 275, 3, CORHEN0041),
dado en Cordovilla la Real (Palencia), pero de autenticidad dudosa. Menéndez Pidal (1929, II,
848) y Álamo (1950, doc. 208) lo consideran original; no lo mencionan los paléografos que se han
ocupado de los diplomas en letra visigótica del fondo oniense, ni Ruiz Asencio (2008, 112), que
da como último original en visigótica uno de 1135, ni Vivancos (2011, 68), para quien el último
sería uno de la cancillería real fechado en 1144, pero sin que ninguno de los dos estudiosos
comente la posible falsedad del documento que nos ocupa, como sí hacen en otros casos. Sí
señala «importantes irregularidades diplomáticas» Montaner Frutos (2010, 1420–1421), que lo
analiza como pieza del que denomina Corpus Licinianum en relación con la materia cidiana. Dice
de él que su letra visigótica «parece auténtica», y apunta al año 1175 como terminus post quem de
su escrituración, por lo que a su juicio podría tratarse no de «una falsificación total, sino de un
documento manipulado».
3 Está disponible en la página web del servidor de la Universidad de Tokio, en sus versiones Excel:
<http://lecture.ecc.u-tokyo.ac.jp/~cueda/gengo/>,
y web: <http://lecture.ecc.u-tokyo.ac.jp/~cueda/letras/corhen/>.
En esta última ya se pueden aplicar las búsquedas sobre el corpus CORHEN, tanto en las trans-
cripciones paleográficas de los documentos (CORHEN-P), como en las presentaciones críticas
(CORHEN-C).
escritura carolina o gótica (al menos en nuestra documentación, solo en letras

capitales), en la que la mayúscula de se alarga por debajo de la caja del
renglón, convirtiéndose en una <J> de caído más o menos pronunciado y más o
menos curvo. Esto significa que <J> podrá ser, según la época y el tipo de
escritura, la mayúscula de , de <j> o de las dos. Por otra parte, hay que
recordar que el uso de las mayúsculas en la manuscritura medieval no siempre
obedecía a los mismos criterios que en la ortografía actual, por lo que los casos
de <J> no se corresponden necesariamente con la inicial de un nombre propio o
el comienzo de texto tras punto, sino que podía tener simplemente un valor
delimitativo de principio de palabra.
Dado que las cifras absolutas no permiten una verdadera valoración de los
fenómenos, ofreceremos la que denominamos «frecuencia por mil grafías»
(F.PMG), frecuencia relativizada resultante de la división de la frecuencia absolu-
ta (FA) entre la frecuencia total (FT) de las grafías ocurridas en la franja cronoló-
gica, y multiplicada por 1000 (F. PMG = FA * 1000 / FT). De esta manera podemos
comparar las frecuencias sobre la base común de mil grafías.
El volumen de grafías por cada 25 años depende principalmente del número y
la extensión de los documentos particulares conservados. Para que el lector se
haga una idea clara de las cantidades manejadas, ofrecemos a continuación las
cifras absolutas:
Tabla 1: Volumen absoluto de grafías por cada 25 años
Año 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
Graf. 3689 2254 1599 15185 3630 19210 9112 11363 19411 21732 60196 106690 39679 103234 89806
3 Tipos paleográficos
Antes de presentar los resultados de los análisis y su interpretación, conviene que
comentemos brevemente los tipos paleográficos y los repartos gráficos de , <j>,
, <J> más generalizados, con algunas imágenes que faciliten su reconocimiento
al lector. Es una información fundamental, dado que el arco cronológico estudia-
do incluye el paso del canon visigótico al carolino-gótico.
Como es bien sabido, la escritura visigótica era la empleada en la península
ibérica antes de la llegada de la escritura francesa o carolina, cuya introducción
suele ponerse en relación directa con la sustitución del antiguo rito mozárabe por
la liturgia romana desde mediados del s. XI, propiciada a su vez por la venida de
monjes benedictinos, cambio que se oficializa mediante el Concilio de Burgos
celebrado en el año 1080 bajo el rey de León y Castilla Alfonso VI. Por supuesto,
los dos cánones convivieron durante décadas y se influyeron mutuamente.
El reparto de las grafías estudiadas es notablemente distinto en una y otra
escritura. Características de la visigótica son la «i alta» , utilizada generalmen-
te en posición inicial o como glide interior (por ejemplo, IeIunius), y la <j> tras <t>
para marcar el carácter asibilado de la consonante dental seguida de yod (por
ejemplo, Intemtjo). El reparto entre <ti> y <tj> fue estudiado y destacado por
Loewe (1910) como criterio fundamental para la datación de los manuscritos
visigóticos, quien estableció tres periodos según el grado en que se respete esta
distinción gráfica, que al menos parece ser sistemática desde mediados del
siglo X a la primera mitad del siglo XII.
Figura 1: Escritura visigótica. AHN, Clero Secular_Regular, car. 269, n. 3r (año 944), CORHEN0002
Con algunas observaciones, como las de García Villada (1974 [1929]), quien señala
que «ya desde un principio aparece abitacjonis y alantj (fács. 46, l. I), preceptjonis
y tjbi (facs. 47, ls. I y 2)», la propuesta de Loewe se ha mantenido vigente hasta la
llamada de atención de García Larragueta (1990) sobre la datación muy adelan-
tada de numerosos códices a los que se habían aplicado los criterios de Loewe. En
fecha más cercana a la actual, Ruiz Albi (2004) ha analizado el reparto de <ti> /
<tj> en la documentación de la catedral de León atendiendo a los tres subtipos de
escritura visigótica (cursiva, semicursiva y redonda, v. Mendo 2001) y concluyen-
do, entre otras cuestiones particulares, que esta distinción gráfica se da solo en
un porcentaje del 60 %, y a partir de 950–975 (dependiendo del tipo).
En el apartado 4.2.2, compararemos estos resultados con los ofrecidos por la
documentación burgalesa estudiada.
Figura 2: Escritura visigótica. AHN, Clero Secular_Regular, car. 270, n. 19 (año 1065), CORHEN0016
En cuanto a las descripciones de la escritura carolina en la península ibérica,

pueden calificarse de exiguas, y son cada vez más los paleógrafos que, como Sanz
Fuentes (1991, 529), afirman que, para el caso de la escritura documental en los
reinos de Castilla y León, «habría ya, en principio, que partir de una base cierta
como es la casi inexistencia de carolina pura», dado que los tipos empleados son
fundamentalmente los gotizantes o gotizados, en la terminología de J. Stiennon.
De ahí que nosotros prefiramos hablar de «carolina-gótica» como si de un único
canon paleográfico se tratara, si bien es evidente que la progresiva fracturación
de los trazos y la acentuación entre gruesos y perfiles hace que al menos desde
mediados del XII ya solo pueda hablarse de escritura gótica.
Podemos establecer dos grandes subtipos de escritura carolina-gótica, una de
tendencia cuadrada, que se caracteriza especialmente por un dibujo grueso de
todos los trazos y por el menor desarrollo de caídos y astiles:
Figura 3: AHN, Clero Secular_Regular, car. 275, n. 11 (año 1156), CORHEN0045
Y un tipo redondo de astiles y caídos más pronunciados, representada de manera

paradigmática por la «minúscula diplomática» o «letra de privilegios», si bien
incluimos aquí variantes menos sentadas o caligráficas, resultado de una ejecu-
ción más rápida y cursiva:
Será en este canon paleográfico donde surja la jota como grafía consonántica,
tras un largo periodo en el que la <j> es alógrafo de . Los condicionamientos
paleográficos de la aparición de la i larga <j> en la escritura gótica libraria fueron
estudiados por Torrens (1995), pero todavía no se ha analizado su aparición en la
escritura documental. En la modalidad libraria, el alargamiento de en <j> es
temprano en el caso de la secuencia de dos íes, escrita <ij>, lo que responde al
deseo de evitar la confusión con una o una <n>; posteriormente, a medida que
la gótica se haga más cuadrada y compacta, la <j> se extenderá a su posposición a
otras letras de palo con la misma intención de evitar confusiones y ambigüeda-
des, y a lo largo del XIV su empleo correrá parejo de la tendencia a la cursividad
de la escritura. En cuanto a la competencia entre la i larga <j> y la alta <j>,
remitimos a lo ya dicho más arriba sobre Fernández (1999).
En 4.2.2 veremos en qué medida la aparición de <j> en la escritura documen-
tal obedece a estas mismas motivaciones.
4 Análisis
4.1 Las grafías
Comenzamos el análisis del corpus ofreciendo las cifras absolutas y relativi-

zadas del empleo de las cuatro grafías que nos van a interesar especialmente,
 e <j> en sus formas minúscula y mayúscula, así como de la i griega <y>, <Y>,
cantidades que incluyen tanto las apariciones en palabras de escritura latina
como romance:
Tabla 2a: Grafía (frecuencia absoluta)
Grafía 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
 326 189 139 1243 274 1503 830 1072 1811 1918 4662 8208 2349 3752 3226
 63 40 20 184 78 303 58 74 16 30 10 1 1
<j> 12 2 2 20 11 50 16 22 9 48 156 522 303 220 227
<J> 5 6 1 8 1 13 50 60 186 76 77 51
<y> 1 7 1 4 25 39 140 779 652
<Y> 1 3 1 5 15 14
Tabla 2b: Grafía (por mil grafías)
Grafía 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
 88.4 83.9 86.9 81.9 75.5 78.2 91.1 94.3 93.3 88.3 77.4 76.9 59.2 36.3 35.9
 17.1 17.7 12.5 12.1 21.5 15.8 6.4 6.5 .8 1.4 .2
<j> 3.3 .9 1.3 1.3 3.0 2.6 1.8 1.9 .5 2.2 2.6 4.9 7.6 2.1 2.5
<J> 1.4 .4 .3 .4 .1 .7 2.3 1.0 1.7 1.9 .7 .6
<y> .1 .4 .1 .2 .4 .4 3.5 7.5 7.3
<Y> .4 .8 .1 .1 .1 .2
Como se aprecia, la letra de documentación más escasa es <Y> a lo largo de los

cuatro siglos. La minúscula <y> tiene un uso igualmente esporádico hasta 1200, y
solo comienza a funcionar con plenitud a partir de 1225, esto es, en los textos
plenamente romances. Las formas <j> y <J>, esta en inferior frecuencia, se utilizan
ya en la visigótica, aunque enseguida veremos que con criterios distintos a los de
la carolina-gótica.
Para estudiar el valor fonético consonántico de estas grafías, hemos identifi-
cado las palabras que podemos considerar romances, pues solo para estas los
escribas pudieron sentir la necesidad de buscar formas específicas de represen-
tación diferenciadas del latín. El hibridismo latino-romance es, sin duda, la
característica más relevante de la manuscritura anterior al triunfo de la escritura
romance consistente, allá por la tercera década del siglo XIII, por lo que la
distinción entre estas «dos lenguas» resulta difícil y en gran medida artificial,
aunque metodológicamente imprescindible. El criterio aplicado para clasificar
una forma como romance ha sido que presente evolución fonética y gráfica
(conceio) o, de escribirse igual que en latín (maio ‘mayo’, iudicio ‘juicio’), que
aparezca en contexto vernáculo. Después, les hemos asignado una a una el valor
que le presuponemos, esto es, el prepalatal /ʒ/, característico del castellano, y el
palatal /ʝ/, fonemas consonánticos que no existían como tales en latín. Para el
fonema vocálico /i/, con mucha diferencia el más frecuente, no hemos distingui-
do entre latín y romance, por lo que las cifras se disparan.
Para el fonema palatal /ʝ/ es necesario señalar la imposibilidad de estable-
cer con certeza cuándo la semiconsonante se puede considerar plenamente
consonantizada. De hecho, casos como diuso junto a de yuso en la segunda
mitad del siglo XIII llevan a pensar que posiblemente no pueda hablarse toda-
vía de una consonante plena, sino más bien de una semiconsonante. No
obstante, dado que podemos considerar el sonido semiconsonántico, el aproxi-
mante y el palatal fricativo como estadios de un continuum de reforzamiento
articulatorio, optamos por clasificarlos todos como variantes del fonema /ʝ/. Los
resultados son los siguientes:
Tabla 3a: Fonema (frecuencia absoluta)
Fon. 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
/i/ 405 231 158 1446 367 1858 899 1163 1825 2038 4872 8855 2663 4142 3556
/ʝ/ 1 1 3 5 8 3 6 9 3 13 32 111 433 367
/ʒ/ 5 3 16 9 28 69 99 269 247
Tabla 3b: Fonema (por mil grafías)
Fon. 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
/i/ 109.8 102.5 98.8 95.2 101.1 96.7 98.7 102.3 94.0 93.8 8.9 83.0 67.1 4.1 39.6
/ʝ/ .3 .4 1.9 .3 .4 .3 .5 .5 .1 .2 .3 2.8 4.2 4.1
/ʒ/ .3 .3 .8 .4 .5 .6 2.5 2.6 2.8
Según los datos de las tablas 3a y 3b, el fonema prepalatal /ʒ/ aparece ya
representado a partir de 1050,4 si bien los casos son muy dudosos, pues se trata
de cinco apariciones de la forma Ioannes en un mismo documento de 1054
4 En un documento del año 1011 (CORHEN0006) se encuentran tres casos de grafías complejas
para /ʒ/: Cascaihares dos veces y Viauiallegio una, pero el manuscrito es en realidad copia de
mediados del s. XII, por lo que no lo tenemos en cuenta.
(CORHEN0012), diploma que del Álamo (1950, doc. 38) considera copia imitativa
del XII, si bien Vivancos (2011, nº 14) lo cree original. De todas formas, aun
tomándolo como original, la ausencia de <h> en el nombre Ioannes no parece
indicio suficiente para afirmar su carácter romance y no latino. En consecuencia,
los primeros casos seguros de empleo de una de las grafías estudiadas para la
representación del fonema /ʒ/ se dan en la franja de 1075, concretamente en el
apellido iulianez ‘Juliánez’ de un documento de 1096, CORHEN0022, y en el
topónimo espeIo ‘Espejo’ en otro diploma del mismo año presumiblemente escrito
en Álava, CORHEN0024. Sí es anterior la representación del fonema mediante la
grafía compleja <gg>: Naggara ‘Nájera’ en 1056 (CORHEN0013),5 dígrafo especial-
mente frecuente en la segunda mitad del siglo XII (Torrens 2014).
La representación inequívoca del fonema /ʝ/ es anterior a la de /ʒ/,
con casos como baIo ‘bayo’, aroIo ‘arroyo’ en 944 (CORHEN0003) o tamaio
‘Tamayo’, Io ‘yo’ en 993 (CORHEN0005), si bien, al igual que ocurre con el
fonema prepalatal, solo se hace abundante en los textos propiamente romances,
a partir de 1225.
4.2 Grafía <j>
Pero para obtener resultados sobre la cronología de estas grafías y los criterios,
fonológicos o no, de su uso, hemos de combinar los factores que creemos pueden
influir. Por nuestra familiaridad con los manuscritos y por trabajos previos, nos
parecen especialmente pertinentes para nuestros fines las combinaciones de las
variables: 1) grafía + posición dentro de palabra, 2) grafía + elemento colindante,
y 3) grafía + fonema.
4.2.1 Posición dentro de la palabra
Hemos tenido en cuenta tanto la posición inicial (#) o interior de palabra, como el
contexto, vocálico o consonántico:6
5 Ninguno de los historiadores y paleógrafos que han analizado el documento han cuestionado
su condición de original.
6 La C abrevia consonante y la V, vocal. El signo # indica corte o espacio en blanco, de tal manera
que, por ejemplo, la expresión #jC equivale a <j> en posición inicial de palabra seguida de
consonante.
Tabla 4: Grafía + posición dentro de palabra (por mil grafías)7
Pos. 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
#jC .07 .02 .02 .02
#jV .10 .02 .14 .55 .15 .33
Pos. 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
Cj# .07 .21 .22 .44 .46 .71 1.81 2.37 .73 .48
CjC 1.25 .13 .09 .08 .04 .55 .09 .26
CjV 3.25 .89 .86 3.03 2.39 1.21 .79 .10 .05 .08 .07 .20 .04 .47
Vj# .13 .35 .05 1.01 1.08 2.10 1.51 .16 .10
VjC .13 .33 .26 .21 .69 .51 .55 .53 .01 .07
VjV .03 .16 1.89 .93 .72
#JC 1.36 .26 .28 .36 .11 .41 .69 .40 .52 .33 .10 .02
#JV .15 1.29 .45 .92 1.46 .60 .41
Desde el principio, la <j> aparece entre consonante y vocal (CjV, 3.25 en 925) y,
como veremos más adelante, la mitad de los casos corresponden a la secuencia
<tj> más vocal en la escritura visigótica, donde la <j> representa una realización
asibilada de la consonante. Es destacable el uso de la <J> inicial de palabra más
frecuente y temprano ante consonante (#JC) que ante vocal (#JV), cuya apari-
ción se retrasa a 1125, lo que apunta con claridad al valor puramente delimitati-
vo de este signo. No ocurre lo mismo con la <j> minúscula inicial, posterior en
el tiempo tanto ante consonante como ante vocal, si bien en el primer caso
resulta, además, marcadamente excepcional. Ante vocal será en la mayoría de
los casos grafía consonántica, presumiblemente prepalatal, mismo valor fonéti-
co que posee en la posición VjV, esta más tardía (.16 en 1200 y ya 1.89 en 1225),
datos de por sí reveladores de la historia de la formación de <j> como grafía
consonántica.
Otro contexto prominente para el empleo de <j> vocálica es su posición final
de palabra (Vj#), muy probablemente con intención delimitadora.
7 A partir de aquí, a no ser que se señale lo contrario, prescindiremos de las cifras absolutas y
nos limitaremos a proporcionar la frecuencia por mil grafías.
4.2.2 Elemento colindante
Incluimos en este apartado, pero tratados separadamente, los dos contextos que se
han descrito como determinantes para la aparición del signo <j> (v. s. 3): la sucesión
a <t> en la escritura visigótica a fin de marcar el carácter asibilado de la consonante
y la sucesión a otra letra de morfología «de palo» en la escritura gótica.
Veamos primero en qué medida y en qué fechas se representa gráficamente la
distinción entre /t/ y la realización asibilada ante yod. Para ello nos interesan
especialmente las frecuencias de <ti> y <tj> seguidas de vocal (tjV), pero en
contraste con el contexto consonántico (tjC) y final de palabra (tj#):
Tabla 5: Grafía + elemento colindante: <tj> (por mil grafías)
t_ 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
ti# 1.36 1.77 1.12 1.93 .83 .55 1.32 .52 1.20 .66 1.00 .60 .27 .29
tiC 7.32 5.32 3.75 3.69 3.86 5.36 5.82 7.74 7.16 5.48 6.21 4.45 3.96 1.08 .99
tiV .27 1.58 1.38 .05 1.87 .88 1.49 1.84 1.64 1.12 2.60 1.36 1.43
tj# .21 .22 .26 .02 .08 .13
tjC 1.25 .13 .09
tjV 3.25 .89 .86 3.03 2.39 1.21 .79 .10 .05 .03
Aunque es cierto que la sistematicidad no es absoluta, las cifras indican la clara

preponderancia de <tj> ante vocal hasta 1075; en 1100 las frecuencias de <tj> y <ti>
se igualan y a partir de 1125 la presencia de <tj> es muy baja. Téngase en cuenta
que en 1125 son ya muchos los diplomas escritos en carolina-gótica, pero es
interesante que la secuencia <tj>, característica de la visigótica, todavía pueda
documentarse en el canon francés en 1225. Por otra parte, desde nuestros prime-
ros textos de mediados del siglo X encontramos <ci> en alternancia con <tj>,
grafía <ci> que será la que acabe triunfando en romance para la representación de
la sibilante cuando la yod se mantiene no absorbida (RATIŌNE > racion / razon).8
Todo hace pensar que los casos de <tj> en otros contextos son una extensión
desde el primigenio <tjV>, que se propaga primero a la secuencia <tjC> (presentes
ya en el último cuarto del siglo X) y posteriormente a <tj#>, contexto este en el
8 Apenas documentamos, en cambio, la <j> tras esta <c>, que solo hallamos cinco veces en el
nombre Sancjus (ahora Sancho) y dos en tocjus (totius, de TOTUS ), todos ellos en la franja de 1200
o 1225, es decir, en época tardía.
que perdurará por más tiempo, aún presente en la escritura gótica del segundo
cuarto del siglo XIII.
En cuanto a la escritura gótica, recordemos que en la libraria el alargamiento
de <j> obedecía inicialmente a razones puramente paleográficas, en concreto, al
contacto con otra o letras de morfología similar. En la siguiente tabla se
ofrecen los resultados de – <j> en contacto con letras de palo (P), esto es, <m>,
<n>, , y en contacto con letras que no sean de palo (N). Aun siendo igualmente
de palo, hemos tratado de manera separada la , no solo porque es mucho más
abundante que el resto de letras P, sino porque influye antes y de manera mucho
más acusada que las demás en la aparición de <j>. Por otra parte, hemos elimi-
nado del cómputo los numerales romanos (iij, iiij, vij, etc.), pues su alta frecuencia
distorsionaría los resultados de la secuencia <ij> final.
Tabla 6: Grafía + elemento colindante: letras de palo (por mil grafías)
E.col. 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
NiP 6.5 8.4 11.3 5.4 8.0 9.2 8.2 9.2 7.7 9.2 7.8 7.5 5.5 3.0 2.7
Nii .8 1.3 1.9 .5 .3 .7 .2 .7 .5 .1 .2
PiN 16.3 11.1 8.1 14.8 11.3 14.9 13.8 13.9 13.8 12.8 1.9 1.7 9.1 7.0 6.8
PiP 5.7 5.3 1.3 6.0 4.7 3.5 3.5 4.4 4.4 2.9 2.2 1.7 1.5 .8 .8
Pii .1
iiN .5 .9 1.9 .5 .3 .5 .3 .3 .1
iiP .1
NjP .5 .3 .4 .1 .0 .4 .0 .0
PjN .1 .2 1.1 .2 .7
PjP .1 .2
ijN .3 .3 .2 .7 .5 .5 .8 .8 .7
NyP .2 .4 .5
PyN .3
(*E.col.: Elemento colindante, P: letra de palo, N: letra no de palo)
En su análisis de – <j> en contacto con letras de palo en la documentación

cántabra, Moral (2013, 325–327) observa que, en los originales de Santo Toribio de
Liébana, el condicionamiento paleográfico de <j> está mucho más extendido que
en la documentación de Santillana y se pregunta si este distinto comportamiento
obedece a que se trata de tradiciones de escritura diferentes o es una cuestión
cronológica, pues mientras en Santillana abundan los diplomas de la primera

mitad de siglo XIII, la documentación lebaniega es casi toda posterior a 1250; sin
arriesgar una conclusión, comenta que «Si esto fuera así el alógrafo haría más
transparentes sus motivaciones contextuales conforme avanzara la centuria».
Muy importante es la diferencia cronológica entre la y el resto de letras de
morfología similar, pues <j> aparece primera y principalmente tras otra ya en
la franja de 1075, mientras que para hallarla en contacto con , <m>, <n> hay
que esperar a 1175, lo que puede entenderse como una extensión desde su
originaria posposición a . Es también significativo que el alargamiento se
produzca mayoritariamente cuando la sucede a una letra de palo, no cuando
la precede, y que la incidencia de <j> flanqueada por dos letras de palo sea,
además de tardía, muy baja, cuando podría esperarse lo contrario si la finalidad
de <j> es evitar posibles confusiones gráficas.
En cuanto a la cronología, los datos parecen mostrar cierta progresión en
favor de <j> detrás de letra de palo a medida que avanza el siglo XIII, si bien llama
la atención el paréntesis de 1250, que solo el análisis pormenorizado de los
documentos en cuestión, de su posible tradición de escritura o de la pertenencia a
determinados copistas nos podría ayudar a entender.
4.2.3 Grafía + fonema
Una vez vistos los condicionantes de naturaleza más puramente paleográfica,

llegamos al punto central del estudio, en el que nos ocupamos del reparto de estas
grafías según su valor fonológico. Recuperamos la grafía <y> a fin de poder estudiar
su reparto con – <j> como grafía consonántica, consonante que bajo la forma de
un único fonema /ʝ/ recoge la realización aproximante y la palatal fricativa, ambas
diferenciadas de la prepalatal /ʒ/. Los datos relativos son los siguientes:9
Tabla 7: Grafía + fonema (por mil grafías)
G F. 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
i /i/ 88.37 83.85 86.30 81.46 75.48 78.19 9.54 93.99 92.01 88.12 76.95 76.47 58.72 35.36 34.71
/ʒ/ .22 .82 .05 .38 .34 .20 .94 1.15
/ʝ/ .63 .20 .05 .33 .35 .46 .09 .12 .12 .28 .05 .07
9 Hemos de recordar al lector que los datos de la vocal/ /i/ incluyen formas latinas y romances,
mientras que los consonánticos son exclusivamente de la variedad romance.
G F. 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
I /i/ 16.81 17.30 11.26 11.99 21.49 15.15 6.26 6.34 .82 1.38 .17 .01 .01
/ʒ/ .26 .11
/ʝ/ .27 .44 1.25 .13 .36 .18
j /i/ 3.25 .89 1.25 1.32 3.03 2.60 1.76 1.94 .46 2.21 2.59 4.76 6.05 1.08 1.43
/ʒ/ .09 1.29 1.05 1.09
/ʝ/ .04 .30 .01 .01
J /i/ 1.36 .40 .28 .42 .11 .67 1.93 .91 1.53 .71 .13 .06
/ʒ/ .37 .08 .22 1.01 .62 .51
/ʝ/ .20
y /i/ .07 .36 .05 .14 .32 .22 1.61 3.56 3.41
/ʝ/ .05 .10 .14 1.92 3.99 3.85
Y /i/ .44 .83 .09 .03
/ʝ/ .10 .15 .16
Son varios los aspectos importantes que podríamos comentar. Ciñéndonos a las
formas de representar el fonema prepalatal, ya veíamos en 4.1. que la primera
grafía intencionadamente romance era la doble <gg> de Naggara en el diploma de
1056 anteriormente citado, mientras que , empiezan a utilizarse con este
valor en 1075, como ya hemos dicho. En cuanto a <J> inicial —que, recordemos, es
durante siglos mayúscula de —, todavía en 1200 se emplea mayoritariamente
con valor vocálico, mientras que con valor consonántico se utiliza por primera
vez más de un siglo después que , , en 1150, pero medio siglo antes que la
minúscula <j>, solo documentada a partir de 1200 y ya con fuerza desde 1225. De
hecho, y esto es fundamental, <j> supera a como grafía de prepalatal /ʒ/ desde
1225.
Puede parecer que la elección de <j> minúscula como grafía específica para el
fonema /ʒ/ es tardía si tenemos en cuenta que las primeras representaciones
inequívocas del fonema romance en nuestro corpus son de mediados del siglo XI,
pero aun así la <j> consonántica es al menos medio siglo anterior a la de la
documentación cántabra, que la presenta a mediados del siglo XIII en Santillana
y a finales en Liébana (Moral 2013, 319–320). Y desde luego, la cronología de <j>
prepalatal en Burgos adelanta notablemente la dada por Fernández (1999) para el
uso de la <j> alta, hasta ahora, único signo considerado antecedente directo de
nuestra jota. Hay que decir, no obstante, que a diferencia de la <j> alta, la <j> del
siglo XIII sigue utilizándose como grafía vocálica, cuestión muy importante, pues
es precisamente el mantenimiento de la <j> larga la razón que, como dice Fernán-
dez, explica la creación de <j> alta exclusivamente consonántica. Aun siendo esto
cierto, los datos del corpus muestran con claridad que en la escritura gótica de
1225 en adelante, la <j> consonántica es proporcionalmente muy superior a la <j>
vocálica, pues hay que tener en cuenta que los casos de fonema prepalatal, sea
cual sea su representación en la escritura, son infinitamente inferiores a los de la
vocal /i/.
Como grafía de aproximante o palatal /ʝ/, la <j> es minoritaria y se concen-
tra en unos pocos documentos comprendidos en la cincuentena de 1200–1225,
varios de los cuales no hacen uso de la <y> en ningún caso. En cuanto a <y>,
aunque se empleará en todo momento como signo de /ʝ/, desde que irrumpe
<y> en 1150, su crecimiento es imparable y puede decirse que a mediados del
siglo XIII es ya la única grafía con este valor en la documentación notarial de
San Salvador de Oña, reservándose para la prepalatal, con lo que se relegan
al olvido otros ensayos gráficos característicos de la segunda mitad del XII y
primeros años del XIII, como las complejas <gg>, <ggi> y la más abundante <gi>
(Torrens 2014, 20).
Volveremos en el apartado 6 sobre estas cuestiones para proponer las razones
de la elección de <j> como grafía de prepalatal y su posterior sustitución por <j>
alta antes de su definitiva reposición como la actual jota, pero veamos primero la
importancia que para esta historia tiene la elevada frecuencia de <J> mayúscula
inicial de palabra y, en estrecha relación, qué voces son las que se escriben con
estas grafías.
4.3 Grafía + fonema + posición
Con la intención de presentar toda la información que se ha mostrado relevante

para establecer las fechas y los contextos del nacimiento de <j> como grafía del
fonema prepalatal, recogemos en una única tabla los resultados de aplicar una
condición triple, que a las variables de grafía y fonema, suma la de la posición,
tanto del lugar —inicial o interior— dentro de la palabra, como de la anteposición
(y en interior, también posposición) a vocal o a consonante:
Tabla 8: <j> – <J>. Grafía + fonema + posición (por mil grafías)
G F Pos. 925 950 975 1000 1025 1050 1075 1100 1125 1150 1175 1200 1225 1250 1275
#jC .07 .02 .01
#jV .10 .02 .10 .30 .03 .01
Cj# .07 .21 .22 .44 .46 .71 1.81 2.34 .73 .48
CjC 1.25 .13 .09 .08 .04 .55 .09 .26

/i/
CjV 3.25 .89 .86 3.03 2.39 1.21 .79 .10 .05 .08 .07 .20 .04 .47
Vj# .13 .35 .05 1.01 1.08 2.10 1.49 .16 .10
VjC .13 .33 .26 .21 .69 .51 .53 .53 .01 .07
VjV .03 .08 .60 .01 .03
<j> #j# .08
#jC .02 .01
#jV .04 .13 .12 .31
/ʒ/ Cj# .03
Vj# .03
VjC .02
VjV .04 1.11 .91 .69
#jV .13 .01

/ʝ/
VjV .04 .18 .01
#J# .10 .28 .13 .30 .08 .01 .02
#JC 1.36 .26 .28 .36 .11 .41 .69 .40 .52 .33 .10 .02
/i/
#JV .15 .92 .37 .70 .30 .02 .01
<J> CJV .05
#J# .03 .03 .11

/ʒ/
#JV .37 .08 .22 .96 .58 .40
/ʝ/ #JV .20
Desde los primeros diplomas visigóticos, encontramos casos de <J>, que, curiosa-
mente, corresponden a una verdadera mayúscula tras pausa, frente a la grafía 
inicial de palabra, reparto que no había sido señalado por los paleógrafos. Así,
aparte de los Jn de la invocación Jn Dei nomine que abre la mayoría de los diplomas,
los dos únicos casos de <J> en un documento de 944 (CORHEN0002) son de Jta:
Transcripción paleográfica: {5} et mandabit. ad t*us suus rodanius abba. et belasconi abba.
et magnati palatii; ut fecissent ueritate Inter Ipsos Insidiatores. et fr<atre>s. {6} Jta et fac tum
e*t et Inuenerunt mendacium. InIpso conantjo. et quod Iam deguerat pac tum u<e>l regula.
per annos xxii [. . .] et accepim<us> deuobis In offertjone. kaballos duos. scalas duas. et
equas. x., Jta ut ex odierno die {11} u<e>l tempore abeatis teneatis et possideatis. Iuriq<ue>
u<e>s<tr>o Inperpetuo uindicetis ac defendatis.
Presentación crítica: {5} et mandabit ad tus suus Rodanius abba, et Belasconi abba et
magnati palatii ut fecissent veritate inter ipsos insidiatores et fratres. {6} Ita et factum e<s>t
et invenerunt mendacium in ipso Conantio et quod iam deguerat pactum vel regula per
annos XXII [. . .] Et accepimus de vobis in offertione caballos duos, scalas duas et equas
X. Ita ut ex odierno die {11} vel tempore abeatis, teneatis et possideatis iurique vestro in
perpetuo vindicetis ac defendatis.
En otro documento del mismo año, el único caso es Jdeo. Nuevamente, en un

diploma de 1011 y en su copia de mediados del siglo XI, las dos únicas <J> se dan
en la invocación inicial «Jn nomine domini» y empezando frase en el escatoloco,
«Jn mano de uelasco episcopo somus rouoratus». En 1045, «Igitur et enim. . .»,
etc.
Ya en los primeros diplomas de escritura carolina, la <J> extiende su uso a
mayúscula inicial de nombre propio o dignidad, como Johanni, Jmperatore o
JNfans en un documento de 1152 (CORHEN0042), independientemente del valor
vocálico o consonántico de la grafía.
La preferencia por el uso de <J> como consonante no se manifiesta hasta el
primer tercio del siglo XIII, como analizaremos enseguida en el apartado 5 al
ocuparnos de las palabras que con más frecuencia se escriben con estas grafías.
En cualquier caso, el empleo consonántico de la mayúscula precede al de la
minúscula, esta utilizada en posición intervocálica.
Creemos, por tanto, que el origen de la <j> consonántica se encuentra precisa-
mente en la <J> mayúscula de 1150, trazo mayúsculo de que, debido a la alta
frecuencia de palabras en las que esa <J> posee valor de /ʒ/, acabó provocando la
asociación entre la grafía y el fonema. A este hecho pronto se sumó la misma
conciencia de <j> consonántica en la palabra fijo, en la que el alargamiento es casi
obligatorio por ir detrás de otra , palabra esta que es especialmente frecuente
en la documentación y que hallamos por primera vez en nuestro corpus en 1208
(CORHEN0110).
5 Las palabras
Para no perdernos en la infinidad de palabras que nos proporcionarían los
listados completos de cada grafía según su valor fonético y posición, nos hemos
centrado en tres parámetros concretos: a) <J–> mayúscula inicial con función

consonántica, b) <j–> minúscula en idénticas condiciones, y c) <–j–> minúscula
consonántica en posición intervocálica. Los resultados son los siguientes:
a) Las palabras que presentan <J–> son las variantes de los nombres propios,
que aquí damos en grafía normalizada, Joán–Juan/a (89), Julián/a (5), Jorge (1),
Jaén (5), Junio (1) y el sustantivo Juro (7). Mientras los antropónimos con <J–> se
emplean desde 1150, esto es, desde la definitiva implantación de la escritura
carolino-gótica, los siete casos de Juro se dan todos en un mismo documento
fechable en 1229 (CORHEN0138).
Hay que señalar que no podemos estar seguros de que ante la vocal /u/ la
<J–> represente realmente el fonema prepalatal y no el aproximante o palatal,
porque la alternancia /ʒu/ – /ʝu/ en posición inicial está ampliamente documen-
tada y estudiada (Pascual 1981; Penny 1988; Torrens 2002, 135–140). De hecho, en
nuestro corpus la forma Yuan supera con creces a Juan, mientras que la variante
con /o/, Joán, nunca presenta <y>.
b) La <j–> minúscula inicial la encontramos, al igual que la mayúscula,
principalmente en los nombres propios, ya sea en los antropónimos, johan (12),
juliane (3), jacobj (1) y judas (1), en el topónimo jahen (1) y en los nombres de los
meses junio (2) y julio (1). Se emplea, asimismo, en la familia del lat. ius, iuris: juro
(3), jurado (2), juez (1), juyzio (1) y judgo (1), además de en el adverbio jamas (3, en
el mismo documento). Contrasta con <J–>, en cambio, en las fechas de aparición,
más retrasadas, pues los primeros antropónimos con <j–> minúscula se dan en
1200 y jamas y los sustantivos de ius, iuris en 1250 y, sobre todo, en 1275, con la
única excepción de juro, dos de las tres veces en el mismo documento de 1229 que
traía los siete casos con mayúscula o letra alta. A pesar de este ligero retraso en su
aparición, como veíamos en la tabla 2.4, <j–> se convierte rápidamente en la
grafía de la prepalatal.
c) En cuanto a la posición intervocálica, también hay que esperar a los inicios
del siglo XIII para encontrar <–j–>. El porcentaje de fijo/a es abrumador, palabra
que dejamos ahora mismo al margen al no poder asegurar que el uso de <–j–>
responda a razones fonológicas y no exclusivamente paleográficas, si no es a
ambas, como ya hemos apuntado. Aparte de fijo, tenemos añejo, Avajas, Cornejo,
concejo, majuelo, mujer, Noja, Rojas, Tejada, Vallejo, palabras que por su variedad
son, a nuestro entender, muy importantes a la hora de establecer una hipótesis
sobre el nacimiento de la jota consonántica, al tratarse de casos inequívocos de
empleo de <–j–> por razones fonológicas y no paleográficas. A este mismo criterio
obedecen los casos de grafía compleja <–ij–>, como tedeija ‘Tedeja’, ualleijo
‘Vallejo’, coija ‘coja (coger)’ o conceijo ‘concejo’, grafía que parece tener su origen
en la analogía con la abundantísima fijo, en la que confluyen paleografía y
fonología para justificar el empleo de <–j–>.
6 Conclusiones sobre el nacimiento de la letra jota

Tras todos los datos analizados, podemos concluir que el origen de la jota
consonántica con valor prepalatal se encuentra en la <J> mayúscula inicial de la
escritura carolina-gótica que, tras siglos de uso restringido a la mayúscula indica-
dora de inicio de oración en la visigótica, en el canon carolino comienza a
emplearse como mayúscula en nombre propio, como Joán, Jorge, Julián, todas con
secuencia <J+V>, con el consiguiente valor consonántico de <J> a partir de 1150.
Esta asociación entre <J> y la consonante prepalatal se afianzará a comienzos del
XIII, cuando la <J> se extienda a palabras comunes, mayoritariamente Juro,
Jurado, formas de Judgar. . .
Por su parte, <j> minúscula, que en la escritura visigótica se había empleado
preferentemente tras <t>, desde los comienzos de la carolina-gótica aparecerá en
la secuencia <ij>, tanto en numerales como en voces como alijs, filijs y, ya
romance, en el frecuentísimo fijo, palabra en la que <j> es grafía de prepalatal. La
asociación de <ij> en fijo, originalmente debida a razones paleográficas, al valor
fonológico de consonante prepalatal se manifiesta en la elección de <ij> como
grafía compleja para /ʒ/ en tedeija, ualleijo, coija, conceijo. . . La definitiva confi-
guración de la jota consonántica la encontramos desde 1200 en casos como uiejo,
concejo, mujer, majuelo, roja, cornejo, uallejo, annejo. . ., voces en las que no existe
el condicionamiento paleográfico. Este uso en la documentación burgalesa co-
mienza en el primer cuarto del siglo XIII y es, por tanto, varias décadas anterior al
que se da en Cantabria, pero posiblemente se trate de una característica del norte
castellano.
La jota consonántica no implica, sin embargo, la desaparición de <j> por
motivos paleográficos de contacto con o letras de palo. A mediados del
siglo XIII coexisten la <j> prepalatal y la variante paleográfica. La posibilidad del
doble valor, consonántico y vocálico, de <j> en la escritura castellana hará que se
ensayen nuevas formas, y ya en el siglo XIV triunfará la <j> alta y baja a la vez,
exclusiva para la representación del fonema /ʒ/, que podría ser tanto un estira-
miento de <j> minúscula como una reducción de la <J> mayúscula para sacar su
correlato minúsculo.
Pero la <j> consonántica, recién nacida en 1200, convive todavía con la 
con función consonántica. Cuando termine el uso de la <j> como variante paleo-
gráfica y cuando la consonántica deje de existir, nuestra jota consolidará su
valor consonántico al lado de la vocálica, con una distinción funcional clara
entre las dos. Pero para que este reparto se produzca, todavía habrán de pasar
varios siglos.
7 Bibliografía
Álamo, Juan del, Colección diplomática de San Salvador de Oña, Madrid, CSIC, 1950.
CHARTA – Corpus Hispánico y Americano en la Red: Textos Antiguos, dirigido por Pedro
Sánchez-Prieto Borja, criterios de edición disponibles en: <http://www.charta.es/criterios-
de-edicion-/>.
CORHEN – Corpus Histórico del Español Norteño, dirigido por María Jesús Torrens Álvarez,
<http://corhen.es/>; con aplicación del programa LETRAS, de Hiroto Ueda, en:
<http://lecture.ecc.u-tokyo.ac.jp/~cueda/letras/corhen/>
Fernández López, M. Carmen, Las formas de la i larga (j): nomenclatura y datación, Signo:
revista de historia de la cultura escrita 6 (1999), 253–267.
Fernández-Ordóñez, Inés, La lengua de Castilla y la formación del español. Discurso de ingreso
en la Real Academia Española, Madrid, Real Academia Española, 2011.
Fernández-Ordóñez, Inés, El norte peninsular y su papel en la historia de la lengua española,
Gómez Seibane, S./Sinner, C., Estudios sobre tiempo y espacio en el español norteño, San
Millán de La Cogolla, Cilengua, 2012, 23–68.
García Larragueta, Santos, Consideraciones sobre la datación de códices en escritura visigótica,
in: Actas del VIII Coloquio del Comité Internacional de Paleografía Latina, Madrid, 1990,
51–58.
García Villada, Zacarías, Paleografía española, I. Texto, Barcelona, El Albir, 1974 [1929].
Loewe, Elias Avery, Studia Palaeographica. A contribution to the history of early Latin minuscule
and to the dating of Visigothic manuscripts, in: Philosophisch-philologische und historische
Klasse, 12, 1910, 16–87.
Menéndez Pidal, Ramón, Orígenes del español: Estado lingüístico de la Península Ibérica hasta
el siglo XI, Madrid, Espasa-Calpe, 1986 [1926].
Menéndez Pidal, Ramón, La España del Cid, Madrid, Plutarco, 1929.
Mendo Carmona, Concepción, La escritura de los documentos leoneses en el siglo X, Signo:
revista de historia de la cultura escrita 8 (2001), 179–210.
Montaner Frutos, Alberto, El Apócrifo del abad Lecenio y el auge de la materia cidiana, in:
Fradejas Rueda, José Manuel, et al. (edd.), Actas del XIII Congreso Internacional de la
Asociación Hispánica de Literatura Medieval, Valladolid, Ayto. de Valladolid/Universidad
de Valladolid, 2010, 1407–1426.
Moral del Hoyo, Carmen, Documentación medieval de Cantabria: estudio lingüístico (siglo XIII),
tesis doctoral inédita, Bilbao, Universidad de Deusto, 2013..
Millares Carlo, Agustín (1983 [1929]), Tratado de paleografía española, 3 vol., Madrid, Espasa-
Calpe, 2013.
Pascual, José Antonio, La lengua del Registro Antiguo: algunos problemas gráficos y fonéticos,
in: García Sanz, A./Martín, J.L./Pascual, J.A./Pérez Moreda, V., Propiedades del Cabildo
segoviano, sistemas de cultivo y medios de explotación de la tierra a fines del s. XIII,
Salamanca, Universidad, 1981, 169–184.
Penny, Ralph, The Old Spanish Graphs «i», «j», «g» and «y» and the Development of Latin
Ge,i- and J-, Bulletin of Hispanic Studies LXV (1988), 337–351.
Ruiz Albi, Irene, La distinción gráfica de «TÍTJ» en los documentos visigóticos del archivo de la
catedral de León, in: Orígenes de las lenguas romances en el reino de León: siglos IX–XII,
León, Centro de Estudios e Investigación «San Isidoro»/Caja España de Inversiones/
Archivo Histórico Diocesano, vol. 2, 2004, 439–456.
Sánchez-Prieto Borja, Pedro, Cómo editar los textos medievales. Criterios para su presentación
gráfica, Madrid, Arco/Libros, 1998.
Sanz Fuentes, M. Josefa, Paleografía de la Baja Edad Media castellana, Anuario de estudios
medievales 21 (1991), 527–536.
Tamayo, Alberto, Historia de la escritura latina e hispánica, Gijón, Ediciones Trea, 2012.
Torrens Álvarez, María Jesús, La paleografía como criterio de datación. La escritura denominada
«littera textualis», Cahiers de Linguistique Hispanique Médiévale 20 (1995), 345–380.
Torrens Álvarez, María Jesús, Edición y estudio lingüístico del Fuero de Alcalá (Fuero Viejo),
Alcalá de Henares, Fundación Colegio del Rey, 2002.
Torrens Álvarez, María Jesús, Usos gráficos del castellano burgalés de los siglos X–XIII: las
grafías complejas, in: Almeida, Belén/Díaz, Rocío (edd.), Estudios de historia de la ortogra-
fía española, Lugo, Axac, 2014, 9–21.
Vivancos, Miguel C., Documentación en visigótica del Monasterio de San Salvador dee Oña:
originales y copias, in: Sánchez Domingo, Rafael (coord.), Oña. Un milenio. Actas del
Congreso Internacional sobre el Monasterio de Oña (1011–2011), s.l., Fundación Milenario
San Salvador de Oña, 2011, 52–81.
Mª Carmen Moral del Hoyo
El castellano en los orígenes del cambio
gramatical: el pretérito imperfecto de la
2ª y 3ª conjugación (–ié / –ía)
1 Estado de la cuestión1
Es conocido que, según describen las gramáticas históricas, el modelo dominante
en castellano durante el siglo XIII para el pretérito imperfecto de los verbos de 2ª
y 3ª conjugación distribuye de forma más o menos regular dos variantes desinen-
ciales:2 –ía es preeminente en la primera persona singular frente al resto, en las
que se prefiere –ié (Menéndez Pidal 1968, §117; Alvar/Pottier 1983, 241; Lloyd
1993, 574–579; Azofra 2010, 120; García-Macho/Penny 2013, 70).
En realidad, el doble paradigma «is characteristic of all three varieties of Old
Spanish spoken in the Christian zone: Leonese, Castilian, and Navarro-Arago-
nese, to the complete exclusión of Galician-Portuguese» (Malkiel 1959,469), pro-
vocando una brecha en lo que, de otra manera, dibujaría un mapa homogéneo al
mantenerse el modelo único –ia tanto al occidente como al oriente y constituyen-
do una anomalía entre las lenguas romances, cuyos modelos de imperfecto
derivan del etimológico (Malkiel 1959, Posner 1961, Lausberg 1982, Imhoff 2000).
Durante las primeras décadas del siglo XX, se discutió ampliamente sobre la
casuística que provocó el surgimiento de un paradigma en –ié (especialmente,
entre quienes han teorizado sobre causas fonéticas con quienes han planteado
causas morfológicas) así como la resistencia de la primera persona para plegarse
al mismo. Pero mucho menos cuestionada ha sido la posibilidad de una divergen-
cia diatópica tanto en su origen como en su difusión, toda vez que, como hemos
mencionado, se asume su presencia y uso en los dialectos centrales de forma
coetánea.
1 Este trabajo se enmarca en el Proyecto FFI2012-36813, «El castellano norteño en la Edad Media.
Estudio lingüístico de documentación cántabra y burgalesa (orígenes–siglo XIV)». Que haya
alcanzado su versión final tengo que agradecérselo a Mónica Castillo Lluch, por la inmensa
generosidad con la que me acogió en Lausana.
2 La primera sistematización de este reparto se debe a un pionero trabajo de Hanssen (1894) al
analizar la poesía de Berceo.
Mª Carmen Moral del Hoyo: Universidad de Cantabria

El castellano en los orígenes del cambio gramatical 323
Las tesis foneticistas, al auspicio de la corriente neogramática, fueron las que

focalizaron los inicios de la discusión sobre la irrupción de –ié como el efecto de
una ley fonética que debía explicar el cambio vocálico (a > e) y la trasposición
acentual.3 Estas tesis van desde generalizar esta tendencia a todos los hiatos con
vocal alta (Hanssen 1913), hasta situar el origen en la relajación de la secuencia
vocálica de los auxiliares proclíticos (Gassner 1897), conceder a determinadas
consonantes finales (–s, –n, –t) la capacidad de provocar el cambio de la vocal
precedente a > e (Hanssen 1897) o, una de las que más eco han recibido en los
manuales de gramática histórica del español posteriores, proponer la acción
asimilatoria de –í provocando el cierre a > e y la subsiguiente diptongación4
(Menéndez Pidal 1968, §117).
Avanzado el siglo XX, en 1959, Malkiel publica su imprescindible Reconsid-
eration of the Old Spanish Imperfect, en el que desgrana la secuencia cronológica
de todas estas aportaciones (y sus críticas) para hacer notar cómo, frente a este
grupo mayoritario, hubo dos autores (Ford 1906, Lang 1911) que plantearon otra
dirección argumental apenas desarrollada pero de un enorme potencial explicati-
vo; la analogía morfológica, en tanto otros tiempos del pasado, fundamental-
mente el pretérito, presentaban –ié enlas desinencias (–iémos, –iéstes,…).
Reformulando esta teoría, el origen del extraño paradigma en –ié del castella-
no se inicia, para Malkiel, porque, una vez extendido el diptongo –iemos al
pretérito débil (por expansión analógica de diemos, con diptongo etimológico),
este «moves precariously close to imperf. vendíamos which […] [most speakers]
were bound to pronounce vendiámos, almost in alegro speech». Dado que no
existía una nítida distinción entre ambos tiempos,5 ambas formas pudieron ser
3 El trabajo de Malkiel (1959) es una revisión absolutamente exhaustiva de todas las aporta-
ciones teóricas hechas sobre el problema hasta la fecha de su publicación; sólo esbozamos aquí
algunas de las más señaladas. Imhoff (1996; 1998; 2000; 2007) o Henriksen (2008; 2009) añaden
la de otras propuestas recientes.
4 No es objeto de este trabajo ocuparnos de la discusión sobre la naturaleza tautosilábica o
heterosilábica de esta secuencia (la detalla también Malkiel 1959) pero, recientemente, Pla
Colomer (2013) ha realizado un estudio de la pronunciación castellana medieval a través de la
escansión métrica de los poemas que le conduce a justificar como diptongada –ié y como bisílaba
–ía (excepto formas de compromiso).
5 El uso del imperfecto con valor de indefinido en el Mio Cid es analizado por Menéndez Pidal
(1944, 352) y Lapesa (1981, 224); ante la posibilidad de extrapolarlo como hecho de lengua
general, se pregunta Moreno de Alba (2006, 34–35) si «este empleo del imperfecto como
indefinido puede quizá explicarse mejor como un rasgo estilístico de la poesía épica y lírico-
épica, frecuente en los siglos XII al XV, que como un uso característico de determinada época de
la lengua española». No obstante, Sanchis (1991, 493) señala también en la Fazienda de Ultramar
cómo «hay una gran vacilación en el uso del pretérito perfecto simple y del imperfecto. Con
mucha frecuencia, se emplea uno por otro».
324 Mª Carmen Moral del Hoyo
intercambiables en numerosos contextos lo que, coadyuvado por el estrecho

margen fonético que los diferenciaba, terminaría por asociar el modelo –iémos al
imperfecto, seguramente actuando después sobre la 5ª persona y, más tarde,
sobre la 6ª y la 3ª.6
Desde entonces, no se han cuestionado las principales líneas argumentales y
la mayoría de las gramáticas históricas del español se ha limitado a posicionarse,7
de modo que, cuatro décadas después de la tesis de Malkiel, Imhoff (1998, 243)
declara: «[g]iven the non-etymological and uniquely Hispanic nature of the devel-
opment […] it is surprising that so little scholarly attention has been devoted to it
over the last forty years».
Así, este autor (Imhoff 1998; 2000a; 2000b; 2004; 2007) vuelve a poner el
foco sobre la génesis del proceso e introduce un aspecto desatendido en la
bibliografía: la posible relación entre el desarrollo del imperfecto castellano –ié
y un contacto dialectal con las hablas pirenaicas desde un enfoque variacional
según el que
a paradigm which recognizes manifest heterogeneity as a natural result of dialect contact

can focus on characterizing and correlating the mechanisms which affect diffusion and,
thereby, effect change. This theoretical position […] obtains for the pre-literary period of Old
Spanish associated with the Pyrenean region with respect to the morphology of the simple
past tense paradigms (Imhoff 2000a, 393).8
A través de un estudio de corpus, Imhoff confirma, en los documentos que

representan el aragonés de la etapa primitiva, una divergencia morfológica neta
entre el paradigma del imperfecto, formado sobre la solución etimológica –ía, y el
del perfecto, formado por la también etimológica –ié,9 diferencia formal que, a su
juicio, evidencia la estabilidad, ya en esta época, de una diferencia funcional
6 Además, esto justifica que en gallego-portugués, donde el pretérito débil no diptonga, no se

produzca la expansión de –ié al imperfecto.
7 Como señala Cano Aguilar (2004, 82–83), la tesis de Malkiel «no tuvo repercusión en la
morfología hecha en España», v.g. para Alvar/Pottier (1983, 241, n. 112), la tesis de Menéndez
Pidal es la adecuada y«las explicaciones de otros investigadores carecen de fundamento». No
opina así Lloyd (1993, 574–579).
8 En este sentido, hay una sólida corriente que argumenta el importante papel de la koineización
en la formación y posterior expansión del castellano a través de un detallado análisis cronológico
y geográfico de cambios lingüísticos que dan lugar a procesos de simplificación y nivelación
dialectal surgidos, precisamente, por la variación de los hablantes que integran esa(s) koiné(s)
(Penny 1995; 2000; Tuten 2003).
9 Menéndez Pidal (1950, 363), Buesa/Castañer (1994), López Bobo (1996, 52), Imhoff (2004;
2007). Hay excepciones al uso de –ié en la 3ª persona de los pretéritos débiles de la 2ª y 3ª
conjugación en estos textos pero, según Imhoff, son muy pocas.
entre ambos tiempos (sostenida hasta la primera mitad del XIV). Sin embargo, en
castellano «the regularization of […] –ie imperfect did not take place until the
literay period», lo que se suma a dos procesos tradicionalmente aceptados,
«semantic convergence between the imperfect and preterit tenses and the high
degree of variation during the pre-literary period» (Imhoff 2000a, 391) para, al
menos, plantear la posible influencia de variables extralingüísticas en el desarrol-
lo castellano del paradigma novedoso.
Lo que propone Imhoff puede, pues, complementar la tesis de Malkiel: si,
como pretende, el contacto lingüístico es un factor preponderante en el origen del
nuevo modelo de imperfecto en castellano, la presencia de un paradigma mucho
más desarrollado en –ié para el pretérito en aragonés (y variantes conexas en las
hablas pirenaicas), sería otro desencadenante a sumar respecto de lo que, por
causas internas como la analogía morfológica y regularización paradigmática, ya
apuntaba en la misma dirección en castellano, a saber, la generalización del
diptongo en las desinencias del pretérito.
En un trabajo posterior (Imhoff 2004) se muestra más tajante en su tesis:
El origen del imperfecto en –ie no se encuentra ni se encontrará sino en la región pirenaica.

Pero, insisto en que no hay por qué justificar una transferencia directa […] Nada nos
sorprende que con tan prolongado contacto entre estos y otros dialectos —inclúyanse en la
lista al menos el navarro, el aragonés, el occitano y el castellano, sin mencionar el vasco—
se produjera una convergencia formal y funcional entre los pasados simples. Pero la
hegemonía lingüística castellana de la que tanto se ha escrito, no se aplica a la época
antigua, al menos en cuanto a dichas formas del pasado simple respecto al aragonés antiguo
y la región pirenaica (Imhoff 2004, 234).
Lo que parece claro es que, si los textos aragoneses del siglo XIII ofrecen el uso de
–ía como forma exclusiva del imperfecto y, en los mismos textos, el pretérito
exhibe –ié sin apenas excepción, el hecho de que haya una proximidad entre
–iémos y la variante oral –iámos del imperfecto, que presupondríamos también
en esta variedad,10 no actúa como causa aislada sin la convergencia (¿influen-
10 Suponer que la señalada «repugnancia por los esdrújulos» del aragonés (Alvar 1953, 145),
resuelta a favor de una acentuación paroxítona, fuera coadyuvante para una mayor confluencia
de ambas formas en estas hablas, se enfrenta a la posibilidad de que la generalización de este
rechazo ha podido darse «cuando menos en el Alto Aragón […] en fechas no muy antiguas, pues
esa tendencia no ha llegado a imponerse totalmente en los topónimos» (Vázquez Obrador 2000,
22) a lo que debemos sumar el hecho de que «quedan fuera de este comportamiento las primeras
personas del plural de los pretéritos imperfectos de indicativo y subjuntivo, así como de los
condicionales» (Vázquez Obrador 2011, 147, n.2).
cia?)11 de ambos tiempos, que pasa, entonces, a ocupar una posición destacada
en el origen del cambio.
Del mismo modo, habrá que estudiar detenidamente qué ocurre en leonés
porque, si la tesis de Imhoff es cierta, sería esperable que el paradigma –ié se
retrasara respecto de su estabilización en castellano y fuera cuantitativamente
menos significativo, toda vez que suponer en este ámbito occidental un manteni-
miento estricto de la distinción indefinido/imperfecto como la aducida para el
aragonés no parece posible, es más, «the influence [on the imperfect by the
preterite] was likely to be stronger in the West where the preterite forms are more
firmly rooted in the language» (Posner 1961, 48).
Por eso, si el paradigma –ié en leonés muestra una cronología y una frecuen-
cia paralelas al castellano, habrá que dilucidar si las causas estructurales que
conducen al empleo de –ié son, entonces, las mismas y considerar si la influencia
por contacto con las hablas pirenaicas queda relativizada.
Otra cosa es que Imhoff tenga razón en cuestionar la «hegemonía lingüística
castellana» en este aspecto de la morfología verbal si se comprueba que, además
del aragonés, no todo el leonés o no con idéntica cronología se aviene al modelo
–ía (1ª)/–ié (no 1ª) una vez regularizado en castellano.
2 Selección y justificación del corpus

Lo cierto es que las teorías sobre este cambio deberían fundamentarse en estudios
de corpus y, en concreto, dado que pretendemos comprobar si las tesis expuestas
encuentran reflejo en los datos tanto desde el punto de vista temporal cuanto, sobre
todo, espacial, incorporando el factor diatópico, consideramos idóneo expurgar la
documentación notarial pues, a diferencia de los textos literarios romances de la
primera época medieval, aquella puede ser convenientemente fechada, fidedigna-
mente localizada12 y está exenta de requerimientos métricos.
Por ello, para medir la dinámica de las variantes del imperfecto en castellano,
centraremos nuestro estudio en documentación burgalesa del siglo XIII —espe-
cialmente, por el significativo incremento de documentos redactados en un
11 Lloyd (1993, 576) matiza que «[a]unque el pretérito y el imperfecto se han mantenido distintos
en todas las lenguas románicas, el hecho de que compartan el rasgo común de ‹pasado› ha sido
suficiente en algunos casos para que un tiempo tenga alguna influencia sobre la forma del otro
sin que se produzca un movimiento general tendente a suprimir la distinción aspectual que existe
entre ellos».
12 Para una revisión del binomio documento notarial / dialectología histórica, vid. Matute
(2004), Moral del Hoyo (2013).
romance consistente (Sánchez-Prieto 2007), en su segunda mitad— momento de

máxima expansión del paradigma –ié.13
Lo haremos utilizando los documentos burgaleses de San Salvador de Oña y
del monasterio de Las Huelgas de Burgos contenidos en el Corpus Histórico del
Español Norteño (CORHEN) y completados, para alcanzar un número significati-
vo, por los editados por Álamo (1950) y Oceja (1983; 1985), en el caso de la
colección diplomática oniense, y por Lizoain (1985) y Castro/Lizoain (1987) en el
caso de Las Huelgas.
En total, 278 documentos que, cronológicamente se reparten como sigue:
Tabla 1: Origen y cronología de los documentos estudiados
San Salvador de Oña (SO) Las Huelgas de Burgos (LH)
1200–1210 – 4
1211–1220 – 4
1221–1230 – 6
1231–1240 2 2
1241–1250 12 31
1251–1260 10 39
1261–1270 20 28
1271–1280 43 16
1281–1290 17 19
1291–1299 17 8
121 157
13 Por eso no nos ocuparemos de la recesión y eliminación del imperfecto en –ié, otro de los
aspectos que también ha generado teorías encontradas. Las resume Malkiel (1959, 476–477), quien
enumera las que denomina «opposing forces» al triunfo permanente de –ié. En época más reciente,
Rini (1999, 38–39) postula la existencia de paradigmas mixtos surgidos por presión analógica y
posterior regularización; Luquet (2002) opina que el fracaso del paradigma –ie– para imperfecto y
condicional se produjo porque el español priorizó el carácter inactualizador del significado de
ambos; Bustos Gisbert (2006) realiza un análisis crítico del estado de la cuestión y Henriksen
(2008), un análisis cuantitativo multivariado para concluir que «the variable root-final segment
was identified as a potential trigger of –ie’s emergence, while other variables such as root vowel
height and grammatical person appeared to habe led the way for –ia’s reemergence and restoria-
tion». Vid. Imhoff (1998) para una revisión sobre la cronología en la que esta alternancia queda
eliminada en castellano y, sobre todo, González Ollé (2000), quien demuestra cómo, en detrimento
del tópico, la pervivencia de –ié nutre todavía en el XVI la obra de diversos autores relevantes.
Contemplaremos la diversidad geográfica castellana norte-sur (Oña-Burgos) por

si apuntara tendencias dispares, como hemos comprobado en otros apartados de
la morfología verbal (Moral del Hoyo 2015).14
Una vez estudiada la distribución de las formas burgalesas, procederemos a
valorarlas en torno a un corpus de control representativo del mapa de variación
diatópica norteña con el fin de evaluar en tal marco los resultados del castellano
burgalés y poder perfilar, con datos homogéneos, la viabilidad de hipótesis más
estructurales o más dialectales en el caso del cambio sufrido por la morfología
del imperfecto romance en el centro peninsular. Y es que abordar la gramática
histórica del español desde un enfoque dialectal es una tarea pendiente cuyos
resultados, como ha hecho Rodríguez Molina (2010) en un trabajo paradigmático
sobre la formación de los tiempos compuestos, pueden reescribir dicha histo-
ria.15
Para ello, se ha compilado una representación de casi 300 documentos
notariales del siglo XIII pertenecientes a:
– León occidental (Monasterio de Carrizo)16: 40 docs. (1224–1297)

– León central (Catedral de León): 38 docs. (1237–1297)
– León oriental (Monasterio de Sahagún): 32 docs. (1232–1299)
– La Montaña (Santillana del Mar y Santo Toribio): 52 docs. (1200–1300)
– Palencia (CODEA17): 18 docs. (1202–1290)
– Rioja (CODEA y Santo Domingo de la Calzada): 41 docs. (1212–1299)
– Navarra (CODEA y Monasterio de Irache): 43 docs. (1232–1296)
– Aragón (CODEA): 31 docs. (1225–1290)
Por último, se han analizado también 53 documentos de la cancillería, de las

colecciones de San Salvador y de Las Huelgas, datados en Burgos, para evaluar el
14 En este trabajo se utiliza el mismo corpus aquí descrito para analizar determinadas variantes
en la morfología desinencial del futuro e imperfecto de subjuntivo.
15 «La existencia de este estado de variación obliga, por un lado, a modificar de raíz el estado de
la cuestión sobre la evolución de los tiempos compuestos, y por otro lado, aconseja replantearse
igualmente los presupuestos sobre los que se ha construido la historia de la lengua española de
los siglos XIII–XV, que si apenas ha dado cabida a la variación dialectal en su conjunto, ha
olvidado del todo punto el estudio de la variación gramatical» (Rodríguez Molina 2010, 693).
16 Ver en Fuentes bibliográficas las colecciones diplomáticas impresas que se han utilizado.
17 La consulta de los documentos del proyecto CODEA [http://demos.bitext.com/codea/codea_
form.asp] ha sido posible porque, hace unos años, la generosidad intelectual de Sanchez-Prieto y
sus colaboradores hizo que, antes de la operatividad del corpus electrónico en la red, yo
dispusiera de las ediciones paleográficas y críticas por ellos compiladas. De este corpus, selec-
cioné los documentos locales del siglo XIII según su adscripción geográfica y pude realizar las
búsquedas de interés.
grado de homogeneidad con los diplomas burgaleses privados (y empezar a

fundamentar a qué castellano se aproxima más el castellano alfonsí).
3 La variación –ié/–ía en los estudios sobre

documentación asturleonesa, castellana y
navarroaragonesa en el siglo XIII
Presentado el corpus, debemos hacer un repaso previo de aquellas observaciones
realizadas respecto al uso del imperfecto en los estudios sobre documentación
coetánea a la que aquí nos va a ocupar18 y que, normalmente, se limitan a
apreciar si el uso mayoritario cumple con el modelo esperable en esta centuria
según la tradición gramatical descrita (–ía para primera persona, –ié para las
restantes) o no, sin aventurar tesis explicativas en estos últimos casos o trazar
una visión de conjunto.
3.1 Sobre el castellano
En los documentos de la cancillería alfonsí analizados por Sánchez González

(2002, 161) «predominan, con diferencia significativa, los imperfectos y condicio-
nales en -ie», comportamiento idéntico al detectado por Hartman (1974) en varias
obras del escritorio regio.
En documentación privada local, las colecciones diplomáticas riojanas del
siglo XIII de Santo Domingo y San Millán responden, según García Turza (1996,
150) y González Bachiller (2002, 80), al tratamiento general descrito con muy
pocas excepciones.Y con ninguna, según Hernández Alonso (2001, 93), la docu-
mentación de Palencia:
[e]n todos los documentos palentinos estudiados por nosotros, aparecen solamente las
formas en –ie. La primera en –ía que encontramos es de bien entrado el s. XIV. Por el
contrario, en los documentos regios de Burgos (desde 1255) y en el Fuero Real hay bastantes
casos en –ía. Ello nos dice que, a mediados del siglo, esta forma era más culta que la –ie,
mientras en los documentos privados, más próximos al pueblo, predominan las en –ie.
18 Se trata de estudios que describen los usos lingüísticos (fonéticos, morfosintácticos) de

corpus documentales representativos de determinada variedad porque, en lo que conocemos, no
hay un estudio consagrado al estudio del imperfecto que los tome como base.
Hernández Alonso considera, por lo tanto, que la exclusividad de –ié después de

1250 en documentación local se debe a una diferencia diafásica respecto de –ía,
forma marcada como más prestigiosa según se desprende de su empleo en
documentos cancillerescos, algo que no coincide con los datos que presentare-
mos en este trabajo.
De hecho, en otros documentos castellanos como los de Miranda de Ebro de
la 2ª mitad del XIII estudiados por Sánchez González et al. (2014, §3.2.3.1),
predominan ampliamente las soluciones –ía.
Por su parte, Imhoff (2000a, 386) examina los Documentos lingüísticos de
España (DLE) editados por Menéndez Pidal (1919) correspondientes al periodo
prealfonsí para determinar la fuerte preferencia por –ié (90,2 % de casos) y situar
el foco de mayor presencia de –ía en la 3ª persona.
En concreto, divide estos documentos en tres grupos y, según la tabla de
porcentajes, obtenemos que lo que denomina «grupo occidental» (documentos
de Campó y Valladolid), –ié representa el 44 % de las formas; en el «grupo
central» (Montaña, Castilla, Burgos, Segovia, Toledo y Andalucía) en torno a un
92 % y, en el «grupo oriental» (Rioja, Osma, Sigüenza, Cuenca), un 98 %.
3.2 Sobre el asturleonés
Staff afirma que, en el leonés del siglo XIII, al margen de la primera persona «les
formes avec ie sont beaucoup plus nombreuses que celles avec ia. Tout cela cadre
parfaitement avec les résultats généraux auxquels ont abouti les recherches faites
sur cette question» (Staaff 1907, 289), lo que contrasta con los documentos de la
catedral de Salamanca analizados por Onís (1909, 37), con dos únicos casos de
–ié, y con los textos asturianos occidentales que estudia Lapesa en los que, a
pesar de la prudencia que impone la escasez de testimonios, «puede observarse
el predominio, o por lo menos gran proporción de ia» (Lapesa 1998, 64). Lo mismo
ocurre en los diplomas de San Bartolomé de la Nava, cuya única excepción al
modelo –ía es un caso de diçiemos ya en 1363 para el cual Viejo (1993, 45)
considera dos hipótesis fonéticas: o se deben al cierre de la vocal átona o reflejan
la vacilación temprana que experimentó el diptongo [je]~[ja].
En realidad, la falta de observación crítica de los datos bajo la asunción de la
premisa tradicional debe explicar la inexacta apreciación de Staaff sobre el uso
del imperfecto en el corpus de documentos leoneses que analiza pues, si compu-
tamos en función del factor geográfico —y temporal— los casos de imperfecto que
el autor va expurgando, obtenemos diferencias evidentes:
Grupo I (leonés oriental): el primero ejemplo no aparece hasta 1239 y, desde
entonces hasta 1259, hay una clarísima tendencia a –ié, incluso aparece en la
1ª persona; se usa en el 80 % de docs. y el 94,3 % de los casos. A partir de 1259,

–ié en 50 % en documentos y 40,7 % en casos.
Grupo II (leonés central): la situación es visiblemente distinta; desde el
principio (1233), la tendencia al uso de –ía es manifiesta mientras –ié aparece en
un 41,7 % en docs. y un 33,3 % en formas y su uso se incrementa a finales de siglo
(desde 1286).
Grupo III (leonés occidental): solo hay formas en dos documentos. Uno, de
1235, con –ía como solución única (1 forma); otro, de 1294, con 9 casos de –ía
frente a 7 de –íe. El 50 % de documentos y 42,2 % de formas ofrecen –ié.
Así las cosas, afirmar que los resultados en –ié son «mucho más numerosos»
que los respectivos en –ía contemplando la documentación leonesa en su con-
junto, no funciona más que para los documentos orientales hasta la década de
1260.19
3.3 Sobre el navarroaragonés
La documentación navarra estudiada por Pérez-Salazar (1993, 140) muestra que

la terminación –ie es excepcional, lo que coincide con lo observado por Saralegui
(1977, 13, 221) en el imperfecto de los documentos de Irache (si bien en el
condicional de estos mismos documentos destaca como desinencia preponde-
rante)20 y con lo que Gifford/Hodcroft (1966, 127) habían notado en los textos
medievales navarros y aragoneses. También Imhoff (2000a, 389), que revisa la
documentación del reinado de Teobaldo I y los posteriores Documentos lingüísti-
cos del Alto Aragón (Navarro 1957) se manifiesta en idénticos términos.
Los resultados descritos reafirman las conclusiones de Hanssen quien, ya en
1896, dedicó dos pioneros estudios a sistematizar, a través de un grupo de textos
no literarios, las características de la «conjugación aragonesa» y de la «conjuga-
ción leonesa» en los siglos XIII y XIV para evaluar sus similitudes y divergencias
con las soluciones castellanas coetáneas.
Lo que obtiene de los datos extraídos respecto de la fluctuación –ié/–ía en el
imperfecto de las conjugaciones 2ª y 3ª es que en los documentos aragoneses21
«ya prevalecen las terminaciones que tienen a», hecho que explica por causas
internas (como en castellano, la terminación –ia de la 1ª persona se extendió a la
19 Vid. infra n.21.

20 Ciérvide (1972, 72), sin embargo, señala casos de –ie en los documentos navarros que estudia,
pero se limita a dar las formas que encuentra en tres documentos sin que podamos sacar
conclusiones sobre su representatividad.
21 Los textos que compila se datan desde 1225.
3ª del singular y, de ahí, al resto del paradigma) y externas («aceleró este

desarrollo la analogía de dialectos vecinos, portugués, gallego, asturiano, cata-
lán», Hanssen 1896a, 409).
En la misma dirección, en los documentos leoneses «vienen las termina-
ciones ias, íamos, íades, ian de la influencia gallega. Parece que se usaban mas
las terminaciones ias, ia, ian que ies, ie, ien pero prevalecian iemos i iedes»
(Hanssen, 1896b, 764).22
Por lo tanto, analizados en conjunto, los datos no parecen respaldar que, aún
en el siglo XIII, el asturleonés, por un lado (en sus variedades centroocciden-
tales), y el navarroaragonés, por otro, siguieran el paradigma presupuesto para el
castellano, pues la resistencia de –ia en las variedades occidentales y su casi
exclusividad en las orientales dibujan una suerte de continuidad rota por el
castellano y sus estribaciones vecinas en tanto que el leonés oriental, el castella-
no palentino y el riojano, sí se suman al modelo –ié.
4 Análisis de los datos

Vamos a presentar, a continuación, las tablas que computan la alternancia –ia/ié
en la documentación burgalesa del siglo XIII haciendo un corte cronológico en
1250, con el fin de comprobar si, como sostiene Imhoff, la regularización de –ié se
manifiesta en época alfonsí pero no antes. Debemos, no obstante, advertir de que
el número de textos con romance estable en Oña antes de 1250 no es tan elevado
como en Las Huelgas.
4.1 Variantes del imperfecto en documentación castellana

burgalesa < 1250
En los diplomas onienses, los imperfectos se datan desde 1238 y se localizan en 5

documentos. En Las Huelgas, hay casos desde 1202 y, desde 1210, en formas
distintas a la 1ª. El reparto se establece como sigue:
22 Por eso, en su gramática histórica de 1910, excluye la franja occidental leonesa del uso de –ié,
que reclama para el resto del territorio (Hanssen 1910, §28, apud Malkiel 1959, 444). Lo mismo
Lloyd: «El nuevo modelo de imperfecto fue el que dominó en Castilla, Aragón y León ‹con
exclusión de las zonas más occidentales›» (Lloyd 1993, 575. El resalte es nuestro).
Tabla 2: –ie/–ia en doc. burgalesa < 1250
Oña (5 doc.) Huelgas (11 doc.)
–ié –ía –ié –ía
1ª – – – 2 (2)23
3ª 3 (3) – 9 (5) 10 (3)
4ª 1 (1) – 1 (1) –
5ª 3 (3) – 1 (1) –
6ª 1 (1) – – 1 (1)
Computado el total de casos susceptibles de mostrar la variación (esto es, ex-

cluyendo la 1ª persona ante la regularidad sistemática en ella de la forma –ía), la
competencia entre ambos paradigmas es la norma en los documentos burgaleses
de la primera mitad del siglo XIII, que se reparten casi al 50 %, lo que contrasta
aún más con la exclusividad de –ié de los textos onienses.
No obstante, creemos necesario relativizar las cifras absolutas con el cómpu-
to de las variantes –ie/–ia (no 1ª) en función del número de documentos en las
que se concentra cada una; se trata, así, de evitar generalizaciones puesto que un
elevado número de testimonios puede estar reducido a un escaso número de
documentos o escribanos. De este modo, la igualdad entre –ie/–ia en Las Huelgas
se ve desequilibrada a favor de –ie en una proporción de 77,8 % frente a 22,2 %24
cuando consideramos el parámetro del número de documentos, lo que aproxima
los resultados a la sistematicidad de Oña.
Resulta de interés, además, establecer la distribución de las variantes en
función de la persona gramatical, dado que la tesis de Malkiel postula una
difusión de –ié consolidado, primero, en la 4ª y la 5ª personas para pasar,
después, a la 6ª y a la 3ª. Si los datos de esta primera mitad del XIII apuntan en
esta dirección, deberían ofrecer la mayor estabilidad de –ié en la 4ª y la 5ª perso-
nas, con mayor fluctuación en la 6ª y aún mayor en la 3ª.
En Oña, los 8 casos de imperfecto, todos de –ié, se distribuyen en todas las
personas, si bien los ejemplos de la 4ª y la 6ª son únicos.
23 En la presentación de los datos, Exponemos el número de formas y, entre paréntesis, el

número de documentos donde esas formas son localizadas.
24 Calculado sobre el número de documentos con imperfecto en formas distintas de la 1ª.
Gráfico 1: Burgos < 1250: –ie/–ia (casos) Gráfico 2: Burgos < 1250: –ie/–ia (docs.)
Gráfico 3: Oña < 1250: –ie/–ia (paradigma)
En Las Huelgas tampoco localizamos más de un testimonio de la 4ª y la 5ª, ambas

con –ié, y de la 6ª, con –ía. Es en la 3ª donde convergen ambas variantes, con una
mínima mayoría de –ía que, sin embargo, está presente en menos documentos
que –ié:
Gráfico 4: Huelgas < 1250: –ie/–ia (casos) Gráfico 5: Huelgas < 1250: –ie/–ia (docs)
4.2 Comparativa de variantes del imperfecto en documentación

leonesa/castellana/ navarroaragonesa < 1250
Como es previsible, la documentación con romance estable previa a 1250 es

bastante más escasa que la posterior. Con todo, recogemos la variación –ía/–ié en
el imperfecto de los documentos que componen el corpus de control en la
siguiente tabla:
Tabla 3: –ie / –ia en doc. leonesa, castellana, navarroaragonesa < 1250
Docs. imperf. –ié (docs) –ía (no 1ª) –ié (casos) –ía (no 1ª)
(docs) (casos)
Reales 3 2 1 7 4
(Burgos)
Carrizo – – – – –
León 3 0 3 0 3
Sahagún 2 1 2 1 6
Palencia 4 3 2 17 11
La Montaña 6 1 3 1 4
Rioja 5 4 1 10 1
Navarra 3 0 3 0 5
Aragón – – – – –
Para visualizar mejor estos datos, configuramos, en primer lugar, el gráfico que
representa la distribución –ía / –ié en función del número de documentos en los
que se emplean:
Gráfico 6: –ie/–ia (docs.) < 1250
En segundo lugar, el referido al número de casos:
Gráfico 7: –ie/–ia (casos) < 1250
El trazado del uso de –ié en ambos casos es muy similar, lo que confirma que no
se trata de desviaciones puntuales excepto en Sahagún, documentación de la
que, precisamente, trataremos con detalle más abajo:
Gráfico 8: –ie/–ia (casos / docs.) < 1250
En líneas generales, el modelo no etimológico se concentra, antes de 1250, en el

sector castellano oriental, con un 100 % de casos y documentos en Oña y un
90,1 % (80 % en documentos) en La Rioja. Después, va decreciendo paulatina-
mente en dirección oeste hasta el leonés oriental (Burgos, 47,4 % en privados y
63,6 % en reales > La Montaña, 16,7 % > Sahagún, 14,3 %), con una elevación
considerable en Palencia, que equipara sus resultados a los reales de Burgos.
Todo este grupo, a su vez, se aglutina en torno al uso de –ié frente al leonés
central y el navarro que, sin un solo testimonio de –ié, representan la exclusivi-
dad de –ía en las áreas laterales.25
Según esta distribución, antes de 1250 el modelo que se describe como el
genérico para el imperfecto medieval en los romances centrales (–ié para todas
las personas gramaticales diferentes a la 1ª) ni siquiera está apuntado en el leonés
centro–occidental o en el navarroaragonés. Pero tampoco es dominante en caste-
llano si consideramos el factor diatópico: únicamente en el burgalés nororiental y
en la Rioja es hegemónico, en el centro de Burgos y en Palencia la variante –ía
permanece todavía siendo muy significativa y es la dominante en el castellano de
La Montaña.26
25 A pesar de que no documentamos casos en los extremos más occidental (Carrizo) y oriental
(Aragón), podemos suponer que seguirían la tendencia de León y Navarra en el uso sistemático
de –ía.
26 Si contrastamos estos resultados con los que obtenemos en los DLE de Menéndez Pidal
anteriores a 1250, los resultados muestran tendencias similares en algunos grupos: la coexisten-
cia de ambas variantes parece la tendencia de Campó, si bien sólo hay dos testimonios, uno de
–iémos (1219) y numerosos de –ía en un mismo documento donde proliferan rasgos occidentales
Aparentemente, los datos hacen plausible la hipótesis de Imhoff: que Oña y

La Rioja presenten, en el XIII prealfonsí, los mayores índices de –ié podría tener
relación con el mayor contacto de estas zonas con las hablas pirenaicas (por
geografía y por asentamientos de colonos).
Ahora bien, en el sector oriental del leonés está ocurriendo un proceso
similar. En Sahagún, aunque nuestros datos señalan la marcada minoría de –ié
en el cómputo de casos, en documentos alcanza el 50 % y, ampliando la muestra,
los diplomas del corpus de Staaff contabilizados más arriba presentan aquí una
situación análoga a Oña y La Rioja, con un 94 % de casos (y un 80 % de
documentos) hasta el fin de la década de 1250. De hecho, en leonés central se
localizaban ya formas en –ié.
Por lo tanto, la irrupción de –ié se da con intensidad también en la conjun-
ción entre el castellano y el leonés, no sólo en el castellano con el navarroara-
gonés, lo que lleva a pensar en una causa estructural compartida.
Si esta causa es la analogía con el pretérito, y no una acción fonética, el
análisis del reparto –ié/–ía en función de las personas gramaticales es de interés:
En la 3ª persona:
Gráfico 9: –ie/–ia (casos), 3ª persona < 1250
(1223). Y La Rioja tiene una preferencia por –ié casi absoluta: La Rioja Baja sólo muestra un caso y
es de –ié y, en La Rioja Alta, su uso es abundantísimo en todas las personas desde 1199, con un
excepcional –ía en la 3ª persona en 1249.
En la 6ª persona:
Gráfico 10: –ie/–ia (casos), 6ª persona < 1250
En la 4ª y en la 5ª personas, aunque los casos son muy pocos (3 y 4 en total,

respectivamente):
Gráfico 11: –ie/–ia (casos), 4ª/5ª persona < 1250
Así las cosas, a pesar de que el número de testimonios de la 4ª y la 5ª personas es

muy bajo respecto a la 3ª y la 6ª y se concentra en los diplomas de Palencia, Oña
y Las Huelgas, no hay excepción al empleo de –ié, a diferencia de la fuerte
competencia que ejerce –ía en la 3ª y la 6ª. Excluyendo del cómputo al leonés
central y el navarro, la media de –ié en la 3ª es de 48,4 % y de 58,3 % en la 6ª lo
que, con el 100 % en la 4ª y la 5ª, representa de menos a más la difusión descrita
por Malkiel aunque creemos que no necesariamente hubo de cumplirse la direc-
ción 6ª > 3ª.
4.3 Variantes del imperfecto en documentación castellana

burgalesa > 1250
La cuantía de documentos de los que se dispone en esta segunda mitad hace
posible identificar numerosos casos de imperfecto:
Tabla 4: –ie/–ia en doc. burgalesa > 1250
Oña (22 doc.) Huelgas (25 doc.)
–ié –ía –ié –ía
1ª – 10 (8) – 5 (4)
3ª 14 (7) 6 (5) 8 (4) 2 (1)
4ª 2 (2) 2 (2) 14 (9) –
5ª 2 (2) 2 (1) 3 (3) –
6ª 6 (6) 3 (3) 11 (6) 2 (1)
Las variantes se reparten así:
Gráfico 12: Burgos >1250: –ie/–ia (casos) Gráfico 13: Burgos >1250: –ie/–ia (docs.)
Si comparamos los resultados con los obtenidos antes de 1250, se ha producido una
inversión: del 100 % de casos y documentos en los que atestiguábamos –ié en Oña,
la variante –ía ha aumentado en proporciones muy significativas con más de un
tercio de los casos y localizándose en casi la mitad de documentos, en personas
distintas a la 1ª. A su vez, los diplomas de las Huelgas han experimentado la
evolución contraria: de un 47,8 % de casos con –ié se ha pasado a un 90 % y es la
forma casi absoluta, también, en el número de documentos con formas de imper-

fecto, presentando –ía un residual 4,6 % de los mismos, frente al 22,2 % anterior.
Distribución de formas por casos:
Gráfico 14: Oña >1250: –ie/–ia (casos) Gráfico 15: Huelgas > 1250: –ie/–ia (casos)
Distribución de formas por documentos:
Gráfico 16: Oña > 1250: –ie/–ia (docs.) Gráfico 17: Huelgas > 1250: –ie/–ia (docs.)
Mientras la 1ª persona sigue sin ofrecer otra solución que –ía, en el resto hay
cambios: en las Huelgas, como ocurría en la 1ª mitad del siglo, la 4ª y la 5ª
personas solo presentan la variante –ié y, aunque se mantiene la fluctuación en
la 3ª y la 6ª, –ié es ahora notablemente mayoritaria en ambas personas. En Oña,
con exclusividad de –ié (aunque pocos testimonios) para todo el paradigma antes
de 1250, la variante –ía no solo alcanza proporciones en torno al 30 % en la 3ª y
en la 6ª personas sino que, además, en la 4ª y en la 5ª, donde –ié /–ía se reparten
equitativamente.
De estos datos se desprende que, en la región norteña, la variante –ié está

perdiendo fuerza con rapidez e intensidad mientras, por el contrario, la región
central ha experimentado un auge de esta variante hasta hacerla casi sistemática.
De hecho, la desinencia etimológica se usa, también, en la 4ª y 5ª personas
donde, según la tesis de la analogía morfológica, se habría iniciado el nuevo
modelo de imperfecto por causas que, como veremos, inciden también en la
convergencia formal y funcional de indefinido e imperfecto.
4.4 Comparativa de variantes del imperfecto en documentación

leonesa/castellana/ navarroaragonesa < 1250
La tabla que contiene los datos es la siguiente:
Tabla 5: –ie/–ia en doc. leonesa, castellana, navarroaragonesa > 1250
Docs. imperf. –ié (docs) –ía (no 1ª) –ié (casos) –ía (no 1ª)
(docs) (casos)
Reales 14 10 7 37 5
(Burgos)
Sahagún 10 3 6 19 6
Catedral 14 0 14 0 41
Carrizo 6 1 6 1 13
Palencia 4 3 1 27 3
La Montaña 10 1 9 1 10
Rioja 15 12 5 18 16
Navarra 5 0 5 0 18
Aragón 6 0 6 0 9
Y los gráficos, según las ocurrencias en documentos:

Gráfico 18: –ie/–ia (docs.) > 1250
Y, por casos:
Gráfico 19: –ie/–ia (casos) > 1250
Al superponer los gráficos de la distribución de –ié en función del número de

casos y el número de documentos se verifica que hay alguna divergencia notable
pero, como ocurría con el gráfico de la primera mitad de la centuria, las tenden-
cias son bastante homogéneas.
Gráfico 20: –ie (docs./casos) > 1250
En La Rioja los diplomas ofrecen un 52,9 % de formas –ié que, sin embargo, se
localizan en el 80 % de los documentos. Esto indica que, puede haber, en algunos
casos, cierta distribución de formas ligada a determinados escribanos.
Con todo, el paradigma –ié sigue concentrándose en el ámbito castellano
pero se ha producido un «corrimiento» de fuerzas oriente > sur y occidente, como
se desprende del gráfico inferior: mientras Oña y Rioja lideraban el empleo del
modelo –ié antes de 1250, es ahora Burgos, tanto en sus documentos privados
como cancillerescos, los que mayor uso hacen del mismo, casi exclusivo en Las
Huelgas, al mismo nivel que los documentos de Palencia. Sahagún experimenta,
también, un importante auge. Sin embargo, Oña y Rioja reducen en casi un 40 %
los casos de –ié frente a –ía.
Curiosamente, contrastando la evolución de –ié en función del número de
casos y de documentos se aprecia que, a lo largo de la centuria, la presencia
de –ié en cuanto a los documentos se mantiene mucho más estable que los
casos. Así ocurre en León, Palencia, La Montaña, La Rioja y Navarra, así como
en los documentos reales firmados en Burgos. Sin embargo, tanto Sahagún
como Las Huelgas y, sobre todo, Oña, experimentan un salto cualitativo en el
empleo de –ié coincidiendo con la elevada diferencia que muestra el número
de casos: en el Oña, para disminuir y, en el de Las Huelgas y Sahagún, para
aumentar.
Gráfico 21: –ie < 1250 / –ie > 1250 (casos)
Gráfico 22: –ie< 1250 / –ie> 1250 (docs.)
Si pasamos, ahora, al análisis de la distribución de variantes en función de la

persona gramatical, obtenemos:
3ª persona:
Gráfico 23: –ie/–ia, 3ª persona > 1250 (casos)
6ª persona:
De un 48,4 % en la 3ª y un 58,3 % en la 6ª hemos pasado 71,8 % (excluyendo

León centrooccidental, donde incluso aquí ya hay casos, y Navarra/Aragón) y
70,61 %. La frecuencia media de uso de –ié se ha incrementado notablemente en
esta segunda mitad de la centuria, sobre todo en la 3ª persona, puesto que supone
la marca morfológica adecuada para deshacer la homomorfia con la 1ª persona.
Esta forma experimenta un salto cualitativo en la documentación burgalesa de
cancillería y Palencia, donde es casi sistemática, y en Sahagún y la documenta-

ción de Las Huelgas de Burgos, La Rioja y Oña reducen los casos de modo que, si
situamos aquí la mayor representatividad de –ié en la 1ª mitad de siglo, también
parece ser más temprana la tendencia a recuperar –ía.
4ª persona:
5ª persona:

Lo más significativo de ambos gráficos es que, contrastados con los que dibujaba
la documentación anterior a 1250 y, aunque los casos vuelven a ser escasos, la
sistematicidad de –ié está cediendo, de nuevo, en el castellano norteño lo que,
unido a la disminución de casos en la 6ª y, sobre todo, 3ª persona, apuntala la
tendencia a la nivelación paradigmática en –ía que, en la documentación de los
ámbitos limítrofes, muestra mayor resistencia.
5 Replanteamiento del origen y la difusión de –ié

y conclusiones
Lo que los datos del corpus de análisis perfilan cuando el romance es ya el código
vehicular estable es que, en el siglo XIII, no hay homogeneidad en la distribución
del doble paradigma –ía/–ié en las tres variedades centrales.
En castellano, si adoptamos una visión global de los datos, la implantación de
–ié es la norma general durante toda la centuria excepto en la 1ª persona, cumplien-
do la descripción tradicional de las gramáticas, sin que –ía deje, no obstante, de
estar representada (con una media del 35 % de casos). Sin embargo, en una visión
de este ámbito que incorpore el factor geográfico y cronológico es perceptible que,
hasta 1250, la mayor concentración de casos en –ié ocurre en el castellano nor-
oriental (documentos onienses, 100 %, y riojanos, 90,1 %) para, después de 1250,
pasar a los documentos de Las Huelgas de Burgos (90 %), los campurrianos (90 %)
y los reales (86,4 %), mostrando los diplomas de La Rioja y Oña, ahora, un incre-
mento significativo de –ía (47,1 % y 35,1 %, respectivamente). El área más septen-
trional del castellano, La Montaña, se desgaja completamente de este empleo más o
menos general de –ié al optar, durante todo el siglo, por el paradigma –ía con apenas
excepciones, aproximándose al comportamiento de las variedades no castellanas.
Los documentos navarros y aragoneses estudiados, por su parte, se muestran
aún más decididos en el empleo de –ía que la tendencia apuntada por Hanssen,
dado que no hay excepción a este modelo, en consonancia con los estudios sobre
colecciones coetáneas del mismo ámbito dialectal (y, probablemente, porque los
documentos de nuestro corpus son privados y, a pesar de que él no lo advierte,
los pocos ejemplos de –ié que atestigua Hanssen están en solo dos documentos,
ambos reales).
El leonés comparte con el navarroaragonés la sistematicidad de –ía en su
sector occidental y central, si bien hay algún ejemplo esporádico de –ié en la 2ª
mitad del siglo (y en la 1ª según Staaff 1907). El leonés oriental, por el contrario,
evidencia la competencia –ía/–ié antes de 1250 para primar –ié después aunque
no más allá de un 75 %.
Para sustentar la tesis de Malkiel, este tipo de datos son imprescindibles,

puesto que él toma únicamente como indicios empíricos del origen del imperfecto
–ié en la analogía con las formas plurales diptongadas de los perfectos el hecho de
que, en el Poema de Mio Cid, Menéndez Pidal (1944) encuentre un caso de –iémos y
cinco de –iédes pero ninguno de –íamos/–íades frente a la competencia –ié/–ía en
la 3ª y 6ª personas, y que Hanssen «had similarly encountered in Old Leonese texts
a marked preponderance of –ie only in conjunction with –mos and –des» (Malkiel
1959, 474), limitación que, por otra parte, reconoce no ser totalmente acorde con su
teoría, dado que se esperaría –ié también en el resto del paradigma. Tampoco hace
ninguna apreciación respecto al hecho de que el inventario que el propio Hanssen
lleva a cabo sobre documentos del antiguo aragonés «led him to the conclusion
that –ía, here more strongly represented than the center, had extended itself from
the 1st […] [and] in part under the pressure of neighboring dialects and languages»
(Malkiel 1959, 442), de modo que, al exponer su teoría, que pretende ser inclusiva
de los tres dialectos (con –ié) frente al gallego-portugués (sin –ié), no tiene en
cuenta estos desajustes de las tres variedades.
Nuestros datos favorecen la tesis de Malkiel en tanto que, a pesar de ser muy
pocos los casos de 4ª y 5ª antes de 1250, los encontramos en Palencia, Burgos,
Oña, donde ambos paradigmas podrían darse, y el 100 % ofrecen –ié frente a la
competencia en la 3ª y la 6ª (más en la 6ª que en la 3ª) aunque, como comenta-
mos, es discutible que la difusión de la analogía siga la dirección prevista por
Malkiel. En leonés oriental no hay casos en el corpus, pero un recuento de los que
enumera Staaff demuestra cómo apenas hay excepción.27
Después de 1250, la variante –ié también es la hegemónica en castellano y
leonés oriental y, de forma más sistemática, en la 5ª que en la 4ª, donde –ía se
implanta con fuerza en Oña (50 %) y Palencia (75 %). Aunque pueda estar
operando una acción analógica desde la 1ª persona del singular –ía al plural,
también es posible que la mayor incidencia de –íamos ocurra para evitar la
ambigüedad con –iémos, frente a –iédes, que no corre ese riesgo con –iestes. Esta
reacción asimétrica de la 4ª respecto de la 5ª reforzaría, entonces, el papel de la
convergencia imperfecto/indefinido tanto en el origen de –ié como en la regula-
rización multicausal de –ía y, en este mismo sentido, constatamos en los docu-
mentos una preferencia absoluta por –iestes en el pretérito a lo largo de todo el
siglo, pero no así de –iemos, puesto que –imos alcanza porcentajes en torno al
30 % desde Carrizo hasta Oña28.
27 Pues sólo el grupo oriental ofrece testimonios; 4ª: 10 –iémos vs. 2 –íamos/ / 5ª: 1 –iédes.
28 Frecuencia de –imos. Carrizo: 33,3 %; León, 35,7 %; Sahagún: 33,3 %; Palencia, 25 %; La
Montaña 273 %; Burgos: 26,3 %; Reales Burgos: 0 %; Oña: 35,3 %; Rioja, Navarra, Aragón:
100 %.
Ahora bien, las formas 4ª y 5ª registradas en León (centro), Navarra y Aragón

ofrecen –ía en todo caso en estas mismas décadas, por lo que la tesis de Malkiel,
que concibe una explicación única para los tres bloques lingüísticos, como si el
comportamiento de –ié fuera homogéneo, debe matizarse cronológica y geográfi-
camente.
Malkiel pretende justificar por qué, dándose las mismas circunstancias en
origen, el gallegoportugués no conoce el paradigma en –ié para el imperfecto de
2ª y 3ª conjugación, y la razón la encuentra en el arraigo en esta variedad de un
sistema de tres conjugaciones en el pretérito débil, donde los verbos en –er la han
desarrollado analógicamente, que resisten la diptongación analógica (–emos,
–estes / –imos, –istes). Así pues, sólo donde se generalizó –ié en el pretérito
tenemos imperfecto en ié.
Pues bien, la explicación que da puede extenderse también al asturleonés
centrooccidental y, en principio, al navarroaragonés y justificar, de este modo, la
excepcionalidad de –ié en los diplomas del XIII de estos ámbitos cuando la
convergencia sería posible, incluso favorecida por la fluctuación [jé, já] del dipton-
go procedente de Ĕ . En ambos casos, se ha demostrado que, frente al castellano,
existe la «preservación de los paradigmas desinenciales etimológicos e, i para –er,
–ir que manifiestan los textos aragoneses del siglo XIII [y] está ampliamente
documentada en el dominio astur-leonés, esencialmente en sus zonas más con-
servadoras» (López Bobo 1996, 52)29, frenando la analogía de los perfectos fuertes.
Por lo tanto, el desequilibrio en el reflejo del imperfecto –ié en los documen-
tos lo sería también de la diferente cronología con la que, en las tres variedades,
se extiende el diptongo en el perfecto y reforzaría la tesis analógica. Pero
tampoco en este caso la homogeneidad de resultados entre ambos extremos peninsulares

parece absoluta. El aragonés otorga una expansión mucho más amplia al paradigma
diptongado ie, que no solo invade el plural del perfecto y los tiempos afines de las clases
–er, –ir y fuerte, sino también las formas singulares. Este romance debió de conocer un
desarrollo autóctono en ie para el tipo –ir (<Ī ( V ) ĬT ), que iría paulatinamente extendiéndose a
todos los tipos. Sin embargo, el astur-leonés sólo conoce estos alomorfos por influencia del
castellano (López Bobo 1956, 52).
Esto hace que, para el caso del aragonés, debamos replantear la causa de la
escasa operatividad de –ié en el imperfecto toda vez que, en el siglo XIII, parece
que el pretérito ha desarrollado un paradigma en torno a este diptongo, no sólo
en las formas plurales sino, también, en las formas singulares (de cuya 3ª parte
etimológicamente); esto supondría que las condiciones para la analogía se dan,
29 También Egido (1996).

al menos en lo que respecta a la implantación de –ié en el pretérito, por lo que el

freno podría encontrarse no en el aspecto formal sino en la convergencia funcio-
nal con el imperfecto.
En este sentido, lo que propone Imhoff es que la convergencia entre indefini-
do/imperfecto, característica de los textos de la etapa primitiva del castellano, es
anterior a su hegemonía política y lingüística (y al afianzamiento de su literatura
vernácula) y, en esta misma etapa, hay variación –ía/–ié, achacando ambos
procesos de variación al resultado de un contacto de lenguas.30
A nuestro juicio, el contacto con las variedades orientales pudo favorecer—y
solo eso— el desarrollo de un proceso eminentemente estructural del castellano y
del leonés (en aquellas regiones con más arraigo —y más temprano— de –ié en el
plural de los perfectos), y pudo hacerlo en el sentido de que, según los datos
presentados, en la etapa prealfonsí las variedades más orientales del castellano
parecen acumular ligeramente más casos de imperfecto –ié que las occidentales
lo que, quizá, represente que la tendencia analógica originada en los plurales
recibió un impulso por la presencia, en los hablantes pirenaicos que colonizan
estos territorios con intensidad decreciente a medida que nos alejamos del foco,
de un indefinido –ié propagado a todo el paradigma,31 y no compartido por los
hablantes de otras variedades. De hecho, la presencia más arraigada del imper-
fecto –ié en los documentos no navarroaragoneses queda adscrita al corredor que
representa la nueva ruta jacobea32 impulsada por el rey Sancho; así, los docu-
mentos de La Montaña centrooccidental (Santillana de Mar y Santo Toribio de
Liébana) siempre representan un valle en las gráficas que reflejan el uso de –ié33
y es que La Montaña es fuente de emigración foramontana en los siglos IX–XI, de
30 Por lo mismo, en aragonés, ejemplos de esta convergencia se retrasan a los documentos

notariales de segunda mitad del XIII y primera del XIV, cuando se detecta en los diplomas un
incremento de la variante –ieu en el pretérito de la 3ª persona, que el autor achaca a una clara
influencia occitana, o sea, a una etapa de contacto.
31 Al respecto del imperfecto, la única nota que Menéndez Pidal (1968, 361) dedica en OdE
puede, igualmente, reforzar esta línea: «No hallo más formas interesantes que abiet, alzariet,
1044 Rioja Alta, DL, 71°, las cuales muestran la terminación –ía > –ie tan corriente en la Edad
Media». Es decir, que estos primeros ejemplos de –ié (comprometidos, con todo, por tratarse de
una copia) únicamente los localiza en la Rioja Alta y en la 3ª persona.
32 «Así, seguramente en poblaciones como Logroño, Santo Domingo de la Calzada, Nájera,
Burgos, Carrión, Sahagún, León, Oviedo. . ., los individuos de oriundez ultrapirenaica podrían
suponer al filo del 1200 quizá entre un 20 y un 25 % del vecindario total de esos centros urbanos
y, desde luego, muchos de ellos figuraban entre la burguesía local más cualificada» (Ruiz de la
Peña 2000).
33 No será casual, entonces, que en los DL de La Montaña los únicos casos de –ié se acumulen
en un documento temprano, de 1191, de Santa Mª del Puerto (Santoña), en la zona oriental, que
fue en la que más tiempo resistió la dominación navarra.
modo que es después, a partir del XII, cuando se refuerza la población intra-
montes (Tuten 2003, 150) y, además, queda fuera de esta ruta de influencia y
asentamiento francos, que discurre al sur de la cordillera cantábrica.
Pero el proceso es estructural en todos los casos: como explica Posner (1961),
hay una tendencia primitiva a la convergencia de pretérito e imperfecto donde, a
mayor uso del pretérito, mayor influencia en el imperfecto, que cede su significa-
do aspectual a favor del temporal de pasado y no requiere, por tanto, de marca-
ción morfológica distintiva. Con la progresiva implantación de los tiempos com-
puestos, el imperfecto recupera sus valores aspectuales o modales y esto culmina
en la reintroducción de una marca propia.
La autora acude a esta teoría para intentar ofrecer una explicación de con-
junto a la caída o el mantenimiento de –B – en el imperfecto de las lenguas
romances pero, creemos, es posible recuperar sus argumentos para la irrupción,
difusión y eliminación de –ié.
Además, el papel que puede jugar la progresiva implantación de los tiempos
compuestos en la variación formal del imperfecto resulta de gran interés si lo
conjugamos con la demostración de Rodríguez Molina (2010, cap.6, §8.4.2) sobre
la direccionalidad de este proceso en la Península Ibérica: «Todo el territorio del
actual País Vasco, Navarra, Aragón y, en menor medida, el noroeste de Burgos, el
oriente de Cantabria y Guadalajara aragonés al norte del Ebro configuran la zona
donde […] los tiempos compuestos muestran un grado de gramaticalización
mayor» (Rodríguez Molina 2010, 1217).
Si aunamos, por tanto, estas propuestas con el reparto –ié/–ía que, en el XIII,
presentan documentos de los tres romances centrales, podemos concluir que, si
bien inicialmente el proceso pudo ser común (analogía formal por convergencia
funcional), no así su evolución:
a) En el ámbito (centro)occidental del asturleonés, la convergencia funcional
entre ambos tiempos es prácticamente segura, pero el paradigma –ié es muy
reducido porque también lo es su presencia en el plural de los pretéritos de donde
parte la acción analógica. A medida que la castellanización opere en el territorio,
aumentarán los casos de –ié que, además, podrán fosilizarse con mayor facilidad
en tanto los tiempos compuestos presentan aquí los testimonios más tardíos de
gramaticalización.
b) En leonés oriental y en castellano (hasta el oriente de Cantabria por el
norte) la convergencia también está acreditada y, además, –ié está bien asentado
en los plurales del perfecto, de modo que ambos factores actúan en la difusión
progresiva de –ié. La presencia del modelo aragonés de pretérito –ié y variantes
francas pudo impulsar el proceso en zonas de contacto. La progresiva eliminación
de –ié, además de deberse a la acción de diversas fuerzas morfológicas, coincide
también con la gramaticalización de los tiempos compuestos.
c) En navarroaragonés, la convergencia funcional parece no ser ya operativa

o no tener reflejo formal por lo que, aunque la presencia de –ié en el pretérito se
ha extendido a todo el paradigma en determinadas variedades, el imperfecto
selecciona –ía como marca diferencial en todo el territorio. Progresivamente, la
influencia del castellano reintroduce –ié y esto coincide con la documentación de
imperfectos –eba, –iba.34 En este ámbito, donde más tempranamente se constata
la individuación morfológica (que se supone funcional) del indefinido y el im-
perfecto, es donde también se acreditan los casos más tempranos de tiempos
compuestos gramaticalizados.
En definitiva, los datos no avalan que pueda predicarse un comportamiento
homogéneo para la variación –ié/–ía en las tres variedades centrales peninsulares
durante el siglo XIII y su estudio desde un corpus construido con un enfoque intra-
e interdialectal se revela de gran interés para comprender la dinámica del cambio
operado en castellano, pues es aquí donde se focaliza la irrupción y difusión de –ié
frente a la resistencia de los ámbitos occidentales y orientales, con dinámicas
propias todavía no anuladas por la pretendida hegemonía del castellano.
6 Fuentes bibliográficas
Álamo, Juan del, Colección Diplomática de San Salvador de Oña (822–1284), Madrid, CSIC, 1950.
Casado, Mª Concepción (ed.), Colección diplomática del Monasterio de Carrizo, vol. I (969–1260)
y II (1260–1299), León, Centro de estudios e investigación San Isidoro, 1983.
Castro, Araceli y José Manuel Lizoain, Documentación del monasterio de las Huelgas de Burgos
(1284–1306), Burgos, Fuentes Medievales Castellano-Leonesas, 1987.
Díez, Carmen/López, Luis/Pérez, Rogelio, Abadía de Santillana del Mar. Colección diplomática,
Madrid, Fundación Santillana, 1983.
Escagedo, Mateo, Colección diplomática. Privilegios, escrituras y bulas en pergamino de la
insigne y real Colegiata de Santillana, Santoña, El Dueso, 1927.
Fernández Flórez, José Antonio (ed.), Colección diplomática del Monasterio de Sahagún,
(1200–1300), León, Centro de estudios e investigación San Isidoro, 1994.
Lacarra, José Mª, Colección diplomática de Irache, Pamplona, Institución Príncipe de Viana,
1986.
Lizoain, J. Manuel, Documentación del monasterio de las Huelgas de Burgos (1116–1230),
(1231–1262), Burgos, Fuentes Medievales Castellano-Leonesas, 1985.
López de Silanes, Ciriaco/Sáinz, Eliseo, Colección diplomática calceatense: Archivo Catedral
(años 1125–1397), La Rioja, Instituto de Estudios Riojanos, 1985.
López de Silanes, Ciriaco/Sáinz, Eliseo, Colección diplomática calceatense: Archivo Municipal
(años 1207–1498), La Rioja, Instituto de Estudios Riojanos, 1989.
34 La discusión sobre si –eba es conservación etimológica o creación analógica está en Khun

(1989), Rolfs (1935) y Alvar (1953).
Martín, J. Antonio/Ruiz Asencio, J. Manuel (edd.), Colección documental del archivo de la

Catedral de León, vol. IX (1269–1300), León, Centro de estudios e investigación San Isidoro,
1994.
Menéndez Pidal, Ramón, Documentos lingüísticos de España, I. Reino de Castilla, Madrid, CSIC,
1919.
Navarro Tomás, Tomás, Documentos lingüísticos del Alto Aragón, Siracusa, Syracus University
Press, 1957.
Oceja, Isabel, Documentación del Monasterio de San Salvador de Oña (1032–1284), Burgos, J.M.
Garrido Garrido, 1983.
Oceja, Isabel, Documentación del Monasterio de San Salvador de Oña (1284–1310), Burgos, J.M.
Garrido Garrido, 1985.
Ruiz Asencio, José Manuel (ed.), Colección documental del archivo de la Catedral de León
(1230–1269), León, Centro de estudios e investigación San Isidoro, 1993.
Sánchez Belda, Luis, Cartulario de Santo Toribio de Liébana, Madrid, Patronato Nacional de
Archivos, 1948.
Alvar, Manuel, El dialecto aragonés, Madrid, Gredos, 1953.
Alvar, Manuel/Pottier, Bernard, Morfología histórica del español, Madrid, Gredos, 1983.
Azofra, M.ª Elena, Morfosintaxis histórica del español: de la teoría a la práctica, Madrid, Uned,
2009.
Buesa, Tomás/Castañer, Mª Rosa, El pretérito perfecto simple en las hablas pirenaicas de Aragón
y Navarra, Archivo de Filología Aragonesa 50 (1994), 65–132.
Bustos Gisbert, Eugenio, La morfología histórica del verbo español, in: Girón, J. Luis/ Bustos,
J. Jesús de (edd.), Actas del VI Congreso Internacional de Historia de la Lengua Española,
vol. 1, Madrid, Arco Libros, 2006, 387–415.
Cano Aguilar, Rafael, La morfología histórica del español en los últimos cien años, in: Cisneros,
L. Jaime/Lerner, Isaías/Oesterreicher, Wulf (edd.), Homenaje José Luis Rivarola, vol. 2,
Lima, Fondo Editorial de la Pontificia Universidad Católica del Perú, 2004, 71–104.
Ciérvide, Ricardo, Primeros documentos navarros en romance, (1198–1230): comentario
lingüístico, Pamplona, Institución Príncipe de Viana, 1972.
Egido, Mª Cristina, El sistema verbal en el romance medieval leones, León, Universidad de León,
1996.
Ford, J. D, Old Spanish Readings, Boston, Athenaeum Press, 1906.
García Turza, Claudio/García Turza, Javier, Una nueva visión de la lengua de Berceo a la luz de
la documentación emilianense del siglo XIII, Logroño, Universidad de la Rioja, 1996.
García-Macho, Mª Lourdes/Penny, Ralph, Gramática histórica de la lengua española: morfología,
Madrid, Uned, 2013.
Gassner, Armin, Das altspanische Verbum, Halle, Max Niemeyer, 1897.
Rohlfs, Gerhard, Le gascon. Études de philologie pyrénéenne, Halle, Max Niemeyer, 1935.
Gifford, D.F./Hodcroft, F.W, Textos lingüísticos del medievo español, Oxford, The Dolphin Book,
1966.
González Bachiller, Fabián, El léxico romance de las colecciones diplomáticas calceatenses en
los siglos XII y XIII, Logroño, Universidad de La Rioja, 2002.
González Ollé, Fernando, Pretérito imperfecto y condicional con desinencia –ie en el siglo XVI,
Revista de Filología Española 80/3–4 (2000), 341–377.
Hanssen, Friedrich, Sobre la formación del imperfecto de la segunda y tercera conjugación
castellana en las poesías de Gonzalo Berceo, Anales de la Universidad de Chile 85 (1894),
655–694.
Hanssen, Federico, Estudios sobre la conjugación aragonesa, Archivo de Filología Aragone-
sa 26/27 (1896), 401–418 (=1896a).
Hanssen, Federico, Estudios sobre la conjugación leonesa, Santiago de Chile, 1896
(=1896b).
Hanssen, Friedrich, Das Possessivpronomen in den altspanischen Dialekten, Valparaíso,
Imprenta del Universo de G. Helfmann, 1897.
Hanssen, Friedrich, Gramática histórica de la lengua castellana, Halle, Niemeyer, 1913.
Hartman, Steven L., Alfonso el Sabio and the varieties of verb grammar, Hispania 72 (1974),
48–55.
Henriksen, Nicholas, A reanalysis of paradigmatic variation in the Old Spanish imperfect,
Studies in Hispanic and Lusophone Linguistics, 1 (2008), 287–316.
Henriksen, Nicholas, Imperfect variation and class marking in the Old Spanish third conjugation,
in: Masullo, P./O’Rourke, E./Huang, C., Romance Linguistics 2007, Amsterdam, John Benja-
mins, 2009, 143–156.
Hernández Alonso, César, De las glosas al Mio Cid, in: Criado del Val, Manuel (ed.), Los orígenes
del español y los grandes textos medievales: Mio Cid, Buen Amor, Celestina, Madrid, CSIC,
2001, 87–96.
Imhoff, Brian, On the Chronology and Recession of the Old Spanish –ie Imperfect, La Corónica
46/2 (1998), 243–255.
Imhoff, Brian, Dialect Contact and Historical Linguistic Variation: The Old Spanish –ie imperfect,
Hispanic Review 68 (2000), 381–396 (=2000a).
Imhoff, Brian, Socio-historic network ties and medieval Navarro-Aragonese, Neuphilologische
Mitteilungen101 (2000b), 443–450 (=2000b).
Imhoff, Brian, A note on the Old Aragonese –ie preterite, Bulletin of Hispanic Studies 81 (2004),
1–4.
Imhoff, Brian, Menéndez Pidal y el origen del imperfecto en –ie, Anuario de Letras 45 (2007),
229–237.
Kuhn, Alwin, El perfecto simple aragonés. Arag. –ll– > –ts–, Archivo de Filología Aragonesa 42–
43 (1989), 279–291.
Lang, Henry R., Hanssen, Friedrich, Spanische Grammatik auf Historischer Grundlage, Romanic
Review 2 (1911), 327–347.
Lapesa, Rafael, El Dialecto Asturiano Occidental en la Edad Media, Sevilla, Universidad de
Sevilla, 1998.
Lapesa, Rafael, Historia de la Lengua Española, Madrid, Gredos, 1981.
Lausberg, Heinrich, Lingüística románica. Morfología, Madrid, Gredos, 1982.
Lloyd, Paul M., Del latín al español. Fonología y morfología históricas de la lengua española,
vol. 1, Madrid, Gredos, 1993.
López Bobo, Mª Jesús, El castellano como <cuña lingüística>. Replanteamiento de la tesis
pidaliana a partir de un estudio diacrónico del verbo aragonés (I), Archivo de Filología
Aragonesa 51 (1995), 31–74.
Luquet, Gilles, Modos y persona en la historia del verbo español. Observaciones sobre los
imperfectos y condicionales en –ie del castellano antiguo, in: Echenique, Mª Teresa/Sán-
chez Méndez, Juan (edd.), Actas del V Congreso Internacional de Historia de la Lengua
Española, vol. 1, Madrid, Gredos, 2002, 757–765.
Malkiel, Yakov, Toward a Reconsideration of the Old Spanish Imperfect in –ía ~ –ié, Hispanic
Review 27 (1959), 435–481.
Matute, Cristina, Los sistemas pronominales en español antiguo. Problemas y métodos para una
reconstrucción histórica, Madrid, Universidad Autónoma de Madrid, 2004 [Ed. de la autora
en http://www.lllf.uam.es/coser/publicaciones/cristina/1_es.pdf] [Consultada el 15/02/
2015].
Menéndez Pidal, Ramón, Cantar de Mio Cid. Texto, gramática y vocabulario, Madrid, Espasa
Calpe, 1944.
Menéndez Pidal, Ramón, Orígenes del Español.Estado lingüístico de la Península Ibérica hasta
el siglo XI., Madrid, Espasa Calpe, 31950.
Menéndez Pidal, Ramón, Manual de gramática histórica española, Madrid, Espasa Calpe,
13
1968.
Moral del Hoyo, Mª Carmen, Documentación medieval de Cantabria: estudio lingüístico.
(Siglo XIII), Universidad de Deusto, [Tesis doctoral inédita], 2013.
Moral del Hoyo, Mª Carmen, Hacia una dialectología gramatical del castellano medieval: cues-
tiones morfológicas del imperfecto y futuro de subjuntivo, Scriptum digital 4, (2015, 143–
164).
Moreno de Alba, José G., Valores verbales de los tiempos pasados de indicativo y su evolución,
in: Company, Concepción (dir.), Sintaxis histórica de la lengua española. Primera parte: la
frase verbal, vol. 1, t. 1, México, Fondo de Cultura económica, 2006, 5–94.
Onís, Federico de, Contribución al estudio del dialecto leones. Examen filológico de algunos
documentos de la catedral de Salamanca, Salamanca, F. Núñez Izquierdo, 1909.
Penny, Ralph, Sobre el concepto del castellano como dialecto revolucionario, in: Mª Teresa
Echenique/Milagros Aleza/María J. Martínez (edd.), Actas del I Congreso de Historia de la
lengua española en América y España, Valencia, Tirant lo Blanch, 1995, 403–407.
Penny, Ralph, Variation and Change in Spanish, Cambridge, Cambridge University Press,
2000.
Pérez Salazar, Carmela, Rasgos morfosintácticos y léxicos del romance navarro (primer tercio del
siglo XIII), Principe de Viana 198 (1993), 111–184.
Pla Colomer, Francisco, Reconstrucción de la pronunciación castellana medieval: la voz de los
poetas, Valencia, 2013 [http://www.infoling.org/repository/PhDdiss-Infoling-35-6-2013.
pdf] [Consultada el 15/02/2015].
Posner, Rebecca, The imperfect endings in Romance, Transactions of the Philological Society
60:1 (1961), 17–55.
Rini, Joel, Exploring the Role of Morphology in the Evolution of Spanish, Amsterdam/Philadel-
phia, John Benjamins, 1999.
Rodríguez Molina, Javier, La gramaticalización de los tiempos compuestos en español antiguo:
cinco cambios diacrónicos, Universidad Autónoma de Madrid, 2010 [Tesis doctoral inédita].
Ruiz de la Peña, J. Ignacio, Las colonizaciones francas en el Camino de Santiago, in: García Turza,
Javier (coord.), El Camino de Santiago y la sociedad medieval, Logroño, Instituto de Estudios
Riojanos, 2000, 135–142.
Sánchez González de Herrero, Nieves, Rasgos fonéticos y morfológicos de los documentos
alfonsíes, Revista de Filología Española 82:1–2 (2002), 139–177.
Sánchez González de Herrero, Nieves, et al. Textos para la Historia del Español IX: Documentos
medievales de Miranda de Ebro, Madrid, Universidad de Alcalá de Henares, 2014.
Sánchez-Prieto, Pedro, El romance en los documentos de la catedral de Toledo (1171–1252): la

escritura, Revista de Filología Española 87:1 (2007), 131–178.
Sanchis, Mª del Carmen, El lenguaje de la Fazienda de Ultramar, 49, Madrid, Anejos del Boletín
de la Real Academia Española, 1991.
Saralegui, Carmen, El dialecto navarro en los documentos del monasterio de Irache (958–1397),
Pamplona, Diputación foral de Navarra, 1977.
Staaff, Erik, Étude sur l’ancien dialecte léonais d’après des chartes du XIIIe siècle, Upsala,
Almqvist & Wiksell, 1907.
Tuten, Donald N., Koineization in Medieval Spanish, Berlin/New York, Mouton de Gruyter, 2003.
Vázquez Obrador, Jesús, Diacronía vocálica en la toponimia de Sobremonte, Sobrepuerto y Tierra
de Biescas (Huesca), Alazet 12 (2000), 201–242.
Vázquez Obrador, Jesús, Aspectos fonéticos, morfonológicos y léxicos del aragonés antiguo
desvelados por los topónimos, Archivo de Filología Aragonesa 67 (2011), 143–172.
Viejo, Xulio, La llingua de los documentos del monesteriu de San Bartolome de Nava (sieglos
Xlll–XIV), Lletres Asturianes 47 (1993), 7–48.
Inés Carrasco Cantos y Livia Cristina García Aguiar
Análisis de la sufijación en el corpus DITECA
1 Introducción
Uno de los aspectos fundamentales del estudio del léxico desde el punto de vista
histórico lo constituye la investigación de los sufijos utilizados para la formación
de nuevos elementos léxicos, en tanto que son uno de los más importantes
recursos para la ampliación y renovación del vocabulario de una lengua (Pharies
2002; Clavería 2012).
El corpus de trabajo sobre el que hemos planteado la investigación lo consti-
tuye un conjunto de ordenanzas concejiles, textos del ámbito de la tradición
jurídica, que representan muestras de la lengua que discurre entre el siglo XIII y
el siglo XVIII: Sevilla (s. XIII), Córdoba (1435), Sevilla (1492), Carmona (1525–
1535), Lepe (s. XVI–XVIII), Baeza (s. XVI), Monda (1574), Aljarafe (s. XVI) y Archi-
dona (1598). Estos documentos integran la base sobre la que hemos elaborado el
Diccionario de textos concejiles de Andalucía (DITECA), disponible en la red
(<http://www.arinta.es>), desde donde nos es posible obtener información de
cada uno de los términos en los tres niveles considerados: categorial, etimológico
y semántico.
En esta investigación nos proponemos establecer las bases para poder estu-
diar la vitalidad, productividad o el desgaste que sufren los elementos sufijales en
la cronología mencionada a partir del DITECA. Nuestros datos podrán ser contras-
tados con los distintos corpus del dominio hispánico.
Las partes de que consta el trabajo son las siguientes: en primer lugar,
ofrecemos un análisis con la cuantificación de los afijos derivativos del corpus,
excepción hecha de las formaciones sufijales de carácter apreciativo; en un
segundo apartado nos centramos en el análisis de algunas de las parejas sufijales
que se han presentado en la historia de la lengua como rivales por su diferente
tratamiento evolutivo para determinar sus diferentes funciones. Por último, ofre-
cemos unas conclusiones.
Inés Carrasco Cantos: Universidad de Málaga

Livia Cristina García Aguiar: Universidad de Granada
2 Análisis cuantitativo de los elementos sufijales

del corpus
Para la cuantificación de los sufijos derivativos partimos de una primera clasifica-

ción en función de la configuración categorial, denominal, deadjetival o dever-
bal, que se obtiene del proceso de la adición de un afijo a una determinada base.
Establecemos tres grandes grupos en correspondencia con esos grandes tipos.
Por otro lado, hemos de señalar que en los diferentes cuadros que hemos
elaborado con los resultados distinguimos entre productividad o rendimiento
(número de entradas o formas diferentes registradas en DITECA con ese afijo) y
frecuencia (número de ocurrencias o apariciones de cada morfema en el corpus).1
Cuadro 1: Indicadores de los tipos de derivación
Tipo de Productividad % de % frente a la misma

derivación frecuencia derivación categoría (sustantivos,
adjetivos y verbos)2
Entradas 902 58,34 % 32,11 %

(902/1546) (902/2809)
Derivados
Ocurrencias nominales 12402 70,19 % 13,97 %
(12402/17668) (12402/88776)
Entradas 324 20,96 % 59,78 %

(324/1546) (324/542)
Derivados
Ocurrencias adjetivales 2410 13,64 % 26,92 %
(2410/17668) (2410/8952)
Entradas 320 20,70 % 34,30 %

(320/1546) (320/933)
Derivados
Ocurrencias verbales 2856 16,16 % 8,68 %
(2856/17668) (2856/32903)
1 A partir de estos dos indicadores se obtiene la disponibilidad. A mayor frecuencia y productivi-

dad de un proceso, mayor será la disponibilidad o posibilidad de reconocimiento y uso por parte
del hablante (Alcoba 2008, 46).
2 En esta columna ofrecemos los datos que muestran la proporción de derivados frente a los
demás términos de su misma categoría; esto es, el porcentaje de derivados nominales frente a
todos los sustantivos (derivados y no derivados) del corpus, el porcentaje de derivados adjeti-
vales frente al total de adjetivos del corpus y, finalmente, el porcentaje de derivados verbales
frente al número general de verbos de DITECA.
360 Inés Carrasco Cantos y Livia Cristina García Aguiar
Cuadro 1: (continuada)
Tipo de Productividad % de % frente a la misma

derivación frecuencia derivación categoría (sustantivos,
adjetivos y verbos)2
Entradas 1546 100 % 36,09 %

(1546/1546) (1546/4284)
Total
Ocurrencias 17668 100 % 13,52 %
(17668/17668) (17668/130631)
Gráfico 1: Proporción de tipos de derivación en el corpus
2.1 Derivación nominal
Los derivados nominales van clasificados en tres grupos de acuerdo con sus
rasgos semánticos dominantes: ‘nombres de acción y efecto’, ‘nombres de cuali-
dad’ y ‘nombres de persona, instrumento y lugar’.
2.1.1 Derivación nominal: nombres de acción y efecto
Cuadro 2: Derivación nominal: los nombres de acción y efecto
Sufijos Entradas/frecuencia % dentro del grupo % deriv. nominal
–a/–e/–o 126 24,05 13,97
1715 21,73 13,83
–ción 119 22,71 13,19
1162 14,72 9,37
–da/–do 101 19,27 11,20
2111 26,75 17,02
–miento 71 13,55 7,87
827 10,48 6,67
–ncia 51 9,73 5,65
1730 21,92 13,95
–dura 24 4,58 2,66
178 2,26 1,44
–azgo 15 2,86 1,66
84 1,06 0,68
–aje 12 2,29 1,33
65 0,82 0,52
–ío 3 0,57 0,33
17 0,22 0,14
–ón 2 0,38 0,22
3 0,04 0,02
Subtotal 524 58,09
7892 63,63
Los nombres de acción y efecto se definen de acuerdo a la paráfrasis ‘acción y

efecto de V’. En la actualidad constituyen uno de los conjuntos más extensos y
articulados de la morfología española (GRAE 2010, 101). Así también en DITECA, en
donde hemos establecido una nómina de 10 tipos de sufijos, algunos de los cuales
ofrecen variantes en relación con las soluciones cultas y vernáculas: –ción/–zón;
–miento/–mento; –ncia/–nza. Suman un total de 524 términos (58,09 % de todos

los derivados nominales del corpus), con 7892 ocurrencias (63,63 %).
El índice de productividad más alto lo ofrecen los sufijos vocálicos dever-
bales3 (126, un 24,05 % de los sufijos nominales de acción y efecto), que con-
tinúan siendo sufijos muy rentables en el español actual (GRAE 2010, 107–109),
seguidos muy de cerca por el sufijo –ción (119, 22,71 %).
El tercer puesto en cuanto a número de entradas lo ocupan los derivados
participiales (101 formas), que expresan ‘acción’ (en sentido amplio) y también
‘efecto’ (GRAE 2010, 111). Estos, sin embargo, son los primeros en número de
ocurrencias (2111, 26,75 %)4.
Los puestos sucesivos se distribuyen entre los sustantivos en –miento5, o
–mento6 (71/827), –encia (51/1730),7 –dura,8 –azgo9 y –aje. Son minoritarios, con
una proporción inferior al 1 %, los derivados en –ío (0,57 %), formados normal-
mente sobre bases nominales (poderío, señorío), y los derivados en –ón (0,38 %),
3 Algunos ejemplos de los sufijos –a, –e, –o son: ayuda, cata, caza, compra, consulta, contienda,
corta, cría, demanda, denuncia, derrama, excusa, firma, guarda, iguala, junta, jura, mejora,
mengua, protesta; contraste, corte, deslinde, remate, temple, trance; acarreo, arreo, despolvoreo,
rodeo, vareo.
4 Representantes de los sufijos participiales son entre otros: alzada, arada, arribada, asomada,
cabalgada, entrada, estada, morada, obrada, parada, posada, quebrada; apeado, cercado, cria-
do, demandado, delegado, jurado, mandado, sembrado, vidriado.
5 Representantes del sufijo –miento: abundamiento, acatamiento, alargamiento, alongamiento,
amojonamiento, apartamiento, apercibimiento, aprovechamiento, arrendamiento, atrevimiento,
avenimiento, ayuntamiento, bastecimiento, cohechamiento, conocimiento, consentimiento, conten-
tamiento, crecimiento, cumplimiento, detenimiento, emplazamiento, encabezamiento, encendi-
miento, enherbolamiento, establecimiento, estreñimiento, fallecimiento, gastamiento, guisamiento,
hacimiento, hacinamiento, heredamiento, igualamiento, libramiento, llamamiento, mandamiento,
mantenimiento, merecimiento, movimiento, nacimiento, nombramiento, ordenamiento, partimien-
to, pedimiento, pensamiento, perdimiento, proveimiento, quebrantamiento, quitamiento, recibi-
miento, recogimiento, reconocimiento, recudimiento, regimiento, repartimiento, requerimiento,
saneamiento, seguimiento, señalamiento, tratamiento, vedamiento.
6 –Mento es una variante de gran importancia en la época medieval (Pattison 1975, 49),
comúnmente asociada a bases cultas y que ya no es productiva. La mayoría de los ejemplos son
derivados latinos. En nuestro corpus se encuentra en minoría respecto de –miento. Algunos
ejemplos son: bastimento, detrimento, pagamento. Solamente hemos podido registrar la alternan-
cia entre –miento y –mento en tres términos, entre los que la opción latinizante es la dominante:
aditamento (6 ocurrencias) / aditamiento (1 ocurrencia); impedimento (16) / impedimiento (1) y
juramento (108) / juramiento (1).
7 Advertencia, asistencia, audiencia, avenencia, querencia, resistencia.
8 Así las voces barredura, cabalgadura, corredura, empedradura, encapachadura, enjabonadura,
majadura, moledura, remoledura, sembradura.
9 Cf. infra 3.3.
de los que como representantes de nombres de acción y efecto se atestiguan dos:

manchón (2), derivado de mancha, y pisón (1), derivado de pisar, usado en la
locución a pisón.
2.1.2 Derivación nominal: nombres de cualidad
Cuadro 3: Derivación nominal: los nombres de cualidad, estado y condición
–dad 53 28,80 5,88
851 32,77 6,86
–ía 34 18,48 3,77
463 17,83 3,73
–ncia 29 15,76 3,22
255 9,82 2,06
–ería 25 13,59 2,77
117 4,51 0,94
–eza/–icia 22 11,96 2,44
829 31,92 6,68
–ura 9 4,89 1,00
35 1,35 0,28
–ia 7 3,80 0,78
35 1,35 0,28
–dumbre 2 1,09 0,22
5 0,19 0,04
–itud 2 1,09 0,22
3 0,12 0,02
–or 1 0,54 0,11
4 0,15 0,03
Subtotal 184 20,40
2597 20,94
El segundo grupo de sufijos corresponde a los sustantivos de cualidad, estado y

condición. Cuenta con un total de 184 formas (20,40 % de los derivados nomi-
nales) y una frecuencia de 2597 formas (20,94 %). El más productivo es –dad, con
un campo léxico integrado por 53 formas (28,80 % de los sufijos nominales
analizados). El significado básico de ‘cualidad’ se incrementa con otros, tales
como ‘comportamientos, designaciones de personas, lugares, temporales, con-
juntos, designaciones de estatus, objetos que poseen la cualidad X’ (Santiago/
Bustos 1999, 4535–4537). Algunos de los derivados con este sufijo lo eran ya en
latín (autoridad, fidelidad, necesidad).
Este morfema derivativo tiene cuatro variantes: –edad (representado con 11
formas);10 su frecuencia es la más elevada (325 ítems) y no da lugar hoy a
derivados nuevos; –idad (representado con 28 formas),11 variante muy productiva
en el español actual; –dad (con 6 formas),12 y –tad, variante culta con 8 represen-
tantes, todos ellos derivados directos del latín.13
Cuadro 4: El sufijo ‑dad
Sufijos Entradas Frecuencia
–idad 28 284
–edad 11 325
–dad 6 87
–tad 8 155
Total 53 851
El siguiente en productividad es –ia (34 formas, 18,48 %). Se utiliza en la forma-

ción de un buen número de nombres de cualidad a partir de adjetivos o sustanti-
vos. En algunos casos se habla más de ‘condición’,14 sentido que se extiende a las
designaciones de rangos, cargos, profesiones,15 etc. (vid. GRAE 2010, 120; Santia-
go/Bustos 1999, 4566; Pharies s.v.).
10 Antigüedad, brevedad, enfermedad, falsedad, gravedad, heredad, humedad, novedad, propie-

dad, suziedad, variedad.
11 Algunos de sus representantes son: ancianidad, autoridad, calidad, claridad, cantidad,
comodidad, facilidad, fidelidad, honestidad, parcialidad, puntualidad, utilidad.
12 Hermandad, fieldad, igualdad, maldad, verdad, vecindad.
13 Amistad, dificultad, enemistad, facultad, honestad, libertad, majestad, voluntad.
14 Así en alegría, cercanía, mejoría, osadía, rebeldía, valía, umbría.
15 Alcaldía, asesoría, almotacenía, capellanía, escribanía, recatonía, veeduría.
Después vienen –ncia y –nza, dos alomorfos del mismo sufijo que se encuen-
tran en distribución complementaria, pues cuando aparece uno se bloquea la
aparición del otro (GRAE 2010, 113). Aplicado a bases adjetivas forma nombres de
cualidad. En total son 29 formas (15,76 %).16
Es también importante –ería, sobre cuya independencia de –ia es posible
hablar siempre que no exista una base previa en –ero (Pharies 2002, 226). Su
campo sufijal consta de 25 términos (13,59 %).17
Los menos representativos de esta serie son los derivados en –itud (rectitud,
solicitud), –dumbre (certidumbre, servidumbre) y –or (gordor), que es el único
sufijo existente para formar nombres de cualidad en masculino. No es productivo
en la actualidad. En DITECA alterna con –ura (gordura).
2.1.3 Derivación nominal: nombres de persona, instrumento y lugar
Cuadro 5: Derivación nominal: nombres de persona, instrumento y lugar
‑ero/‑era 113 58,25 12,53
1130 59,07 9,11
‑dor/‑dora 43 22,16 4,77
518 27,08 4,18
‑nte 25 12,89 2,77
156 8,15 1,26
‑dero/‑dera 12 6,19 1,33
107 5,59 0,86
‑iego 1 0,52 0,11
2 0,10 0,02
Subtotal 194 21,51
1913 15,42
16 Abundancia, asistencia, ausencia, congruencia, conveniencia, diferencia, diligencia, distancia,

dolencia, excelencia, experiencia, ignorancia, inexperiencia, negligencia, observancia, pertenencia,
preeminencia, presencia, providencia, querencia, residencia, resistencia, reverencia, suficiencia,
vigilancia.
17 Abarquería, albañería, solería.
El tercer grupo de sufijos está formado por todos los que significan nombre de
persona, instrumento y lugar. El primero en productividad es el sufijo –ero/–era
para la designación de los oficios, con una nómina de 113 formas (58,25 %).
Algunos de los términos, en una proporción mínima, solo vienen expresados en
su forma femenina al quedar restringido el desempeño de esos oficios a las
mujeres: bercera ‘verdulera’, trecenera, andalucismo, derivado de tresnar (DCECH
s.v.), ‘llaman en Córdova a las panaderas, y quiere decir cosarias’ (Del Rosal, s.v.
trezenera, apud NTLLE), ramera.18
Son también muy representativos en el corpus los nombres de agente en –dor
(43 ítems19 = 22,16 %), los derivados en –nte (25 ítems20 = 12,89 %) y en menor
proporción los derivados en –dero (12 ítems21 = 6,19 %).
El sufijo con menor índice de productividad es –iego, registrado en la voz
maniego de las ordenanzas de Carmona y sobre cuyo significado hemos aventu-
rado el de ‘trampa o red para cazar conejos’.22
2.2 Derivación adjetival
Cuadro 6: Derivación adjetival
Sufijos Entradas/ % deriv. adj. Sufijos Entradas/ % deriv.

frecuencia frecuencia adj.
Sufijación adjetival
–do/–da 57 17,59 –dero/ 4 1,23

–dera
557 23,11 15 0,62
–nte 38 11,73 –izo/–iza 4 1,23
189 7,84 11 0,46
18 Hay también –ero/–era para ‘sitio’: barrero ‘sitio de donde se saca el barro para usar en los
alfares y para otras obras’, tablero ‘tablar’, caldera, calera, ribera, cantera, carrera, junquera,
ladera, lobera, melonera, pedrera, pesebrera, ribera, talanquera, testera.
19 Acarreador, aperador, atajador, cambiador, cavador, cazador, sagador, solador, trasquilador,
etc.
20 Apelante, caminante, litigante, marchante, querellante, representante, asistente, bienquer-
iente, delincuente, pariente, etc.
21 Abrevadero, agostadero, asidero, atadero, bebedero, descansadero, lavadero, matadero, etc.
22 Cf. Pharies (2002, 317–319) para los significados de este sufijo que, en principio, forma
adjetivos susceptibles de sustantivarse.
Sufijos Entradas/ % deriv. adj. Sufijos Entradas/ % deriv. adj.

frecuencia frecuencia
–oso/–osa 32 9,88 –dizo/ 4 1,23

–diza
86 3,57 9 0,37
–al 23 7,10 –‘il 4 1,23
140 5,81 9 0,37
–to/–ta 14 4,32 –ísimo 3 0,93
65 2,70 99 4,11
–dor/–dora 13 4,01 –uno/ 3 0,93

–una
179 7,43 50 2,07
–ero/–era 12 3,70 –ino/–ina 3 0,93
85 3,53 24 1,00
–ble 12 3,70 –eno/ 3 0,93

–ena
44 1,83 8
–ano/–ana 11 3,40 –orio/ 3 0,93

–oria
61 2,53 4 0,17
–ario/–aria 10 3,09 –iego/ 3 0,93

–iega
185 7,68 3 0,12
–so/–sa 9 2,78 –iondo/ 2 0,62

–ionda
33 1,37 5 0,21
–o/–a 8 2,47 –áneo/ 2 0,62

–ánea
34 1,41 2 0,08
–ivo/–iva 8 2,47 –engo/ 1 0,31

–enga
19 0,79 14 0,58
–ar 8 2,47 –eño 1 0,31
19 0,79 4 0,17
–ado/–ada 7 2,16 –areo 1 0,31
18 0,75 2 0,08
–‘ico/–‘ica 5 1,54 –enco/ 1 0,31

–enca
288 11,95 1 0,04
Sufijos Entradas/ % deriv. adj. Sufijos Entradas/ % deriv.

frecuencia frecuencia adj.
–‘imo/–‘ima 5 1,54 –és/–esa 1 0,31
36 1,49 1 0,04
–ío 4 1,23 –isco 1 0,31
72 2,99 1 0,04
–il 4 1,23 Total 324 59,78
36 1,49 2410 26,92
El cómputo total de términos adjetivales derivados es de 324 elementos, que

suponen el 20,96 % del corpus analizado y el 59,78 % del total de los adjetivos.
El total de ocurrencias correspondientes a la derivación adjetival llega a 2410
(13,64 %).
El inventario de sufijos que sirven para la formación de adjetivos en el
DITECA es de 37 elementos, según se refleja en el cuadro 6.
El grupo mayoritario está constituido por los derivados participiales en –do,
–da,23 integrado por 57 formas (17,59 % del conjunto), con una frecuencia de 557
ocurrencias (23,11 %). Les siguen los derivados en –nte24 (38 /189); –oso25 (32/86);
y el denominal –al 26 (23/140).
23 Algunos testimonios son abonado, acontiado, acostumbrado, antepasados, apelado, atrevido,

azumbrado, cencido, rosado, tapetado, templado, violado, etc.
24 Estas formaciones aparecen frecuentemente sustantivadas: antecedente, ausente, bastante,
competente, consciente, corriente, conveniente, dependiente, diligente, entrante, evidente, otor-
gante, procedente, etc.
25 Los adjetivos con este morfema derivativo son fundamentalmente denominales pero los hay
también deverbales. Algunos ejemplos son calumnioso, canosa, cauteloso, celoso, criminoso,
cuantioso, dañoso, defectuoso, dudoso, engañosas, escandaloso, forzoso, etc.
26 Es uno de los sufijos más productivos dentro de los adjetivos de relación y tiene carácter culto
además de estar confinado esencialmente a los lenguaje de especialidad (Rainer 1999, 4616).
Algunos de nuestros ejemplos son asnal, boyal, cecial, cutral, foral, general, humanal, judicial,
penal, perjudicial, procesal.
Entre los que quedan por debajo del 5 % de productividad están: –to27 (14/
65); –dor/–dora28 (13/179); –ble29 (12/44); –ero30 (12/85); –ano31 (11/61); –ario32
(10/185).
Hay elementos sufijales de poca productividad y un alto porcentaje de
ocurrencias: –‘ico33 (5/288); –ío34 (4/72); –‘imo35 (3/99). Entre los que no son ya
productivos aparecen –engo,36 –iondo,37 –enco.38 Otro tanto se aprecia con el
sufijo –iego, uno de los más castizos en la época clásica para la creación de
adjetivos a partir de sustantivos: enciniego (Ordenanzas de Lepe); merchaniego
(Ordenanzas de Monda) ‘aplicábase al ganado que se llevaba a vender en las
ferias y mercados’ (DRAE s.v.). Se ha señalado su falta de productividad en el
lenguaje literario por el tono rústico que imprime a los vocablos, excepto en el
campo de los gentilicios (Pharies 2002, 318).39
27 Forma parte de los adjetivos deverbales pasivos participiales: abierto, atento, exutas, esentos.
28 Debdor, administrador, cogedor, encubridor, guardador, matador, sabidoras, trabajadora, etc.
29 Entra en la formación de adjetivos deverbales pasivos potenciales: convenible, fiable, loable,
notable, razonable. Para sus diferentes matices, cf. Rainer (1999, 4609–4610).
30 Este sufijo participa en las formaciones de adjetivos de carácter fundamentalmente relacio-
nal: casero, cerreras, delantero, conejero, trasero, pesquera, terrera.
31 Entre los derivados con este sufijo se encuentran los adjetivos relacionales como comarcano,
cristiano, humano, metropolitano, y particularmente los deonomásticos de lugar: castellano,
toledano .
32 Sufijo culto que forma adjetivos a partir por lo general de bases nominales. Algunos de los
términos son creaciones del latín: arbitrarias, cosario, falsario, ordinario, originario, pecuniario.
33 Ejemplos de este sufijo de origen culto son apostólica, auténtico, eclesiástico, público. En
español actual es muy productivo (Rainer 2999, 4618).
34 Baldío, cabrío, tardío.
35 Grandísimo, ilustrísimo, santísimo.
36 De origen germánico: realengo.
37 Su origen es el latín (i)bundus usado para crear adjetivos que expresan la acción verbal
intensificada (Pharies 2002, 435): hedionda. El grupo más antiguo y auténtico, según Pharies, de
derivados en –iondo en español consta de cinco palabras que describen una hembra en celo
(2002, 435). Entre ellas se encuentra el ejemplo del corpus correspondiente a la voz torionda
‘dicho especialmente de una vaca: Que está en celo’, documentada en Nebrija y derivada de un
verbo hipotético *torir ‘montar un toro a la vaca’ (DCECH s.v. toro).
38 De origen germánico: mostrenca ‘dicho de una persona: Que no tiene casa ni hogar, ni señor
o amo conocido’. Es una alteración de mestenco, derivado de mesta (DCECH s.v. mostrenco).
39 Carrasco (2011, 178).
2.3 Derivación verbal

Cuadro 7: Derivación verbal
(Prefijo +) sufijo Entradas/frecuencia % deriv. verbal
108 33,75
–ar
1704 59,66
70 21,88
A– + base + –ar
529 18,52
46 14,38
Des– + base + –ar
141 4,94
23 7,19
En– + base + –ar
117 4,10
20 6,25
Re– + base + –ar
130 4,55
Sufijación en –ar
3 0,94
In– + base + –ar
8 0,28
2 0,63
De– + base + –ar
6 0,21
1 0,31
Tras– + base +–ar
5 0,18
1 0,31
Sobre– + base +–ar
4 0,14
1 0,31
1 0,04
Con– + base + ar
275 85,94
Subtotal
2645 92,61
17 5,31
–ear
66 2,31
Sufijación en –ear
3 0,94
5 0,18
A– + base + –ear
20 6,25
Subtotal
71 2,49
(Prefijo +) sufijo Entradas/frecuencia % deriv. verbal
13 4,06
–ecer
100 3,50
3 0,94
En– + base + –ecer
22 0,77
Sufijación en –ecer
3 0,94
A– + base + –ecer
7 0,25
1 0,31
1 0,04
Com– + base + –ecer
20 6,25
Subtotal
130 4,55
2 0,63
–izar
5 0,18
1 0,31
Sufijación en –izar Des– + base + –izar
2 0,07
1 0,31
1 0,04
En– + base + –izar
4 1,25
Subtotal
8 0,28
1 0,31
Sufijación en –ificar –ificar
2 0,07
El español es una lengua especialmente rica en la creación de verbos a partir de

bases pertenecientes a diversas categorías. Así se manifiesta en nuestro corpus,
que recoge 320 términos verbales derivados (lo que supone un 34,30 % de todas
las formas verbales de DITECA) con una frecuencia de 2856 ítems (8,68 % de
frecuencia verbal en DITECA).
Con respecto a los procesos de verbalización, distinguimos entre los directos,
también conocidos como de derivación inmediata, representados por el sufijo
–ar, y los de derivación indirecta o mediata, que emplean los sufijos –ear, –ecer,
–izar e –ificar.
En nuestro corpus, como también sucede en la actualidad, los derivados

verbales con una mayor presencia son aquellos que se forman a partir de una
base y del sufijo –ar. Con una productividad de 108 formas diferentes (33,75 %
del corpus analizado), muestran, además, una elevadísima frecuencia de apari-
ción, ocupando casi el 60 % de las ocurrencias verbales del corpus (1704 ítems=
59,66 %). Esta situación se corresponde con la de la actualidad, en la que este
procedimiento de formación de verbos está ampliamente representado y ofrece
una notable productividad (Serrano-Dolader 1999, §72.1.1.1).
Los demás sufijos verbales del corpus presentan una menor productividad.
–Ear se emplea en 17 formas diferentes (5,61 %) con 66 ocurrencias (2,31 %); le
sigue –ecer, que aunque tiene una menor productividad (13 formas, 4,06 %)
muestra una frecuencia de aparición mayor (100 ítems, 3,50 %). En el documento
más antiguo del corpus (ordenanzas sevillanas) encontramos un ejemplo de la
rivalidad léxica entre –ecer/–ir: guarir/guarecer.
Con una presencia muy reducida encontramos también derivados en –izar
(2 entradas, 0,63 %; 5 ítems, 0,18 %)40 y en –ificar (1 forma, 0,31 %; 2 apariciones,
0,07 %).
Los esquemas de parasíntesis verbal, generalmente heredados del latín, son
también muy productivos en el corpus, especialmente los que presentan como
prefijo los morfemas a–, des y en–.
El modelo más productivo y frecuente es el formado por el prefijo a– y el
sufijo –ar. Lo encontramos en 70 formas verbales (21,88 %) y 529 ítems (18,52 %).
Le siguen los esquemas des– –ar, con 46 entradas (14,38 %) y 141 apariciones
(4,94 %) y en– –ar (23 entradas, 7,19 % y 117 ocurrencias, 4,10 %). También es
posible encontrar parasíntesis verbal con otros sufijos, como el esquema en–
–ecer, aunque son menos productivos (3 entradas, 0,94 %; 22 ocurrencias,
0,77 %).
En definitiva, son las formas de la primera conjugación con el sufijo directo
–ar (con o sin prefijación añadida) las más productivas y frecuentes en el corpus,
sumando 275 entradas (85,94 %) y 2645 frecuencias (92,61 %).
40 Señala Serrano-Dolader (1999, §72.1.1.3) que la productividad del sufijo –izar es bastante
reciente, como demuestra el hecho de que solo una mínima parte de los verbos hoy utilizados
estén documentados antes del siglo XX.
3 Análisis cualitativo
3.1 Los sufijos –ción/sión frente a –zón
Cuadro 8: Sufijos –ción/–sión/–zón
Sufijo Entradas Frecuencias
–ción 100 895
–sión 16 257
–ión 1 2
–zón 2 8
Gráfico 2: Porcentaje de los sufijos –ción/–sión frente a –zón
3.1.1. El campo sufijal de este elemento lo constituyen 119 unidades repartidas

entre –ción y la variante –sión, creada a partir de los temas de supinos latinos (ej.
amisión ‘pérdida’, comisión, confesión, disensión ‘oposición’). Constituye uno de
los recursos más utilizados en el corpus para la formación de sustantivos femeni-
nos a partir de lexemas verbales con el significado fundamental de nomina
actionis (Pattison 1975, 88–97; Pharies 2002, 148–149). Así también en la época
actual, en donde todavía tiene una gran vitalidad dentro del vocabulario científi-
co (Monge 1978, 156).
Es un sufijo culto y por esa razón muchos de los derivados presentan alter-
nancias gráficas del tipo –ción/–cción/–ctión, algunas de las cuales se han
cristalizado para diferenciar significados: affectión ‘afición, inclinación, apego’ y

afición ‘ahínco, empeño, afán, interés’. En otros casos son solo variantes sin
transcendencia: elección/electión.
Muchas de las formas documentadas vienen ya constituidas desde el latín,
por lo que responden al modelo sufijal de los derivados cultos (base léxica +
sufijo prestado). De entre las latinas, hay algunas en las que se aprecia el proceso
de formación por existir el verbo simple (Pattison 1975, 88–97): absolución,
condición. En otras, sin embargo, la base de derivación no existe: colación (lat.
COLLATIO ).
En lo que atañe a su función, hemos de indicar que en una gran propor-
ción las voces así compuestas mantienen la que tenía el sufijo en latín, es
decir, expresan acciones verbales de carácter abstracto, algo que se cumple en
los derivados latinos y también en los romances, en cuya base semántica se
expresa tanto la acción significada del verbo base como el resultado de esa
acción: absolución ‘acción de absolver’, aclaración ‘acción y efecto de aclarar’;
vejación ‘acción y efecto de vejar’. Pero junto a esta función, a partir de la
acepción de ‘resultado’ se obtienen significados secundarios de carácter con-
creto, al que se le suma a veces un valor colectivo.41 Así se observa en
constitución ‘cada una de las ordenanzas o estatutos con que se gobernaba una
corporación’ (Ordenanzas de Baeza); población ‘conjunto de personas que
habitan la tierra o cualquier división geográfica de ella’; transacción ‘trato,
convenio, negocio’.
Como ejemplo de las distintas funciones señaladas para algunas voces,
pueden consultarse en DITECA los término declaración, posesión, provisión.42
Este sufijo en –ción se ha convertido en uno de los índices caracterizadores
del lenguaje de especialidad jurídico-administrativa. A este respecto, destacan
los tecnicismos siguientes:43 quitación ‘renta, sueldo o salario’; fatigación ‘moles-
tia causada por la pretensión de alguien’; protestación ‘declaración jurídica que
41 Cf. ejemplos del español moderno en Monge (1978, 159).

42 Declaración es ‘declaración que bajo juramento hace el testigo o perito en causas criminales o
en pleitos civiles, y la que hace el reo sin llenar aquel requisito’ y ‘manifestación o explicación de
lo que otro u otros dudan o ignoran’. Posesión es ‘acto de poseer o tener una cosa corporal con
ánimo de conservarla para sí o para otro’ y ‘cosa poseída. Díc. principalmente de las fincas
rústicas’. Provisión se define como ‘acción y efecto de proveer. Suministrar o facilitar lo necesario
o conveniente para un fin’ y ‘despacho o mandamiento que en nombre del rey expedían algunos
tribunales para que se ejecutase lo que por ellos se ordenaba’ o ‘providencia o disposición
conducente al logro de algo’.
43 Carrasco/López Mora (2011).
se hace para que no se perjudique, antes bien se asegure, el derecho que alguien
tiene’; prorrogación ‘continuación de una cosa por un tiempo determinado’.
3.1.2. En contraste con la riqueza léxica ofrecida por –ción, aparece la variante
–zón, que es su paralelo vernacular y cuya productividad en DITECA se limita a la
presencia de dos lemas con 8 ocurrencias en la totalidad del corpus. Se trata de
las palabras barbechazón (7) ‘acción y tiempo de barbechar’ (NDHE s.v.) y carga-
zón (1) ‘cargamento’. Estos resultados vienen a confirmar los obtenidos por
Pattison (1975, 93) para la etapa medieval, en donde solo 13 de las 148 palabras lo
son en –zón. También anticipan la tendencia observada en el español actual
excepto para Hispanoamérica (Santiago/Bustos 1999, 4533), de manera que –zón
no tiene ya vitalidad para formar nuevos derivados ni apenas se siente como tal
sufijo (Monge 1978, 160–161; Pena 1980, 157).
Los supervivientes en –zón se encuentran restringidos a unas áreas semánti-
cas muy concretas tales como son: vida rural, tiempo, navegación, labores
realizadas a mano, reacciones fisiológicas, etc. (cf. Pattison 1975, 93; Pharies
2002, 552). Los ejemplos de nuestro corpus se circunscriben al ámbito rural y de
ellos solo cargazón sigue registrado en el DRAE, mientras que barbechazón es un
término que ya no se usa. Su primera referencia lexicográfica es la de Nebrija
(Diccionario español‑latino, apud NTLLE s.v. barvechazón). Es además el mismo y
único ejemplo de CORDE. Los casos del DITECA son exclusivos de las Ordenanzas
de Carmona.
3.1.3. En lo que se refiere a las alternancias o sufijos rivales, nuestro corpus
permite documentar la variación entre el sufijo –ción y el sufijo vocálico en –a, en
una proporción inversa a la de la época actual. Se trata de términos técnicos del
campo jurídico como los siguientes: quitación (3) y fatigación (2) se usan junto con
los neologismos en –a: quita (1) y fatiga (4). Así también la pareja denunciación
(84) y denuncia (1), documentada en una sola ocasión en nuestro corpus en las
Ordenanzas de Aljarafe (s. XVI).
3.2 La alternancia –icia/–eza
Cuadro 9: Sufijos –icia/–eza
–ez 1 1
–eza 14 47
–icia 7 781
Dentro de las formaciones de sustantivos de cualidad, estado y condición nos

encontramos con la pareja –icia/–eza, representativa del doble resultado culto y
popular, respectivamente, del latín –ITIA .44
El mayor índice de productividad lo presenta –eza con 14 lemas, frente a –icia
con 7,45 si bien en cuanto a la frecuencia la proporción se invierte en un tanto por
ciento muy elevado a favor de –icia, algo que encuentra su explicación en el
hecho de que uno de los representantes de su campo sufijal es justicia, palabra
clave de esta tradición textual, que se emplea 709 veces. El resto de las 72
ocurrencias se reparte entre los otros 6 lemas, en su mayor parte latinismos (GRAE
2010, 118).46
Por su parte, –eza, con un campo sufijal integrado por 14 lemas,47 tiene el
doble de productividad en nuestro corpus en comparación con los resultados
cultos, pero su frecuencia es mucho más baja. Este hecho explicaría que en la
actualidad esté en regresión.
El significado básico de las dos variantes es la expresión de conceptos
abstractos. La mayoría de los derivados en –icia latinos son usados en este
sentido, a excepción de primicia, en las Ordenanzas de Lepe ‘prestación de frutos
y ganados que además del diezmo se daba a la Iglesia’ (lat. PRIMITIA ) y de
inmundicia, derivado romance en las Ordenanzas de Archidona ‘suciedad, ba-
sura’.
En cuanto a los derivados en –eza, la mayoría tiene un sentido abstracto,
pero algunos de ellos son susceptibles de adquirir un tipo de especialización más
concreta debido al usual desplazamiento semántico de lo abstracto a lo concreto
(vid. Pattison 1975, 149). Así ocurre en aspereza, fortaleza y maleza, único ejemplo
que se presenta bajo la alternancia de las dos variantes de las que nos estamos
ocupando.
Este sufijo en –eza, como mencionamos antes, ya no es productivo. En
consecuencia, algunas de las formaciones con esa terminación han quedado
anticuadas y han caído en desuso. Así, por ejemplo, ocurre con comunaleza
(Ordenanzas de Sevilla, s. XIII) ‘medianía y regularidad entre los extremos de lo
mucho y lo poco’, registrada en el fichero general del NDHE (en Libro conplido y
44 Cf. Pattison (1975, 142–150).

45 La variante –ez, procedente de –ITIES , está mínimamente representada en DITECA, con un
lema y una sola ocurrencia: veiez, en las ordenanzas de Sevilla.
46 Malicia (22 ítems), noticia (41), primicia (1), codicia (5). Son romances: inmundicia (2) e
injusticia (1).
47 Alteza (22 ítems), aspereza (1) (del terreno); braveza (1), careza ‘carestía’ (1), comunalza (2)
‘comunaleza’, firmeza (1), flaqueza (1), fortaleza (1), franqueza (8), largueza (1), limpieza (4),
malezas (2), naturaleza (1), nobleza (1).
en Opúsculos legales de Alfonso X, Cortes de León y Castilla, Partidas, Sevillana

medicina).
Otro tanto parece que debió de suceder con el término careza, frente a su
sinónimo y competidor carestía, lexema que ha conseguido desplazar al primero.
Careza está documentado desde Alfonso X y otros textos como la Crónica de
Alfonso XI, Cancionero de Baena, Nebrija 1495, Nebrija 1514, Ordenanzas de
Granada.48 Son dos las acepciones de su base semántica. Los datos del NDHE
indican que el antiguo careza ya se utilizaba en Alfonso X (Crónica General) con
el significado de ‘carestía, falta o escasez’. La acepción segunda corresponde a
‘subida de precio’; en este caso la documentación que aporta la Academia es más
tardía, pues remite a Guevara. La comparación con carestía nos hace sospechar
que en un primer momento solo comparte con careza la primera acepción de
‘falta o escasez de algunas cosas; por antonomasia de los víveres’ (documentada
en Crónica General). Para la segunda acepción, ‘subida de las cosas de uso
común’, la documentación es del XIX en Alarcón, El niño de la Bola (NDHE s.v.).
También Corominas certifica lo tardío de esta acepción: «En español el paso
semántico a mero abstracto de ‘caro’ es tardío y lo recoge en Autoridades»
(DCECH s.v.).
En los textos del corpus DITECA asistimos a la rivalidad entre careza y
carestía (DCECH s.v. carestía). Mientras que en las Ordenanzas de Córdoba de
1435 la acepción de ‘falta o escasez’ se expresa con careza, las Ordenanzas de
Lepe, escritas a partir del XVI, usan carestía ‘falta o escasez de alguna cosa; por
antonomasia, de los víveres’ (DCECH s.v.): «y porque en todos los molinos lleven
igualmente las maquilas y tengan en ello horden, vista la carestía del trigo,
mandaron que de oy en adelante lleven de maquila así de blanco como de baço»
(Ordenanzas de Lepe, 21v).
Pero además podríamos aportar una de las más antiguas documentaciones
de carestía con el sentido de ‘caro’ en el siguiente texto de las Ordenanzas de
Archidona de 1598: «Otrosi, que los que compran ganado en pie en la feria d' esta
villa no los buelvan a vender en la feria en ese dia conforme a lo dispuesto por la
ley real, so la pena d' ella, ni los corredores conpren para revender en la misma
feria para escusar fraudes y carestias, so pena de seisçientos maravedis aplicados
por terçias partes como dicho es» (Ordenanzas de Archidona, § 93).
48 Cf. fichero general del NDHE.

3.3 Los sufijos –azgo y –aje
Cuadro 10: Sufijos –azgo/–aje
–azgo 15 84
–aje 12 65
3.3.1.El tradicional morfema –azgo aparece desde el principio como medio para la
creación de sustantivos masculinos denominativos pertenecientes a la esfera de
los nombres que designan estado, situación o condición y, especialmente, el
oficio, el estatus o la dignidad que corresponde a alguien (GRAE 2010, 122). El
total de formas creadas con este sufijo es de 15, con una frecuencia de 84.
Los usos documentados tienen los siguientes significados:
a) Oficio, estatus, dignidad: alarifadgo (1 ítem) ‘oficio de alarife’; alguaziladgo
(s) (7) ‘oficio o cargo de alguacil’; almoxarifadgo(s) (13), ‘oficio y jurisdicción
del almojarife’; almotacenadgo (46) ‘oficio de almotacén’, mayordomadgo (9)
‘mayordomía’ (cargo y empleo de mayordomo o administrador).
b) Impuestos: portadgo (1) ‘derechos que se pagaban por pasar de un sitio
determinado de un camino; terradgo (1) ‘pensión o renta que paga al señor de
una tierra el que la labra’; almoxarifadgo (6) ‘derecho que se pagaba por los
géneros o mercaderías que salían del reino, por los que se introducían en él, o
por aquellos con que se comerciaba de un puerto a otro dentro de España’.
c) La acción y su resultado (GRAE, 114): hallazgo (1) ‘acción y efecto de hallar’.
3.3.2. El sufijo –aje es el paralelo fonético de –azgo en francés, occitano y catalán.

Se introduce en nuestra lengua con los préstamos de esas procedencias. A partir
del XVII se independiza de sus bases extranjeras y se hace productivo en español.
En DITECA registramos 12 formas, con una frecuencia total de 65.
Goza actualmente de vitalidad a ambos lados del Atlántico, en parte favoreci-
do por la existencia de formaciones paralelas en francés e inglés.49 Los significa-
dos registrados pertenecen a los siguientes apartados:
a) Terminología fiscal: esta esfera semántica acapara el 38,47 %: cavallaje (6
ítems) ‘precio que se paga por acaballar’; carcelaje (12) ‘derecho que al salir
de la cárcel pagaban los presos’; corralaje (1) ‘lo que se paga por la estancia
del ganado detenido en los corrales del concejo’; corretaje (1) ‘comisión que
49 Cf. Pharies (2002); Alcoba (2008).

perciben los corredores de comercio sobre las operaciones que realizan’;

hervaje (9) ‘derecho que cobran los pueblos por el pasto de los ganados
forasteros en sus términos y por el arrendamiento de los pastos y dehesas’;
peaje (2) ‘derecho de tránsito’.
b) Indica ‘lugar’ o ‘tiempo’: pasaje ‘sitio o lugar por donde se pasa’ (2).
c) Valor colectivo: ferraje (7) ‘conjunto de herraduras, aseguradas con clavos,
que se ponen a las bestias’; linaje ‘conjunto de todos los descendientes de
Adán’ (1) y ‘clase o condición de una cosa’ (16); vagaje/es (2) ‘bestia que, para
conducir el equipaje militar y en ocasiones algunos individuos del ejército y
sus familias, se tomaba en los pueblos por vía de carga concejil, pero
mediante remuneración’; obraje (s) (6) ‘obra hecha a mano o con una máqui-
na’.
d) Sustantivos de acción o su resultado: caballaje ‘acción de acaballar’; viaje
‘acción y efecto de viajar’; pasaje (2) ‘acción de pasar’.
La rivalidad léxica entre los dos sufijos se percibe en determinadas áreas tales
como la relativa a los impuestos o rentas, en donde a partir del siglo XVII triunfará
–aje, que va ganando en productividad y desde esa época se hace dominante en
los campos semánticos mencionados, mientras que –azgo queda relegado a una
función residual: la denominación de estados y rangos (Pharies 2002 s.v. aje).
Los ejemplos del DITECA ponen de manifiesto el declinar de –azgo y la
progresión de –aje. Es significativo que precisamente los términos en –azgo de
esa esfera de los impuestos se registren en las ordenanzas más antiguas de
nuestro corpus: portadgo en Sevilla (s. XIII) y terradgo en Córdoba (1435), mien-
tras que los escribanos de las ordenanzas elaboradas a partir del XVI usan
mayoritariamente –aje.
4 Conclusiones
El uso de las herramientas tecnológicas nos ha permitido obtener el cuadro
completo de todos los sufijos disponibles en el corpus DITECA, hacer compara-
ciones estadísticas entre ellos y diferenciar entre el campo léxico y la frecuencia.
El cómputo de los 1546 términos analizados con una frecuencia de 17668
ítems se reparte entre derivados nominales (902), derivados adjetivales (324) y
derivados verbales (320), lo que supone que casi el 60 % de los términos analiza-
dos son sustantivos y el resto se reparte entre adjetivos y verbos. A partir de ahí
podemos estudiar la productividad sufijal y revisar los factores que contribuyen a
la misma; los cambios sufijales para determinadas funciones; la especialización
funcional de los sufijos.
En los ejemplos aportados sobre el análisis de algunos de las parejas sufijales

del corpus hemos intentado describir estos procesos.
5 Bibliografía
Alcoba, Santiago, «Aje»: productividad, disponibilidad y rendimiento en español actual, in:
Vilches Vivancos, Fernando (ed.), Creación neológica y la sociedad de la imaginación,
Madrid, Dykinson, 2008, 37–84.
Amador Rodríguez, Luis Alexis, La derivación nominal en español: nombres de agente, instru-
mento, lugar y acción, Berna, Peter Lang, 2009.
Carrasco Cantos, Inés, Léxico vernacular en ordenanzas andaluzas, in: Castañer, Rosa María/
Lagüéns, Vicente (edd.), De moneda nunca usada. Estudios dedicados a José Mª Enguita,
Zaragoza, Institución Fernando El Católico, 2010, 163–174.
Carrasco Cantos, Inés, Rasgos de variación en textos legales de Andalucía, in: Carrasco, Pilar/
Torres, Francisco, Lengua, historia y sociedad en Andalucía. Teoría y Textos, Madrid/
Frankfurt am Main, Iberoamericana/Vervuert, 2011, 155–183.
Carrasco, Inés/López Mora, Pilar, Tradición jurídica y variación léxica, in: Castillo Lluch, Mónica/
Pons, Lola (edd.), Así se van las lenguas variando. Nuevas tendencias en la investigación
del cambio lingüístico en español, Berna, Peter Lang, 2011, 131–153.
Clavería, Gloria, Nuevas perspectivas en el estudio de la evolución del léxico, in: Clavería, Gloria,
et al. (edd.), Historia del léxico: perspectivas de investigación, Madrid/Frankfurt am Main,
DCECH = Corominas, Joan/José Antonio Pascual, Diccionario Crítico Etimológico Castellano e
Hispánico, Madrid, Gredos, 1980–1991.
Monge, Félix, –Ción, –sión, –zón, –ón: función y forma en los sufijos, in: García Arias, José Luis,
et al. (edd.), Estudios ofrecidos a Emilio Alarcos Llorach, 2 vol., Oviedo, Servicio de
Publicaciones de la Universidad de Oviedo, 1978, 155–165.
Muñoz Armijo, Laura, La historia de los derivados en –ismo e –ista en el español moderno, Tesis
doctoral, Universidad Autónoma de Barcelona, 2010.
Pattison, David, Early Spanish Suffixes. A Functional Study of the Principal Nominal Suffixes of
Spanish up to 1300, Oxford, Publications of the Philological Society, 1975.
Pena, Jesús, La derivación en español. Verbos derivados y sustantivos verbales, Anejo 16
de Verba, Santiago de Compostela, Universidad de de Santiago de Compostela,
1980.
Pharies, David, Diccionario etimológico de los sufijos españoles, Madrid, Gredos, 2002.
Rainer, Franz, La derivación adjetival, in: Bosque, Ignacio/Demonte, Violeta (edd.), Gramática
descriptiva de la lengua española, vol. 3, Madrid, Espasa Calpe, 1999, 4595–4644.
Real Academia Española/Asociación de Academias de la Lengua Española, Nueva gramática de
la lengua española, Madrid, Espasa, 2010 (GRAE).
Real Academia Española, Nuevo Tesoro Lexicográfico de la Lengua Española, [en línea]. <http://
ntlle.rae.es/ntlle/SrvltGUILoginNtlle> (NTLLE).
Real Academia Española, Nuevo diccionario histórico del español, [en línea].
<http://web.frl.es/DH> (NDHE).
Real Academia Española, Banco de datos (CORDE) [en línea], Corpus diacrónico del español .
<http:/www.rae.es>.
Santiago Lacuesta, Ramón/Bustos Gisbert, Eugenio, La derivación nominal, in: Bosque, Ignacio/
Demonte, Violeta (edd.), Gramática descriptiva de la lengua española, vol. 3, Madrid,
Espasa Calpe, 1999, 4505–4594.
Torrens Álvarez, Mª Jesús/Quirós García, Mariano, La configuración del sistema de sufijos
locativos en español (siglos XII–XVII), in: Sinner, Carsten/Ramírez Luengo, José Luis /Tor-
rens Álvarez, Mª Jesús (edd.), Tiempo, espacio y relaciones espacio–temporales desde la
perspectiva de la lingüística histórica, San Millán de la Cogolla, Cilengua, 2011, 265–296.
Serrano Dolader, David, La derivación verbal y la parasíntesis, in: Bosque, Ignacio/Demonte,
Violeta (edd.), Gramática descriptiva de la lengua española, vol. 3, Madrid, Espasa Calpe,
1999, 3683–4755.
IV. Cuestiones lingüísticas diacrónicas
iberorrománicas y lingüística de corpus
Beatriz Arias Álvarez y Juan Antonio Hernández Mendoza
Argumentos dialectológicos y
sociolingüísticos que ayudan a la
caracterización del español en la
nueva España en el siglo XVI
1
1 Introducción
Estamos de acuerdo con Rivarola (2005) en señalar que cada región americana
llevó a cabo una reestructuración particular del español peninsular: los eventos
comunicativos tienen escenarios diferentes al de los peninsulares y diferentes
entre sí. Dado que el lenguaje es un fenómeno social y cultural, en la construcción
de un corpus deben considerarse aquellos parámetros que nos aproximen a una
realidad lingüística, en nuestro caso, al español novohispano.
De ahí que un corpus que pretenda dar cuenta de la variación y el cambio,
además de la estandarización de ciertos elementos o estructuras lingüísticas,
debe emplear las variables utilizadas en la dialectología y en la sociolingüística.
Ahora bien, debemos señalar que con respecto a los trabajos de sociolingüística
estos pueden, grosso modo, tener dos vertientes importantes: a) estudiar las
variedades asociadas con grupos de hablantes que pertenecen a una región
geográfica, con una ubicación social y étnica específicas, y a un sexo o a una
generación determinados; b) o investigar sobre las variedades asociadas a situa-
ciones de uso.
En este trabajo nos centramos no sólo en la variación que es propia a un
grupo de hablantes dada su localización en un espacio geográfico y social, sino
también en la variación que corresponde a la diversa tipología documental y a los
diferentes tipos de registros, es decir, a la variación que corresponde a las
características de la enunciación.
El objetivo de este trabajo es advertir que el diseño del COREECOM (CORPUS
ELECTRÓNICO DEL ESPAÑOL COLONIAL MEXICANO) permite acercarnos al co-
nocimiento del español colonial mexicano, para lo cual hemos escogido analizar
dos estructuras: artículo indefinido + posesivo + sustantivo y artículo definido +
1 Este trabajo forma parte del Proyecto CONAyT CB2012-1/180245.
Beatriz Arias Álvarez y Juan Antonio Hernández Mendoza: UNAM

386 Beatriz Arias Álvarez y Juan Antonio Hernández Mendoza
cual + (dicho) + sustantivo, además de una forma gramatical: dende, y las

palabras comadre y compadre.
Nuestra elección se sustenta en diversas razones: a) la estructura artículo
indefinido + posesivo + sustantivo del tipo ‘un su sobrino’ es común entre los
hablantes de la península de Yucatán, Chiapas y parte de Centroamérica; b) la
construcción artículo definido + cual + (dicho) + sustantivo como ‘los cuales (dichos)
alimentos’ se registra en textos de tipo jurídico, y desde el siglo XIII en las obras de
Alfonso X, al respecto habría que preguntarse si su uso continúa en ese mismo tipo
de textos en la Nueva España; c) la forma dende es actualmente utilizada en zonas
rurales de México y también en otras zonas de habla hispana; d) y los vocablos
comadre y compadre son empleados en todas las capas sociales de México.
Para nuestro estudio hemos tomado en cuenta las características dialectales
y sociales del que escribe y las características de la enunciación: tipo de docu-
mento y tipo de registro. En otras palabras, el diseño del COREECOM puede
ayudar a advertir cómo algunas estructuras o formas se pierden, otras restringen
su uso y unas más llegan a estandarizarse, es decir, a normalizarse, hacerse
frecuentes en el español novohispano.2 Dado lo amplio que puede ser esta
investigación, la limitamos a lo que sucede en el siglo XVI en la Nueva España.
2 Marco teórico
Es conocido por todos que la lengua histórica no es homogénea. Coseriu señala
que en la arquitectura de la lengua histórica hay diferencias diatópicas, diastrá-
ticas y diafásicas. A ello añade que «en cada dialecto se pueden comprobar
niveles y estilos de la lengua, así como en cada nivel de lengua se pueden
verificar diferencias dialectales y estilísticas, etc.» (1996, 30).3 Del mismo modo, y
2 Las preguntas que se hace Schlieben-Lange son: ¿Cómo se originan unas formas de prestigio
lingüístico y cómo llegan a codificarse hasta convertirse en norma obligatoria? ¿Qué papel
desempeña tal norma lingüística en una sociedad?
3 Penny hace referencia más o menos a los diferentes tipos de variación que hemos señalado:
geográfica o diatópica, social, diacrónica o histórica, además de mencionar que un hablante
puede escoger diferentes variantes dependiendo del acto de comunicación que tenga lugar. En
cuanto al pasado, advierte que en cualquier lengua debieron existir todos estos tipos de variación
y que, aunque es difícil comprobarse, «[l]a comparación entre los distintos fragmentos de
testimonios históricos puede ampliar las posibilidades de variación observables, pero nunca
puede llegar a establecer el amplio conjunto de variaciones que debió de haber existido en cada
momento del pasado» (2004, 25–26). Aun así, creemos que configurar un corpus histórico que
pueda ofrecer diversas muestras de habla de una comunidad nos permite tener una visión más
cercana de la misma.
Argumentos dialectológicos y sociolingüísticos que ayudan a la caracterización 387
siguiendo a Coseriu, para Schlieben-Lange (1977) la heterogeneidad se da en dos

sentidos: en cuanto a que ella misma presenta subsistemas y en cuanto a que
cada hablante dispone hasta cierto punto de diversos subsistemas. En cuanto a la
competencia multilingüística del hablante, en ella se encuentran las diversas
variantes lingüísticas que conoce un individuo y que se encuentran más o menos
determinadas por las diferencias arribas señaladas.
Si bien la situación es compleja en el sentido de poder identificar las varian-
tes que se encuentran en el habla de un individuo, esta es aún más difícil cuando
se trabaja con textos escritos. De ahí que surjan preguntas como «¿El que escribe
puede estar sujeto a estas variantes?», «¿De qué manera?».
Además, en cuanto a los textos que se analizan, se debe considerar que el
emisor también debe adaptarse al código de la lengua escrita y que el manejo que
tenga del mismo puede determinar su expresión y dejar traslucir los diferentes
subsistemas de su habla.
En otras palabras para poder caracterizar el español novohispano deben
conocerse, hasta donde sea posible, las características del escribiente y del
escenario comunicativo.
2.1 El que escribe
Como se ha indicado arriba, el escribiente puede estar sujeto a los diferentes

subsistemas de la lengua histórica. A continuación explicaremos brevemente las
diversas variables que pueden determinar al que escribe y su caracterización en
el corpus.
2.1.1 Variable dialectal
Las diferencias diatópicas o geográficas conforman subsistemas regionales que

van modelándose a través del tiempo y en las que las condiciones históricas de
cada comunidad influyen de manera importante.
En nuestro material el origen dialectal de los escribientes fue dividido en tres
grandes zonas, que corresponden a las raíces (península ibérica), a las posibles
zonas de coinización y de tránsito y a las diferentes zonas de asentamiento en el
territorio novohispano.
En lo que respecta a la Nueva España, si el tejido social fue complicado, el
contacto de las diferentes etnias a través del territorio lo fue también. Así, el
proceso de cohesión presenta áreas que implican mayor o menor grado de
integración. Por ejemplo, mientras que en la zona norte no hubo un gran mestiza-
je debido al tipo de asentamiento (misiones, presidios y reales de minas) y la

presencia criolla fue más importante, en la zona central, caracterizada por la
existencia de grandes centros urbanos, con un gran número de españoles, ade-
más de numerosos grupos de indios, mestizos y de criollos (incluso con presencia
africana), se vio favorecido el mestizaje biológico y cultural. En contraparte, en la
zona peninsular, que abarca Yucatán, zonas de Campeche y Quintana Roo, con
un reducido número de españoles y un gran número de indígenas mayas, se
advierte un mestizaje menor, además de que presentan comunidades indígenas
con mayor unidad étnica. Además hay que señalar que los puertos del Golfo y del
Pacífico tienen habitantes heterogéneos, dada la llegada continua de influencias
extranjeras a través de los navíos. Por último la Capitanía General de Guatemala,
a la que pertenece Chiapas, posee diferencias no sólo étnicas sino también
sociohistóricas en cuanto a su conquista y colonización con respecto a las otras
zonas y en concreto con el centro cultural del virreinato: la ciudad de México.4
A lo anterior hay que sumar las diferencias entre las zonas urbanas (algunas
de ellas centros de expansión de las normas cultas) y las zonas rurales alejadas
de los centros ‘culturales’.
2.1.2 Variable sociolectal
Las diferencias diastráticas o sociales conforman también subsistemas lingüísti-

cos. Los diferentes tipos de comunicación entre grupos sociales o la presión de una
lengua dominante pueden llevar a la diversificación de usos lingüísticos; en
algunas sociedades complejas la presencia de una lengua dominante con un
alto grado de estandarización puede ejercer tal presión oral y escrita sobre las otras
que llegue a ‘restringir’ y hasta ‘nulificar’ los usos de estas (López Morales 1993).
Con respecto a la sociedad novohispana, esta se organiza en estratos sociales
inexistentes en España, con un gran número de indígenas, seguidos por mestizos,
criollos y negros, y un reducido número de españoles, que son los portadores del
poder social y económico (Rivarola 2005).
Producto de la dicotomía español/indígena se instituyen en las colonias ‘la
república de españoles o de gente de razón’ y ‘la república de indios’, con estatus
jurídicos diferenciados, aunque ambos espacios estaban sometidos a la Iglesia y
a la Corona. Si bien la república de indios se legislaba por medio de las Leyes de
4 Hay que advertir que en cuanto a la península ibérica (las raíces) se consideran cinco zonas:
tres de ellas señaladas por Peter Boyd-Bowman (1968, XXIV–XXV): Andalucía, Extremadura y
Castilla; además se cuenta con los vascos, por su numerosa migración, y con los habitantes de
Toledo y Madrid, por ser centros irradiadores de cultura, al igual que Sevilla.
Indias, los españoles se regían por medio de la legislación general del reino de
Castilla. El uso de la palabra república en América fue utilizado con el significado
clásico griego de sociedad política o Estado, cualquiera que fuese su forma de
gobierno (Levaggi 2001).5
Además es importante señalar las diferencias entre las repúblicas de indios
que se establecían en las zonas urbanas y las que se daban en las áreas rurales.
Por un lado, en las grandes ciudades los indios tenían contacto con el gobierno
español, en las zonas rurales podían pasar meses y hasta años sin que los
funcionarios españoles visitaran esas regiones. Por el otro lado, la población
india urbana se constituía por migrantes de diversos orígenes y lenguas, con una
relación cotidiana entre mestizos, mulatos y españoles que fomentaba el mestiza-
je biológico y el empleo del español; por el otro, en los pueblos la identidad étnica
y lingüística de los indios era uniforme y su trato con mestizos y sobre todo con
españoles no era usual, lo cual mantenía el uso de la lengua vernácula.
A este parámetro se podría sumar el del sexo del autor del manuscrito. La
división entre textos escritos por hombres o por mujeres surge de la importancia
actual que en los estudios de sociolingüística histórica se está dando al discurso
femenino como generador de cambios (Conde Silvestre 2007).
2.2 Situación comunicativa
2.2.1 El registro
Aun cuando se estudien comunidades lingüísticas relativamente homogéneas en

lo espacial y social, pueden observarse diferencias lingüísticas en el estilo; por lo
menos puede advertirse uno familiar y otro oficial. Un hablante no utiliza siempre
la misma forma de hablar: esta varía según las circunstancias o situaciones.
Halliday (1982) distingue tres parámetros: el primero tiene que ver con el «cam-
po», el tema del que se habla o se escribe; el segundo está determinado por el
5 El concepto de la República como grupo social, comunidad y pueblo ya estaba definido en

España antes de la Conquista. Fue trasladado a América, principalmente a la Nueva España.
Como es conocido hubo república de indios y de españoles, ambas podían incluso coexistir en
una misma zona aunque de manera independiente (Jiménez Gómez 2008). En las ciudades los
barrios formaban parte de una república que tenía gobernadores, alcaldes, alguaciles y escriba-
nos. También las repúblicas tenían bienes comunes: cofradías, hospitales, tierras, etc. (Castro
Gutiérrez 2010). Si bien en una primera etapa se utilizó el término República para cada una de las
comunidades de los naturales, posteriormente fue empleada para el conjunto de sociedades
indígenas (Levaggi 2001).
receptor, con quién se habla o a quién se escribe: sería el «tono»; y el tercero tiene
que ver con el canal, con el tipo de lenguaje que se está empleando, es decir, con
el «modo». Estos tres parámetros determinan los significados y las formas que se
usan para expresarse. Es decir, el lenguaje que hablamos o escribimos depende
de la situación, la cual determinada el tipo de registro.6
Con base en Biber (1988) y en Koch/Oesterreicher (2007) y tomando en cuenta
lo señalado por Halliday, hemos considerado los siguientes parámetros para
diferenciar y conjuntar los textos:
– la implicación emocional del emisor,
– el manejo que este tenga del código escrito,
– el propósito que tiene el escribiente: informativo, afectivo o imperativo,
– la fijación temática que presenta el texto (uno o varios temas),
– el grado de publicidad, es decir, si va dirigido a uno o varios receptores,
– la relación entre emisor y receptor (diferencia e igualdad —familiaridad—).
La combinación de los parámetros anteriores ha llevado a agrupar los textos en

tres tipos diferentes:
1. Textos informales: se aproximan a lo señalado por Koch y Oesterreicher como
inmediatez comunicativa. Contienen los siguientes parámetros: escritor
semiculto, implicación emocional, propósito afectivo-informativo, sin fija-
ción temática, dirigido a un solo receptor y la relación entre escribiente
y receptor es de igualdad (familiaridad). Este grupo se encuentra constituido
por cartas de amor, cartas escritas a familiares y amigos y algunos recados.
2. Textos semiformales: contienen los parámetros que a continuación se enu-
meran: escritor culto o semiculto, con o sin implicación emocional, propósito
informativo, con o sin fijación temática, un receptor, la relación entre emisor
y receptor es desigual. Los textos pueden ser denuncias, autodenuncias,
cartas de relación y defensas.
3. Textos formales: tienen las siguientes características: escritor culto, sin impli-
cación emocional, propósito informativo o imperativo, fijación temática, uno o
varios receptores con una relación de desigualdad. Abarcan juicios, testamen-
tos, cédulas, cartas de autoridades, facturas y actas. Estos se encuentran en el
polo de la distancia comunicativa.7
6 Otros como Joos, citado por Schlieben-Lange (1977, 112) señalan hasta cinco formas de
«registro» para el inglés: frozen, formal, consultative, casual, intimate.
7 Los parámetros incorporados a cada registro se sustentan en el análisis de oraciones de
relativo en el siglo XVI (Arias 2014).
2.2.2 El tipo de texto
Si anteriormente se consideraba que la variación textual no aportaba datos

‘estadísticamente’ relevantes para conocer la historia de una lengua, actualmente
y según la teoría de las Tradiciones discursivas, cuando se mira hacia la historia
de las lenguas se puede descubrir que muchos fenómenos lingüísticos se encuen-
tran relacionados con ciertos textos. En otras palabras y según Kabatek «la
historia de la lengua no presenta solo variación a nivel de dialectos, sociolectos o
estilos sino que la lengua varía también de acuerdo con las tradiciones de los
texto» (2008, 8), ya que un tipo de texto condiciona o puede condicionar la
selección de determinados elementos o fenómenos lingüísticos. Así, los docu-
mentos o textos en cuestión pueden analizarse a partir de tipos de discurso y de
cómo estos se construyen y configuran.
Los documentos con los que se trabaja son heterogéneos: se ha tratado de
incorporar todas las variedades textuales posibles para poder advertir diferentes
fenómenos lingüísticos. Para la clasificación de los manuscritos, se consideran
dentro de una misma tradición aquellos documentos que presentan un mismo
propósito para su creación y similares elementos o estructuras lingüísticos.
Ejemplos de esta división son: cartas privadas, cartas de relación, informaciones,
notas, relaciones de carga, pareceres, denuncias, defensas, cédulas, solicitudes,
testamentos, etc.
3 Análisis de documentos novohispanos a través

de la dialectología y la sociolingüística
históricas
En la elaboración del COREECOM hemos tenido en cuenta los parámetros arriba
señalados para conocer el origen y evolución del español novohispano. La
etiquetación que hemos realizado nos ha servido para aproximarnos al conoci-
miento de la difusión y el estado de formas y estructuras lingüísticas en el español
de la Nueva España.
A continuación se ofrece la cabecera de nuestros documentos:
Imagen 1: Cabecera del documento
Como puede observarse, se señala el posible origen dialectal, étnico-social, el

sexo del escribiente, así como el tipo de documento y su variedad textual, además
de indicar el destinatario (como es de esperar, también se ofrece la fecha). Este
etiquetado permite realizar diferentes tipos de cruces, por ejemplo: textos escritos
en la Nueva España por andaluces, o manuscritos formales escritos por indíge-
nas, etc. Además nuestro corpus permite hacer búsqueda de formas aisladas y de
estructuras, como se puede observar en la siguiente imagen:
Imagen 2: Consulta de vocablo por distancia

Debemos advertir que, si bien el corpus nos ayuda a circunscribir ciertos fenóme-
nos, para poder interpretarlos hay que recurrir a lo que Wright (2001) señala como
sociofilología, además de a la antropología lingüística.8 En otras palabras el
COREECOM ofrece una herramienta utilísima, pero los datos deben ser interpreta-
dos por el estudioso basándose en el conocimiento dialectal y sociocultural de la
comunidad lingüística.
3.1 Análisis de las estructuras
3.1.2 La estructura artículo indefinido + posesivo + sustantivo
Actualmente en Yucatán y Chiapas (y en otras zonas de Centroamérica) es común

encontrar el artículo indeterminado con un posesivo, del tipo: un + su + sustanti-
vo. Nuestros documentos registran esta estructura en la zona de Yucatán:9
1a. y no pudo passar adelante por falta de tamemes, y de allí se bolvió y dio la capitanía a
un su sobrino que llaman Alonso (1548)
1b. y un su corregidor llamado Rodrigo de Escalona (1578)
El primer ejemplo, (1a), procede de una carta de relación (registro formal) de 1548
escrita por fray Lorenzo de Bienvenida, originario de Sevilla, en la que describe lo
hecho por los conquistadores desde Honduras hasta Yucatán. Llama la atención
que otro sevillano como Bernal Díaz del Castillo utilice esta misma estructura en
la Historia Verdadera de la Conquista de la Nueva España:
2. diré cómo Cortés luego mandó a un nuestro capitán que se decía Juan Velásquez de
León, persona de mucha cuenta (citado por García Tesoro 2011, 199).
Igualmente, es llamativo que Frago (1999, 76) encuentre un ejemplo al que

describe como un caso «del componente gramatical del español que los andalu-
ces llevaron a América» en una carta personal:
8 Para Wright hay que «hacer hincapié en el campo del estudio filológico sobre la necesidad de
prestar atención a las condiciones socioculturales que envolvían a los productores de los textos»
(2011, 65–66).
9 Según García Tesoro (2011) la construcción del tipo «un su nagual» es uno de los rasgos más
peculiares del español de Centroamérica, en varios estudios sobre el español de América se
menciona como un rasgo característico del habla de Guatemala, El Salvador y Honduras; igual-
mente, Kany (1972) también lo documenta en el área de Chiapas en México, Nicaragua, El Salvador
y Costa Rica». Nosotros sabemos que esta construcción también se puede registrar en Yucatán,
México (comunicación personal con Fidencio Briceño Chel, investigador del INAH de Yucatán).
3. si quisiere venjrse con bos ella y vn nuestro hijo v entramos
El segundo caso (1b) es una denuncia (registro formal) en la que fray Pedro de
Noriega en 1578 se queja del gobernador y corregidor de la provincia de Yucatán.
No se conoce el origen dialectal del fraile.
De lo anterior podemos advertir las siguientes cuestiones:
– Los casos pertenecen a un tipo de registro formal, al igual que lo que sucede
con Bernal Díaz del Castillo, pero no es lo que pasa con el ejemplo de Frago,
ya este se encuentra en una carta personal.
– El autor de nuestro primer ejemplo es de origen sevillano, al igual que Bernal
y el escribiente del ejemplo que ofrece Frago. El del segundo es de origen
desconocido, que bien podría ser andaluz.
– Nuestros casos fueron escritos en la zona en la que es frecuente hoy en día
este fenómeno.
De todo lo cual se puede deducir que bien puede ser un componente gramatical
andaluz traído a América y que era empleado en cualquier registro, es decir era un
rasgo dialectal; sin embargo, no nos atrevemos a afirmar que su uso actual tenga
una raíz andaluza, ya que hay una interrogante: ¿por qué en otras regiones
americanas o, en nuestro caso, otras zonas de la Nueva España no se utiliza esta
construcción? A nuestro modo de entender creemos que pueden existir otras causas
que originen o coadyuven a la presencia de este fenómeno en dichas áreas.10
3.1.2 La estructura artículo definido + cual + (dicho) + sustantivo
Este tipo de construcciones fue común en la Edad Media, ya desde el siglo XIII era
empleada en la obra alfonsí.11 Nosotros la hemos podido registrar en documentos
10 Este fenómeno presente en algunas zonas de México (península de Yucatán y Chiapas) y

Centroamérica ha dado pie a diferentes posturas para poder explicar su uso. Para Company (2005)
no hay convergencia lingüística pero sí cultural y comunicativa. Es una prolongación del uso
medieval que es reforzada por la presencia de una estructura similar en maya. Según García Tesoro
(2011) esta estructura no es motivada por el contacto, o al menos, la influencia se produjo hace
mucho tiempo de ahí que actualmente esté generalizada. De acuerdo con Pato (2002) no se puede
atribuir su presencia a la interferencia del maya, se debe al contacto cultural y lingüístico que
permitió la conservación. Nosotros, sin más datos, no nos podemos inclinar por ninguna de estas
posturas, lo importante para nuestros propósitos es su registro en el siglo XVI en la Nueva España.
11 Para Elvira, la forma cual se comporta como un demostrativo, por ejemplo: La qual humana
natura es de tierra, GE (1985, 85).
formales, en algunos con la presencia de la forma dicho antecediendo al sustanti-

vo:
4a. […] de los cuales tormentos murieron y mancaron muchos de nosotros. (indígenas, 1567)
4b. Los cuales cien hombres vezinos con sus mujeres (español, s.f.)
4c. […] los cuales dichos maceguales, favorescidos de algunos españoles letrados e procu-
radores, se an subtraído y no lo quieren pagar ni reconocer a sus caciques (indígenas,
1563).
4d. […] la cual dicha sepultura e asiento míos dexo y mando a la dicha María Gómez
(español, 1537)
4e. La cual dicha sentencia fue dada y pronunciada en la mañana que dicha es. (español,
1519).
Y en dos textos semiformales:
5a. los cuales escrivanos dan provanças y testimonios como las a menester el dicho tiniente
(español, 1520)
5b. los cuales santos bendió mi padre (sefardita, 1597)
Dos anotaciones son importantes con respecto a esta estructura: por una parte, se
puede encontrar en textos formales y semiformales de carácter jurídico: cartas de
privilegio, de petición, de licencia, de relación, declaraciones, testimonios, testa-
mentos y cédulas. Esto nos ha llevado a pensar que tiene relación con la variedad
documental que se escribe. Así, al remontarnos a sus orígenes, Bassols advierte
que en el latín «con bastante frecuencia el antecedente del relativo vuelve a
repetirse en forma pleonástica dentro de la misma oración de relativo, […] va
cayendo en desuso en el lenguaje literario, pero en el habla popular del latín
decadente así como entre los juristas sigue usándose con bastante frecuencia […]»
y más adelante apunta que «en castellano se admiten también estos giros, pero son
privativos de <el cual> y se deben a la influencia latina» (1987, 240–241). Por otra
parte, podría llamar la atención que algunos de los manuscritos fueron escritos por
indígenas principales. Sin embargo, dada la importancia educativa que tuvo el
colegio de Tlatelolco para estos durante el siglo XVI, no es de extrañar que en
documentos de carácter jurídico emplearan construcciones con influencia latina.12
Ahora bien, esta estructura no se encuentra, como es de suponer, en el
registro informal, y no tiene relación con los rasgos dialectales del escribiente,
12 El colegio de Santa Cruz de Tlatelolco, institución de estudios superiores, única en América, a

la que asistían los hijos de indios principales, tuvo como base de su educación la gramática
latina, pero también se enseñaba castellano y náhuatl. Se impartía lógica, retórica, filosofía,
medicina, música y algo de teología. Su actividad intelectual fue sorprendente: «En Tlatelolco los
indios leyeron profusamente a Cicerón, conocieron bien a Aristóteles, San Agustín y otros autores
clásicos y padres de la Iglesia» (Escalante 2011, 35).
además ya no es utilizada hoy día ni en el habla culta ni en el habla popular de

México, como se puede observar, su presencia se encuentra condicionada por
una variedad textual ligada a la escrituralidad.13
3.1.3 La forma dende
Al igual que Álvarez Nazario (1982, 111) en documentos de Puerto Rico del
siglo XVI, hemos podido registrar la forma dende:14
6. después que ya estén seguros ansí como dende a un año y más, dígaseles de parte de
Vuestra Alteza como son obligados a servirle con cierto tributo (s/f)
Si bien esta es considerada como un arcaísmo vulgar en algunas zonas de América

y en México se registra en zonas rurales, llama la atención que en nuestro corpus
solo aparezca en documentos formales y, en menos casos, en semiformales.
Sin embargo, hay que advertir que Frago (1999, 82) proporciona dos ejem-
plos, uno extraído de Los Naufragios de Alvar Núñez Cabeza de Vaca y el otro de
una carta personal de un emigrado andaluz (documento informal):
7. Yo escriuo ésta dende La Fauana
Lo anterior puede indicar que, si bien era una forma empleada más en los registros
formales (al menos así lo indican los datos), también podía aparecer en registros
informales. Lo que sí podemos señalar es que no era una forma, como la construc-
ción anterior, cuyo uso se limitara a la lengua escrita y parece ser que es común en
varios dialectos del español e incluso en algunas lenguas como el gallego.15
La presencia en el habla rústica puede deberse a un desplazamiento de la
forma dende por desde que no llegó ni a todos los sociolectos ni a todos los
dialectos, ya que emanó de los centros de cultura, en nuestro caso de la ciudad de
México, y no llega a las zonas más apartadas.16
13 Con base en Koch y Oesterreicher (2007) podríamos afirmar que los documentos jurídicos se
encuentran en el polo de la distancia comunicativa.
14 Esta forma se registra en el siglo XIII sobre todo en fueros, cartas privilegio, etc., y en obras
de Alfonso X como el Lapidario, el Libro de la cruces o el Setenario.
15 Al menos en nuestros documentos la hemos encontrado en escribientes de Burgos, Andalu-
cía, Extremadura y sefarditas.
16 Creemos que el estudio de esta forma debe realizarse a través de todo el periodo colonial para
poder ofrecer una explicación con más fundamento.
3.1.3 Las palabras comadre y compadre
Los casos de los vocablos comadre y compadre se encuentran en algunas de las

obras de Alfonso X, como en la Historia de España:
8. Otrossi establescio que assi omne como mugier que con su comadre o con su compadre
casasse desde que el ninno tienen a la puerta que nol quieren babtizar; que se partan
uno dotro.
Nosotros los hemos registrados, en la gran mayoría de los casos, en cartas

personales, en registros informales, frecuentemente de mujeres:
9a. Vuestra comadre, la de Ayala, se os encomienda (española, 1526)
9b. Mi comadre Lucía de Alcalá besa a Vuestras Mercedes las manos (mulata, 1594)
9c. Mi comadre Veatriz Muñoz y su hijo y nuera/ de v.m., mi señora, vesa manos y a mi
compadre Agustín Gutiérrez (mulata, 1594)
Aunque en un caso, en una carta de un hombre:
10. de bueno que soi azen todos bulra de mí; como mi compadre lo a echo de mí (hombre,
1569)
A pesar de que parece una constante que se encuentre en registros informales

(cartas personales), también hemos obtenido la palabra compadre en un registro
formal, como es un informe de la Inquisición. La presencia de esta palabra en este
documento se debe a la descripción que se está haciendo de un bautismo, en el que
el acusado tiene una relevancia ‘jurídica y religiosa’ que debe quedar en evidencia:
11. y es que siendo compadre, teniendo sobre la pila una criatura para rescibir el agua del
baustismo le bolvió las espaldas a el clérigo (español, 1566)
Aunque Álvarez Nazario (1990) registra estas palabras en el habla campesina de

Puerto Rico (con las variantes comaire y compaire), no las menciona en los
siglos XVI y XVII.17
En México estos vocablos son comunes en todos los dialectos y sociolectos y
se pueden relacionar con cuestiones socioculturales. El compadrazgo es un lazo
17 Tampoco Frago las registra en su estudio sobre la historia del español de América (1999).
familiar muy importante, ya que a través de él se podía garantizar y se garantiza-

ba que los niños huérfanos no quedaran abandonados.18
4 Conclusiones
A través del análisis de las estructuras y de los vocablos seleccionados hemos
podido advertir que en los procesos de pérdida, transformación y normalización
de los elementos lingüísticos intervienen muchos factores, los cuales tienen que
ver con los subsistemas del escribiente y con los tipos de enunciación que se
realicen. No podemos dejar de mencionar que el COREECOM ofrece una serie de
herramientas muy útiles para poder conocer tanto los subsistemas que posee el
escribiente como la compleja variedad de la enunciación, pero sería demasiado
pretencioso decir que con sólo estas herramientas se pueden explicar los fenóme-
nos que puedan registrarse; para ello creemos que es necesario hacer uso de la
sociofilología y la antropología lingüística, es decir, conocer los aspectos no sólo
dialectales sino también socioculturales que, en nuestro caso, enmarcan el es-
pañol colonial mexicano.
5 Bibliografía
Álvarez Nazario, Manuel, Orígenes y desarrollo del español en Puerto Rico (Siglos XVI y XVII),
Puerto Rico, Universidad de Puerto Rico, 1982.
Álvarez Nazario, Manuel, El habla campesina del País. Orígenes y desarrollo del español en
Puerto Rico, Puerto Rico, Universidad de Puerto Rico, 1990.
Arias Álvarez, Beatriz, El español de México en el siglo XVI (Estudio Filológico de quince
documentos), México, UNAM, 1997.
Arias Álvarez, Beatriz, Confección de un corpus para conocer el origen, la evolución y la
consolidación del español en la Nueva España, in: Enrique-Arias, Andrés (ed.), Diacronía de
18 Aunque no hay duda de que el compadrazgo es un ritual que viene de España, en América y,
por lo tanto, en México, adquiere un aspecto singular. En un principio el padrino era un español
que velaba para que su ahijado no se desviara de la fe católica. Para algunos autores, como lo
hace Zalazar (2009) para el Paraguay (y lo mismo sucedió en México), el compadrazgo viene a
suplir o complementar ritos prehispánicos. Originalmente se utilizó según Gascón (2005, citado
por Zalazar) «para establecer relaciones verticales entre conquistadores e indios infieles, pero
más allá de esto, sirvió para crear lazos de parentesco entre ello». Posteriormente, ya durante el
desarrollo de la Colonia, «la gente se adueñó de la institución y le dio una utilidad secular, se
establecieron nuevas relaciones, entre compadres, que pasó a ser más fuerte que entre padrino y
ahijado» (Mintz / Wolf 1995 citado por Salazar). Prueba de ello es que en México hay un día
especial para celebrar al compadre y a la comadre (el tercer domingo de marzo).
las lenguas iberorrománicas. Nuevas aportaciones desde la lingüística de corpus, Madrid/

Arias Álvarez, Beatriz, Variación en el uso de oraciones de relativo en el español colonial
mexicano: una cuestión de registro, in: Martín Butragueño, Pedro/Orozco, Leonor (edd.),
Argumentos cuantitativos y cualitativos en sociolingüística, México, El Colegio de México,
2014, 399–420.
Biber, Douglas, Variation across speech and writing, Cambridge, Cambridge University Press,
1988.
Boyd-Bowman, Peter, Índice geobiográfico de cuarenta mil pobladores españoles de América en
el siglo XVI, tomo 2, 1520–1529, México, Editorial Jus, 1968.
Boyd-Bowman, Peter, Índice geobiográfico de más de 56 mil pobladores de la América hispánica,
Tomo 1, 1493–1519, México, FCE, 1985.
Bassols de Climent, Mariano, Sintaxis Latina, vol. 2, Madrid, CSIC, 1987.
Castro Gutiérrez, Felipe (coord.), Los indios y las ciudades de Nueva España, México, UNAM,
2010.
Company, Concepción, Frecuencia y uso y contacto lingüístico en sintaxis: artículo indefinido +
posesivo en el español americano, Spanish in Context 2:2 (2005), 131–156.
Conde Silvestre, Juan Camilo, Sociolingüística Histórica, Madrid, Gredos, 2007.
Coseriu, Eugenio, El Sistema Verbal Románico, México, Siglo Veintiuno Editores, S.A. de C.V.,
1996.
Elvira, Javier, Las oraciones de relativo I. El nexo que, in: Company, Concepción (ed.), Sintaxis
histórica de la lengua española, México, Fondo de Cultura Económica, vol. I, 2009,
1411–1476.
Escalante Gonzalbo, Pablo, La etapa indígena, in: Escalante, Pablo, et al. (edd.), La Educación en
México, México, El Colegio de México, 2011, 13–32.
Fernández-Ordóñez, Inés, La lengua de Castilla y la formación del español. Discurso de ingreso
en la Real Academia Española, Madrid, Real Academia Española, 2011.
Fernández-Ordóñez, Inés, El norte peninsular y su papel en la historia de la lengua española,
Gómez Seibane, S./Sinner, C., Estudios sobre tiempo y espacio en el español norteño, San
Millán de La Cogolla, Cilengua, 2012, 23–68.
Frago Gracia, Juan Antonio, Historia del español de América, Madrid, Gredos, 1999.
Frago Gracia, Juan Antonio/Franco Figueroa, Mariano, El español de América, Cádiz, Universidad
de Cádiz, 2001.
García Tesoro, Ana Isabel, «Cada quien tiene un su nagual» La construcción artículo indefinido +
posesivo + nombre en el español de Guatemala, The Journal of the Faculty of Foreign
Studies, 2001, 197–2009.
Gonzalbo Aizpuru, Pilar, Historia de la educación en la época colonial: el mundo indígena,
México, El Colegio de México, 1990.
Halliday, M.A.K., El lenguaje como semiótica social. Interpretación social del lenguaje y del
significado, México, Fondo de Cultura Económica, 1982.
Hymes, Dell, Foundations of Sociolinguistics: An Ethnographic Approach, New York, Routledge,
1997.
Jiménez Gómez, Juan Ricardo, La República de Indios en Querétaro 1550–1820. Gobierno,
elecciones y bienes de comunidad, México, Porrúa, 2008.
Kabatek, Johannes (ed.), Introducción, in: Sintaxis histórica del español y cambio lingüístico:
Nuevas perspectivas desde las tradiciones discursivas, Frankfurt am Main/Madrid, Ver-
vuert/Iberoamericana, 2008, 7–16.
Koch, Peter/Oesterreicher, Wulf, Lengua hablada en la Romania: español, francés, italiano,

Madrid, Gredos, 2007.
Labov, William, Principles of Linguistic Change, vol. 2: Social Factors, Oxford, Blackwell, 2001.
Levaggi, Abelardo, República de indios y república de españoles en los reinos de Indias, Revista
de Estudios histórico-jurídicos, 2001, no. 23. (http://dx.doi.org/10.4067/S0716-
5444200100230009).
Lipski, John M., El español de América, Madrid, Cátedra, 2002.
López Morales, Sociolingüística, Madrid, Gredos, 1993.
Pato, Enrique, La estructura una mi amiga en el español de Guatemala, in: A. Palacios y A.I.
García (edd.), El indigenismo americano III, Valencia, Universitat de Valencia, 2002,
121–154.
Penny, Ralph, Variación y cambio en español, Madrid, Gredos, 2004.
Rivarola, José Luis, Sobre los orígenes y la evolución del español americano, in: Noll, Volker, et
al. (edd.), El español en América. Aspectos teóricos, particularidades y contactos, Madrid/
Salazar, Raquel, El parentesco ritual: el compadrazgo en el Paraguay, antropylogia.wordpress.
com/2009/03/28.
Schlieben-Lange, Brigitte, Iniciación a la Sociolingüística, Madrid, Gredos, 1977.
Wright, Roger, La Sociofilología y el origen de la primera documentación cancilleresca en forma
romance en Castilla, in: Jakob, Daniel/Kabatek, Johannes (edd.), Lengua medieval y tradi-
ciones discursivas en la Península Ibérica, 2001, 63–77.
Marta Fernández Alcaide
Manifestaciones de la variación del español
colonial en un corpus epistolar
multidimensional
1 Consideraciones teóricas: el punto de partida*
La configuración de un corpus del español colonial tropieza con dos dificultades
particulares del español de América y las generales de cualquier corpus. En
cuanto a las dificultades particulares (Ramírez Luengo 2012, 255–256), no hay
acuerdo sobre cuándo empieza a poder hablarse de español de América y, por
otra parte, tenemos escasa documentación de los primeros años de gestación del
español americano y, concretamente, una menguada representatividad de las
diferentes tradiciones discursivas y textuales.
En efecto, español de América como tal no habría hasta la primera mitad del
siglo XVII, pero el español llevado a América habría empezado a transformarse
desde las primeras colonizaciones (Obediente 2012, 271) e incluso en las primeras
naos que zarpan rumbo a América están preparándose las condiciones lingüísti-
cas necesarias para que pueda producirse la nivelación y, consecuentemente, la
configuración de rasgos lingüísticos propios. De hecho, el español primero que
llega a América es el preferido —dado que es sobre el que empieza a configurarse
una realidad lingüística nueva— frente al español que sigue llegando en los
sucesivos años, de ahí la permanencia en el español de América de formas
lingüísticas que serían abandonadas en la península.
El desechar, por tanto, esos primeros veinte o treinta años en que los
españoles se instalan y comienzan a utilizar su español en América, como, entre
otros, De Granda (1994), no sería probablemente más que dejar fuera del espacio
variacional los momentos de vacilación propios de la transición de un estado de
lengua a otro nuevo (cf. Sánchez Méndez 2012; Kabatek 2013). Así, por ejemplo,
* Este trabajo se ha realizado en el marco del proyecto de investigación «Tradiciones discursivas,

tradiciones idiomáticas y unidades de análisis del discurso en la historia del español moderno»
(FFI 2014-51826-P), desarrollado por el grupo de investigación El español hablado en Andalucía
(HUM-134), al que pertenece la autora (cf.grupo.us.es/ehandalucia), todo ello gracias a la
financiación del Gobierno de España y la Junta de Andalucía, con el respaldo de los fondos
FEDER de la Unión Europea.
Marta Fernández Alcaide: Universidad de Sevilla

402 Marta Fernández Alcaide
respondiendo a algunas interrogantes que a este respecto plantea Sánchez Mén-

dez (2012), podría considerarse el diario de Colón o las crónicas de Indias dentro
del español americano de orígenes, como también hace Lüdtke (2014). Sería
interesante, pues, aplicar una delimitación temporal —seguimos en eso aproxi-
madamente la propuesta de Girón (2004)— que abarque desde 1492, fecha del
descubrimiento de América y de la primera gramática del español, hasta 1559, por
el otro lado, como fecha de la Gramática de Villalón (1558), las de Lovaina (1559),
fecha también en que se dictó una cédula para prohibir imprimir y vender libros
acerca de las Indias sin permiso del rey (1556) (Toribio Medina 1958, 6–7).
Por otro lado, existe el problema de la documentación colonial en dos
vertientes: su escasez general en los primeros años y su falta de variedad textual.1
En efecto, en colecciones (en papel) de textos americanos de los siglos XV, XVI y
XVII, son casi excepcionales los pertenecientes a la primera mitad del XVI y casi
ausentes los de finales del XV.2 Lo mismo sucede en CORDE, cuyos datos resumi-
mos en la siguiente tabla:3
1 Es fundamental en relación con nuestro estudio el recientemente creado CORDIAM (www.

cordiam.org), el Corpus Diacrónico y Diatópico del Español de América, un corpus elaborado con
corpus cedidos por numerosos investigadores: todos los documentos son de archivo, de modo
que son textos no literarios y no periodísticos que presentan una amplia variedad discursiva;
abarcan cronológicamente desde 1494 a 1905 y geográficamente, los 19 países americanos
hispanohablantes más el sur y oeste de Estados Unidos, Jamaica, Haití y Guyana (antiguos
territorios de la corona española). Su novedad y su ventaja es, pues, la de reunir todos esos
textos, algunos previamente publicados, y hacerlos accesibles a la comunidad científica. Concre-
tamente, para la fecha que manejamos aquí, CORDIAM recoge aproximadamente 1200, de los
cuales una cuarta parte tienen fecha anterior a 1560, cerca de 300, de modo que para ese periodo
se ha incluido el triple de textos de los citados en la nota 2. CORDIAM, por tanto, suple, por el
momento al menos parcialmente, las carencias detectadas en otros corpus.
2 Por citar solo algunos ejemplos concretos: en Documentos para la historia lingüística de
Hispanoamérica, siglos XVI a XVIII (Fontanella de Weinberg, 1993 vol.1) solo hay del siglo XVI 99
textos en total (14 textos dominicanos, 7 mexicanos, 40 limeños, 19 chilenos, 19 argentinos), de
los cuales pertenecen a la primera mitad del siglo solo 9; en Documentos lingüísticos de la Nueva
España, (Company 1994) son 78 textos, solo 23 de la primera mitad; en Documentos para la
Historia Lingüística de Mérida (Venezuela) – (Siglos XVI–XVIII) (Obediente Sosa 2003) solo hay 3
del siglo XVI y ninguno es de la primera mitad; Textos del Caribe (siglos XV, XVI y XVII), cuya
versión preliminar la editora, Martha Guzmán, me dejó consultar, contiene 26 documentos
editados de finales del siglo XV y la primera mitad del XVI y otros 15 de la segunda mitad; en
Cartas de particulares en Indias del siglo XVI hay editadas 640 cartas y solo 9 son de la primera
mitad.
3 No se puede aún proporcionar una tabla con datos semejantes de CORDIAM pues aún no están
disponibles, si bien nos consta que está en proceso de elaboración.
Manifestaciones de la variación del español colonial 403
Tabla 1: Resumen de documentos coloniales en CORDE
Argt Boliv Colm C. Chile Cuba Ecdr Guat Mxco Perú P. Rep. Total
Rica Rico Dom.
1492– 1 dcho 4 dcho 4 dcho 9 dcho 18

1520
1520– 91 1 hco 68 4 hco 5 169

1550 dcho dcho e
hco
15504– 6 12 33 1 58 51 5 dcho 166

1575 dcho dcho dcho dcho, dchoh,
hco, (3) social
relig
15755– 18 32 2 litº 26 11 2 dcho 29 75 4 hco 5 dcho 204

1599 dcho dcho dcho dcho, y dcho, dchoh, y litº
e hco 1 litº social hco, litº, social,
relig litº
24 44 2 59 102 1 3 1 159 130 8 24 557
No es desdeñable que, frente a esta cifra total de 557, para las mismas fechas en
España haya cerca de 7 mil documentos, distribuidos entre textos de diferente
temática como historia, derecho, arte, prosa narrativa, religión, ciencias aplica-
das, ciencias exactas, físicas y naturales, ciencias sociales, verso, etc.
Además, dado que la administración empezó a funcionar bien desde muy
pronto en América, tenemos textos administrativos, notariales, ordenamientos,
etc., y no tanto textos literarios, personales o históricos, como acabamos de ver:
4 Entre 1551 y 1575 hay de Argentina 6 documentos notariales; 12 de Bolivia también notariales;
de Chile 10 notariales; de Colombia uno hagiográfico; de Costa Rica 33 notariales; 1 notarial de
Ecuador; 58 de México entre notariales, históricos y tres religiosos en verso dramático breve; 51
de Perú, entre un texto de 1568–1570, Anónimo, Visita de los valles de Sonqo en los yunka de coca
de la Paz, dos notariales, 45 de ordenamientos y códigos legales, una relación y dos textos
historiográficos; 5 de República Dominicana, notariales.
5 Entre 1576 y 1599, 18 documentos notariales e históricos de Argentina; 32 documentos bolivia-
nos notariales; en Chile 11 notariales y uno de poesía épica; de Colombia, 2 textos literarios; de
Costa Rica hay 26 notariales; en Ecuador hay 1 notarial y otro social; en México 29 documentos
que se reparten entre notariales, históricos, uno literario y otros religiosos; para Perú hay 75
documentos, repartidos entre notariales e históricos fundamentalmente; 4 documentos históricos
para Puerto Rico; y, finalmente, de la República Dominicana hay 4 notariales y un entremés.
En los documentos indianos el problema de la definición y determinación de las T.T.

también es complicado, ya que, aunque las diferentes cancillerías se establecían a semejan-
za de la metrópoli, estas tenían sus propias particularidades, por lo que las tradiciones
textuales también diferían, desapareciendo algunas y creándose otras. Además, la comple-
jidad administrativa y cultural de esa sociedad incipiente repercutiría en la producción,
transformación y creación de T.T., como se refleja en la vastedad y variedad de documentos
indianos que se conservan y que permite apelar a América en esa época como «la bien
documentada (Diez del Corral 2012, 327).
Este inconveniente guarda relación también con otro más subsanable: los estu-
diosos han preferido buscar lo americano en textos coloquiales; ahora bien, como
señala Sánchez Méndez:
Creo que es necesario, por tanto, considerar documento hispanoamericano todo aquello que
nos ayude a inferir, analizar, conocer y comprender tanto directa como indirectamente la
evolución lingüística de las hablas americanas o de sus aspectos concretos, independiente-
mente del lugar donde se genera o de la persona que redacta o dicta (Sánchez Méndez 2012,
285).
En este sentido, importa plantear la configuración del corpus de español ameri-

cano de orígenes atendiendo a las tradiciones discursivas y a características
estrictamente lingüísticas. Wesch (1998, 187), por ejemplo, distinguió, dentro de
los textos jurídico-administrativos, entre documentos probatorios como la infor-
mación, la relación geográfica y la carta, documentos petitorios y documentos
dispositivos como la real provisión, la ordenanza, el mandamiento, la real cédula
y la instrucción.6 Otros autores intentan a su vez contribuir, así Obediente (2012) o
Sánchez Méndez (2012).7 Por su parte, Guzmán Riverón propone una clasificación
original basada en criterios puramente lingüísticos. Se fija en cuatro criterios:
6 Recientemente Greusslich (2012) vuelve a describir estos tipos de texto como acercamiento
previo a las Décadas, aunque él discute la mescolanza de tradiciones discursivas y la existencia
de tipos de textos bivalentes, idea con la que discrepamos: precisamente en los orígenes del
español de América los textos son aprovechados para distintos fines, se superponen diferentes
funciones e incluso quedan diluidos el plano de lo público y el plano de lo privado. Una muestra
de ello, no la única, son las cartas entre particulares (Fernández Alcaide 2009).
7 Obediente (2012, 273) presenta un listado con los distintos tipos de textos de la colección de
textos venezolanos (Obediente 2003): cartas de dote, conciertos, documentos de compraventa y
traspaso, documentos relativos a encomiendas, informaciones, donaciones, cartas particulares,
informaciones de visitas, obligaciones, poderes, solicitud de mercedes y licencias, testamentos y
codicilos, juicios. Sánchez Méndez hace una reseña (2012, 288–292) de qué tipos de textos
deberían incluirse en un corpus diacrónico americano y, aunque no es un listado exhaustivo, nos
interesa reproducir aquí las sugerencias que plantea: testamento, declaración de testigos, testi-
1) el marco temático, pragmático e institucional;

2) las condiciones comunicativas de la producción textual, es decir, qué tipo de
productor, qué tipo de receptor y cómo se concibe el texto, hablado, escrito o
ambos;
3) las características estructurales;
4) las particularidades lingüístico-estilísticas: la existencia de fórmulas fijas y
su frecuencia, la caracterización sintáctica general, los rasgos universales de
oralidad y los mecanismos de escrituralización de lo hablado.
El resultado es una tabla diacrónica de la extensión de ciertas tradiciones discur-

sivas en el Caribe, que sería interesante poder contrastar con otras zonas de
América (Guzmán Riverón 2008, 1858).
La tipología de Oesterreicher (2004) contempla el carácter variacional de la
lengua y por eso puede ser más adecuada a nuestro objetivo. Primero distingue
en el universo de los textos cinco secciones:
1) los discursos jurídico–administrativos, donde habría que considerar las leyes
de conquista y colonización de América;
2) los textos religiosos (tanto textos doctrinales como manuales de confesión,
sermones, devocionarios, libros de oraciones, textos místicos, etc.);
3) los discursos retórico-literarios, donde se incluye la historiografía, la gramá-
tica y la literatura;
4) los discursos del saber ‘científico’, del que interesarían las historias generales
y las relaciones de Indias;
5) y, finalmente, los discursos de «lo técnico», donde habría que observar los
tratados y las artes de las disciplinas.
Cruzada con esta clasificación se encuentra la indicación de fuentes que nos sitúan
en el marco de la inmediatez comunicativa, entendida en gradación, en un conti-
nuo con la distancia: la inmediatez iría marcada por textos en un lenguaje com-
prensible por todos acerca de temas cotidianos o personales, se iría distanciando a
medida que los textos fueran más especializados o ya científicos y de temas menos
individuales o ya universales, de forma que llegaría el culmen de la distancia
comunicativa cuando el texto fuera científico y tratara temas universales (Oeste-
rreicher 2004, 738–739). A continuación propone situaciones comunicativas don-
de la inmediatez comunicativa puede producirse: competencia escrita de impronta
oral, escrituras de personas bilingües, transcripción de testimonios y lengua de la
monio, pragmática real, auto, carta privada, carta eclesiástica, carta regia, pieza teatral, poema,
tratado religioso, tratado científico.
inmediatez, textos adaptados en función de la comprensibilidad del receptor,

simplicidad como estilo, mímesis de lo hablado y juicios metalingüísticos.
Aunque estas situaciones comunicativas están bien definidas, los textos
coloniales presentan el problema ya mencionado de que no son unívocos ni
presentan una única finalidad; podemos pasar de lo individual a lo general en
unas líneas dentro del mismo texto o de un tema cotidiano a otro científico. Ello
unido a la dificultad de separar dentro de un texto lo que pertenece a la tradición
discursiva en la que se inserta, el texto repetido, de lo que es original en ese autor,
nos lleva a la conclusión de que el análisis del corpus tendrá como resultado un
panorama también multidimensional, característico de la etapa estudiada.
2 Análisis de la variación en una muestra

Con el fin de ilustrar los problemas y la situación descritos en el apartado
precedente, se ha querido analizar un texto de mediados del siglo XVI elaborado
por un español emigrante en América. Concretamente, se trata de la carta 29 del
corpus Cartas de particulares en Indias del siglo XVI, que escribe en 1571 el capitán
Alonso Rodríguez de Villamizar, desde el Puerto de Santa María (Cuba), a su
mujer, Catalina Ruiz de Avilés, que se encuentra en Daimiel (Ciudad Real), con la
finalidad de pedirle que se reúnan con él sus hijos, Alonso y Marcos Rodríguez.
Esta carta está guardada en el Archivo General de Indias en el expediente de
solicitud de pasaje a América de Alonso y Marcos Rodríguez.8 Consta de 11 folios
manuscritos (7 páginas de transcripción paleográfica en documento Word), que
suponen un total de 3.274 palabras. Es una carta interesante porque Alonso
Rodríguez de Villamizar narra a su mujer las desventuras que ha sufrido con un
tercer hijo, Juan Rodríguez, a propósito de lo cual muestra su enorme enfado.
Esos problemas constituyen, además, la justificación para no haber enviado las
ganancias a España, así como para pedir que los otros hijos suyos se vayan con
él. Después da recomendaciones variadas y saludos para los familiares. La carta
es original, contiene los pliegos de haber sido doblada para su envío, así como el
sobreescrito.
Analizamos la carta tomando como referencia para nuestros objetivos traba-
jos previos como los de Eberenz (2003a; 2003b) y Eberenz y de la Torre (2003),
Cano (1996; 1998; 2007; 2008), Bustos Tovar (1996; 2001), Pountain (2006) o el ya
citado de Oesterreicher (2004). En cuanto a este último, nuestro texto se situaría
entre el universo de los textos jurídicos y administrativos, de ahí su conservación
8 Archivo General de Indias, Indiferente General 2098, N 44, 3–13.

en el expediente de pasaje a Indias, y el de los textos retórico–literarios, de ahí su

capacidad de presentar sucesos reales únicos. Dada su cotidianeidad y su carác-
ter personal podemos considerarlo más próximo al polo de la inmediatez y
probablemente en el primer tipo que establece, competencia escrita de impronta
oral, si bien es posible que tuviera un secretario que escribiera al dictado o que él
mismo fuera más competente que otros (de ahí términos como suma pena,
moderadamente, etc., pero también los signos de puntuación con que está escrito
el texto y la división en párrafos).
De Eberenz y Bustos Tovar extraeremos la presencia del hablante (2.1), la
sintaxis oracional relevante (2.2), la acumulación de coordinadas (2.3), las expre-
siones indirectas (2.4) y las construcciones de formas no personales (2.5). La
observación en el texto de los elementos que Pountain (2006) tiene en considera-
ción a propósito de El Corbacho, adjetivos calificativos antepuestos al sustantivo y
adverbios en –mente, gerundios ‘adverbiales’, construcciones absolutas y oracio-
nes relativas, etc., no ha ofrecido nada especialmente relevante. De Cano hemos
tomado el análisis sintáctico de oraciones para ver la proporción de cada tipo, con
el objetivo de observar la configuración sintáctica del texto (datos extraídos de las
tablas de análisis del anexo de Fernández Alcaide 2009, 348 y 355):
Número de enunciados: 41; Número de oraciones: 457.

Coordinación en principal: 72 (y 65, ni 1, mas 5, 1 más problemática).
Yuxtapuestas: 11.
Coordinación en subordinadas: 38 (y 32, ni 2, mas 1, sino 3).
Subordinadas sustantivas: como sujeto 16, como CD 69, en otras funciones 22.
Relativas: 80.
Subordinadas adverbiales propias: de modo 10; de tiempo 16; de lugar 1.
Adverbiales impropias: condicionales 19, concesivas 8, comparativas 3, consecutivas 4,
finales 22, causales 64.
Problemáticas, difíciles o dudosas: 2.
Construcciones en formas no personales: de infinitivo 45, de participio 3, de gerundio 12.
Como puede comprobarse, la carta presenta gran variedad sintáctica en general,

de modo que se puede afirmar que el remitente utiliza aquellas construcciones
necesarias para la función comunicativa. Podemos reseñar una preferencia,
dentro de las coordinadas, por las copulativas frente a las demás, con un 90 %;
también una superioridad de subordinadas sustantivas del 50 % dentro de las
subordinadas, frente al 37 % de las adjetivas y al 13 % de las adverbiales propias;
así como el conjunto de subordinadas supone el doble de adverbiales impropias,
destacando en este otro grupo las causales, que constituyen algo más del 50 %,
las finales, que son un 18 %, y las condicionales, un 16 %.
Existen muchos más elementos en variación en este texto, pero se han
seleccionado tan solo los más significativos en el plano sintáctico; los hay
también en el plano gráfico-fonético (como la manifestación del ensordecimiento

en la pareja de sibilantes palatales: dijo / dixera), en el plano morfológico (como
la asimilación en los infinitivos entre la vibrante final y la lateral del clítico
remitillo, el imperfecto en –ié, etc.) o en el léxico (conchabo, etc.).
2.1 Presencia del hablante
Si dividimos la carta en cuatro partes (por párrafos similares en cuanto al número

aproximado de palabras: 746 +1014 + 918 + 676), obtenemos lo siguiente:
Tabla 2: Persona de los verbos
Verbos en primera persona Verbos en primera persona Verbos en otras personas

con sujeto explícito sin sujeto
12 (18 %) 9 (13 %) 46 (69 %)
12 (9 %) 27 (20 %) 97 (71 %)
11 (10 %) 13 (12 %) 84 (78 %)
4 (5 %) 13 (16 %) 63 (79 %)
Como era de esperar, lo mayoritario es que el verbo aparezca en otras personas,

pero dado el carácter marcadamente emotivo de una carta privada, especialmente
en esta, donde el remitente se muestra tan implicado con lo que narra, se privilegia
la presencia de la primera persona del singular. Es sobre todo llamativo el porcen-
taje de primera persona con sujeto explícito de la primera parte de la carta, donde
explica el porqué de su enfado, frente a también una presencia alta de primera
persona en la segunda parte, aunque se prefiere la ausencia del sujeto explícito:9
(1) Ejemplos de la primera parte en primera persona del singular con sujeto
explícito:
a. el dia que yo le enbie a llamar que aquel dia tubiera yo bna calentura de cuatro dias
(3, 10)
b. abnques berdan que yo no le enbiava yo a llamar a el sino a mi hijo mateo ruyz (3,12)
c. para que sentienda cuan mal onbre es yo juro ansi dios me llebe a ojos de quien me
desea ver (3, 14)
9 Cf. Enríquez Carrasco (1984), García Salido (2013), Llorente / Mondéjar (1974), Luján (1999),
Peskova (2015), etc.
d. ¿en que juyzio de crystiano puede caber q […] yo no me bendiera y menpeñara y enbiara
en alguna cantidad (3, 24)
e. ¿de cuándo acá soy yo corto…? (4, 1)
f. adonde tanta obligazion yo tengo de enbiar la sangre del brazo (4, 3)
g. yo juro a nuestra sª de la conzezion que me a jugado y destruydo depues que aqui vino
mas de cuatro mill ducados (4, 4)
h. todo cuanto yo saco mi cuadrylla y lo que mas el pudo hallas prestado entre mis
amygos todo lo trugo y tomo (4, 15)
i. y ansi yo cay en mui gran falta (4, 19)
j. me mando […] que para lo que yo pretendia quera bn buen repartimiento para mateo
ruyz u para otro hijo no tenia yo nezesidad de salir de mi casa (4, 22–24)
k. terna de comer en esta jornada que aora se haze y yo le doy serbizio (4, 29)
(2) Ejemplos de la primera parte en primera persona del singular sin sujeto
explícito:
a. / con el s masescuela dgº serrano my prymo rezebi un enboltoryo de cartas (3, 1)

b. con el rezebi muncho contento (3, 2)
c. mas como entendi que con lo que llebo tenian algun comodo (3, 26)
d. y esto considerando lo que tengo dcho (4, 1)
e. y ansi la dexe (4, 24)
f. al cual beso mchas vezes la manos de su md (5, 1)
g. estoy corrido zierto que sea notado de arto en el gran descuydo (5, 2)
(3) Ejemplos de la segunda parte en primera persona del singular con sujeto
explícito:
a. porque yo no se la zertydunbre de la cantidad que sera (5, 14)

b. no se lo perdone que yo no se lo perdono ny se lo perdonare (5, 18)
c. pues yo tengo otros cuatro hijos mas onbres de bien que no el (5, 35)
d. como yo doy my dinero y se aprovecha vn minero de iiiiº ducados cada bn año (6, 4)
e. y con cuarenta esclavos q yo truga despaña terne mas de vii V ducados de renta (6, 21)
f. a las minas a donde yo estava (7, 9)
g. y q yo me fuese y me biniese a misa y quel me darya de comer (7, 18)
h. ladron le dije yo (7, 19)
i. depues de muerto no lo hare yo (7, 20)
j. abque yo baya a españa por mi casa (7, 21)
k. porque no puedo yo conparallo a onbre desa tierra (7, 28)
l. que yo le diera y partiera con el de todo lo que dios me diera (7, 30)
(4) Ejemplos de la segunda parte en primera persona del singular sin sujeto
explícito:
a. no se si yra a españa (5, 7)

b. no se lo perdone que yo no se lo perdono ny se lo perdonare (5, 19)
c. digo pues que la cantidad que rezibieren no se conpre eredad nynguna (5, 21)
d. porque no se la vida que dios me dara (5, 25)
e. estoy determynado de traer my casa y famylya aquy (5, 36)
f. y en esto estoy determynado (6, 10)
g. la flota que berna con lo que pudiere yre a traer mi casa (6, 12)
h. mi cuadrylla la cual la traygo aora mas aca por estar mas zerca (6, 19)
i. y con cuarenta esclavos q yo truga despaña terne mas de vii V ducados de renta (6, 21)
j. y mas la costa como e dho del mayz y de lo demas hecha (6, 23)
k. digo esto porque ydo yo con el favor de dios no digan zesta ballesta (6, 24)
l. ansi que en lo que digo de traer el dinero entre manos (6, 31)
m. porque no hare otra cosa por todo el resto del mundo (6, 34)
n. pues tengo otros hijos (7, 1)
ñ. y quiero que lo que dios me diere lo gozen ellos (7, 2)
o. y no tengo duda (7, 10)
p. y juro a dios y a esta + que acabo de tres meses (7, 14)
q. y q yo me fuese y me biniese a misa y quel me darya de comer (7, 18)
r. y por vida de todo lo que puedo jurar (7, 21)
s. ya le tengo rebocado el poder (7, 26)
t. que yo le diera y partiera con el de todo lo que dios me diera (7, 30)
u. y por no meterme mas en colora no digo mas en este articulo (7, 32)
v. y juro a dios que me an zertificado que me desea la muerte (7, 35)
w. y confio en dios de ver yo la suya antes (8, 1)
x. y de todo cuanto dijere y hiziere con este mal onbre (8, 2)
y. tengo mcha razon (8, 3)
Esta explicitación del pronombre de primera persona, como refuerzo de la expre-

sividad y la subjetividad, se observa incluso en formas no personales:
(5) porque ydo yo con el favor de dios no digan zesta ballesta (6, 24)
(6) y confio en dios de ver yo la suya antes (8, 1)
No contamos, porque excedería los límites de este trabajo, la sobreabundancia de

marcas de primera persona, como en esta muestra:
(7) que mi señor gobernador me avie hcho md de me nombrar por capitan xeneral (4, 7)
De todos modos, entendemos que estas construcciones aisladas del conjunto del
texto no se aprecian plenamente. Esperamos a ver la sintaxis para completar la
información y el análisis aquí presentados.
2.2 Sintaxis oracional relevante
2.2.1 Sintaxis centrífuga o segmentada
Este rasgo es claro en cuanto manifestación de una estrategia de verbalización

diferente entre la inmediatez y la distancia comunicativa y, por tanto, su apari-
ción en este texto nos permitiría adscribirlo a la inmediatez, al menos en las
secciones donde aparece. Ofrecemos el siguiente ejemplo que podría entenderse
como sintaxis centrífuga, en tanto que la oración puede considerarse relativa
«libre», pues el antecedente es el sujeto no explícito, o también podría contem-
plarse como consecutiva sin antecedente:
(8) vino aca que a sido mi cuchillo y destruyzion (3, 9)
Parece más oportuno en este caso más que presentar un ejemplo aislado, observar
un fragmento más amplio que nos permita comprobar esa segmentación. Se
analizarán tres que resultan especialmente interesantes para ver este rasgo. Son
tres cortes en la segunda parte de la carta: el principio, el medio y el final del
párrafo. Ya se comentó anteriormente que en este párrafo había abundante
frecuencia de la primera persona del singular, pero en las formas verbales más
que en los pronombres de sujeto:
(9) quien lleba esta hasta cartajena es un/5 gran señor y amigo mio que se dize fraco varco/6 y
no se si yra a españa si el fuere el llebara el/7 oro que el me quisiere prestar y si se queda/8
re lo dara a mi s capitan gª de barrionue/9 vo que el lo llebara y si no fuere el s capitan/10
gª de barrionuebo el s franco barco lo dara/11 a persona que lo llebe y enbiara dentro de
este/12 pliego el rezibo porque yo no se la zertydunbre/13 de la cantidad que sera mas que
senbiara/14 y mi voluntad se reziba qs muy buena esta/15 a sido entrañable del corazon y
quien tiene/16 la culpa y a sido la cabsa se lo demande dios y/17 no se lo perdone que yo
no se lo perdono ny se/18 lo perdonare pues asi bolvio las espaldas/19 a dios y a su madre
y hsº aviendolos dejado/20 en el estremo y estado que los dejo digo pues/21 que la
cantidad que rezibieren no se conpre/22 eredad ninguna sino mateo ruyz los tray/23 ga
entremanos en un trato de puercos u de/24 otra cosa que les parezere (5, 5–25)
En este primer fragmento, son llamativas las numerosas repeticiones tanto desde
el punto de vista léxico como desde el punto de vista sintáctico en las líneas 5 a 14,
aludiendo al envío de dinero. A partir de la línea 15, cambia ligeramente la idea:
(9.a) y mi voluntad se reziba qs muy buena esta a sido entrañable del corazon,
donde vemos que se unen las dos oraciones por yuxtaposición y se repite la
referencia al sujeto (mi voluntad, esta), en lugar de haber dejado explícita la
relación semántica entre ellas a través de algún nexo coordinante o subordinante

concreto, siendo como son, además, similares en el contenido. Estas dos oracio-
nes sirven para volver a mencionar los problemas sucedidos con el hijo como
causa de no haber atendido suficientemente a su familia, lo que lo lleva de nuevo
irremediablemente a manifestar su enfado con el hijo. Introduce una oración
sustantiva iniciada con el pronombre quien que es otro ejemplo de esa sintaxis
centrífuga: iniciando ella la nueva oración, sin ser el sujeto, le faltaría una
preposición que le permitiera desempeñar su función:
(9.b) quien tiene la culpa y a sido la cabsa se lo demande dios.
Ahora bien, su repetición pronominal permite entenderlo, más que como una
«falta», como una construcción segmentada. El párrafo continúa con otra oración
coordinada, la segunda ya, en la que surge una causal de la enunciación:
(9.c) y no se lo perdone que yo no se lo perdono ny se lo perdonare.
No explica por qué le ordena que no lo perdone, lo hará después con la causal del
enunciado:
(9.d) pues asi bolvio las espaldas a dios y a su madre y hsº […] que los dejo,
de modo que la causal de la enunciación justifica la orden dada a su mujer.

Tras la causal de la enunciación y la del enunciado, recupera el hilo discursi-
vo en la línea 21 mediante un verbo de lengua en primera persona del
singular y un pues que podríamos considerar, siguiendo a Fuentes (2009), un
pues6, conector ordenador discursivo de cierre, característico de textos conver-
sacionales y coloquiales, dado que le sirve para recuperar y cerrar la idea
abandonada en la línea 14. En la sustantiva que funciona de CD del verbo de
lengua,
(9.e) digo pues que la cantidad que rezibieren no se conpre eredad ninguna […] de otra cosa
que les parezere,
vuelve a observarse lo comentado más arriba; es otro caso de sintaxis centrífuga,

pues la menor planificación y la anteposición del sintagma «la cantidad que
rezibieren» favorecen que no aparezca la preposición que necesitaría para desem-
peñar su función, con probablemente.
El segundo fragmento que queríamos comentar es el siguiente, en el que nos
saltamos una parte menos significativa para no extendernos demasiado:
(10) y porques/32 te bellaco no goze en mi bida desta ha/33 zienda pues yo tengo otros
cuatro/34 hijos mas onbres de bien que no el/35 estoy determynado de traer/36 [5] my
casa y famylya aquí (5, 32–36) […] ansi que en lo que digo/31 de traer el dinero entre
manos para/32 quando lo quisieren sacar se saque/33 porque no hare otra cosa por
todo/34 el resto del mundo porq este/35 [6] ladron no lleve lo que no es suyo en mys dias
pues/1 tengo otros hijos y quiero que lo que dios me/2 diere lo gozen ellos myentras
dios me diere by/3 da (6, 31–35 y 7, 1–3)
En él hay varios signos inequívocos de esta sintaxis centrífuga de la que venimos

hablando. Empieza con una conjunción y que funciona extraoracionalmente y
una oración introducida por porque, que es final, en la que se inserta una causal,
cuyo nexo es pues. Tras ella aparece el verbo principal «estoy determynado». Se
ha interrumpido y cortado el fragmento donde elogia la tierra donde vive y
explica qué tendrían que hacer para llegar hasta allí. A continuación, unido a lo
anterior, aparece una consecutiva dudosa, introducida por ansi que, que no está
claro si es extraoracional o de la enunciación, dado que se abre con una relativa
sustantivada donde se explicita el verbo de lengua y enlaza con el final de lo
analizado en el fragmento 1, en el folio anterior de la carta:
(10.a) que la cantidad que rezibieren no se conpre eredad ninguna sino mateo ruyz los
trayga entremanos en un trato de puercos u de otra cosa que les parezere
(10.b) en lo que digo de traer el dinero entre manos para quando lo quisieren sacar se
saque.
Se trata, por tanto, de una repetición parcial que enlaza las dos partes del párrafo.
Tras la relativa sustantivada se incrusta una final–temporal con para cuando y
solo entonces encontramos la principal de la final–temporal, que al mismo
tiempo es la principal de la relativa sustantivada y, por tanto, la oración consecu-
tiva que había sido introducida por ansi que. A continuación se acumulan dos
oraciones introducidas por porque, la primera de las cuales parece ser una causal
de la enunciación de lo anterior, mientras la segunda es final:
(10.c) porque no hare otra cosa por todo el resto del mundo porq este ladron no lleve lo que
no es suyo en mys dias.
Sigue otra causal, esta vez con pues, donde se coordinan mediante copulativa dos
oraciones. La segunda de ellas resulta más compleja, pues incluye una subordi-
nada sustantiva de CD introducida por que, en la que además aparece una relativa
sustantivada en función de CD antepuesta por el énfasis que se le otorga, por lo
que se repite su referente con un pronombre átono anafórico y acaba con una
temporal de mientras:
(10.d) pues tengo otros hijos y quiero que lo que dios me diere lo gozen ellos myentras dios
me diere byda.
Se comprueba, por tanto, el alto grado de complejidad del fragmento que va

superponiendo niveles de subordinación al mismo tiempo que deja ver la tenden-
cia sintáctica segmentada.
Finalmente, el tercer fragmento, algo más extenso que los dos anteriores, nos
muestra un inicio con verbo performativo jurar que introduce en realidad la
narración de los hechos de ese hijo que tanto le han hecho enfadar:
(11) y juro a dios y a esta + que acabo de tres/14 meses depues de casado que me echo perso/15
nas que me dijesen que hiziese dexazion/16 de los yndios y los pusiese en su cabeza y
q/17 yo me fuese y me biniese a misa y quel me darya/18 de comer ladron le dije yo depues
de muer/19 to no lo hare yo y por vida de todo lo que/20 puedo jurar que abque yo baya a
españa/21 por mi casa que no a de quedar en la ha/22 zienda sino dejare vna persona que
sea/23 tal que este en ella y le de a el lo que di/24 xere la justizia que sea justo cada vn/25
año que coma ya le tengo rebocado el poder/26 para quen cosa mya no entre ni salga/27
porque no puedo yo conparallo a onbre desa/28 tierra y plubiera a dios y fuera onbre
de/29 bien que yo le diera y partiera con el de to/30 do lo que dios me diera y por no
meterme/31 mas en colora no digo mas en este arti/32 culo que tenia que dezir daqui a bn
a/33 ño de sus maldades y enbustes y mentiras/34 y marañas y juro a dios que me an
zertifica/35 do que me desea la muerte y lo a dcho/36 [7] a personas fedidios y confio en
dios de ver yo/1 la suya antes y de todo cuanto dijere y hi/2 ziere con este mal onbre tengo
mcha razon pues/3 no me aviso de como quedaba su madre y her/4 manos en la
nezesidad que los dejo (7, 14–36 y 8, 1–5)
En efecto, al verbo jurar le sigue una subordinada sustantiva de CD con repetición

del nexo que, separado un uso del otro por un complemento temporal. En ese CD
aparece una relativa dentro de otro CD con un verbo de lengua dijesen, que a su vez
requiere otro CD expresado mediante subordinada sustantiva introducida por que,
que contiene una muestra de discurso referido indirecto. Lo que sigue son cinco
oraciones que se coordinan, repitiendo la conjunción copulativa y en las cuatro
ocasiones requeridas, aumentando la tensión dramática de la narración, hasta que
finalmente se yuxtapone el discurso directo del propio remitente de la carta:
(11.a) ladron le dije yo depues de muerto no lo hare yo.
Ese contraste entre la repetición de la conjunción de coordinación copulativa

cuatro veces y la yuxtaposición, que encierra además el contraste entre el discur-
so referido de otros y el discurso directo propio, se ve reforzado por la aparición
de la primera persona en el verbo y el pronombre de sujeto explícito, además del
uso del futuro de indicativo y la sencillez oracional en el último caso. Lo que sigue
va coordinado con y también, si bien no está claro a qué se une, probablemente a

la primera sustantiva de CD dependiente de jurar, 55 palabras más arriba:
(11.b) y por vida de todo lo que puedo jurar que abque yo baya a españa por mi casa que no
a de quedar en la hazienda sino dejare vna persona que sea tal que este en ella y le de
a el lo que dixere la justizia que sea justo cada vn año que coma.
En esa nueva subordinada sustantiva de CD de jurar vuelve a repetirse que por

intercalarse una concesiva de aunque (abque). En ella se da también la coordina-
ción, que en esta ocasión es adversativa, iniciada con el nexo sino, que contiene
un CD nominal en el que se inserta una relativa, dentro de la cual aparece otra
oración, en este caso una consecutiva con tal que en la que además hay coordina-
ción copulativa con y, con una relativa sustantivada con lo que, y en ella una
subordinada sustantiva de CD con una subordinada sustantiva de sujeto. Como se
observa, estas líneas suponen una abigarrada sintaxis por la trabazón e incrus-
tación de cuantiosas oraciones.
Continúa el párrafo con una nueva oración, claramente relacionada por la
semántica con lo anterior, si bien desde el punto de vista sintáctico solo se
yuxtapone. Comienza la nueva principal y enseguida se vuelve a dar el entrama-
do oracional anterior, pues aparece una final del enunciado con para que, luego
una causal con porque, donde sin embargo se observa un alejamiento semántico
con lo anterior, de modo que quizá se trate de una causal de la enunciación, que
justifique la revocación del poder que ha hecho sobre su hijo:
(11.c) ya le tengo rebocado el poder para quen cosa mya no entre ni salga porque no puedo
yo conparallo a onbre desa tierra.
Más dudosa es, con todo, la coordinación que se abre a continuación, pues se
aleja del tema tratado inmediatamente antes, si bien parece estar en consonancia
con la justificación de la enunciación previa, luego podríamos pensar que se
coordina a la primera causal de la enunciación. Se abre con dos imperfectos de
subjuntivo desiderativos coordinados tras los cuales aparece que con otros dos
imperfectos de subjuntivo de difícil análisis (enlace de una subordinada sustanti-
va de sujeto dependiente del primer verbo, no del segundo, plubiera, o consecu-
tiva de los dos verbos desiderativos, o causal de la enunciación de su deseo
expresado como improbable) y en esa oración un relativo sustantivado parece
funcionar de partitivo:
(11.d) y plubiera a dios y fuera onbre de bien que yo le diera y partiera con el de todo lo que
dios me diera.
De nuevo empieza otra oración con la coordinada copulativa y, que supone ya

una unión extraoracional a todo lo dicho anteriormente, explicitado mediante un
verbo de lengua, seguida por una causal de la enunciación introducida por que.
(11.e) y por no meterme mas en colora no digo mas en este articulo que tenia que dezir
daqui a bn año de sus maldades y enbustes y mentiras y marañas
Es otra vez y el nexo que enlaza la nueva oración que, por otro lado, repite el
juramento que iniciaba el párrafo acerca del mal comportamiento de su hijo. Se
sigue, pues, una subordinada sustantiva de CD con que, dentro de la cual se
produce otra subordinada sustantiva de CD, coordinada con y a otra:
(11.f) y juro a dios que me an zertificado que me desea la muerte y lo a dcho a personas
fedidios.
Continúa una nueva coordinación copulativa, parece que esta vez poniendo en
relación con el juro anterior, precisamente por compartir la forma de primera
persona del singular, pero más bien parece contraponerse a lo expresado allí, por
lo tanto es una y con valor adversativo: este empleo de un nexo de sentido más
amplio con valores que no le son propios es otro rasgo de la inmediatez comuni-
cativa que se viene observando en el texto.
(11.g) y confio en dios de ver yo la suya antes
Continúa el párrafo con la coordinación expresada por y, que cierra a modo de

conclusión la idea tan extensa y profusamente explicada en las líneas preceden-
tes. Se antepone un complemento en el que se inserta una relativa, tras la cual
aparece el verbo principal y una causal del enunciado. En esta se suceden una
sustantiva de como y una relativa con que.
(11.h) y de todo cuanto dijere y hiziere con este mal onbre tengo mcha razon pues no me
aviso de como quedaba su madre y hermanos en la nezesidad que los dejo
2.2.2 Problemas con las relativas
En el apartado anterior, se han mencionado las numerosas relativas de los

párrafos analizados. Solo vamos a citar aquí, por tanto, una cuestión que afecta
de forma particular a las relativas. Son problemas que dan cuenta de una escasa
planificación sintáctica, de modo que nos sitúan en las estrategias comunicativas
de la inmediatez. En los tres ejemplos que siguen observamos respectivamente el

uso anticipado de la preposición con el antecedente del relativo, que no la
necesita, en lugar de con el relativo; la adscripción dudosa de la construcción
debido a la repetición del referente en la oración de relativo; y la consideración
del antecedente del relativo como todo lo dicho anteriormente, en lugar de
aparecer algo concreto:
(12) si el me dixera por semexas en la nezesidad que dexaba a su madre y hsº (3, 21)
(13) aora averme hcho una perdida en una cuyuntura que mi señor gobernador me avie
hcho md de me nonbrar por capitan xeneral para las conquistas del guazuze y unas
baymar y trango y otras tres probinzias (4, 7)
(14) con cargo q me digan cada viernes vna misa de pasion en todo un año con un responso
cantado q dandome dios vida yo lo acrezentare (9, 13)
2.3 Acumulación de coordinadas
También se ha observado en el apartado 2.2 que, con bastante frecuencia, si bien

más en unos pasajes que en otros, una coordinada seguía a otra, en una extensa
proliferación de la conjunción y. El polisíndeton en esos casos no puede justifi-
carse por cuestión estética sino más bien por una falta de planificación en la
construcción del discurso, que puede además tener efectos variados. A continua-
ción se muestran algunos fragmentos con este rasgo:
(15) no me dijo ni dio a entender de nezesidad ni que tubiesen sino buena pasadia y que abie
conprado muchas biñas y muchas tierras y que pasaban la bida muy a su gusto (3, 16–19)
(16) me mando como lo veran por esa carta suya que dejase la jornada y que para lo que yo
pretendia quera bn buen repartimiento para mateo ruyz u para otro hijo no tenia yo
nezesidad de salir de mi casa y ansi la dexe y sencarga della el capitan dgº morgado bn
grande señor y amigo mio (4, 20–26)
(17) y la misa a de ser rezada y el viernes q fuere fiesta se diga el miercoles de la mysma
semana y el responso de no recorderys (9, 15–17)
2.4 Expresiones indirectas
Con expresiones indirectas nos referimos, siguiendo a Searle (1969),10 a aquellas

que tienen una forma y un sentido no directamente relacionados. Tienen que ver
con las estrategias comunicativas propias de la inmediatez.
10 Cf. Escandell (2010) y RAE-ASELE (2009).

Estos dos primeros ejemplos se refieren a la modalidad. Son enunciados

formalmente interrogativos que, con todo, están enunciando negativamente, es
decir, están negando su contenido, de una manera enfática, pues presentan una
evidencia para el hablante que ha sido probablemente11 cuestionada por su
interlocutor:
(18) ¿en que juyzio de crystiano puede caber…? (3, 20)

(19) ¿de cuándo acá soy yo corto…? (4, 1)
Más complejos y, por lo tanto, más discutibles también, son los casos siguientes.
El primero tiene la estructura y la forma de una adverbial final, introducida por
para que, con un verbo en subjuntivo; sin embargo, no guarda relación directa
con lo que le sigue, es decir, lo expresado en ella indudablemente no es la
finalidad de lo posterior. Parece, en cambio, una final de la enunciación, una
expresión indirecta que enmarca lo que sigue y justifica el juramento realizado:
(20) que para que sentienda cual mal onbre es yo juro ansi dios me llebe a ojos de quien me
desea ver queste fue unobre depues de benido a mi casa que no me dijo ni dio a
entender de nezesidad ni que tubiesen sino buena pasadia (3, 14)
En este otro caso sucede algo similar pero esta vez con una causal, introducida
por que, con un verbo en –ra con valor de pluscuamperfecto de subjuntivo,
haciendo de la causal una irrealidad y, por lo tanto, algo meramente justificativo
del imperativo antes expresado:
(21) y no deje el estudio gaspar rsº que si el bellaco ladron de su hº me dijera lo q pasaba yo
le ayudara para su estudio (9, 26–28)
2.5 Construcciones de formas no personales
En este último apartado queremos destacar la presencia de construcciones de

formas no personales en cuanto elemento de variación sintáctica que ha sido
relacionada con la lengua más distante o formal. Así aparece en uno de los
trabajos señalados más arriba: para Pountain (2006, 18), estas construcciones
caracterizan las secuencias de comentario y narración frente a su escasez o
11 Solo decimos probablemente porque es lo que parece inferirse del contexto, pero lamentable-
mente carecemos de la carta previa donde estaría escrito.
mínima representación en el discurso directo. No parece, sin embargo, que todos

los casos puedan tener esa adscripción, como tampoco en la lengua actual. Nada
de particular tienen las construcciones de participio ni la mayoría de ejemplos de
infinitivo, salvo lo que ya se comentó en 2.1. a propósito de la aparición del
pronombre sujeto. Pueden verse los siguientes ejemplos:
(22) depues de benido a mi casa (3, 16)

(23) porque ydo yo con el favor de dios no digan zesta ballesta (6, 24)
(24) y confio en dios de ver yo la suya antes (8, 1)
(25) suma pena en entender… (3, 4)
(26) no avie qué destruir (3, 8)
(27) obligazion yo tengo de enbiar la sangre del brazo
(28) aora averme hcho una perdida (4, 6)
(29) me avie hcho md de me nonbrar (4, 7)
(30) con achaque de dezir que tenia bnas calenturyllas (4, 18)
(31) abnquen ser como es tan mi s el s gobernador me mando como lo veran por esa carta
suya que dejase la jornada (4, 20)
(32) no tenia yo nezesidad de salir de mi casa (4, 24)
En el caso del gerundio, no aparecen formas personales de sujeto, aunque sí

sintagmas que podrían analizarse como tales. Llama, sin embargo, la atención el
último ejemplo de la lista, que puede considerarse propio de la inmediatez
comunicativa por el abuso de gerundio con distintas funciones en apenas ocho
palabras:
(33) y esto considerando lo que tengo dicho (4, 1)

(34) y estando ya hcha la nº y enbiandolo a el a la zibdad de zaragoza [. . .] todo lo trugo (4, 11)
(35) y siendo dios servido terna de comer en esta jornada (4, 28)
(36) con cargo q me digan cada viernes vna misa de pasion en todo un año con un responso
cantado q dandome dios vida yo lo acrezentare pudiendo rogando a nuestro s me llebe
a mi casa (9, 13–14)
3 Conclusión
Volviendo al punto de partida, queda resolver la cuestión de cómo se podría
contribuir al estudio de la historia del español desde la perspectiva variacional
con análisis de este tipo. Sin duda el primer paso debería ser la consideración
del pluricentrismo de la norma hispánica, dado que en esta época inicial del
español en América no se había producido la estandarización, de modo que la
descripción de los usos lingüísticos no se haga por negación frente a ningún
estándar sino atendiendo a sus propias características. Por eso sorprende, por
ejemplo, la afirmación de algunos estudiosos del español de que los imperfectos
en –ié acaban en el XIV y que solo dialectalmente perviven o que la anteposición

del adjetivo al sustantivo es simplemente una cuestión estilística y literaria o la
simplificación del análisis de ciertas oraciones como agramaticales. Así, como
se acaba de ver en el apartado 2, la presencia abundante de formas de primera
persona guarda relación con el tipo de texto —una carta privada—, el ámbito
familiar al que se circunscribe —entre esposos— y a la fuerte emoción que
desprende por la actitud del emisor ante lo narrado —un gran enfado y decep-
ción—. Estos rasgos están ausentes, por ejemplo, en otro tipo de textos como la
relación, la ley, etc., de ahí que también esté ausente el empleo de la primera
persona. Las repeticiones y la sintaxis centrífuga, entremezcladas con construc-
ciones centrípetas y fluidas, se explican del mismo modo, así como la preferen-
cia por las coordinadas copulativas es muestra de la falta de planificación en
muchos casos. Las expresiones indirectas forman parte de las estrategias discur-
sivas que funcionan en la oralidad concepcional por las inferencias que se dejan
al receptor. Todos estos rasgos —y otros más cuyo análisis no se ha abordado en
este trabajo— son relevantes por el contraste con otros textos cuya finalidad
discursiva es completamente distinta, de ahí la riqueza y la necesidad de
estudiarlos todos.
Esta idea nos lleva, en efecto, al segundo paso, que es la necesaria descrip-
ción de un conjunto superior de textos: la abertura hacia un conjunto mayor y, de
ser posible, una catalogación de textos americanos en archivos y bibliotecas,
como trabajo en equipo, con la ayuda fundamental de historiadores y archiveros.
Lo que se plantea, por tanto, es un proyecto común multidisciplinar. Algo está
avanzando ya en este sentido el grupo CHARTA y también el proyecto CORDIAM
pero sin duda queda aún mucho trabajo por hacer. Sería interesante y necesario
trabajar en colaboración con archiveros e historiadores de América para poder
contribuir a una clasificación de los documentos americanos de las fechas men-
cionadas.
No presento pues unas conclusiones cerradas. El análisis de la variación
realizado por otros lingüistas e historiadores de la lengua sirve de orientación y
traza el camino, pero queda pendiente la representación conjunta de lo que hasta
ahora sabíamos del español colonial y lo que se pueda ir conociendo a partir de
un nuevo acercamiento a los textos con la perspectiva de la variación y a partir de
un conjunto distinto y más amplio de documentos.
4 Bibliografía
Bustos Tovar, José Jesús de, La imbricación de la oralidad en la escritura como técnica del
discurso narrativo, in: Kotschi, Thomas/Oesterreicher, Wulf/Zimmermann, Klaus (edd.), El
español hablado y la cultura oral en España e Hispanoamérica, Madrid, Vervuert/Iberoame-
ricana, 1996, 359–374.
Bustos Tovar, José Jesús de, De la oralidad a la escritura en la transición de la Edad Media al
Renacimiento: la textualización del diálogo conversacional, Criticón (2001), 191–206.
Cano Aguilar, Rafael, Lenguaje «espontáneo» y retórica epistolar en cartas de emigrantes
espanoles a Indias, in: Kotschi, Thomas/Oesterreicher, Wulf/Zimmermann, Klaus (edd.), El
español hablado y la cultura oral en España e Hispanoamérica, Frankfurt am Main/Madrid,
Vervuert/Iberoamericana, 1996, 375–404.
Cano Aguilar, Rafael, Presencia de lo oral en lo escrito: la transcripción de las declaraciones en
documentos indianos del siglo XVI, in: Oesterreicher, Wulf/Stoll, Eva/Andreas Wesch (edd.),
Competencia escrita, tradiciones discursivas y variedades lingüísticas: aspectos del es-
pañol europeo y americano en los siglos XVI y XVII, Tübingen, Gunter Narr, 1998a, 219–242.
Cano Aguilar, Rafael, De nuevo sobre oralidad e historia de la lengua: el caso de Guzmán de
Alfarache, in: Cortés Rodríguez, Luis María (coord.), Discurso y oralidad: homenaje al
profesor José Jesús de Bustos Tovar, vol. 1, Madrid, Arco/Libros, 2007, 41–64.
Cano Aguilar, Rafael, La sintaxis de los documentos primitivos: interacción oral y convenciona-
lismo discursivo, in: Díez Calleja, Beatriz (coord.), El primitivo romance hispánico, Burgos,
Fundación Instituto Castellano y Leonés de la Lengua, 2008, 397–406.
Company, Concepción, Documentos lingüísticos de la Nueva España, México, UNAM, 1994.
Diez del Corral Areta, Elena, La problemática de las tradiciones textuales en el estudio lingüístico
del documento indiano, in: Torrens Álvarez, María Jesús/Sánchez-Prieto Borja, Pedro (edd.),
Nuevas perspectivas para la edición y el estudio de documentos hispánicos antiguos,
vol. 12, Bern, Peter Lang, 2012, 323–333.
Eberenz, Rolf, Huellas de la oralidad en textos de los siglos XV y XVI, in: Bustos Tovar, José Jesús
(coord.), Textualización y oralidad, Madrid, Instituto Universitario Menéndez Pidal/Visor,
2003a, 63–83.
Eberenz, Rolf, En busca de la palabra viva: sobre la representación de la lengua hablada en las
Actas de la Inquisición, in: Carrasco Cantos, Inés (coord.), El mundo como escritura:
estudios sobre Cervantes y su época, Málaga, Universidad de Málaga, 2003, 59–78.
Eberenz, Rolf y Mariela de la Torre, Conversaciones estrechamente vigiladas: interacción coloquial
y español oral en las actas inquisitoriales de los siglos XV a XVII, Zaragoza, Pórtico, 2003.
Enríquez Carrasco, Emilia Victoria, El pronombre personal sujeto en la lengua española hablada
en Madrid, Madrid, Consejo Superior de Investigaciones Científicas, Instituto Miguel de
Cervantes, 1984.
Escandell, M. Victoria, Introducción a la Pragmática, Barcelona, Ariel, 2010.
Fernández Alcaide, Marta, Cartas de particulares en Indias del siglo XVI. Edición y estudio
discursivo, CDRom, Madrid/Frankfurt am Main, Iberoamericana/Vervuert, 2009.
Fontanella de Weinberg, Beatriz (comp.), Documentos para la historia lingüística de Hispano-
américa, siglos XVI a XVIII, Anejo LIII del Boletín de la Real Academia Española, vol. 1,
Madrid, RAE, 1993.
Fuentes Rodríguez, Catalina, Diccionario de conectores y operadores del español, Madrid, Arco /
Libros, 2009.
García Salido, Marcos, La expresión pronominal de sujeto y objetos en español: Estudio con
datos conversacionales, Verba, Anexo 70, Santiago de Compostela, Servicio de Publicacio-
nes de la Universidad de Santiago de Compostela, 2013.
Girón Alconchel, José Luis, Cambios gramaticales en los Siglos de Oro, in: Cano, Rafael (coord.),
Historia de la lengua española, Barcelona, Ariel, 2004, 859–894.
Guzmán Riverón, Martha, Tradiciones discursivas e historia de la lengua española en América,
in: Fernández Alcaide, Marta/Araceli López, Serena (edd.), Cuatrocientos años de la lengua
del Quijote: estudios de historiografía e historia de la lengua española, Sevilla, Universi-
dad, 2007, 79–88.
Guzmán Riverón, Martha, Tradiciones discursivas en textos coloniales del Caribe: características,
origen y evoluciones, in: Company Company, Concepción/Moreno de Alba, José G. (edd.),
Actas del VII Congreso Internacional de Historia de la Lengua Española, vol. 2, Madrid,
Gredos, 2008, 1851–1868.
Granda, Germán de (1994): Español de América, español de África y hablas criollas hispánicas,
Madrid: Gredos.
Greusslich, Sebastian, Text, Autor und Wissen in der «historiografía indiana» der Frühen Neuzeit.
Die Décadas von Antonio de Herrera y Tordesillas, Berlín/Boston, de Gruyter, 2012.
Llorente, Antonio/Mondéjar, José, La conjugación objetiva en español, RSEL 4/1, (1974), 1–60.
Lüdtke, Jens, Los orígenes de la lengua española en América. Los primeros cambios en las Islas
Canarias, las Antillas y Castilla del Oro, Madrid/Frankfurt am Main, Iberoamericana/Ver-
vuert, 2014.
Luján, Marta, Expresión y omisión del pronombre personal, in: Bosque, Ignacio/Demonte, Violeta
(coords.), Gramática descriptiva de la lengua española, vol. 2, Madrid, Espasa Calpe, 1999,
1277–1311.
Obediente Sosa, Enrique, Documentos para la Historia Lingüística de Mérida (Venezuela) –
(Siglos XVI–XVII), 2003, http://www.linguisticahispanica.org/corpus/docs-coloniales/.
Obediente Sosa, Enrique, El documento americano: problemas de definición y de edición, in:
Torrens Álvarez, María Jesús/Sánchez-Prieto Borja, Pedro (edd.), Nuevas perspectivas para
la edición y el estudio de documentos hispánicos antiguos, vol. 12, Bern, Peter Lang, 2012,
270–281.
Pountain, Christopher John, Towards a history of register in Spanish, Spanish in Context 3:1
(2006), 5–24.
RAE-ASELE, Nueva gramática de la lengua española, Madrid, Espasa Calpe, 2009.
Ramírez Luengo, José Luis, Edición de documentos americanos: problemas, métodos y aspectos
específicos. Introducción, in: Torrens Álvarez, María Jesús/Sánchez-Prieto Borja, Pedro
(edd.), Nuevas perspectivas para la edición y el estudio de documentos hispánicos anti-
guos, vol. 12, Bern, Peter Lang, 2012, 255–259.
Sánchez Méndez, Juan Pedro, Aspectos para la elaboración de un corpus diacrónico de docu-
mentos hispanoamericanos, in: Torrens Álvarez, María Jesús/Sánchez-Prieto Borja, Pedro
(edd.), Nuevas perspectivas para la edición y el estudio de documentos hispánicos anti-
guos, vol. 12, Bern, Peter Lang, 2012, 282–296.
Searle, John R. Actos de habla: ensayo de filosofía del lenguaje, Madrid, Cátedra, 1969.
Toribio Medina, José, Historia de la imprenta en los antiguos dominios españoles de América y
Oceanía, vol. 1, Santiago de Chile, Fondo histórico y bibliográfico José Toribio Medina de la
Biblioteca Nacional, 1958.
Torrens Álvarez, María Jesús/Sánchez-Prieto Borja, Pedro (edd.), Nuevas perspectivas para la
edición y el estudio de documentos hispánicos antiguos, vol. 12, Bern, Peter Lang, 2012.
Wesch, Andreas, Hacia una tipología lingüística de los textos administrativos y jurídicos es-
pañoles (siglos XV–XVII), in: Oesterreicher, Wolf/Stoll, Eva/Wesch, Andreas (edd.), Compe-
tencia escrita, tradiciones discursivas y variedades lingüísticas, Tubingen, Gunter Narr
Verlag, 1998, 187–218.
Olivier Iglesias
«Se le quedó mirando»: la atracción
de clíticos en un corpus de idiolectos
(s. XIX–XXI)
1 Introducción
1.1 Precedentes
Bien es sabido que en español es posible decir y escribir tanto puedo decirlo como
lo puedo decir. Este fenómeno, que se suele llamar «subida de clíticos»,1 ha
interesado a muchos hispanistas estos últimos años, porque se trata de un
fenómeno de variación importante a priori anti-económico.
En efecto, en la mayoría de los casos, los estudios sobre este tema intentan
buscar los contextos que impiden o frenan la subida del clítico e intentan
también demostrar que hay diferencias pragmáticas,2 sociales3 o incluso semán-
ticas.4 Es decir, la gran mayoría de los estudios parecen basarse en un axioma
según el que cada forma lingüística tendría una función. Es lo que Barra-Jover
(2009) llama (y critica) el axioma de «dos formas, dos funciones». Según este
axioma, principio clásico del estructuralismo, dos formas diferentes no pueden
tener una misma función por una razón de economía del lenguaje. Además, al
servir de base a muchos estudios sobre la cuestión de la subida de clíticos en
español, obliga al lingüista a encontrar una explicación causal a todo cambio
1 En este artículo, no voy a debatir sobre la pertinencia o no de la expresión «subida de clíticos»,

ni tampoco pretendo dar un panorama exhaustivo de los estudios sobre este fenómeno. Para ello,
remito a la bibliografía y más particularmente a Iglesias (2012).
2 Véanse Myhill (1988), Davies (1995), Troya (2003), Zabalegui (2008), Schwenter/Torres Cacou-
llos (2009). Según la mayoría de estos estudios, la subida es más frecuente con un referente
animado que con un referente inanimado. Sin embargo, el estudio de Schwenter/Torres Cacou-
llos (2009) revela resultados contradictorios con esta hipótesis.
3 Véanse Troya (2003), Gudmestad (2006), Zabalegui (2008). Para todos ellos, la subida es
significativamente más frecuente en las poblaciones más jóvenes.
4 Véase Bermúdez (2005, 175). Según él, la posición del clítico en el complejo verbal (CV de
ahora en adelante) deber + infinitivo conduce al interlocutor a interpretar el auxiliar como
epistémico (con subida de clítico) o como deóntico (cuando el clítico se sitúa a la derecha).
Olivier Iglesias: Université Sorbonne Nouvelle – Paris 3

«Se le quedó mirando»: la atracción de clíticos 425
(en diacronía) o a encontrar una diferencia semántica o funcional a dos va-

riantes (en sincronía) lo cual puede llegar a ser problemático, pues permite
encontrar muchas explicaciones diferentes y a veces contradictorias, como sub-
raya Iglesias (2012, 64).
Además, los trabajos sobre subida de clíticos suelen diferir de manera bas-
tante significativa en el corpus de construcciones analizadas. En efecto, estos
corpus pueden describir la posición del clítico en CV muy diferentes. Encontra-
mos, pues, en la literatura sobre el tema, trabajos sobre CV de infinitivo, ex-
cluyendo por ende, las de gerundio (Davies 1995). Otros trabajos solo incluyen los
CV más frecuentes como poder, deber, tener que, etc., (Zabalegui 2008) y otros
intentan cubrir más construcciones como el trabajo de Schwenter/Torres Cacou-
llos (2009), con 15 construcciones verbales. En todos los casos se suele analizar la
posición del clítico en CV bastante frecuentes, y la razón parece bastante evi-
dente, puesto que si queremos obtener resultados estadísticamente fiables, lo
más fácil es buscar las construcciones más frecuentes para obtener un máximo de
ejemplos. El problema es que, como queda demostrado en Iglesias (2012, 204), las
construcciones más frecuentes son las que presentan más variación5 (si exceptua-
mos estar e ir + gerundio).
Por todo ello, en este trabajo me propongo observar la posición de los clíticos
en construcciones mucho menos frecuentes y nunca incluidas en los precedentes
estudios, analizando los CV que presentan un clítico que depende del primer
verbo de la construcción (V1 de ahora en adelante) y otro que depende semántica-
mente del segundo verbo (V2). En estos contextos, puede haber también una
variación importante, ya que el clítico que depende de V2 puede desplazarse a la
izquierda o no, como vemos en los ejemplos (1) y (2), inventados pero fácilmente
observables en el español actual. Es lo que llamaremos a partir de ahora «con-
textos de atracción de clítico», puesto que se podría considerar a priori que el
primer clítico atrae el segundo hacia la izquierda.
(1) Me lo quedé mirando. / Me quedé mirándolo.

(2) Me lo pongo a pensar. / Me pongo a pensarlo.
5 Iglesias (2012, 204): «Enfin, il me semble assez clair […] que c’est dans les contextes les moins
simples que l’on peut trouver davantage de règles. En effet, […] les contextes les plus «normaux»,
les plus fréquents, sont bien plus sujets à une variation incontrôlée, les variantes de ces contextes
étant parfaitement invisibles».
426 Olivier Iglesias
1.2 Método y corpus
Para analizar el fenómeno de subida de clíticos en este contexto, adopto aquí el

método idiolectal propuesto y descrito por Barra-Jover (2015), según el cual «la
gramática social de un tiempo pasado nos es inaccesible y lo más que podemos
conocer son ciertas propiedades correlacionadas de la gramática de un locutor x
en un momento t». Los beneficios de analizar lo que pasa en las producciones de
unos locutores precisos ya han sido tratados en precedentes trabajos.6
El análisis de grandes corpus, que mezclan las producciones de cientos de
locutores, nos da una visión global del fenómeno, nos permite saber qué variante
es la más utilizada, etc., pero en absoluto nos permite observar regularidades
individuales en los usos. Lo que resulta de un hipertexto7 es un caos absoluto,8
una importante variación inter-idiolectal imposible de analizar correctamente. En
este sentido, el objetivo del análisis de idiolectos consiste en observar una
gramática individual para comprobar si existen una «lógica» o unas «reglas»
propias a un locutor o a un grupo de locutores. Al analizar las producciones de un
locutor se podrá observar si tiene una preferencia por una variante en un contexto
dado y una preferencia por otra variante en otro contexto. Todo esto es imposible
de ver si trabajamos con un hipertexto, como lo demuestran algunas contra-
dicciones en estudios sobre subida de clíticos.9
El método idiolectal como lo entienden Barra-Jover (2015) e Iglesias (2012)
consiste en un análisis exhaustivo de las producciones de un locutor. Para el
análisis de algunos fenómenos frecuentes (por ejemplo el leísmo), no es necesario
analizar muchas páginas de un idiolecto escrito, puesto que mediante la observa-
ción exhaustiva de unas cien páginas ya se encontrará un número de casos
suficientemente representativo para acceder a la gramática del locutor. Sin em-
bargo, cuando se quiere analizar un fenómeno mucho menos frecuente, el análi-
6 Es el método utilizado en Iglesias (2012; 2015).

7 La palabra hipertexto para referirse a este tipo de corpus la utiliza Barra-Jover (2015) y la define
de esta manera: «un corpus masivo (más o menos grande, informatizado o no) obtenido gracias a
la adición de textos de autores diferentes».
8 Un evaluador anónimo explica que los grandes corpus permiten establecer regularidades
estadísticas, las cuales se pueden analizar. Si bien comparto esta afirmación, mis precedentes
trabajos sobre la posición del clítico en los CV en español me parecen mostrar que, efectivamente,
los grandes corpus hipertexto revelan siempre una situación caótica que se traduce por ejemplo
en análisis diferentes en algunas ocasiones dependiendo del corpus analizado como queda
reflejado en la nota 2. Por consiguiente, la palabra caos ha de entenderse en este sentido.
Quisiera, además, aprovechar esta observación para agradecerles a los dos revisores de este
artículo sus observaciones y correcciones.
9 Véase de nuevo la nota 2.
sis exhaustivo es mucho más complicado (Iglesias 2015), puesto que se necesita-
rían muchísimas más páginas analizadas para obtener un número correcto de
ejemplos. Por todo ello, en este trabajo se ha decidido elegir algunos CV represen-
tativos del fenómeno y realizar búsquedas automáticas mediante el programa
libre de concordancias TextStat2 de la Universidad Libre de Berlín.10 Los comple-
jos verbales finalmente elegidos son los siguientes: costar, dejar, hacer, parecer,
permitir, atreverse a, decidirse a, limitarse a y ponerse a, todos ellos CV de
infinitivo y quedarse + gerundio.
Además, se ha decidido observar la posición de los clíticos en algunos de los
CV más frecuentes en contextos «simples». Estos CV son los de infinitivo poder,
deber y querer + infinitivo y los CV de gerundio estar e ir + gerundio. De esta
manera, se tendrá una base con la que comparar los resultados.
Finalmente, hay que precisar que se han excluido del análisis los contextos
que presentaban dos clíticos que dependían de V2 por lo que la subida conjunta
(y obligatoria) de ambos clíticos es extremadamente poco probable cuando ya
hay un clítico junto a V1. En efecto, aunque no es imposible encontrar frases con
tres clíticos en español (y más en registros no cuidados), son construcciones muy
poco frecuentes y que hubieran complicado aún más las búsquedas con el
programa TextStat2. De esta manera, el ejemplo en (3) ha quedado excluido del
análisis.
(3) Castelar: —¿Qué pensabas? —Pues apenas me atrevo a decíroslo. —Decidlo, pues.
En cuanto a los idiolectos elegidos, hay que señalar que todos son idiolectos
escritos, y que se han analizado dos por siglo entre el siglo XIX y el siglo XXI. Para
los siglos XIX y XX se han analizado las producciones de 4 escritores españoles y
para el siglo XXI, las producciones de dos jóvenes blogueras españolas, como
queda descrito en la tabla 1.
10 El programa está disponible en la página siguiente: http://neon.niederlandistik.fu-berlin.de/

en/textstat/. Permite la constitución de un corpus electrónico gracias a documentos en formato
texto (o html) y realizar búsquedas más o menos complejas.
Tabla 1: idiolectos analizados con el programa de concordancias TextStat2
1.3 Hipótesis
1.3.1 La hipótesis diacrónica
En la literatura existen varias hipótesis11 que intentan explicar el fenómeno de

subida de clíticos. En este trabajo, no pretendo verificar cada una de ellas, sino tan
solo dos de las hipótesis tradicionales más frecuentes. La primera, sin duda una de
las más generalizadas, consiste en afirmar que la subida de clíticos es cada vez más
frecuente a partir del siglo XX (de ahí que nos interesemos en este trabajo al período
que va desde el siglo XIX hasta hoy). En realidad, los estudios diacrónicos sobre
subida de clíticos (como los de Davies 1995 y 1998) concluyen que la subida es
mucho más frecuente en la lengua hablada que en la escrita y Davies explica que el
porcentaje de subida sigue bajando poco a poco en el español escrito durante el
siglo XX, aunque una búsqueda en el CDE parece contradecir esta idea.12 El autor
11 Algunas de ellas se recogen en las notas 2, 3 y 4.

12 Davies (1995, 378): «The handful of previous corpus-based studies do confirm the very
gradual decrease in clitic climbing in written Spanish even during the past 150 years». Sin
embargo, esta afirmación contradice los resultados que se pueden obtener realizando una
búsqueda en su CDE con el CV poder + infintifivo por ejemplo que revela que en los escritos del
siglo XIX hay un 14,66 % (4.474/26.045) de subida de clíticos mientras que en el siglo XX este
porcentaje sube al 30,72 % (5.394/12.167). De hecho, en Davies (1998, 258) se observa un ligero
aumento del porcentaje de subida con querer + infinitivo (del 13 % al 15 %) lo cual parece
demostrar efectivamente que aumentan los casos de subida durante el siglo XX.
también refleja que la situación se revierte de manera espectacular en el español

hablado,13 registro en el que la subida es mucho más frecuente. Por todo ello, al
analizar el corpus de idiolectos intentaremos verificar la hipótesis según la cual la
subida de clíticos es un fenómeno cada vez más frecuente en español. Además, si
consideramos las diferencias claras entre oral y escrito, cabe esperar que en los
idiolectos del siglo XXI de nuestro corpus, la subida sea aún más importante, tanto
por tratarse de producciones de locutores del siglo XXI como por el registro mucho
menos cuidado en sus escritos que el de los escritores de siglos anteriores presentes
en el corpus.
1.3.2 La hipótesis de la gramaticalización
La segunda hipótesis más extendida en los trabajos sobre subida de clíticos

considera que el grado de gramaticalización del CV influye directamente en la
posición del clítico. Es decir que cuanto más gramaticalizado es un auxiliar (o sea
V1), más probabilidades habrá de encontrar el clítico a la izquierda de la con-
strucción. Esta hipótesis la defienden entre otros Davies (1998), Torres Cacoullos
(1999) y también más recientemente Aijón Oliva/Borrego Nieto (2013):
[. . .] la facilidad para la proclisis depende, en buena medida, del grado de gramaticalización

o fusión que posea la construcción pluriverbal (cf. Davies 1998, Torres Cacoullos 1999), por
lo que esta resulta más frecuente con las perífrasis propiamente dichas (en particular con las
de tipo aspectual, seguidas a bastante distancia por las modales), y menos con los verbos
regentes de cláusulas subordinadas (Aijón Oliva/Borrego Nieto 2013, 106).
Esto no deja de ser sorprendente si consideramos que para Lamiroy (1999, 35), la
escala de gramaticalización sigue el proceso siguiente:
Verbo léxico > aspecto > modales deónticos > modales epistémicos > tiempo > afijo.
Por lo tanto, cabría esperar que la subida fuera más frecuente con auxiliares
modales que con auxiliares aspectuales al contrario de lo que aparece en el
trabajo de Aijón Oliva y Borrego Nieto. De ahí que nos interroguemos acerca de la
pertinencia de este criterio de gramaticalización a la hora de explicar la posición
de los clíticos en los CV en español.
13 Ibid. «The corpus shows […] clitic climbing is more common in the spoken than in the written
register».
1.3.3 La hipótesis idiolectal
Finalmente, será interesante averiguar si se confirma en este trabajo la hipótesis

idiolectal según la que cada idiolecto puede crearse un sistema totalmente
coherente de «reglas» en cuanto a posición de los clíticos. Puesto que, como
explica Iglesias (2015) en un trabajo sobre la posición de los clíticos en contextos
de interposición (cuando una o varias palabras quedan interpuestas entre los dos
componentes del CV): «[. . .] la colocación del pronombre en contexto de inter-
posición depende de las preferencias individuales y cada locutor parece poder
interiorizar un sistema lógico, coherente y más o menos estable (pero no es una
obligación) en su gramática personal que puede ser compartido por otros idiolec-
tos o no».14
2 La evolución de la posición del clítico en los CV

en español
Como acabamos de explicar, la variante con pronombre a la izquierda parece ser
cada vez más utilizada en español y, sobre todo, a pesar de que en la lengua escrita
se sigue privilegiando la variante con clítico a la derecha, en la lengua hablada la
variante que domina claramente es la que sitúa el clítico a la izquierda.
Para observar la evolución de la posición del clítico en español en nuestro
corpus se han analizado tres contextos: la subida del clítico con los CV simples
(es decir que presentan uno o dos clíticos regidos por el mismo verbo, el segundo
de un CV, gráfica 1), con los CV que permiten la atracción del clítico (gráfica 2), y
finalmente solo con el CV quedarse + gerundio, la construcción más representati-
va (por ser la más frecuente) en este aspecto (gráfica 3).
14 A raíz de una pregunta de Johannes Kabatek, al que agradezco por su interés en este asunto,
me gustaría añadir que, si bien se ha intentado, para cada escritor, crear un corpus homogéneo
(en cuanto a género, época de publicación, etc.), eso no ha sido posible en todos los casos, por lo
que se puede dudar de la homogeneidad de los idiolectos a lo largo del tiempo. Es posible que el
sistema de posición de los pronombres se vea modificado dentro de un idiolecto dependiendo del
género o incluso de la época en la que fue escrita. Sin embargo, en Iglesias (2012), al analizar la
posición del clítico en dos obras de Pérez Reverte de género muy diferente (El Capitán Alatriste y
El Club Dumas) he podido comprobar que no existen diferencias y que el sistema de posición del
clítico es uniforme y estable en estas dos obras. Por lo tanto, el género de una obra no parece
influir en este caso, aunque, evidentemente, habría que verificarlo con cada idiolecto; esta tarea
es imposible llevarla a cabo en este artículo. Además, también queda por verificar si a lo largo de
los años, la posición de los clíticos se ve modificada o no.
Antes de entrar en el análisis de los resultados, es preciso admitir que se

podría considerar como un límite importante de este estudio el analizar solo dos
idiolectos por siglo. En efecto, es imposible reflejar la evolución de un fenómeno
en la lengua española con una muestra tan limitada. Sin embargo, considero que
se puede hacer esta misma crítica al análisis de cualquier corpus, incluso los más
extensos, puesto que siempre habrá el problema del n+1 texto, problema expuesto
por Barra-Jover (2007) y según el que la conclusión obtenida a partir de un
conjunto de n textos no garantiza nunca predicciones sobre lo que puede pasar en
un n+1 texto. Esto se traduce, por ejemplo, en algunas de las contradicciones que
se pueden encontrar en diferentes trabajos que se basan en el estudio de dife-
rentes corpus. Por consiguiente, considero que el método idiolectal, como vere-
mos con el análisis de los resultados, permite, a pesar de analizar solo dos
idiolectos por siglo, verificar si la hipótesis diacrónica es cierta o si puede ser
falsa.
Primero, si observamos la gráfica 1,15 lo que salta a la vista es la gran variación
inter-idiolectal16 en cuanto a la posición del clítico en todos los contextos.
Gráfica 1: Subida del clítico en los CV simples
15 Entre paréntesis añadimos el número de casos de subida y el número total de ocurrencias

encontradas en el corpus.
16 Un test de Pearson realizado mediante el programa de estadísticas JMP10, ofrece el resultado
de p < 0,0001, lo cual significa que la diferencia entre los idiolectos es muy significativa. Esta gran
variación inter-idiolectal ya fue evocada por otros autores a principios del siglo XX como Spaul-
ding (1927, 346), Colburn (1928, 428) y, más recientemente, por Castillo Lluch (2002, 134–135).
También podemos observar dos grupos en el corpus: uno con los dos autores del
siglo XIX y otro con los cuatro idiolectos restantes. Esta diferencia nos puede
hacer pensar en una posible evolución diacrónica del fenómeno, ya que estos
resultados parecen indicar que la variante con clítico a la izquierda es más usada
a partir del siglo XX que en el siglo XIX. Esto es lo que observamos también en
grandes corpus electrónicos, pero, evidentemente, esta no es una conclusión
definitiva. El hecho de analizar solo dos idiolectos por siglo impide afirmar
rotundamente que la hipótesis diacrónica queda verificada aquí. Además, cabría
esperar que los dos idiolectos del siglo XXI utilizaran más la subida que los del
siglo XX, lo cual no queda reflejado en la gráfica. Pero esto tampoco nos permite
afirmar que la hipótesis diacrónica quede rechazada.
Lo que nos permiten afirmar claramente estos resultados es que existe una
gran variación inter-idiolectal. Y por eso mismo puede parecer inútil acumular
cientos y cientos de idiolectos en un corpus. En efecto, si pudiéramos hacer una
media de las producciones de todos los idiolectos actuales, es posible que la
subida fuera más frecuente que en las producciones de todos los idiolectos de los
años 50. Sin embargo, esto nunca se podrá verificar, y en todo caso, lo que
permite ver el método idiolectal es que un locutor de los años 50 podía producir
muchos más enunciados con subida de clíticos que un locutor joven de los años
2000. Esa es la diferencia que se observa entre Barea y Sara-g, si observamos la
gráfica 1.
Sin embargo, según algunos trabajos esperaríamos más subida en el idiolecto
de Sara-g por ser joven, usar un registro menos cuidado e incluso por ser una
mujer.17 ¿Estamos aquí frente a situaciones excepcionales o frente a argumentos
que podrían llevarnos a pensar que estas hipótesis pueden no ser ciertas? Este no
es realmente el objetivo de este trabajo, pero esta gráfica por lo menos permite
matizar algunas afirmaciones quizás demasiado drásticas.
17 En cuanto a la posición de los clíticos, Arroyo Hernández (2014) afirma que «en relación
a los factores sociales, cabe afirmar que la subida es más frecuente entre los jóvenes y entre
las mujeres». La misma idea queda reflejada en el trabajo de Gudmestad (2006, 9): «CC was
more frequent among females (82.6 % or 38/46 tokens) than among males (59.5 % or 22/37
tokens)».
Gráfica 2: Subida del clítico en los contextos de atracción
La gráfica 2 confirma lo que acabamos de decir: la variación inter-idiolectal es

aún más fuerte cuando observamos los contextos que permiten la atracción del
clítico. Es decir, parece que, en contextos menos frecuentes, las diferencias entre
los idiolectos se incrementan, como si cada locutor pudiera interiorizar reglas
propias, lo cual se intentará demostrar en el § 4.
En estos contextos, la hipótesis diacrónica queda de nuevo muy matizada,
puesto que una locutora del siglo XXI produce muchos menos casos de subida de
clítico que un locutor del siglo XX como Barea e incluso menos que uno del
siglo XIX como Navarro, como se puede comprobar en la gráfica 2 con los datos
entre paréntesis.
Finalmente, en la gráfica 3 salta a la vista que hay mucha más homogeneidad
entre los idiolectos (al menos entre 4 de ellos), con porcentajes muy elevados de
subida de clítico, cuando se observa únicamente la posición del clítico en el CV
quedarse + gerundio.
Evidentemente, estos porcentajes así como los valores absolutos recogidos
entre paréntesis han de tomarse con mucha precaución, debido al número muy
reducido de ejemplos en algunos casos. Castelar, por ejemplo, produce un único
ejemplo (con clítico a la derecha) con este CV en un corpus de más de 400.000
palabras.
Gráfica 3: Subida del clítico con el CV quedarse + gerundio
Por otro lado, si nos centramos en estos resultados y consideramos que son
representativos de la gramática de cada uno de estos locutores (aunque sea
mínimamente), tenemos dos idiolectos que no parecen favorecer la subida en este
CV: es el caso de Castelar y de Sara-g. Considero que la escasez de ocurrencias no
impide hacer proyecciones en el caso de Castelar. En efecto, con otras construc-
ciones que permiten la atracción tampoco se encuentra esta variante (la subida) y
este idiolecto presenta también los porcentajes más bajos de subida en los CV
simples.18
Ahora bien, evidentemente no afirmo que en el idiolecto de Castelar la subida
del clítico con el CV quedarse + gerundio es imposible, solo afirmo que en su
idiolecto se prefiere claramente la variante con clítico a la derecha. En el caso de
Sara-g, esta tendencia también parece clara y, aunque no estamos ante una regla
sistemática, la preferencia por una de las dos variantes es evidente, lo cual parece
indicar que, en estos dos idiolectos, la subida es una variante claramente mino-
ritaria que podríamos calificar de marcada para ellos, o de visible si utilizamos la
terminología de Barra-Jover (2011) y que define de esta manera:
Empecemos por la caracterización de una variante invisible:
Variante invisible: un mismo locutor puede usar para A la variante a1 y la variante a2 sin
tener consciencia de ello (sin controlar la alternancia), sin que ello dependa de la situación
y sin que el interlocutor pueda ni percibir ni interpretar la existencia de una alternancia. […]
18 Véanse las gráficas 1 y 2.

Las variantes visibles serán, en consecuencia, aquellas que los locutores pueden percibir y
pueden, al menos, querer controlar. La percepción puede ir en dos sentidos: una de las
variantes puede ser estigmatizada o, al contrario, considerada como propia de un discurso
elevado (Barra-Jover 2011, 82)
Además, se observan grandes diferencias entre nuestros resultados y los del CDE
(que recogemos en la tabla 2).
Tabla 2: Subida del clítico en el CV quedarse + gerundio en el CDE de Davies
No se ofrece en absoluto la misma imagen del fenómeno, aunque en ambos casos

hay homogeneidad en los porcentajes de subida entre el XIX y el XX. En nuestro
corpus nos damos cuenta de que se trata de un fenómeno muy vivo en algunos
idiolectos, que presentan porcentajes de subida que se acercan a los de los
contextos simples, mientras que en otros idiolectos la subida es poco utilizada. Si
miramos y analizamos los resultados en un gran corpus informatizado que
mezcla idiolectos tenemos una percepción modificada de la realidad en el que la
subida en este contexto parece ser un fenómeno relativamente limitado. Nos
encontramos con una media, que tiene cierto interés, pero que no refleja la
realidad de la frecuencia de la subida en algunos idiolectos en este contexto. En
efecto, al observar la tabla 2, uno podría pensar que en español la subida del
clítico con quedarse + gerundio es muy poco frecuente. ¿Cuál no sería la sorpresa
del que piense esto al escuchar o leer a un locutor como Barea que prefiere
claramente esta variante?
En este apartado, se ha querido comprobar si la hipótesis diacrónica se
verifica en un corpus de idiolectos. La respuesta no es fácil. Es cierto que parece
haber un cambio importante entre el siglo XIX y XX, pero si observamos los
idiolectos de las locutoras más jóvenes no encontramos diferencias significativas
con los dos escritores del siglo XX del corpus. Además, cuando se analizan
contextos menos tradicionales, menos frecuentes, las diferencias inter-idiolec-
tales son aún más importantes y ya no parecen mostrar ninguna progresión de la
variante con clítico a la izquierda (gráfica 2). Por consiguiente, la hipótesis según
la que habría cada vez más subida de clíticos en español deber ser matizada ya
que la bibliografía presenta resultados de los siglos XIX y XX y no tanto del XXI y
porque también depende de muchos parámetros.
3 La gramaticalización de los CV
Interesémonos ahora por la hipótesis según la cual cuanto más gramaticalizado
esté el auxiliar de un CV, más frecuente es la subida.
En el corpus se ha analizado la posición del clítico con tres CV de infinitivo:
poder, deber y querer + infinitivo. Poder y deber son dos verbos auxiliares modales
que pueden tener un valor tanto deóntico como epistémico. Por consiguiente, la
posición del clítico con estos dos CV no debería diferir mucho.19 Al contrario,
querer no es considerado como un auxiliar, Fernández de Castro (1999) no incluye
el CV querer + infinitivo en la categoría de perífrasis verbales (o CV conjuntos).
Cierto es que, como refleja el autor en un apéndice de su obra (Fernández de Castro
1999, 334), varios autores sí consideran querer como auxiliar y, por consiguiente,
la construcción querer + infinitivo como una perífrasis verbal. Es de esperar pues
que haya menos subida con este CV que con los dos anteriores o que, por lo menos,
los porcentajes de subida no sean significativamente diferentes. En efecto, se
podría considerar que un locutor no lingüista que no se interesa por la cuestión de
gramaticalización puede considerar el CV querer + infinitivo como una perífrasis
verbal puesto que muchos lingüistas también lo hacen. En todo caso, las gráficas
4, 5 y 6 parecen indicarnos que el grado de gramaticalización del auxiliar no parece
decisivo a la hora de situar el clítico a la derecha o a la izquierda.20
En efecto, se observa que en 5 de los 6 idiolectos la subida es más frecuente
con querer que con deber y además se observan diferencias importantes entre
poder y los dos otros verbos. El que la hipótesis de la gramaticalización de V1 no
parezca del todo confirmada con estos datos no significa que no desempeñe un
papel esencial en la mayoría de los casos, pues es esperable que cuanto más clara
sea la diferencia de gramaticalización entre dos verbos, por ejemplo poder frente
a pensar, más frecuente será la subida en el primer caso.
19 Un evaluador anónimo sugiere que los porcentajes de subida sí podrían diferir entre estos dos
CV por sus diferencias en cuanto a frecuencia y registro. Es cierto que parece haber una
correlación entre frecuencia de uso de un CV y posición del clítico (a menor frecuencia menor
subida) pero esta queda por demostrar en un estudio dedicado precisamente a esta hipótesis. En
cuanto al registro, al observar producciones escritas de individuos, la homogeneidad en cuanto
al registro es bastante fuerte y no debería influir aquí.
20 Se han separado los idiolectos por siglo para facilitar la lectura de las gráficas y de los valores
absolutos entre paréntesis.
Gráfica 4: Subida del clítico en CV de infinitivo en los dos idiolectos del siglo XIX
Gráfica 5: Subida del clítico en CV de infinitivo en los dos idiolectos del siglo XX
Gráfica 6: Subida del clítico en CV de infinitivo en los dos idiolectos del siglo XXI
Esto queda claro en 5 de los 6 idiolectos puesto que no encontramos ningún caso
de subida con pensar + infinitivo en Navarro (5 ocurrencias con clítico a la dere-
cha), Castelar (0/8), Barea (0/6) y Sender (0/4) y tan solo encontramos un caso (4)
sobre 10 ocurrencias del CV con clítico en el idiolecto de Sara-g. Sin embargo, en
Alba —los ejemplos (5) y (6) son una muestra de las dos variantes— encontramos
3 ejemplos de subida sobre un total de 7 ocurrencias lo cual, de nuevo, y en un
idiolecto, parece matizar la hipótesis de gramaticalización.21
(4) Sara-g: No le soporto, pero no le pienso pegar ahí mismo ni nada por el estilo
(5) Alba: Y que le piensas decir? —Pues contarle todo.
(6) Alba: en cambio te lo tomaste bien y le dijiste que tu pensabas decirle eso,
Así que la gramaticalización de V1 no parece ser del todo decisiva para definir la
posición del clítico en los CV en español. Al contrario, el hecho de que V2 sea un
infinitivo o un gerundio parece ser un factor mucho más determinante.
21 Un evaluador anónimo sugiere que, al encontrar pocos datos en términos absolutos, es difícil
sacar conclusiones y, además, observa una coherencia en el idiolecto de Alba que tiende
presentar tendencias elevadas de subida. Me parece que el hecho de encontrar pocos datos en
este caso no es problemático ya que, al tratarse de un CV tan poco gramaticalizado, no se
deberían encontrar tan fácilmente casos de subida. En cuanto a la coherencia del idiolecto de
Alba, está clara y me parece mostrar que podría incluso ser más importante este factor de
coherencia intra-idiolectal que el del grado de gramaticalización del CV.
En la tabla 3 podemos observar que, en los 6 idiolectos, hay una diferencia

clara y estadísticamente muy significativa si observamos este factor.22
Tabla 3: Subida del clítico según la forma de V2, infinitivo o gerundio en contextos simples
Además, para 5 de los 6 idiolectos, se observa una regularidad muy fuerte con
porcentajes de subida muy importantes cuando V2 es un gerundio. Esta cohesión
aparentemente más fuerte de los CV de gerundio con respecto a los de infinitivo
ha sido observada en Iglesias (2012: 253).
La comparación de la posición del clítico en contextos de atracción según
este mismo criterio (V2 infinitivo o gerundio) también parece confirmar esta
tendencia, puesto que para 4 de los 6 idiolectos la probabilidad de que el clítico
suba es mucho más fuerte cuando V2 es un gerundio (en quedarse + gerundio) que
cuando es un infinitivo.
Tabla 4: Subida del clítico según la forma de V2, infinitivo o gerundio en contextos de atracción
22 El test exacto de Fischer revela que la probabilidad para que haya una subida es mucho más
fuerte cuando V2 es un gerundio: el valor de p para los 6 idiolectos es p < 0,0001. Por
consiguiente, a pesar de que en el idiolecto de Sender la subida no sea tan frecuente con el
gerundio como en los otros idiolectos no impide que este factor sea significativo.
Este factor no es significativo para dos de los idiolectos, Castelar que no produce
ningún caso de subida en este contexto y Sara-g (p = 0,5862 en un test exacto de
Fischer), mientras que para los 4 idiolectos restantes, el resultado sí es claramente
significativo (p < 0,0001). Por consiguiente, como ya se ha comentado, la hipó-
tesis de la gramaticalización de V1 queda ligeramente en entredicho con los
resultados de los análisis de este corpus de idiolectos, ya que, además, muestran
una correlación muy importante entre la subida y la forma de V2 (infinitivo o
gerundio).
4 «Atracción» de clíticos
4.1 Con los CV de infinitivo
Con los CV de infinitivo la subida es excepcional, como hemos podido comprobar

antes en la tabla 4. Parece haber una regla casi estricta en todos los idiolectos: en
este contexto, el clítico no sube y se mantiene a la derecha. En todo el corpus,
juntando los 6 idiolectos, se encuentran tan solo 5 excepciones a esta regla sobre
un total de 151 ocurrencias, es decir, tan solo se observa un 3,1 % de subida. Estas
son las excepciones:
(7) Navarro: Así me lo hizo jurar su madre, y así lo cumplo

(8) Sender: se las había hecho traer de Londres y de ellas decía años atrás Carvajal
(9) Sender: Mister Witt se lo hizo repetir fingiendo que no lo comprendía
(10) Barea: la señora Pascuala se la hizo fregar de arriba abajo
(11) Alba: Nos hicimos la foto y el chico de antes, el del bar se acerco. —me la dejas ver?
La mayor parte de ocurrencias presentan un clítico a la derecha:
(12) Castelar: —Angela, no me atrevo a creerlo.

(13) Navarro: Si tu delicadeza no te permite prohijarla, no reveles jamás el nombre
(14) Sender: La ilusión de la tierra que iban a poseer les hacía olvidarlo todo.
(15) Sara-g: Como una tonta me puse a bailarla
(16) Alba: que al menos te deje verle
La subida, por consiguiente, se produce casi exclusivamente con hacer + infiniti-

vo, pero de todos modos de manera muy excepcional. Sin embargo, la subida con
otros de los CV presentes en el corpus no es rara hoy en español. Una rápida
búsqueda en Google23 de la expresión exacta «me lo puse a pensar» ofrece más o
23 Búsqueda realizada el 26/02/2015 a las 16h42.

menos 61.200 resultados como el ejemplo (17), mientras que la expresión «me
puse a pensarlo» da 142.000 resultados, incluido el (18).24
(17) Google\yelresto: Me lo puse a pensar mientras hacía fuerza, también cuando me

levanté al día siguiente, al otro de nuevo y ahora que escribo esto.
(18) Google\carmex: primero dije que si, luego me puse a pensarlo bien y empece a
dudarlo y se lo dije
Por consiguiente, con esta simple expresión, nos damos cuenta de que la subida
por atracción de clíticos con el CV ponerse a + infinitivo, aunque no sea la variante
dominante, sí queda ampliamente representada en la red.25 30 % de los casos
totales en la red, lo cual no queda en absoluto reflejado en nuestro corpus, quizás
demasiado literario, puesto que con este CV no obtenemos ningún caso de subida
sobre 19 apariciones del CV.
En general, nuestros datos indican que, a pesar de los pocos ejemplos
encontrados en nuestro corpus, hay una tendencia clara a situar el clítico a la
derecha en los 6 idiolectos cuando V2 es un infinitivo.
4.2 Con quedarse + gerundio
4.2.1 Castelar y Sara-g:
Con este CV ya hemos podido observar los porcentajes de subida en la tabla 4.

Hay que recordar que dos de los idiolectos no favorecen la subida con esta
construcción: Castelar no produce ningún ejemplo de subida (con una única
ocurrencia en el corpus de la expresión) y Sara-g produce 6 ejemplos, incluido el
(19), sobre 67 (o sea, casi un 9 % de los casos).
(19) Sara-g: Su hermana y su madre se me quedaron mirando muy sonrientes y tan solo
saludé y sonreí.
(20) Sara-g: Lolo se quedó mirándome sin saber que responder y se levantó de la arena
24 Aquí dejamos los enlaces en los que han sido observados estas ocurrencias (consultados el
26/02/2015)
Para (17): http://yelresto.blogspot.fr/2009/02/478-preparo-apunto-y-fuego-3-especial.html
Para (18): http://www.fobiasocial.net/mi-primer-beso-y-acostada-en-la-cama-71077/.
25 Un evaluador anónimo sugiere que no se deberían dar datos cuantitativos de este tipo de
búsquedas en Google por presentar datos tan aleatorios (por los ejemplos repetidos o los números
que no siempre coinciden con los resultados reales, etc.) Estoy totalmente de acuerdo con esta
observación y los números que doy deben ser considerados únicamente como indicios de una
posible tendencia y no pretendo sacar de ellos conclusiones fuertes.
Aunque en estos dos casos no podamos hablar de regla estricta, parece que la
variante preferida en este contexto es la variante con clítico a la derecha.
4.2.2 Navarro
En cuanto al idiolecto de Navarro, es el que presenta más variación: 10 casos de

subida sobre 15. Podríamos entonces pensar que estamos ante dos variantes
invisibles para Navarro con una preferencia por la subida. Sin embargo, si
observamos los cinco casos con clítico a la derecha, con los ejemplos siguientes,
nos damos cuenta de que todos presentan un esquema sintáctico similar que se
podría resumir así:
Quedarse+gerundio […] y […] [verbo]
(21) Navarro: me quedéi mirándole con asombro, y pro i leyendo en su rostro

(22) Navarro: Yo me quedéi mirándole y pro i con la mano metida en el bolsillo
(23) Navarro: la anciana se quedó mirándola, y prosiguió diciendo
(24) Navarro: Eudón se quedó mirándole […] y luego fijó los ojos
(25) Navarro: Ranimiro se quedó mirándole […], y después […], prosiguió
Comprobamos que cuando el CV quedarse + gerundio es seguido por una oración

coordinada con la conjunción y, seguida por un verbo,26 el clítico siempre se sitúa
en nuestro corpus a la derecha. Dado el escaso número de ejemplos es imposible
afirmar con rotundidad que esta es una regla estricta y habría que aumentar la
base de datos de este idiolecto para confirmarlo, pero el que todas las excep-
ciones sigan el mismo esquema debe hacernos pensar que tal vez el escritor haya
interiorizado una regla clara y fácilmente explicitable en términos lingüísticos.
En realidad, el clítico no se sitúa sistemáticamente a la derecha de V2 en este
contexto sintáctico, puesto que hay un contra ejemplo (26) en el que el clítico se
sitúa junto a V1, pero en enclisis y no en proclisis, como si este contexto sintáctico
provocara en su idiolecto la enclisis (con V2 o V1).
(26) Navarro: quedósele mirando de hito en hito en medio de la oscuridad, y exclamó de

pronto arrojándose loca de júbilo a sus brazos (…)
26 Este verbo puede ser explícito como en los ejemplos (23) a (25) o elidido como en los ejemplos
(21) y (22) en el que hay una elipsis del verbo quedar.
4.2.3 Barea
En el idiolecto de Barea, se contabilizan 36 casos de subida sobre un total de 45

ocurrencias de este CV, o sea un 80 % de subida. Aunque parece clara la
preferencia por la variante con subida de clítico, las dos variantes son aparente-
mente libres (o invisibles) puesto que ambas aparecen en los mismos contextos,
con los mismos clíticos, etc. Sin embargo, a pesar de que pueden aparecer en los
mismos contextos, observamos con los ejemplos (27) y (28) que la secuencia se +
me presenta una regularidad muy fuerte a favor de la subida (con 22/24 casos de
subida o sea un 91,7 %).
(27) Barea: el viejo se quedó mirándome

(28) Barea: Mariano se me quedó mirando muy serio
Con la secuencia se + 3ª persona, la variación es mayor, con 9 casos de subida

sobre 13 (solo representa el 69,2 % de los casos).
(29) Barea: El albañil se le quedó mirando y le dijo: —No me da la gana.

(30) Barea: El viejo se queda mirándole y después llama a su hijo.
Si nos fijamos en el pronombre de tercera persona (singular y plural) femenina

con función de objeto directo, la(s), observamos cierta regularidad. Este clítico,
aunque solo encontramos cuatro ocurrencias, nunca sube en nuestro corpus de
este idiolecto. A pesar de que sean pocos ejemplos resulta sorprendente que estas
cuatro ocurrencias con clíticos a la derecha representen la mitad del total de los
casos con esta variante, por lo cual parece significativo.
(31) Barea: Nos quedamos mirándolas: Madrid, hambriento, estaba muy cerca de allí.
(32) Barea: Una vez, dejé el lápiz y me quedé mirándola, absorta en lo que leía.
(33) Barea: El muchacho que estaba de turno como censor se quedó mirándola a través de
sus gafas
(34) Barea: El oficial inglés se quedó mirándola con los ojos azules dilatados.
Evidentemente es imposible sacar conclusiones definitivas, pero son tendencias

que tienden a confirmar que cada idiolecto puede interiorizar reglas precisas y
muy diferentes de un idiolecto a otro.
4.2.4 Sender
En el caso de Sender, el problema es que nos encontramos con solo 5 casos de

subida sobre 7, con un porcentaje sorprendentemente elevado, puesto que en su
idiolecto la subida es una variante muy minoritaria. De nuevo aquí, el hecho de
que sea una construcción con gerundio puede explicar el porcentaje tan elevado
de subida como lo hemos visto en el §3.
A pesar de este porcentaje relativamente alto de subida en el idiolecto de
Sender (más del 70 %) y del escaso número de ejemplos, se pueden encontrar dos
frases sintácticamente muy próximas que presentan las dos variantes posibles, lo
cual nos invitaría a pensar que son variantes libres e incontroladas en su idiolecto.
(35) Sender: Curro se me quedó mirando como fascinado.

(36) Sender: Curro se quedó mirándome con los ojos muy abiertos
4.2.5 Alba
Finalmente, el idiolecto de Alba es el que presenta más casos con esta construc-
ción, con 59 casos de subida sobre 83 ocurrencias, lo que corresponde a un 71,1 %
de los casos totales. El hecho de que haya muchos más ejemplos permite, con el
método idiolectal, describir más precisamente la posición del clítico en este
contexto y averiguar de manera más segura si existe una coherencia en este
sistema. A primera vista, con un 71,1 % de casos de subida, la conclusión que
podemos sacar es que hay una preferencia por la subida, pero al haber una
variación bastante importante, podemos prever la presencia de variantes invisi-
bles, como en (37) y (38), dos frases que presentan exactamente el mismo
contexto sintáctico reforzando así la sensación de que estamos ante variantes
totalmente incontroladas.
(37) Alba: no puedo estar asi. —Dijo Carlos, yo me le quede mirando.

(38) Alba: El se giro y me miro, yo me quede mirandole.
A pesar de todo, se observa una variación importante según el clítico utilizado. En

efecto, el pronombre me sube casi sistemáticamente (32/35, o sea, el 91 % de los
casos). El ejemplo (39) pues, es mucho más representativo del idiolecto de Alba
que el (40).
(39) Alba: tienes algo pintado y se me han quedado mirando

(40) Alba: pero se quedo mirandome fijamente unos segundos
Lo realmente interesante en este corpus es la posición del clítico lo, que no sube
nunca en 11 ocurrencias. Es significativo que sea el único pronombre con el que
no se produce nunca la subida si comparamos este dato con el porcentaje elevado
global (más del 70 %). Además, representa casi la mitad de los casos en los que
no se producen la subida (11 sobre 24). Por todo ello, parece que en su idiolecto
Alba ha podido interiorizar una regla que impide la subida de un clítico con
referente inanimado o no humano en este contexto preciso.
(41) Alba: Me levante la manga, y todos se quedaron mirandolo. —Es precioso.27

(42) Alba: Yo mire hacia abajo y me quede pensándolo28
(43) Alba: Estaba Harry potter en la tele y me quede viendolo.
(44) Alba: cogio un papel del suelo, lo abrió y se quedó mirandolo
Esta tendencia también aparece, aunque no de manera tan clara, con el CV poder
+ infinitivo ya que observamos un porcentaje bastante más bajo de subida con lo
que en el porcentaje global (del 55,1 % de subida).29 Con lo, la subida se produce
solo en un 34,8 % de los casos (15/43).
Por consiguiente, el carácter animado o no del referente parece poder influir
en la posición del clítico, algo que ya ha sido demostrado en otros estudios,30
pero esta tendencia es mucho más radical en este contexto preciso, donde no hay
excepción alguna. El número relativamente bajo de ocurrencias debe conducir a
una interpretación prudente, pero de nuevo, en este caso, el análisis de un
idiolecto permite percibir lo que podría considerarse como una regla individual.
5 Conclusiones
5.1 Hipótesis «tradicionales» no verificadas
Para concluir este trabajo, cabe repetir que el límite que supone el análisis de dos
idiolectos por siglo impide llegar a conclusiones definitivas. De hecho, ese no era
su objetivo primero. El interés del método idiolectal radica en que se puede
considerar que analizando un número reducido de idiolectos de forma separada,
27 En este caso, el referente del pronombre lo es «un tatuaje» y encontramos dos ejemplos
idénticos en el corpus, con el mismo referente.
28 La expresión me quedé pensándolo (con ausencia o presencia de los acentos) aparece 7 veces
en el corpus.
29 Véase la gráfica 6.
30 Se da la referencia de estos estudios en la nota 2 al principio de este trabajo.
individual, es posible observar cosas que no revela un estudio basado en un

hipertexto.
En este caso, si bien los resultados obtenidos con el análisis de nuestro
corpus no permiten refutar ni confirmar algunas hipótesis tradicionales, sí nos
han llevado a matizarlas seriamente. En cuanto a la hipótesis diacrónica, los
resultados de nuestro corpus parecen indicar, efectivamente, un cambio bastante
importante y relevante entre el siglo XIX y el siglo XX, cambio que queda refleja-
do en las diferencias muy fuertes en los porcentajes de subida de los dos autores
del XIX con respecto a los otros cuatro idiolectos. Sin embargo, estos mismos
resultados no reflejan diferencias claras entre los idiolectos del siglo XX y XXI,
período durante el cual, según Davies (1995), se producen cambios aún más
fuertes. Seguramente las dificultades para confirmar o refutar esta hipótesis se
deban al escaso número de idiolectos analizados. No obstante, basta con observar
la posición del clítico con CV especiales (los que tienen un clítico dependiendo de
V1) para observar que las diferencias inter-idiolectales, al ser todavía más fuertes,
nos deben llevar a relativizar muy fuertemente la hipótesis diacrónica. De hecho,
cabe recordar que la tabla 2 indica que no hay ninguna evolución en la posición
del clítico con quedarse + gerundio entre el siglo XIX y XX en un gran corpus
electrónico, por lo que podemos suponer que, aunque haya cada vez más subida
de clítico en español, esto puede ser verdadero en los contextos más simples. En
contextos más complejos, como, por ejemplo, los CV analizados en nuestro
corpus, la hipótesis diacrónica debe ser rechazada o, al menos, fuertemente
matizada.
Lo mismo pasa con la hipótesis de gramaticalización, puesto que se ha
podido comprobar que en casi todos los idiolectos del corpus la subida del clítico
no depende realmente del grado de gramaticalización de V1. Recordemos que la
subida es casi siempre más frecuente con querer que con deber y que querer no se
debe considerar realmente como un auxiliar (según Fernández de Castro 1999).
Una vez matizada esta hipótesis de la gramaticalización, habría que ver y verificar
en trabajos futuros si la naturaleza de V2 (si es infinitivo o gerundio) no es un
factor más significativo aún, como hemos podido comprobar en este trabajo.
5.2 Conclusiones sacadas gracias al método idiolectal
Resulta claro que el análisis de estos 6 idiolectos difícilmente permitirá sacar

conclusiones radicales. Lo que sí permitió es comprobar que, efectivamente,
parece posible que un idiolecto se cree una gramática individual con reglas más o
menos complejas para hacer más coherente el sistema de posición del clítico en
los CV en español.
Estas reglas suelen aparecer con más claridad en los contextos menos
frecuentes, puesto que, con los CV más frecuentes, la variación es mucho más
importante. Es como si, con algunos CV y en algunos contextos, los menos
frecuentes, las dos variantes (clítico a la derecha o a la izquierda) fueran con-
troladas o visibles por el propio locutor mientras que, en otros contextos, los más
frecuentes, estas fueran aparentemente incontroladas, libres o invisibles.
Evidentemente, al tratarse aquí de seis idiolectos escritos podemos suponer
que resulta más fácil para el locutor controlar sus propias producciones. Podemos
poner como ejemplo la posible regla de Navarro descrita con los ejemplos (21) a
(25), regla que parece impedir la subida en un contexto sintáctico muy preciso:
presencia de una oración yuxtapuesta y con un verbo en esa oración. El hecho de
que se trate de un escrito, con una posibilidad de llevar a cabo una mayor reflexión
y correcciones, puede explicar la existencia de este tipo de reglas o este tipo de
control. Sin embargo, en la lengua hablada, este control debe ser más limitado.
El interés de este tipo de trabajo, basado en el análisis de idiolectos, no radica
en la voluntad de explicar por qué se sitúa el clítico a la izquierda o a la derecha
en español, ni en explicar por qué existe simplemente esa posibilidad. Tampoco
pretende este tipo de trabajo rechazar las hipótesis tradicionales, por el mero
hecho de que resulta difícil o incluso imposible rechazar una hipótesis verificada
con datos reales sacados de un corpus más o menos extenso, a pesar de las dudas
metodológicas que uno pueda tener respecto a este tipo de corpus.
El método idiolectal, además de sus posibilidades y su interés en el estudio
diacrónico de la lengua,31 puede aportar una nueva metodología que permita
observar la gran variación inter-idiolectal (e incluso en un mismo idiolecto) y
demostrar que se pueden encontrar algunas regularidades fuertes explicitables
en términos lingüísticos y que, en el caso de la posición del clítico, no hay tanta
libertad, tanto caos, como tradicionalmente se cree, sino sistemas bastante cohe-
rentes que un estudio de grandes corpus (hipertexto) no permite ver.
6 Bibliografía
Aijón Oliva, Borrego Nieto, La variación gramatical como forma y significado: el uso de los clíticos
verbales en el español peninsular, Lingüística 29:2 (2013), 93–126.
Arroyo Hernández, Ignacio, Posición de los pronombres átonos en estructuras verbales comple-
jas: enunciador, interacción y efectos contextuales, Actas del I Congreso A.I.Gr.E – Analisi e
comparazione delle lingue dalla prospettiva dell’interazione, Roma (2012), 2015.
31 Barra-Jover (2015) ilustra perfectamente las posibilidades que ofrece este método idiolectal en
diacronía.
Barra-Jover, Mario, S’il ne restait que l’induction: corpus, hypothèses diachroniques et la nature
de la description grammaticale, Corpus et hypothèses diachroniques, Paris, RLV 36, 2007.
Barra-Jover, Mario, Des variantes invisibles à la fragmentation des langues romanes, Pour une
typologie diachronique et synchronique des langues romanes, Recherches Linguistiques
de Vincennes 38 (2009), 105–137.
Barra-Jover, Mario, Variantes invisibles, emergencia y cambio lingüístico, in: Castillo Lluch,
Mónica/Pons Rodríguez, Lola (edd.), Así se van las lenguas variando. Nuevas tendencias
en la investigación del cambio lingüístico en español, Bern, Peter Lang, 2011, 75–105.
Barra-Jover, Mario, Método y teoría del cambio lingüístico: argumentos en favor de un «método
idiolectal», in: García Martín, José María (dir.), Actas del IX Congreso Internacional de Historia
de la Lengua Española (Cádiz 2012), Madrid, Iberoamericana/Vervuert, 2015, 263–292.
Bermúdez, Fernando, La «subida de clíticos»: modalidad, prominencia y evidencialidad, in:
Bermúdez, F., Evidencialidad: la codificación lingüística del punto de vista, Stockholm,
Universidad de Estocolmo, 2005, 169–193.
Castillo Lluch, Mónica, Double syntaxe du pronom atone en espagnol contemporain, in: Araújo
Carreira, M.H. (dir.), Instabilités linguistiques dans les langues romanes, Saint-Denis,
Université Paris 8, 2002, 129–141.
Davies, Mark, Analyzing Syntactic Variation with Computer-Based Corpora: The Case of Modern
Spanish Clitic Climbing, Hispania 78 (1995), 370–380.
Davies Mark, The evolution of Spanish clitic climbing: A corpus-based approach, Studia Neophi-
lologica 69:2 (1998), 251–263.
Davies, Mark (2002–) Corpus del Español: 100 million words, 1200s–1900s. Disponible en línea
en: http://www.corpusdelespanol.org.
Fernández de Castro, Félix, Las perífrasis verbales en el español actual, Madrid, Gredos, 1999.
Gudmestad, Aarnes, Clitic climbing in Caracas Spanish: A sociolinguistic study of «ir» and
querer, Working Papers Online 6, Indiana University Linguistics Club (2006).
Iglesias, Olivier, Le placement des clitiques dans les complexes verbaux en espagnol: une
nouvelle approche de la question, Tesis doctoral, Universidad Paris 8, 2012. Disponible en
línea en: http://1.static2.e-corpus.org/download/notice_file/2267104/IGLESIAS.pdf.
Iglesias, Olivier, La interposición en los complejos verbales y la subida del clítico, in: García
Martín, José María (dir.), Actas del IX Congreso Internacional de Historia de la Lengua
Española, Cádiz (2012), Iberoamericana/Vervuert, 2015.
Lamiroy, Béatrice, Auxiliaires, langues romanes et grammaticalisation, Langages 33:135 (1999),
33–45.
Myhill, John, The Grammaticalization of Auxiliaries: Spanish Clitic Climbing, Proceedings of the
Fourteenth Annual Meeting of Berkeley Linguistics Society, 1988, 352–363.
Schwenter Scott/Torres Cacoullos Rena, Variation in Spanish clitic placement: constructional
and pragmatic effects, 39th Linguistic Symposium on Romance Languages (LSRL), Univer-
sity of Arizona, 2009.
Torres Cacoullos, Rena, Construction frequency and reductive change: Diachronic and register
variation in Spanish clitic climbing, Language Variation and Change 11 (1999), 143–170.
Troya Déniz, Magnolia, La posición de los pronombres personales átonos en combinación con
las perífrasis verbales en América y España, in: Moreno, F., et al. (coord.), Lengua, variación
y contexto. Estudios dedicados a Humberto López Morales, vol. 2, Madrid, Arco Libros,
2003, 875–894.
Zabalegui, Nerea, La posición de los pronombres átonos en construcciones con verbos no
conjugados en el español actual de Caracas, Akademos 10:2 (2008), 83–107.

Kabatek Johannes - Linguistica de Corpus Y Linguistica Historica Iberorromanica

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Kabatek Johannes - Linguistica de Corpus Y Linguistica Historica Iberorromanica

Cargado por

Copyright:

Formatos disponibles

Lingüística de corpus

Library of Congress Cataloging-in-Publication Data

Bibliografische Information der Deutschen Nationalbibliothek

© 2016 Walter de Gruyter GmbH, Berlin/Boston

I. Contribuciones a la lingüística de corpus desde

Santiago del Rey Quesada

Álvaro S. Octavio de Toledo y Huerta

II. Corpus iberorrománicos

Rosario Álvarez y Ernesto González Seoane

Maria Francisca Xavier

Vicente J. Marcet Rodríguez y M.ª Nieves Sánchez González de Herrero

Catarina Carvalheiro, Ana Luísa Costa, Rita Marquilhas, Clara Pinto,

III. Corpus y análisis cuantitativos

Kim Schulte and José Luis Blas Arroyo

María Jesús Torrens Álvarez y Hiroto Ueda

Mª Carmen Moral del Hoyo

Inés Carrasco Cantos y Livia Cristina García Aguiar

IV. Cuestiones lingüísticas diacrónicas iberorrománicas y

Beatriz Arias Álvarez y Juan Antonio Hernández Mendoza

Marta Fernández Alcaide

Johannes Kabatek: Universität Zürich

estudio, en los datos y fenómenos relacionados, y, por otro lado, en el hecho de

3 Lingüística de corpus y lingüística con corpus

4 Corpus, lengua, representatividad

los albores de la lingüística de corpus moderna todavía era frecuente encontrar un

individuales, tradiciones que un mismo individuo crea y cultiva y que lo distin-

Mientras que la primera fase de la lingüística moderna de corpus históricos

5 En el caso del español, un caso excepcional es el ya histórico ADMYTE, nacido en circunstan-

5.2 La mirada crítica de los corpus existentes:

Como indicábamos más arriba, otro aspecto esencial de la nueva lingüística de

7 Véanse los criterios de edición en http://www.charta.es/criterios-de-edicion-/ Cf. también

5.3 Nuevos corpus, nuevas herramientas

Más allá de los corpus grandes de generaciones anteriores, en el presente estamos

5.4 Nuevos datos, nuevos factores, nuevas posibilidades

Si intentamos resumir las tendencias predominantes en la lingüística iberorromá-

6 Los trabajos de este volumen

El libro se abre con las reflexiones de Andrés Enrique-Arias acerca de lo que el

Abre la segunda sección, dedicada a la presentación de nuevos corpus o de

Seoane, quienes presentan el corpus gallego Gondomar. Como es sabido, el

En la tercera sección se discuten cuestiones cuantitativas y se presentan análisis

elegidos según criterios diatópicos y diacrónicos, la autora muestra convincente-

En la cuarta sección encontramos diferentes cuestiones de la lingüística diacróni-

En suma, el panorama presentado en este libro es amplio y permite ver algunas

7 Lista de corpus y bancos de datos citados

DITECA – Diccionario de Textos Concejiles de Andalucía,

Internacional de Historia de la Lengua Española (Valencia, 31.1.–4.2. 2000), vol. 1, Madrid,

Andrés Enrique-Arias: Universitat de les Illes Balears

ámbito de la visión en el espacio físico entendemos que la perspectiva es el

2 Corpus convencionales y corpus paralelos

En la metodología de los textos paralelos informatizados como Biblia Medie-

4 Ventajas de los corpus paralelos

Un aspecto de gran importancia a la hora de evaluar la utilidad de un corpus

numerosos pasajes de difícil interpretación o que en ocasiones sea imposible

tor ha aprovechado la ambigüedad del posesivo de tercera persona en aviw ‘su

4.2 Valor heurístico

Una de las ventajas principales de los textos paralelos es su función heurística,

que en la General estoria. Se trata de una forma que no hubiéramos buscado en

4.3 Perspectiva abierta

Otra ventaja de la perspectiva función → forma empleada en la metodología de los

Vulgata numquid rugiet onager cum habuerit herbam

En las traducciones de Job 6:5 podemos observar la amplia variedad de expresio-

En este caso solamente la General estoria emplea el si condicional mientras que

4.4 Posibilidad de rastrear formas no explícitas y variables

E8 E metió la mano en su talega e sacó una guija.